Hjem Personlig finansiering Sammenføjning af tabeller med Hive - dummies

Sammenføjning af tabeller med Hive - dummies

Video: Sqoop Import and Export data from RDMBS and HDFS 2024

Video: Sqoop Import and Export data from RDMBS and HDFS 2024
Anonim

Du ved sikkert allerede, at eksperter i relationelt databasemodellering og design typisk bruger meget tid til at designe normaliserede databaser eller skemaer <. Database Normalisering er en teknik, der beskytter mod tab af data, redundans og andre uregelmæssigheder, da data opdateres og hentes. Eksperterne følger en række regler for at nå frem til en normaliseret database, men Regel 1 er, at du skal ende med en

gruppe af tabeller. (Et stort bord, der gemmer alle dine data, er ikke normalt. Ordsprog er beregnet.) Der er undtagelser afhængigt af brugen, men loven i mange tabeller følger generelt tæt sammen, især for databaser, der understøtter transaktioner eller analytisk behandling (business intelligence, for eksempel).

Når du begynder at forespørge og analysere dine data, slettes tabeller baseret på de definerede relationer mellem dem ved hjælp af SQL - hvilket betyder, at diskerne i sidste ende er optaget på din server, når du begynder at deltage i tabeller, og optaget disketter resulterer normalt i langsommere brugersvaretider. Den gode nyhed er dog, at RDBMS'er og EDW'er er indstillet til at gøre sammenføjninger så hurtigt som muligt.

Hvad har alt dette at gøre med at blive med i Hive? Husk at det underliggende operativsystem til Hive er (overraskelse!) Apache Hadoop: MapReduce er motoren til at slutte tabeller, og Hadoop File System (HDFS) er den underliggende lagring. Det er alle gode nyheder for brugeren, der ønsker at oprette, styre og analysere store tabeller med Hive.

Muligheden for at låse op information, der er skjult i massive datastrukturer, er spændende. Men sammen med Hive udfører normalt ikke så godt som de gør i RDBMS / EDW verden, så første gangs brugere bliver ofte overrasket over "pokiness" af systemets respons.

Husk at MapReduce og HDFS er optimeret til gennemløb med stor dataanalyse, og at i denne verden er

latenser - brugersvaretider med andre ord - normalt høj. Hive er designet til batch-stil analytisk behandling, ikke til hurtig online transaktionsbehandling. Brugere, der ønsker den bedst mulige ydeevne med SQL på Apache Hadoop, har løsninger til rådighed.

Hold denne dynamik i tankerne, når du begynder at deltage i tabeller med Hive. Vær også opmærksom på, at Hive-arkitekter i nogen grad deormaliserer deres databaser, så det er almindeligt at have færre større tabeller. Derfor leveres komplekse datatyper som STRUCTs og ARRAYs. Du kan bruge disse komplekse datatyper til at pakke meget flere data til et enkelt bord.

Fordi Hive-bordet læser og skriver via HDFS normalt involverer meget store datablokke, jo flere data kan du håndtere helt i ét bord, desto bedre er den samlede ydeevne.

Disk- og netværksadgang er meget langsommere end hukommelsesadgang, så minimere HDFS læser og skriver så meget som muligt.

Med denne baggrundsinformation i tankerne kan du tackle at gøre sammen med Hive. Heldigvis var Hive-udviklingssamfundet realistisk og forstod, at brugere ville have brug for og blive nødt til at deltage i tabeller med HiveQL. Denne viden bliver særlig vigtig med EDW augmentation. Brug sager som "forespørgsel" arkiver kræver ofte sammenføjninger til dataanalyse.

Her er et Hive join-eksempel ved hjælp af flydatatabeller. Listingen viser dig hvordan du opretter og viser en myflightinfo2007 tabel og en myflightinfo2008 tabel fra de større FlightInfo2007 og FlightInfo2008 tabeller. Planen hele tiden var at bruge CTAS oprettet myflightinfo2007 og myflightinfo2008 tabeller for at illustrere hvordan du kan udføre samlinger i Hive.

Figuren viser resultatet af en indre sammenføjning med myflightinfo2007 og myflightinfo2008 tabellerne ved hjælp af SQL-klienten SQuirreL.

Hive understøtter

equi-joins, en bestemt type tilslutning, der kun bruger ligestillings sammenligninger i joinprotikatet. (ON m8. FlightNum = m7. FlightNum er et eksempel på en equi-join.) Andre komparatorer såsom Mindre end (<) understøttes ikke. Denne begrænsning er kun på grund af begrænsninger på den underliggende MapReduce-motor. Du kan heller ikke bruge OR i ON-klausulen. Figuren illustrerer det tidligere eksempel på det indre forbund og to andre Hive-sammenføjningstyper. Bemærk, at du kan bekræfte resultaterne af en indre sammenføjning ved at gennemgå indholdet af myflight2007 og myflight2008 tabellerne.

Følgende figur illustrerer, hvordan en indre sammenføjning arbejder med et Venn-diagram, hvis du ikke er bekendt med teknikken. Grundidéen her er, at en indre deltager returnerer de poster, der matcher mellem to tabeller. Så en indre sammenføjning er et perfekt analyseværktøj til at bestemme hvilke flyvninger, der er de samme fra JFK (New York) til ORD (Chicago) i juli 2007 og juli 2008.

Optimering af Hive-tilmeldinger er et varmt emne i Hive-fællesskabet. For mere information om aktuelle optimeringsteknikker, se siden Tilslut optimering på Hive wiki.

Sammenføjning af tabeller med Hive - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...