Hjem Personlig finansiering Sammenføjning af tabeller med Hive - dummies

Sammenføjning af tabeller med Hive - dummies

Video: Sqoop Import and Export data from RDMBS and HDFS 2025

Video: Sqoop Import and Export data from RDMBS and HDFS 2025
Anonim

Du ved sikkert allerede, at eksperter i relationelt databasemodellering og design typisk bruger meget tid til at designe normaliserede databaser eller skemaer <. Database Normalisering er en teknik, der beskytter mod tab af data, redundans og andre uregelmæssigheder, da data opdateres og hentes. Eksperterne følger en række regler for at nå frem til en normaliseret database, men Regel 1 er, at du skal ende med en

gruppe af tabeller. (Et stort bord, der gemmer alle dine data, er ikke normalt. Ordsprog er beregnet.) Der er undtagelser afhængigt af brugen, men loven i mange tabeller følger generelt tæt sammen, især for databaser, der understøtter transaktioner eller analytisk behandling (business intelligence, for eksempel).

Når du begynder at forespørge og analysere dine data, slettes tabeller baseret på de definerede relationer mellem dem ved hjælp af SQL - hvilket betyder, at diskerne i sidste ende er optaget på din server, når du begynder at deltage i tabeller, og optaget disketter resulterer normalt i langsommere brugersvaretider. Den gode nyhed er dog, at RDBMS'er og EDW'er er indstillet til at gøre sammenføjninger så hurtigt som muligt.

Hvad har alt dette at gøre med at blive med i Hive? Husk at det underliggende operativsystem til Hive er (overraskelse!) Apache Hadoop: MapReduce er motoren til at slutte tabeller, og Hadoop File System (HDFS) er den underliggende lagring. Det er alle gode nyheder for brugeren, der ønsker at oprette, styre og analysere store tabeller med Hive.

Muligheden for at låse op information, der er skjult i massive datastrukturer, er spændende. Men sammen med Hive udfører normalt ikke så godt som de gør i RDBMS / EDW verden, så første gangs brugere bliver ofte overrasket over "pokiness" af systemets respons.

Husk at MapReduce og HDFS er optimeret til gennemløb med stor dataanalyse, og at i denne verden er

latenser - brugersvaretider med andre ord - normalt høj. Hive er designet til batch-stil analytisk behandling, ikke til hurtig online transaktionsbehandling. Brugere, der ønsker den bedst mulige ydeevne med SQL på Apache Hadoop, har løsninger til rådighed.

Hold denne dynamik i tankerne, når du begynder at deltage i tabeller med Hive. Vær også opmærksom på, at Hive-arkitekter i nogen grad deormaliserer deres databaser, så det er almindeligt at have færre større tabeller. Derfor leveres komplekse datatyper som STRUCTs og ARRAYs. Du kan bruge disse komplekse datatyper til at pakke meget flere data til et enkelt bord.

Fordi Hive-bordet læser og skriver via HDFS normalt involverer meget store datablokke, jo flere data kan du håndtere helt i ét bord, desto bedre er den samlede ydeevne.

Disk- og netværksadgang er meget langsommere end hukommelsesadgang, så minimere HDFS læser og skriver så meget som muligt.

Med denne baggrundsinformation i tankerne kan du tackle at gøre sammen med Hive. Heldigvis var Hive-udviklingssamfundet realistisk og forstod, at brugere ville have brug for og blive nødt til at deltage i tabeller med HiveQL. Denne viden bliver særlig vigtig med EDW augmentation. Brug sager som "forespørgsel" arkiver kræver ofte sammenføjninger til dataanalyse.

Her er et Hive join-eksempel ved hjælp af flydatatabeller. Listingen viser dig hvordan du opretter og viser en myflightinfo2007 tabel og en myflightinfo2008 tabel fra de større FlightInfo2007 og FlightInfo2008 tabeller. Planen hele tiden var at bruge CTAS oprettet myflightinfo2007 og myflightinfo2008 tabeller for at illustrere hvordan du kan udføre samlinger i Hive.

Figuren viser resultatet af en indre sammenføjning med myflightinfo2007 og myflightinfo2008 tabellerne ved hjælp af SQL-klienten SQuirreL.

Hive understøtter

equi-joins, en bestemt type tilslutning, der kun bruger ligestillings sammenligninger i joinprotikatet. (ON m8. FlightNum = m7. FlightNum er et eksempel på en equi-join.) Andre komparatorer såsom Mindre end (<) understøttes ikke. Denne begrænsning er kun på grund af begrænsninger på den underliggende MapReduce-motor. Du kan heller ikke bruge OR i ON-klausulen. Figuren illustrerer det tidligere eksempel på det indre forbund og to andre Hive-sammenføjningstyper. Bemærk, at du kan bekræfte resultaterne af en indre sammenføjning ved at gennemgå indholdet af myflight2007 og myflight2008 tabellerne.

Følgende figur illustrerer, hvordan en indre sammenføjning arbejder med et Venn-diagram, hvis du ikke er bekendt med teknikken. Grundidéen her er, at en indre deltager returnerer de poster, der matcher mellem to tabeller. Så en indre sammenføjning er et perfekt analyseværktøj til at bestemme hvilke flyvninger, der er de samme fra JFK (New York) til ORD (Chicago) i juli 2007 og juli 2008.

Optimering af Hive-tilmeldinger er et varmt emne i Hive-fællesskabet. For mere information om aktuelle optimeringsteknikker, se siden Tilslut optimering på Hive wiki.

Sammenføjning af tabeller med Hive - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...