Hjem Personlig finansiering Pig Latin Application Flow i Hadoop-dummies

Pig Latin Application Flow i Hadoop-dummies

Video: Pig Latin Data Model 2025

Video: Pig Latin Data Model 2025
Anonim

Pig Latin er et dataflow -sprog, hvor du definerer en datastrøm og en række transformationer, der anvendes til dataene, som det strømmer gennem din ansøgning. Dette er i modsætning til et kontrolflow sprog (som C eller Java), hvor du skriver en række instruktioner.

I kontrolflowsprogene bruger du konstruktioner som sløjfer og betinget logik (som en if-sætning). Du vil ikke finde løkker og hvis udsagn i gris latin.

Hvis du har brug for overbevisende om at arbejde med gris er en væsentlig lettere række til at hakke end at skulle skrive kort og reducere programmer, skal du starte med at kigge på en ægte Pig-syntaks:

A = LOAD 'data_file. txt ';. B = GRUPPE …; … C = FILTER …;. DUMP B;. OPBEVAR C TIL 'RESULTATER';

Nogle af teksterne i dette eksempel ligner faktisk engelsk, ikke? Ikke for skræmmende, i det mindste på dette tidspunkt. Når man ser på hver linje igen, kan man se den grundlæggende strøm af et Pig-program. (Bemærk at denne kode enten kan være en del af et script eller udstedt på den interaktive shell kaldet Grunt.)

  1. Belastning: Du skal først indlæse (LOAD) de data, du vil manipulere.

    Som i et typisk MapReduce-job gemmes disse data i HDFS. For et griseprogram at få adgang til dataene, skal du først fortælle Pig, hvilke filer eller filer der skal bruges. Til den opgave bruger du kommandoen LOAD 'data_file'.

    Her kan 'data_file' angive enten en HDFS-fil eller en mappe. Hvis en mappe er angivet, er alle filer i den pågældende mappe indlæst i programmet.

    Hvis dataene gemmes i et filformat, der ikke er tilgængeligt for gris, kan du eventuelt tilføje USING-funktionen til LOAD-sætningen for at angive en brugerdefineret funktion, der kan læses ind (og fortolke) dataene.

  2. Transform: Du kører dataene gennem et sæt transformationer, der, langt under emhætten og langt fjernet fra alt, hvad du skal bekymre dig om, oversættes til et sæt kort- og formindskelsesopgaver.

    Transformationslogikken er, hvor al datamanipulation sker. Her kan du FILTER ud rækker, der ikke er interessante, FØD med to sæt datafiler, GROUP data for at opbygge aggregater, ORDER resultater og gøre meget, meget mere.

  3. Dump: Dump (DUMP) resultaterne til skærmen

    eller

    Store (STORE) resultaterne i en fil et eller andet sted.

    Du vil typisk bruge DUMP-kommandoen til at sende output til skærmen, når du fejler dine programmer. Når dit program går i produktion, ændrer du simpelthen DUMP-opkaldet til et STORE-opkald, så alle resultater fra at køre dine programmer gemmes i en fil til videre behandling eller analyse.

Pig Latin Application Flow i Hadoop-dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...