Hjem Personlig finansiering Map-programmet af Hadoop's MapReduce Application Flow-dummies

Map-programmet af Hadoop's MapReduce Application Flow-dummies

Anonim

En MapReduce-applikation behandler dataene i input-splittelser på record-by-record , og at hver post forstås af MapReduce til at være en nøgle / værdi par. Når inddelingsopdelingerne er blevet beregnet, kan mapperopgaverne begynde at behandle dem - det vil sige lige efter, at ressourceadministratorens planlægningsfacilitet tildeler dem deres behandlingsressourcer. (I Hadoop 1 tildeler JobTracker mapper opgaver til specifikke behandlingsspor.)

Selskabsopgaven selv behandler sin indtastningsdeling en post ad gangen - i figuren repræsenteres denne ensomme rekord af nøgle / værdiparret. I tilfælde af vores flydata, når inddelingsfordelingen beregnes (ved hjælp af standardfilbehandlingsmetoden for tekstfiler) antages det, at hver række i tekstfilen er en enkelt post.

For hver post repræsenterer selve rækken af ​​rækken værdien, og byteforskydningen af ​​hver række fra begyndelsen af ​​splittet betragtes som nøglen.

Du kan undre dig over, hvorfor rækkenummeret ikke bruges i stedet for byteforskydningen. Når du mener, at en meget stor tekstfil er opdelt i mange individuelle datablokke, og behandles så mange splitsninger, er rækkens nummer et risikabelt koncept.

Antallet af linjer i hver opdeling varierer, så det ville være umuligt at beregne antallet af rækker forud for den, der blev behandlet. Men med byteforskydningen kan du være præcis, fordi hver blok har et fast antal bytes.

Som en mapper-opgave behandler hver post, genererer den et nyt nøgle / værdipar: Nøglen og værdien her kan være helt anderledes end inputparret. Udgangen af ​​mapper opgaven er den fulde samling af alle disse nøgle / værdi par.

Før den endelige outputfil for hver mapper-opgave er skrevet, fordeles outputen baseret på nøglen og sorteret. Denne partition betyder, at alle værdierne for hver nøgle er grupperet sammen.

I tilfælde af den ret basale prøveapplikation er der kun en enkelt reducer, så alle udgaver af mapper-opgaven er skrevet til en enkelt fil. Men i tilfælde med flere reducere, kan hver mapper-opgave også generere flere outputfiler.

Opdelingen af ​​disse outputfiler er baseret på partitioneringsnøglen. Hvis der for eksempel kun er tre separate partitioneringstaster, der udføres til mapperopgaverne, og du har konfigureret tre reducere til jobbet, vil der være tre mapper-outputfiler. I dette eksempel, hvis en bestemt mapper opgave behandler en input split og det genererer output med to af de tre nøgler, vil der kun være to outputfiler.

Komprimer altid dine mapperopgaver 'outputfiler. Den største fordel her er i præstationsgevinster, fordi at skrive mindre outputfiler minimerer den uundgåelige pris ved overførsel af mapper-udgangen til de noder, hvor reduktionsanordningerne kører.

Standardpartitioneren er mere end tilstrækkelig i de fleste situationer, men nogle gange kan du tilpasse, hvordan dataene partitioneres, før det behandles af reduktionsanordningerne. Du kan f.eks. Ønske, at dataene i dine resultatsæt sorteres efter nøglen og deres værdier - kendt som en sekundær sortering.

For at gøre dette kan du tilsidesætte standardpartitioneren og implementere din egen. Denne proces kræver dog en vis omhu, fordi du vil sikre, at antallet af poster i hver partition er ensartet. (Hvis en reducer skal behandle meget flere data end de andre reduktionsanordninger, venter du på, at dit MapReduce-job er færdigt, mens den enkelt overarbejdede reducer slog igennem det uforholdsmæssigt store datasæt.)

Brug af mellemstore filer med ensartet størrelse, du kan bedre udnytte den parallelisme, der er tilgængelig i MapReduce-behandling.

Map-programmet af Hadoop's MapReduce Application Flow-dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...