Hjem Personlig finansiering Map-programmet af Hadoop's MapReduce Application Flow-dummies

Map-programmet af Hadoop's MapReduce Application Flow-dummies

Anonim

En MapReduce-applikation behandler dataene i input-splittelser på record-by-record , og at hver post forstås af MapReduce til at være en nøgle / værdi par. Når inddelingsopdelingerne er blevet beregnet, kan mapperopgaverne begynde at behandle dem - det vil sige lige efter, at ressourceadministratorens planlægningsfacilitet tildeler dem deres behandlingsressourcer. (I Hadoop 1 tildeler JobTracker mapper opgaver til specifikke behandlingsspor.)

Selskabsopgaven selv behandler sin indtastningsdeling en post ad gangen - i figuren repræsenteres denne ensomme rekord af nøgle / værdiparret. I tilfælde af vores flydata, når inddelingsfordelingen beregnes (ved hjælp af standardfilbehandlingsmetoden for tekstfiler) antages det, at hver række i tekstfilen er en enkelt post.

For hver post repræsenterer selve rækken af ​​rækken værdien, og byteforskydningen af ​​hver række fra begyndelsen af ​​splittet betragtes som nøglen.

Du kan undre dig over, hvorfor rækkenummeret ikke bruges i stedet for byteforskydningen. Når du mener, at en meget stor tekstfil er opdelt i mange individuelle datablokke, og behandles så mange splitsninger, er rækkens nummer et risikabelt koncept.

Antallet af linjer i hver opdeling varierer, så det ville være umuligt at beregne antallet af rækker forud for den, der blev behandlet. Men med byteforskydningen kan du være præcis, fordi hver blok har et fast antal bytes.

Som en mapper-opgave behandler hver post, genererer den et nyt nøgle / værdipar: Nøglen og værdien her kan være helt anderledes end inputparret. Udgangen af ​​mapper opgaven er den fulde samling af alle disse nøgle / værdi par.

Før den endelige outputfil for hver mapper-opgave er skrevet, fordeles outputen baseret på nøglen og sorteret. Denne partition betyder, at alle værdierne for hver nøgle er grupperet sammen.

I tilfælde af den ret basale prøveapplikation er der kun en enkelt reducer, så alle udgaver af mapper-opgaven er skrevet til en enkelt fil. Men i tilfælde med flere reducere, kan hver mapper-opgave også generere flere outputfiler.

Opdelingen af ​​disse outputfiler er baseret på partitioneringsnøglen. Hvis der for eksempel kun er tre separate partitioneringstaster, der udføres til mapperopgaverne, og du har konfigureret tre reducere til jobbet, vil der være tre mapper-outputfiler. I dette eksempel, hvis en bestemt mapper opgave behandler en input split og det genererer output med to af de tre nøgler, vil der kun være to outputfiler.

Komprimer altid dine mapperopgaver 'outputfiler. Den største fordel her er i præstationsgevinster, fordi at skrive mindre outputfiler minimerer den uundgåelige pris ved overførsel af mapper-udgangen til de noder, hvor reduktionsanordningerne kører.

Standardpartitioneren er mere end tilstrækkelig i de fleste situationer, men nogle gange kan du tilpasse, hvordan dataene partitioneres, før det behandles af reduktionsanordningerne. Du kan f.eks. Ønske, at dataene i dine resultatsæt sorteres efter nøglen og deres værdier - kendt som en sekundær sortering.

For at gøre dette kan du tilsidesætte standardpartitioneren og implementere din egen. Denne proces kræver dog en vis omhu, fordi du vil sikre, at antallet af poster i hver partition er ensartet. (Hvis en reducer skal behandle meget flere data end de andre reduktionsanordninger, venter du på, at dit MapReduce-job er færdigt, mens den enkelt overarbejdede reducer slog igennem det uforholdsmæssigt store datasæt.)

Brug af mellemstore filer med ensartet størrelse, du kan bedre udnytte den parallelisme, der er tilgængelig i MapReduce-behandling.

Map-programmet af Hadoop's MapReduce Application Flow-dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...