Hjem Personlig finansiering Shuffle-fasen af ​​Hadoop's MapReduce Application Flow-dummies

Shuffle-fasen af ​​Hadoop's MapReduce Application Flow-dummies

Video: Didactische werkvormen - De eerste gedachte #18 2025

Video: Didactische werkvormen - De eerste gedachte #18 2025
Anonim

Efter kortfasen og før begyndelsen af ​​Reduce-fasen er en handoff-proces, kendt som shuffle og sortere . Her udarbejdes data fra mapperopgaverne og flyttes til noderne, hvor reduktionsopgaverne bliver kørt. Når mapper-opgaven er færdig, sorteres resultaterne efter nøgle, partitioneret, hvis der er flere reducere, og derefter skrevet til disk.

Du kan se dette koncept i følgende figur, som viser MapReduce-databehandlingsstrømmen og dets interaktion med Hadoop-klyngens fysiske komponenter. (En hurtig note: Data i hukommelsen er repræsenteret af hvide firkanter, og data gemt på disk er repræsenteret af grå firkanter.)

For at fremskynde den samlede MapReduce-proces flyttes dataene øjeblikkeligt til reduktionsopgaverens noder for at undgå en oversvømmelse af netværksaktivitet, når den endelige mapper-opgave afslutter sit arbejde. Denne overførsel sker, mens mapper-opgaven kører, da udgange for hver post - husk - gemmes i hukommelsen af ​​en ventende reduceringsopgave. (Du kan konfigurere om dette sker - eller ikke sker - og også antallet af involverede tråde.)

Husk, at selvom en reduktionsopgave måske har størstedelen af ​​mapper-opgavens output, kan reduktionsopgavens behandling ikke begynde, før alle mapperopgaver er færdige.

For at undgå scenarier, hvor udførelsen af ​​et MapReduce-job er hæmmet af en afbrydende mapper-opgave, der kører på en dårligt fungerende slave node, bruger MapReduce-rammen et koncept kaldet spekulativ udførelse .

Hvis nogle mapper opgaver kører langsommere end hvad der anses for rimeligt, vil Application Master udkoble duplikatopgaver (i Hadoop 1, JobTracker gør dette). Uanset hvilken opgave der er færdig først - duplikatet eller originalen - bliver resultaterne gemt på disk, og den anden opgave er dræbt. Hvis du overvåger dine job tæt og undrer dig over, hvorfor der er flere mapper opgaver, der løber, end du forventer, er dette en sandsynlig årsag.

Udgangen fra mapper-opgaver er ikke skrevet til HDFS, men snarere til lokal disk på slaveknuden, hvor mapper-opgaven blev kørt. Som sådan er det ikke replikeret på tværs af Hadoop-klyngen.

Bortset fra komprimering af output, kan du potentielt øge ydelsen ved at køre en combiner-opgave. Denne enkle taktik, der vises her, involverer en lokal reduktion af output for individuelle mapper opgaver.

I de fleste tilfælde er der ikke behov for ekstra programmering, da du kan fortælle systemet at bruge reduktionsfunktionen. Hvis du ikke bruger din reduceringsfunktion, skal du sikre dig, at combinerfunktionens output er identisk med reduktionsfunktionens funktion.

Det er op til MapReduce-rammen, om combinerfunktionen skal køres en gang, flere gange eller aldrig, så det er kritisk, at combinerens kode sikrer, at de endelige resultater ikke påvirkes af flere kørsler. At køre combiner kan give en præstationsfordel ved at mindske mængden af ​​mellemliggende data, som ellers skulle overføres over netværket.

Dette reducerer også mængden af ​​behandling, som reduktionsopgaverne skal gøre. Du løber en ekstra opgave her, så det er muligt, at enhver præstationsgevinst er ubetydelig eller måske endda resultere i dårligere overordnet præstation. Din kilometertal kan variere, så test det omhyggeligt.

Efter at alle resultaterne af mapperopgaverne er kopieret til reduceropgaverne, knyttes disse filer sammen og sorteres.

Shuffle-fasen af ​​Hadoop's MapReduce Application Flow-dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...