Hjem Personlig finansiering Input Splits i Hadoop's MapReduce - dummies

Input Splits i Hadoop's MapReduce - dummies

Video: Undrstanding Input Splits in MapReduce | Input Splits tutorial in Comprehensive MapReduce | Edureka 2025

Video: Undrstanding Input Splits in MapReduce | Input Splits tutorial in Comprehensive MapReduce | Edureka 2025
Anonim

Den måde, hvorpå HDFS er oprettet, bryder ned meget store filer i store blokke (for eksempel måling 128 MB) og gemmer tre kopier af disse blokke på forskellige knudepunkter i klyngen. HDFS har ingen bevidsthed om indholdet af disse filer.

I YARN, når et MapReduce-job er startet, er ressourceadministratoren (klyngen ressource ledelse og jobplanlægning facilitet) opretter en Application Master daemon for at se efter jobets livscyklus. (I Hadoop 1 overvåger JobTracker individuelle job samt håndtering af jobplanlægning og cluster ressourcehåndtering.)

> En af de første ting, som Application Master gør, er, hvilke filblokke der skal bruges til behandling. Applikationsmasteren beder om detaljer fra NameNode på, hvor replikerne af de nødvendige datablokke er gemt. Ved hjælp af positionsdataene til filblokkene Application Master stiller anmodninger til ressourcen Manager at have kortopgaver behandler specifikke blokke på slaveknyderne, hvor de er gemt.

Nøglen til effektiv MapReduce-behandling er, at det er muligt at behandle data lokalt - på slaveknuden, hvor den er gemt. Før du ser på, hvordan datablokkerne behandles, skal du se nærmere på, hvordan Hadoop lagrer data. I Hadoop er filer sammensat af individuelle poster, som i sidste ende behandles en efter en ved mapperopgaver.

Eksempeldatasættet indeholder f.eks. Oplysninger om gennemførte flyvninger inden for USA mellem 1987 og 2008.

For at downloade prøvedatasættet skal du åbne Firefox-browseren fra VM'en og gå til dataexpo-siden.

Du har en stor fil for hvert år, og inden for hver fil repræsenterer hver enkelt linje et enkelt fly. Med andre ord repræsenterer en linje en post. Husk nu, at blokstørrelsen til Hadoop-klyngen er 64 MB, hvilket betyder at de lyse datafiler er brudt i klumper af præcis 64 MB.

Kan du se problemet? Hvis hver kortopgave behandler alle poster i en bestemt datablok, hvad sker der med de poster, der spænder over blokgrænser? Filblokke er præcis 64 MB (eller hvad du endda angiver blokstørrelsen), og fordi HDFS ikke har en opfattelse af, hvad der er inde i filblokkene, kan det ikke måle, hvornår en rekord kan springe over i en anden blok.

For at løse dette problem bruger Hadoop en logisk repræsentation af de data, der er gemt i filblokke, kendt som

input splits . Når en MapReduce-jobklient beregner indgangssplitningerne, viser den, hvor den første hele post i en blok begynder, og hvor den sidste post i blokken slutter. I de tilfælde, hvor den sidste post i en blok er ufuldstændig, indgår indtastningsopdelingen placeringsoplysninger for den næste blok og byteforskydningen af ​​de data, der er nødvendige for at fuldføre posten.

Figuren viser dette forhold mellem datablokke og input-splittelser.

Du kan konfigurere Application Master daemon (eller JobTracker, hvis du er i Hadoop 1) til at beregne input splittelsen i stedet for jobklienten, hvilket ville være hurtigere for job, der behandler et stort antal datablokke.

MapReduce databehandling er drevet af dette koncept for input splits. Antallet af indgangssplitninger, der beregnes for en bestemt applikation, bestemmer antallet af mapperopgaver. Hver af disse mapper opgaver er så vidt muligt tildelt en slave node, hvor indgangssplitningen er gemt. Resource Manager (eller JobTracker, hvis du er i Hadoop 1) gør sit bedste for at sikre, at input splits behandles lokalt.

Input Splits i Hadoop's MapReduce - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...