Hjem Personlig finansiering Hadoop MapReduce til Big Data - dummies

Hadoop MapReduce til Big Data - dummies

Indholdsfortegnelse:

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2025

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2025
Anonim

For at forstå Hadoop MapReduces evner er det vigtigt at skelne mellem MapReduce (algoritmen) og en implementering af MapReduce. Hadoop MapReduce er en implementering af algoritmen udviklet og vedligeholdt af Apache Hadoop projektet.

Det er nyttigt at tænke på denne implementering som en MapReduce-motor, for det er præcis, hvordan det fungerer. Du giver input (brændstof), motoren konverterer input til output hurtigt og effektivt, og du får svarene du har brug for.

Hadoop MapReduce indeholder flere faser, hver med et vigtigt sæt operationer, der hjælper med at nå dit mål for at få svarene du har brug for fra store data. Processen starter med en bruger anmodning om at køre et MapReduce-program og fortsætter, indtil resultaterne er skrevet tilbage til HDFS.

HDFS og MapReduce udfører deres arbejde på noder i en klynge, der er vært på racks af råvareservere. For at forenkle diskussionen viser diagrammet kun to noder.

Få de store data klar

Når en klient anmoder om et MapReduce-program til at køre, er det første skridt at finde og læse inputfilen med de rå data. Filformatet er fuldstændig vilkårlig, men dataene skal konverteres til noget, som programmet kan behandle. Dette er funktionen af ​​InputFormat og RecordReader. InputFormat bestemmer, hvordan filen skal brydes i mindre stykker til behandling ved hjælp af en funktion, der hedder InputSplit.

Det tildeler derefter en RecordReader til at transformere de rå data til behandling af kortet. Adskillige typer af RecordReaders leveres med Hadoop, der tilbyder et bredt udvalg af konverteringsmuligheder. Denne funktion er en af ​​de måder, Hadoop administrerer det store udvalg af datatyper, der findes i store dataproblemer.

Lad det store datakort begynde

Dine data er nu i en form, der er acceptabel at kortlægge. For hvert inputpar kaldes en særskilt forekomst af kort til at behandle dataene. Men hvad gør det med det behandlede output, og hvordan kan du holde styr på dem?

Kortet har to yderligere evner til at løse spørgsmålene. Fordi kort og reducere behovet for at arbejde sammen for at behandle dine data, skal programmet indsamle output fra de uafhængige mappere og sende det til reduktionsapparaterne. Denne opgave udføres af en OutputCollector. En Reporter-funktion giver også oplysninger hentet fra kortopgaver, så du ved, hvornår eller om kortopgaverne er færdige.

Alt dette arbejde udføres på flere noder i Hadoop-klyngen samtidigt.Du kan have tilfælde, hvor udgangen fra visse kortlægningsprocesser skal akkumuleres, før reduktionsmaterialerne kan begynde. Eller nogle af de mellemliggende resultater må muligvis behandles før reduktion.

Derudover kan nogle af denne udgang være på en node, der er forskellig fra noden, hvor reduktionsenhederne for den pågældende output vil køre. Indsamling og shuffling af mellemresultater udføres af en partitioner og en slags. Kortopgaverne leverer resultaterne til en bestemt partition som input til at reducere opgaverne.

Når alle kortopgaver er færdige, samles de mellemliggende resultater i partitionen, og der sker en shuffling, sortering af output for optimal behandling ved reduktion.

Reducer og kombiner for store data

For hvert outputpar kaldes reducere for at udføre sin opgave. På lignende måde at kortlægge, reducerer samler dens output, mens alle opgaverne behandles. Reducer kan ikke begynde, før hele kortlægningen er færdig. Udgangen af ​​reducere er også en nøgle og en værdi. Mens dette er nødvendigt for at reducere for at gøre sit arbejde, er det måske ikke det mest effektive outputformat til din ansøgning.

Hadoop leverer en OutputFormat-funktion, og det virker meget som InputFormat. OutputFormat tager nøgleværdiparret og organiserer udgangen til skrivning til HDFS. Den sidste opgave er faktisk at skrive dataene til HDFS. Dette udføres af RecordWriter, og det fungerer på samme måde som RecordReader, undtagen i omvendt format. Det tager OutputFormat data og skriver det til HDFS i den form, der er nødvendig for kravene i programmet.

Samordningen af ​​alle disse aktiviteter blev forvaltet i tidligere versioner af Hadoop af en jobplanlægger. Denne planlægger var rudimentær, og da blandingen af ​​job ændrede sig og voksede, var det klart, at en anden tilgang var nødvendig. Den primære mangel i den gamle planlægger var manglen på ressourceforvaltning. Den nyeste version af Hadoop har denne nye kapacitet.

Hadoop MapReduce er hjertet af Hadoop-systemet. Det giver alle de funktioner, du har brug for til at bryde store data i håndterbare klumper, behandle dataene parallelt på din distribuerede klynge, og derefter gøre dataene tilgængelige for brugerforbrug eller yderligere behandling. Og det virker alt dette på en højspændende, fejltolerant måde. Dette er blot begyndelsen.

Hadoop MapReduce til Big Data - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...