Hjem Personlig finansiering Hadoop MapReduce til Big Data - dummies

Hadoop MapReduce til Big Data - dummies

Indholdsfortegnelse:

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2024

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2024
Anonim

For at forstå Hadoop MapReduces evner er det vigtigt at skelne mellem MapReduce (algoritmen) og en implementering af MapReduce. Hadoop MapReduce er en implementering af algoritmen udviklet og vedligeholdt af Apache Hadoop projektet.

Det er nyttigt at tænke på denne implementering som en MapReduce-motor, for det er præcis, hvordan det fungerer. Du giver input (brændstof), motoren konverterer input til output hurtigt og effektivt, og du får svarene du har brug for.

Hadoop MapReduce indeholder flere faser, hver med et vigtigt sæt operationer, der hjælper med at nå dit mål for at få svarene du har brug for fra store data. Processen starter med en bruger anmodning om at køre et MapReduce-program og fortsætter, indtil resultaterne er skrevet tilbage til HDFS.

HDFS og MapReduce udfører deres arbejde på noder i en klynge, der er vært på racks af råvareservere. For at forenkle diskussionen viser diagrammet kun to noder.

Få de store data klar

Når en klient anmoder om et MapReduce-program til at køre, er det første skridt at finde og læse inputfilen med de rå data. Filformatet er fuldstændig vilkårlig, men dataene skal konverteres til noget, som programmet kan behandle. Dette er funktionen af ​​InputFormat og RecordReader. InputFormat bestemmer, hvordan filen skal brydes i mindre stykker til behandling ved hjælp af en funktion, der hedder InputSplit.

Det tildeler derefter en RecordReader til at transformere de rå data til behandling af kortet. Adskillige typer af RecordReaders leveres med Hadoop, der tilbyder et bredt udvalg af konverteringsmuligheder. Denne funktion er en af ​​de måder, Hadoop administrerer det store udvalg af datatyper, der findes i store dataproblemer.

Lad det store datakort begynde

Dine data er nu i en form, der er acceptabel at kortlægge. For hvert inputpar kaldes en særskilt forekomst af kort til at behandle dataene. Men hvad gør det med det behandlede output, og hvordan kan du holde styr på dem?

Kortet har to yderligere evner til at løse spørgsmålene. Fordi kort og reducere behovet for at arbejde sammen for at behandle dine data, skal programmet indsamle output fra de uafhængige mappere og sende det til reduktionsapparaterne. Denne opgave udføres af en OutputCollector. En Reporter-funktion giver også oplysninger hentet fra kortopgaver, så du ved, hvornår eller om kortopgaverne er færdige.

Alt dette arbejde udføres på flere noder i Hadoop-klyngen samtidigt.Du kan have tilfælde, hvor udgangen fra visse kortlægningsprocesser skal akkumuleres, før reduktionsmaterialerne kan begynde. Eller nogle af de mellemliggende resultater må muligvis behandles før reduktion.

Derudover kan nogle af denne udgang være på en node, der er forskellig fra noden, hvor reduktionsenhederne for den pågældende output vil køre. Indsamling og shuffling af mellemresultater udføres af en partitioner og en slags. Kortopgaverne leverer resultaterne til en bestemt partition som input til at reducere opgaverne.

Når alle kortopgaver er færdige, samles de mellemliggende resultater i partitionen, og der sker en shuffling, sortering af output for optimal behandling ved reduktion.

Reducer og kombiner for store data

For hvert outputpar kaldes reducere for at udføre sin opgave. På lignende måde at kortlægge, reducerer samler dens output, mens alle opgaverne behandles. Reducer kan ikke begynde, før hele kortlægningen er færdig. Udgangen af ​​reducere er også en nøgle og en værdi. Mens dette er nødvendigt for at reducere for at gøre sit arbejde, er det måske ikke det mest effektive outputformat til din ansøgning.

Hadoop leverer en OutputFormat-funktion, og det virker meget som InputFormat. OutputFormat tager nøgleværdiparret og organiserer udgangen til skrivning til HDFS. Den sidste opgave er faktisk at skrive dataene til HDFS. Dette udføres af RecordWriter, og det fungerer på samme måde som RecordReader, undtagen i omvendt format. Det tager OutputFormat data og skriver det til HDFS i den form, der er nødvendig for kravene i programmet.

Samordningen af ​​alle disse aktiviteter blev forvaltet i tidligere versioner af Hadoop af en jobplanlægger. Denne planlægger var rudimentær, og da blandingen af ​​job ændrede sig og voksede, var det klart, at en anden tilgang var nødvendig. Den primære mangel i den gamle planlægger var manglen på ressourceforvaltning. Den nyeste version af Hadoop har denne nye kapacitet.

Hadoop MapReduce er hjertet af Hadoop-systemet. Det giver alle de funktioner, du har brug for til at bryde store data i håndterbare klumper, behandle dataene parallelt på din distribuerede klynge, og derefter gøre dataene tilgængelige for brugerforbrug eller yderligere behandling. Og det virker alt dette på en højspændende, fejltolerant måde. Dette er blot begyndelsen.

Hadoop MapReduce til Big Data - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...