Hjem Personlig finansiering Hadoop Distributed File System (HDFS) til Big Data Projects - dummies

Hadoop Distributed File System (HDFS) til Big Data Projects - dummies

Indholdsfortegnelse:

Video: Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Hadoop Training | Edureka 2025

Video: Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Hadoop Training | Edureka 2025
Anonim

Hadoop Distributed File System er en alsidig, fjedrende, grupperet tilgang til styring af filer i et stort datamiljø. HDFS er ikke den endelige destination for filer. Det er snarere en datatjeneste, der tilbyder et unikt sæt kapaciteter, der er nødvendige, når datamængder og hastighed er høje. Fordi dataene er skrevet en gang og derefter læses mange gange derefter, i stedet for de konstante læsninger af andre filsystemer, er HDFS et glimrende valg til understøttelse af stor data analyse.

Store data NameNodes

HDFS virker ved at bryde store filer i mindre stykker kaldet blokke . Blokkene gemmes på dataduder, og det er navnetNodes ansvar at vide, hvilke blokke på hvilke datoderoder der udgør hele filen. NameNode fungerer også som en "traffic cop", der styrer al adgang til filerne.

Den komplette samling af alle filerne i klyngen kaldes undertiden filsystemet namespace. Det er navnetNode's job at administrere dette navneområde.

Selv om der eksisterer et stærkt forhold mellem NameNode og data noderne, opererer de på en "løst koblet" måde. Dette gør det muligt for klyngeelementerne at opføre sig dynamisk og tilføje servere, da efterspørgslen stiger. I en typisk konfiguration finder du en NameNode og muligvis en datadode, der kører på en fysisk server i racket. Andre servere kører kun dataduder.

Datodernoderne kommunikerer indbyrdes, så de kan samarbejde under normale filsystemoperationer. Dette er nødvendigt, fordi blokke for en fil sandsynligvis vil blive gemt på flere dataduder. Da NameNode er så kritisk for korrekt drift af klyngen, kan og bør det replikeres for at beskytte et enkelt punktfejl.

Store dataduder

Dataduder er ikke kloge, men de er modstandsdygtige. Inden for HDFS-klyngen replikeres datablokker på tværs af flere dataduder, og adgang styres af NameNode. Replikeringsmekanismen er designet til optimal effektivitet, når alle knudepunkterne samles i et stativ. Faktisk bruger NameNode et "rack ID" for at holde styr på datodenoden i klyngen.

Data nodes giver også "heartbeat" meddelelser til at registrere og sikre forbindelse mellem NameNode og data noderne. Når et hjerteslag ikke længere er til stede, afkortes NameNode datodenoden fra klyngen og fortsætter med at fungere som om der ikke er sket noget. Når hjerterytmen vender tilbage, tilføjes den klyngen gennemsigtigt med hensyn til brugeren eller applikationen.

Dataintegritet er en nøglefunktion. HDFS understøtter en række funktioner designet til at give dataintegritet. Som du måske regner med, når filer er brudt i blokke og derefter fordelt på forskellige servere i klyngen, kan enhver ændring i driften af ​​et element påvirke dataintegriteten. HDFS bruger transaktionslogs og checksumvalidering for at sikre integritet på tværs af klyngen.

Transaktionslogfiler holder styr på alle operationer og er effektive til revision eller genopbygning af filsystemet, hvis der forekommer noget unødigt.

Checksum valideringer bruges til at garantere indholdet af filer i HDFS. Når en klient anmoder om en fil, kan den verificere indholdet ved at undersøge dens checksum. Hvis checksummet matcher, kan filoperationen fortsætte. Hvis ikke, rapporteres en fejl. Checksum-filer er skjult for at undgå manipulation.

Dataduder bruger lokale diske på råvareserveren til persistens. Alle datablokkerne gemmes lokalt, primært af ydeevne. Datablokker replikeres på tværs af flere dataduder, så fejlen på en server muligvis ikke nødvendigvis ødelægger en fil. Graden af ​​replikation, antallet af data noder og HDFS navneområde etableres, når klyngen implementeres.

HDFS til store data

HDFS adresserer store dataudfordringer ved at bryde filer ind i en relateret samling af mindre blokke. Disse blokke fordeles mellem data nodene i HDFS-klyngen og forvaltes af NameNode. Blokstørrelser er konfigurerbare og er normalt 128 megabyte (MB) eller 256 MB, hvilket betyder at en 1 GB-fil forbruger otte 128 MB blokke for de grundlæggende opbevaringsbehov.

HDFS er elastisk, så disse blokke replikeres i hele klyngen i tilfælde af en serverfejl. Hvordan holder HDFS styr på alle disse stykker? Det korte svar er filsystemet metadata .

Metadata defineres som "data om data. "Tænk på HDFS-metadata som en skabelon for at give en detaljeret beskrivelse af følgende:

  • Når filen blev oprettet, adgang, ændret, slettet og så videre

  • Hvor blokkerne af filen er gemt i klyngen < Hvem har ret til at se eller ændre filen

  • Hvor mange filer der er gemt i klyngen

  • Hvor mange data noder findes i klyngen

  • Placeringen af ​​transaktionsloggen for klyngen

  • HDFS metadata er gemt i NameNode, og mens klyngen fungerer, indlæses alle metadata i den fysiske hukommelse på NameNode-serveren. Som du måske regner med, jo større er klyngen, jo større er metadataudtrykket.

Hvad gør en blok server lige? Tjek følgende liste:

Gemmer datablokkerne i serverens lokale filsystem. HDFS er tilgængelig på mange forskellige operativsystemer og opfører sig det samme, uanset om det er Windows, Mac OS eller Linux.

  • Gemmer metadataene for en blok i det lokale filsystem baseret på metadatasjablonen i NameNode.

  • Udfører periodiske valideringer af file checksums.

  • Sender regelmæssige rapporter til NameNode om, hvilke blokke der er tilgængelige til filoperationer.

  • Giver metadata og data til kunder efter behov. HDFS understøtter direkte adgang til data noder fra klientprogrammer.

  • Videresender data til andre dataduder baseret på en "pipelining" -model.

  • Blokplacering på dataduderne er afgørende for dataprofilering og understøttelse af data-pipelining. HDFS holder en kopi af hver blok lokalt. HDFS er seriøs om data replikation og resiliency.

Hadoop Distributed File System (HDFS) til Big Data Projects - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...