Hjem Personlig finansiering Datablokke i Hadoop Distributed File System (HDFS) - dummier

Datablokke i Hadoop Distributed File System (HDFS) - dummier

Video: Bruk av datablokker (DB) i Simatic Step 7 2025

Video: Bruk av datablokker (DB) i Simatic Step 7 2025
Anonim

Når du gemmer en fil i HDFS, bryder systemet det ned i et sæt individuelle blokke og gemmer disse blokke i forskellige slave noder i Hadoop-klyngen. Dette er en helt normal ting at gøre, da alle filsystemer bryder filer ned i blokke, før de lagres til disk.

HDFS har ingen idé (og er ligeglad), hvad der er gemt inde i filen, så rå filer er ikke opdelt i overensstemmelse med regler, som vi mennesker ville forstå. Mennesker vil for eksempel have rekordgrænser - linjerne viser hvor en post begynder og slutter - for at blive respekteret.

HDFS er ofte lykkeligt uvidende om, at den endelige post i en blok kun kan være en delvis rekord, med resten af ​​indholdet shuntet ud til den følgende blok. HDFS vil kun sikre sig, at filerne er opdelt i lige store blokke, der matcher den foruddefinerede blokstørrelse for Hadoop-forekomsten (medmindre en brugerdefineret værdi blev indtastet for den fil, der lagres). I det foregående billede er denne blokstørrelse 128 MB.

Ikke alle filer, du skal gemme, er et nøjagtigt antal af systemets blokstørrelse, så den endelige datablok for en fil bruger kun så meget plads som nødvendigt. I tilfælde af det foregående billede er den endelige datablok 1MB.

Begrebet lagring af en fil som en samling af blokke er helt i overensstemmelse med, hvordan filsystemer normalt fungerer. Men hvad er forskelligt om HDFS er skalaen. En typisk blokstørrelse, som du vil se i et filsystem under Linux, er 4KB, mens en typisk blokstørrelse i Hadoop er 128 MB. Denne værdi kan konfigureres, og den kan tilpasses som både en ny systemstandard og en brugerdefineret værdi for individuelle filer.

Hadoop var designet til at gemme data på petabyte skalaen, hvor eventuelle potentielle begrænsninger til udskalering er minimeret. Den høje blokstørrelse er en direkte konsekvens af dette behov for at gemme data i massiv skala.

Først og fremmest har alle datablokke, der er gemt i HDFS, deres egne metadata og skal spores af en central server, så programmer, der behøver adgang til en bestemt fil, kan rettes til, hvor alle filens blokke er gemt. Hvis blokstørrelsen var i kilobyteområdet, ville selv beskedne datamængder i terabyte-skalaen overvælde metadata-serveren med for mange blokke til at spore.

For det andet er HDFS designet til at muliggøre høj gennemstrømning, så parallelbehandling af disse store datasæt sker så hurtigt som muligt. Nøglen til Hadops skalerbarhed på databehandlingssiden er og vil altid være parallelisme - evnen til at behandle de enkelte blokke af disse store filer parallelt.

For at muliggøre effektiv behandling skal der sikres en balance. På den ene side skal blokstørrelsen være stor nok til at berettige de ressourcer, der er dedikeret til en individuel databehandlingsenhed (f.eks. Et kort eller en reduceret opgave). På den anden side kan blokstørrelsen ikke være så stor, at systemet venter meget lang tid for en sidste databehandlingsenhed for at afslutte sit arbejde.

Disse to overvejelser afhænger naturligvis af, hvilke former for arbejde der udføres på datablokkerne.

Datablokke i Hadoop Distributed File System (HDFS) - dummier

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...