Master nodes i Hadoop Clusters - dummies - Personlig finansiering 2025

Masterknuderne i distribuerede Hadoop-klynger er vært for de forskellige lagrings- og behandlingsstyringstjenester, der er beskrevet i denne liste, for hele Hadoop-klyngen. Redundans er afgørende for at undgå enkelte punkter med fejl, så du kan se to kontakter og tre master noder.

NavnNode: Styrer HDFS-lagring. For at sikre høj tilgængelighed har du både en aktiv NameNode og en standby NavnNode. Hver kører på egen hånd, dedikeret master node.
Checkpoint node (eller backup node): Tilbyder checkpointing tjenester til NameNode. Dette indebærer at læse NameNode's redigeringslogfil for ændringer i filer i HDFS (nye, slettede og vedhæftede filer) siden det sidste kontrolpunkt og anvende dem til NameNode's hovedfil, der kortlægger filer til datablokke.

Derudover opretholder Backup Node en kopi af filsystemnavnet i hukommelsen og holder det synkroniseret med tilstanden til NameNode. Ved brug af højtilgængelige implementeringer må du ikke bruge en checkpunktknude eller backupknude - brug en Standby NameNode i stedet. Ud over at være et aktivt standby til NameNode opretholder Standby NameNode checkpoint-tjenesterne og holder en opdateret kopi af filsystemnavnet i hukommelsen.
JournalNode: Modtager redigeringslogfodifikationer, der angiver ændringer i filer i HDFS fra NameNode. Mindst tre JournalNode-tjenester (og det er altid et ulige antal) skal køre i en klynge, og de er lette nok til, at de kan samles med andre tjenester på masterknuderne.
Resource Manager: Overvåger planlægningen af applikationsopgaver og styring af Hadoop-klyngens ressourcer. Denne tjeneste er hjertet af Garn.
JobTracker: For Hadoop 1-servere, håndteres cluster ressource management og planlægning. Med YARN er JobTracker forældet og bruges ikke. En række Hadoop-implementeringer har stadig ikke migreret til Hadoop 2 og YARN.
HMaster: Overvåger HBase-regionens servere og håndterer alle metadataændringer. For at sikre høj tilgængelighed skal du sørge for at bruge et andet HMaster-eksempel. HMaster-tjenesten er let nok til at være colocated med andre tjenester på master noder. I Hadoop 1 kører forekomster af HMaster-tjenesten på master nodes. I Hadoop 2, med Hoya (HBase on Garn), løber HMaster-forekomster i beholdere på slave noder.
Zookeeper: Koordinerer distribuerede komponenter og giver mekanismer til at holde dem i synkronisering. Zookeeper bruges til at registrere fejlen i NameNode og vælge en ny NameNode.Det bruges også med HBase til at styre HMaster og RegionServers 'stater.

Som med JournalNode har du brug for mindst tre forekomster af Zookeeper-noder (og altid et ulige antal), og de er lette nok til at være colocated med andre tjenester på master nodene.

Her har du tre master noder (med samme hardware), hvor nøgletjenesterne Active NameNode, Standby NameNode og Resource Manager hver har deres egen server. Der er også JournalNode og Zookeeper-tjenester, der kører på hver server, men de er lette og vil ikke være en kilde til ressourceforvanskning med NameNode og Resource Manager-tjenesterne.

Principperne er de samme for Hadoop 1, hvor du har brug for en dedikeret masterknude til NameNode, Secondary NameNode og JobTracker-tjenester.

Hvis du planlægger at bruge HBase med Hoya i Hadoop 2, behøver du ikke yderligere tjenester. For Hadoop 1-implementeringer ved hjælp af HBase, tjek følgende figur for udbredelsen af tjenester på Hadoop-klyngens hovedknudepunkter.

Der er to forskelle, når man sammenligner disse master-servere med Hadoop 1-mesterservere uden HBase-support: her har du brug for to HMaster-tjenester (en til at koordinere HBase og en til at fungere som standby) og Zookeeper-tjenester på alle tre master noder at håndtere failover.

Hvis du kun vil bruge din Hadoop 1-klynge til HBase, kan du undvære JobTracker-tjenesten, da HBase ikke er afhængig af Hadoop 1 MapReduce-infrastrukturen.

Når folk taler om hardware til Hadoop, lægger de generelt vægt på brugen af vare komponenter - de billige. Fordi du skal plunke ned for kun nogle få master noder (typisk tre eller fire), bliver du ikke ramt af at multiplicere omkostninger, hvis du for eksempel vælger at bruge dyre harddiske.

Husk på, at der ikke er nogen Hadoop-klynge uden hovedknudepunkter. Master noder tjener en missionskritisk funktion, og selv om du har brug for redundans, bør du designe dem med høj tilgængelighed og elasticitet i tankerne.

Anbefalet opbevaring

For Hadoop master noder, uanset antallet af slave noder eller anvendelser af klyngen, er lagringsegenskaberne konsistente. Brug fire 900 GB SAS drev, sammen med en RAID HDD controller konfigureret til RAID 1 + 0. SAS-drev er dyrere end SATA-drev og har lavere lagerkapacitet, men de er hurtigere og meget mere pålidelige.

Implementering af dine SAS-drev som et RAID-array sikrer, at Hadoop-styringstjenesterne har en overflødig butik for deres missionskritiske data. Dette giver dig tilstrækkelig stabil, hurtig og overflødig opbevaring til at understøtte styringen af din Hadoop-klynge.

Anbefalede processorer

På tidspunktet for denne skrivning anbefaler de fleste referencearkitekturer at bruge bundkort med to CPU-stik, hver med seks eller otte kerner. Intel Ivy Bridge arkitekturen er almindeligt anvendt.

Anbefalet hukommelse

Hukommelseskravene varierer betydeligt afhængigt af omfanget af en Hadoop-klynge.Hukommelse er en kritisk faktor for Hadoop-masterknudepunkter, fordi de aktive og standby-navne-navne-servere er stærkt afhængige af RAM til at styre HDFS. Som sådan skal du bruge fejlkorrigerende hukommelse (ECC) til Hadoop-masterknudepunkter. Masternoder har typisk brug for mellem 64 GB og 128 GB RAM.

NameNode-hukommelseskravet er en direkte funktion af antallet af filblokke, der er gemt i HDFS. Normalt bruger NameNode ca. 1 GB RAM pr. Million HDFS-blokke. (Husk at filer er opdelt i enkelte blokke og replikeret, så du har tre kopier af hver blok.)

Hukommelseskravene til Resource Manager, HMaster, Zookeeper og JournalNode-servere er betydeligt mindre end for NameNode-serveren. Det er dog god praksis at dimensionere hovedknudepunkterne på en ensartet måde, så de kan udskiftes i tilfælde af hardwarefejl.

Anbefalet netværk

Hurtig kommunikation er afgørende for tjenesterne på master nodes, så vi anbefaler at bruge et par bundne 10GbE forbindelser. Dette bundne par giver redundans, men fordobler også gennemgangen til 20GbE. For mindre klynger (for eksempel mindre end 50 noder) kan du komme væk med at bruge 1 GbE-stik.