Video: HBase Tutorial for Beginners | What is HBase in Hadoop | HBase Shell Commands 2025
Hvis du starter en diskussion af HBase (Hadoop Database) arkitekturen ved at beskrive RegionServers i stedet for MasterServer, kan du overraske dig. Udtrykket RegionServer synes at betyde, at det afhænger af (og er sekundært til) MasterServer, og at du derfor bør diskutere MasterServer først. Som den gamle sang går, er det dog ikke nødvendigvis sådan. "
RegionServers er afhængige af MasterServer til bestemte funktioner, men ikke i form af et master-slave forhold til datalagring og hentning. I øverste venstre hjørne af figuren bemærker du, at klienterne ikke peger på MasterServer, men peg i stedet for Zookeeper-klyngen og RegionServers.
MasterServer er ikke på vej til datalagring og adgang - det er jobbet hos Zookeeper-klyngen og RegionServers. Se på de primære funktioner i MasterServer, som også er en softwareproces (eller daemon) som RegionServers. MasterServer er der til
-
Overvåg RegionServers i HBase-klyngen: MasterServer opretholder en liste over aktive RegionServers i HBase-klyngen.
-
Håndtering af metadataoperationer: Når en tabel oprettes eller dets attributter ændres (komprimeringsindstilling, cache-indstillinger, versionering og mere), håndterer MasterServer operationen og gemmer de nødvendige metadata.
-
Tildel regioner: MasterServer tildeler regioner til RegionServers.
-
Administrer RegionServer failover: Som med enhver distribueret klynge, håber du, at knudefejl ikke opstår, og du planlægger dem alligevel. Når områdeservere fejler, meddeler Zookeeper MasterServer, så failover og restore operations kan startes.
-
Overvåg belastningsbalancering af regioner på tværs af alle tilgængelige RegionServers: Du kan huske, at tabeller består af regioner, som er jævnt fordelt på alle tilgængelige RegionServers. Dette er arbejdet i balancertråden (eller chore , hvis du foretrækker), som MasterServer regelmæssigt aktiverer.
-
Administrer (og rengør) katalogtabeller: To vigtige katalogtabeller bruges af HBase-systemet til at hjælpe en klient med at finde et bestemt nøgleværdipar i systemet.
MasterServer administrerer disse kritiske tabeller på vegne af det overordnede HBase-system.
-
Ryd WAL: MasterServer interagerer med WAL under RegionServer failover og renser periodisk logfilerne.
-
Giv en coprocessor ramme for at observere master operationer: Her er et nyt nyt udtryk for din voksende HBase ordliste. Coprocessors kører i forbindelse med MasterServer eller RegionServers. For eksempel kan en MasterServer observatør coprocessor tillade dig at ændre eller udvide serverens normale funktionalitet, når operationer som tabeller oprettelse eller tabeller sletning finder sted. Coprocessorer bruges ofte til at styre tabelindekser til avancerede HBase applikationer.
En coprocessor, der kører i forbindelse med MasterServer og / eller RegionServer (eller begge) kan bruges til at forbedre sikkerheden, oprette sekundære indekser og meget mere. Du kan finde flere oplysninger om coprocessors på en HBase community blog.
Som med alle Open Source-Hadoop-teknologier vil MasterServer-operationer sandsynligvis ændre sig over tid, da ingeniørerne arbejder på innovationer designet til at forbedre HBase. På grund af denne skrivning har du dog en temmelig grundig liste, der tjener som reference på højt niveau for MasterServer.
Endelig er endnu et vigtigt punkt at gøre om HBase MasterServer: Der kan og bør være en backup MasterServer i enhver HBase-klynge. Der skal kun være én aktiv MasterServer på et givent tidspunkt, så backup MasterServer er til failover.
Du kan huske, at MasterServer ikke er i dataadgangsstien for HBase-klienter. Du kan dog også huske, at MasterServer er ansvarlig for handlinger som RegionServer failover og load balancing. Den gode nyhed er, at klienter kan fortsætte med at spørge HBase-klyngen, hvis mesteren går ned, men for normal klyngeoperationer skal mesteren ikke forblive nede i nogen tid.