Dimensionering Din Hadoop Cluster - dummies - Personlig finansiering 2025

Video: Varmehjul.dk - Dimensionering af køle- og varmeanlæg 2025

Tilpasning af ethvert databehandlingssystem er lige så meget en videnskab som den er en kunst. Med Hadoop overvejer du de samme oplysninger som du ville med en relationsdatabase. For det meste skal du vide, hvor meget data du har, estimere dens forventede vækstrater og fastlægge en retentionspolitik (hvor lang tid at holde dataene).

Svarene på disse spørgsmål tjener som dit udgangspunkt, som er uafhængigt af ethvert teknologirelateret krav.

Når du har bestemt, hvor meget data du skal opbevare, kan du starte factoring i Hadoop-specifikke overvejelser. Antag at du har et teleselskab, og du har fastslået, at du har brug for 750 terabyte (TB) lagerplads til sine logopdateringsdokumenter (CDR). < Du beholder disse registre for at overholde regeringsforskrifter, men du kan også analysere dem o se churn mønstre og overvåge netværk sundhed, for eksempel. For at bestemme, hvor meget lagerplads du har brug for, og som følge heraf, hvor mange racks og slave noder du har brug for, udfører du dine beregninger med disse faktorer i tankerne:

Replication:

Standard replikationsfaktoren for data i HDFS er 3. De 500 terabyte af CDR-data til teleselskabet i eksemplet bliver derefter til 1500 terabyte. Bytteplads:
Enhver analyse eller behandling af dataene ved MapReduce kræver yderligere 25 procent af pladsen til at gemme eventuelle foreløbige og endelige resultatgrupper. (Teleselskabet har nu brug for 1875 terabyte lagerplads.)

Komprimering:
Teleselskabet gemmer CDR'erne i en komprimeret form, hvor det gennemsnitlige kompressionsforhold forventes at være 3: 1. Du har nu brug for 625 terabyte. Antal slave noder:
Forudsat at hver slave node har tolv 3TB-drev dedikeret til HDFS, har hver slave node 36 terabyte rå HDFS-lagerplads, så selskabet har brug for 18 slave noder. Antal racks:
Da hver slave node bruger 2RU, og firmaet i eksemplet har brug for tre master noder (1RU stykke) og to ToR-switche (1RU stykke), skal du have i alt 41RU. Det er 1RU mindre end den samlede kapacitet i en standard rack, så en enkelt rack er tilstrækkelig til denne implementering. Uanset at der ikke er plads tilbage til vækst i denne klynge, er det forsigtigt at købe et andet rack (og to yderligere ToR-switche) og opdele slaveknyderne mellem de to racks.

Testing:
Vedligeholdelse af en testklynge, der er en mindre skala repræsentation af produktionsklyngen, er en standard praksis. Det behøver ikke at være enormt, men du vil have mindst fem dataduder, så du får en præcis repræsentation af Hadops adfærd.Som med ethvert testmiljø skal det isoleres på et andet netværk fra produktionsklyngen. Sikkerhedskopiering og katastrofeinddrivelse:
Som ethvert produktionssystem skal teleselskabet også overveje backup- og katastrofegendannelseskrav. Dette firma kunne gå så langt som at skabe en spejlklynge for at sikre, at de har en varm standby for hele deres system. Dette er selvfølgelig den dyreste løsning, men passer til miljøer, hvor konstant oppetid er kritisk. I det mindste dyre ende af spektret (uden at sikkerhedskopiere dataene i det hele taget) kunne teleselskabet regelmæssigt sikkerhedskopiere alle data (herunder dataene selv, applikationer, konfigurationsfiler og metadata), der lagres i deres produktionsklynge at tape. Med tape er dataene ikke umiddelbart tilgængelige, men det vil muliggøre en katastrofeinddrivningsindsats, hvis hele Hadoop-klyngen mangler.

Som med din egen computer, når den primære harddisk fylder med plads, sænker systemet betydeligt. Hadoop er ingen undtagelse. Også en harddisk udfører bedre, når den er mindre end 85 til 90 procent fuld. Med disse oplysninger i tankerne, hvis ydeevnen er vigtig for dig, bør du opbygge swap-spacefaktoren fra 25 til 33 procent.