Alternative implementeringsformfaktorer til Hadoop dummies

Video: Alternative Love Songs | Best Acoustic Alternative Rock Songs 2025

Hadoop har det bedste, når det er installeret på en fysisk computer, hvor behandlingen har direkte adgang til dedikeret lagring og netværk, har Hadoop alternative implementeringer. Og selvom de er mindre effektive end den dedikerede hardware, er det i visse tilfælde værd at vælge.

Virtualiserede servere

En stor tendens i IT-centre i løbet af det sidste årti er virtualisering, hvor en stor server kan være vært for flere "virtuelle maskiner", der ser ud og fungerer som enkeltmaskiner. I stedet for dedikeret hardware, er en organisations samlede sæt applikationer og repositorier implementeret på virtualiseret hardware.

Denne tilgang har mange fordele: Centraliseringen af IT forenkler vedligeholdelsen, IT-investeringer er maksimeret på grund af færre ubrugte CPU-cyklusser, og det samlede hardware-footprint er lavere, hvilket resulterer i lavere samlede ejeromkostninger.

Organisationer, hvor it-implementeringer er helt virtualiserede, bemyndiger undertiden, at hver ny applikation følger denne model. Selvom Hadoop kan udnyttes på denne måde, er det væsentligt, at der i virtuelle klynger (med virtuelle masterknudepunkter og virtuelle slaveknudepunkter) ydeevne, dels fordi lagring er SAN-baseret og ikke er lokalt knyttet til de fleste virtualiserede miljøer.

Fordi Hadoop er designet til at virke bedst, når alle tilgængelige CPU-kerner har hurtig adgang til uafhængigt spinnediske, oprettes der en flaskehals som hele kortet og reducerer opgaver, begynder at behandle data via det begrænsede netværk mellem CPU'er og SAN. Da graden af isolering mellem virtualiserede serverressourcer er begrænset (virtuelle servere deler ressourcer med hinanden), kan Hadoop arbejdsbyrder også blive påvirket af anden aktivitet.

Når din virtuelle servers ydeevne påvirkes af en anden serveres arbejdsbyrde, er det faktisk kendt i IT-kredsløb som et problem med støjende nabo!

Virtualiserede miljøer kan dog være ganske nyttige, men i nogle tilfælde. Hvis din organisation f.eks. Skal færdiggøre en engangsforundersøgelse af et stort datasæt, kan du nemt oprette en midlertidig klynge i dit virtualiserede miljø. Denne metode er ofte en hurtigere måde at opnå intern godkendelse end at udholde de bureaukratiske problemer med at skaffe sig ny dedikeret hardware.

Når du eksperimenterer med Hadoop, kører du det ofte på dine bærbare computere via en virtuel maskine (VM). Hadoop er ekstremt langsom i denne slags miljø, men hvis du bruger små datasæt, er det et værdifuldt lærings- og testværktøj.

Cloud implementeringer

Variationer af virtualiserede miljøer er cloud computing udbydere som Amazon, Rackspace og IBM SoftLayer. De fleste store offentlige cloud-udbydere har nu MapReduce eller Hadoop tilbud til rådighed. Igen er deres ydeevne ringere end at implementere din klynge på dedikeret hardware, men det er bedre.

Cloud-udbydere tilbyder Hadoop-optimerede miljøer, hvor slave noder har lokalt tilsluttet lagring og dedikeret netværk. Hypervisorer bliver også langt mere effektive, med reduceret overhead og latens.

Overvej ikke en sky løsning til langsigtede applikationer, fordi omkostningerne ved at leje cloud computing ressourcer er betydeligt højere end at eje og opretholde et sammenligneligt system. Med en cloud-udbyder betaler du for nemheds skyld og for at kunne aflæse overhead af provisioning hardware. Clouden er imidlertid en ideel platform til testning, uddannelse og engangs databehandlingsopgaver.

Bortset fra præstations- og omkostningsovervejelser har du lovgivningsmæssige overvejelser med offentlige cloud-implementeringer. Hvis du har følsomme data, som skal opbevares enten internt eller i landet, er en offentlig cloud-implementering ikke en mulighed. I tilfælde som dette, hvor du har brug for bekvemmeligheden ved en skybaseret implementering, er en privat sky en god mulighed, hvis den er tilgængelig.