Hadoop-dummiernes oprindelse og design

Så hvad er dette med det sjove navn Hadoop? I kernen er Hadoop en ramme for lagring af data på store klynger af < vare hardware - almindelig computerhardware, der er overkommelig og let tilgængelig - og kører applikationer mod disse data. En klynge er en gruppe af indbyrdes forbundne computere (kendt som noder ) der kan arbejde sammen om det samme problem.

Brug af netværk af overkommelige beregningsressourcer til at erhverve forretningsmæssige indsigter er Hadops nøgleværdiforslag.

Hvad angår det navn Hadoop, se ikke efter nogen større betydning der, det er simpelthen det navn, som Doug Cutting's søn gav til sin fyldte elefant. (Doug Cutting er selvfølgelig medstilleren af Hadoop.) Navnet er unikt og nemt at huske - Egenskaber, der gjorde det til et godt valg.

Hadoop består af to hovedkomponenter: en distribueret procesramme navngivet MapReduce (som nu understøttes af en komponent kaldet YARN) og et distribueret filsystem kendt som Hadoop distribueret filsystem eller HDFS.

En applikation, der kører på Hadoop, får sit arbejde delt mellem knudepunkterne (maskinerne) i klyngen, og HDFS gemmer de data, der skal behandles. En Hadoop-klynge kan spænde tusindvis af maskiner, hvor HDFS gemmer data, og MapReduce-jobs gør deres behandling tæt på dataene, hvilket holder I / O-omkostningerne lave. MapReduce er ekstremt fleksibel og muliggør udvikling af en bred vifte af applikationer.

Som du måske har antaget, er en Hadoop-klynge en form for

compute cluster, en type klynge, der hovedsagelig anvendes til beregningsformål. I en computerklynge kan mange computere ( beregne noder ) dele arbejdsbelastninger og drage fordel af en meget stor samlet båndbredde på tværs af klyngen. Hadoop-klynger består typisk af et par

master nodes, , som styrer lagrings- og behandlingssystemerne i Hadoop og mange slave noder, , som lagrer alle klyngens data og er også hvor dataene bliver behandlet.