Så hvad er dette med det sjove navn Hadoop? I kernen er Hadoop en ramme for lagring af data på store klynger af < vare hardware - almindelig computerhardware, der er overkommelig og let tilgængelig - og kører applikationer mod disse data. En klynge er en gruppe af indbyrdes forbundne computere (kendt som noder ) der kan arbejde sammen om det samme problem.
Hvad angår det navn Hadoop, se ikke efter nogen større betydning der, det er simpelthen det navn, som Doug Cutting's søn gav til sin fyldte elefant. (Doug Cutting er selvfølgelig medstilleren af Hadoop.) Navnet er unikt og nemt at huske - Egenskaber, der gjorde det til et godt valg.
En applikation, der kører på Hadoop, får sit arbejde delt mellem knudepunkterne (maskinerne) i klyngen, og HDFS gemmer de data, der skal behandles. En Hadoop-klynge kan spænde tusindvis af maskiner, hvor HDFS gemmer data, og MapReduce-jobs gør deres behandling tæt på dataene, hvilket holder I / O-omkostningerne lave. MapReduce er ekstremt fleksibel og muliggør udvikling af en bred vifte af applikationer.
compute cluster, en type klynge, der hovedsagelig anvendes til beregningsformål. I en computerklynge kan mange computere ( beregne noder ) dele arbejdsbelastninger og drage fordel af en meget stor samlet båndbredde på tværs af klyngen. Hadoop-klynger består typisk af et par
master nodes, , som styrer lagrings- og behandlingssystemerne i Hadoop og mange slave noder, , som lagrer alle klyngens data og er også hvor dataene bliver behandlet.