Video: Kenneth Cukier: Big data is better data 2025
Søgemaskinerne som Yahoo! og Google blev konfronteret med et mose data problem. De var nødt til at finde en måde at forstå for de massive mængder data, som deres motorer indsamlede. Disse virksomheder havde brug for både at forstå, hvilke oplysninger de samlede, og hvordan de kunne tjene penge på disse data til støtte for deres forretningsmodel.
Hadoop blev udviklet, fordi den repræsenterede den mest pragmatiske måde at lade virksomhederne håndtere store mængder data nemt. Hadoop tillod store problemer at blive opdelt i mindre elementer, så analysen kunne gøres hurtigt og omkostningseffektivt.
Ved at bryde det store dataproblem i små stykker, der kunne behandles parallelt, kan du behandle oplysningerne og omgruppere de små stykker for at præsentere resultaterne.
Hadoop blev oprindeligt bygget af en Yahoo! ingeniør ved navn Doug Cutting og er nu et open source projekt administreret af Apache Software Foundation. Den stilles til rådighed under Apache License v2. 0.
Hadoop er en grundlæggende byggesten i vores ønske om at indfange og behandle store data. Hadoop er designet til at parallelisere databehandling på tværs af computernoder for at fremskynde beregninger og skjule latens. I kernen har Hadoop to primære komponenter:
-
Hadoop distribueret filsystem: En pålidelig, højbåndsbredt, billigt datalagringskluster, der letter håndteringen af relaterede filer på tværs af maskiner.
-
MapReduce engine: En højtydende parallel / distribueret databehandling implementering af MapReduce algoritmen.
Hadoop er designet til at behandle enorme mængder af strukturerede og ustrukturerede data (terabyte til petabytes) og implementeres på racks af råvareservere som en Hadoop-klynge. Servere kan tilføjes eller fjernes fra klyngen dynamisk, fordi Hadoop er designet til at være "selvhelbredende. "Hadoop kan med andre ord opdage ændringer, herunder fejl, og tilpasse sig disse ændringer og fortsætte med at fungere uden afbrydelse.