Styring af Big Data med Hadoop: HDFS og MapReduce - dummies

Video: Big data skal få trafikken til at glide lettere - Den Regionale Datahub 2025

En del af Big Data For Dummies Cheat Sheet

Hadoop, en open source software framework, bruger HDFS (Hadoop Distributed File System) og MapReduce til at analysere store data på råvareklynger hardware-det vil sige i et distribueret computermiljø.

Hadoop Distributed File System (HDFS) blev udviklet for at give virksomhederne lettere at håndtere store datamængder på en enkel og pragmatisk måde. Hadoop tillader store problemer at nedbrydes i mindre elementer, så analysen kan gøres hurtigt og omkostningseffektivt. HDFS er en alsidig, robust og klynget tilgang til styring af filer i et stort datamiljø.

HDFS er ikke den endelige destination for filer. Det er snarere en datatjeneste, der tilbyder et unikt sæt af funktioner, der er nødvendige, når dataene og hastigheden er høje.

MapReduce er en software ramme, der gør det muligt for udviklere at skrive programmer, der kan behandle massive mængder ustrukturerede data parallelt på tværs af en distribueret gruppe processorer. MapReduce blev designet af Google som en måde at effektivt udføre et sæt af funktioner mod en stor mængde data i batch-tilstand.

Komponenten "kort" distribuerer programmeringsproblemet eller opgaverne på tværs af et stort antal systemer og håndterer placeringen af opgaverne på en måde, der afbalancerer belastningen og styrer genopretningen fra fejl. Når den distribuerede beregning er afsluttet, aggregerer en anden funktion, der kaldes "reducere", alle elementer sammen igen for at give et resultat. Et eksempel på MapReduce-brug ville være at bestemme, hvor mange sider af en bog der er skrevet på hver af 50 forskellige sprog.