Video: Kenneth Cukier: Big data is better data 2025
Da mange eksisterende Hadoop-implementeringer endnu ikke bruger endnu en ressourceforhandler (YARN), skal du hurtigt se på, hvordan Hadoop forvalter databehandlingen inden dagene af Hadoop 2. Koncentrer på den rolle, som JobTracker master daemons og TaskTracker slave daemoner spillede i håndtering af MapReduce behandling.
Hele punktet med at anvende distribuerede systemer er at kunne distribuere computerressourcer i et netværk af selvstændige computere på en måde, der er fejltolerant, nem og billig.
I et distribueret system som Hadoop, hvor du har en klynge af selvstændige compute noder, der arbejder parallelt, går en stor kompleksitet i at sikre at alle stykkerne arbejder sammen. Som sådan har disse systemer typisk forskellige lag til at håndtere forskellige opgaver for at understøtte parallel databehandling.
Dette begreb, kendt som adskillelse af bekymringer, sikrer, at hvis du f.eks. Er applikationsprogrammereren, behøver du ikke bekymre dig om de specifikke detaljer for f.eks. kortopgaver. I Hadoop består systemet af disse fire forskellige lag, som vist:
-
Distribueret lagerplads: Hadoop Distributed File System (HDFS) er lagringslaget, hvor dataene, mellemresultaterne og slutresultatet lagres.
-
Ressourcehåndtering: Ud over diskplads har alle slave noder i Hadoop-klyngen CPU-cykler, RAM og netværksbåndbredde. Et system som Hadoop skal kunne pakke ud disse ressourcer, så flere applikationer og brugere kan dele klyngen på forudsigelige og indstillelige måder. Dette job er udført af JobTracker-dæmonen.
-
Behandlingsramme: Procesflowet MapReduce definerer udførelsen af alle applikationer i Hadoop 1. Dette begynder med kortfasen; fortsætter med aggregering med shuffle, sortering eller sammenlægning; og ender med reduktionsfasen. I Hadoop 1 styres dette også af JobTracker-dæmonen, hvor lokal udførelse styres af TaskTracker-dæmoner, der kører på slaveknyderne.
-
Programmeringsgrænseflade (API): Programmer udviklet til Hadoop 1 skulle kodes ved hjælp af MapReduce API. I Hadoop 1 giver Hive and Pig-projekterne programmerere med lettere grænseflader til at skrive Hadoop-applikationer, og under hooden kompilerer deres kode ned til MapReduce.
I verden af Hadoop 1 (som var den eneste verden du havde indtil for ganske nylig), drejede al databehandling rundt MapReduce.