Indholdsfortegnelse:
- Trin 1: Downloadning af en VM
- Trin 2: Download Bigtop
- Trin 3: Installation af Bigtop
- Trin 4: Start Hadoop
- Trin 5: Hentning af stikprøvedatasættet
- Trin 6: Kopiering af stikprøvedatasættet til HDFS
Video: Technology Stacks - Computer Science for Business Leaders 2016 2025
Hvis du er komfortabel med at arbejde med VM og Linux, er du velkommen til at installere Bigtop på en anden VM end hvad der anbefales. Hvis du er rigtig fed og har hardwaren, så prøv at installere Bigtop på en klynge af maskiner i fuldt distribueret tilstand!
Trin 1: Downloadning af en VM
Hadoop kører på alle populære Linux-distributioner, så du har brug for en Linux VM. Der er et frit tilgængeligt (og lovligt!) CentOS 6 billede tilgængeligt.
Du skal bruge et 64-bit operativsystem på din bærbare computer for at kunne køre denne VM. Hadoop har brug for et 64-bit miljø.
Når du har downloadet VM'en, skal du udpakke den fra den downloadede zip-fil i destinationsmappen. Sørg for at du har omkring 50 GB plads til rådighed som Hadoop, og dine prøvedata vil bruge det.
Hvis du ikke allerede har en VM-afspiller, kan du downloade en gratis.
Når du har konfigureret din VM-afspiller, skal du åbne afspilleren, gå til File → Open, og derefter gå til det bibliotek, hvor du hentede din Linux VM. Kig efter en fil, der hedder det, og vælg det. Du kan se oplysninger om, hvor mange processorer og hvor meget hukommelse det vil bruge. Find ud af, hvor meget hukommelse din computer har, og tildel halvdelen af den til VM at bruge. Hadoop har brug for masser af hukommelse.
Når du er klar, skal du klikke på knappen Afspil, og din Linux-instans starter. Du får se mange meddelelser flyve forbi, da Linux starter, og du kommer til en login-skærm. Brugernavnet er allerede indstillet til "Tom. "Angiv adgangskoden som" tomtom "og log ind.
Trin 2: Download Bigtop
Højreklik på skærmen på din Linux VM, og vælg Åbn i Terminal fra den kontekstmenu, der vises. Dette åbner en Linux-terminal, hvor du kan køre kommandoer. Klik inde i terminalen, så du kan se markøren blinke og indtaste følgende kommando: su -
Du bliver bedt om dit kodeord, så skriv "tomtom" som du gjorde tidligere. Denne kommando skifter brugeren til root, som er hovedkontoen for en Linux-computer - du skal bruge dette for at kunne installere Hadoop.
Kør med din rodadgang (lad ikke strømmen komme i hovedet), Kør følgende kommando:
wget -O / etc / yum. repos. d / BigTop. repo// www. apache. org / dist / BigTop / bigtop-
0. 7. 0 / repos / centos6 / bigtop. repo
Kommandoen er i det væsentlige en webforespørgsel, som kræver en bestemt fil i den URL, du kan se og skriver den til en bestemt sti - i dette tilfælde er det /.
Trin 3: Installation af Bigtop
Genierne bag Linux har gjort livet ret nemt for folk, der skal installere store softwarepakker som Hadoop.Hvad du downloadede i sidste trin var ikke hele Bigtop-pakken og alle dens afhængigheder. Det var bare en arkivfil (med udvidelsen), der fortæller et installationsprogram, hvilke softwarepakker der er nødvendige for Bigtop-installationen.
Som enhver stor softwareprodukt har Hadoop mange forudsætninger, men du behøver ikke bekymre dig. En veldesignet fil vil pege på eventuelle afhængigheder, og installationsprogrammet er smart nok til at se, om de mangler på din computer og derefter download og installere dem.
Installatøren du bruger her kaldes yum, som du kommer til at se i aktion nu:
yum install hadoop * mahout * oozie * hbase * hive * hue * gris * zookeeper *
Bemærk at du 'picking og vælger Hadoop komponenter til at installere. Der findes en række andre komponenter i Bigtop, men det er de eneste, du vil bruge her. Siden VM er en frisk Linux-installation, skal du have mange afhængigheder, så du bliver nødt til at vente lidt.
Yuminstallatøren er ganske ordentlig, så du kan se præcis, hvad der downloades og installeres for at passere tiden. Når installationsprocessen er færdig, skal du se en meddelelse, der siger "Komplet! "
Trin 4: Start Hadoop
Inden du starter med at køre programmer på Hadoop, er der nogle få grundlæggende konfigurations- og opsætnings ting, du skal gøre. Her er de i orden:
-
Hent og installer Java:
yum install java-1. 7. 0-openjdk-devel. x86_64
-
Formater NameNode:
sudo / etc / init. d / hadoop-hdfs-namenode init
-
Start Hadoop-tjenesterne til din pseudodistribuerede klynge:
for jeg havde hadoop-hdfs-namenode hadoop-hdfs-datanode; gør sudo service $ jeg starter done
-
Opret en underkatalogstruktur i HDFS:
sudo / usr / lib / hadoop / libexec / init-hdfs. sh
-
Start YARN-dæmonerne:
sudo service hadoop-garn-resourcemanager startsudo service hadoop-garn-nodemanager start
Og med det er du færdig. Tillykke! Du har installeret en fungerende Hadoop-implementering!
Trin 5: Hentning af stikprøvedatasættet
For at downloade prøvedatasættet skal du åbne Firefox-browseren fra VM'en og gå til dataexpo-siden.
Du behøver ikke hele datasættet, så start med et enkelt år, 1987. Når du er ved at downloade, skal du vælge indstillingen Open with Archive Manager.
Når din fil er downloadet, skal du udpakke filen i din hjemmekatalog, hvor du nemt kan finde den. Klik på knappen Uddrag, og vælg derefter skrivebordskataloget.
Trin 6: Kopiering af stikprøvedatasættet til HDFS
Husk at dine Hadoop-programmer kun kan arbejde med data, når de er gemt i HDFS. Så hvad du skal gøre nu, er at kopiere flydatafilen til 1987 i HDFS. Indtast følgende kommando:
hdfs dfs -copyFromLocal 1987. csv / user / root