Video: hadoop yarn architecture 2025
Når du undersøger elementerne i Apache Hive vist, kan du se nederst, at Hive sidder oven på Hadoop Distributed File System (HDFS) og MapReduce-systemer.
I tilfælde af MapReduce viser figurerne både Hadoop 1 og Hadoop 2 komponenterne. Med Hadoop 1 konverteres Hive-forespørgsler til MapReduce-kode og udføres ved hjælp af MapReduce v1 (MRv1) -infrastrukturen, som JobTracker og TaskTracker.
Med Hadoop 2 har YARN afkoblet ressourcehåndtering og planlægning fra MapReduce-rammen. Hive-forespørgsler kan stadig konverteres til MapReduce-kode og udføres, nu med MapReduce v2 (MRv2) og YARN-infrastrukturen.
Der er en ny ramme under udvikling kaldet Apache Tez, som er designet til at forbedre Hive-præstationer for batch-stil forespørgsler og understøtte mindre interaktive (også kendt som real-time ) forespørgsler. Apache Tez-projektet er i skrivende stund stadig inkuberet og har endnu ikke en produktionsklar udgivelse.
Hvis det hjælper dig med at visualisere, hvordan alle brikkerne passer sammen, så tænk på HDFS og MapReduce-systemer som værende dele af Apache Hadoop-operativsystemet, med Hive - såvel som andre komponenter, såsom HBase - som højere funktioner eller applikationer. (Du kan se et fælles tema dukker op: HDFS leverer opbevaringen, og MapReduce giver parallelbehandlingskapaciteten til højere funktioner i Hadoop økosystemet.)
Flyt diagrammet op, finder du Hive Driver, som kompilerer, optimerer og udfører HiveQL. Hive-driveren kan vælge at udføre HiveQL-udsagn og kommandoer lokalt eller gyde et MapReduce-job afhængigt af opgaven. The Hive Driver gemmer tabel metadata i metastoren og dens database.
Du har formentlig kendskab til SQL og relational database model fra RDBMSs verden. Et bord eller relation består af lodrette kolonner og vandrette rækker. Celler gemmes, hvor rækkerne og kolonnerne skærer. Hvis du ikke er bekendt med SQL og relationsdatabase-modellen, kan du finde nyttige læringskilder ved hjælp af din yndlingssøgemaskine.
Som standard indeholder Hive Apache Derby RDBMS konfigureret med metastoren i den kaldte indlejrede tilstand. Embedded mode betyder, at Hive Driver, metastoren og Apache Derby alle kører i en Java Virtual Machine (JVM).
Denne konfiguration er god til læringsformål, men indlejret tilstand kan kun understøtte en enkelt Hive-session, så den bruges normalt ikke i flere brugerproduktionsmiljøer.Der findes to andre tilstande - lokal og fjernbetjening - som bedre kan understøtte flere Hive-sessioner i produktionsmiljøer. Du kan også konfigurere RDBMS, der er kompatible med Java Database Connectivity (JDBC) Application Programming Interface (API) suite. (Eksempler her inkluderer MySQL og DB2.)
Nøglen til applikationssupport er Hive Thrift Server, som gør det muligt for et rigt sæt af kunder at få adgang til Hive-undersystemet. Open Source SQuirreL SQL-klienten er inkluderet som et eksempel. Hovedpunktet er, at enhver JDBC-kompatibel applikation kan få adgang til Hive via den medfølgende JDBC-driver.
Samme sætning gælder for klienter, der opfylder Open Database Connectivity (ODBC) - for eksempel, unixODBC og isql-hjælpeprogrammet, som typisk er bundtet med Linux, giver adgang til Hive fra eksterne Linux-klienter.
Hvis du bruger Microsoft Excel, vil du også være glad for at vide, at du kan få adgang til Hive, når du har installeret Microsoft ODBC-driveren på dit klientsystem. Endelig, hvis du har brug for at få adgang til Hive fra andre programmeringssprog end Java (PHP eller Python, for eksempel), er Apache Thrift svaret. Apache Thrift klienter forbinder til Hive via Hive Thrift Server, ligesom JDBC og ODBC klienter gør.
For at fortsætte med Hive-arkitekturtrækningen skal du bemærke, at Hive indeholder et Command Line Interface (CLI), hvor du kan bruge et Linux-terminalvindue til at udstede forespørgsler og administrative kommandoer direkte til Hive Driver. Hvis en grafisk tilgang er mere din hastighed, er der også en praktisk webgrænseflade, så du kan få adgang til dine Hive-styrede tabeller og data via din yndlingsbrowser.
Der er en anden webbrowserteknologi kendt som Hue, der giver en grafisk brugergrænseflade (GUI) til Apache Hive. Nogle Hadoop-brugere kan lide at have en GUI til deres rådighed i stedet for blot en kommandolinje grænseflade (CLI). Sammen med Hive understøtter Hue andre vigtige Hadoop teknologier såvel som HDFS, MapReduce / YARN, HBase, Zookeeper, Oozie, Pig og Sqoop. Du vil kunne lide navnet på Hue's Apache Hive GUI - det hedder bivoks.