Hadoop og hive dummies

Video: Hadoop vs Spark | Which One to Choose? | Hadoop Training | Spark Training | Edureka 2025

For at lave en lang historie kort giver Hive Hadoop en bro til RDBMS verden og giver en SQL-dialekt kendt som Hive Query Language (HiveQL), som kan bruges til at udføre SQL-lignende opgaver. Det er de store nyheder, men der er mere at Hive end at møde øjet, som de siger, eller flere applikationer af denne nye teknologi, end du kan præsentere i en standard elevatorhøjde.

Hive muliggør for eksempel konceptet kendt som enterprise data warehouse (EDW) augmentation, en førende brugssag til Apache Hadoop, hvor data warehouses er oprettet som RDBMS'er bygget specifikt til data analyse og rapportering.

tilføjelse til virksomheden, og at den kan augment og supplere eksisterende EDW'er. Hive, HBase og Sqoop muliggør EDW augmentation. Nært forbundet med RDBMS / EDW-teknologi er ekstrakt, transformation og belastning (ETL) teknologi. For at forstå hvad ETL gør, hjælper det med at vide, at data i mange tilfælde ikke kan indlæses direkte i relationsdatabasen - det skal først uddrages fra sin oprindelige kilde, omdannes til et passende format og derefter indlæses i RDBMS eller EDW.

Et firma eller en organisation kan f.eks. Udtrække ustrukturerede tekstdata fra et internetforum, omdanne dataene til et struktureret format, der er både værdifuldt og nyttigt, og derefter indlæse de strukturerede data i deres EDW.

Du kan se, at Hive er et kraftfuldt ETL-værktøj i sig selv sammen med den store spiller i denne verden: Apache Pig. Igen kan brugerne forsøge at oprette Hive and Pig som

de nye ETL-værktøjer til datacenteret. (Lad dem prøve.)

Som med debatten om EDW versus Apache Hadoop er disse Apache Hadoop teknologier ikke direkte

erstatning s til eksisterende ETL-værktøjer, men i stedet er kraftfulde nye ETL-værktøjer til at være anvendes, når det er relevant. Sist men ikke mindst, giver Apache Hive dig kraftfulde analytiske værktøjer, alt inden for rammerne af HiveQL. Disse værktøjer skal se og føle sig velkendte for it-fagfolk, der forstår, hvordan man bruger SQL.