Video: Connect Hadoop using Microsoft Power BI Desktop 2025
Cloudera er en førende Apache Hadoop-software- og tjenesteudbyder på det store datamarked. Som Apache Drill søger Clouderaas Impala-teknologi at forbedre interaktiv forespørgselsresponstid for Hadoop-brugere. Apache Hive har leveret en velkendt og kraftfuld forespørgselsmekanisme til Hadoop-brugere, men forespørgselsvaretider er ofte uacceptable på grund af Hives tillid til MapReduce. Cloudera's svar på dette problem er Impala.
Cloudera har udviklet en MPP-forespørgselsmaskine, skrevet i C ++, for at erstatte MapReduce-laget leveret af Apache Hive. I modsætning til Dremel og Drill besluttede Cloudera at en indbygget C ++ MPP-motor - i stedet for en Java-motor - var svaret på hurtige, interaktive Hadoop-forespørgsler.
Bemærk, at Impala bruger HiveQL som programmeringsinterface, og Impala's Query Exec-motorer er placeret sammen med HDFS-datodenoder i overensstemmelse med Hadoop-tilgangen til samlokalisering af data med behandlingsopgaver. Impala kan også bruge HBase som en datalager. I denne forstand er Impala en udvidelse til Apache Hadoop, der giver et meget højtydende alternativ til Hive-on-top-of-MapReduce-modellen.
Cloudera og Twitter førte udviklingen af det nye Hadoop filformat, som kan bruges sammen med Impala og er tilgængeligt som open source på GitHub. Parketfilformatet giver et robust kolonnemedium til lagring af data i Hadoop. Den understøtter meget effektiv komprimering og kodning, og er effektiv til lagring af indlejrede datastrukturer.
Du kan finde Clouderaas Impala-teknologi, som også blev inspireret af Googles Dremel-opfindelse.