Hvad SQL Access Actually Means - dummies - Personlig finansiering 2024

Video: Help for hacked sites: Overview 2024

En række virksomheder investerer kraftigt i at drive open source-projekter og proprietære løsninger til SQL-adgang til Hadoop-data. Når du hører ordet SQL-adgang, , bør du vide, at du er afhængig af nogle få grundlæggende forudsætninger:

Sprogstandarder: Den vigtigste standard indebærer selvfølgelig selve sproget. Der findes mange "SQL-lignende" løsninger, selv om de normalt ikke måler på bestemte grundlæggende måder - måder, der ville forhindre selv typiske SQL-sætninger fra at fungere.

Det amerikanske National Standards Institute (ANSI) etablerede SQL som en officiel teknisk standard, og it-branchen accepterer ANSI SQL-92-standarden som repræsentativ for benchmark for grundlæggende SQL-overholdelse. ANSI har i løbet af årene frigivet en række gradvist mere avancerede versioner, da databaseteknologier har udviklet sig.
Drivere: En anden vigtig komponent i en SQL-adgangsløsning er driveren - grænsefladen for applikationer til at forbinde og udveksle data med datalageret. Uden en driver er der ingen SQL-grænseflade til nogen klientprogrammer eller værktøjer til at oprette forbindelse til til indsendelse af SQL-forespørgsler.

Som sådan skal enhver SQL på Hadoop-løsning i hvert fald have JDBC- og ODBC-drivere, fordi de er de mest anvendte databasegrænsefladeteknologier.
Realtidsadgang: Indtil Hadoop 2, MapReduce-baseret udførelse var den eneste tilgængelige mulighed for analyse mod data gemt i Hadoop. For relativt simple forespørgsler, der involverede en fuld scanning af data i et bord, var Hadoop ret hurtig i forhold til en traditionel relationsdatabase.

Husk at dette er en batchanalysebrug, hvor fast kan betyde timer, afhængigt af hvor meget data der er involveret. Men når det drejede sig om mere komplekse forespørgsler, der involverede undergrupper af data, havde Hadoop det ikke godt. MapReduce er en batchbehandlingsramme, der giver høj ydeevne til real-time forespørgsler, før Hadoop 2 var arkitektonisk umuligt.

En tidlig motivator for YARN, det nye ressourcehåndterings- og planlægningssystem på blokken, var dette behov for at understøtte andre behandlingsrammer for at muliggøre realtidsbelastninger, såsom interaktive SQL-forespørgsler. Faktisk bør en ordentlig SQL-løsning ikke lade folk vente på rimelige forespørgsler.
Bærbare data: Et fælles spørgsmål i mange diskussioner om SQL-support på Hadoop er "Kan vi bruge, og erklæringer, som vi kunne gøre i en typisk relationsdatabase? "For nu er svaret nej, hvilket afspejler HDFS karakter - det er fokuseret på store, uforanderlige filer.Teknologier som Hive tilbyder skrivebeskyttet adgang til disse filer. Uanset hvad der foregår arbejde i Hive Apache-projektet.