Hadoop-Based Landing Zone - dummies - Personlig finansiering 2025

Video: Technology Stacks - Computer Science for Business Leaders 2016 2025

Når du forsøger at finde ud af, hvad en analytisk miljø kan se ud i fremtiden, snuble du over mønsteret af Hadoop-baserede landingszone gang på gang. Faktisk er det ikke længere en futuresorienteret diskussion, fordi landingszonen er blevet den måde, hvorpå fremadrettede virksomheder nu forsøger at spare IT-omkostninger og skabe en platform for innovativ dataanalyse.

Så hvad er landingszonen præcis? På det mest grundlæggende niveau er landingszone kun det centrale sted, hvor data vil lande i din virksomhed - ugentlige udtræk af data fra operationelle databaser, f.eks. Eller fra systemer, der genererer logfiler. Hadoop er et nyttigt depot til at lande data, af følgende årsager:

Det kan håndtere alle slags data.
Det er let skalerbart.
Det er billigt.
Når du lander data i Hadoop, har du fleksibilitet til at forespørge, analysere eller behandle dataene på en række måder.

Dette diagram viser kun en del af historien og er på ingen måde komplet. Efter alt skal du vide, hvordan dataene bevæger sig fra landingsområdet til datalageret osv.

Udgangspunktet for diskussionen om modernisering af et datalager skal være hvordan organisationer bruger datalagre og de udfordringer, IT-afdelinger står over for med dem.

I begyndelsen af 1980'erne begyndte virksomhedsledere at have rapporter fra disse relationelle data, når organisationerne blev gode til at lagre deres operationelle informationer i relationelle databaser (f.eks. Salgstransaktioner eller supply chain status). De tidligste relationelle butikker var operationelle databaser og blev designet til online-transaktionsbehandling (OLTP), så de kunne indsættes, opdateres eller slettes hurtigst muligt.

Dette er en upraktisk arkitektur til storskala rapportering og analyse, så der blev udviklet Relational Online Analytical Processing (ROLAP) databaser til at imødekomme dette behov. Dette førte til udviklingen af en helt ny slags RDBMS: a datalager, , som er en separat enhed og lever sammen med en organisations operative datalager.

Dette kommer ned til brug af specialbyggede værktøjer til større effektivitet: Du har driftsdatabutikker, som er designet til effektivt at behandle transaktioner og datalagre, der er designet til at understøtte gentagen analyse og rapportering.

Data warehouses er dog under stigende stress af følgende grunde:

Øget efterspørgsel om at holde længere perioder med data online.
Øget efterspørgsel efter behandlingsressourcer til at transformere data til brug i andre lagre og data marts.
Øget efterspørgsel efter innovative analyser, som kræver, at analytikere stiller spørgsmål om lagerdata ud over den regelmæssige rapportering, der allerede er gjort. Dette kan medføre betydelig yderligere behandling.

I figuren kan du se datalageret præsenteret som den primære ressource for de forskellige slags analyser, der er opført på højre side af figuren. Her ses også konceptet for en landingszone, der repræsenteres, hvor Hadoop gemmer data fra en række indkommende datakilder.

For at aktivere en Hadoop landingszone skal du sikre dig, at du kan skrive data fra de forskellige datakilder til HDFS. For relationelle databaser ville en god løsning være at bruge Sqoop.

Men landing af data er kun begyndelsen.

Når du flytter data fra mange kilder til din landingszone, er et problem, som du uundgåeligt vil løbe ind i, datakvalitet. Det er almindeligt, at virksomhederne har mange operationelle databaser, hvor nøgleoplysningerne er forskellige, for eksempel at en kunde kan blive kendt som "D. deRoos "i en database, og" Dirk deRoos "i en anden.

Et andet kvalitetsproblem ligger i systemer, hvor der er stor afhængighed af manuel dataindtastning, enten hos kunder eller medarbejdere. Her er det ikke ualmindeligt at finde fornavne og efternavne skiftet eller anden misinformation i datafelterne.

Datakvalitetsproblemer er en stor del for datalagringsmiljøer, og derfor går en stor indsats i rensnings- og valideringstrinnene, da data fra andre systemer behandles, når det er indlæst i lageret. Det hele kommer ned til tillid : Hvis de data, du stiller spørgsmål om, er beskidte, kan du ikke stole på svarene i dine rapporter.

Så selvom der er stort potentiale for at få adgang til mange forskellige datasæt fra forskellige kilder i din Hadoop landingszone, skal du faktorere i datakvaliteten og hvor meget du kan stole på dataene.