Hjem Personlig finansiering Hadoop-Based Landing Zone - dummies

Hadoop-Based Landing Zone - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2025

Video: Technology Stacks - Computer Science for Business Leaders 2016 2025
Anonim

Når du forsøger at finde ud af, hvad en analytisk miljø kan se ud i fremtiden, snuble du over mønsteret af Hadoop-baserede landingszone gang på gang. Faktisk er det ikke længere en futuresorienteret diskussion, fordi landingszonen er blevet den måde, hvorpå fremadrettede virksomheder nu forsøger at spare IT-omkostninger og skabe en platform for innovativ dataanalyse.

Så hvad er landingszonen præcis? På det mest grundlæggende niveau er landingszone kun det centrale sted, hvor data vil lande i din virksomhed - ugentlige udtræk af data fra operationelle databaser, f.eks. Eller fra systemer, der genererer logfiler. Hadoop er et nyttigt depot til at lande data, af følgende årsager:

  • Det kan håndtere alle slags data.

  • Det er let skalerbart.

  • Det er billigt.

  • Når du lander data i Hadoop, har du fleksibilitet til at forespørge, analysere eller behandle dataene på en række måder.

Dette diagram viser kun en del af historien og er på ingen måde komplet. Efter alt skal du vide, hvordan dataene bevæger sig fra landingsområdet til datalageret osv.

Udgangspunktet for diskussionen om modernisering af et datalager skal være hvordan organisationer bruger datalagre og de udfordringer, IT-afdelinger står over for med dem.

I begyndelsen af ​​1980'erne begyndte virksomhedsledere at have rapporter fra disse relationelle data, når organisationerne blev gode til at lagre deres operationelle informationer i relationelle databaser (f.eks. Salgstransaktioner eller supply chain status). De tidligste relationelle butikker var operationelle databaser og blev designet til online-transaktionsbehandling (OLTP), så de kunne indsættes, opdateres eller slettes hurtigst muligt.

Dette er en upraktisk arkitektur til storskala rapportering og analyse, så der blev udviklet Relational Online Analytical Processing (ROLAP) databaser til at imødekomme dette behov. Dette førte til udviklingen af ​​en helt ny slags RDBMS: a datalager, , som er en separat enhed og lever sammen med en organisations operative datalager.

Dette kommer ned til brug af specialbyggede værktøjer til større effektivitet: Du har driftsdatabutikker, som er designet til effektivt at behandle transaktioner og datalagre, der er designet til at understøtte gentagen analyse og rapportering.

Data warehouses er dog under stigende stress af følgende grunde:

  • Øget efterspørgsel om at holde længere perioder med data online.

  • Øget efterspørgsel efter behandlingsressourcer til at transformere data til brug i andre lagre og data marts.

  • Øget efterspørgsel efter innovative analyser, som kræver, at analytikere stiller spørgsmål om lagerdata ud over den regelmæssige rapportering, der allerede er gjort. Dette kan medføre betydelig yderligere behandling.

I figuren kan du se datalageret præsenteret som den primære ressource for de forskellige slags analyser, der er opført på højre side af figuren. Her ses også konceptet for en landingszone, der repræsenteres, hvor Hadoop gemmer data fra en række indkommende datakilder.

For at aktivere en Hadoop landingszone skal du sikre dig, at du kan skrive data fra de forskellige datakilder til HDFS. For relationelle databaser ville en god løsning være at bruge Sqoop.

Men landing af data er kun begyndelsen.

Når du flytter data fra mange kilder til din landingszone, er et problem, som du uundgåeligt vil løbe ind i, datakvalitet. Det er almindeligt, at virksomhederne har mange operationelle databaser, hvor nøgleoplysningerne er forskellige, for eksempel at en kunde kan blive kendt som "D. deRoos "i en database, og" Dirk deRoos "i en anden.

Et andet kvalitetsproblem ligger i systemer, hvor der er stor afhængighed af manuel dataindtastning, enten hos kunder eller medarbejdere. Her er det ikke ualmindeligt at finde fornavne og efternavne skiftet eller anden misinformation i datafelterne.

Datakvalitetsproblemer er en stor del for datalagringsmiljøer, og derfor går en stor indsats i rensnings- og valideringstrinnene, da data fra andre systemer behandles, når det er indlæst i lageret. Det hele kommer ned til tillid : Hvis de data, du stiller spørgsmål om, er beskidte, kan du ikke stole på svarene i dine rapporter.

Så selvom der er stort potentiale for at få adgang til mange forskellige datasæt fra forskellige kilder i din Hadoop landingszone, skal du faktorere i datakvaliteten og hvor meget du kan stole på dataene.

Hadoop-Based Landing Zone - dummies

Valg af editor

Landskabsfoto - Sanibel Sentinel - Dummies

Landskabsfoto - Sanibel Sentinel - Dummies

Florida's Sanibel Island er en skattekiste for naturfotografen. Ding Darling Refuge er fuld af fugle og andet indfødt dyreliv. Et blusteri Januar dagen, solen synkende lavt; med de høje skyer så det ud som om solnedgangen ville være spektakulært. Dette billede blev fotograferet et par minutter efter solnedgangen. Kamera indstillinger ...

Landskabsfoto - Solnedgang i Paradis - Dummies

Landskabsfoto - Solnedgang i Paradis - Dummies

Dette landskabsbillede blev taget i Caspersen Beach i Venedig, Florida. Dette billede blev fotograferet om vinteren. Vinter i Florida er et hårdt arbejde, men nogen skal gøre det. Kameraindstillinger ISO-indstilling 100: Der var masser af lys, så fotografen gik med en lav ISO-indstilling. Eksponeringskompensation -1/3 EV: Underexposing solnedgange ...

Landskabsfoto - Tag den høje trail - dummies

Landskabsfoto - Tag den høje trail - dummies

Dette billede blev fotograferet i Myakka River State Park nær Sarasota, Florida. Parken er smuk med mange miles af stier. Denne sti slingrer gennem en frodig eng med prikker med dejlige træer. Solen synkende lavt og dejlige skyer var i himlen. Et polariserende filter blev føjet til linsen, mørkere bluesen ...

Valg af editor

Hvordan man bruger Excel 2013 Quick Analysis Tool - dummies

Hvordan man bruger Excel 2013 Quick Analysis Tool - dummies

Excel 2013 gør det nemt at oprette en nyt pivottabel ved hjælp af en dataliste valgt i dit regneark med dets nye Quick Analysis-værktøj. For at forhåndsvise forskellige typer af pivottabeller, som Excel kan oprette til dig på stedet, bruger indtastningerne i en dataliste, som du har åbnet i en Excel ...

Hvordan man bruger FIND, FIXED og LEFT tekstfunktioner til at rydde data i Excel - dummies

Hvordan man bruger FIND, FIXED og LEFT tekstfunktioner til at rydde data i Excel - dummies

Et problem, du kan løbe ind, når du importerer data til Excel, er at dine tekstetiketter måske ikke ser rigtigt ud. Du kan holde dine data rene med følgende tekstfunktioner. FIND-funktionen FIND-funktionen finder starttekstpositionen for en tekststreng i en anden tekststreng. For eksempel, hvis du ...

Sådan bruges DSTDEV- og DSTDEVP-funktionerne i Excel - dummies

Sådan bruges DSTDEV- og DSTDEVP-funktionerne i Excel - dummies

Funktionerne DSTDEV og DSTDEVP i Excel beregner en standardafvigelse. DSTDEV beregner standardafvigelsen for en prøve. DSTDEVP beregner standardafvigelsen for en population. Som med andre databasestatistiske funktioner, er den unikke og virkelig nyttige funktion af DSTDEV og DSTDEVP, at du kan angive, at du kun vil have listeoptegnelser, der ...

Valg af editor

Basic Photoshop CS5-kommandoer - dummies

Basic Photoshop CS5-kommandoer - dummies

Bliver fortrolig med Photoshop CS5-programvinduet er en god måde at få din kuglelejer på. før du dyker ind i Photoshops værktøjer og kommandoer. Her er et par grundlæggende tips: Start Photoshop ved at klikke på Start-menuen eller et ikon på proceslinjen (Windows) eller klikke på Photoshop-ikonet på Dock (Mac). Du kan også ...

Photoshop-filtre, du virkelig har brug for - dummier

Photoshop-filtre, du virkelig har brug for - dummier

Photoshop har flere filtre, som du kan bruge på stort set ethvert billede, der skal forbedres eller finesse det. De fleste billeder, for eksempel, drage fordel af mindst en smule skarphed for at forbedre detaljerne i billedet. I nogle tilfælde vil du reducere den synlige detalje i et billede på nogle områder til ...

Værktøjskasse Genveje i Photoshop 6 - dummier

Værktøjskasse Genveje i Photoshop 6 - dummier

For at hjælpe dig med at manipulere billeder, Photoshop 6 tilbyder en værktøjskasse med en hel masse nyttige værktøjer. Du klikker på Photoshop-ikonet og nogle gange en anden nøgle eller to for at få adgang til værktøjerne, der gør arbejde og afspilning med Photoshop 6 så sjovt. Nedenstående tabel viser værktøjskassebillederne og deres genvejstaster. Hvis du ...