Hjem Personlig finansiering Hadoop-Based Landing Zone - dummies

Hadoop-Based Landing Zone - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Anonim

Når du forsøger at finde ud af, hvad en analytisk miljø kan se ud i fremtiden, snuble du over mønsteret af Hadoop-baserede landingszone gang på gang. Faktisk er det ikke længere en futuresorienteret diskussion, fordi landingszonen er blevet den måde, hvorpå fremadrettede virksomheder nu forsøger at spare IT-omkostninger og skabe en platform for innovativ dataanalyse.

Så hvad er landingszonen præcis? På det mest grundlæggende niveau er landingszone kun det centrale sted, hvor data vil lande i din virksomhed - ugentlige udtræk af data fra operationelle databaser, f.eks. Eller fra systemer, der genererer logfiler. Hadoop er et nyttigt depot til at lande data, af følgende årsager:

  • Det kan håndtere alle slags data.

  • Det er let skalerbart.

  • Det er billigt.

  • Når du lander data i Hadoop, har du fleksibilitet til at forespørge, analysere eller behandle dataene på en række måder.

Dette diagram viser kun en del af historien og er på ingen måde komplet. Efter alt skal du vide, hvordan dataene bevæger sig fra landingsområdet til datalageret osv.

Udgangspunktet for diskussionen om modernisering af et datalager skal være hvordan organisationer bruger datalagre og de udfordringer, IT-afdelinger står over for med dem.

I begyndelsen af ​​1980'erne begyndte virksomhedsledere at have rapporter fra disse relationelle data, når organisationerne blev gode til at lagre deres operationelle informationer i relationelle databaser (f.eks. Salgstransaktioner eller supply chain status). De tidligste relationelle butikker var operationelle databaser og blev designet til online-transaktionsbehandling (OLTP), så de kunne indsættes, opdateres eller slettes hurtigst muligt.

Dette er en upraktisk arkitektur til storskala rapportering og analyse, så der blev udviklet Relational Online Analytical Processing (ROLAP) databaser til at imødekomme dette behov. Dette førte til udviklingen af ​​en helt ny slags RDBMS: a datalager, , som er en separat enhed og lever sammen med en organisations operative datalager.

Dette kommer ned til brug af specialbyggede værktøjer til større effektivitet: Du har driftsdatabutikker, som er designet til effektivt at behandle transaktioner og datalagre, der er designet til at understøtte gentagen analyse og rapportering.

Data warehouses er dog under stigende stress af følgende grunde:

  • Øget efterspørgsel om at holde længere perioder med data online.

  • Øget efterspørgsel efter behandlingsressourcer til at transformere data til brug i andre lagre og data marts.

  • Øget efterspørgsel efter innovative analyser, som kræver, at analytikere stiller spørgsmål om lagerdata ud over den regelmæssige rapportering, der allerede er gjort. Dette kan medføre betydelig yderligere behandling.

I figuren kan du se datalageret præsenteret som den primære ressource for de forskellige slags analyser, der er opført på højre side af figuren. Her ses også konceptet for en landingszone, der repræsenteres, hvor Hadoop gemmer data fra en række indkommende datakilder.

For at aktivere en Hadoop landingszone skal du sikre dig, at du kan skrive data fra de forskellige datakilder til HDFS. For relationelle databaser ville en god løsning være at bruge Sqoop.

Men landing af data er kun begyndelsen.

Når du flytter data fra mange kilder til din landingszone, er et problem, som du uundgåeligt vil løbe ind i, datakvalitet. Det er almindeligt, at virksomhederne har mange operationelle databaser, hvor nøgleoplysningerne er forskellige, for eksempel at en kunde kan blive kendt som "D. deRoos "i en database, og" Dirk deRoos "i en anden.

Et andet kvalitetsproblem ligger i systemer, hvor der er stor afhængighed af manuel dataindtastning, enten hos kunder eller medarbejdere. Her er det ikke ualmindeligt at finde fornavne og efternavne skiftet eller anden misinformation i datafelterne.

Datakvalitetsproblemer er en stor del for datalagringsmiljøer, og derfor går en stor indsats i rensnings- og valideringstrinnene, da data fra andre systemer behandles, når det er indlæst i lageret. Det hele kommer ned til tillid : Hvis de data, du stiller spørgsmål om, er beskidte, kan du ikke stole på svarene i dine rapporter.

Så selvom der er stort potentiale for at få adgang til mange forskellige datasæt fra forskellige kilder i din Hadoop landingszone, skal du faktorere i datakvaliteten og hvor meget du kan stole på dataene.

Hadoop-Based Landing Zone - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...