Lag 4 i Big Data Stack: Analytiske Data Warehouses - dummies

Video: Calling All Cars: Old Grad Returns / Injured Knee / In the Still of the Night / The Wired Wrists 2024

Data warehouse, lag 4 af den store datastabel og dets ledsager data mart har længe været de primære teknikker, som organisationer bruger til at optimere data for at hjælpe beslutningstagere. Data lagre og marts indeholder typisk normaliserede data indsamlet fra en række forskellige kilder og samlet for at lette analysen af virksomheden.

Data warehouses og marts forenkler oprettelsen af rapporter og visualisering af forskellige dataposter. De er generelt lavet af relationelle databaser, multidimensionale databaser, flade filer og objektdatabaser - stort set enhver lagringsarkitektur. I et traditionelt miljø, hvor præstationer måske ikke har højeste prioritet, er valget af den underliggende teknologi drevet af kravene til analyse, rapportering og visualisering af virksomhedens data.

Da organiseringen af dataene og dens beredvillighed til analyse er nøgle, holdes de fleste data warehouse implementeringer aktuelle via batchbehandling. Problemet er, at batchbelastede datalager og data marts kan være utilstrækkelige til mange store dataprogrammer. Stresset, der pålægges af højhastighedshastige datastrømme, vil sandsynligvis kræve en mere real-time tilgang til store datalagre.

Dette betyder ikke, at du ikke opretter og fodrer et analytisk datalager eller en data mart med batchprocesser. I stedet kan du ende med at have flere datalagre eller data marts, og resultaterne og skalaen afspejler tidskravene hos analytikere og beslutningstagere.

Da mange datalager og data marts består af data indsamlet fra forskellige kilder i et firma, skal omkostningerne i forbindelse med rensning og normalisering af data også behandles. Med store data finder du nogle vigtige forskelle:

Traditionelle datastrømme (fra transaktioner, applikationer osv.) Kan producere mange forskellige data.
Der findes også snesevis af nye datakilder, der hver især kræver en vis manipulation, før det kan være rettidig og nyttigt for virksomheden.
Indholdskilder skal også renses, og det kan kræve forskellige teknikker, end du måske bruger med strukturerede data.

Historisk blev indholdet af datalager og data marts organiseret og leveret til virksomhedsledere med ansvar for strategi og planlægning. Med store data udnytter et nyt sæt af teams data til beslutningstagning.

Mange store dataimplementeringer giver realtidsfunktioner, så virksomhederne skal kunne levere indhold for at gøre det muligt for enkeltpersoner med operationelle roller at tage fat på problemer som kundesupport, salgsmuligheder og driftsafbrud i næsten real tid.På den måde hjælper store data med at flytte handlinger fra back office til front office.

Eksisterende analyseværktøjer og -teknikker vil være meget nyttige til at give mening om store data. Der er dog en fangst. Algoritmerne, som er en del af disse værktøjer, skal kunne arbejde med store mængder potentielt realtidsdata og uensartede data. Infrastrukturen skal være på plads for at støtte dette.

Og leverandører, der leverer analyseværktøjer, skal også sikre, at deres algoritmer arbejder på tværs af distribuerede implementeringer. På grund af disse kompleksiteter forventer du en ny klasse af værktøjer til at give mening for store data.

Der findes tre klasser af værktøjer i dette lag i referencearkitekturen. De kan bruges selvstændigt eller kollektivt af beslutningstagere til at styre virksomheden. De tre klasser af værktøjer er som følger:

Rapportering og dashboards: Disse værktøjer giver en & ldquo; brugervenligt & rdquo; repræsentation af oplysninger fra forskellige kilder. Selv om det er en grundpille i den traditionelle dataværld, udvikler dette område sig stadig for store data. Nogle af de værktøjer, der bruges, er traditionelle, der nu kan få adgang til de nye typer af databaser, der kollektivt hedder NoSQL (ikke kun SQL).
Visualisering: Disse værktøjer er det næste skridt i udviklingen af rapporteringen. Udgangen har en tendens til at være yderst interaktiv og dynamisk. En anden vigtig skelnen mellem rapporter og visualiseret output er animation. Forretningsbrugere kan se ændringerne i dataene ved hjælp af forskellige forskellige visualiseringsteknikker, herunder mind maps, varmekort, infographics og forbindelsesdiagrammer. Rapportering og visualisering sker i slutningen af forretningsaktiviteten.
Analytics og avanceret analyse: Disse værktøjer kommer ind i datalageret og behandler dataene til konsum. Avanceret analyse bør udforske tendenser eller begivenheder, der er transformative, unikke eller revolutionerende til eksisterende forretningspraksis. Prediktiv analyse og sentimentanalyse er gode eksempler på denne videnskab.