Modificere Business Intelligence Products til at håndtere Big Data - dummies

Traditionelle business intelligence-produkter blev ikke rigtig designet til at håndtere store data, så de kan kræve en vis modifikation. De var designet til at arbejde med stærkt strukturerede, velbegrundede data, der ofte lagres i et relationelt datalager og vises på dit skrivebord eller en bærbar computer. Denne traditionelle business intelligence analyse anvendes typisk på snapshots af data i stedet for hele mængden af tilgængelige data. Hvad er forskelligt med stor data analyse?

Stor datadata

Store data består af strukturerede, semistrukturerede og ustrukturerede data. Du har ofte meget af det, og det kan være ret komplekst. Når du tænker på at analysere det, skal du være opmærksom på de potentielle egenskaber ved dine data:

Det kan komme fra usikre kilder. Stor dataanalyse involverer ofte aggregering af data fra forskellige kilder. Disse kan omfatte både interne og eksterne datakilder. Hvor troværdige er disse eksterne kilder til information? For eksempel, hvor troværdigt er sociale medier data som en tweet? Oplysningerne kan komme fra en ubekræftet kilde. Integriteten af disse data skal overvejes i analysen.
Det kan være snavset. Beskidte data refererer til unøjagtige, ufuldstændige eller fejlagtige data. Dette kan omfatte stavning af ord; en sensor, der er brudt, ikke korrekt kalibreret eller ødelagt på en eller anden måde; eller endda duplikeret data. Datavidenskabsmænd diskuterer hvor de skal rense dataene - enten tæt på kilden eller i realtid.

Selvfølgelig siger en tankegang, at de beskidte data ikke bør rengøres overhovedet, fordi det kan indeholde interessante outliers. Rensestrategien vil sandsynligvis afhænge af kilden og typen af data og målet med din analyse. Hvis du for eksempel udvikler et spamfilter, er målet at registrere de dårlige elementer i dataene, så du vil ikke rense det.
Signal / støjforholdet kan være lavt. Med andre ord kan signalet (brugbar information) kun være en lille procentdel af dataene; støj er resten. At kunne udtrække et lille signal fra støjende data er en del af fordelene ved stor dataanalyse, men du skal være opmærksom på, at signalet måske er lille.
Det kan være i realtid. I mange tilfælde forsøger du at analysere datastrømmer i realtid.

Stor datastyring skal være en vigtig del af analysekvationen. Under forretningsanalyser skal der gøres forbedringer til styringsløsninger for at sikre rigtigheden fra de nye datakilder, især da den kombineres med eksisterende betroede data, der er gemt i et lager.Datasikkerhed og privatlivsløsninger skal også forbedres for at understøtte styring / styring af store data, der er lagret inden for ny teknologi.

Analytiske store datalgoritmer

Når du overvejer stor dataanalyse, skal du være opmærksom på, at når du udvider ud over skrivebordet, skal de algoritmer, du bruger, ofte ændres, ændre intern kode uden at påvirke dens eksterne funktion. Skønheden i en stor datainfrastruktur er, at du kan køre en model, der plejede at tage timer eller dage i minutter. Dette giver dig mulighed for at gentage på modellen hundredvis af gange. Men hvis du kører en regression på en milliard rækker af data på tværs af et distribueret miljø, skal du overveje ressourcekravene vedrørende datamængden og dens placering i klyngen. Dine algoritmer skal være databevidste.

Derudover begynder sælgerne at tilbyde nye analyser designet til at blive placeret tæt på de store datakilder for at analysere data på plads. Denne tilgang til at køre analytics tættere på datakilderne minimerer mængden af lagrede data ved kun at beholde dataene med høj værdi. Det giver dig også mulighed for at analysere dataene før, hvilket er afgørende for beslutningstagning i realtid.

Selvfølgelig vil analyserne fortsætte med at udvikle sig. Du kan f.eks. Have brug for real-time visualiseringskapacitet til at vise data i realtid, der ændres løbende. Hvordan praktiserer du praktisk talt en milliard point på en grafplade? Eller hvordan arbejder du med de prædiktive algoritmer, så de udfører hurtigt nok og dybt nok analyse til at udnytte et stadigt voksende, komplekst datasæt? Dette er et område med aktiv forskning.

Støtte til stor datainfrastruktur

Det er tilstrækkeligt at sige, at hvis du leder efter en platform, skal den opnå følgende:

Integrere teknologier:

Infrastrukturen skal integrere nye store datateknologier med traditionelle teknologier til at kunne behandle alle former for store data og gøre det forbrug af traditionelle analyser. Opbevar store mængder af forskellige data:
Der kan være behov for et enterprise-hærdet Hadoop-system, der kan behandle / lagre / styre store mængder data i ro, uanset om det er struktureret, halvstruktureret eller ustruktureret. Procesdata i bevægelse:
Der kan være behov for strøm-computerkapacitet til at behandle data, som kontinuerligt genereres af sensorer, smarte enheder, video, lyd og logfiler til støtte for beslutningstagning i realtid. Lagerdata:
Du skal måske have en løsning optimeret til operationelle eller dybe analytiske arbejdsbyrder for at gemme og administrere de voksende mængder af betroede data. Og selvfølgelig har du brug for evnen til at integrere de data, du allerede har på plads sammen med resultaterne af den store dataanalyse.