Identificer de data, du har brug for til dine store data - dummies

Angiv hvilken type data du har at gøre med i dit store dataprojekt. Mange organisationer erkender, at mange internt genererede data ikke har været brugt til sit fulde potentiale tidligere.

Ved at udnytte nye værktøjer får organisationer ny viden fra tidligere uudnyttede kilder til ustrukturerede data i e-mails, kundeserviceoptegnelser, sensordata og sikkerhedslogfiler. Derudover er der stor interesse i at søge ny indsigt baseret på analyse af data, der primært er eksternt til organisationen, som f.eks. Sociale medier, mobilplacering, trafik og vejr.

Undersøgelsesfasen for store data

I de tidlige stadier af din analyse vil du søge efter mønstre i dataene. Det er kun ved at undersøge meget store datamængder, at nye og uventede relationer og sammenhænge mellem elementer kan blive tydelige. Disse mønstre kan f.eks. Give indsigt i kundepræferencer for et nyt produkt. Du skal bruge en platform til at organisere dine store data for at se efter disse mønstre.

Hadoop er meget udbredt som en underliggende byggesten til indfangning og behandling af store data. Hadoop er designet med evner, der fremskynder behandlingen af store data og gør det muligt at identificere mønstre i store mængder data på relativt kort tid. De to primære komponenter i Hadoop - Hadoop Distributed File System (HDFS) og MapReduce - bruges til at administrere og behandle dine store data.

FlumeNG til stor dataintegration

Det er ofte nødvendigt at indsamle, aggregere og flytte ekstremt store mængder streamingdata for at søge efter skjulte mønstre i store data. Traditionelle integrationsværktøjer som ETL ville ikke være hurtige nok til at flytte de store strømme af data i tide for at levere resultater til analyse som real-time bedrageri afsløring. FlumeNG indlæser data i realtid ved at streame dine data til Hadoop.

Flume bruges typisk til at samle store mængder logdata fra distribuerede servere. Det holder styr på alle de fysiske og logiske noder i en Flume installation. Agentnoder installeres på serverne og er ansvarlige for at styre måden, som en enkelt strøm af data overføres og behandles fra startpunktet til destinationsstedet.

Derudover bruges samlere til at gruppere strømmen af data til større strømme, der kan skrives til et Hadoop-filsystem eller en anden stor datalagringsbeholder. Flume er designet til skalerbarhed og kan løbende tilføje flere ressourcer til et system til at håndtere ekstremt store mængder data på en effektiv måde.Flume's output kan integreres med Hadoop og Hive til analyse af dataene.

Flume har også transformationselementer til brug på dataene og kan gøre din Hadoop-infrastruktur til en streaming kilde til ustrukturerede data.

Mønstre i store data

Du finder mange eksempler på virksomheder, der begynder at realisere konkurrencemæssige fordele ved stor dataanalyse. For mange virksomheder bliver sociale medier datastrømme i stigende grad en integreret del af en digital marketingstrategi. I undersøgelsesfasen kan denne teknologi bruges til hurtigt at søge gennem store mængder streamingdata og trække ud de trendmønstre, der relaterer til specifikke produkter eller kunder.

Kodificeringsfasen for store data

Med hundredvis af butikker og tusinder af kunder har du brug for en gentagelig proces for at gøre springet fra mønsteridentifikation til implementering af nyt produktvalg og mere målrettet markedsføring. Når du har fundet noget interessant i din store dataanalyse, kodificere den og gøre den til en del af din forretningsproces.

For at kodificere forholdet mellem din store dataanalyse og dine operationelle data, skal du integrere dataene.

Stor dataintegration og integreringstrin

Store data har stor indvirkning på mange aspekter af datahåndtering, herunder dataintegration. Traditionelt har dataintegration fokuseret på bevæbelse af data via middleware, herunder specifikationer for meddelelsesdirigering og krav til applikationsprogrammeringsgrænseflader (API'er). Disse begreber for dataintegration er mere hensigtsmæssige til styring af data i ro i stedet for data i bevægelse.

Flytningen ind i den nye verden af ustrukturerede data og streamingdata ændrer det konventionelle begreb om dataintegration. Hvis du vil integrere din analyse af streamingdata i din forretningsproces, har du brug for avanceret teknologi, der er hurtig nok til at gøre det muligt for dig at træffe beslutninger i realtid.

Når din store dataanalyse er gennemført, har du brug for en tilgang, der giver dig mulighed for at integrere eller inkorporere resultaterne af din store dataanalyse i din forretningsproces og i realtidsforretninger.

Virksomhederne har høje forventninger til at opnå reel forretningsmæssig værdi fra stor dataanalyse. Faktisk vil mange virksomheder gerne begynde en dybere analyse af internt genererede store data, såsom sikkerhedslogdata, der ikke tidligere var muligt på grund af teknologibegrænsninger.

Teknologier til højhastighedstransport af meget store og hurtige data er et krav for integration på tværs af distribuerede store datakilder og mellem store data og operationelle data. Ustrukturerede datakilder skal ofte flyttes hurtigt over store geografiske afstande for deling og samarbejde.

Sammenkædning af traditionelle kilder med store data er en multistartet proces, efter at du har set på alle dataene fra streaming store datakilder og identificeret de relevante mønstre. Efter at indsnævre mængden af data, du skal administrere og analysere, skal du nu tænke på integration.