Fundamentals of Big Data Integration - dummies

De grundlæggende elementer i den store datastruktur styrer data på nye måder i forhold til den traditionelle relationsdatabase. Dette skyldes behovet for at have skalerbarhed og høj ydeevne, der kræves for at klare både strukturerede og ustrukturerede data.

Komponenter i det store datasøkosystem, der spænder fra Hadoop til NoSQL DB, MongoDB, Cassandra og HBase, har alle deres egen tilgang til udpakning og indlæsning af data. Som et resultat kan dine teams måske udvikle nye færdigheder til at styre integrationsprocessen på tværs af disse platforme. Imidlertid vil mange af virksomhedens datastyrings bedste praksis blive endnu vigtigere, når du flytter ind i verden med store data.

Mens store data introducerer et nyt niveau af integrationskompleksitet, gælder de grundlæggende grundlæggende principper stadig. Dit forretningsmæssige mål skal fokusere på at levere kvalitets- og pålidelige data til organisationen på det rette tidspunkt og i den rigtige sammenhæng.

For at sikre denne tillid skal du etablere fælles regler for datakvalitet med vægt på dataens nøjagtighed og fuldstændighed. Derudover har du brug for en omfattende tilgang til udvikling af virksomhedsmetadata, holde styr på datastamning og styring for at understøtte integration af dine data.

Samtidig udvikler traditionelle værktøjer til dataintegration sig til at håndtere den stigende række ustrukturerede data og voksende volumen og hastighed for store data. Selv om traditionelle former for integration tager nye betydninger i en stor dataf verden, har din integrationsteknologi brug for en fælles platform, der understøtter datakvalitet og profilering.

For at gøre sunde forretningsbeslutninger baseret på stor dataanalyse, skal disse oplysninger være pålidelige og forstås på alle niveauer i organisationen. Selv om det sandsynligvis ikke vil være omkostning eller tidseffektivt at være alt for bekymret over datakvaliteten i den eksplorative fase af en stor dataanalyse, skal kvalitet og tillid til sidst spille en rolle, hvis resultaterne skal indarbejdes i forretningsprocessen.

Oplysninger skal leveres til virksomheden på en pålidelig, kontrolleret, konsekvent og fleksibel måde på tværs af virksomheden, uanset kravene til individuelle systemer eller applikationer. For at nå dette mål gælder tre grundlæggende principper:

Du skal skabe en fælles forståelse af datadefinitioner. I de indledende faser af din store dataanalyse har du sandsynligvis ikke samme kontrolniveau over datadefinitioner som du gør med dine operationelle data.Når du først har identificeret de mønstre, der er mest relevante for din virksomhed, har du brug for evnen til at kortlægge dataelementer til en fælles definition.
Du skal udvikle et sæt datatjenester for at kvalificere dataene og gøre det konsekvent og i sidste ende troværdigt. Når dine ustrukturerede og store datakilder er integreret med strukturerede operationelle data, skal du være sikker på, at resultaterne vil være meningsfulde.
Du har brug for en strømlinet måde at integrere dine store datakilder og registreringssystemer på. For at træffe gode beslutninger baseret på resultaterne af din store dataanalyse, skal du levere oplysninger til det rigtige tidspunkt og med den rette sammenhæng. Din store dataintegrationsproces skal sikre konsistens og pålidelighed.

For at integrere data på tværs af blandede applikationsmiljøer, få data fra et datamiljø (kilde) til et andet datamiljø (mål). Uddrag, transformation og belastning (ETL) teknologier er blevet brugt til at opnå dette i traditionelle data warehouse miljøer. ETLs rolle udvikler sig til at håndtere nyere databehandlingsmiljøer som Hadoop.

I et stort datamiljø kan du muligvis kombinere værktøjer, som understøtter integrationsprocesser i batch (ved hjælp af ETL) med real-time integration og føderation på tværs af flere kilder. For eksempel kan et lægemiddelfirma muligvis blande data, der er lagret i dets MDD-system (Master Data Management), med store datakilder om medicinske resultater af brugernes brug af kunder.

Virksomheder bruger MDM til at lette indsamling, aggregering, konsolidering og levering af ensartede og pålidelige data på en kontrolleret måde på tværs af virksomheden. Derudover bruges nye værktøjer som Sqoop og Scribe til at understøtte integration af store datamiljøer. Du finder også en stigende vægt på at bruge ekstrakt, load og transform (ELT) teknologier. Disse teknologier beskrives næste.