Hjem Personlig finansiering Fundamentals of Big Data Integration - dummies

Fundamentals of Big Data Integration - dummies

Anonim

De grundlæggende elementer i den store datastruktur styrer data på nye måder i forhold til den traditionelle relationsdatabase. Dette skyldes behovet for at have skalerbarhed og høj ydeevne, der kræves for at klare både strukturerede og ustrukturerede data.

Komponenter i det store datasøkosystem, der spænder fra Hadoop til NoSQL DB, MongoDB, Cassandra og HBase, har alle deres egen tilgang til udpakning og indlæsning af data. Som et resultat kan dine teams måske udvikle nye færdigheder til at styre integrationsprocessen på tværs af disse platforme. Imidlertid vil mange af virksomhedens datastyrings bedste praksis blive endnu vigtigere, når du flytter ind i verden med store data.

Mens store data introducerer et nyt niveau af integrationskompleksitet, gælder de grundlæggende grundlæggende principper stadig. Dit forretningsmæssige mål skal fokusere på at levere kvalitets- og pålidelige data til organisationen på det rette tidspunkt og i den rigtige sammenhæng.

For at sikre denne tillid skal du etablere fælles regler for datakvalitet med vægt på dataens nøjagtighed og fuldstændighed. Derudover har du brug for en omfattende tilgang til udvikling af virksomhedsmetadata, holde styr på datastamning og styring for at understøtte integration af dine data.

Samtidig udvikler traditionelle værktøjer til dataintegration sig til at håndtere den stigende række ustrukturerede data og voksende volumen og hastighed for store data. Selv om traditionelle former for integration tager nye betydninger i en stor dataf verden, har din integrationsteknologi brug for en fælles platform, der understøtter datakvalitet og profilering.

For at gøre sunde forretningsbeslutninger baseret på stor dataanalyse, skal disse oplysninger være pålidelige og forstås på alle niveauer i organisationen. Selv om det sandsynligvis ikke vil være omkostning eller tidseffektivt at være alt for bekymret over datakvaliteten i den eksplorative fase af en stor dataanalyse, skal kvalitet og tillid til sidst spille en rolle, hvis resultaterne skal indarbejdes i forretningsprocessen.

Oplysninger skal leveres til virksomheden på en pålidelig, kontrolleret, konsekvent og fleksibel måde på tværs af virksomheden, uanset kravene til individuelle systemer eller applikationer. For at nå dette mål gælder tre grundlæggende principper:

  • Du skal skabe en fælles forståelse af datadefinitioner. I de indledende faser af din store dataanalyse har du sandsynligvis ikke samme kontrolniveau over datadefinitioner som du gør med dine operationelle data.Når du først har identificeret de mønstre, der er mest relevante for din virksomhed, har du brug for evnen til at kortlægge dataelementer til en fælles definition.

  • Du skal udvikle et sæt datatjenester for at kvalificere dataene og gøre det konsekvent og i sidste ende troværdigt. Når dine ustrukturerede og store datakilder er integreret med strukturerede operationelle data, skal du være sikker på, at resultaterne vil være meningsfulde.

  • Du har brug for en strømlinet måde at integrere dine store datakilder og registreringssystemer på. For at træffe gode beslutninger baseret på resultaterne af din store dataanalyse, skal du levere oplysninger til det rigtige tidspunkt og med den rette sammenhæng. Din store dataintegrationsproces skal sikre konsistens og pålidelighed.

For at integrere data på tværs af blandede applikationsmiljøer, få data fra et datamiljø (kilde) til et andet datamiljø (mål). Uddrag, transformation og belastning (ETL) teknologier er blevet brugt til at opnå dette i traditionelle data warehouse miljøer. ETLs rolle udvikler sig til at håndtere nyere databehandlingsmiljøer som Hadoop.

I et stort datamiljø kan du muligvis kombinere værktøjer, som understøtter integrationsprocesser i batch (ved hjælp af ETL) med real-time integration og føderation på tværs af flere kilder. For eksempel kan et lægemiddelfirma muligvis blande data, der er lagret i dets MDD-system (Master Data Management), med store datakilder om medicinske resultater af brugernes brug af kunder.

Virksomheder bruger MDM til at lette indsamling, aggregering, konsolidering og levering af ensartede og pålidelige data på en kontrolleret måde på tværs af virksomheden. Derudover bruges nye værktøjer som Sqoop og Scribe til at understøtte integration af store datamiljøer. Du finder også en stigende vægt på at bruge ekstrakt, load og transform (ELT) teknologier. Disse teknologier beskrives næste.

Fundamentals of Big Data Integration - dummies

Valg af editor

A + eksamener og netværkskortet (NIC) - dummies

A + eksamener og netværkskortet (NIC) - dummies

Er bekendt med netværksgrænsefladen kort (NIC) til A + eksamenerne og forstå fordelene herfor. Netværksinterfacekortet (almindeligvis benævnt et netværkskort) er ansvarlig for at forbinde computeren eller enheden til netværket. Endnu vigtigere er netværkskortet på afsendelsescomputeren ansvarlig for at konvertere digitale data til en ...

Enhedsrelaterede fejl du behøver at vide - dummies

Enhedsrelaterede fejl du behøver at vide - dummies

Når du forfølger din compTIA A + -certificering, skal du vide om enhedsrelaterede fejl og hvad man skal gøre, når du støder på dem. Det er uheldigt, at enhederne og deres drivere, der tillader folk at udføre så meget af deres daglige arbejde med computere, er også en af ​​de største faktorer ved ikke at kunne ...

A + Certificering Alt-i-One til Dummies Cheat Sheet - dummies

A + Certificering Alt-i-One til Dummies Cheat Sheet - dummies

A + Certification All -in-One For Dummies online snydeark giver dig hurtige fakta at huske på testdagen for at hjælpe dig med at besvare spørgsmål, der findes på A + Certification Exams. Før A + eksamenerne vil du gennemgå nogle af de store Windows-begreber som boot-filer, gendannelsesværktøjer, RAID-typer og fejlfinding af værktøjer. Du ...

Valg af editor

Hvordan man definerer ordforråddefinitioner for SAT-dummierne

Hvordan man definerer ordforråddefinitioner for SAT-dummierne

Du kan komme igennem ordforrådssektionen af SAT med flyvende farver, hvis du kan forberede dig til testen ved at gruppere ord i logiske klynger. Under testen kan du finde ud af orddefinitioner fra orddele og bruge kontekst til at give dig spor til et ords betydning. Overvejer konnotationsklynger Medmindre du har ...

Valg af editor

Outlook 2013 Task Home Tab - dummies

Outlook 2013 Task Home Tab - dummies

Du kan planlægge og spore personlige projekter og professionelle projekter i Outlook 2013. Knapper og ikoner på fanen Opgaver Startside i Outlook 2013-båndet er de værktøjer, der hjælper med at håndtere din arbejdsbyrde. Outlook 2013 tilbyder forskellige visninger - Afsluttet, i dag og næste 7 dage - for at hjælpe dig med at prioritere.

Outlook 2007 Business Contact Manager til Dummies Cheat Sheet - dummies

Outlook 2007 Business Contact Manager til Dummies Cheat Sheet - dummies

Outlook 2007 Business Contact Manager (BCM ) er lige hvad du har brug for, hvis du er en sælger eller en forretningschef. Sammen med de normale, hjælpsomme Outlook-funktioner tilbyder BCM værktøjer, der hjælper dig med at holde dig i top af dit forretningsliv.

Vedligeholdelse af en glad og sund kontaktperson mappe i Outlook - dummies

Vedligeholdelse af en glad og sund kontaktperson mappe i Outlook - dummies

I patologi, som er undersøgelsen af sygdomme og hvordan de overføres, er en kontaktperson en person, der overleverer en smitsom sygdom, men i Outlook er en kontaktperson, som du holder information om. Oplysninger om kontaktpersoner gemmes i mappen Kontakter. Denne mappe er en superdrevet adressebog. Det har steder ...