Hjem Personlig finansiering Hadoop som en dataforarbejdningsmotor - dummier

Hadoop som en dataforarbejdningsmotor - dummier

Video: Hops - Hadoop Open Platform-As-a-Service – RISE SICS 2025

Video: Hops - Hadoop Open Platform-As-a-Service – RISE SICS 2025
Anonim

En af de tidligste brugssager til Hadoop i virksomheden var som en programmatisk transformationsmotor, der bruges til at præprocessere data bundet til et datalager. I det væsentlige udnytter denne brugssag Hadoop økosystemets evne til at manipulere og anvende transformationer til data før det er indlæst i et datalager.

Selvom den aktuelle transformationsmotor er ny (det er Hadoop, så transformationer og datastrømme er kodet i Pig eller MapReduce, blandt andre sprog), har tilgangen i sig selv været i brug i et stykke tid med processerne udpakning, transformation, belastning (ETL).

Tænk på udviklingen af ​​OLTP og ROLAP databaser. Mange organisationer med operationelle databaser har også udnyttet datalagre. Så hvordan får IT-afdelinger data fra deres operationelle databaser i deres datalagre? (Husk at de operationelle data typisk ikke er i en form, der egner sig til analyse.)

Svaret her er ETL, og da datalagre steg i brug og betydning, blev trinene i processen blevet godt forstået, og bedste praksis var udviklede sig. Derudover begyndte en række softwarefirmaer at tilbyde interessante ETL-løsninger, så IT-afdelinger kunne minimere deres egen tilpassede kodeudvikling.

Den grundlæggende ETL-proces er ret ligetil: du E xtract data fra en operationel database, T formaterer den i den formular du har brug for til din analyse og rapporteringsværktøjer, og derefter L udfyld disse data i dit datalager.

En fælles variation til ETL er ELT - Extract, Load og Transform. I ELT-processen udfører du transformationer (i modsætning til ETL) efter indlæser dataene i målregistret. Denne tilgang bruges ofte, når transformationen står til stor nytte af en meget hurtig SQL-behandlingsmotor på strukturerede data. (Relationelle databaser må muligvis ikke udmærke sig ved behandling af ustrukturerede data, men de udfører meget hurtig behandling af - gætte hvad? - strukturerede data.)

Hvis de data, du transformerer, er bestemt til et datalager, og mange af disse transformationer kan gøres i SQL, kan du vælge at køre transformationerne i datalageret selv. ELT er særligt tiltalende, hvis størstedelen af ​​din færdighed er baseret på SQL-baserede værktøjer.

Med Hadoop, der nu kan behandle SQL-forespørgsler, kan både ETL- og ELT-arbejdsbyrder hostes på Hadoop. Figuren viser ETL-tjenester tilføjet til referencearkitekturen.

Hvis du har implementeret en Hadoop-baseret landingszone, har du næsten alt hvad du behøver for at kunne bruge Hadoop som transformationsmotor.Du lander allerede data fra dine operativsystemer i Hadoop ved hjælp af Sqoop, der dækker ekstraktionstrinnet. På dette tidspunkt skal du implementere din transformationslogik i MapReduce eller Pig applikationer. Når dataene er transformeret, kan du indlæse dataene i datalageret ved hjælp af Sqoop.

Brug af Hadoop som datatransformationsmotor øger også muligheder. Hvis dit datalager ikke ændrer sine data (det er kun til rapportering), kan du blot beholde de data, du genererer med transformationsprocessen. I denne model flyder data kun fra venstre til højre i figuren, hvor data hentes fra operationelle databaser, transformeres i landingsområdet og derefter indlæses i datalageret.

Med alle de omformede data allerede i landingsområdet er der ingen grund til at kopiere den tilbage til Hadoop - medmindre dataene selvfølgelig ændres i lageret.

Hadoop som en dataforarbejdningsmotor - dummier

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...