Video: What is ETL | Extract, Transform and Load | Big Data on Hadoop [Part 2] | Tutorial | Great Learning 2025
Ideen om Hadoop-inspirerede ETL-motorer har fået en masse trækkraft de seneste år. Hadoop er trods alt en fleksibel datalagrings- og behandlingsplatform, som kan understøtte enorme mængder data og operationer på disse data. Samtidig er det fejltolerant, og det giver mulighed for reduktion af kapital og software.
På trods af Hadops popularitet som en ETL-motor, anbefaler mange mennesker (herunder et berømt firma af analytikere) ikke Hadoop som eneste teknologi til din ETL-strategi. Dette skyldes stort set, at udviklingen af ETL-strømme kræver stor ekspertise om din organisations eksisterende databasesystemer, selve dataene og de rapporter og applikationer, der er afhængige af det.
DBA'er, udviklere og arkitekter i din it-afdeling vil med andre ord blive fortrolige nok med Hadoop til at gennemføre de nødvendige ETL-strømme. For eksempel kan meget intensiv håndkodning med Pig, Hive eller MapReduce være nødvendig for at skabe selv de enkleste datastrømme - hvilket sætter dit firma på krog for disse færdigheder, hvis det følger denne vej.
Du skal kode elementer som parallel fejlsøgning, applikationsadministrationstjenester (f.eks. Kontrolpege og fejl og hændelseshåndtering). Overvej også virksomhedens krav som glossarisering og at kunne vise dine data lineage.
Der er lovkrav til mange industristandardrapporter, hvor dataforening er nødvendig; Den rapporterende organisation skal kunne vise, hvor datapunkterne i rapporten kommer fra, hvordan dataene blev til dig, og hvad der er gjort med dataene.
Selv for relationelle databasesystemer er ETL kompleks nok, at der er populære specialiserede produkter, der giver grænseflader til styring og udvikling af ETL-strømme. Nogle af disse produkter hjælper nu med Hadoop-baseret ETL og anden Hadoop-baseret udvikling. Men afhængigt af dine krav kan du måske skrive nogle af din egen kode for at understøtte din transformationslogik.