Video: Bringing Data Science at Scale to Hortonworks Data Platform 2025
Ud over at skulle gemme større mængder af kolde data, er det et pres du ser i Traditionelle datalagre er, at stigende mængder af behandlingsressourcer bruges til transformation (ELT) arbejdsbyrder.
Tanken bag at bruge Hadoop som en forbehandlingsteknologi til håndtering af datatransformation betyder, at dyrebare behandlingscyklusser frigøres, så datalageret kan overholde dets oprindelige formål: Besvar gentagne forretningsspørgsmål til støtte for analytiske applikationer. Igen ser du, hvordan Hadoop kan komplementere traditionelle data warehouse implementeringer og forbedre deres produktivitet.
Måske har en lille, imaginær pære lyst op over hovedet, og du tænker: "Hey, måske er der nogle transformationsopgaver, der passer perfekt til Hadops databehandlingsevne, men jeg ved også, at der også er mange transformationsarbejde, der er gennemsyret af algebraiske, trinvise opgaver, hvor kørsel af SQL på en relationsdatabasemotor ville være det bedre valg. Ville det ikke være køligt, hvis jeg kunne køre SQL på Hadoop? ”
SQL på Hadoop er allerede her. Med evnen til at udstede SQL-forespørgsler mod data i Hadoop er du ikke fast i ETL-tilgang til dine datastrømme - du kan også implementere ELT-lignende applikationer.
En anden hybrid tilgang til at overveje, er hvor du kan køre din transformationslogik: i Hadoop eller i datalageret? Selv om nogle organisationer er bekymrede for at køre alt andet end analytik i deres lagre, er det stadig, at relationelle databaser er gode til at køre SQL og kunne være et mere praktisk sted at køre en transformation end Hadoop.