Data warehouse modernisering med Hadoop dummies

Video: Enjeux des entrepôts de données de santé 2025

Data warehouses er nu under stress og forsøger at klare øgede krav til deres endelige ressourcer. Hadoop kan give en betydelig lettelse i denne data warehouse situation.

Den hurtige stigning i mængden af data, der er genereret i verden, har også påvirket datalagre, fordi mængden af data, de administrerer, stiger - dels fordi flere strukturerede data, typen af data, der er stærkt skrevet og slået ind i rækker og kolonner - genereres, men også fordi du ofte skal håndtere regulatoriske krav, der er designet til at opretholde forespørgselsadgang til historiske data.

Derudover bruges processorkraften i datalagre ofte til at udføre transformationer af relationelle data, da det enten går ind i lageret selv eller er indlæst i en child data mart (en separat delmængde af datalageret) til en specifik analyseapplikation.

Derudover øger behovet for analytikere at udstede nye forespørgsler mod de strukturerede data, der er lagret i lagre, og disse ad hoc-forespørgsler kan ofte bruge betydelige databehandlingsressourcer. Nogle gange kan en engangsrapport være tilstrækkelig, og til tider er en sonderende analyse nødvendig for at finde spørgsmål, der ikke er blevet stillet endnu, der kan give en betydelig forretningsmæssig værdi.

Bunden er, at datalagre ofte bruges til formål ud over deres oprindelige design.

Figuren viser ved hjælp af arkitektur på højt plan, hvordan Hadoop kan leve sammen med datalagre og opfylde nogle af de formål, de ikke er designet til.

Hadoop er et lager hjælper, ikke et lagerudskiftning. Hadoop kan modernisere et data warehousing økosystem på fire måder; her er de sammenfattende:

Giv en landingszone for alle data.
Vedvarer dataene for at give et forespørgselsarkiv af kolde data.
Udnyt Hadops storskala batchbehandlingseffektivitet til at forarbejde og omdanne data til lageret.
Aktivér et miljø for ad hoc data opdagelse.