Lag 3 af Big Data Stack: Organiseringsdatatjenester og -værktøjer - dummier

Video: Data Processing in Google Cloud: Hadoop, Spark, and Dataflow (Cloud Next '19) 2024

Organisering af datatjenester og værktøjer , lag 3 i den store datastabel, indfanger, validerer og samler forskellige store dataelementer i kontekstrelevant relevante samlinger. Fordi store data er massive, har teknikker udviklet sig til at behandle dataene effektivt og problemfrit. MapReduce er en stærkt anvendt teknik. Det er tilstrækkeligt at sige her, at mange af disse organiserende datatjenester er MapReduce-motorer, der er specielt designet til at optimere organisationen af store datastrømme.

Organisering af datatjenester er i virkeligheden et økosystem af værktøjer og teknologier, som kan bruges til at indsamle og samle data som forberedelse til videre behandling. Som sådan skal værktøjerne tilvejebringe integration, oversættelse, normalisering og skala. Teknologier i dette lag omfatter følgende:

Et distribueret filsystem: Nødvendig for at imødekomme dekomponering af datastrømme og at give skala og lagerkapacitet
Nødvendig til vedvarende datalagring og multilanguage fjernproceduresamtaler Koordineringstjenester:
Nødvendig til at bygge distribuerede applikationer (låsning osv.) > Uddrag, transformere og laste (ETL) værktøjer: Nødvendig til indlæsning og konvertering af strukturerede og ustrukturerede data til Hadoop
Workflow-tjenester: Nødvendig til planlægning af job og tilvejebringelse af en struktur til synkronisering af proceselementer på tværs lag