Indholdsfortegnelse:
Din store dataarkitektur skal også udføre i samspil med din organisations støtteinfrastruktur. For eksempel kan du være interesseret i at køre modeller for at afgøre, om det er sikkert at bore for olie i et offshore-område i real-time data om temperatur, saltholdighed, sediment resuspension og en lang række andre biologiske, kemiske og fysiske egenskaber af vandkolonnen.
Det kan tage dage at køre denne model ved hjælp af en traditionel serverkonfiguration. Men ved hjælp af en distribueret computermodel kan det tage dage at tage dage.
Ydeevne kan også bestemme hvilken type database du vil bruge. For eksempel kan i nogle situationer måske forstå, hvordan to meget forskellige dataelementer er relaterede. Hvad er forholdet mellem buzz på et socialt netværk og væksten i salget? Dette er ikke den typiske forespørgsel, du kan bede om en struktureret, relationel database.
En grafisk database kan være et bedre valg, da det er specielt designet til at adskille "noderne" eller enheder fra dets "egenskaber" eller de oplysninger, der definerer den pågældende enhed og "kanten" eller forholdet mellem noder og egenskaber. Brug af den rigtige database vil også forbedre ydeevnen. Typisk vil grafdatabasen bruges i videnskabelige og tekniske applikationer.
Andre vigtige operationelle database metoder omfatter kolonne databaser, der gemmer information effektivt i kolonner frem for rækker. Denne fremgangsmåde fører til hurtigere ydeevne, fordi input / output er ekstremt hurtig. Når geografisk datalagring er en del af ligningen, er en rumlig database optimeret til at gemme og søge data baseret på, hvordan objekter er relateret i rummet.
Organiser store datatjenester og værktøjer
Ikke alle de data, som organisationer bruger, er operationelt. En stigende mængde data kommer fra en række forskellige kilder, der ikke er lige så organiserede eller ligetil, herunder data, der kommer fra maskiner eller sensorer, og massive offentlige og private datakilder. Tidligere kunne de fleste virksomheder ikke enten fange eller gemme denne enorme mængde data. Det var simpelthen for dyrt eller for overvældende.
Selvom virksomhederne kunne fange dataene, havde de ikke værktøjerne til at gøre noget ved det. Meget få værktøjer kunne give mening af disse store mængder data. De værktøjer, der eksisterede, var komplekse at bruge og producerede ikke resultater inden for en rimelig tidsramme.
I sidste ende blev de, der virkelig ønskede at gå til den enorme indsats for at analysere disse data, tvunget til at arbejde med snapshots af data.Dette har den uønskede effekt af manglende vigtige begivenheder, fordi de ikke var i et bestemt øjebliksbillede.
MapReduce, Hadoop og Big Table til store data
Med udviklingen af computerteknologi er det nu muligt at styre enorme datamængder. Priserne på systemer er faldet, og som følge heraf er nye teknikker til distribueret databehandling almindelig. Det virkelige gennembrud skete som virksomheder som Yahoo!, Google og Facebook kom til erkendelsen, at de havde brug for hjælp til at tjene penge på de enorme mængder data, de skabte.
Disse nye virksomheder var nødt til at finde nye teknologier, der ville give dem mulighed for at gemme, få adgang til og analysere store mængder data i næsten real tid, så de kunne tjene penge på at eje så mange data om deltagere i deres netværk.
Deres resulterende løsninger er at omdanne datastyringsmarkedet. Især innovationerne MapReduce, Hadoop og Big Table viste sig at være gnisterne, der førte til en ny generation af datahåndtering. Disse teknologier behandler et af de mest grundlæggende problemer - evnen til at behandle massive mængder data effektivt, omkostningseffektivt og rettidigt.
MapReduce
MapReduce blev designet af Google som en måde at effektivt udføre et sæt funktioner mod en stor mængde data i batch-tilstand. Komponenten "kort" distribuerer programmeringsproblemet eller opgaverne på tværs af et stort antal systemer og håndterer placeringen af opgaverne. Det afbalancerer også belastningen og styrer fejlgendannelsen. En anden funktion kaldet "reducere" aggregerer alle elementer sammen igen for at give et resultat.
Big Table
Big Table blev udviklet af Google til at være et distribueret lagringssystem beregnet til at styre højt skalerbare strukturerede data. Data er organiseret i tabeller med rækker og kolonner. I modsætning til en traditionel relationel database model er Big Table et sparsomt, distribueret, vedholdende multidimensional sorteret kort. Det er beregnet til at gemme store mængder data på tværs af råvareservere.
Hadoop
Hadoop er en Apache-styret software ramme der stammer fra MapReduce og Big Table. Hadoop tillader applikationer baseret på MapReduce at køre på store klynger af råvarehardware. Projektet er fundamentet for databehandlingsarkitekturen, der understøtter Yahoo! s forretning. Hadoop er designet til at parallelisere databehandling på tværs af computernoder for at fremskynde beregninger og skjule latens.
Der findes to hovedkomponenter af Hadoop: et massivt skalerbart distribueret filsystem, som kan understøtte dataoverførsler og en massivt skalerbar MapReduce-motor, der beregner resultater i batch.