Distribueret Computing Basics for Big Data - dummies

Hvis din virksomhed overvejer et stort data-projekt, er det vigtigt, at du forstår nogle distribuerede computerbaserede grunde først. Der er ikke en enkelt distribueret computermodel, fordi computerressourcer kan distribueres på mange måder.

Du kan f.eks. Distribuere et sæt programmer på den samme fysiske server og bruge messaging-tjenester til at give dem mulighed for at kommunikere og videregive oplysninger. Det er også muligt at have mange forskellige systemer eller servere, hver med sin egen hukommelse, der kan arbejde sammen for at løse et problem.

Hvorfor distribueret databehandling er nødvendig til store data

Ikke alle problemer kræver distribueret databehandling. Hvis en stor tidsbegrænsning ikke eksisterer, kan kompleks behandling ske via en specialiseret service på afstand. Når virksomhederne skulle foretage komplekse dataanalyser, ville IT flytte data til en ekstern tjeneste eller enhed, hvor der var mange ressourcer til rådighed til behandling.

Det var ikke, at virksomheder ønskede at vente på at få de resultater, de havde brug for; det var bare ikke økonomisk muligt at købe nok computere til at håndtere disse nye krav. I mange situationer ville organisationer kun indsamle valg af data i stedet for at forsøge at indsamle alle data på grund af omkostninger. Analytikere ønskede alle dataene, men måtte afregne for øjebliksbilleder, i håb om at indsamle de rigtige data på det rigtige tidspunkt.

De vigtigste hardware og software gennembrud revolutionerede datastyringsindustrien. For det første øgede innovation og efterspørgsel kraften og faldt prisen på hardware. Der er opstået ny software, der forstod, hvordan man kan udnytte denne hardware ved at automatisere processer som belastningsbalancering og optimering på tværs af en enorm klase af noder.

Softwaren omfattede indbyggede regler, som forstod, at visse arbejdsbelastninger krævede et bestemt ydelsesniveau. Softwaren behandlede alle noderne som om de simpelthen var en stor pulje af computere, lagrings- og netværksaktiver og flyttede processer til en anden node uden afbrydelse, hvis en knap fejlet ved hjælp af virtualiseringsteknologien.

Den ændrede økonomi i databehandling og store data

Hurtigt frem og meget er ændret. I løbet af de sidste par år er omkostningerne ved køb af computere og lagringsressourcer faldet drastisk. Understøttet af virtualisering, råvareservere, der kunne grupperes og blader, der kunne netværksføres i et rack, ændrede økonomien i computing. Denne ændring faldt sammen med innovation i softwareautomatiseringsløsninger, som dramatisk forbedrede styringen af disse systemer.

Muligheden for at udnytte distribueret databehandling og parallelbehandlingsteknikker dramatisk forvandlede landskabet og dramatisk reducere ventetiden. Der er særlige tilfælde, såsom High Frequency Trading (HFT), hvor lav latens kun kan opnås ved fysisk at lokalisere servere på et enkelt sted.

Problemet med latens for store data

En af de flerårige problemer med at administrere data - især store mængder data - har været påvirkning af latens. Latency er forsinkelsen i et system baseret på forsinkelser i udførelsen af en opgave. Latency er et problem i alle aspekter af computing, herunder kommunikation, datahåndtering, system ydeevne og meget mere.

Hvis du nogensinde har brugt en trådløs telefon, har du oplevet latens førstehånds. Det er forsinkelsen i transmissionen mellem dig og din opkalder. Nogle gange har latency en lille indflydelse på kundetilfredsheden, f.eks. Hvis virksomhederne skal analysere resultater bag kulisserne for at planlægge en ny produktudgivelse. Dette kræver sandsynligvis ikke øjeblikkelig respons eller adgang.

Jo tættere det svar er på en kunde på tidspunktet for beslutningen, desto mere er latensen noget.

Distribueret databehandling og parallelbehandlingsteknikker kan gøre en betydelig forskel i den ventetid, som kunder, leverandører og partnere har oplevet. Mange store dataprogrammer er afhængige af lav latency på grund af de store datakrav til hastighed og volumen og mangfoldighed af dataene.

Det kan ikke være muligt at konstruere en stor dataapplikation i et højt latenhedsmiljø, hvis høj ydeevne er nødvendig. Behovet for at verificere dataene i nærheden af realtid kan også påvirkes af latens. Når du beskæftiger dig med data i realtid, betyder et højt niveau af latens forskellen mellem succes og fiasko.

Stor dataanalyse opfylder løsninger

Væksten i internettet som en platform for alt fra handel til medicin ændrede efterspørgslen efter en ny generation af datahåndtering. I slutningen af 1990'erne, motor og internet virksomheder som Google, Yahoo!, og Amazon. com var i stand til at udvide deres forretningsmodeller, udnytte billig hardware til databehandling og opbevaring.

Dernæst havde disse virksomheder brug for en ny generation af softwareteknologier, der ville give dem mulighed for at tjene penge på de enorme mængder data, de blev fanget hos kunderne. Disse virksomheder kunne ikke vente på resultater af analytisk behandling. De havde brug for evnen til at behandle og analysere disse data i næsten real tid.