Video: How to Protect Your Privacy on Windows 10 2025
Bare at have en hurtigere computer er ikke nok til at sikre det rigtige niveau af ydeevne til at håndtere store data. Du skal kunne distribuere komponenter i din store datatjeneste på tværs af en række noder. I distribueret databehandling er en knudepunkt et element indeholdt i en klynge af systemer eller i et rack.
En knude indeholder typisk CPU, hukommelse og en slags disk. En knude kan dog også være en kniv CPU og hukommelse, der afhænger af nærliggende opbevaring i et stativ.
Inden for et stort datamiljø er disse knuder typisk grupperet sammen for at give skala. For eksempel kan du starte med en stor dataanalyse og fortsætte med at tilføje flere datakilder. For at imødekomme væksten tilføjer en organisation blot flere noder til en klynge, så den kan skalere ud for at imødekomme voksende krav.
Det er dog ikke nok at blot udvide antallet af noder i klyngen. Det er snarere vigtigt at kunne sende en del af den store dataanalyse til forskellige fysiske miljøer. Hvor du sender disse opgaver, og hvordan du styrer dem, gør forskellen mellem succes og fiasko.
I nogle komplekse situationer vil du måske udføre mange forskellige algoritmer parallelt, selv inden for samme klynge, for at opnå den krævede hastighedshastighed. Hvorfor skulle du udføre forskellige store datalgoritmer parallelt inden for samme rack? Jo tættere sammen fordelingen af funktioner er, desto hurtigere kan de udføre.
Selvom det er muligt at distribuere stor data analyse på tværs af netværk for at udnytte tilgængelig kapacitet, skal du gøre denne type distribution baseret på krav til ydeevne. I nogle situationer tager forarbejdningshastigheden et bagsæde. I andre situationer er det dog nødvendigt at få resultater hurtigt. I denne situation vil du sikre dig, at netværksfunktionerne er tæt på hinanden.
Generelt skal det store datamiljø optimeres for typen af analytikoprojekt. Derfor er skalerbarhed lynchpin for at få store data til at fungere korrekt. Selv om det ville være teoretisk muligt at drive et stort datamiljø inden for et enkelt stort miljø, er det ikke praktisk.
For at forstå behovene for skalerbarhed i store data må man kun se på skyens skalerbarhed og forstå både krav og tilgang. Ligesom cloud computing kræver store data indførelse af hurtige netværk og billige hardwareklynger, som kan kombineres i stativer for at øge ydeevnen. Disse klynger understøttes af softwareautomatisering, der muliggør dynamisk skalering og belastningsbalancering.
Designet og implementeringen af MapReduce er gode eksempler på, hvordan distribueret computing kan gøre store data operativt synlige og overkommelige. I det væsentlige er virksomhederne et af de unikke vendepunkter inden for computing, hvor teknologikoncepter kommer sammen til det rette tidspunkt for at løse de rigtige problemer. Kombinering af distribueret computing, forbedrede hardware systemer og praktiske løsninger som MapReduce og Hadoop ændrer databehandling på dybtgående måder.