Begrænsningerne for prøveudtagning i Hadoop - dummies

Video: sådan Skifter du Dyse, Luftfilter, eller fjerner begrænsningen | Nullert Jyderne 2025

Statistisk analyse er langt fra at være et nyt barn i blokken, og det er helt sikkert gamle nyheder, at det afhænger af at behandle store mængder data for at få nyt indblik. Imidlertid er mængden af data, der traditionelt behandles af disse systemer, i intervallet mellem 10 og 100 (eller hundredvis af) gigabyte - ikke terabyte- eller petabyte-serierne set i dag, med andre ord.

Og det krævede ofte en dyr symmetrisk multi-processing (SMP) maskine med så meget hukommelse som muligt for at holde dataene analyseret. Det skyldes, at mange af de algoritmer, der blev brugt af de analytiske fremgangsmåder, var ret "beregne intensive" og var designet til at køre i hukommelsen - da de kræver flere og ofte hyppige, passerer dataene.

I modsætning til dyr hardware og en temmelig høj forpligtelse med hensyn til tid og RAM forsøgte folk at gøre analytikernes arbejdsbyrde lidt mere rimelig ved kun at analysere en stikprøve af dataene. Tanken var at holde bjergene på bjerge af data sikkert stashed i datalagre, kun flytte et statistisk signifikant stikprøve af dataene fra deres repositorier til en statistisk motor.

Mens prøveudtagning er en god ide i teorien, er det i praksis ofte en upålidelig taktik. At finde en statistisk signifikant prøveudtagning kan være udfordrende for sparsomme og / eller skævte datasæt, som er ret almindelige. Dette fører til dårligt dømte prøver, som kan introducere afvigende og uregelmæssige datapunkter, og kan i sin tur forvirre resultaterne af din analyse.