Faktorer, der øger omfanget af statistisk analyse i Hadoop - dummies

Video: Clash of Clans - Clash Talk Q&A - Episode 2 2025

Grunden folk prøver deres data, før de kører statistisk analyse i Hadoop, at denne type analyse ofte kræver betydelige databehandlingsressourcer. Det handler ikke kun om datamængder: der er fem hovedfaktorer, der påvirker omfanget af statistisk analyse:

Denne er let, men vi skal nævne det: mængden af data, som du skal udføre analysen på, bestemmer bestemt omfanget af analysen.
Antallet af transformationer, der er nødvendige på datasættet, før der anvendes statistiske modeller, er helt sikkert en faktor.
Antallet af parvise korrelationer, du skal beregne spiller en rolle.
Graden af kompleksitet i de statistiske beregninger, der skal anvendes, er en faktor.
Antallet af statistiske modeller, der skal anvendes på dit datasæt spiller en væsentlig rolle.

Hadoop tilbyder en vej ud af dette dilemma ved at give en platform til at udføre massivt parallelle behandlingsberegninger på data i Hadoop.

På den måde kan den vende det analytiske datastrømme; I stedet for at flytte dataene fra dets depot til analyseserveren leverede Hadoop analytics direkte til dataene. Mere specifikt giver HDFS dig mulighed for at gemme dine bjerge af data og derefter bringe beregningen (i form af MapReduce-opgaver) til slavenoderne.

Den fælles udfordring som følge af at flytte fra traditionelle symmetriske multibearbejdningsstatistiske systemer (SMP) til Hadoop-arkitekturen er datalokaliteten. På traditionelle SMP-platforme deler flere processorer adgang til en enkelt hovedhukommelsesressource.

I Hadoop replikerer HDFS partitioner af data på tværs af flere noder og maskiner. Også statistiske algoritmer, der var designet til behandling af data i hukommelsen, skal nu tilpasse sig datasæt, der spænder over flere noder / stativer og ikke kunne håbe at passe i en enkelt blok af hukommelse.