At køre statistiske modeller i Hadoop's MapReduce - dummies

Video: Kenneth Cukier: Big data is better data 2025

Omregning af statistiske modeller til parallelkørsel er en udfordrende opgave. I det traditionelle paradigme til parallel programmering reguleres hukommelsesadgangen ved brug af tråde - delprocesser oprettet af operativsystemet til at distribuere en enkelt delt hukommelse på tværs af flere processorer.

Faktorer som raceforhold mellem konkurrerende tråde - når to eller flere tråde forsøger at ændre fælles data på samme tid - kan påvirke algoritmens ydeevne samt påvirke præcisionen af de statistiske resultater, dit program output - især til lange løbende analyser af store prøve sæt.

En pragmatisk tilgang til dette problem er at antage, at ikke mange statistikere vil kende MapReduce (og vice versa) ins og outs og heller ikke forvente at de vil være opmærksomme på alle faldgruberne den parallelle programmering indebærer. Bidragsydere til Hadoop-projektet har (og fortsætter med at udvikle) statistiske værktøjer med disse realiteter i tankerne.

Resultatet: Hadoop tilbyder mange løsninger til implementering af de algoritmer, der kræves for at udføre statistisk modellering og analyse uden overbelastning af statistikeren med nuancerede parallelle programmerings overvejelser.