Hvordan man bruger Apache Mahout til Predictive Analytics - dummies

Video: Unboxing af MSI Apache pro Bærbar 2025

Apache Mahout er et open source-værktøj, der er unikt nyttigt i prædiktiv analyse. Dette maskine-læring bibliotek indeholder omfattende versioner af clustering, klassificering, samarbejdsfiltrering og andre data-mining algoritmer, der kan understøtte en storformet predictive analytics model.

En stærkt anbefalet måde at behandle de data, der er nødvendige for en sådan model, er at køre Mahout i et system, der allerede kører Hadoop. Hadoop betegner en mastermaskine, der orkestrerer de andre maskiner (som f.eks. Kortmaskiner og Reducer maskiner), der er ansat i sin distribuerede behandling. Mahout skal installeres på den pågældende mastermaskine.

Forestil dig, at du har stor mængde af streamede data - Google nyhedsartikler - og du vil gerne gruppere efter emne ved hjælp af en af klyngningsalgoritmerne. Når du har installeret Hadoop og Mahout, kan du udføre en af algoritmerne - som f.eks. K-means - på dine data.

Gennemførelsen af K-midler under Mahout bruger en MapReduce tilgang, hvilket gør det anderledes end den normale implementering af K-midler. Mahout opdeler K-middelalgoritmen i disse underprocedurer:

KmeansMapper læser inddata datasættet og tildeler hvert indgangspunkt til dets nærmeste oprindeligt valgte middel (klyngerrepræsentanter).
KmeansCombiner proceduren vil tage alle de registreringer - par - produceret af KmeansMapper og producerer delbeløb for at lette beregningen af de efterfølgende klyngerrepræsentanter.
KmeansReducer modtager værdierne produceret af alle subtaskerne (combiners) for at beregne de faktiske centroider af klyngerne, som er den endelige udgang af K-midler.
KmeansDriver håndterer iterationerne af processen, indtil alle klynger har konvergeret. Udgangen af en given iteration, en delvis clustering output, bruges som input til den næste iteration. Processen med kortlægning og reduktion af datasættet indtil tildeling af poster og klynger viser ingen yderligere ændringer.

Apache Mahout er et nyligt udviklet projekt; dets funktionalitet har stadig meget plads til at rumme udvidelser. I mellemtiden bruger Mahout allerede MapReduce til at implementere klassificering, clustering og andre maskinlæringsteknikker - og det kan i vid udstrækning gøres.