Video: Kenneth Cukier: Big data is better data 2025
Forskellige statistiske data, minedrift og maskinlæringsalgoritmer er tilgængelige til brug i din prediktive analysemodel. Du har bedre mulighed for at vælge en algoritme, når du har defineret målene for din model og valgt de data, du vil arbejde på. Nogle af disse algoritmer blev udviklet til at løse specifikke forretningsproblemer, forbedre eksisterende algoritmer eller give nye muligheder - hvilket kan gøre nogle af dem mere egnede til dine formål end andre. Du kan vælge mellem en række algoritmer til at løse forretningsproblemer som følgende:
- For kundesegmentering og / eller samfundsdetektering på det sociale område, vil du for eksempel have brug for klyngningsalgoritmer.
- For at opretholde kunder eller udvikle et recommender-system, skal du bruge klassifikationsalgoritmer.
- For kredit score eller forudsigelse af det næste udfald af tidsdrevne hændelser, vil du bruge en regressionsalgoritme.
Som tid og ressourcer tillader, skal du køre så mange algoritmer af den relevante type som du kan. Sammenligning af forskellige kurser med forskellige algoritmer kan medføre overraskende fund om dataene eller business intelligence integreret i dataene. Dette giver dig mere detaljeret indsigt i forretningsproblemet og hjælper dig med at identificere, hvilke variabler i dine data der er forudsigende kraft.
Nogle prædiktive analyseprojekter lykkes bedst ved at opbygge en ensemble model, en gruppe af modeller, der opererer på de samme data. En ensemble model bruger en foruddefineret mekanisme til at samle resultater fra alle dens komponentmodeller og give et endeligt resultat for brugeren.
Modeller kan tage forskellige former - en forespørgsel, en samling scenarier, et beslutningstræ eller en avanceret matematisk analyse. Desuden fungerer visse modeller bedst for bestemte data og analyser. Du kan (for eksempel) bruge klassifikationsalgoritmer, der anvender beslutningsregler til at bestemme resultatet af et givet scenario eller en transaktion, og adressere spørgsmål som disse:
- Er denne kunde sandsynligvis at reagere på vores marketingkampagne?
- Er denne pengeoverførsel sandsynligvis del af en hvidvaskningsordning?
- Er dette lån ansøger sandsynligvis standard på lånet?
Du kan bruge uovervågede klyngningsalgoritmer til at finde, hvilke relationer der findes i dit datasæt. Du kan bruge disse algoritmer til at finde forskellige grupperinger blandt dine kunder, bestemme, hvilke tjenester der kan grupperes sammen, eller bestemme for eksempel hvilke produkter der kan blive uopløste.
Regressionsalgoritmer kan bruges til at prognose kontinuerlige data, som f.eks. Forudsigelse af tendensen for en aktiebevægelse givet sine tidligere priser.
Beslutningstræer, understøttende vektormaskiner, neurale netværk, logistik og lineære regressioner er nogle af de mest almindelige algoritmer. Selv om deres matematiske implementeringer adskiller sig, genererer disse prædiktive modeller sammenlignelige resultater. Beslutningstræerne er mere populære, fordi de er lette at forstå; Du kan følge stien til en given beslutning.
Klassificeringsalgoritmer er gode til typen af analyse, når målet er kendt (som f.eks. Identifikation af spam-e-mails). På den anden side, når målvariablen er ukendt, er klyngningsalgoritmer din bedste indsats. De giver dig mulighed for at gruppere eller gruppere dine data i meningsfulde grupper baseret på lighederne blandt gruppens medlemmer.
Disse algoritmer er meget populære. Der er mange værktøjer, både kommercielle og open source, der implementerer dem. Når data akkumulering blomstrer og accelererer (det vil sige store data) og omkostningseffektiv hardware og platforme (som cloud computing og Hadoop), oplever prædiktive analyseværktøjer en boom.
Data og forretningsmål er ikke de eneste faktorer, man skal overveje, når du vælger en algoritme. Ekspertisen hos dine datavidenskabsmænd er af stor værdi på dette tidspunkt; plukning af en algoritme, der vil få arbejdet gjort er ofte en vanskelig kombination af videnskab og kunst. Kunstdelen kommer fra erfaring og færdigheder i forretningsområdet, som også spiller en afgørende rolle for at identificere en model, der kan tjene forretningsmålene præcist.