Hvordan man adresserer problemer i prædiktiv analyse - dummier

Video: "Hva' Sker Der Dansker" Fuldt Show | 2016 Tour 2025

Prediktiv modellering er ved at blive populær som et redskab til at styre mange aspekter af erhvervslivet. Sikring af, at dataanalyse er udført korrekt, vil øge tilliden til de anvendte modeller - hvilket igen kan generere den nødvendige buy-in for predictive analytics til at blive en del af din organisations standard værktøjssæt.

Måske er denne øgede popularitet stammer fra de måder, hvorpå et prædiktivt analyseprojekt kan understøtte beslutningstagning ved at skabe modeller, der beskriver datasæt, opdage mulige nye mønstre og tendenser (som angivet af dataene) og forudsige resultater med større pålidelighed.

For at opnå dette mål skal et prædiktivt analyseprojekt levere en model, som bedst passer til dataene, ved at vælge beslutningsvariablerne korrekt og effektivt. Nogle vigtige spørgsmål skal besvares undervejs til dette mål:

Hvad er minimumsantagelserne og beslutningsvariablerne, der gør det muligt for modellen at passe bedst til dataene?
Hvordan sammenligner modellen under opførelse med andre gældende modeller?
Hvilke kriterier er bedst til at evaluere og scorere denne model?

Endnu en gang kan du ringe til oplevelsen til redning: Domænenavneteksperter kan diskutere disse spørgsmål, fortolke resultater, der viser skjulte mønstre i dataene og hjælpe med at verificere og validere modelens output.

Sådan beskrives begrænsningerne i den prediktive analysemodel

En hvilken som helst prædiktiv analytisk model har visse begrænsninger baseret på de algoritmer, som den anvender, og datasættet det kører på. Du bør være opmærksom på disse begrænsninger og få dem til at fungere til din fordel; de, der er relateret til algoritmerne, omfatter

Hvor meget korrelerede variablerne er (statistiske forhold mellem funktioner)

Om variablerne er uafhængige (ingen forhold mellem funktionerne)

For at overvinde begrænsningerne i din model skal du bruge lyd

cross validation

teknikker til at teste dine modeller. Start med at dele dine data i træning og test datasæt, og kør modellen mod hver af disse datasæt særskilt for at evaluere og score forudsigelserne af modellen. Sådan testes og evalueres din predictive analytics model Ingen model kan producere 100 procent præcise prognoser; enhver model har potentialet til at producere unøjagtige resultater. Vær på udkig efter nogen væsentlig variation mellem de prognoser, din model producerer og de observerede data - især hvis modelens output modsætter sund fornuft.Hvis det ser for godt, dårligt eller ekstremt til at være sandt, så er det nok ikke sandt (til virkeligheden, alligevel).

I evalueringsprocessen skal du grundigt undersøge udgangen af de modeller, du tester, og sammenligne dem med inputvariablerne. Din model forventningsevne skal svare på alle angivne forretningsmål, der kørte sin oprettelse i første omgang.

Hvis fejl eller forstyrrelser optræder i modelens output, skal du prøve at spore dem tilbage til

Dataens gyldighed, pålidelighed og relativ sæsonbarhed

Forudsætninger anvendt i modellen

Variabler, der var inkluderet eller udelukket i analysen
Arbejd med erhvervsbrugere for at evaluere hvert trin i din modelproces; Sørg for, at modeludgange nemt kan tolkes og bruges i en virkeligheds forretningssituation. Balancere nøjagtigheden og pålideligheden af modellen med, hvor nemt modelens udgange kan tolkes og anvendes til praktisk brug.
Sådan undgår du ikke-skalerbare predictive analytics-modeller

Når du bygger en model, skal du altid holde skalerbarhed i tankerne. Kontroller altid modelens ydeevne, nøjagtighed og pålidelighed i forskellige skalaer. Din model skal kunne ændre sin skala - og skalere så stor som nødvendigt - uden at falde fra hinanden eller udvise dårlige forudsigelser.

Scalability var en ganske udfordring i fortiden. Prediktive modeller tog lang tid at bygge og løbe. De datasæt, modellerne løb på var små, og dataene var dyre at indsamle, gemme og søge. Men det var alt i den "pre-big data" æra.

I dag er store data billige, rigelige og voksende. Faktisk er der et andet potentielt problem: Den formidable datavolumen, der aktuelt er til rådighed, kan påvirke modellen negativt og nedbryde dens ydeevne, idet modellen uddateres på et relativt kort tidsrum. Korrekt implementeret, skalerbarhed kan hjælpe "fremtidssikker" din model.

Fremtiden er ikke den eneste trussel. Selv i den nuværende online-æra kan streamede data overvælde en model - især hvis strømmen af data stiger til en oversvømmelse.

Data volumen alene kan medføre, at beslutningsvariablerne og forudsigende faktorer vokser til gigantiske tal, der kræver løbende opdatering til modellen. Så ja, din model var bedre skalerbar - hurtig skalerbar.