Sådan bruges kurve montering i Predictive Analytics - dummies

Kurvefitting er en proces, der anvendes i prædiktiv analyse, hvor målet er at skabe en kurve, der viser den matematiske funktion, som bedst passer til de faktiske (originale) datapunkter i en dataserie.

Kurven kan enten passere gennem hvert datapunkt eller forblive inden for størstedelen af dataene, idet man ignorerer nogle datapunkter i håb om at tegne tendenser fra dataene. I begge tilfælde er en enkelt matematisk funktion tildelt hele datalaget med det formål at montere alle datapunkter i en kurve, der afgrænser trends og hjælpemidler forudsigelse.

Kurvepasning kan opnås på en af tre måder:

Ved at finde en nøjagtig pasform for hvert datapunkt (en proces kaldet interpolation )
Ved at holde sig indenfor Størstedelen af dataene, mens du ignorerer nogle datapunkter i håb om at tegne tendenser ud af dataene.
Ved at anvende dataudjævning for at komme op med en funktion, der repræsenterer den glatte graf

Kurvmontering kan bruges til at udfylde mulige datapunkter til at erstatte manglende værdier eller hjælpe analytikere med at visualisere dataene.

Når du arbejder på at generere en prædiktiv analysemodel, skal du undgå at skræddersy din model, så den passer perfekt til din datasample. En sådan model vil fejlagtigt - forudsige lignende, men varierende datasæt uden for dataprøven. Tilpasning af en model for tæt på en bestemt dataprøve er en klassisk fejl kaldet overfitting .

Overdrivelsen af overfitting

I det væsentlige er overfitting af en model, hvad der sker, når du træner over modellen for kun at repræsentere dine prøvedata - hvilket ikke er en god fremstilling af dataene som helhed. Uden et mere realistisk datasæt fortsætter modellen med fejl og risici, når den går i drift - og konsekvenserne for din virksomhed kan være alvorlige.

Overfitting af en model er en almindelig fælde, fordi folk ønsker at skabe modeller, der virker - og så er fristet til at holde tilpasningsvariabler og parametre, indtil modellen udfører perfekt - for lidt data. At fejle er menneske. Heldigvis er det også menneskeligt at skabe realistiske løsninger.

For at undgå overfitting af din model til dit stikprøvesæt, skal du sørge for at have en masse testdata tilgængelige, der adskiller sig fra dine prøvedata. Derefter kan du måle udførelsen af din model uafhængigt, før modellen bliver operationel.

Således er en generel beskyttelse mod overfitting at dele dine data i to dele: Træningsdata og testdata. Modelens præstationer mod testdataene fortæller meget om modellen er klar til den virkelige verden.

En anden bedste praksis er at sikre, at dine data repræsenterer den større befolkning i det domæne, du modellerer for. Alle en overtrained model ved, er de specifikke træk ved stikprøvedatasættet, den er uddannet til. Hvis du træner modellen kun på (siger) snesko salg om vinteren, skal du ikke blive overrasket, hvis det fejler, når det kører igen på data fra en anden sæson.

Sådan undgår du overfitting

Det er værd at gentage: For meget tweaking af modellen er tilbøjelig til at resultere i overfitting. En sådan tweak indebærer for mange variabler i analysen. Hold disse variabler til et minimum. Indsæt kun variabler, som du ser som absolut nødvendige - dem, du tror, vil gøre en væsentlig forskel for resultatet.

Denne indsigt kommer kun fra intim viden om det forretningsområde, du er i. Det er her, hvor ekspertisen fra domæneeksperter kan hjælpe dig med at falde i fælden med overfitting.

Her er en tjekliste over bedste praksis, der hjælper dig med at undgå overfitting af din model:

Vælg et datasæt til at arbejde med det, der er repræsentativt for befolkningen som helhed.
Opdel dit datasæt til to dele: Træningsdata og testdata.
Hold variablerne analyseret til et sundt minimum for opgaven ved hånden.
Få hjælp fra domæneeksperteksperter.

På aktiemarkedet er for eksempel en klassisk analytisk teknik back-testing - kører en model mod historiske data for at finde den bedste handelsstrategi.

Antag, at analytikeren, efter at have kørt sin nye model mod data, der er genereret af et nyligt tyremarked, og justerer antallet af variabler, der anvendes i sin analyse, skaber det, der ligner en optimal handelsstrategi - en, som ville give det højeste afkast < hvis han kunne gå tilbage og handle kun i løbet af året, der producerede testdataene. Desværre kan han ikke. Hvis han forsøger at anvende denne model på et nuværende bjørnemarked, skal du se nedenfor: Han vil pådrage sig tab ved at anvende en model for optimeret i en snæver periode og sæt af forhold, som ikke passer til de nuværende realiteter. (Så meget for hypotetisk fortjeneste.)

Modellen arbejdede kun for det forsvundet tyremarked, fordi det var overtrained, med øremærkning af konteksten, der frembragte stikprøvedataene - komplet med dets specifikationer, outliers og mangler. Alle omstændighederne omkring datasættet vil sandsynligvis ikke blive gentaget i fremtiden eller i en sand repræsentation af hele befolkningen - men de alle viste sig i den overbygede model.

Hvis en modelens output er for præcis, overvej det et hint for at se nærmere på. Få hjælp fra domæneteknikeksperter til at se, om dine resultater virkelig er for gode til at være sandt, og kør den model på flere testdata for yderligere sammenligninger.