Hvordan man opretter en prædiktiv Analytics-model med R Regression - dummies

Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2025

Du vil oprette en prædiktiv analysemodel, som du kan evaluere ved hjælp af kendte resultater. For at gøre det skal vi opdele vores datasæt i to sæt: en til træning af modellen og en til test af modellen. En 70/30 opdeling mellem træning og testning af datasæt er tilstrækkelig. De næste to kodelinjer beregner og gemmer størrelserne på hvert sæt: >> trainSize testSize <- nrow (autos) - trainSize

For at udlæse værdierne skal du indtaste navnet på variablen, der bruges til at gemme værdien og tryk på Enter. Her er output:

>> trainSize [1] 279> testSize [1] 119

Denne kode bestemmer størrelsen af de datasæt, som du har til hensigt at lave vores trænings- og testdatasæt. Du har stadig ikke faktisk oprettet disse sæt. Desuden ønsker du ikke blot at kalde de første 279 observationer, træningssættet og ringe til de sidste 119 observationer, testen indstillede. Det ville skabe en dårlig model, fordi datasættet vises bestilt. Specifikt er model Year kolonnen bestilt fra mindste til største.

Fra undersøgelsen af dataene kan du se, at de fleste af de tungere, ottecylindrede, større forskydning, større hestekræfter er placeret øverst på datasættet. Fra denne observation, uden at skulle køre nogen algoritmer på dataene, kan du allerede fortælle (i almindelighed for dette datasæt) ældre biler i forhold til nyere biler som følger:

Er tungere

Har otte cylindre

Har større forskydning
Har større hestekræfter
Okay, selvfølgelig ved mange mennesker noget om biler, så et gæt om, hvad korrelationerne er, vil ikke være for farvede efter at du har set dataene. En person med en masse bilkundskaber kan allerede have kendt dette uden at se på dataene.
Dette er blot et simpelt eksempel på et domæne (biler), som mange mennesker kan forholde sig til. Hvis dette var data om kræft, ville de fleste ikke umiddelbart forstå, hvad hver attribut betyder.

Her er en domæneekspert og en datamodeller afgørende for modelleringsprocessen. Domæneeksperter kan have den bedste viden om hvilke egenskaber der er mest (eller mindst) vigtige - og hvordan attributter korrelerer med hinanden.

De kan foreslå datamodellen, hvilke variabler der skal eksperimentere med. De kan give større vægt til vigtige attributter og / eller mindre vægte til attributter af mindst betydning (eller fjern dem helt).

Så du skal lave et træningsdatasæt og et testdatasæt, der er virkelig repræsentativt for hele sættet. En måde at gøre det på er at oprette træningssættet fra et tilfældigt udvalg af hele datasættet.Derudover vil du gøre denne test reproducerbar, så du kan lære af det samme eksempel.

Sæt så frøet for tilfældiggeneratoren, så vi får det samme "tilfældige" træningssæt. Følgende kode gør denne opgave: >> sæt. frø (123)> training_indices <- sample (seq_len (nrow (autos)), size = trainSize)> trainSet testSæt <- autos [-training_indices,]

Træningssættet indeholder 279 observationer sammen med resultatet (mpg) for hver observation. Regressionsalgoritmen bruger resultatet til at træne modellen ved at se på relationerne mellem forudsigelsesvariablerne (hvilket som helst af de syv attributter) og responsvariablen (mpg).

Testsættet indeholder resten af dataene (det vil sige den del, der ikke er inkluderet i træningssættet). Du bør bemærke, at testsætet også indeholder variablen svar (mpg).

Når du bruger forudsigelsesfunktionen (fra modellen) med testsættet, ignorerer du svarsvariablen og bruger kun forudsigelsesvariablerne, så længe kolonne navne er de samme som i træningssættet.

Hvis du vil oprette en lineær regressionsmodel, der bruger mpg-attributten som svarvariabel og alle de andre variabler som forudsigelsesvariabler, skal du skrive følgende linie kode: >> model