Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2025
Du vil oprette en prædiktiv analysemodel, som du kan evaluere ved hjælp af kendte resultater. For at gøre det skal vi opdele vores datasæt i to sæt: en til træning af modellen og en til test af modellen. En 70/30 opdeling mellem træning og testning af datasæt er tilstrækkelig. De næste to kodelinjer beregner og gemmer størrelserne på hvert sæt: >> trainSize testSize <- nrow (autos) - trainSize
For at udlæse værdierne skal du indtaste navnet på variablen, der bruges til at gemme værdien og tryk på Enter. Her er output:
Fra undersøgelsen af dataene kan du se, at de fleste af de tungere, ottecylindrede, større forskydning, større hestekræfter er placeret øverst på datasættet. Fra denne observation, uden at skulle køre nogen algoritmer på dataene, kan du allerede fortælle (i almindelighed for dette datasæt) ældre biler i forhold til nyere biler som følger:
Er tungereHar otte cylindre
-
Har større forskydning
-
-
Har større hestekræfter
Okay, selvfølgelig ved mange mennesker noget om biler, så et gæt om, hvad korrelationerne er, vil ikke være for farvede efter at du har set dataene. En person med en masse bilkundskaber kan allerede have kendt dette uden at se på dataene. -
Dette er blot et simpelt eksempel på et domæne (biler), som mange mennesker kan forholde sig til. Hvis dette var data om kræft, ville de fleste ikke umiddelbart forstå, hvad hver attribut betyder.
Her er en domæneekspert og en datamodeller afgørende for modelleringsprocessen. Domæneeksperter kan have den bedste viden om hvilke egenskaber der er mest (eller mindst) vigtige - og hvordan attributter korrelerer med hinanden.
De kan foreslå datamodellen, hvilke variabler der skal eksperimentere med. De kan give større vægt til vigtige attributter og / eller mindre vægte til attributter af mindst betydning (eller fjern dem helt).
Så du skal lave et træningsdatasæt og et testdatasæt, der er virkelig repræsentativt for hele sættet. En måde at gøre det på er at oprette træningssættet fra et tilfældigt udvalg af hele datasættet.Derudover vil du gøre denne test reproducerbar, så du kan lære af det samme eksempel.
Sæt så frøet for tilfældiggeneratoren, så vi får det samme "tilfældige" træningssæt. Følgende kode gør denne opgave: >> sæt. frø (123)> training_indices <- sample (seq_len (nrow (autos)), size = trainSize)> trainSet testSæt <- autos [-training_indices,]
Træningssættet indeholder 279 observationer sammen med resultatet (mpg) for hver observation. Regressionsalgoritmen bruger resultatet til at træne modellen ved at se på relationerne mellem forudsigelsesvariablerne (hvilket som helst af de syv attributter) og responsvariablen (mpg).
Testsættet indeholder resten af dataene (det vil sige den del, der ikke er inkluderet i træningssættet). Du bør bemærke, at testsætet også indeholder variablen svar (mpg).Når du bruger forudsigelsesfunktionen (fra modellen) med testsættet, ignorerer du svarsvariablen og bruger kun forudsigelsesvariablerne, så længe kolonne navne er de samme som i træningssættet.
Hvis du vil oprette en lineær regressionsmodel, der bruger mpg-attributten som svarvariabel og alle de andre variabler som forudsigelsesvariabler, skal du skrive følgende linie kode: >> model