Video: TIMELAPSE OF THE FUTURE: A Journey to the End of Time (4K) 2025
For at kunne udføre en forudsigende analyse skal du få dataene til en form, som algoritmen kan bruge til at opbygge en model. For at gøre det skal du tage lidt tid til at forstå dataene og kende dens struktur. Indtast funktionen for at finde ud af strukturen af dataene. Sådan ser det ud: >> str (frø) 'data. ramme ': 210 obs. af 8 variabler: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 …
Når du ser på strukturen, kan du se, at dataene har brug for et forbehandlingstrin og et bekvemmelighedstrin:
-
Dette er ikke strengt nødvendigt, men i dette eksempel er det mere bekvemt at bruge kolonne navne, du kan forstå og huske. Skift attributten med kategoriske værdier til en faktor.
-
Mærket har tre mulige kategorier. For at omdøbe kolonnerne skal du indtaste følgende kode: >> colnames (frø) <-
c ("område", "perimeter", "kompaktitet", "længde", "bredde" asymmetri "," længde2 "," seedType ")
Dernæst ændres attributten, der har kategoriske værdier til en faktor. Følgende kode ændrer datatypen til en faktor:
>> frø $ seedType <- faktor (frø $ seedType)
Denne kommando afslutter forberedelsen af dataene til modelleringsprocessen. Følgende er et billede af strukturen efter databehandlingsprocessen: >> str (ukrudt) 'data. ramme ': 210 obs. af 8 variabler: $ område: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ omkreds: num 14. 8 14. 6 14. 1 13. 9 15 … $ kompakthed: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ længde: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ bredde: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetri: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ længde 2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Faktor m / 3 niveauer "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …