Video: Grundlæggende om ETNer med Sylvester Andersen 2025
Når du har alle de værktøjer og data, der er nødvendige for at begynde at oprette en prædiktiv model, begynder sjovet. Generelt skaber en læringsmodel for klassifikationsopgaver følgende trin:
-
Indlæse dataene.
-
Vælg en klassifikator.
-
Træn modellen.
-
Visualiser modellen.
-
Test modellen.
-
Evaluer modellen.
Både logistikregression og Support Vector Machine (SVM) klassifikationsmodeller fungerer ret godt ved hjælp af Iris datasættet.
Sepal Længde | Sepal Bredde | Kronblade Længde | Kronblade Bredde | Målklasse / Etiket |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Den logistiske regressionsmodel med parameter C = 1 var perfekt i sine forudsigelser, mens SVM-modellen og den logistiske regressionsmodel med C = 150 savnede kun en forudsigelse. Faktisk er den høje nøjagtighed af begge modeller et resultat af at have et lille datasæt, der har datapunkter, der er temmelig tæt på lineært separerbare.
Interessant nok havde den logistiske regressionsmodel med C = 150 et bedre udseende beslutningsareal end den med C = 1, men det fungerede ikke bedre. Det er ikke så meget, idet test sæt er så lille. Hvis der var valgt en anden tilfældig opdeling mellem træningssæt og testsæt, kunne resultaterne let have været forskellige.
Dette afslører en anden kompleksitetskilde, der opdrætter i modelevaluering: effekten af prøveudtagning, og hvordan valg af trænings- og testsæt kan påvirke modelens output. Cross-valideringsteknikker kan hjælpe med at minimere virkningen af stikprøveudtagning på modelens ydeevne.
For et større datasæt med ikke-lineært adskilelige data, ville du forvente, at resultaterne afviger endnu mere. Hertil kommer, at vælge den rigtige model bliver stadig vanskeligere på grund af dataens kompleksitet og størrelse. Vær forberedt på at bruge meget tid på at indstille dine parametre for at få en perfekt pasform.
Når du opretter prædiktive modeller, skal du prøve nogle få algoritmer og udtømme deres parametre fuldstændigt, indtil du finder hvad der passer bedst til dine data. Sammenlign derefter deres output med hinanden.