Hjem Personlig finansiering Optimering af krydsvalideringsvalg i maskinundervisning - dummier

Optimering af krydsvalideringsvalg i maskinundervisning - dummier

Video: Optimering af dåse 2025

Video: Optimering af dåse 2025
Anonim

At kunne validere en maskinundervisningshypotese giver mulighed for yderligere optimering af din valgte algoritme. Algoritmen giver det meste af den prædiktive ydeevne på dine data, da den er i stand til at detektere signaler fra data og tilpasse den sande funktionelle form af den prædiktive funktion uden overfitting og generere stor varians af estimaterne. Ikke alle maskindele algoritmer passer bedst til dine data, og ingen enkelt algoritme passer til ethvert problem. Det er op til dig at finde den rigtige til et bestemt problem.

En anden kilde til prædiktiv ydeevne er selve dataene, når de er passende transformeret og udvalgt for at forbedre læringsfunktionerne i den valgte algoritme.

Den endelige kilde til ydeevne skyldes finjustering af algoritmens hyperparametre, som er de parametre, du bestemmer, før du lærer, og som ikke læres af data. Deres rolle er at definere a priori en hypotese, mens andre parametre angiver det a posteriori, efter at algoritmen interagerer med dataene og ved hjælp af en optimeringsproces finder, at visse parameterværdier arbejde bedre med at opnå gode forudsigelser.

Ikke alle maskinalæringsalgoritmer kræver meget hyperparametertuning, men nogle af de mest komplekse gør det, og selv om sådanne algoritmer stadig virker ude af kassen, kan trække de rigtige løftestænger gøre en stor forskel i rigtigheden af ​​forudsigelserne. Selv når hyperparametrene ikke læres ud fra data, bør du overveje de data, du arbejder på, når du beslutter dig for hyperparametre, og du bør gøre valget baseret på krydsvalidering og omhyggelig evaluering af muligheder.

Komplekse maskinindlæringsalgoritmer, dem der er mest udsat for varians af estimater, præsenterer mange valg udtrykt i et stort antal parametre. Twiddling med dem gør dem tilpas mere eller mindre til de data, de lærer fra. Sommetider kan for meget hyperparameter twiddling endda gøre algoritmen detektere falske signaler fra dataene. Det gør hyperparametre selv en uopdaget kilde til varians, hvis du begynder at manipulere dem for meget ud fra en bestemt fast reference som et testsæt eller et gentaget krydsvalideringsskema.

Både R og Python tilbyder udskæring af funktionaliteter, der skærer din inputmatrix i tog-, test- og valideringsdele. For mere komplekse testprocedurer, såsom krydvalidering eller bootstrapping, tilbyder Scikit-Learning-pakken et helt modul, og R har en specialpakke, der tilbyder funktioner til datasplitning, forbehandling og testning.Denne pakke hedder caret.

De mulige kombinationer af værdier, som hyperparametre kan danne, bestemmer, hvor man skal søge optimeringer hårdt. Som beskrevet under diskussion af gradientafstamning, kan et optimeringsrum indeholde værdikombinationer, der udfører bedre eller værre. Selv efter at du har fundet en god kombination, er du ikke sikker på, at det er den bedste løsning. (Dette er problemet med at blive fast i lokale minima, når fejlen minimeres).

Som en praktisk måde at løse dette problem på, er den bedste måde at kontrollere hyperparametre på for en algoritme anvendt på specifikke data, at teste dem alle ved kryds-validering, og at vælge den bedste kombination. Denne enkle tilgang, kaldet grid-søgning, tilbyder ubestridelige fordele ved at give dig mulighed for at prøve rækkevidden af ​​mulige værdier til systematisk indlæsning i algoritmen og at få øje på når det generelle minimum sker.

På den anden side har gridsøgning også alvorlige ulemper, fordi det er beregningsintensivt (du kan nemt udføre denne opgave parallelt på moderne multicore-computere) og ganske tidskrævende. Desuden forbedrer systematiske og intensive test muligheden for at pådrage sig fejl, fordi nogle gode, men falske valideringsresultater kan skyldes støj, der findes i datasættet.

Nogle alternativer til net søgning er tilgængelige. I stedet for at teste alt kan du forsøge at udforske rummet af mulige hyperparameterværdier styret af computationally tunge og matematisk komplekse, ikke-lineære optimeringsteknikker (som Nelder-Mead-metoden) ved hjælp af en Bayesian-tilgang (hvor antallet af tests minimeres ved at tage fordel af tidligere resultater) eller ved hjælp af tilfældig søgning.

Overraskende nok fungerer tilfældig søgning utroligt godt, er let at forstå, og er ikke kun baseret på blind held, selvom det i starten kan synes at være. Faktisk er det vigtigste punkt i teknikken, at hvis du vælger nok tilfældige tests, har du faktisk nok muligheder for at få vist de rigtige parametre uden at spilde energi ved at teste lidt forskellige kombinationer af tilsvarende udførte kombinationer.

Den grafiske repræsentation nedenfor forklarer, hvorfor tilfældig søgning fungerer fint. En systematisk udforskning, men nyttig, har tendens til at teste hver kombination, som bliver til spild af energi, hvis nogle parametre ikke påvirker resultatet. En tilfældig søgning tester faktisk færre kombinationer, men mere inden for rækkevidden af ​​hver hyperparameter, en strategi der viser sig at vinde, hvis visse parametre som oftest er vigtigere end andre.

Sammenligning af netværkssøgning til tilfældig søgning.

For at randomiseret søgning skal fungere godt, bør du gøre fra 15 til maksimalt 60 tests. Det er fornuftigt at ty til tilfældig søgning, hvis en netværkssøgning kræver et større antal eksperimenter.

Optimering af krydsvalideringsvalg i maskinundervisning - dummier

Valg af editor

Hvordan man opretter en ny arbejdsbog i Excel 2010 - dummies

Hvordan man opretter en ny arbejdsbog i Excel 2010 - dummies

Hvis du arbejder i Microsoft Excel 2010 og vil begynde at arbejde i en ny Excel-workbook-fil, kan du nemt oprette en ny projektmappe. For at gøre det kan du bruge en kommando på fanen Filer eller en tastaturgenvej. Klik på fanen Filer. Excel viser Backstage-visning, hvor du kan få adgang til filrelaterede kommandoer. ...

Hvordan man opretter en ny brugerordbog i Excel 2010 - dummies

Hvordan man opretter en ny brugerordbog i Excel 2010 - dummies

I Excel 2010 Opret brugerdefinerede ordbøger, der skal bruges, når du stavekontrollerer dine regneark. Du bruger knappen Tilføj til ordbog i dialogboksen Staveord til at tilføje ukendte ord til en brugerdefineret ordbog. Som standard tilføjer Excel disse ord til en brugerdefineret ordbog fil med navnet CUSTOM. DIC, men du kan oprette en ny brugerdefineret ...

Hvordan du opretter og formaterer et pivotdiagram i Excel 2010 - dummies

Hvordan du opretter og formaterer et pivotdiagram i Excel 2010 - dummies

, Når du opretter en pivottabel i Excel 2010, kan du oprette et pivotdiagram for at vise sine sammendragsværdier grafisk. Du kan også formatere et pivotdiagram for at forbedre udseendet. Du kan bruge en af ​​de diagramtyper, der er tilgængelige med Excel, når du opretter et pivotdiagram. Opret et pivotdiagram Følg disse ...

Valg af editor

Hvordan du ændrer layoutet på dit Ning-netværkets hovedside - dummier

Hvordan du ændrer layoutet på dit Ning-netværkets hovedside - dummier

Du kan flytte funktioner rundt på hovedsiden på dit Ning-netværk via siden Tilføj funktioner til dit netværk, ændrer layoutet, indtil det bare er det, du vil have. For at komme til denne side skal du klikke på linket Administrer i din navigation og derefter klikke på Funktioner under Dit netværk. Tilføj funktioner til dit netværk ...

Sådan vælger du et sprog med Ning Language Editor - dummies

Sådan vælger du et sprog med Ning Language Editor - dummies

Ning Language Editor er et af de mest kraftfulde værktøjer til din rådighed for at tilpasse dit netværk til det maksimale. Ning Language Editor hjælper dig med at lave din netværksgrænseflade (menuer, knapper, overskrifter, legender osv.), Og læs præcis som du vil have det til. Sprogeditoren giver dig mulighed for at vælge et bestemt sprog:

Hvordan man vælger et tema til dit Ning-netværk - dummies

Hvordan man vælger et tema til dit Ning-netværk - dummies

Du kan køre dit netværk på Ning uden at være en meget vellykket designer - og Ning's temaer lader dig få det til at ligne en million dollars! Folkene i Ning har taget godt af det og tilbyder dig mere end 50 flotte skabeloner (de kalder dem temaer), som du kan bruge med minimal indsats:

Valg af editor

Forstå kamphandlinger i rutefilter - dummier

Forstå kamphandlinger i rutefilter - dummier

De kamphandlinger, der er tilgængelige for rutefiltre, er identiske med dem, der er tilgængelige for andre routing politikker i Junos. Du kan acceptere ruter, afvise ruter, ændre attributter, der tilhører en rute, eller udføre flow kontrol type funktioner. Langt de mest almindelige handlinger, der skal bruges med rutefiltre, accepteres og afvises. Normalt vil du ...

Brug god sikkerhedspraksis ved installation af netværksudstyr - dummies

Brug god sikkerhedspraksis ved installation af netværksudstyr - dummies

Vigtigheden af ​​at følge sikkerhedsprotokoller kan ikke være overvurderet. Hvis der ikke træffes passende forholdsregler, kan der opstå alvorlig skade for personale eller apparatet. Følg disse retningslinjer for at sikre din sikkerhed og beskytte enheden mod skade. Vær altid opmærksom og udøv god dømmekraft. Bemærk: Kun uddannet og kvalificeret personale skal installere enheden. Brug ...

Forstå matchtyper i rutefilter - dummies

Forstå matchtyper i rutefilter - dummies

Rutefilter matcher bestemte IP-adresser eller præfiksintervaller. I lighed med andre routingpolitikker indeholder de nogle matchkriterier og tilsvarende kamphandlinger. En vigtig forskel mellem rutefiltre og andre politiske matchforhold er, hvordan flere filtre håndteres. Hvis du har mere end en matchtilstand, behandles betingelserne som ...