Hjem Personlig finansiering Optimering af krydsvalideringsvalg i maskinundervisning - dummier

Optimering af krydsvalideringsvalg i maskinundervisning - dummier

Video: Optimering af dåse 2024

Video: Optimering af dåse 2024
Anonim

At kunne validere en maskinundervisningshypotese giver mulighed for yderligere optimering af din valgte algoritme. Algoritmen giver det meste af den prædiktive ydeevne på dine data, da den er i stand til at detektere signaler fra data og tilpasse den sande funktionelle form af den prædiktive funktion uden overfitting og generere stor varians af estimaterne. Ikke alle maskindele algoritmer passer bedst til dine data, og ingen enkelt algoritme passer til ethvert problem. Det er op til dig at finde den rigtige til et bestemt problem.

En anden kilde til prædiktiv ydeevne er selve dataene, når de er passende transformeret og udvalgt for at forbedre læringsfunktionerne i den valgte algoritme.

Den endelige kilde til ydeevne skyldes finjustering af algoritmens hyperparametre, som er de parametre, du bestemmer, før du lærer, og som ikke læres af data. Deres rolle er at definere a priori en hypotese, mens andre parametre angiver det a posteriori, efter at algoritmen interagerer med dataene og ved hjælp af en optimeringsproces finder, at visse parameterværdier arbejde bedre med at opnå gode forudsigelser.

Ikke alle maskinalæringsalgoritmer kræver meget hyperparametertuning, men nogle af de mest komplekse gør det, og selv om sådanne algoritmer stadig virker ude af kassen, kan trække de rigtige løftestænger gøre en stor forskel i rigtigheden af ​​forudsigelserne. Selv når hyperparametrene ikke læres ud fra data, bør du overveje de data, du arbejder på, når du beslutter dig for hyperparametre, og du bør gøre valget baseret på krydsvalidering og omhyggelig evaluering af muligheder.

Komplekse maskinindlæringsalgoritmer, dem der er mest udsat for varians af estimater, præsenterer mange valg udtrykt i et stort antal parametre. Twiddling med dem gør dem tilpas mere eller mindre til de data, de lærer fra. Sommetider kan for meget hyperparameter twiddling endda gøre algoritmen detektere falske signaler fra dataene. Det gør hyperparametre selv en uopdaget kilde til varians, hvis du begynder at manipulere dem for meget ud fra en bestemt fast reference som et testsæt eller et gentaget krydsvalideringsskema.

Både R og Python tilbyder udskæring af funktionaliteter, der skærer din inputmatrix i tog-, test- og valideringsdele. For mere komplekse testprocedurer, såsom krydvalidering eller bootstrapping, tilbyder Scikit-Learning-pakken et helt modul, og R har en specialpakke, der tilbyder funktioner til datasplitning, forbehandling og testning.Denne pakke hedder caret.

De mulige kombinationer af værdier, som hyperparametre kan danne, bestemmer, hvor man skal søge optimeringer hårdt. Som beskrevet under diskussion af gradientafstamning, kan et optimeringsrum indeholde værdikombinationer, der udfører bedre eller værre. Selv efter at du har fundet en god kombination, er du ikke sikker på, at det er den bedste løsning. (Dette er problemet med at blive fast i lokale minima, når fejlen minimeres).

Som en praktisk måde at løse dette problem på, er den bedste måde at kontrollere hyperparametre på for en algoritme anvendt på specifikke data, at teste dem alle ved kryds-validering, og at vælge den bedste kombination. Denne enkle tilgang, kaldet grid-søgning, tilbyder ubestridelige fordele ved at give dig mulighed for at prøve rækkevidden af ​​mulige værdier til systematisk indlæsning i algoritmen og at få øje på når det generelle minimum sker.

På den anden side har gridsøgning også alvorlige ulemper, fordi det er beregningsintensivt (du kan nemt udføre denne opgave parallelt på moderne multicore-computere) og ganske tidskrævende. Desuden forbedrer systematiske og intensive test muligheden for at pådrage sig fejl, fordi nogle gode, men falske valideringsresultater kan skyldes støj, der findes i datasættet.

Nogle alternativer til net søgning er tilgængelige. I stedet for at teste alt kan du forsøge at udforske rummet af mulige hyperparameterværdier styret af computationally tunge og matematisk komplekse, ikke-lineære optimeringsteknikker (som Nelder-Mead-metoden) ved hjælp af en Bayesian-tilgang (hvor antallet af tests minimeres ved at tage fordel af tidligere resultater) eller ved hjælp af tilfældig søgning.

Overraskende nok fungerer tilfældig søgning utroligt godt, er let at forstå, og er ikke kun baseret på blind held, selvom det i starten kan synes at være. Faktisk er det vigtigste punkt i teknikken, at hvis du vælger nok tilfældige tests, har du faktisk nok muligheder for at få vist de rigtige parametre uden at spilde energi ved at teste lidt forskellige kombinationer af tilsvarende udførte kombinationer.

Den grafiske repræsentation nedenfor forklarer, hvorfor tilfældig søgning fungerer fint. En systematisk udforskning, men nyttig, har tendens til at teste hver kombination, som bliver til spild af energi, hvis nogle parametre ikke påvirker resultatet. En tilfældig søgning tester faktisk færre kombinationer, men mere inden for rækkevidden af ​​hver hyperparameter, en strategi der viser sig at vinde, hvis visse parametre som oftest er vigtigere end andre.

Sammenligning af netværkssøgning til tilfældig søgning.

For at randomiseret søgning skal fungere godt, bør du gøre fra 15 til maksimalt 60 tests. Det er fornuftigt at ty til tilfældig søgning, hvis en netværkssøgning kræver et større antal eksperimenter.

Optimering af krydsvalideringsvalg i maskinundervisning - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...