Hjem Personlig finansiering Undgå prøveprøver og lækagefælder i maskinundervisning

Undgå prøveprøver og lækagefælder i maskinundervisning

Video: Undgå indbrud ved ferie og højtid 2024

Video: Undgå indbrud ved ferie og højtid 2024
Anonim

Valideringsmetoden til maskinindlæring er en undersøgelse af et muligt middel til indsampling af bias. In-sampling bias kan ske med dine data, før maskinindlæringen sættes i gang, og det medfører stor varians af følgende estimater. Derudover skal du være opmærksom på lækagefælder, der kan opstå, når nogle oplysninger fra den ud af prøven passerer til in-sample data. Dette problem kan opstå, når du forbereder dataene, eller efter at maskinens læringsmodel er klar og arbejder.

Lægemidlet, der hedder ensembling af forudsigere, virker perfekt, når din træningsprøve ikke er fuldstændig forvrænget, og dens fordeling er forskellig fra den ude af prøven, men ikke på en uerfarlig måde, sådan som når alle dine klasser er til stede, men ikke i den rigtige andel (som et eksempel). I sådanne tilfælde påvirkes dine resultater af en vis variation af de estimater, som du muligvis kan stabilisere på en af ​​flere måder: ved resampling, som i bootstrapping; ved subsampling (prøveudtagning) eller ved at bruge mindre prøver (hvilket øger bias).

For at forstå, hvordan ensembling virker så effektivt, visualiserer billedet af et tyrøje. Hvis din prøve påvirker forudsigelserne, vil nogle forudsigelser være nøjagtige, og andre vil være forkerte på en tilfældig måde. Hvis du ændrer din prøve, vil de rigtige forudsigelser fortsætte med at være rigtige, men de forkerte vil begynde at være variationer mellem forskellige værdier. Nogle værdier vil være den nøjagtige forudsigelse, du leder efter; andre vil bare svinge rundt om den rigtige.

Ved at sammenligne resultaterne kan du gætte, at det, der er tilbagevendende, er det rigtige svar. Du kan også tage et gennemsnit af svarene og gætte, at det rigtige svar skal være midt i værdierne. Med tyrens øje spil kan du visualisere overlejring af fotos af forskellige spil: Hvis problemet er variance, vil du i sidste ende gætte at målet er i det mest ramte område eller i det mindste midt i alle skud.

I de fleste tilfælde viser en sådan tilgang sig til at være korrekt og forbedrer dine maskiners læring forudsigelser meget. Når dit problem er bias og ikke variance, betyder brug af ensembling virkelig ikke skade, medmindre du subsample for få prøver. En god tommelfingerregel for subsampling er at tage en prøve fra 70 til 90 procent sammenlignet med de originale data i stikprøven. Hvis du vil lave ensembling arbejde, skal du gøre følgende:

  • Iterere et stort antal gange gennem dine data og modeller (fra mindst tre iterationer til ideelt set hundredvis af gange).
  • Hver gang du gentager, subsample (eller ellers bootstrap) dine in-sample data.
  • Brug maskinindlæring til modellen på de resamplede data, og forudsig resultaterne uden for prøven. Opbevar disse resultater væk til senere brug.
  • I slutningen af ​​iterationerne skal du for alle udgangssager, du vil forudsige, tage alle sine forudsigelser og gennemsnit dem, hvis du laver en regression. Tag den hyppigste klasse, hvis du laver en klassifikation.

Lækagefælder kan overraske dig, fordi de kan vise sig at være en ukendt og uopdaget kilde til problemer med maskinens læringsprocesser. Problemet er snooping, eller på anden måde observerer dataene uden for stikprøven for meget og tilpasser sig det for ofte. Kort sagt er snooping en slags overfitting - og ikke kun på træningsdataene, men også på testdataene, hvilket gør overfittingproblemet selv vanskeligere at opdage, indtil du får friske data.

Normalt indser du, at problemet er snooping, når du allerede har anvendt maskinalæringsalgoritmen til din virksomhed eller til en tjeneste for offentligheden, hvilket gør problemet et problem, som alle kan se.

Du kan undgå snooping på to måder. Først skal du sørge for, at træning, validering og testdata er nøje adskilt, når du arbejder på dataene. Når du behandler det, skal du aldrig tage nogen information fra validering eller test, selv de mest enkle og uskyldige eksempler. Endnu værre er at anvende en kompleks transformation ved hjælp af alle dataene.

I økonomi er det for eksempel velkendt, at beregning af middel- og standardafvigelsen (som faktisk kan fortælle dig meget om markedsforhold og risiko) fra alle trænings- og testdata kan lække dyrebare oplysninger om dine modeller. Når lækage opstår, udfører maskinindlæringsalgoritmer forudsigelser på testsætet i stedet for data uden for stikprøven fra markederne, hvilket betyder, at de slet ikke fungerede, hvilket medførte tab af penge.

Kontroller udførelsen af ​​dine eksempler uden for eksemplet. Faktisk kan du medbringe nogle oplysninger fra din snooping på testresultaterne for at hjælpe dig med at bestemme, at visse parametre er bedre end andre, eller få dig til at vælge en maskinindlæringsalgoritme i stedet for en anden. For hver model eller parameter skal du vælge dit valg baseret på krydsvalideringsresultater eller fra valideringsprøven. Fald aldrig for at få takeaways fra dine data uden for stikprøven, eller du vil fortryde det senere.

Undgå prøveprøver og lækagefælder i maskinundervisning

Valg af editor

Test din kode med Dreamweavers webstedrapporteringsfunktioner - dummies

Test din kode med Dreamweavers webstedrapporteringsfunktioner - dummies

Hvis du har brugt Dreamweaver til bygg din mobilwebsite, du kan tjekke dit arbejde ved hjælp af Dreamweaver Site Reporting funktionerne. Det lader dig oprette en række rapporter og endda tilpasse dem til at identificere problemer med eksterne links, overflødige og tomme tags, untitled dokumenter og manglende alternativ tekst. Du kan nemt gå glip af problemer - især ...

Sådan bruger du dit eget domæne til dit Squarespace-websted - dummier

Sådan bruger du dit eget domæne til dit Squarespace-websted - dummier

Når du underskriver op for din Squarespace-konto, får du en unik Squarespace-URL, der ser sådan ud: http: // dit kontonavn. Squarespace. com. Hvis du vil have fuldstændig kontrol over branding af dit websted eller blot ønsker en unik webadresse, kan du kortlægge eller pege på et brugerdefineret domæne på din Squarespace-konto. Du har tre muligheder for indstilling ...

Fordelene ved at bruge Markdown på din Squarespace Website - dummies

Fordelene ved at bruge Markdown på din Squarespace Website - dummies

Markdown er en plain- tekst skriftformat, der gør det muligt hurtigt at anvende tekst styling baseret på hvordan du formaterer din Squarespace 6 websteds tekst. Markdown er en af ​​Du bruger to typer blokke, du kan bruge til at tilføje tekst. Du tilføjer indhold til dine Squarespace-sidesider ved at bruge indholdsblokke i Site Manager → Indhold ...

Valg af editor

Wicca og Witchcraft For Dummies Cheat Sheet - dummies

Wicca og Witchcraft For Dummies Cheat Sheet - dummies

Wicca, en heksekunst, er centreret i rituelle Wiccans udfører til specifikke formål, såsom at kommunikere med eller ære guddom. Sabbats er wiccan sol helligdage fokuseret på jordens sti omkring solen, nogle gange omtalt som Årets hjul. Esbats er wiccan månens ferie, der fokuserer på månens cyklus. ...

Sammenhængende trosretninger: almindelige erfaringer i skrifterne - dummies

Sammenhængende trosretninger: almindelige erfaringer i skrifterne - dummies

Interessant de tre Abrahams trosretninger - jødedom, kristendom , og islam - deler meget til fælles, herunder en række af ædle profeter sendt af Gud. På grund af commonality ligger en dyb forbindelse til arv fra profeten Abraham og en tro på en Gud. Koranen finder fælles sted med kristne og jøder (kendt ...

Charmerende din vej til effektiv magi - dummies

Charmerende din vej til effektiv magi - dummies

En firkløver for held. Den jakkesæt, som du altid bærer til jobsamtaler for succes. Ringen du tager aldrig af, fordi den repræsenterer din kærlighed til en anden person. Den hængende du bærer rundt om halsen hver dag for beskyttelse. Den lille statue hængende fra bilens bagspejl til sikker rejse. ...

Valg af editor

Vælger skråninger, kanter og ansigter i blender - dummies

Vælger skråninger, kanter og ansigter i blender - dummies

I Blender's Edit-tilstand, kuben ændrer farve og prikker danner i hver af kubens hjørner. Hver prik er et vertex. Linjen der dannes mellem to hjørner er en kant. Et ansigt i Blender er en polygon, der er dannet af tre eller flere forbindelseskanter. Tidligere er ansigter i Blender ...