Hjem Personlig finansiering Undgå prøveprøver og lækagefælder i maskinundervisning

Undgå prøveprøver og lækagefælder i maskinundervisning

Video: Undgå indbrud ved ferie og højtid 2025

Video: Undgå indbrud ved ferie og højtid 2025
Anonim

Valideringsmetoden til maskinindlæring er en undersøgelse af et muligt middel til indsampling af bias. In-sampling bias kan ske med dine data, før maskinindlæringen sættes i gang, og det medfører stor varians af følgende estimater. Derudover skal du være opmærksom på lækagefælder, der kan opstå, når nogle oplysninger fra den ud af prøven passerer til in-sample data. Dette problem kan opstå, når du forbereder dataene, eller efter at maskinens læringsmodel er klar og arbejder.

Lægemidlet, der hedder ensembling af forudsigere, virker perfekt, når din træningsprøve ikke er fuldstændig forvrænget, og dens fordeling er forskellig fra den ude af prøven, men ikke på en uerfarlig måde, sådan som når alle dine klasser er til stede, men ikke i den rigtige andel (som et eksempel). I sådanne tilfælde påvirkes dine resultater af en vis variation af de estimater, som du muligvis kan stabilisere på en af ​​flere måder: ved resampling, som i bootstrapping; ved subsampling (prøveudtagning) eller ved at bruge mindre prøver (hvilket øger bias).

For at forstå, hvordan ensembling virker så effektivt, visualiserer billedet af et tyrøje. Hvis din prøve påvirker forudsigelserne, vil nogle forudsigelser være nøjagtige, og andre vil være forkerte på en tilfældig måde. Hvis du ændrer din prøve, vil de rigtige forudsigelser fortsætte med at være rigtige, men de forkerte vil begynde at være variationer mellem forskellige værdier. Nogle værdier vil være den nøjagtige forudsigelse, du leder efter; andre vil bare svinge rundt om den rigtige.

Ved at sammenligne resultaterne kan du gætte, at det, der er tilbagevendende, er det rigtige svar. Du kan også tage et gennemsnit af svarene og gætte, at det rigtige svar skal være midt i værdierne. Med tyrens øje spil kan du visualisere overlejring af fotos af forskellige spil: Hvis problemet er variance, vil du i sidste ende gætte at målet er i det mest ramte område eller i det mindste midt i alle skud.

I de fleste tilfælde viser en sådan tilgang sig til at være korrekt og forbedrer dine maskiners læring forudsigelser meget. Når dit problem er bias og ikke variance, betyder brug af ensembling virkelig ikke skade, medmindre du subsample for få prøver. En god tommelfingerregel for subsampling er at tage en prøve fra 70 til 90 procent sammenlignet med de originale data i stikprøven. Hvis du vil lave ensembling arbejde, skal du gøre følgende:

  • Iterere et stort antal gange gennem dine data og modeller (fra mindst tre iterationer til ideelt set hundredvis af gange).
  • Hver gang du gentager, subsample (eller ellers bootstrap) dine in-sample data.
  • Brug maskinindlæring til modellen på de resamplede data, og forudsig resultaterne uden for prøven. Opbevar disse resultater væk til senere brug.
  • I slutningen af ​​iterationerne skal du for alle udgangssager, du vil forudsige, tage alle sine forudsigelser og gennemsnit dem, hvis du laver en regression. Tag den hyppigste klasse, hvis du laver en klassifikation.

Lækagefælder kan overraske dig, fordi de kan vise sig at være en ukendt og uopdaget kilde til problemer med maskinens læringsprocesser. Problemet er snooping, eller på anden måde observerer dataene uden for stikprøven for meget og tilpasser sig det for ofte. Kort sagt er snooping en slags overfitting - og ikke kun på træningsdataene, men også på testdataene, hvilket gør overfittingproblemet selv vanskeligere at opdage, indtil du får friske data.

Normalt indser du, at problemet er snooping, når du allerede har anvendt maskinalæringsalgoritmen til din virksomhed eller til en tjeneste for offentligheden, hvilket gør problemet et problem, som alle kan se.

Du kan undgå snooping på to måder. Først skal du sørge for, at træning, validering og testdata er nøje adskilt, når du arbejder på dataene. Når du behandler det, skal du aldrig tage nogen information fra validering eller test, selv de mest enkle og uskyldige eksempler. Endnu værre er at anvende en kompleks transformation ved hjælp af alle dataene.

I økonomi er det for eksempel velkendt, at beregning af middel- og standardafvigelsen (som faktisk kan fortælle dig meget om markedsforhold og risiko) fra alle trænings- og testdata kan lække dyrebare oplysninger om dine modeller. Når lækage opstår, udfører maskinindlæringsalgoritmer forudsigelser på testsætet i stedet for data uden for stikprøven fra markederne, hvilket betyder, at de slet ikke fungerede, hvilket medførte tab af penge.

Kontroller udførelsen af ​​dine eksempler uden for eksemplet. Faktisk kan du medbringe nogle oplysninger fra din snooping på testresultaterne for at hjælpe dig med at bestemme, at visse parametre er bedre end andre, eller få dig til at vælge en maskinindlæringsalgoritme i stedet for en anden. For hver model eller parameter skal du vælge dit valg baseret på krydsvalideringsresultater eller fra valideringsprøven. Fald aldrig for at få takeaways fra dine data uden for stikprøven, eller du vil fortryde det senere.

Undgå prøveprøver og lækagefælder i maskinundervisning

Valg af editor

Dække dine baser med denne mobile SEO-tjekliste over opgaver - dummies

Dække dine baser med denne mobile SEO-tjekliste over opgaver - dummies

Det store flertal af amerikanerne surfer på internettet fra deres telefoner. Her er en hurtig-reference tjekliste over mobile webdesign og optimeringsopgaver. Når du gør dit websted mobil, skal du sørge for at afkrydse varerne på denne mobile SEO checkliste! Vælg en mobil platform Bestem hvilken metode til mobildesign, du vil implementere til dit mobilsite. ...

Styring af dine links til SEO - dummies

Styring af dine links til SEO - dummies

Inden du løber af for at søge efter links til at forbedre din søge ranking , tænk på, hvad du vil have disse links til at sige. Nøgleord i links er uhyre vigtige. Placeringen af ​​en side i søgemaskinerne afhænger ikke kun af teksten inden for denne side, men også på tekst på andre sider, der henviser til ...

Du skal tage den rigtige mobil tilgang til din SEO-strategi - dummies

Du skal tage den rigtige mobil tilgang til din SEO-strategi - dummies

Mobil brug i betragtning, når du udvikler dit websted til SEO. Fordi en stationær computerskærm og en smartphone er meget forskellig i størrelse, betyder design for mobil, at du skal gøre en af ​​tre ting: Opbyg et lydhurt webdesign, der dynamisk tilpasser indhold fra desktopformat til mobil ...

Valg af editor

Hvordan man opretter en influenslisteliste på Klout - dummies

Hvordan man opretter en influenslisteliste på Klout - dummies

I sidebjælken på venstre side af din Klout Friends-skærm, ser du en orange Opret en ny liste-knap. Når du klikker på denne knap, vises et pop op-vindue. I denne boks kan du tilføje folk til listen og navngive listen. På dette tidspunkt kan du kun føje influencere af deres Twitter ...

Hvordan man undgår beregninger faldgruber med dit websted Analytics data - dummies

Hvordan man undgår beregninger faldgruber med dit websted Analytics data - dummies

Du kan undre sig hvordan i verden kan du lave fejl med data, der bliver leveret til dig i pæne rapporter og grafer. Sociale metrics-tjenester gør et godt stykke arbejde med at indsamle alle de data, du fortæller dem, at finde. Der er mange målinger faldgruber derude. Du kan nemt ...

Sådan dekrypterer du Social Media Metrics Codes and Patterns - dummies

Sådan dekrypterer du Social Media Metrics Codes and Patterns - dummies

Som du sporer din sociale medieværdier over tid og begynder at bruge nogle af de næste lagværktøjer, såsom segmentering og dayparting, til at analysere din online og sociale interaktion, er det vigtigt at holde øje med brugsmønstre, interesse og engagement og hemmelige koder din besøgende og fans / tilhængere sender ...

Valg af editor

Matchende vinkler til levnedsmiddelfag i madfotografi - dummier

Matchende vinkler til levnedsmiddelfag i madfotografi - dummier

Give et andet udseende og følelse for dine billeder. Nøglen er at spille rundt med de forskellige vinkler og derefter fokusere på fødevaren. Nogle vinkler ser langt mere appetitvækkende ud end andre, men det varierer fra mad til mad.

Maksimere forstørrelse med små motiver - dummier

Maksimere forstørrelse med små motiver - dummier

Universet ser ud til at give detaljerede detaljer, fra galaksen til solen system, til bjergene, til træerne, til dyrene, til insekterne og ned til bakterierne og cellerne, til atomer og hinsides. Fotografering kan fange de oplysninger, der leveres på disse forskellige lag. Hvor langt ned på skalaen du ...

Meter med dit kamera i HDR Photography - dummies

Meter med dit kamera i HDR Photography - dummies

Ved hjælp af en forudindtaget bracketingstrategi i HDR fotografering fungerer godt, men ulempen ved ikke, om du virkelig fanger hele sceneens dynamiske område med parenteserne (hvis du holder øje med et levende histogram, er du tættere på at vide). En mere flot indflydelse afhænger af måling af højder og nedture ...