Hjem Personlig finansiering Undgå prøveprøver og lækagefælder i maskinundervisning

Undgå prøveprøver og lækagefælder i maskinundervisning

Video: Undgå indbrud ved ferie og højtid 2025

Video: Undgå indbrud ved ferie og højtid 2025
Anonim

Valideringsmetoden til maskinindlæring er en undersøgelse af et muligt middel til indsampling af bias. In-sampling bias kan ske med dine data, før maskinindlæringen sættes i gang, og det medfører stor varians af følgende estimater. Derudover skal du være opmærksom på lækagefælder, der kan opstå, når nogle oplysninger fra den ud af prøven passerer til in-sample data. Dette problem kan opstå, når du forbereder dataene, eller efter at maskinens læringsmodel er klar og arbejder.

Lægemidlet, der hedder ensembling af forudsigere, virker perfekt, når din træningsprøve ikke er fuldstændig forvrænget, og dens fordeling er forskellig fra den ude af prøven, men ikke på en uerfarlig måde, sådan som når alle dine klasser er til stede, men ikke i den rigtige andel (som et eksempel). I sådanne tilfælde påvirkes dine resultater af en vis variation af de estimater, som du muligvis kan stabilisere på en af ​​flere måder: ved resampling, som i bootstrapping; ved subsampling (prøveudtagning) eller ved at bruge mindre prøver (hvilket øger bias).

For at forstå, hvordan ensembling virker så effektivt, visualiserer billedet af et tyrøje. Hvis din prøve påvirker forudsigelserne, vil nogle forudsigelser være nøjagtige, og andre vil være forkerte på en tilfældig måde. Hvis du ændrer din prøve, vil de rigtige forudsigelser fortsætte med at være rigtige, men de forkerte vil begynde at være variationer mellem forskellige værdier. Nogle værdier vil være den nøjagtige forudsigelse, du leder efter; andre vil bare svinge rundt om den rigtige.

Ved at sammenligne resultaterne kan du gætte, at det, der er tilbagevendende, er det rigtige svar. Du kan også tage et gennemsnit af svarene og gætte, at det rigtige svar skal være midt i værdierne. Med tyrens øje spil kan du visualisere overlejring af fotos af forskellige spil: Hvis problemet er variance, vil du i sidste ende gætte at målet er i det mest ramte område eller i det mindste midt i alle skud.

I de fleste tilfælde viser en sådan tilgang sig til at være korrekt og forbedrer dine maskiners læring forudsigelser meget. Når dit problem er bias og ikke variance, betyder brug af ensembling virkelig ikke skade, medmindre du subsample for få prøver. En god tommelfingerregel for subsampling er at tage en prøve fra 70 til 90 procent sammenlignet med de originale data i stikprøven. Hvis du vil lave ensembling arbejde, skal du gøre følgende:

  • Iterere et stort antal gange gennem dine data og modeller (fra mindst tre iterationer til ideelt set hundredvis af gange).
  • Hver gang du gentager, subsample (eller ellers bootstrap) dine in-sample data.
  • Brug maskinindlæring til modellen på de resamplede data, og forudsig resultaterne uden for prøven. Opbevar disse resultater væk til senere brug.
  • I slutningen af ​​iterationerne skal du for alle udgangssager, du vil forudsige, tage alle sine forudsigelser og gennemsnit dem, hvis du laver en regression. Tag den hyppigste klasse, hvis du laver en klassifikation.

Lækagefælder kan overraske dig, fordi de kan vise sig at være en ukendt og uopdaget kilde til problemer med maskinens læringsprocesser. Problemet er snooping, eller på anden måde observerer dataene uden for stikprøven for meget og tilpasser sig det for ofte. Kort sagt er snooping en slags overfitting - og ikke kun på træningsdataene, men også på testdataene, hvilket gør overfittingproblemet selv vanskeligere at opdage, indtil du får friske data.

Normalt indser du, at problemet er snooping, når du allerede har anvendt maskinalæringsalgoritmen til din virksomhed eller til en tjeneste for offentligheden, hvilket gør problemet et problem, som alle kan se.

Du kan undgå snooping på to måder. Først skal du sørge for, at træning, validering og testdata er nøje adskilt, når du arbejder på dataene. Når du behandler det, skal du aldrig tage nogen information fra validering eller test, selv de mest enkle og uskyldige eksempler. Endnu værre er at anvende en kompleks transformation ved hjælp af alle dataene.

I økonomi er det for eksempel velkendt, at beregning af middel- og standardafvigelsen (som faktisk kan fortælle dig meget om markedsforhold og risiko) fra alle trænings- og testdata kan lække dyrebare oplysninger om dine modeller. Når lækage opstår, udfører maskinindlæringsalgoritmer forudsigelser på testsætet i stedet for data uden for stikprøven fra markederne, hvilket betyder, at de slet ikke fungerede, hvilket medførte tab af penge.

Kontroller udførelsen af ​​dine eksempler uden for eksemplet. Faktisk kan du medbringe nogle oplysninger fra din snooping på testresultaterne for at hjælpe dig med at bestemme, at visse parametre er bedre end andre, eller få dig til at vælge en maskinindlæringsalgoritme i stedet for en anden. For hver model eller parameter skal du vælge dit valg baseret på krydsvalideringsresultater eller fra valideringsprøven. Fald aldrig for at få takeaways fra dine data uden for stikprøven, eller du vil fortryde det senere.

Undgå prøveprøver og lækagefælder i maskinundervisning

Valg af editor

Hvordan man behandler PHR / SPHR eksamensspørgsmål, du ikke ved - dummier

Hvordan man behandler PHR / SPHR eksamensspørgsmål, du ikke ved - dummier

Vil du uundgåeligt komme ind på et spørgsmål (eller et par) på PHR eller SPHR eksamen, hvor du simpelthen ikke vil vide svaret. Vær ikke overrasket, når du støder på en. Bliv rolig og tag ikke panik. Her er nogle strategier til at håndtere det ukendte: Stol på dit første instinkt. Prøv ikke at overtale spørgsmålet. Hvis du ...

Sammenligner PHR og SPHR-eksamenerne - dummier

Sammenligner PHR og SPHR-eksamenerne - dummier

Med den rette eksamen, enten PHR eller SPHR, har en effekt på mere end blot at gøre forberedelsesprocessen mindre stressende. Valg af den relevante test kan også påvirke dit fremtidige job og indtjeningspotentiale. Tænk på at ansøge om et HR-job på højt niveau, der kræver eksponering, erfaring og problemløsning i forretningsadministration og ...

Hvordan man håndterer svardistraherende på PHR / SPHR-eksamenerne - dummier

Hvordan man håndterer svardistraherende på PHR / SPHR-eksamenerne - dummier

Ud over de to gode svar valg, har et spørgsmål om PHR eller SPHR eksamen normalt også distraktorer. Distraktorer kan dukke op på et par forskellige steder: I spørgsmålstammen: Denne fremmede information er ikke relevant for det korrekte svar. I et af de fire svar valg: Nogle distractorer er svar baseret på ...

Valg af editor

I nogle organisationer, de operationelt anerkendte måneder tilbage en skattemåned fra en dato i Excel - dummies

I nogle organisationer, de operationelt anerkendte måneder tilbage en skattemåned fra en dato i Excel - dummies

Start ikke den 1. og slut den 30. eller 31. december. I stedet har de bestemte dage, der markerer begyndelsen og slutningen af ​​en måned. For eksempel kan du arbejde i en organisation, hvor hver skattemåned begynder den 21. og slutter den 20. ..

Roterende celledata i Excel 2007 - dummies

Roterende celledata i Excel 2007 - dummies

Brug retningsknappen på fanen Startside i Excel 2007 for at rotere data i celler. Du kan rotere data med uret, mod uret eller lodret. Brug dialogboksen Formaterceller til at indstille en mere præcis retning ved at angive antallet af grader for at rotere teksten. For at rotere celledata skal du følge disse trin: Vælg ...

Række højde og kolonne bredde i Excel 2013 - dummies

Række højde og kolonne bredde i Excel 2013 - dummies

Hver kolonne i et regneark starter med samme bredde , som er 8. 43 tegn (baseret på standard skrifttype og skriftstørrelse), medmindre du har ændret standardindstillingen. Det er cirka syv cifre og enten et stort symbol (f.eks. $) Eller to små (som decimaler og kommaer). Du kan definere standard ...

Valg af editor

Opret din første MindManager-kort - dummies

Opret din første MindManager-kort - dummies

Oprettelse af kort er hvad MindManager handler om, men at oprette et nyttigt kort kan tage lidt indsats og kreativ energi. Du vil bruge kort, der allerede er startet, kaldet skabeloner, når det er muligt. Opret dit første kort - et øvelseskort - ved at åbne dit MindManager-program og følg disse trin: 1. Klik på Learning ...

Crystal Reports 10: Forståelse af objektforbindelse og indlejring (OLE) - dummies

Crystal Reports 10: Forståelse af objektforbindelse og indlejring (OLE) - dummies

Formålet med en rapport er at præsentere databasedata for brugere i en form, der er let at forstå. Crystal Reports giver dig alle de værktøjer, du har brug for til at gøre det. Nogle gange vil du dog have en rapport, der gør mere end bare til stede databasedata. Du kan muligvis inkludere tekst fra et ord ...

Dag Trading Bitcoin versus Fiat - dummies

Dag Trading Bitcoin versus Fiat - dummies

Dagens handel handler om at købe og sælge finansielle instrumenter - som bitcoin - inden for samme handelsdag. Fiat valuta refererer til en national regering lovligt betalingsmiddel. Ved hjælp af bitcoin kan du handle på flere forskellige måder. Den mest oplagte handelsform byder bitcoins til og fra en hvilken som helst af de lokale valutaer den ...