Hjem Personlig finansiering Undgå prøveprøver og lækagefælder i maskinundervisning

Undgå prøveprøver og lækagefælder i maskinundervisning

Video: Undgå indbrud ved ferie og højtid 2025

Video: Undgå indbrud ved ferie og højtid 2025
Anonim

Valideringsmetoden til maskinindlæring er en undersøgelse af et muligt middel til indsampling af bias. In-sampling bias kan ske med dine data, før maskinindlæringen sættes i gang, og det medfører stor varians af følgende estimater. Derudover skal du være opmærksom på lækagefælder, der kan opstå, når nogle oplysninger fra den ud af prøven passerer til in-sample data. Dette problem kan opstå, når du forbereder dataene, eller efter at maskinens læringsmodel er klar og arbejder.

Lægemidlet, der hedder ensembling af forudsigere, virker perfekt, når din træningsprøve ikke er fuldstændig forvrænget, og dens fordeling er forskellig fra den ude af prøven, men ikke på en uerfarlig måde, sådan som når alle dine klasser er til stede, men ikke i den rigtige andel (som et eksempel). I sådanne tilfælde påvirkes dine resultater af en vis variation af de estimater, som du muligvis kan stabilisere på en af ​​flere måder: ved resampling, som i bootstrapping; ved subsampling (prøveudtagning) eller ved at bruge mindre prøver (hvilket øger bias).

For at forstå, hvordan ensembling virker så effektivt, visualiserer billedet af et tyrøje. Hvis din prøve påvirker forudsigelserne, vil nogle forudsigelser være nøjagtige, og andre vil være forkerte på en tilfældig måde. Hvis du ændrer din prøve, vil de rigtige forudsigelser fortsætte med at være rigtige, men de forkerte vil begynde at være variationer mellem forskellige værdier. Nogle værdier vil være den nøjagtige forudsigelse, du leder efter; andre vil bare svinge rundt om den rigtige.

Ved at sammenligne resultaterne kan du gætte, at det, der er tilbagevendende, er det rigtige svar. Du kan også tage et gennemsnit af svarene og gætte, at det rigtige svar skal være midt i værdierne. Med tyrens øje spil kan du visualisere overlejring af fotos af forskellige spil: Hvis problemet er variance, vil du i sidste ende gætte at målet er i det mest ramte område eller i det mindste midt i alle skud.

I de fleste tilfælde viser en sådan tilgang sig til at være korrekt og forbedrer dine maskiners læring forudsigelser meget. Når dit problem er bias og ikke variance, betyder brug af ensembling virkelig ikke skade, medmindre du subsample for få prøver. En god tommelfingerregel for subsampling er at tage en prøve fra 70 til 90 procent sammenlignet med de originale data i stikprøven. Hvis du vil lave ensembling arbejde, skal du gøre følgende:

  • Iterere et stort antal gange gennem dine data og modeller (fra mindst tre iterationer til ideelt set hundredvis af gange).
  • Hver gang du gentager, subsample (eller ellers bootstrap) dine in-sample data.
  • Brug maskinindlæring til modellen på de resamplede data, og forudsig resultaterne uden for prøven. Opbevar disse resultater væk til senere brug.
  • I slutningen af ​​iterationerne skal du for alle udgangssager, du vil forudsige, tage alle sine forudsigelser og gennemsnit dem, hvis du laver en regression. Tag den hyppigste klasse, hvis du laver en klassifikation.

Lækagefælder kan overraske dig, fordi de kan vise sig at være en ukendt og uopdaget kilde til problemer med maskinens læringsprocesser. Problemet er snooping, eller på anden måde observerer dataene uden for stikprøven for meget og tilpasser sig det for ofte. Kort sagt er snooping en slags overfitting - og ikke kun på træningsdataene, men også på testdataene, hvilket gør overfittingproblemet selv vanskeligere at opdage, indtil du får friske data.

Normalt indser du, at problemet er snooping, når du allerede har anvendt maskinalæringsalgoritmen til din virksomhed eller til en tjeneste for offentligheden, hvilket gør problemet et problem, som alle kan se.

Du kan undgå snooping på to måder. Først skal du sørge for, at træning, validering og testdata er nøje adskilt, når du arbejder på dataene. Når du behandler det, skal du aldrig tage nogen information fra validering eller test, selv de mest enkle og uskyldige eksempler. Endnu værre er at anvende en kompleks transformation ved hjælp af alle dataene.

I økonomi er det for eksempel velkendt, at beregning af middel- og standardafvigelsen (som faktisk kan fortælle dig meget om markedsforhold og risiko) fra alle trænings- og testdata kan lække dyrebare oplysninger om dine modeller. Når lækage opstår, udfører maskinindlæringsalgoritmer forudsigelser på testsætet i stedet for data uden for stikprøven fra markederne, hvilket betyder, at de slet ikke fungerede, hvilket medførte tab af penge.

Kontroller udførelsen af ​​dine eksempler uden for eksemplet. Faktisk kan du medbringe nogle oplysninger fra din snooping på testresultaterne for at hjælpe dig med at bestemme, at visse parametre er bedre end andre, eller få dig til at vælge en maskinindlæringsalgoritme i stedet for en anden. For hver model eller parameter skal du vælge dit valg baseret på krydsvalideringsresultater eller fra valideringsprøven. Fald aldrig for at få takeaways fra dine data uden for stikprøven, eller du vil fortryde det senere.

Undgå prøveprøver og lækagefælder i maskinundervisning

Valg af editor

Bygg dit eget sociale fællesskab for handel - dummies

Bygg dit eget sociale fællesskab for handel - dummies

På et velproduceret forretningswebsted, du Se ofte et link til et socialt samfundsområde, hvilket også kan føre offsite til sociale medier. Dette område er hvor kundeservice og FAQs sider lever. Du kan også finde et kunde-til-kunde-fællesskab, der tilskynder deltagelse fra dem, der besøger forretningssiden. Uanset om du vælger ...

Bedste praksis til e-mailmarkedsføring - dummies

Bedste praksis til e-mailmarkedsføring - dummies

Emnet for din sociale medievirksomhed e -mails skal være om at opfylde dine kunders interesser. Du kender dine kunder bedre end nogen. Hvis de vil have opskrifter, skal du f.eks. Have en opskrift i din e-mail. Har indhold, der vedrører din virksomhed og kundens behov. Bygg på loyalitetsforslaget og lav ...

Bygg online indtjening gennem links på Amazon og Social Media - dummies

Bygg online indtjening gennem links på Amazon og Social Media - dummies

Sælger gennem billeder og indhold, du deler på populære sociale medier, er en fantastisk måde at nå ud til kunderne. Du kan gøre mere end blot at linke til produkter - find ud af hvordan du kan tjene penge på dit oprindelige indhold, du udgiver. Du genererer indtægter på din hjemmeside og sociale medier via annoncer og links. Hvis du producerer ...

Valg af editor

Hvordan man bruger f-distributioner i Excel - dummies

Hvordan man bruger f-distributioner i Excel - dummies

F-distributioner er sandsynlighedsfordelinger i Excel, der sammenligner forholdet i variationer af prøver trukket fra forskellige populationer. Denne sammenligning giver en konklusion om, hvorvidt afvigelserne i de underliggende populationer ligner hinanden. F. DIST: Left-tailed f-distribution sandsynlighed F. DIST-funktionen returnerer den venstre-tailed sandsynlighed for at observere et forhold på to samples 'variationer så store ...

Sådan bruges logaritmisk skalering til Excel-dataanalyse - dummier

Sådan bruges logaritmisk skalering til Excel-dataanalyse - dummier

Logaritmer og logaritmisk skalering er værktøjer, som du vil bruge i dine Excel-diagrammer, fordi de gør det muligt for dig at gøre noget meget kraftfuldt. Ved logaritmisk skalering af din værdi-akse kan du sammenligne den relative ændring (ikke den absolutte ændring) i datareserværdier. For eksempel, sig at du vil sammenligne salget ...

Sådan bruges Flash Fill in Excel 2016 - dummies

Sådan bruges Flash Fill in Excel 2016 - dummies

Excel 2016s handy Flash Fill-funktion giver dig evnen at tage en del af de data, der er indtastet i en kolonne i et regnearktabell, og indtast bare disse data i en ny tabelkolonne ved kun at bruge et par tastetryk. Serien af ​​indgange vises i den nye kolonne, bogstaveligt talt i en flash (således ...

Valg af editor

ØGe din blog med bedre indhold - dummier

ØGe din blog med bedre indhold - dummier

Som du tænker på måder at generere buzz på din blog, du kan også forbedre kvaliteten af ​​din blog ved at fokusere på dine bogføringsteknikker. Disse tip kan give dig nogle gode promoveringsideer: Skriv om aktuelle eller kontroversielle problemer. Denne ide virker som en no-brainer, men det er nemt at glemme. Betal ...

Opbygge et XML-sitemap og forbedre din blogs SEO-design - dummies

Opbygge et XML-sitemap og forbedre din blogs SEO-design - dummies

Søgemaskineoptimering ) handler om at øge din blogs synlighed i søgemaskiner som Google. Forbedre din WordPress blogs SEO gennem smarte design valg. Antag for eksempel at du skriver et indlæg om planlægning af en superhelt fødselsdagsfest. Du vil gerne have, at posten vises i søgeresultater, når nogen skriver "superheltefødselsdagsfest" i ...

Mærke dit WordPress-mobilwebsted med gratis blogdesign - dummies

Mærke dit WordPress-mobilwebsted med gratis blogdesign - dummies

Mest WordPress mobile plug- ins for din blogs design kan tilpasses. Du tilpasser en mobil plugin til din blog ved at ændre farver og temaer, tilføje et brugerdefineret logoikon og indstille en brugerdefineret hjemmeside. Med WPtouch mobile plug-in kan du tilføje branding som supplerer din blogs design og gør det nemmere at navigere. Før du ...