Hjem Personlig finansiering Undgå prøveprøver og lækagefælder i maskinundervisning

Undgå prøveprøver og lækagefælder i maskinundervisning

Video: Undgå indbrud ved ferie og højtid 2025

Video: Undgå indbrud ved ferie og højtid 2025
Anonim

Valideringsmetoden til maskinindlæring er en undersøgelse af et muligt middel til indsampling af bias. In-sampling bias kan ske med dine data, før maskinindlæringen sættes i gang, og det medfører stor varians af følgende estimater. Derudover skal du være opmærksom på lækagefælder, der kan opstå, når nogle oplysninger fra den ud af prøven passerer til in-sample data. Dette problem kan opstå, når du forbereder dataene, eller efter at maskinens læringsmodel er klar og arbejder.

Lægemidlet, der hedder ensembling af forudsigere, virker perfekt, når din træningsprøve ikke er fuldstændig forvrænget, og dens fordeling er forskellig fra den ude af prøven, men ikke på en uerfarlig måde, sådan som når alle dine klasser er til stede, men ikke i den rigtige andel (som et eksempel). I sådanne tilfælde påvirkes dine resultater af en vis variation af de estimater, som du muligvis kan stabilisere på en af ​​flere måder: ved resampling, som i bootstrapping; ved subsampling (prøveudtagning) eller ved at bruge mindre prøver (hvilket øger bias).

For at forstå, hvordan ensembling virker så effektivt, visualiserer billedet af et tyrøje. Hvis din prøve påvirker forudsigelserne, vil nogle forudsigelser være nøjagtige, og andre vil være forkerte på en tilfældig måde. Hvis du ændrer din prøve, vil de rigtige forudsigelser fortsætte med at være rigtige, men de forkerte vil begynde at være variationer mellem forskellige værdier. Nogle værdier vil være den nøjagtige forudsigelse, du leder efter; andre vil bare svinge rundt om den rigtige.

Ved at sammenligne resultaterne kan du gætte, at det, der er tilbagevendende, er det rigtige svar. Du kan også tage et gennemsnit af svarene og gætte, at det rigtige svar skal være midt i værdierne. Med tyrens øje spil kan du visualisere overlejring af fotos af forskellige spil: Hvis problemet er variance, vil du i sidste ende gætte at målet er i det mest ramte område eller i det mindste midt i alle skud.

I de fleste tilfælde viser en sådan tilgang sig til at være korrekt og forbedrer dine maskiners læring forudsigelser meget. Når dit problem er bias og ikke variance, betyder brug af ensembling virkelig ikke skade, medmindre du subsample for få prøver. En god tommelfingerregel for subsampling er at tage en prøve fra 70 til 90 procent sammenlignet med de originale data i stikprøven. Hvis du vil lave ensembling arbejde, skal du gøre følgende:

  • Iterere et stort antal gange gennem dine data og modeller (fra mindst tre iterationer til ideelt set hundredvis af gange).
  • Hver gang du gentager, subsample (eller ellers bootstrap) dine in-sample data.
  • Brug maskinindlæring til modellen på de resamplede data, og forudsig resultaterne uden for prøven. Opbevar disse resultater væk til senere brug.
  • I slutningen af ​​iterationerne skal du for alle udgangssager, du vil forudsige, tage alle sine forudsigelser og gennemsnit dem, hvis du laver en regression. Tag den hyppigste klasse, hvis du laver en klassifikation.

Lækagefælder kan overraske dig, fordi de kan vise sig at være en ukendt og uopdaget kilde til problemer med maskinens læringsprocesser. Problemet er snooping, eller på anden måde observerer dataene uden for stikprøven for meget og tilpasser sig det for ofte. Kort sagt er snooping en slags overfitting - og ikke kun på træningsdataene, men også på testdataene, hvilket gør overfittingproblemet selv vanskeligere at opdage, indtil du får friske data.

Normalt indser du, at problemet er snooping, når du allerede har anvendt maskinalæringsalgoritmen til din virksomhed eller til en tjeneste for offentligheden, hvilket gør problemet et problem, som alle kan se.

Du kan undgå snooping på to måder. Først skal du sørge for, at træning, validering og testdata er nøje adskilt, når du arbejder på dataene. Når du behandler det, skal du aldrig tage nogen information fra validering eller test, selv de mest enkle og uskyldige eksempler. Endnu værre er at anvende en kompleks transformation ved hjælp af alle dataene.

I økonomi er det for eksempel velkendt, at beregning af middel- og standardafvigelsen (som faktisk kan fortælle dig meget om markedsforhold og risiko) fra alle trænings- og testdata kan lække dyrebare oplysninger om dine modeller. Når lækage opstår, udfører maskinindlæringsalgoritmer forudsigelser på testsætet i stedet for data uden for stikprøven fra markederne, hvilket betyder, at de slet ikke fungerede, hvilket medførte tab af penge.

Kontroller udførelsen af ​​dine eksempler uden for eksemplet. Faktisk kan du medbringe nogle oplysninger fra din snooping på testresultaterne for at hjælpe dig med at bestemme, at visse parametre er bedre end andre, eller få dig til at vælge en maskinindlæringsalgoritme i stedet for en anden. For hver model eller parameter skal du vælge dit valg baseret på krydsvalideringsresultater eller fra valideringsprøven. Fald aldrig for at få takeaways fra dine data uden for stikprøven, eller du vil fortryde det senere.

Undgå prøveprøver og lækagefælder i maskinundervisning

Valg af editor

Middelhavsret Opskrifter: Kretiske Kyllingretter - Dummies

Middelhavsret Opskrifter: Kretiske Kyllingretter - Dummies

Grillning og braising er de mest populære måder at lave mad kød på Kreta; kombineret med friske urter og krydderier og traditionelle fødevarer som yoghurt, ost og oliven, skaber disse teknikker kyllingevarer med en masse smag. Sautéed Kyllingebryst i Rødvin Tomat Sauce Forberedelsestid: 10 minutter Kogetid: 45 minutter ...

Middelhavs kost Opskrifter: Pasta med kød - dummies

Middelhavs kost Opskrifter: Pasta med kød - dummies

En fantastisk måde at lave en one-pot Middelhavet måltid er at tilføje nogle slags kød, såsom kylling, svinekød eller oksekød, til din pasta. Tilsæt nogle grøntsager og en frisk sovs, og du har et komplet måltid. Brug af kød er en god måde at tilføje mere volumen til din pasta, så du ikke gør det.

Middelhavs Diet Opskrifter: Entree Salater - Dummies

Middelhavs Diet Opskrifter: Entree Salater - Dummies

Selvom entree salat er mere populært i USA og Canada, kan du stadig skabe et middelhavs-inspireret måltid ved at kombinere friske råvarer med proteinkilder som laks eller kylling. Entree salater er også et godt sommermåltid for at fejre de fødevarer, der er i sæson. Grillet laks med karameliserede løg over blandede grønne ...

Valg af editor

Opret en samlingsklasse i Java-dummier

Opret en samlingsklasse i Java-dummier

En samlingsklasse i Java-kode er en klasse, hvis job skal opbevares en flok objekter ad gangen - en flok stringsobjekter, en flok BagOfCheese objekter, en flok tweets eller hvad som helst. Du kan oprette en samlingsklasse med denne kode. pakke com. allmycode. samlinger; importer java. util. ArrayList; offentlig klasse SimpleCollectionsDemo {...

Lav en abstrakt klasse i Java-dummier

Lav en abstrakt klasse i Java-dummier

En abstrakt klasse i Java er en klasse, der indeholder en eller flere abstrakte metoder, der simpelthen er metoden deklarationer uden en krop - det vil sige uden eksekverbar kode, der gennemfører klassen eller metoden. En abstrakt metode er som en prototype til en metode, der erklærer metodeens returtype og parameterliste, men ikke ...

Hvordan man skaber tegnfelter i Java - dummier

Hvordan man skaber tegnfelter i Java - dummier

Her lærer du hvordan du kan bruge en char variabel snarere end et helt tal i en Java-switch statement. Når du bruger en karetype, er det almindeligt at give to på hinanden følgende case-konstanter for hver case-gruppe, for at tillade både små og store bogstaver. Antag at du skal indstille kommissionsrenten for ...

Valg af editor

Koordinering mellem IT og Cloud Provider Service Desks - dummies

Koordinering mellem IT og Cloud Provider Service Desks - dummies

I et cloud computing miljø, skal du effektivt styre koordinationen er nødvendig mellem din virksomhed IT og cloud udbyder service skrivebord. Dine interne kunder er nødt til at stole på, at it-tjenester leveres som forventet, og spørgsmål vil blive rettet hurtigt. Din organisation skal overvåge hele miljøet baseret på servicekrav til din ...

Opbygge din Hybrid Cloud Service Management Plan - dummies

Opbygge din Hybrid Cloud Service Management Plan - dummies

Et vigtigt krav til hybrid cloud service management er at lave en plan på plads, hvilket indebærer at forstå, hvilke cloud services du introducerer i din virksomhed, og hvordan de skal interagere med dine data center aktiver. Nu skal du træffe beslutsomhed om hvilke tjenester du skal kontrollere, fordi de kan påvirke ...

Fordele ved en serviceorienteret tilgang i Cloud Computing - dummies

Fordele ved en serviceorienteret tilgang i Cloud Computing - dummies

Den stigende vedtagelse af hybrid sky Miljøer kan være direkte forbundet med den succes, virksomhederne har gjort i at flytte til en serviceorienteret tilgang til it. Serviceorientering er en måde at modulere vigtige forretningstjenester på og etablere veldefinerede grænseflader designet til at sikre, at disse tjenester fungerer i mange forskellige situationer. Dette tiltag til service ...