Hjem Personlig finansiering 10 Måder at forbedre dine maskinindlæringsmodeller - dummies

10 Måder at forbedre dine maskinindlæringsmodeller - dummies

Indholdsfortegnelse:

Video: TOP 7 VÆRSTE Måder At Slå Op Med Din Kæreste På 2025

Video: TOP 7 VÆRSTE Måder At Slå Op Med Din Kæreste På 2025
Anonim

Nu hvor du er maskinindlæringsalgoritme, er færdig med at lære af de data, der er opnået ved hjælp af Python eller R, tænker du på resultater fra dit testsæt og undre sig over, om du kan forbedre dem eller virkelig har nået det bedst mulige resultat. Der er en række kontroller og handlinger, der tyder på metoder, du kan bruge til at forbedre maskinens læringsydelse og opnå en mere generel forudsigelse, der kan fungere lige godt med dit testsæt eller nye data. Denne liste over ti teknikker giver dig mulighed for at forbedre det opnåede resultat ved hjælp af maskinalæringsalgoritmer.

Studerende læringskurver

Som et første skridt til at forbedre dine resultater skal du bestemme problemerne med din model. Læringskurver kræver, at du verificerer imod et test sæt, da du varierer antallet af træningsinstanser. Du bemærker straks, om du finder meget forskel mellem dine stikprøver og fejl i stikprøven. En bred indledende forskel er et tegn på estimatvariation; Omvendt har fejl, der er både høje og lignende, et tegn på, at du arbejder med en forudindtaget model.

Python hjælper dig med at trække læringskurver nemt ved hjælp af funktionen Scikit-learn (). Du kan også nemt opnå det samme resultat ved hjælp af R med brugerdefinerede funktioner, som beskrevet af Revolution analytics blog.

Korrekt validering korrekt

At se en stor forskel mellem estimaterne for krydsvalidering (CV) og resultatet er et almindeligt problem, der vises med et testsæt eller friske data. At have dette problem betyder, at noget gik galt med krydsvalideringen. Ud over det faktum, at CV ikke er en god præstationspræstator, betyder dette problem også, at en vildledende indikator har fået dig til at modellere problemet forkert og opnå utilfredsstillende resultater.

Cross-validering giver dig tip, når de trin du tager, er korrekte. Det er vigtigt, men ikke kritisk, at CV estimater præcist replikerer fejlmålinger uden for prøven. Det er imidlertid afgørende, at CV-estimater korrekt afspejler forbedring eller forværring i testfasen på grund af dine modelleringsbeslutninger. Generelt er der to grunde til, at krydsvalideringsestimaterne kan variere fra de sande fejlresultater:

  • Snooping
  • Forkert prøveudtagning

Python tilbyder en stratificeret k-folds CV-sampler. R kan stratificere prøver ved hjælp af createFolds-metoden i caret-biblioteket, når du angiver y-parameteren som en faktor.

Valg af den rigtige fejl eller score metrisk

Forsøg på at optimere en fejlmåling baseret på medianfejlen ved at bruge en læringsalgoritme baseret på den gennemsnitlige fejl, giver dig ikke de bedste resultater, medmindre du administrerer optimeringsprocessen i en mode, der virker til fordel for din valgte metric.Når du løser et problem ved hjælp af data- og maskinindlæring, skal du analysere problemet og bestemme det ideelle mål for at optimere.

Eksempler kan hjælpe meget. Du kan få mange af dem fra akademiske papirer og fra offentlige maskine læringskonkurrencer, der omhyggeligt definerer specifikke problemer med hensyn til data og fejl / score metrisk. Kig efter en konkurrence, hvis mål og data ligner din, og kontroller derefter den ønskede værdi.

Søgning efter de bedste hyperparametre

De fleste algoritmer udfører forholdsvis godt ud af boksen ved hjælp af standardparameterindstillingerne. Du kan dog altid opnå bedre resultater ved at teste forskellige hyperparametre. Alt du skal gøre er at oprette en net søgning blandt mulige værdier, som dine parametre kan tage og evaluere resultaterne ved hjælp af den rigtige fejl eller score metrisk. Søgningen tager tid, men det kan forbedre dine resultater.

Når en søgning tager for lang tid at fuldføre, kan du ofte opnå de samme resultater ved at arbejde på en prøve af dine oprindelige data. Færre eksempler, der vælges tilfældigt, kræver færre beregninger, men de taler normalt ved den samme løsning. Et andet trick, der kan spare tid og kræfter, er at gøre en randomiseret søgning, hvilket begrænser antallet af hyperparameterkombinationer til at teste.

Test af flere modeller

Som en god praksis, test flere modeller, begyndende med de grundlæggende - de modeller, der har mere bias end varians. Du bør altid favorisere enkle løsninger over komplekse. Du kan opdage, at en simpel løsning virker bedre.

Det er nyttigt at repræsentere udførelsen af ​​forskellige modeller ved hjælp af det samme diagram, inden du vælger det bedste til at løse dit problem. Du kan placere modeller, der bruges til at forudsige forbrugernes adfærd, som f.eks. Et svar på et kommercielt tilbud, i særlige gevinstdiagrammer og løfteoversigter. Disse diagrammer viser, hvordan din model udfører ved at opdele sine resultater i deciler eller mindre dele.

Fordi du kun er interesseret i de forbrugere, der mest sandsynligt vil reagere på dit tilbud, vil ordrefordelinger fra de fleste til det mindste sandsynligvis understrege, hvor godt dine modeller er ved at forudsige de mest lovende kunder. Disse Quora-svar hjælper dig med at se, hvordan gevinst og løftediagrammer virker: Hvad er ROC-kurven? og hvad er liftkurven?.

Testning af flere modeller og introspecting dem kan også give forslag til, hvilke funktioner der skal transformeres til oprettelse af funktioner, eller hvilken funktion der skal gå ud, når du foretager funktionvalg.

Gennemsnitlige modeller

Maskinindlæring involverer opbygning af mange modeller og skaber mange forskellige forudsigelser, alle med forskellige forventede fejlpræstationer. Det kan overraske dig at vide, at du kan få endnu bedre resultater ved at gennemsnitlige modellerne sammen. Princippet er ret simpelt: Estimatvariationen er tilfældig, så ved at beregne mange forskellige modeller kan du forstærke signalet og udelukke den støj, der ofte afbryder sig selv.

Nogle gange kan resultaterne fra en algoritme, der fungerer godt, blandes med resultaterne fra en enklere algoritme, der ikke fungerer, også skabe bedre forudsigelser end at bruge en enkelt algoritme.Underskat ikke bidrag, der leveres fra enklere modeller, såsom lineære modeller, når du gennemsnitligt resultaterne med output fra mere sofistikerede algoritmer, såsom gradientforstærkning.

Stacking modeller

Af samme grunde, at gennemsnittet fungerer, kan stabling også give dig bedre ydeevne. Ved stabling bygger du dine maskinindlæringsmodeller i to faser. Indledningsvis forudsiger denne teknik flere resultater ved hjælp af forskellige algoritmer, hvor alle lærer fra de funktioner, der er til stede i dine data. I anden fase, i stedet for at give funktioner, som en ny model vil lære, giver du denne model med forudsigelserne af de andre tidligere uddannede modeller.

Brug af en totrins tilgang er berettiget, når man gætter på komplekse målfunktioner. Du kan kun tilnærme dem ved at bruge flere modeller sammen og derefter ved at kombinere resultatet af multiplikationen på en smart måde. Du kan bruge en simpel logistisk regression eller et komplekst træensemble som en anden fase model.

Netflix-konkurrencen giver beviser og en detaljeret illustration af, hvordan heterogene modeller kan stables sammen for at danne mere magtfulde modeller. Imidlertid kan implementering af denne løsning som en arbejdsansøgning være ret besværlig.

Anvendelse af funktionsteknik

Hvis du mener, at bias stadig påvirker din model, har du ikke andet valg end at oprette nye funktioner, der forbedrer modelens ydeevne. Hver ny funktion kan gætte målresponsen lettere.

Automatisk oprettelse af funktioner er mulig ved hjælp af polynomial ekspansion eller understøttende vektor maskiner klassen af ​​maskinindlæringsalgoritmer. Supportvektormaskiner kan automatisk søge efter bedre funktioner i højdimensionale feature-rum på en måde, der både er beregningsmæssigt hurtig og hukommelse optimal.

Intet kan imidlertid virkelig erstatte din ekspertise og forståelse af den metode, der er nødvendig for at løse det dataproblem, som algoritmen forsøger at lære. Du kan oprette funktioner baseret på din viden og ideer om hvordan tingene virker i verden. Mennesker er stadig uovervindelige ved at gøre det, og maskiner kan ikke nemt erstatte dem.

Valg af funktioner og eksempler

Hvis estimationsvariancen er høj, og din algoritme er afhængig af mange funktioner, skal du beskære nogle funktioner for bedre resultater. I denne sammenhæng er det ønskeligt at reducere antallet af funktioner i din datamatrix ved at vælge dem med den højeste forudsigelige værdi.

Når du arbejder med lineære modeller, er lineære supportvektormaskiner eller neurale netværk, regularisering altid en mulighed. Både L1 og L2 kan reducere indflydelsen af ​​redundante variabler eller endda fjerne dem fra modellen. Stabilitetsvalg udnytter L1-evnen til at udelukke mindre nyttige variabler. Teknikken resamples træningsdataene for at bekræfte udelukkelsen.

Du kan lære mere om stabilitetsvalg ved at se eksemplet på webstedet Scikit-learn. Derudover kan du øve med at bruge RandomizedLogisticRegression og RandomizedLasso Scikit-learn-funktionerne i linear_model-modulet.

Leder du efter flere data

Når du har forsøgt alle de tidligere forslag, kan du stadig have en høj variant af forudsigelser at håndtere. I dette tilfælde er din eneste mulighed at øge din træningssætstørrelse. Prøv at øge din prøve ved at give nye data, som kan oversætte til nye tilfælde eller nye funktioner.

Hvis du vil tilføje flere tilfælde, skal du bare se for at se, om du har lignende data ved hånden. Hvis du vil tilføje nye funktioner, skal du finde en åben kilde datakilde, hvis det er muligt, for at matche dine data med sine poster. En anden god måde at få både nye tilfælde og nye funktioner på er at skrabe dataene fra internettet. Ofte er data tilgængelige mellem forskellige kilder eller gennem en applikationsprogrammeringsflade (API). Google API'er tilbyder f.eks. Mange geografiske og forretningskilder.

10 Måder at forbedre dine maskinindlæringsmodeller - dummies

Valg af editor

Bygg dit eget sociale fællesskab for handel - dummies

Bygg dit eget sociale fællesskab for handel - dummies

På et velproduceret forretningswebsted, du Se ofte et link til et socialt samfundsområde, hvilket også kan føre offsite til sociale medier. Dette område er hvor kundeservice og FAQs sider lever. Du kan også finde et kunde-til-kunde-fællesskab, der tilskynder deltagelse fra dem, der besøger forretningssiden. Uanset om du vælger ...

Bedste praksis til e-mailmarkedsføring - dummies

Bedste praksis til e-mailmarkedsføring - dummies

Emnet for din sociale medievirksomhed e -mails skal være om at opfylde dine kunders interesser. Du kender dine kunder bedre end nogen. Hvis de vil have opskrifter, skal du f.eks. Have en opskrift i din e-mail. Har indhold, der vedrører din virksomhed og kundens behov. Bygg på loyalitetsforslaget og lav ...

Bygg online indtjening gennem links på Amazon og Social Media - dummies

Bygg online indtjening gennem links på Amazon og Social Media - dummies

Sælger gennem billeder og indhold, du deler på populære sociale medier, er en fantastisk måde at nå ud til kunderne. Du kan gøre mere end blot at linke til produkter - find ud af hvordan du kan tjene penge på dit oprindelige indhold, du udgiver. Du genererer indtægter på din hjemmeside og sociale medier via annoncer og links. Hvis du producerer ...

Valg af editor

Hvordan man bruger f-distributioner i Excel - dummies

Hvordan man bruger f-distributioner i Excel - dummies

F-distributioner er sandsynlighedsfordelinger i Excel, der sammenligner forholdet i variationer af prøver trukket fra forskellige populationer. Denne sammenligning giver en konklusion om, hvorvidt afvigelserne i de underliggende populationer ligner hinanden. F. DIST: Left-tailed f-distribution sandsynlighed F. DIST-funktionen returnerer den venstre-tailed sandsynlighed for at observere et forhold på to samples 'variationer så store ...

Sådan bruges logaritmisk skalering til Excel-dataanalyse - dummier

Sådan bruges logaritmisk skalering til Excel-dataanalyse - dummier

Logaritmer og logaritmisk skalering er værktøjer, som du vil bruge i dine Excel-diagrammer, fordi de gør det muligt for dig at gøre noget meget kraftfuldt. Ved logaritmisk skalering af din værdi-akse kan du sammenligne den relative ændring (ikke den absolutte ændring) i datareserværdier. For eksempel, sig at du vil sammenligne salget ...

Sådan bruges Flash Fill in Excel 2016 - dummies

Sådan bruges Flash Fill in Excel 2016 - dummies

Excel 2016s handy Flash Fill-funktion giver dig evnen at tage en del af de data, der er indtastet i en kolonne i et regnearktabell, og indtast bare disse data i en ny tabelkolonne ved kun at bruge et par tastetryk. Serien af ​​indgange vises i den nye kolonne, bogstaveligt talt i en flash (således ...

Valg af editor

ØGe din blog med bedre indhold - dummier

ØGe din blog med bedre indhold - dummier

Som du tænker på måder at generere buzz på din blog, du kan også forbedre kvaliteten af ​​din blog ved at fokusere på dine bogføringsteknikker. Disse tip kan give dig nogle gode promoveringsideer: Skriv om aktuelle eller kontroversielle problemer. Denne ide virker som en no-brainer, men det er nemt at glemme. Betal ...

Opbygge et XML-sitemap og forbedre din blogs SEO-design - dummies

Opbygge et XML-sitemap og forbedre din blogs SEO-design - dummies

Søgemaskineoptimering ) handler om at øge din blogs synlighed i søgemaskiner som Google. Forbedre din WordPress blogs SEO gennem smarte design valg. Antag for eksempel at du skriver et indlæg om planlægning af en superhelt fødselsdagsfest. Du vil gerne have, at posten vises i søgeresultater, når nogen skriver "superheltefødselsdagsfest" i ...

Mærke dit WordPress-mobilwebsted med gratis blogdesign - dummies

Mærke dit WordPress-mobilwebsted med gratis blogdesign - dummies

Mest WordPress mobile plug- ins for din blogs design kan tilpasses. Du tilpasser en mobil plugin til din blog ved at ændre farver og temaer, tilføje et brugerdefineret logoikon og indstille en brugerdefineret hjemmeside. Med WPtouch mobile plug-in kan du tilføje branding som supplerer din blogs design og gør det nemmere at navigere. Før du ...