Hjem Personlig finansiering Sådan bruger du Python til at vælge de rigtige variabler for datalogi - dummier

Sådan bruger du Python til at vælge de rigtige variabler for datalogi - dummier

Indholdsfortegnelse:

Video: Computational Linguistics, by Lucas Freitas 2024

Video: Computational Linguistics, by Lucas Freitas 2024
Anonim

Valg af de rigtige variabler i Python kan forbedre læringsprocessen i datalogi ved at reducere mængden af ​​støj (ubrugelig information), der kan påvirke elevens skøn. Variabelt valg kan derfor effektivt reducere forudsigelsens varians. For kun at inddrage de nyttige variabler i træning og forlade de overflødige, kan du bruge disse teknikker:

  • Univariate approach: Vælg de variabler, der er mest relaterede til målresultatet.

  • Greedy eller tilbagestående tilgang: Hold kun de variabler, du kan fjerne fra læringsprocessen uden at skade dens ydeevne.

Valg af univariate measures

Hvis du vælger en variabel med dets associeringsniveau med sit mål, giver klassen SelectPercentile en automatisk procedure til kun at holde en vis procentdel af de bedste tilknyttede funktioner. De tilgængelige beregninger for tilknytning er

  • f_regression: Anvendes kun til numeriske mål og baseret på lineær regressions ydeevne.

  • f_classif: Anvendes kun til kategoriske mål og baseret på Analys of Variance (ANOVA) statistisk test.

  • chi2: Udfører chi-firkantet statistikken for kategoriske mål, hvilket er mindre fornuftigt for det ikke-lineære forhold mellem den prædiktive variabel og dens mål.

Når man vurderer kandidater til et klassifikationsproblem, har f_classif og chi2 det samme sæt topvariabler. Det er stadig en god praksis at teste valgene fra både foreningsstatistikkerne.

Ud over at anvende et direkte udvalg af de øverste percentileforeninger, kan SelectPercentile også rangordne de bedste variabler for at gøre det nemmere at bestemme, hvilket percentil der skal udelukkes fra at deltage i læringsprocessen. Klassen SelectKBest er analog i dens funktionalitet, men den vælger de øverste k-variabler, hvor k er et tal, ikke en percentil.

fra sklearn. feature_selection import VælgPercentile fra sklearn. feature_selection import f_regression Selector_f = SelectPercentile (f_regression, percentile = 25) Selector_f. fit (X, y) for n, s i zip (boston. feature_names, Selector_f. scores_): print 'F-score:% 3. 2ft for funktion% s '% (s, n) F-score: 88. 15 for funktion CRIM F-score: 75. 26 for funktion ZN F-score: 153. 95 for funktion INDUS F-score: 15. 97 for funktion funktion CHAS F-score: 112. 59 for funktion NOX F-score: 471. 85 for funktion RM F-score: 83.48 for funktion AGE F-score: 33. 58 for funktion DIS F-score: 85. 91 for funktion RAD F-score: 141. 76 for funktion TAX F-score: 175. 11 for funktion PTRATIO F-score: 63. 05 for funktion B F-score: 601. 62 for funktion LSTAT

Brug af niveauet for associeringsudgang hjælper dig med at vælge de vigtigste variabler til din maskinlæringsmodel, men du bør passe på disse mulige problemer: > Nogle variabler med høj tilknytning kan også være meget korrelerede og indføre duplikeret information, som virker som støj i læringsprocessen.

  • Visse variabler kan straffes, især binære (variabler, der angiver en status eller karakteristik ved hjælp af værdien 1, når den er til stede, 0, hvis den ikke er). For eksempel bemærke, at output viser den binære variabel CHAS som den mindste forbundet med målvariablen (men du ved fra tidligere eksempler, at den er indflydelsesrig fra krydsvalideringsfasen).

  • Den univariate udvælgelsesproces kan give dig en reel fordel, når du har et stort antal variabler at vælge imellem, og alle andre metoder bliver computationally uudviklede. Den bedste fremgangsmåde er at reducere værdien af ​​SelectPercentile med halvdelen eller flere af de tilgængelige variabler, reducere antallet af variabler til et håndterbart nummer og dermed tillade brug af en mere sofistikeret og mere præcis metode som en grådig søgning.

Brug af en grådig søgning

Når du bruger et univariat valg, skal du selv bestemme, hvor mange variabler der skal holdes: Grådigt valg reducerer automatisk antallet af funktioner, der er involveret i en læringsmodel på grundlag af deres effektive bidrag til ydeevne målt ved fejlforanstaltningen.

RFECV-klassen, der passer til dataene, kan give dig oplysninger om antallet af nyttige funktioner, pege på dem og transformere automatisk X-dataene ved hjælp af metoden transformere til et reduceret variabelt sæt som vist i Følgende eksempel:

fra sklearn. feature_selection import RFECV selector = RFECV (estimator = regression, cv = 10, scoring = "mean_squared_error") vælger. fit (X, y) print ("Optimal antal funktioner:% d"% vælger. n_features_) Optimal antal funktioner: 6

Det er muligt at få et indeks til den optimale variabel, der er angivet ved at kalde attributten support_ fra RFECV klasse efter at du har passet den.

print boston. feature_names [vælgeren. support_] ['CHAS' NOX "RM" DIS "PTRATIO" LSTAT "]

Bemærk, at CHAS nu er inkluderet blandt de mest forudsigelige funktioner, hvilket står i kontrast til resultatet fra den univariate søgning. RFECV-metoden kan registrere, om en variabel er vigtigt, uanset om det er binært, kategorisk eller numerisk, fordi det direkte evaluerer den rolle, som funktionen spiller i forudsigelsen.

RFECV-metoden er bestemt mere effektiv sammenlignet med den -univariate tilgang, fordi den betragter stærkt korrelerede funktioner og er indstillet til at optimere evalueringsforanstaltningen (som normalt ikke er Chi-square eller F-score). Det er en grådig proces, det er beregningsorienteret og kan kun tilnærme det bedste sæt prædiktorer.

Da RFECV lærer det bedste sæt af variabler fra data, kan udvælgelsen overfit, hvilket er hvad der sker med alle andre maskinlæringsalgoritmer. Hvis du prøver RFECV på forskellige prøver af træningsdataene, kan du bekræfte de bedste variabler, du skal bruge.

Sådan bruger du Python til at vælge de rigtige variabler for datalogi - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...