Hjem Personlig finansiering Identifikation af manglende data til maskinundervisning - dummier

Identifikation af manglende data til maskinundervisning - dummier

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024
Anonim

Selvom du har nok eksempler til rådighed til træning af både enkle og komplekse maskinindlæringsalgoritmer, skal de præsentere komplette værdier i funktionerne uden eventuelle manglende data. At have et ufuldstændigt eksempel gør det muligt at forbinde alle signalerne inden for og mellem funktioner. Manglende værdier gør det også svært for algoritmen at lære under træning. Du skal gøre noget ved de manglende data.

Ofte kan du ignorere manglende værdier eller reparere dem ved at gætte en sandsynlig erstatningsværdi. Men for mange savnede værdier giver mere usikre forudsigelser, fordi manglende oplysninger kunne skjule enhver mulig figur; Følgelig er de mere manglende værdier i funktionerne, jo mere variable og upræcis forudsigelserne.

Tæl antallet af manglende tilfælde i hver variabel som et første trin. Når en variabel har for mange manglende tilfælde, kan du muligvis droppe det fra trænings- og testdatasættet. En god tommelfingerregel er at tabe en variabel, hvis mere end 90 procent af dens tilfælde mangler.

Nogle læringsalgoritmer ved ikke, hvordan man skal håndtere manglende værdier og rapportere fejl i både trænings- og testfaser, mens andre modeller behandler dem som nulværdier, hvilket medfører en undervurdering af den forudsagte værdi eller sandsynlighed (det er som om en del af formlen ikke fungerer korrekt). Derfor er du nødt til at erstatte alle de manglende værdier i din datamatrix med en passende værdi for maskinindlæring at ske korrekt.

Der findes mange grunde for manglende data, men det afgørende punkt er, om dataene mangler tilfældigt eller i en bestemt rækkefølge. Tilfældige manglende data er ideelle, fordi du kan gætte dens værdi ved hjælp af et simpelt gennemsnit, en median eller en anden maskinindlæringsalgoritme uden for mange bekymringer. Nogle tilfælde indeholder en stærk forspænding over for visse typer eksempler.

Tænk eksempelvis på at studere indkomst af en befolkning. Velhavende mennesker (af beskatningsårsager, formodentlig) har en tendens til at skjule deres sande indkomst ved at rapportere til dig, at de ikke ved det. Dårlige mennesker kan på den anden side sige, at de ikke ønsker at indberette deres indkomst af frygt for negativ vurdering. Hvis du savner oplysninger fra bestemte lag af befolkningen, kan det være vanskeligt og vildledende at reparere de manglende data, fordi du måske tror, ​​at sådanne sager er ligesom de andre.

I stedet er de helt forskellige. Derfor kan du ikke blot bruge gennemsnitsværdier til at erstatte de manglende værdier - du skal bruge komplekse metoder og indstille dem omhyggeligt.Desuden er det vanskeligt at identificere tilfælde, der ikke mangler data tilfældigt, fordi det kræver en nærmere undersøgelse af, hvordan manglende værdier er forbundet med andre variabler i datasættet.

Når data mangler tilfældigt, kan du nemt reparere de tomme værdier, fordi du får hints til deres sande værdi fra andre variabler. Når data ikke mangler tilfældigt, kan du ikke få gode tip fra andre tilgængelige oplysninger, medmindre du forstår dataforeningen med det manglende tilfælde.

Hvis du skal finde ud af manglende indtægt i dine data, og det mangler fordi personen er velhavende, kan du ikke erstatte den manglende værdi med et simpelt gennemsnit, fordi du erstatter det med en mellemindkomst. I stedet skal du bruge et gennemsnit af de velhavende menneskers indkomst som erstatning.

Når data ikke mangler tilfældigt, er det faktum, at værdien mangler, informativ, fordi det hjælper med at spore den manglende gruppe. Du kan forlade choreen for at finde årsagen til, at den mangler i din maskinindlæringsalgoritme ved at opbygge en ny binær funktion, der rapporterer, når værdien af ​​en variabel mangler. Derfor vil maskinalæringsalgoritmen finde ud af den bedste værdi, der skal bruges som erstatning af sig selv.

Identifikation af manglende data til maskinundervisning - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...