Hjem Personlig finansiering Klassifikationsalgoritmer Anvendes i datalogi - dummies

Klassifikationsalgoritmer Anvendes i datalogi - dummies

Anonim

Med klassifikationsalgoritmer tager du et eksisterende datasæt og brug hvad du ved om det til at generere en prædiktiv model til brug ved klassificering af fremtidige datapunkter. Hvis dit mål er at bruge dit datasæt og dets kendte undergrupper til at opbygge en model til forudsigelse af kategorisering af fremtidige datapunkter, vil du gerne bruge klassifikationsalgoritmer.

Når du implementerer overvåget klassifikation, skal du allerede kende dine datas subgrupper - disse undergrupper hedder kategorier . Klassificering hjælper dig med at se, hvor godt dine data passer ind i datasættets foruddefinerede kategorier, så du derefter kan opbygge en prædiktiv model til brug ved klassificering af fremtidige datapunkter.

Figuren illustrerer, hvordan det ser ud til at klassificere Verdensbankens indkomst- og uddannelsesdatasæt i henhold til kontinentets kategori.

Du kan se, at de undergrupper, du måske identificerer med en clusteringsteknik, i nogle tilfælde svarer til kontinenternes kategori, men i andre tilfælde gør de det ikke. Se for eksempel på det ene asiatiske land midt i de afrikanske datapunkter. Det er Bhutan. Du kan bruge dataene i dette datasæt til at opbygge en model, der ville forudsige en kontinentskategori for indgående datapunkter.

Men hvis du introducerede et datapunkt for et nyt land, der viste statistikker svarende til Bhutans, kunne det nye land kategoriseres som en del af enten det asiatiske kontinent eller det afrikanske kontinent, afhængigt af om hvordan du definerer din model.

Forestil dig nu en situation, hvor dine oprindelige data ikke indeholder Bhutan, og du bruger modellen til at forudsige Bhutans kontinent som et nyt datapunkt. I dette scenario ville modellen fejlagtigt forudsige, at Bhutan er en del af det afrikanske kontinent.

Dette er et eksempel på modeloverfitting - situationer, hvor en model er så tæt på det underliggende datasæt, såvel som støj eller tilfældig fejl, der er forbundet med datasættet, at modellen udfører dårligt som en forudsigelse for nye datapunkter.

For at undgå overfitting af dine modeller skal du dele dine data i et træningssæt og et testsæt. Et typisk forhold er at tildele 80 procent af dataene til træningssættet og de resterende 20 procent i testsætet. Opbyg din model med træningssættet, og brug testsætet til at evaluere modellen ved at foregive, at de test-set datapunkter ikke er kendt. Du kan vurdere nøjagtigheden af ​​din model ved at sammenligne de kategorier, der er tildelt disse test-sæt datapunkter ved modellen til de egentlige kategorier.

Model overgeneralisering kan også være et problem. Overgeneralisering er modsat af overfitting: Det sker, når en datavidenskabsmand forsøger at undgå - fejlklassificering på grund af overfitting ved at lave en model ekstremt generel. Modeller, der er for generelle, giver op til hver kategori en lav grad af selvtillid.

For at illustrere model overgeneralisering, overvej igen Verdensbanken Indkomst og Uddannelse datasæt. Hvis modellen brugte tilstedeværelsen af ​​Bhutan til at kaste tvivl om hvert nyt datapunkt i sin nærliggende nærhed, så slutter du med en wishy-washy model, der behandler alle nærliggende punkter som afrikansk, men med lav sandsynlighed. Denne model ville være en dårlig prædiktiv performer.

En god metafor for overfitting og overgeneralisering kan illustreres gennem den velkendte sætning, "Hvis den går som en and og snakker som en and, så er det en and. "Overfitting ville gøre denne sætning til:" Det er en and, hvis, og kun hvis det går og quacks nøjagtigt på de måder, jeg personligt har observeret en and, at gå og kvælte. Da jeg aldrig har observeret den måde, hvorpå en australsk spotted duck går og kvager, må en australsk plettet and ikke virkelig være en and i det hele taget. "

I modsætning hertil ville overgeneralisering sige," Hvis det bevæger sig rundt på to ben og udsender enhver højhøjet næsalyd, er det en and. Derfor skal Fran Fine, Fran Drescher's karakter i den 90'ers amerikanske sitcom The Nanny være en and. "

Overvåget maskinindlæring - den fancy term for klassificering - passer til situationer, hvor følgende egenskaber er sande:

  • Du kender og forstår datasættet, du analyserer.

  • Subsætene (kategorierne) i dit datasæt er defineret i forvejen og er ikke bestemt af dataene.

  • Du vil opbygge en model, der korrelerer dataene inden for de foruddefinerede kategorier, så modellen kan hjælpe med at forudsige kategoriseringen af ​​fremtidige datapunkter.

Når du foretager klassificering, skal du huske følgende:

  • Model forudsigelser er kun lige så gode som modelens underliggende data. I Verdensbankens dataeksempel kunne det være tilfældet, at hvis der blev tilføjet andre faktorer som forventet levetid eller energiforbrug pr. Indbygger til modellen, kan dens prædiktive styrke øges.

  • Model forudsigelser er kun lige så gode som kategoriseringen af ​​det underliggende datasæt. Hvad gør du for eksempel med lande som Rusland, der spænder over to kontinenter? Skelner du Nordafrika fra Afrika syd for Sahara? Klumper du Nordamerika ind med Europa, fordi de har tendens til at dele lignende egenskaber? Mener du, at Mellemamerika er en del af Nordamerika eller Sydamerika?

Der er en konstant risiko for overfitting og overgeneralisering. Et godt medium skal findes mellem de to.

Klassifikationsalgoritmer Anvendes i datalogi - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...