Hjem Personlig finansiering Lærer grænserne for bias i maskinlæring - dummier

Lærer grænserne for bias i maskinlæring - dummier

Video: Are we in control of our decisions? | Dan Ariely 2025

Video: Are we in control of our decisions? | Dan Ariely 2025
Anonim

Maskinindlæring afhænger meget af dataene i stikprøven. Denne del af dine data er vigtig, fordi du vil opdage verdens synspunkt, og som med alle synspunkter kan det være forkert, forvrænget eller bare blot delvis. Du ved også, at du har brug for et eksempel uden for eksempel for at kontrollere, om læringsprocessen virker. Disse aspekter udgør dog kun en del af billedet.

Når du laver en maskininlæringsalgoritme på data for at gætte et bestemt svar, tager du effektivt en gamble, og den gamble er ikke kun på grund af den prøve, du bruger til at lære. Der er mere. For øjeblikket forestille du, at du frit har adgang til egnede, upartiske, in-sample data, så data er ikke problemet. I stedet skal du koncentrere dig om metoden til læring og forudsigelse.

For det første skal du overveje at du væddemål om, at algoritmen rimeligt kan gætte svaret. Du kan ikke altid gøre denne antagelse, fordi det ikke er muligt at finde ud af bestemte svar uanset hvad du ved på forhånd.

Du kan f.eks. Ikke helt bestemme menneskers adfærd ved at kende deres tidligere historie og adfærd. Måske er en tilfældig effekt involveret i den generative proces af vores adfærd (for eksempel den irrationelle del af os), eller måske kommer spørgsmålet ned til fri vilje (problemet er også en filosofisk / religiøs, og der er mange uoverensstemmende meninger). Du kan derfor kun gætte nogle typer svar, og for mange andre, f.eks. Når du forsøger at forudsige folks adfærd, skal du acceptere en vis grad af usikkerhed, som med held er acceptabel til dine formål.

For det andet skal du overveje at du væddemål om, at forholdet mellem de oplysninger, du har, og det svar, du vil forudsige, kan udtrykkes som en matematisk formel af en eller anden art, og at din maskinindlæring algoritmen er faktisk i stand til at gætte denne formel. Kapaciteten af ​​din algoritme til at gætte den matematiske formel bag et svar er indbygget i algoritmens møtrikker og bolte.

Nogle algoritmer kan gætte næsten alt; andre har faktisk et begrænset antal muligheder. Udvalget af mulige matematiske formuleringer, som en algoritme kan gætte er sæt af sine mulige hypoteser. Derfor er en hypotese en enkelt algoritme, der er specificeret i alle dens parametre og derfor i stand til en enkelt, specifik formulering.

Matematik er fantastisk. Det kan beskrive meget af den virkelige verden ved at bruge en simpel notation, og det er kernen i maskinindlæring, fordi enhver læringalgoritme har en vis evne til at repræsentere en matematisk formulering.Nogle algoritmer, såsom lineær regression, bruger eksplicit en specifik matematisk formulering til at repræsentere, hvordan et svar (f.eks. Prisen på et hus) vedrører et sæt prædiktive oplysninger (såsom markedsinformation, husplacering, ejendomens overflade, og så videre).

Nogle formuleringer er så komplicerede og indviklede, at selvom de repræsenterer dem på papir, er det muligt at gøre det i praksis. Nogle andre sofistikerede algoritmer, såsom beslutningstræer, har ikke en eksplicit matematisk formulering, men er så tilpasselige, at de kan indstilles til at tilpasse et stort udvalg af formuleringer nemt. For eksempel overveje en enkel og let forklaret formulering. Den lineære regression er kun en linje i et koordinatrum, der er givet af responsen og alle forudsigelserne. I det enkleste eksempel kan du have et svar, y og en enkelt forudsigelse, x, med en formulering af

y = β 1 x 1 + β 0

I en simpel situation for et svar, der forudsiges af en enkelt funktion, er en sådan model perfekt, når dine data arrangerer sig som en linje. Men hvad sker der, hvis det ikke gør det, og i stedet former sig som en kurve? For at repræsentere situationen skal du blot observere følgende to-dimensionelle repræsentationer.

Eksempel på en lineær model, der kæmper for at kortlægge en kurvefunktion.

Når punkter ligner en linje eller en sky, opstår der en fejl, når du finder ud af, at resultatet er en lige linje; Derfor er kortlægningen tilvejebragt af den foregående formulering på en eller anden måde upræcis. Fejlen vises imidlertid ikke systematisk, men ret tilfældigt, fordi nogle punkter er over den kortlagte linje, og andre er under det. Situationen med den buede, formede skydepunkt er anderledes, for denne gang er linjen undertiden nøjagtig, men på andre tidspunkter er det systematisk forkert. Nogle gange er punkter altid over linjen; nogle gange er de under det.

På grund af enkelheden ved kortlægningen af ​​svaret har din algoritme tendens til systematisk at overvurdere eller undervurdere de reelle regler bag dataene, der repræsenterer dets bias. Forspændingen er karakteristisk for enklere algoritmer, som ikke kan udtrykke komplekse matematiske formuleringer.

Lærer grænserne for bias i maskinlæring - dummier

Valg af editor

Arbejder med Outlook Notes - dummies

Arbejder med Outlook Notes - dummies

Outlook Noter er der, når du har brug for det - klar til at optage uanset underlige, tilfældige tanker gennem dit hoved mens du laver dit arbejde. En note er den eneste type emne, du kan oprette i Outlook, der ikke bruger en normal dialogboks med menuer og værktøjslinjer. Du kan nemt bruge Notes ...

Tilføj et nyt afsnit i et PowerPoint 2007 Slide-dummies

Tilføj et nyt afsnit i et PowerPoint 2007 Slide-dummies

For at tilføje et nyt afsnit til et dias Med PowerPoint-omridset, der vises på fanen PowerPoint Outline, skal du flytte indsættelsespunktet til slutningen af ​​det afsnit, du vil have det nye afsnit til at følge, og tryk derefter på Enter. PowerPoint opretter et nyt afsnit i samme dispositionsniveau som det foregående afsnit ...

Hvad er nyt i Microsoft Outlook 2016? - dummies

Hvad er nyt i Microsoft Outlook 2016? - dummies

Outlook 2016-udgivelsen fokuserer primært på at deklamrer brugergrænsefladen og forenkle din arbejdsgang. Microsoft Outlook er verdens mest begunstigede e-mail-klient. Programmet tilbyder allerede fremragende integration med kontakter, kalendere, noter, opgaver og selvfølgelig e-mail. Outlook 2016 fokuserer på at afkoble brugergrænsefladen og forenkle workflow. Nogle af de nye ...

Valg af editor

Sådan bruger du BRITify på Spotify - dummies

Sådan bruger du BRITify på Spotify - dummies

Som Radiofy fra Sverige bringer BRITify sammen spillelister fra den britiske radio Corporation's radiostationer og sætter dem sammen i en række praktiske playlister, listet med timeslot og opdateret om natten. Spotify var så imponeret af Richard Ablewhite's skabelse, det tweeted om dette værktøj til sine 100, 000-plus Twitter tilhængere. Richard håber at udvide BRITify så ...

Sådan bruges Gigero med Spotify - dummies

Sådan bruges Gigero med Spotify - dummies

Gigero er et brugervenligt værktøj, som Spotify tilbyder til hjælper dig med at finde koncerter og musikfestivaler. Gigeros polerede, brugervenlige hjemmeside oser med sommer-festivalen lykke. Selv om det er teknisk i beta (prøve) mode, ser det stadig meget professionelt ud. Alt du gør er at skrive i navnet på en kunstner, og Gigero scanner sidst. fm til gig lister, ...

Valg af editor

Sådan identificeres modstande på printkort - dummier

Sådan identificeres modstande på printkort - dummier

Som du lærer mere om elektronik, kan du få nysgerrig nok til at kigge inde i nogle af elektronikken i dit hus. Advarsel: Pas på! Du kan (for eksempel) åbne fjernbetjeningen til dit tv og se nogle komponenter, der er forbundet mellem en touchpad og en LED. På printkort (PCB) ...

Sådan måles strømmen med et multimeter dummier

Sådan måles strømmen med et multimeter dummier

For at måle strømmen, der løber gennem dit LED kredsløb, skal du send strømmen gennem din multimeter. Den eneste måde at gøre dette på er at afbryde kredsløbet mellem to komponenter og indsætte dit multimeter, som om det er en kredsløbskomponent, for at fuldføre kredsløbet. Skift multimetervælgeren for at måle DC-strøm i milliampere ...

Hvordan man genkender en transistor, når du ser et dummies

Hvordan man genkender en transistor, når du ser et dummies

Halvledermaterialet i en transistor er størrelsen af ​​et sandkorn eller endnu mindre, så producenter sætter disse teensy komponenter i en metal eller plastik sag med ledninger stikker ud, så du kan forbinde dem i dine kredsløb. Du kan finde bogstaveligt talt snesevis af snesevis af forskellige former og størrelser af transistorer, ...