Lærer grænserne for bias i maskinlæring - dummier

Video: Are we in control of our decisions? | Dan Ariely 2025

Maskinindlæring afhænger meget af dataene i stikprøven. Denne del af dine data er vigtig, fordi du vil opdage verdens synspunkt, og som med alle synspunkter kan det være forkert, forvrænget eller bare blot delvis. Du ved også, at du har brug for et eksempel uden for eksempel for at kontrollere, om læringsprocessen virker. Disse aspekter udgør dog kun en del af billedet.

Når du laver en maskininlæringsalgoritme på data for at gætte et bestemt svar, tager du effektivt en gamble, og den gamble er ikke kun på grund af den prøve, du bruger til at lære. Der er mere. For øjeblikket forestille du, at du frit har adgang til egnede, upartiske, in-sample data, så data er ikke problemet. I stedet skal du koncentrere dig om metoden til læring og forudsigelse.

For det første skal du overveje at du væddemål om, at algoritmen rimeligt kan gætte svaret. Du kan ikke altid gøre denne antagelse, fordi det ikke er muligt at finde ud af bestemte svar uanset hvad du ved på forhånd.

Du kan f.eks. Ikke helt bestemme menneskers adfærd ved at kende deres tidligere historie og adfærd. Måske er en tilfældig effekt involveret i den generative proces af vores adfærd (for eksempel den irrationelle del af os), eller måske kommer spørgsmålet ned til fri vilje (problemet er også en filosofisk / religiøs, og der er mange uoverensstemmende meninger). Du kan derfor kun gætte nogle typer svar, og for mange andre, f.eks. Når du forsøger at forudsige folks adfærd, skal du acceptere en vis grad af usikkerhed, som med held er acceptabel til dine formål.

For det andet skal du overveje at du væddemål om, at forholdet mellem de oplysninger, du har, og det svar, du vil forudsige, kan udtrykkes som en matematisk formel af en eller anden art, og at din maskinindlæring algoritmen er faktisk i stand til at gætte denne formel. Kapaciteten af din algoritme til at gætte den matematiske formel bag et svar er indbygget i algoritmens møtrikker og bolte.

Nogle algoritmer kan gætte næsten alt; andre har faktisk et begrænset antal muligheder. Udvalget af mulige matematiske formuleringer, som en algoritme kan gætte er sæt af sine mulige hypoteser. Derfor er en hypotese en enkelt algoritme, der er specificeret i alle dens parametre og derfor i stand til en enkelt, specifik formulering.

Matematik er fantastisk. Det kan beskrive meget af den virkelige verden ved at bruge en simpel notation, og det er kernen i maskinindlæring, fordi enhver læringalgoritme har en vis evne til at repræsentere en matematisk formulering.Nogle algoritmer, såsom lineær regression, bruger eksplicit en specifik matematisk formulering til at repræsentere, hvordan et svar (f.eks. Prisen på et hus) vedrører et sæt prædiktive oplysninger (såsom markedsinformation, husplacering, ejendomens overflade, og så videre).

Nogle formuleringer er så komplicerede og indviklede, at selvom de repræsenterer dem på papir, er det muligt at gøre det i praksis. Nogle andre sofistikerede algoritmer, såsom beslutningstræer, har ikke en eksplicit matematisk formulering, men er så tilpasselige, at de kan indstilles til at tilpasse et stort udvalg af formuleringer nemt. For eksempel overveje en enkel og let forklaret formulering. Den lineære regression er kun en linje i et koordinatrum, der er givet af responsen og alle forudsigelserne. I det enkleste eksempel kan du have et svar, y og en enkelt forudsigelse, x, med en formulering af

y = β ₁ x ₁ + β ₀

I en simpel situation for et svar, der forudsiges af en enkelt funktion, er en sådan model perfekt, når dine data arrangerer sig som en linje. Men hvad sker der, hvis det ikke gør det, og i stedet former sig som en kurve? For at repræsentere situationen skal du blot observere følgende to-dimensionelle repræsentationer.

Eksempel på en lineær model, der kæmper for at kortlægge en kurvefunktion.

Når punkter ligner en linje eller en sky, opstår der en fejl, når du finder ud af, at resultatet er en lige linje; Derfor er kortlægningen tilvejebragt af den foregående formulering på en eller anden måde upræcis. Fejlen vises imidlertid ikke systematisk, men ret tilfældigt, fordi nogle punkter er over den kortlagte linje, og andre er under det. Situationen med den buede, formede skydepunkt er anderledes, for denne gang er linjen undertiden nøjagtig, men på andre tidspunkter er det systematisk forkert. Nogle gange er punkter altid over linjen; nogle gange er de under det.

På grund af enkelheden ved kortlægningen af svaret har din algoritme tendens til systematisk at overvurdere eller undervurdere de reelle regler bag dataene, der repræsenterer dets bias. Forspændingen er karakteristisk for enklere algoritmer, som ikke kan udtrykke komplekse matematiske formuleringer.