Hjem Personlig finansiering Lærer grænserne for bias i maskinlæring - dummier

Lærer grænserne for bias i maskinlæring - dummier

Video: Are we in control of our decisions? | Dan Ariely 2024

Video: Are we in control of our decisions? | Dan Ariely 2024
Anonim

Maskinindlæring afhænger meget af dataene i stikprøven. Denne del af dine data er vigtig, fordi du vil opdage verdens synspunkt, og som med alle synspunkter kan det være forkert, forvrænget eller bare blot delvis. Du ved også, at du har brug for et eksempel uden for eksempel for at kontrollere, om læringsprocessen virker. Disse aspekter udgør dog kun en del af billedet.

Når du laver en maskininlæringsalgoritme på data for at gætte et bestemt svar, tager du effektivt en gamble, og den gamble er ikke kun på grund af den prøve, du bruger til at lære. Der er mere. For øjeblikket forestille du, at du frit har adgang til egnede, upartiske, in-sample data, så data er ikke problemet. I stedet skal du koncentrere dig om metoden til læring og forudsigelse.

For det første skal du overveje at du væddemål om, at algoritmen rimeligt kan gætte svaret. Du kan ikke altid gøre denne antagelse, fordi det ikke er muligt at finde ud af bestemte svar uanset hvad du ved på forhånd.

Du kan f.eks. Ikke helt bestemme menneskers adfærd ved at kende deres tidligere historie og adfærd. Måske er en tilfældig effekt involveret i den generative proces af vores adfærd (for eksempel den irrationelle del af os), eller måske kommer spørgsmålet ned til fri vilje (problemet er også en filosofisk / religiøs, og der er mange uoverensstemmende meninger). Du kan derfor kun gætte nogle typer svar, og for mange andre, f.eks. Når du forsøger at forudsige folks adfærd, skal du acceptere en vis grad af usikkerhed, som med held er acceptabel til dine formål.

For det andet skal du overveje at du væddemål om, at forholdet mellem de oplysninger, du har, og det svar, du vil forudsige, kan udtrykkes som en matematisk formel af en eller anden art, og at din maskinindlæring algoritmen er faktisk i stand til at gætte denne formel. Kapaciteten af ​​din algoritme til at gætte den matematiske formel bag et svar er indbygget i algoritmens møtrikker og bolte.

Nogle algoritmer kan gætte næsten alt; andre har faktisk et begrænset antal muligheder. Udvalget af mulige matematiske formuleringer, som en algoritme kan gætte er sæt af sine mulige hypoteser. Derfor er en hypotese en enkelt algoritme, der er specificeret i alle dens parametre og derfor i stand til en enkelt, specifik formulering.

Matematik er fantastisk. Det kan beskrive meget af den virkelige verden ved at bruge en simpel notation, og det er kernen i maskinindlæring, fordi enhver læringalgoritme har en vis evne til at repræsentere en matematisk formulering.Nogle algoritmer, såsom lineær regression, bruger eksplicit en specifik matematisk formulering til at repræsentere, hvordan et svar (f.eks. Prisen på et hus) vedrører et sæt prædiktive oplysninger (såsom markedsinformation, husplacering, ejendomens overflade, og så videre).

Nogle formuleringer er så komplicerede og indviklede, at selvom de repræsenterer dem på papir, er det muligt at gøre det i praksis. Nogle andre sofistikerede algoritmer, såsom beslutningstræer, har ikke en eksplicit matematisk formulering, men er så tilpasselige, at de kan indstilles til at tilpasse et stort udvalg af formuleringer nemt. For eksempel overveje en enkel og let forklaret formulering. Den lineære regression er kun en linje i et koordinatrum, der er givet af responsen og alle forudsigelserne. I det enkleste eksempel kan du have et svar, y og en enkelt forudsigelse, x, med en formulering af

y = β 1 x 1 + β 0

I en simpel situation for et svar, der forudsiges af en enkelt funktion, er en sådan model perfekt, når dine data arrangerer sig som en linje. Men hvad sker der, hvis det ikke gør det, og i stedet former sig som en kurve? For at repræsentere situationen skal du blot observere følgende to-dimensionelle repræsentationer.

Eksempel på en lineær model, der kæmper for at kortlægge en kurvefunktion.

Når punkter ligner en linje eller en sky, opstår der en fejl, når du finder ud af, at resultatet er en lige linje; Derfor er kortlægningen tilvejebragt af den foregående formulering på en eller anden måde upræcis. Fejlen vises imidlertid ikke systematisk, men ret tilfældigt, fordi nogle punkter er over den kortlagte linje, og andre er under det. Situationen med den buede, formede skydepunkt er anderledes, for denne gang er linjen undertiden nøjagtig, men på andre tidspunkter er det systematisk forkert. Nogle gange er punkter altid over linjen; nogle gange er de under det.

På grund af enkelheden ved kortlægningen af ​​svaret har din algoritme tendens til systematisk at overvurdere eller undervurdere de reelle regler bag dataene, der repræsenterer dets bias. Forspændingen er karakteristisk for enklere algoritmer, som ikke kan udtrykke komplekse matematiske formuleringer.

Lærer grænserne for bias i maskinlæring - dummier

Valg af editor

Metoder til sikring af overførsler - dummier

Metoder til sikring af overførsler - dummier

Til compTIA A + certificeringsprøverne, du skal forstå de tilgængelige metoder til sikring af transmissioner. Når du har godkendt brugere og autoriseret dem til at få adgang til bestemte dele af netværket, skal du overveje metoder til sikring af oplysninger, mens de bevæger sig langs netværkskablet. De fleste netværkskommunikationer sendes ud via netværkstråden i ...

Ondsindet software (malware) angreb - dummies

Ondsindet software (malware) angreb - dummies

Ondsindet software, også kendt som malware til systemet, såsom en virus eller spyware. Du bør være bekendt med ondsindet software til A + eksamenerne, når du søger din CompTIA A + -certificering. Virus En virus er et program, der forårsager skade på dit system. Typisk er vira spredt igennem ...

Netværkskabel til CCENT-certificeringseksamen - dummies

Netværkskabel til CCENT-certificeringseksamen - dummies

CCENT-certificeringen afprøver dig på de forskellige typer kabler, der bruges i forskellige scenarier. Nedenfor er nogle vigtige punkter at huske om netværkskabler. Rollover-kabel: Et rollover-kabel er også kendt som et konsolkabel og får navnet rollover fordi rækkefølgen af ​​ledningerne fra den ene ende af ...

Valg af editor

Hvordan man tilføjer fotos med din Nikon D5600 - dummies

Hvordan man tilføjer fotos med din Nikon D5600 - dummies

Ud over dens billedkorrigeringsværktøjer tilbyder Retouch-menuen på Nikon D5600-kameraet også følgende special effects-værktøjer, som gør det muligt at justere dine eksisterende digitale billeder: Fisheye: Anvend dette værktøj til at forvrænge billedet, så det ser ud til at være taget med en fisheye linse. Udseendet ligner ...

Justering af flashoutput med en Nikon D3100 eller D5100 - dummies

Justering af flashoutput med en Nikon D3100 eller D5100 - dummies

, Når du optager billeder med din Nikon D3100 eller D5100 og dens indbyggede flash, forsøger kameraet at justere flashudgangen efter behov for at opnå en god eksponering. Men hvis du skyder i eksponeringsindstillingerne P, S, A eller M, og du vil have lidt mere eller mindre blitz, end kameraet ...

Valg af editor

Webklipning i Internet Explorer - dummies

Webklipning i Internet Explorer - dummies

Internet Explorer er den ulige browser, når det kommer til webklipning i Evernote. Du skal bare følge nogle lidt ændrede instruktioner. Hvis du vil bruge Web Clipper i Internet Explorer, skal du følge disse trin: Fremhæv den tekst, du vil klippe, eller (hvis du klipper en hel artikel eller skærm), spring til trin 2. Hvis ...

For seniorer: Sådan animerer objekter på et PowerPoint Slide-dummies

For seniorer: Sådan animerer objekter på et PowerPoint Slide-dummies

Som standard alle objekter på et Microsoft PowerPoint-dias vises på én gang. For at tilføje mere visuel interesse for præsentationen eller for at afsløre bit af information ad gangen, kan du bruge animation i PowerPoint. For eksempel kan du stille et spørgsmål i titlen på diaset og derefter give svaret i ...