Måling Lighed mellem vektorer til maskinlæring - dummies

Video: Geometry: Collinearity, Betweenness, and Assumptions (Level 1 of 4) | Triangle Inequality 2025

Du kan nemt sammenligne eksempler fra dine data ved hjælp af beregninger, hvis du tænker på hver af dem som en vektor. Følgende oplysninger beskriver, hvordan man måler lighed mellem vektorer for at udføre opgaver som at beregne afstanden mellem vektorer til læringsformål.

Forstå lighed

I en vektorform kan du se hver variabel i dine eksempler som en række koordinater, hvor alle peger på en position i en anden rumdimension. Hvis en vektor har to elementer, det vil sige, den har kun to variabler. Det er ligesom at kontrollere en varens position på et kort ved at bruge det første tal for positionen på øst-vest-aksen og den anden på nord- Sydaksen.

Eksempler på værdier plottet som punkter på et diagram.

F.eks. Er tallene mellem parenteser (1, 2) (3, 2) og (3, 3) alle eksempler på punkter. Hvert eksempel er en ordnet liste over værdier (kaldet en tuple), der let kan placeres og udskrives på et kort ved hjælp af den første værdi af listen for x (den vandrette akse) og den anden for y (den lodrette akse). Resultatet er en scatterplot.

Hvis dit datasæt i matrixformularen har mange numeriske funktioner (kolonnerne), repræsenterer antallet af funktionerne fortrinsvis dimensionerne af dataruimet, mens rækkerne (eksemplerne) repræsenterer hver punkt, som matematisk er en vektor. Når din vektor har mere end to elementer, bliver visualisering besværlig, fordi repræsentation af dimensioner over den tredje er ikke let (vi lever jo trods alt i en tredimensionel verden).

Du kan dog stræbe efter at formidle flere dimensioner ved hjælp af en hvilken som helst hensigtsmæssig, f.eks. Ved at bruge størrelse, form eller farve til andre dimensioner. Det er klart, at det ikke er en nem opgave, og ofte er resultatet langt fra at være intuitivt. Du kan dog forstå ideen om, hvor punkterne ville være i dit dataruim ved systematisk at udskrive mange grafer, mens man overvejer dimensionerne to for to. Sådanne tomter kaldes matricer af scatterplots.

Du skal ikke bekymre dig om multidimensionalitet. Du udvider reglerne du lærte i to eller tre dimensioner til flere dimensioner, så hvis en regel fungerer i et tovimensionelt rum, fungerer det også i en flerhed. Derfor henviser alle eksemplerne først til todimensionelle eksempler.

Computing afstande til læring

En algoritme kan lære ved at bruge vektorer af tal, der bruger distance målinger. Ofte er rummet, som er angivet af dine vektorer, et metrisk, der er et rum, hvis afstande respekterer visse specifikke forhold:

Der findes ingen negative afstande, og din afstand er kun nul, når startpunktet og slutpunktet falder sammen (kaldet nonnegativity).
Afstanden er den samme, der går fra et punkt til et andet og omvendt (kaldet symmetri). Afstanden mellem et indledende punkt og en sidste er altid større end eller værre det samme som afstanden fra det indledende til et tredje punkt og derfra til den endelige (kaldet
trekant ulighed < - hvilket betyder at der ikke er genveje). Afstande, der måler et metrisk rum, er den euklidiske afstand, Manhattan-afstanden og Chebyshev-afstanden. Disse er alle afstande, der kan gælde for numeriske vektorer. Euklidisk afstand

Den mest almindelige er den euklidiske afstand, også beskrevet som l2-norm for to vektorer (læs denne diskussion af l1, l2 og linfinitetsnormer). I et todimensionalt plan reflekterer den euklidiske afstand som den lige linje, der forbinder to punkter, og du beregner den som kvadratroden af summen af den kvadratiske forskel mellem elementerne i to vektorer. I det forrige plot kan den euklidiske afstand mellem punkterne (1, 2) og (3, 3) beregnes i R som sqrt ((1-3) ^ 2 + (2-3) ^ 2), hvilket resulterer i en afstand på ca. 2. 236.

Manhattan afstand

En anden nyttig foranstaltning er Manhattan-afstanden (også beskrevet som l1-norm for to vektorer). Du beregner Manhattan-afstanden ved at summere den absolutte værdi af forskellen mellem vektorernes elementer. Hvis den euklidiske afstand markerer den korteste rute, markerer Manhattan-afstanden den længste rute, der ligner retningen for en taxa, der flytter i en by. (Afstanden er også kendt som taxicab eller city-block afstand.)

For eksempel er Manhattan afstanden mellem punkterne (1, 2) og (3, 3) abs (1-3) og abs (2-3)), hvilket resulterer i 3.

Chebyshev-afstand

Chebyshev-afstanden eller maksimummetrisken tager maksimum af den absolutte forskel mellem elementerne af vektorerne. Det er en afstandsmåling, der kan repræsentere, hvordan en konge bevæger sig i skakspil eller i lagerlogistik, de operationer der kræves af en overheadkran for at flytte en kasse fra et sted til et andet.