Video: Statistical Programming with R by Connor Harris 2025
Data minearbejdere benytter sig ofte af særlige funktioner til at pakke flere oplysninger til enkle diagrammer. Etiketter, overlejringer og interaktivt valg er kendetegn ved data mining applikationer, særlige funktioner, der giver dig mulighed for at være mere produktive.
Mileage falder, da hestekræfter stiger, som det ses i den følgende figur.
Kilometerstanden stiger med tiden, som man kan se, en scatterplot af kilometertal mod modelår. Det ville være nyttigt at få disse to ideer til en graf.
Almindelige data-mining metoder til integration af mere end to variabler i en graf inkluderer
-
Etiketter: Etiketter er værdier af en streng eller kategorisk variabel, der er overlejret på scatterplot. Følgende figur viser en scatterplot mærket med bilens modelår.
Datasæt med mange punkter eller lange etiketter kan gøre disse kort ulæselige, selvom! Løsningen er kun at bruge en stikprøve af dataene. Opsætning til denne form for prøveudtagning er vist i den følgende figur.
-
Overlays: Med overlejringer definerer værdierne for en kategorisk variabel punkternes form eller farve. Følgende figur viser opsætningen for en scatterplot til overlay model år på kilometertal-versus-hestekræfterne.
Den eksporterede overlay scatterplot vises i det følgende billede. Det kan være nemmere at læse farveoverlejringer end punktform overlejringer. Opsætningen er normalt meget den samme.
En anden ting at huske på med scatterplots: Du kan have flere punkter, der falder på samme sted! Hvis det er tilfældet, kan du muligvis ikke fortælle et punkt for en sag fra et punkt til 100 tilfælde. Løsningen er at kontrollere om en mulighed for at gøre flere forekomster synlige. Se efter punktstørrelse eller jitter (flytter punkter lidt ud af deres sande placeringer for at gøre dem alle synlige).
Interaktive scatterplots er gode tidsbesparende til data minearbejdere.
Sig, at du ser en interessant gruppe sager i en graf, og du vil yderligere undersøge netop disse sager. Hvis du kigger på kun et eller to punkter, kan du få de oplysninger, du vil have ved at svinge, men det er ikke tilfredsstillende, når du er interesseret i mere end et par punkter.
Datavalgværktøjer i interaktive scatterplots giver dig mere strøm til at vælge data. Nedenstående figur viser samme grafopsætning, men med en gruppe af punkter valgt ved at klikke og trække musen rundt om dem. Dette er ikke kun en visuel funktion.
Du kan eksportere de valgte punkter som et nyt datasæt. Dette er meget praktisk og hurtigt!
Hvis de punkter, du har brug for, ikke passer fint ind i et rektangulært valg, har du andre muligheder. Se Zoom / Vælg område. Du kan se en knap med et rektangel til rektangulært valg og en anden med en rund form for valgfri formularvalg.
Her er et eksempel på frit formularvalg ved hjælp af data om nikotinindholdet i cigaretter, der sælges i forskellige dele af verden. Denne scatterplot viser nikotin pr. Cigaret for prøver fra de seks FN-regioner. (Dette er en ikke-traditionel anvendelse af en scatterplot, fordi regionen ikke er en kontinuerlig variabel, det er kategorisk. Data minearbejdere bruger ofte traditionelle værktøjer på ikke-traditionelle måder.)
Punkterne i en region falder ikke i en perfekt lodret linje. Små skift (jitter) til venstre og højre er kun lavet til læsbarhed og udseende. Et par cigaretter har usædvanligt høje niveauer af nikotin, og du vil vælge disse tilfælde.
En rullemenu tilbyder valgmuligheder. Polygonvalg giver dig mulighed for at markere et frit formområde på scatterplot.
For at markere, klik på grafen for at starte et startpunkt, og klik derefter igen og igen omkring den gruppe af punkter, du vil have, indtil du har lavet den form, du har brug for.
Et højreklik betyder, at du har gennemført valget; dette er synligt fra højdepunktet på grafen.