Video: How to Remove Duplicates in Google Spreadsheets 2025
En meget nyttig anvendelse af subdate-data er at finde og fjerne dobbeltværdier. R har en nyttig funktion, dupliceret (), der finder dobbeltværdier og returnerer en logisk vektor, der fortæller dig, om den specifikke værdi er et duplikat af en tidligere værdi. Dette betyder, at for duplikerede værdier, returnerer dupliceret () FALSE til den første forekomst og SAND for hver efterfølgende forekomst af denne værdi som i følgende eksempel:
Hvis du prøver dette på en dataramme, R automatisk kontrollerer observationerne (dvs. det behandler hver række som en værdi). F.eks. Med datarammen iris FALSK FALSK FALSK FALSK SAND FALSK [145] FALSK FALSK FALSK FALSK FALSK FALSK
Hvis du ser forsigtigt ud, bemærker du den række 143 er et duplikat (fordi det 143. element i dit resultat har værdien SAND). Du kan også fortælle dette ved at bruge hvilken () funktion:
>> som (duplikeret (iris)) [1] 143
For at fjerne duplikatet fra iris skal du udelukke denne række fra dine data. Husk, at der er to måder at ekskludere data ved hjælp af subsetting:
Angiv en logisk vektor, hvor
FALSE
betyder, at elementet vil blive udelukket.-
Den! (udråbstegn) operatør er en logisk negation. Det betyder, at det konverterer SAND til FALSE og omvendt. Så, for at fjerne duplikaterne fra iris gør du følgende:
I begge tilfælde vil du bemærke, at din instruktion har fjernet række 143.
-