Sådan fjerner du duplikatdata i R-dummier

Video: How to Remove Duplicates in Google Spreadsheets 2025

En meget nyttig anvendelse af subdate-data er at finde og fjerne dobbeltværdier. R har en nyttig funktion, dupliceret (), der finder dobbeltværdier og returnerer en logisk vektor, der fortæller dig, om den specifikke værdi er et duplikat af en tidligere værdi. Dette betyder, at for duplikerede værdier, returnerer dupliceret () FALSE til den første forekomst og SAND for hver efterfølgende forekomst af denne værdi som i følgende eksempel:

>> kopieret (c, 1, 2, 1, 3, 1, 4)) [1] FALSK FALSE SAND FALSE SAND FALSK

Hvis du prøver dette på en dataramme, R automatisk kontrollerer observationerne (dvs. det behandler hver række som en værdi). F.eks. Med datarammen iris FALSK FALSK FALSK FALSK SAND FALSK [145] FALSK FALSK FALSK FALSK FALSK FALSK

Hvis du ser forsigtigt ud, bemærker du den række 143 er et duplikat (fordi det 143. element i dit resultat har værdien SAND). Du kan også fortælle dette ved at bruge hvilken () funktion:








 >> som (duplikeret (iris)) [1] 143

For at fjerne duplikatet fra iris skal du udelukke denne række fra dine data. Husk, at der er to måder at ekskludere data ved hjælp af subsetting:

Angiv en logisk vektor, hvor

FALSE

betyder, at elementet vil blive udelukket.

Den! (udråbstegn) operatør er en logisk negation. Det betyder, at det konverterer SAND til FALSE og omvendt. Så, for at fjerne duplikaterne fra iris gør du følgende:
>> iris [! dupliceret (iris),] Angiv negative værdier. Med andre ord:
>> index iris [-index,]
```
I begge tilfælde vil du bemærke, at din instruktion har fjernet række 143.
```