Video: "Transtrenders" | ContraPoints 2025
En anden nyttig anvendelse af subsetting af datarammer er at finde og fjerne rækker med manglende data. R-funktionen for at kontrollere, at dette er færdigt. tilfælde (). Du kan prøve dette på den indbyggede datasætets luftkvalitet, en dataramme med en hel del manglende data: >> str (air quality)> komplet. sager (luftkvalitet)
Resultaterne af komplette. tilfælde () er en logisk vektor med værdien TRUE for rækker, der er komplette, og FALSE for rækker, der har nogle NA-værdier. For at fjerne rækkerne med manglende data fra luftkvalitet, prøv følgende:
Som altid med R er der mere end en måde at nå dit mål på. I dette tilfælde kan du gøre brug af na. udelad () for at udelade alle rækker, der indeholder NA værdier: >> x <- na. udeladelse (luftkvalitet)
Når du er sikker på, at dine data er rene, kan du begynde at analysere det ved at tilføje beregnede felter.
Hvis du bruger en af disse metoder til at dele dine data eller slette manglende værdier, skal du huske at gemme resultatet i en ny genstand. R ændrer ikke noget i den oprindelige dataramme, medmindre du udtrykkeligt overskriver det. Det er en god ting, fordi du ikke ved et uheld kan ødelægge dine data.