Video: Week 0 2025
Før du forsøger at Beskriv dine data i R, du skal sørge for, at dine data er i det rigtige format. Dette betyder
-
Kontroller, at alle dine data er indeholdt i en dataramme (eller i en vektor, hvis det er en enkelt variabel)
-
Kontroller, at alle variablerne er af den korrekte type
-
Kontrollerer, at værdierne alle er behandlet korrekt
Nogle data kan kun have et begrænset antal forskellige værdier. For eksempel kan folk være enten mandlige eller kvindelige, og du kan beskrive de fleste hårtyper med kun få farver.
Nogle gange er flere værdier teoretisk mulige, men ikke realistiske. For eksempel kan biler have mere end 16 cylindre i deres motorer, men du vil ikke finde mange af dem. På en eller anden måde kan alle disse data ses som kategorisk . Ved denne definition indbefatter kategoriske data også ordinære data.
På den anden side har du data, der kan have en ubegrænset mængde mulige værdier. Dette betyder ikke nødvendigvis, at værdierne kan være nogen værdi, du kan lide. For eksempel udtrykkes kilometertal for en bil i miles per gallon, ofte afrundet til hele mile. Alligevel vil den reelle værdi være lidt anderledes for hver bil.
Det eneste der definerer, hvor mange mulige værdier du tillader, er den præcision, som du udtrykker dataene til. Data, der kan udtrykkes med et hvilket som helst valgt præcisionsniveau, er kontinuerlig . Både interval-skalerede data og forholdskalibrerede data er som regel kontinuerlige data.
Sondringen mellem kategoriske og kontinuerlige data er imidlertid ikke altid klart. Alder er i det væsentlige en kontinuerlig variabel, men det udtrykkes ofte i antal år siden fødslen.
Du har stadig mange mulige værdier, hvis du gør det, men hvad sker der, hvis du ser på børnenes alder på din lokale gymnasium? Pludselig har du kun fem, måske seks forskellige værdier i dine data. På det tidspunkt kan du få mere ud af din analyse, hvis du behandler disse data som kategorisk.
Når du beskriver dine data, skal du skelne mellem data, der nyder godt af at blive konverteret til en faktor, og data, der skal forblive numeriske. Hvis du kan se dine data som kategoriske, hjælper det med at konvertere det til en faktor med at analysere det.