Forstå data i lange og brede formater i R

Video: Excel Tutorial - Beginner 2025

Når vi taler om omformning af data i R, er det vigtigt at genkende data i lange og brede formater. Disse visuelle metaforer beskriver to måder at repræsentere de samme oplysninger. Det er nyttigt at kende disse formater, når du bruger R.

Du kan genkende data i bredt format ved at kolonner generelt repræsenterer grupper. Så vores eksempel på basketball spil er i bredt format, fordi der er en kolonne for kurven lavet af hver af deltagerne:

Game Venue Granny Geraldine Gertrude 1 1. Brugge 12 5 11 2 2. Gent 4 4 5 3 3. Gent 5 2 6 4 4. Brugge 6 4 7

I kontrast skal du se på den lange format for nøjagtigt de samme data:

Vildtværdi for spilplads 1 1. Brugge Granny 12 2 2. Gent Granny 4 3 3. Gent Granny 5 4 4. Brugge Granny 6 5 1. Brugge Geraldine 5 6 2. Gent Geraldine 4 7 3rd Gent Geraldine 2 8 4. Brugge Geraldine 4 9 1. Brugge Gertrude 11 10 2. Gent Gertrude 5 11 3. Gent Gertrude 6 12 4. Brugge Gertrude 7

Bemærk, hvordan de tre kolonner til Granny, Geraldine og Gertrude i det lange format er forsvundet. I deres sted har du nu en kolonne kaldet værdi, der indeholder den faktiske score, og en kolonne kaldet variabel, der forbinder scoren til en af de tre damer.

Når du konverterer data mellem lange og brede formater, er det vigtigt at kunne skelne identifikationsvariabler fra målte variabler:

Identifikatorvariabler: Identifikator eller ID, variabler identificerer observationerne. Tænk på disse som nøglen, der identificerer dine observationer. (I databasedesign kaldes disse primære eller sekundære nøgler.)
Målte variabler: Dette repræsenterer de målinger, du observerede.

I vores eksempel er identifikationsvariablerne Game and Venue, mens de målte variabler er målene (det vil sige kolonnerne Granny, Geraldine og Gertrude).