Video: What if there was a black hole in your pocket? 2024
Ved at analysere data til dine infografier skal du være opmærksom på, at nogle datapunkter - kendt som outliers - ligger så langt uden for normen opmærksom på sig selv. I de mest alvorlige tilfælde kan de endda skifte data og skabe et vildledende billede af emnet. Du skal genkende, når du har en outlier og derefter beslutte dig for hvad du skal gøre ved det.
Denne tabel indeholder et simpelt eksempel til at demonstrere denne ide. De to datasæt repræsenterer en studerendes karakter i otte uger på to ugentlige eksamener; tallene er procenten korrekt på eksamen. Datasættet til venstre (den første eksamen) indeholder ikke en outlier, men datasættet til højre (den anden eksamen) gør. Den ene outlier er vist med fed skrift.
Uge | Karakterer (ingen outlier) | Grader (en outlier) |
---|---|---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Gennemsnitlig > 87% | 83% |
|
Hvad gør en datalogistik i en sådan sag? Her er et par valgmuligheder:
Kast udløberen.
-
Hvis du kun bruger gennemsnittet i din grafik og er bekymret for, at det er vildledende, skal du eliminere outlier som en aberration og derefter beregne gennemsnittet uden den uge som vist i figuren.
Hvis du går med denne mulighed, skal du sørge for at tilføje en fodnote, der forklarer alt: i dette tilfælde sletning af et datapunkt. Vær altid så gennemsigtig som muligt.
Vis dataene som-er.
-
Uanset om du kun bruger gennemsnittet i din grafik eller tegner alle dataene i et diagram, kan du altid præsentere dataene nøjagtigt som det var tilfældet som vist i nedenstående figur. I dette tilfælde skal du tilføje en fodnote, der ringer udløseren, så din læser er fuldt klar over det.
Konstruer en "linje med den bedste pasform. "
-
Denne valgmulighed gælder kun, hvis du skal oprette et diagram, der viser alle dataene. En linje med den bedste pasform - også kaldet en lineær regression - er et visuelt gennemsnit af dine data: bogstaveligt er den linje, der repræsenterer dine spredte datapunkter bedst.