Video: Math Antics - Mean, Median and Mode 2025
Når du arbejder med stor datastatistik, identificerer du spredningen af et datasæt fra midten med flere forskellige sammenfattende foranstaltninger: varians, standard afvigelse, kvartiler, interkvartilstandsinterval (IQR).
Varians er den gennemsnitlige kvadratiske afvigelse mellem elementerne i datasættet og middelværdien. For en stikprøve af data beregnes variansen som denne:
hvor
-
x i er værdien af et enkelt element i prøven.
-
er gennemsnittet af prøven.
-
n er prøvestørrelsen.
Standardafvigelsen er kvadratroden af variansen. For de fleste applikationer er standardafvigelsen mere praktisk at anvende end variansen som et mål for spredning. Det skyldes, at variansen måles i kvadreret enheder, mens standardafvigelsen måles i de samme enheder som dataene. For eksempel vil variansen af et datasæt bestående af priser måles i dollar kvadreret , og standardafvigelsen vil blive målt i dollar. Standardafvigelse er den mest anvendte måling af spredningen i et datasæt.
Kvartiler deler et datasæt i fire lige dele. Det første kvartil (Q 1 ) deler dataene i den laveste 25 procent af observationerne og de højeste 75 procent (25 procent af observationerne er mindre end Q 1 < og 75 procent er større end Q 1 ). Det andet kvartil (Q 2 ) deler dataene ind i de laveste 50 procent af observationerne og de højeste 50 procent. Det tredje kvartil (Q 3 ) deler dataene ind i de laveste 75 procent af observationerne og den højeste 25 procent. Interquartile Range (IQR) er lig med forskellen mellem det tredje og det første kvartil:
Kvartilerne af et datasæt illustreres bedst med en
-kasse. Nedenstående figur viser et rutediagram af det daglige afkast til ExxonMobil i 2013. Boksplot af daglige afkast til ExxonMobil-lager i 2013.
Løfteplottet viser flere nøgletal for ExxonMobil-afkastet: > Minimumsafkastet vises på en graf som et enkelt punkt nederst på plottet (en boksplot viseroutliers
som individuelle punkter). Q 1 vises som bunden af boksen, Q 2 er den solide sorte linje i midten af boksen, og Q 3 er toppen af kassen. Det maksimale afkast vises som et enkelt punkt øverst på plottet.