10 Ting du burde vide om statistikker til brug af Excel - dummies

Excel er et vidunderligt værktøj, når du skal bruge statistik. Hvis du aldrig har været udsat for statistik i skolen, eller det har været et årti eller to siden du var, lad disse tip hjælpe dig med at bruge nogle af de statistiske værktøjer, som Excel giver.

Beskrivende statistikker er ligefrem.

Det første du burde vide er, at nogle statistiske analyser og nogle statistiske foranstaltninger er ret darn ligefrem. Beskrivende statistikker, der omfatter ting som pivottabellens tværsnit, samt nogle af de statistiske funktioner, giver mening selv til nogen, der ikke er så kvantitative.

Gennemsnit er ikke så enkelt nogle gange

Når en person bruger udtrykket gennemsnit, , som han normalt refererer til, er den mest almindelige middelmåling, som er en betyde. At forstå, at udtrykket gennemsnit er upræcis gør meget af Excels statistiske funktionalitet mere forståelig.

For at gøre denne diskussion mere konkret, antager du, at du ser på et lille sæt værdier: 1, 2, 3, 4 og 5. Som du måske ved, er middelværdien i dette lille sæt værdier 3. Du kan beregne gennemsnittet ved at sammenføje alle tallene i sætet (1 + 2 + 3 + 4 + 5) og divider derefter dette beløb (15) med det samlede antal værdier i sætet (5).

Den medianværdi er den værdi, der adskiller de største værdier fra de mindste værdier. I datasættet 1, 2, 3, 4 og 5 er medianen 3. Værdien 3 adskiller de største værdier (4 og 5) fra de mindste værdier (1 og 2).

Du behøver ikke at forstå forskellige gennemsnitlige målinger, men du skal huske på, at udtrykket gennemsnit er ret upræcis.

Standardafvigelser beskriver dispersion

Formlen for standardafvigelse og logikken er ret let at forstå.

A standardafvigelse beskriver, hvordan værdier i et datasæt varierer omkring gennemsnittet. Den pæne ting om statistiske foranstaltninger som en standardafvigelse giver dig ofte rigtig indsigt i egenskaberne af de data, du ser på. En anden ting er, at med disse to bits data, kan du ofte tegne afledninger om data ved at se på prøver.

En observation er en observation

Observation er et af de vilkår, du vil støde på, hvis du læser noget om statistik. En observation er blot en observation. En måde at definere begrebet observation på er som sådan: Når du rent faktisk tildeler en værdi til en af dine tilfældige variabler, skaber du en observation.

En prøve er en delmængde af værdier

A prøve er en samling observationer fra en befolkning. Hvis du for eksempel opretter et datasæt, der registrerer den daglige høj temperatur i dit kvarter, er din lille samling observationer en prøve.

Til sammenligning er en prøve ikke en population. En befolkning indeholder alle mulige observationer.

Inferentiel statistik er sej men kompliceret

Hvis man ser på en stikprøve af værdier fra en befolkning, og prøven er repræsentativ og stor nok, kan man drage konklusioner om befolkningen baseret på prøveens egenskaber.

Inferentiel statistik, selv om den er meget stærk, har to kvaliteter, som du behøver at vide:

Nøjagtighedsproblemer
Stejl læringskurve

Sandsynlighedsfordelingsfunktioner er ikke altid forvirrende

P funktion lyder ret vanskelig men du kan faktisk forstå intuitivt, hvad en sandsynlighedsfordelingsfunktion er med et par nyttige eksempler.

En almindelig fordeling, som du hører om i statistikklasser, er for eksempel en T-fordeling. En T-fordeling er i det væsentlige en normal fordeling bortset fra tyngre, fede haler.

En fælles sandsynlighedsfordelingsfunktion er en ensartet fordeling. I en ensartet fordeling har hver begivenhed samme sandsynlighed for forekomsten. Det unikke ved denne distribution er, at alt er smukt niveau.

En anden almindelig type sandsynlighedsfordelingsfunktion er normalfordeling, , også kendt som en bellkurve eller en Gaussisk fordeling.

En normal fordeling forekommer naturligt i mange situationer. For eksempel distribueres intelligenskvoter (IQ'er) normalt.

Parametre er ikke så komplicerede

A parameter er en indgang til sandsynlighedsfordelingsfunktionen. Med andre ord har formlen eller funktionen eller ligningen, der beskriver en sandsynlighedsfordelingskurve, inputs. I statistikker kaldes disse indgange parametre.

Nogle sandsynlighedsfordelingsfunktioner behøver kun en enkelt simpel parameter. For eksempel, for at arbejde med en ensartet fordeling er alt, hvad du virkelig har brug for, antallet af værdier i datasættet. En seks-sidet dør har for eksempel kun seks muligheder.

Skewness og kurtosis beskriver en sandsynlighedsfordelings form

Et par andre nyttige statistiske termer, der kender, er skævhed og kurtose. Skewness kvantificerer manglen på symmetri i en sandsynlighedsfordeling. I en perfekt symmetrisk fordeling, som den normale fordeling, er skævheden lig med nul. Hvis en sandsynlighedsfordeling lænker til højre eller venstre, er skævheden dog lig med en anden værdi end nul, og værdien kvantificerer manglen på symmetri.

Kurtosis kvantificerer tyngden af halerne i en fordeling. I en normal fordeling er kurtosis lig med nul. halen er den ting der når ud til venstre eller højre. Men hvis en hale i en fordeling er tungere end en normal fordeling, er kurtosis et positivt tal.Hvis halerne i en fordeling er skinnere end i en normal fordeling, er kurtosis et negativt tal.

Tillidsintervaller virker komplicerede i starten, men er nyttige.

Sannolikheder forvirrer ofte mennesker. En vigtig ting at forstå om tillidsniveauer er, at de er forbundet med fejlmarginen.

En anden vigtig ting at forstå om tillidsniveauer er, at jo større du gør din stikprøvestørrelse, desto mindre vil din fejlmargin anvende det samme konfidensniveau.

Som et eksempel, siger du, at du havde nogle Google Analytics-data om to forskellige webannoncer, du kører for at promovere din lille virksomhed, og du vil vide, hvilken annonce der er mere effektiv. Du kan bruge konfidensintervalformlen til at finde ud af, hvor længe dine annoncer skal køre, før Googles indsamlede data nok til at vide, hvilken annonce der virkelig er bedre.