Hjem Personlig finansiering 8 Bedste Practices in Data Preparation - dummies

8 Bedste Practices in Data Preparation - dummies

Indholdsfortegnelse:

Video: What makes a good life? Lessons from the longest study on happiness | Robert Waldinger 2024

Video: What makes a good life? Lessons from the longest study on happiness | Robert Waldinger 2024
Anonim

Statistiske softwarepakker er yderst magtfulde i disse dage, men de kan ikke overvinde data med dårlig kvalitet. Følgende er en tjekliste over ting, du skal gøre, før du går ud af at bygge statistiske modeller.

Tjek dataformater

Din analyse starter altid med en rå datafil. Rå datafiler findes i mange forskellige former og størrelser. Mainframe-data er anderledes end PC-data, regnearkdata formateres anderledes end webdata osv. Og i en alder af store data vil du helt sikkert blive udsat for data fra en række forskellige kilder. Dit første skridt i analysen af ​​dine data sikrer, at du kan læse de filer, du får.

Du skal faktisk se på, hvad hvert felt indeholder. For eksempel er det ikke klogt at stole på, at bare fordi et felt er opført som et tegnfelt, indeholder det faktisk tegndata.

Bekræft datatyper

Alle data falder ind under en af ​​fire kategorier, der påvirker hvilken slags statistikker du behøver korrekt at anvende på det:

  • Nominelle data er stort set kun et navn eller en identifikator.

  • Ordinære data sætter poster i rækkefølge fra laveste til højeste.

  • Intervaldata repræsenterer værdier, hvor forskellene mellem dem er sammenlignelige.

  • Forholdsdata er som intervaldata, bortset fra at det også tillader en værdi på 0.

Det er vigtigt at forstå, hvilke kategorier dine data falder ind i, før du føder det ind i den statistiske software. I modsat fald risikerer du at ende op med helt rimeligt udseende gibberish.

Grafer dine data

At få en fornemmelse af, hvordan dine data distribueres, er vigtige. Du kan køre statistiske procedurer, indtil du er blå i ansigtet, men ingen af ​​dem giver dig så meget indblik i, hvad dine data ligner som en simpel graf.

Kontroller datacurcisionen

Når du er sikker på at dataene er formateret, som du vil have det, skal du stadig sørge for, at det er korrekt, og at det giver mening. Dette trin kræver, at du har en vis viden om det fagområde, du arbejder i.

Der er ikke rigtig en snit og tørret tilgang til at kontrollere dataens nøjagtighed. Den grundlæggende ide er at formulere nogle egenskaber, som du mener dataene skal udvise og teste dataene for at se, om disse egenskaber holder. Er aktiekurserne altid positive? Er alle produktkoderne i overensstemmelse med listen over gyldige dem? I det væsentlige forsøger du at finde ud af, om dataene virkelig er, hvad du har fået at vide, det er.

Identificer outliers

Outliers er datapunkter, der ikke er slået sammen med resten af ​​dataene. De er enten meget store eller meget små værdier i forhold til resten af ​​datasættet.

Outliers er problematiske, fordi de alvorligt kan kompromittere statistikker og statistiske procedurer. En enkelt outlier kan have en enorm indvirkning på værdien af ​​middelværdien. Fordi gennemsnittet skal repræsentere centrum for dataene, betyder det en vis udstødning, at den gennemsnitlige er ubrugelig.

Når man står over for outliers, er den mest almindelige strategi at slette dem. I nogle tilfælde kan du dog tage dem i betragtning. I disse tilfælde er det normalt ønskeligt at gøre din analyse to gange - en gang med outliers inkluderet og en gang med udelukkede udelukkere. Dette giver dig mulighed for at vurdere, hvilken metode der giver mere nyttige resultater.

Håndtere manglende værdier

Manglende værdier er en af ​​de mest almindelige (og irriterende) dataproblemer, du vil støde på. Din første impuls kan være at droppe poster med manglende værdier fra din analyse. Problemet med dette er, at manglende værdier ofte ikke er tilfældige små datalog.

Kontroller dine antagelser om, hvordan dataene distribueres

Mange statistiske procedurer afhænger af antagelsen om, at dataene distribueres på en bestemt måde. Hvis den antagelse ikke er tilfældet, lider nøjagtigheden af ​​dine forudsigelser.

Den mest almindelige antagelse for modelleringsteknikkerne diskuteret i denne bog er, at dataene distribueres normalt.

Eller ej. I tilfælde, hvor dataene ikke distribueres som du har brug for det, er alt ikke nødvendigvis tabt. Der er mange forskellige måder at transformere data på for at få fordelingen til den form, du har brug for.

En af de bedste måder at kontrollere nøjagtigheden af ​​en statistisk model på er faktisk at teste den mod dataene, når den er bygget. En måde at gøre er at tilfældigt dele dit datasæt i to filer. Du kan kalde disse filer Analyse og Test, henholdsvis.

Du skal opdele dataene tilfældigt for at være effektive. Du kan ikke blot opdele datasættet i den øverste halvdel og den nederste halvdel, for eksempel. Næsten alle datafiler sorteres på en eller anden måde - efter dato, hvis intet andet. Dette introducerer systematiske mønstre, som vil give forskellige dele af filen forskellige statistiske egenskaber. Når du deler filen tilfældigt, giver du hver rekord en lige chance for at være i begge filer. Figurativt bliver du en mønt for hver post for at bestemme hvilken fil den går ind i. Tilfældighed giver begge filer de samme statistiske egenskaber som de oprindelige data.

Når du har opdelt datasættet, skal du sætte testfilen til side. Fortsæt derefter med at opbygge din prædiktive model ved hjælp af analysefilen. Når modellen er bygget, skal du anvende den på testfilen og se, hvordan den gør det.

Testmodeller på denne måde hjælper med at beskytte mod et fænomen kendt som overmontering . I det væsentlige er det muligt for statistiske procedurer at gemme datafilen frem for at opdage meningsfulde relationer mellem variablerne. Hvis der sker overmontering, vil modellen teste ret dårligt mod testfilen.

Sikkerhedskopier og dokumenter alt, hvad du gør

Fordi statistisk software bliver så enkel at bruge, er det et stykke kage, der begynder at generere rapporter og grafer, for ikke at nævne datafiler.Du kan køre procedurer bogstaveligt med et tryk på en knap. Du kan generere flere dusin grafer baseret på forskellige datatransformationer om et par minutter. Det gør det ret nemt at miste hvad du har gjort, og hvorfor.

Det er vigtigt at sikre, at du holder en skriftlig oversigt over, hvad du er i færd med. Grafer skal mærkes med navnet (og versionen) af de data, der blev brugt til at oprette dem. Statistiske procedurer, som du opbygger, skal gemmes og dokumenteres.

Det er også vigtigt at sikkerhedskopiere dine datafiler. I løbet af din analyse vil du sandsynligvis oprette flere versioner af dine data, der afspejler forskellige rettelser og transformation af variabler. Du skal gemme de procedurer, der oprettede disse versioner. De skal også dokumenteres på en måde, der beskriver, hvilke transformationer du har lavet og hvorfor.

Dokumentation er ikke nogen yndlingsopgave, men vi taler fra erfaring, når vi kraftigt opfordrer dig til ikke at stole på din hukommelse, når det kommer til dine analyseprojekter.

Ved at gennemgå de trin, der netop er beskrevet, maksimerer du pålideligheden af ​​dine statistiske modeller. I mange tilfælde er prep-arbejdet faktisk mere tidskrævende end den faktiske modelbygning. Men det er nødvendigt. Og du vil i sidste ende takke dig for at arbejde igennem det metodisk.

8 Bedste Practices in Data Preparation - dummies

Valg af editor

Test din kode med Dreamweavers webstedrapporteringsfunktioner - dummies

Test din kode med Dreamweavers webstedrapporteringsfunktioner - dummies

Hvis du har brugt Dreamweaver til bygg din mobilwebsite, du kan tjekke dit arbejde ved hjælp af Dreamweaver Site Reporting funktionerne. Det lader dig oprette en række rapporter og endda tilpasse dem til at identificere problemer med eksterne links, overflødige og tomme tags, untitled dokumenter og manglende alternativ tekst. Du kan nemt gå glip af problemer - især ...

Sådan bruger du dit eget domæne til dit Squarespace-websted - dummier

Sådan bruger du dit eget domæne til dit Squarespace-websted - dummier

Når du underskriver op for din Squarespace-konto, får du en unik Squarespace-URL, der ser sådan ud: http: // dit kontonavn. Squarespace. com. Hvis du vil have fuldstændig kontrol over branding af dit websted eller blot ønsker en unik webadresse, kan du kortlægge eller pege på et brugerdefineret domæne på din Squarespace-konto. Du har tre muligheder for indstilling ...

Fordelene ved at bruge Markdown på din Squarespace Website - dummies

Fordelene ved at bruge Markdown på din Squarespace Website - dummies

Markdown er en plain- tekst skriftformat, der gør det muligt hurtigt at anvende tekst styling baseret på hvordan du formaterer din Squarespace 6 websteds tekst. Markdown er en af ​​Du bruger to typer blokke, du kan bruge til at tilføje tekst. Du tilføjer indhold til dine Squarespace-sidesider ved at bruge indholdsblokke i Site Manager → Indhold ...

Valg af editor

Wicca og Witchcraft For Dummies Cheat Sheet - dummies

Wicca og Witchcraft For Dummies Cheat Sheet - dummies

Wicca, en heksekunst, er centreret i rituelle Wiccans udfører til specifikke formål, såsom at kommunikere med eller ære guddom. Sabbats er wiccan sol helligdage fokuseret på jordens sti omkring solen, nogle gange omtalt som Årets hjul. Esbats er wiccan månens ferie, der fokuserer på månens cyklus. ...

Sammenhængende trosretninger: almindelige erfaringer i skrifterne - dummies

Sammenhængende trosretninger: almindelige erfaringer i skrifterne - dummies

Interessant de tre Abrahams trosretninger - jødedom, kristendom , og islam - deler meget til fælles, herunder en række af ædle profeter sendt af Gud. På grund af commonality ligger en dyb forbindelse til arv fra profeten Abraham og en tro på en Gud. Koranen finder fælles sted med kristne og jøder (kendt ...

Charmerende din vej til effektiv magi - dummies

Charmerende din vej til effektiv magi - dummies

En firkløver for held. Den jakkesæt, som du altid bærer til jobsamtaler for succes. Ringen du tager aldrig af, fordi den repræsenterer din kærlighed til en anden person. Den hængende du bærer rundt om halsen hver dag for beskyttelse. Den lille statue hængende fra bilens bagspejl til sikker rejse. ...

Valg af editor

Vælger skråninger, kanter og ansigter i blender - dummies

Vælger skråninger, kanter og ansigter i blender - dummies

I Blender's Edit-tilstand, kuben ændrer farve og prikker danner i hver af kubens hjørner. Hver prik er et vertex. Linjen der dannes mellem to hjørner er en kant. Et ansigt i Blender er en polygon, der er dannet af tre eller flere forbindelseskanter. Tidligere er ansigter i Blender ...