8 Bedste Practices in Data Preparation - dummies

Statistiske softwarepakker er yderst magtfulde i disse dage, men de kan ikke overvinde data med dårlig kvalitet. Følgende er en tjekliste over ting, du skal gøre, før du går ud af at bygge statistiske modeller.

Tjek dataformater

Din analyse starter altid med en rå datafil. Rå datafiler findes i mange forskellige former og størrelser. Mainframe-data er anderledes end PC-data, regnearkdata formateres anderledes end webdata osv. Og i en alder af store data vil du helt sikkert blive udsat for data fra en række forskellige kilder. Dit første skridt i analysen af dine data sikrer, at du kan læse de filer, du får.

Du skal faktisk se på, hvad hvert felt indeholder. For eksempel er det ikke klogt at stole på, at bare fordi et felt er opført som et tegnfelt, indeholder det faktisk tegndata.

Bekræft datatyper

Alle data falder ind under en af fire kategorier, der påvirker hvilken slags statistikker du behøver korrekt at anvende på det:

Nominelle data er stort set kun et navn eller en identifikator.
Ordinære data sætter poster i rækkefølge fra laveste til højeste.
Intervaldata repræsenterer værdier, hvor forskellene mellem dem er sammenlignelige.
Forholdsdata er som intervaldata, bortset fra at det også tillader en værdi på 0.

Det er vigtigt at forstå, hvilke kategorier dine data falder ind i, før du føder det ind i den statistiske software. I modsat fald risikerer du at ende op med helt rimeligt udseende gibberish.

Grafer dine data

At få en fornemmelse af, hvordan dine data distribueres, er vigtige. Du kan køre statistiske procedurer, indtil du er blå i ansigtet, men ingen af dem giver dig så meget indblik i, hvad dine data ligner som en simpel graf.

Kontroller datacurcisionen

Når du er sikker på at dataene er formateret, som du vil have det, skal du stadig sørge for, at det er korrekt, og at det giver mening. Dette trin kræver, at du har en vis viden om det fagområde, du arbejder i.

Der er ikke rigtig en snit og tørret tilgang til at kontrollere dataens nøjagtighed. Den grundlæggende ide er at formulere nogle egenskaber, som du mener dataene skal udvise og teste dataene for at se, om disse egenskaber holder. Er aktiekurserne altid positive? Er alle produktkoderne i overensstemmelse med listen over gyldige dem? I det væsentlige forsøger du at finde ud af, om dataene virkelig er, hvad du har fået at vide, det er.

Identificer outliers

Outliers er datapunkter, der ikke er slået sammen med resten af dataene. De er enten meget store eller meget små værdier i forhold til resten af datasættet.

Outliers er problematiske, fordi de alvorligt kan kompromittere statistikker og statistiske procedurer. En enkelt outlier kan have en enorm indvirkning på værdien af middelværdien. Fordi gennemsnittet skal repræsentere centrum for dataene, betyder det en vis udstødning, at den gennemsnitlige er ubrugelig.

Når man står over for outliers, er den mest almindelige strategi at slette dem. I nogle tilfælde kan du dog tage dem i betragtning. I disse tilfælde er det normalt ønskeligt at gøre din analyse to gange - en gang med outliers inkluderet og en gang med udelukkede udelukkere. Dette giver dig mulighed for at vurdere, hvilken metode der giver mere nyttige resultater.

Håndtere manglende værdier

Manglende værdier er en af de mest almindelige (og irriterende) dataproblemer, du vil støde på. Din første impuls kan være at droppe poster med manglende værdier fra din analyse. Problemet med dette er, at manglende værdier ofte ikke er tilfældige små datalog.

Kontroller dine antagelser om, hvordan dataene distribueres

Mange statistiske procedurer afhænger af antagelsen om, at dataene distribueres på en bestemt måde. Hvis den antagelse ikke er tilfældet, lider nøjagtigheden af dine forudsigelser.

Den mest almindelige antagelse for modelleringsteknikkerne diskuteret i denne bog er, at dataene distribueres normalt.

Eller ej. I tilfælde, hvor dataene ikke distribueres som du har brug for det, er alt ikke nødvendigvis tabt. Der er mange forskellige måder at transformere data på for at få fordelingen til den form, du har brug for.

En af de bedste måder at kontrollere nøjagtigheden af en statistisk model på er faktisk at teste den mod dataene, når den er bygget. En måde at gøre er at tilfældigt dele dit datasæt i to filer. Du kan kalde disse filer Analyse og Test, henholdsvis.

Du skal opdele dataene tilfældigt for at være effektive. Du kan ikke blot opdele datasættet i den øverste halvdel og den nederste halvdel, for eksempel. Næsten alle datafiler sorteres på en eller anden måde - efter dato, hvis intet andet. Dette introducerer systematiske mønstre, som vil give forskellige dele af filen forskellige statistiske egenskaber. Når du deler filen tilfældigt, giver du hver rekord en lige chance for at være i begge filer. Figurativt bliver du en mønt for hver post for at bestemme hvilken fil den går ind i. Tilfældighed giver begge filer de samme statistiske egenskaber som de oprindelige data.

Når du har opdelt datasættet, skal du sætte testfilen til side. Fortsæt derefter med at opbygge din prædiktive model ved hjælp af analysefilen. Når modellen er bygget, skal du anvende den på testfilen og se, hvordan den gør det.

Testmodeller på denne måde hjælper med at beskytte mod et fænomen kendt som overmontering . I det væsentlige er det muligt for statistiske procedurer at gemme datafilen frem for at opdage meningsfulde relationer mellem variablerne. Hvis der sker overmontering, vil modellen teste ret dårligt mod testfilen.

Sikkerhedskopier og dokumenter alt, hvad du gør

Fordi statistisk software bliver så enkel at bruge, er det et stykke kage, der begynder at generere rapporter og grafer, for ikke at nævne datafiler.Du kan køre procedurer bogstaveligt med et tryk på en knap. Du kan generere flere dusin grafer baseret på forskellige datatransformationer om et par minutter. Det gør det ret nemt at miste hvad du har gjort, og hvorfor.

Det er vigtigt at sikre, at du holder en skriftlig oversigt over, hvad du er i færd med. Grafer skal mærkes med navnet (og versionen) af de data, der blev brugt til at oprette dem. Statistiske procedurer, som du opbygger, skal gemmes og dokumenteres.

Det er også vigtigt at sikkerhedskopiere dine datafiler. I løbet af din analyse vil du sandsynligvis oprette flere versioner af dine data, der afspejler forskellige rettelser og transformation af variabler. Du skal gemme de procedurer, der oprettede disse versioner. De skal også dokumenteres på en måde, der beskriver, hvilke transformationer du har lavet og hvorfor.

Dokumentation er ikke nogen yndlingsopgave, men vi taler fra erfaring, når vi kraftigt opfordrer dig til ikke at stole på din hukommelse, når det kommer til dine analyseprojekter.

Ved at gennemgå de trin, der netop er beskrevet, maksimerer du pålideligheden af dine statistiske modeller. I mange tilfælde er prep-arbejdet faktisk mere tidskrævende end den faktiske modelbygning. Men det er nødvendigt. Og du vil i sidste ende takke dig for at arbejde igennem det metodisk.