Hjem Personlig finansiering 8 Bedste Practices in Data Preparation - dummies

8 Bedste Practices in Data Preparation - dummies

Indholdsfortegnelse:

Video: What makes a good life? Lessons from the longest study on happiness | Robert Waldinger 2025

Video: What makes a good life? Lessons from the longest study on happiness | Robert Waldinger 2025
Anonim

Statistiske softwarepakker er yderst magtfulde i disse dage, men de kan ikke overvinde data med dårlig kvalitet. Følgende er en tjekliste over ting, du skal gøre, før du går ud af at bygge statistiske modeller.

Tjek dataformater

Din analyse starter altid med en rå datafil. Rå datafiler findes i mange forskellige former og størrelser. Mainframe-data er anderledes end PC-data, regnearkdata formateres anderledes end webdata osv. Og i en alder af store data vil du helt sikkert blive udsat for data fra en række forskellige kilder. Dit første skridt i analysen af ​​dine data sikrer, at du kan læse de filer, du får.

Du skal faktisk se på, hvad hvert felt indeholder. For eksempel er det ikke klogt at stole på, at bare fordi et felt er opført som et tegnfelt, indeholder det faktisk tegndata.

Bekræft datatyper

Alle data falder ind under en af ​​fire kategorier, der påvirker hvilken slags statistikker du behøver korrekt at anvende på det:

  • Nominelle data er stort set kun et navn eller en identifikator.

  • Ordinære data sætter poster i rækkefølge fra laveste til højeste.

  • Intervaldata repræsenterer værdier, hvor forskellene mellem dem er sammenlignelige.

  • Forholdsdata er som intervaldata, bortset fra at det også tillader en værdi på 0.

Det er vigtigt at forstå, hvilke kategorier dine data falder ind i, før du føder det ind i den statistiske software. I modsat fald risikerer du at ende op med helt rimeligt udseende gibberish.

Grafer dine data

At få en fornemmelse af, hvordan dine data distribueres, er vigtige. Du kan køre statistiske procedurer, indtil du er blå i ansigtet, men ingen af ​​dem giver dig så meget indblik i, hvad dine data ligner som en simpel graf.

Kontroller datacurcisionen

Når du er sikker på at dataene er formateret, som du vil have det, skal du stadig sørge for, at det er korrekt, og at det giver mening. Dette trin kræver, at du har en vis viden om det fagområde, du arbejder i.

Der er ikke rigtig en snit og tørret tilgang til at kontrollere dataens nøjagtighed. Den grundlæggende ide er at formulere nogle egenskaber, som du mener dataene skal udvise og teste dataene for at se, om disse egenskaber holder. Er aktiekurserne altid positive? Er alle produktkoderne i overensstemmelse med listen over gyldige dem? I det væsentlige forsøger du at finde ud af, om dataene virkelig er, hvad du har fået at vide, det er.

Identificer outliers

Outliers er datapunkter, der ikke er slået sammen med resten af ​​dataene. De er enten meget store eller meget små værdier i forhold til resten af ​​datasættet.

Outliers er problematiske, fordi de alvorligt kan kompromittere statistikker og statistiske procedurer. En enkelt outlier kan have en enorm indvirkning på værdien af ​​middelværdien. Fordi gennemsnittet skal repræsentere centrum for dataene, betyder det en vis udstødning, at den gennemsnitlige er ubrugelig.

Når man står over for outliers, er den mest almindelige strategi at slette dem. I nogle tilfælde kan du dog tage dem i betragtning. I disse tilfælde er det normalt ønskeligt at gøre din analyse to gange - en gang med outliers inkluderet og en gang med udelukkede udelukkere. Dette giver dig mulighed for at vurdere, hvilken metode der giver mere nyttige resultater.

Håndtere manglende værdier

Manglende værdier er en af ​​de mest almindelige (og irriterende) dataproblemer, du vil støde på. Din første impuls kan være at droppe poster med manglende værdier fra din analyse. Problemet med dette er, at manglende værdier ofte ikke er tilfældige små datalog.

Kontroller dine antagelser om, hvordan dataene distribueres

Mange statistiske procedurer afhænger af antagelsen om, at dataene distribueres på en bestemt måde. Hvis den antagelse ikke er tilfældet, lider nøjagtigheden af ​​dine forudsigelser.

Den mest almindelige antagelse for modelleringsteknikkerne diskuteret i denne bog er, at dataene distribueres normalt.

Eller ej. I tilfælde, hvor dataene ikke distribueres som du har brug for det, er alt ikke nødvendigvis tabt. Der er mange forskellige måder at transformere data på for at få fordelingen til den form, du har brug for.

En af de bedste måder at kontrollere nøjagtigheden af ​​en statistisk model på er faktisk at teste den mod dataene, når den er bygget. En måde at gøre er at tilfældigt dele dit datasæt i to filer. Du kan kalde disse filer Analyse og Test, henholdsvis.

Du skal opdele dataene tilfældigt for at være effektive. Du kan ikke blot opdele datasættet i den øverste halvdel og den nederste halvdel, for eksempel. Næsten alle datafiler sorteres på en eller anden måde - efter dato, hvis intet andet. Dette introducerer systematiske mønstre, som vil give forskellige dele af filen forskellige statistiske egenskaber. Når du deler filen tilfældigt, giver du hver rekord en lige chance for at være i begge filer. Figurativt bliver du en mønt for hver post for at bestemme hvilken fil den går ind i. Tilfældighed giver begge filer de samme statistiske egenskaber som de oprindelige data.

Når du har opdelt datasættet, skal du sætte testfilen til side. Fortsæt derefter med at opbygge din prædiktive model ved hjælp af analysefilen. Når modellen er bygget, skal du anvende den på testfilen og se, hvordan den gør det.

Testmodeller på denne måde hjælper med at beskytte mod et fænomen kendt som overmontering . I det væsentlige er det muligt for statistiske procedurer at gemme datafilen frem for at opdage meningsfulde relationer mellem variablerne. Hvis der sker overmontering, vil modellen teste ret dårligt mod testfilen.

Sikkerhedskopier og dokumenter alt, hvad du gør

Fordi statistisk software bliver så enkel at bruge, er det et stykke kage, der begynder at generere rapporter og grafer, for ikke at nævne datafiler.Du kan køre procedurer bogstaveligt med et tryk på en knap. Du kan generere flere dusin grafer baseret på forskellige datatransformationer om et par minutter. Det gør det ret nemt at miste hvad du har gjort, og hvorfor.

Det er vigtigt at sikre, at du holder en skriftlig oversigt over, hvad du er i færd med. Grafer skal mærkes med navnet (og versionen) af de data, der blev brugt til at oprette dem. Statistiske procedurer, som du opbygger, skal gemmes og dokumenteres.

Det er også vigtigt at sikkerhedskopiere dine datafiler. I løbet af din analyse vil du sandsynligvis oprette flere versioner af dine data, der afspejler forskellige rettelser og transformation af variabler. Du skal gemme de procedurer, der oprettede disse versioner. De skal også dokumenteres på en måde, der beskriver, hvilke transformationer du har lavet og hvorfor.

Dokumentation er ikke nogen yndlingsopgave, men vi taler fra erfaring, når vi kraftigt opfordrer dig til ikke at stole på din hukommelse, når det kommer til dine analyseprojekter.

Ved at gennemgå de trin, der netop er beskrevet, maksimerer du pålideligheden af ​​dine statistiske modeller. I mange tilfælde er prep-arbejdet faktisk mere tidskrævende end den faktiske modelbygning. Men det er nødvendigt. Og du vil i sidste ende takke dig for at arbejde igennem det metodisk.

8 Bedste Practices in Data Preparation - dummies

Valg af editor

Bygg dit eget sociale fællesskab for handel - dummies

Bygg dit eget sociale fællesskab for handel - dummies

På et velproduceret forretningswebsted, du Se ofte et link til et socialt samfundsområde, hvilket også kan føre offsite til sociale medier. Dette område er hvor kundeservice og FAQs sider lever. Du kan også finde et kunde-til-kunde-fællesskab, der tilskynder deltagelse fra dem, der besøger forretningssiden. Uanset om du vælger ...

Bedste praksis til e-mailmarkedsføring - dummies

Bedste praksis til e-mailmarkedsføring - dummies

Emnet for din sociale medievirksomhed e -mails skal være om at opfylde dine kunders interesser. Du kender dine kunder bedre end nogen. Hvis de vil have opskrifter, skal du f.eks. Have en opskrift i din e-mail. Har indhold, der vedrører din virksomhed og kundens behov. Bygg på loyalitetsforslaget og lav ...

Bygg online indtjening gennem links på Amazon og Social Media - dummies

Bygg online indtjening gennem links på Amazon og Social Media - dummies

Sælger gennem billeder og indhold, du deler på populære sociale medier, er en fantastisk måde at nå ud til kunderne. Du kan gøre mere end blot at linke til produkter - find ud af hvordan du kan tjene penge på dit oprindelige indhold, du udgiver. Du genererer indtægter på din hjemmeside og sociale medier via annoncer og links. Hvis du producerer ...

Valg af editor

Hvordan man bruger f-distributioner i Excel - dummies

Hvordan man bruger f-distributioner i Excel - dummies

F-distributioner er sandsynlighedsfordelinger i Excel, der sammenligner forholdet i variationer af prøver trukket fra forskellige populationer. Denne sammenligning giver en konklusion om, hvorvidt afvigelserne i de underliggende populationer ligner hinanden. F. DIST: Left-tailed f-distribution sandsynlighed F. DIST-funktionen returnerer den venstre-tailed sandsynlighed for at observere et forhold på to samples 'variationer så store ...

Sådan bruges logaritmisk skalering til Excel-dataanalyse - dummier

Sådan bruges logaritmisk skalering til Excel-dataanalyse - dummier

Logaritmer og logaritmisk skalering er værktøjer, som du vil bruge i dine Excel-diagrammer, fordi de gør det muligt for dig at gøre noget meget kraftfuldt. Ved logaritmisk skalering af din værdi-akse kan du sammenligne den relative ændring (ikke den absolutte ændring) i datareserværdier. For eksempel, sig at du vil sammenligne salget ...

Sådan bruges Flash Fill in Excel 2016 - dummies

Sådan bruges Flash Fill in Excel 2016 - dummies

Excel 2016s handy Flash Fill-funktion giver dig evnen at tage en del af de data, der er indtastet i en kolonne i et regnearktabell, og indtast bare disse data i en ny tabelkolonne ved kun at bruge et par tastetryk. Serien af ​​indgange vises i den nye kolonne, bogstaveligt talt i en flash (således ...

Valg af editor

ØGe din blog med bedre indhold - dummier

ØGe din blog med bedre indhold - dummier

Som du tænker på måder at generere buzz på din blog, du kan også forbedre kvaliteten af ​​din blog ved at fokusere på dine bogføringsteknikker. Disse tip kan give dig nogle gode promoveringsideer: Skriv om aktuelle eller kontroversielle problemer. Denne ide virker som en no-brainer, men det er nemt at glemme. Betal ...

Opbygge et XML-sitemap og forbedre din blogs SEO-design - dummies

Opbygge et XML-sitemap og forbedre din blogs SEO-design - dummies

Søgemaskineoptimering ) handler om at øge din blogs synlighed i søgemaskiner som Google. Forbedre din WordPress blogs SEO gennem smarte design valg. Antag for eksempel at du skriver et indlæg om planlægning af en superhelt fødselsdagsfest. Du vil gerne have, at posten vises i søgeresultater, når nogen skriver "superheltefødselsdagsfest" i ...

Mærke dit WordPress-mobilwebsted med gratis blogdesign - dummies

Mærke dit WordPress-mobilwebsted med gratis blogdesign - dummies

Mest WordPress mobile plug- ins for din blogs design kan tilpasses. Du tilpasser en mobil plugin til din blog ved at ændre farver og temaer, tilføje et brugerdefineret logoikon og indstille en brugerdefineret hjemmeside. Med WPtouch mobile plug-in kan du tilføje branding som supplerer din blogs design og gør det nemmere at navigere. Før du ...