Hjem Personlig finansiering Hvordan man renser data til prædiktiv analyse - dummier

Hvordan man renser data til prædiktiv analyse - dummier

Video: Hvordan kan man sende data over elledninger? 2024

Video: Hvordan kan man sende data over elledninger? 2024
Anonim

Før du kører en forudsigende analyse, skal du sørge for, at dataene er rene af fremmede ting, før du kan bruge det i din model. Dette omfatter at finde og rette eventuelle poster, der indeholder fejlagtige værdier, og forsøger at udfylde eventuelle manglende værdier. Du skal også beslutte, om du skal medtage dublette poster (to kundekonti, for eksempel).

Det overordnede mål er at sikre integriteten af ​​de oplysninger, du bruger til at opbygge din prædiktive model. Vær særlig opmærksom på datas fuldstændighed, rigtighed og aktualitet.

Det er nyttigt at oprette beskrivende statistikker (kvantitative egenskaber) for forskellige felter, såsom beregning af min og max, kontrol frekvensfordeling (hvor ofte sker noget) og verificere de forventede intervaller. Hvis du kører en regelmæssig check, kan du flagge alle data, der ligger uden for det forventede område for yderligere undersøgelse. Eventuelle poster, der viser pensionister med fødselsdatoer i 1990'erne, kan markeres med denne metode.

Det er også vigtigt at krydstjekke oplysningerne, så du sikrer, at dataene er korrekte. For en dybere analyse af dataegenskaberne og identifikation af forholdet mellem dataposter kan du benytte data profiling (analyse af data tilgængelighed og indsamling af statistikker om datakvaliteten) og visualiseringsværktøjer.

Manglende data kan skyldes, at bestemte oplysninger ikke blev registreret. I et sådant tilfælde kan du forsøge at udfylde så meget som muligt; Egnede standardindstillinger kan let tilføjes for at udfylde emnerne i bestemte felter.

For eksempel på patienter i en sygeplejerskefødselsafdeling, hvor kønsfeltet mangler en værdi, kan ansøgningen simpelthen udfylde den som kvindelig. For så vidt angår enhver mand, der blev optaget på et hospital med en manglende post for graviditetsstatus, kan denne post ligeledes udfyldes som ikke relevant.

En manglende postnummer for en adresse kan udledes af gadenavnet og den by, der er angivet i denne adresse.

I de tilfælde, hvor oplysningerne er ukendte eller ikke kan udledes, skal du bruge værdier andre end et tomt rum for at angive, at dataene mangler uden at påvirke analysens rigtighed. Et tomt i dataene kan betyde flere ting, de fleste af dem er ikke gode eller nyttige. Når du kan, skal du angive naturen af ​​det blanke ved et meningsfuldt stedfyldemiddel.

Ligesom det er muligt at definere en rose i en kornmark som en ukrudt, kan outliers betyde forskellige ting til forskellige analyser.Det er almindeligt, at nogle modeller skal bygges udelukkende for at spore disse outliers og flagge dem.

Frauddetekteringsmodeller og overvågning af kriminelle aktiviteter er interesserede i de afvigende, som i sådanne tilfælde viser noget uønsket sted. Derfor anbefales det at holde outliers i datasættet i tilfælde som disse. Men når uregelmæssigheder betragtes som uregelmæssigheder inden for dataene - og kun vil forskere analyserne og føre til fejlagtige resultater - fjern dem fra dine data.

Duplikering i dataene kan også være nyttigt eller en gener; noget af det kan være nødvendigt, kan indikere værdi og kan afspejle en nøjagtig tilstand af dataene. For eksempel kan en rekord af en kunde med flere konti repræsenteres med flere poster, der (teknisk set alligevel) er duplikat og gentagne af de samme poster.

Når de dobbelte optegnelser ikke bidrager med værdien til analysen og ikke er nødvendige, kan fjernelse af dem være af stor værdi. Dette gælder især for store datasæt, hvor fjernelse af dublette poster kan forenkle dataens kompleksitet og reducere den tid, der er nødvendig til analyse.

Du kan forebyggende forhindre ukorrekte data i at komme ind i dine systemer ved at vedtage nogle specifikke procedurer:

  • Institutkvalitetskontrol og data validering for alle data, der indsamles.

  • Tillad dine kunder at validere og selvkorrekte deres personlige data.

  • Giv dine kunder mulige og forventede værdier at vælge imellem.

  • Rutinemæssigt kører kontrol af dataets integritet, konsistens og nøjagtighed.

Hvordan man renser data til prædiktiv analyse - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...