Hvordan man renser data til prædiktiv analyse - dummier

Video: Hvordan kan man sende data over elledninger? 2025

Før du kører en forudsigende analyse, skal du sørge for, at dataene er rene af fremmede ting, før du kan bruge det i din model. Dette omfatter at finde og rette eventuelle poster, der indeholder fejlagtige værdier, og forsøger at udfylde eventuelle manglende værdier. Du skal også beslutte, om du skal medtage dublette poster (to kundekonti, for eksempel).

Det overordnede mål er at sikre integriteten af de oplysninger, du bruger til at opbygge din prædiktive model. Vær særlig opmærksom på datas fuldstændighed, rigtighed og aktualitet.

Det er nyttigt at oprette beskrivende statistikker (kvantitative egenskaber) for forskellige felter, såsom beregning af min og max, kontrol frekvensfordeling (hvor ofte sker noget) og verificere de forventede intervaller. Hvis du kører en regelmæssig check, kan du flagge alle data, der ligger uden for det forventede område for yderligere undersøgelse. Eventuelle poster, der viser pensionister med fødselsdatoer i 1990'erne, kan markeres med denne metode.

Det er også vigtigt at krydstjekke oplysningerne, så du sikrer, at dataene er korrekte. For en dybere analyse af dataegenskaberne og identifikation af forholdet mellem dataposter kan du benytte data profiling (analyse af data tilgængelighed og indsamling af statistikker om datakvaliteten) og visualiseringsværktøjer.

Manglende data kan skyldes, at bestemte oplysninger ikke blev registreret. I et sådant tilfælde kan du forsøge at udfylde så meget som muligt; Egnede standardindstillinger kan let tilføjes for at udfylde emnerne i bestemte felter.

For eksempel på patienter i en sygeplejerskefødselsafdeling, hvor kønsfeltet mangler en værdi, kan ansøgningen simpelthen udfylde den som kvindelig. For så vidt angår enhver mand, der blev optaget på et hospital med en manglende post for graviditetsstatus, kan denne post ligeledes udfyldes som ikke relevant.

En manglende postnummer for en adresse kan udledes af gadenavnet og den by, der er angivet i denne adresse.

I de tilfælde, hvor oplysningerne er ukendte eller ikke kan udledes, skal du bruge værdier andre end et tomt rum for at angive, at dataene mangler uden at påvirke analysens rigtighed. Et tomt i dataene kan betyde flere ting, de fleste af dem er ikke gode eller nyttige. Når du kan, skal du angive naturen af det blanke ved et meningsfuldt stedfyldemiddel.

Ligesom det er muligt at definere en rose i en kornmark som en ukrudt, kan outliers betyde forskellige ting til forskellige analyser.Det er almindeligt, at nogle modeller skal bygges udelukkende for at spore disse outliers og flagge dem.

Frauddetekteringsmodeller og overvågning af kriminelle aktiviteter er interesserede i de afvigende, som i sådanne tilfælde viser noget uønsket sted. Derfor anbefales det at holde outliers i datasættet i tilfælde som disse. Men når uregelmæssigheder betragtes som uregelmæssigheder inden for dataene - og kun vil forskere analyserne og føre til fejlagtige resultater - fjern dem fra dine data.

Duplikering i dataene kan også være nyttigt eller en gener; noget af det kan være nødvendigt, kan indikere værdi og kan afspejle en nøjagtig tilstand af dataene. For eksempel kan en rekord af en kunde med flere konti repræsenteres med flere poster, der (teknisk set alligevel) er duplikat og gentagne af de samme poster.

Når de dobbelte optegnelser ikke bidrager med værdien til analysen og ikke er nødvendige, kan fjernelse af dem være af stor værdi. Dette gælder især for store datasæt, hvor fjernelse af dublette poster kan forenkle dataens kompleksitet og reducere den tid, der er nødvendig til analyse.

Du kan forebyggende forhindre ukorrekte data i at komme ind i dine systemer ved at vedtage nogle specifikke procedurer: