Manglende værdier i dine data - dummies - Personlig finansiering 2024

Video: How Computers Work: Binary & Data 2024

En af de hyppigste og mest beskedne dataproblemer, der skal håndteres, mangler data. Filerne kan være ufuldstændige, fordi optegnelser blev tabt eller en lagerenhed fyldt op. Eller visse datafelter kan muligvis ikke indeholde data for nogle poster. Det første af disse problemer kan diagnosticeres ved blot at verificere optegnelser for filer. Det andet problem er sværere at håndtere.

Når du finder et felt med manglende værdier, har du to valg:

Ignorer det.
Stick noget i feltet.

Ignorerer problemet

I nogle tilfælde kan du simpelthen finde et enkelt felt med et stort antal manglende værdier. Hvis det er tilfældet, er det nemmeste at gøre, bare ignorere feltet. Indsæt det ikke i din analyse.

En anden måde at ignorere problemet på er at ignorere posten. Du skal blot slette posten med de manglende data. Det kan være fornuftigt, hvis der kun er nogle få slyngelskrifter. Men hvis der er flere datafelter med betydeligt antal manglende værdier, kan denne tilgang krympe dit rekordantal til et uacceptabelt niveau.

En anden ting at passe på, før du blot sletter optegnelser er et tegn på et mønster. Antag for eksempel, at du analyserer et datasæt relateret til kreditkortbalancer landsdækkende. Du kan godt finde en hel masse poster, der viser $ 0. 00 saldi (måske omkring halvdelen af optegnelserne). Dette er ikke i sig selv en indikation af manglende data. Men hvis alle optegnelser fra f.eks. Californien viser $ 0. 00 saldi, der angiver et potentielt manglende værdiproblem. Og det er ikke en, der ville blive gavnligt løst ved at slette alle optegnelser fra den største stat i landet. I dette tilfælde er det sandsynligvis et systemproblem og angiver, at der skal oprettes en ny fil.

Generelt er sletning af poster en let, men ikke ideel løsning på manglende værdiproblemer. Hvis problemet er forholdsvis lille, og der ikke er noget mærkbart mønster for udeladelserne, så kan det være okay at jettison de fornærmende poster og fortsætte. Men ofte er en mere highbrow tilgang berettiget.

Udfyldning af de manglende data

Udfyldning af de manglende data beløber til at udarbejde et uddannet gæt om, hvad der ville have været i dette felt. Der er gode og dårlige måder at gøre dette på. En simpel (men dårlig) tilgang er at erstatte de manglende værdier med gennemsnittet af de ikke-manglende. I ikke-numeriske felter kan du blive fristet til at udfylde de manglende arkiver med den mest almindelige værdi i de andre poster (tilstanden).

Disse fremgangsmåder anvendes desværre stadig ofte i nogle forretningsapplikationer.Men de betragtes bredt af statistikere som dårlige ideer. For det første er det hele meningen med statistisk analyse at finde data, som adskiller et resultat fra et andet. Ved at erstatte alle de manglende arkiver med samme værdi har du ikke differentieret noget.

Den mere highbrow tilgang er at forsøge at finde en måde at forudsige på en meningsfuld måde, hvilken værdi skal udfyldes på hver post, der mangler en værdi. Dette indebærer at se på de fuldstændige registreringer og forsøge at finde spor om, hvad den manglende værdi kan være.

Antag at du analyserer en demografisk fil for at forudsige sandsynlige købere af et af dine produkter. I den fil har du blandt andet felter information om civilstand, antal børn og antal biler. Af en eller anden grund mangler antallet af autofelt i en tredjedel af posterne.

Ved at analysere de to andre felter - civilstand og antal børn - kan du opdage nogle mønstre. Enkeltpersoner har en tendens til at have en bil. Giftede mennesker uden børn har en tendens til at have to biler. Giftede mennesker med mere end et barn kan være mere tilbøjelige til at have tre biler. På denne måde kan du gætte på de manglende værdier på en måde, der faktisk differentierer optegnelserne. Mere om denne tilgang til at komme.

Der er et generelt begreb i statistik og databehandling, der refererer til tvivlsomme data. Udtrykket støjende bruges til at beskrive data, der er upålidelige, korrupte eller ellers mindre end uberørte. Manglende data er blot et eksempel på dette. En detaljeret beskrivelse af teknikker til rydning af støjende data generelt ligger uden for denne bogs anvendelsesområde. Faktisk er dette et aktivt forskningsområde i statistisk teori. Den kendsgerning, at al støj ikke er så let at få øje på som manglende værdier gør det vanskeligt at håndtere.