Sådan håndteres dupliceringsværdier i dine data

Video: Sådan håndteres udslip af hydrazin fra F16-fly 2025

Data lagres på forskellige måder i forskellige systemer. Så det er ikke overraskende, at når du samler og konsoliderer data fra forskellige kilder, er det muligt, at duplikater dukker op. Især er det, der gør en individuel rekord unik, forskellig for forskellige systemer.

Sammenfatning af investeringskonto er knyttet til et kontonummer. Et porteføljesammendrag kan lagres på individuel eller husstandsniveau. Og handelshistorikken for alle disse konti gemmes på det enkelte transaktionsniveau.

Det er vigtigt at være klar over, hvad der skal differentiere unikke poster i din datafil. Hvis det for eksempel er en transaktionsniveaufil, bliver kontonumre og husstands-id'er dupliceret. Så længe du forstår dette og laver en transaktionsniveauanalyse, vil du være i orden.

Men hvis du er interesseret i at bruge disse data til at analysere antallet af konti, der holdes af hver husstand, vil du løbe ind i problemer. Husholdningerne, der handler oftere, vil have flere poster end dem, der ikke handler meget. Du skal have en fil på kontoniveau.

Det er ikke særlig vanskeligt at fjerne duplikater. De fleste statistiske pakker og databasesystemer har indbyggede kommandoer, som gruppeposter optæller sammen. (Faktisk i databasens sprog SQL, kaldes denne kommando Gruppe By.)