Indholdsfortegnelse:
Video: How to be Politically Correct! 2025
De fleste datasæt kommer med en slags metadata, , som i det væsentlige er en beskrivelse af dataene i fil. Metadata indeholder typisk beskrivelser af formaterne, en angivelse af, hvilke værdier der er i hvert datafelt, og hvad disse værdier betyder.
Når du står over for et nyt datasæt, skal du aldrig tage metadata til pålydende værdi. Den store karakter af store data kræver, at de systemer, der genererer det, holdes op og kører så meget som muligt. Af denne grund er opdatering af metadataene for disse systemer, når ændringer er implementeret, ikke altid en topprioritet. Du skal bekræfte, at dataene virkelig er som metadata hævder.
Kontrol af dine kilder
Så klart som det lyder, er det vigtigt, at du har tillid til, hvor dine data kommer fra. Dette er især vigtigt, når du køber data. Tusindvis af leverandører derude tilbyder alle tænkelige data. Og de er ikke alle lige troværdighed.
Før du køber data, skal du prøve at forstå præcis, hvor og hvordan sælgeren samler den. Mysteri og vaghed er røde flag.
Tag ikke sælgerne på deres ord. Stol ikke udelukkende på kundetilfredshedsposteringer på hjemmesiden eller klienthenvisninger fra sælgeren. Hvis det er muligt, prøv at spore en person, der bruger eller har brugt dataene.
Hvis dine data kommer fra interne systemer, er det stadig vigtigt at evaluere kilderne. Forskellige systemer har forskellige formål og fokuserer derfor på forskellige data. De kan også indsamle data på forskellige tidspunkter.
For eksempel er det ikke ualmindeligt, at nogle hotelkæder bestiller reservationer i et separat system fra den, de bruger i receptionen, når gæsten tjekker ind. Det er muligt at gæsten kan modtage et diskonteret tilbud mellem booking og check-in. Dette betyder, at værelsesprisen i reservationssystemet muligvis ikke svarer til prisen i receptionen. Derudover kan reservationen blive aflyst og aldrig gøre det til receptionen!
Antag nu, at du foretager en analyse af hotelindtægter pr. By. Det er ret vigtigt, at du ved, at dine værelsesprisdata hentes fra receptionen i stedet for reservationssystemet. Men hvad nu hvis du forsøger at analysere, hvor mange reservationer der blev genereret af virksomhedens Super Bowl-reklame? I dette tilfælde vil du se data fra reservationssystemet.
Hoteleksemplet illustrerer, at selv rent faktisk rene data kan være problematiske. Selvom data er nøjagtige og præcis hvad det påstår at være, kan timing være et problem.Data ændres over tid.
Bekræftelse af formater
Som nævnt tidligere i dette kapitel er en af de ting, som dine metadata giver dig, en indikation af, hvordan dataene formateres. Ved formateret, mener vi, hvordan hvert enkelt dataelement ser ud. Er "Produktkode" et tegn eller et tal? Er "Startdato" en dato, eller er det virkelig et datetime-frimærke?
Datatyper er vigtige i statistisk analyse, fordi de dikterer, hvilke statistiske og statistiske procedurer der kan anvendes til hvilke dataelementer. Hvis du forsøger at tage gennemsnitsværdien af et tegnfelt som "Fornavn", får du en fejlmeddelelse hver gang.
Typisk er denne type metadata ret præcis. Det gemmes generelt af systemet, der indeholder dataene og kan genereres automatisk. Bekræftelse af formaterne er generelt ret ligetil. En sådan verifikation er i det væsentlige et biprodukt af valideringen af dataområder diskuteret i det følgende afsnit. Men der er tilfælde hvor det kan være lidt vanskeligere.
Vi har set et sådant scenario flere gange, end vi er tilbøjelige til at huske. Det sker undertiden, at når et system først er designet, forsøger udviklingsholdet at sætte fleksibilitet i datastrukturerne for at imødekomme fremtidige forbedringer. Nogle gange tilføjer de blot en masse tomme (og brede) alfanumeriske datakolonner på slutningen af hver post. Disse hjælpekolonner er oprindeligt ikke brugt til noget.
Analytikere vil altid fejle på siden af at bede om flere data snarere end mindre - ofte, alle data i stedet for nogle. Denne kendsgerning kombineret med behovet for at få dataene hurtigt, resulterer nogle gange i en datadump. Denne dump indeholder generelt hjælpekolonnerne. I disse tilfælde fortæller metadata dig noget som "Fields 1-11" er formateret som "200 alfanumeriske tegn. "
Sådan information er praktisk talt ubrugelig. For at give mening om et datafelt som dette, skal du stort set få dine hænder snavset. Der er ikke meget du kan gøre undtagen at gennemgå et par dusin optegnelser og forsøge at gøre et informeret gæt om, hvad der egentlig er i marken. I de fleste tilfælde har disse felter tendens til at være tomme. Men ikke altid. Den gode nyhed er, at hvis feltet faktisk bliver brugt, skal du være i stand til at finde en programmør et sted, der ved, hvad det bruges til.
Typecasting dine data
Et af de mest kritiske trin i udførelsen af en statistisk analyse er at sikre, at dine data er, hvad det påstår at være. Statistiske procedurer kolliderer altid, hvis du ikke giver dem gyldige oplysninger om dataformater. Men disse procedurer er stort set blinde for problemer med dataens gyldighed.
Forståelse af, hvordan et datafelt er formateret, er ikke nok. Før du skifter et datasæt til en statistisk procedure, skal du forstå, hvad dataene faktisk er i hvert af de felter, du bruger.
De fleste data falder ind i en af fire kategorier: nominelt, ordinært, interval og forhold.Datatypen bestemmer, hvilken slags statistik og statistiske procedurer der kan anvendes på bestemte datafelter. Du kan f.eks. Ikke tage et gennemsnit af et felt som "Efternavn".
Forvirrende datatyper med dataformater er nemme (og alt for almindelige). At vide, om et datafelt er et tegn, heltal eller kontinuert, fortæller ikke datatypen.
Tegnfelter bruges nogle gange som pladsholdere til data, som kan blive fanget i fremtidige udgivelser af et system. Der er intet, der forhindrer et sådant felt i at blive brugt til at indfange monetære eller andre numeriske data.
Den mest almindelige fejl i datatypen indebærer, at et numerisk felt, især et helt værdieret felt, faktisk indeholder numeriske ordinære data. Det er meget almindeligt, at virksomhederne bruger numeriske koder ( nominelle data) til at repræsentere produkter, regioner, butikker og forskellige andre enheder.
Flyselskabsflyvekoder er et eksempel. Folkestatistiske regioner er en anden. Selv kreditkort og socialsikringsnumre gemmes typisk som heltal. Men alle disse enheder er kun identifikatorer. De er nominelle variabler. Det gennemsnitlige kreditkortnummer i en banks portefølje er en meningsløs statistik.