Hjem Personlig finansiering Ser dine data korrekt ud? - dummies

Ser dine data korrekt ud? - dummies

Indholdsfortegnelse:

Video: How to be Politically Correct! 2025

Video: How to be Politically Correct! 2025
Anonim

De fleste datasæt kommer med en slags metadata, , som i det væsentlige er en beskrivelse af dataene i fil. Metadata indeholder typisk beskrivelser af formaterne, en angivelse af, hvilke værdier der er i hvert datafelt, og hvad disse værdier betyder.

Når du står over for et nyt datasæt, skal du aldrig tage metadata til pålydende værdi. Den store karakter af store data kræver, at de systemer, der genererer det, holdes op og kører så meget som muligt. Af denne grund er opdatering af metadataene for disse systemer, når ændringer er implementeret, ikke altid en topprioritet. Du skal bekræfte, at dataene virkelig er som metadata hævder.

Kontrol af dine kilder

Så klart som det lyder, er det vigtigt, at du har tillid til, hvor dine data kommer fra. Dette er især vigtigt, når du køber data. Tusindvis af leverandører derude tilbyder alle tænkelige data. Og de er ikke alle lige troværdighed.

Før du køber data, skal du prøve at forstå præcis, hvor og hvordan sælgeren samler den. Mysteri og vaghed er røde flag.

Tag ikke sælgerne på deres ord. Stol ikke udelukkende på kundetilfredshedsposteringer på hjemmesiden eller klienthenvisninger fra sælgeren. Hvis det er muligt, prøv at spore en person, der bruger eller har brugt dataene.

Hvis dine data kommer fra interne systemer, er det stadig vigtigt at evaluere kilderne. Forskellige systemer har forskellige formål og fokuserer derfor på forskellige data. De kan også indsamle data på forskellige tidspunkter.

For eksempel er det ikke ualmindeligt, at nogle hotelkæder bestiller reservationer i et separat system fra den, de bruger i receptionen, når gæsten tjekker ind. Det er muligt at gæsten kan modtage et diskonteret tilbud mellem booking og check-in. Dette betyder, at værelsesprisen i reservationssystemet muligvis ikke svarer til prisen i receptionen. Derudover kan reservationen blive aflyst og aldrig gøre det til receptionen!

Antag nu, at du foretager en analyse af hotelindtægter pr. By. Det er ret vigtigt, at du ved, at dine værelsesprisdata hentes fra receptionen i stedet for reservationssystemet. Men hvad nu hvis du forsøger at analysere, hvor mange reservationer der blev genereret af virksomhedens Super Bowl-reklame? I dette tilfælde vil du se data fra reservationssystemet.

Hoteleksemplet illustrerer, at selv rent faktisk rene data kan være problematiske. Selvom data er nøjagtige og præcis hvad det påstår at være, kan timing være et problem.Data ændres over tid.

Bekræftelse af formater

Som nævnt tidligere i dette kapitel er en af ​​de ting, som dine metadata giver dig, en indikation af, hvordan dataene formateres. Ved formateret, mener vi, hvordan hvert enkelt dataelement ser ud. Er "Produktkode" et tegn eller et tal? Er "Startdato" en dato, eller er det virkelig et datetime-frimærke?

Datatyper er vigtige i statistisk analyse, fordi de dikterer, hvilke statistiske og statistiske procedurer der kan anvendes til hvilke dataelementer. Hvis du forsøger at tage gennemsnitsværdien af ​​et tegnfelt som "Fornavn", får du en fejlmeddelelse hver gang.

Typisk er denne type metadata ret præcis. Det gemmes generelt af systemet, der indeholder dataene og kan genereres automatisk. Bekræftelse af formaterne er generelt ret ligetil. En sådan verifikation er i det væsentlige et biprodukt af valideringen af ​​dataområder diskuteret i det følgende afsnit. Men der er tilfælde hvor det kan være lidt vanskeligere.

Vi har set et sådant scenario flere gange, end vi er tilbøjelige til at huske. Det sker undertiden, at når et system først er designet, forsøger udviklingsholdet at sætte fleksibilitet i datastrukturerne for at imødekomme fremtidige forbedringer. Nogle gange tilføjer de blot en masse tomme (og brede) alfanumeriske datakolonner på slutningen af ​​hver post. Disse hjælpekolonner er oprindeligt ikke brugt til noget.

Analytikere vil altid fejle på siden af ​​at bede om flere data snarere end mindre - ofte, alle data i stedet for nogle. Denne kendsgerning kombineret med behovet for at få dataene hurtigt, resulterer nogle gange i en datadump. Denne dump indeholder generelt hjælpekolonnerne. I disse tilfælde fortæller metadata dig noget som "Fields 1-11" er formateret som "200 alfanumeriske tegn. "

Sådan information er praktisk talt ubrugelig. For at give mening om et datafelt som dette, skal du stort set få dine hænder snavset. Der er ikke meget du kan gøre undtagen at gennemgå et par dusin optegnelser og forsøge at gøre et informeret gæt om, hvad der egentlig er i marken. I de fleste tilfælde har disse felter tendens til at være tomme. Men ikke altid. Den gode nyhed er, at hvis feltet faktisk bliver brugt, skal du være i stand til at finde en programmør et sted, der ved, hvad det bruges til.

Typecasting dine data

Et af de mest kritiske trin i udførelsen af ​​en statistisk analyse er at sikre, at dine data er, hvad det påstår at være. Statistiske procedurer kolliderer altid, hvis du ikke giver dem gyldige oplysninger om dataformater. Men disse procedurer er stort set blinde for problemer med dataens gyldighed.

Forståelse af, hvordan et datafelt er formateret, er ikke nok. Før du skifter et datasæt til en statistisk procedure, skal du forstå, hvad dataene faktisk er i hvert af de felter, du bruger.

De fleste data falder ind i en af ​​fire kategorier: nominelt, ordinært, interval og forhold.Datatypen bestemmer, hvilken slags statistik og statistiske procedurer der kan anvendes på bestemte datafelter. Du kan f.eks. Ikke tage et gennemsnit af et felt som "Efternavn".

Forvirrende datatyper med dataformater er nemme (og alt for almindelige). At vide, om et datafelt er et tegn, heltal eller kontinuert, fortæller ikke datatypen.

Tegnfelter bruges nogle gange som pladsholdere til data, som kan blive fanget i fremtidige udgivelser af et system. Der er intet, der forhindrer et sådant felt i at blive brugt til at indfange monetære eller andre numeriske data.

Den mest almindelige fejl i datatypen indebærer, at et numerisk felt, især et helt værdieret felt, faktisk indeholder numeriske ordinære data. Det er meget almindeligt, at virksomhederne bruger numeriske koder ( nominelle data) til at repræsentere produkter, regioner, butikker og forskellige andre enheder.

Flyselskabsflyvekoder er et eksempel. Folkestatistiske regioner er en anden. Selv kreditkort og socialsikringsnumre gemmes typisk som heltal. Men alle disse enheder er kun identifikatorer. De er nominelle variabler. Det gennemsnitlige kreditkortnummer i en banks portefølje er en meningsløs statistik.

Ser dine data korrekt ud? - dummies

Valg af editor

Fotografering af fugle Brug af dine digitale spejlreflekskameraer

Fotografering af fugle Brug af dine digitale spejlreflekskameraer

Du kan optage interessante billeder af fugle store og små med din digitale spejlreflekskamera . Du behøver bare lidt tålmodighed og lidt viden om den fugl, du vil fotografere. En fuglefoder er et ideelt sted at fotografere små fugle. Du kan rejse til et område med en sø eller flod eller til ...

Fotografering af byer med dine digitale spejlreflekskameraer

Fotografering af byer med dine digitale spejlreflekskameraer

Om du bor i en søvnig lille by eller en storby, der overfylder menneskeheden kan din digitale spejlreflekskamera fange hjertet og sjælen i din hjemby. Du kan eksperimentere med at tage billeder om natten, når byen er dramatisk eller øde eller om dagen, når beboerne og deres aktiviteter gør byen ...

Fotografering af objekter i bevægelse - dummier

Fotografering af objekter i bevægelse - dummier

Der er et par tankeskoler om fotografering af objekter i bevægelse. Opskriften på en perfekt eksponering kan opnås på mange måder. Du kan vælge en lille blænde (stort f-stopnummer) for at få en stor dybdeskarphed, eller du kan vælge en hurtig lukkerhastighed, hvilket betyder en stor blænde (lille ...

Valg af editor

Hvordan man fortjener mor fra blogging uden at sælge - dummier

Hvordan man fortjener mor fra blogging uden at sælge - dummier

Sælger er et udtryk, der anvendes til kompromittere din integritet, principper eller moral for at vinde penge eller succes. Problemet er, at hvis alle havde de samme principper og definition af integritet, ville der ikke være meget behov for forskellige politiske partier eller religioner. Folk kan anklaget for at sælge ud, hvis de simpelthen gør ting som ...

Hvordan man korrekt bruger nøgleord til din online community - dummies

Hvordan man korrekt bruger nøgleord til din online community - dummies

Når du har en god ide om hvilke typer søgeord der skal bruges i dit online-fællesskab, er det tid til at skrive indholdet, så det ser naturligt ud. For mange mennesker peber søgeord liberalt omkring deres blogindlæg, web artikler, Om sider og andet indhold, som ser dumt og forkert ud. Selvom du bruger nøgleord, er det godt ...

Sådan sættes annoncer på din blog - dummies

Sådan sættes annoncer på din blog - dummies

For at få annoncer på din blogwebsite, de programmer du tilmelde dig normalt give dig en smule kode, som du indsætter i din hjemmeside skabeloner. Nogle programmer har trinvise instruktioner til populære blogsoftwarepakker, men vær opmærksom på at du måske også har brug for at konsultere dokumentation til blogsoftware til hjælp med ...

Valg af editor

Ompirrende Signaler og hvad de betyder i Cricket - Dummies

Ompirrende Signaler og hvad de betyder i Cricket - Dummies

Embedsmændene med ansvar for et cricketpil er kaldet umpires, og de har en lang række signaler til at angive de beslutninger, de træffer i løbet af et spil. Disse er de vigtigste. Højre arm udstrakte. No-bold. Dette signal indikerer, at bowlerens fod har landet over frontlinjen af ​​...

Vælg en Tennis Racquet - Dummies

Vælg en Tennis Racquet - Dummies

Ja, du kan støv af den racquet, du spillede for fem år siden og give det en strålende tilbagevenden til retten - hvis det føles godt i din hånd og det får dine skud hvor (og hvordan) vil du have dem til at gå. Hvis du er på markedet for et nyt våben, vil du dog ...

Skæring og dicing, tennis stil - dummies

Skæring og dicing, tennis stil - dummies

Skive eller backspin, får tennisbolden til at vende tilbage mod effektkilde (dig). Når et stykke skud springer, forbliver bolden lavt, hvilket tvinger din modstander til virkelig at strække for at komme til bolden. Hvis spillere gerne angriber nettet og volley, skar de meget. Skiven kan være en nyttig ...