Hjem Personlig finansiering Ser dine data korrekt ud? - dummies

Ser dine data korrekt ud? - dummies

Indholdsfortegnelse:

Video: How to be Politically Correct! 2024

Video: How to be Politically Correct! 2024
Anonim

De fleste datasæt kommer med en slags metadata, , som i det væsentlige er en beskrivelse af dataene i fil. Metadata indeholder typisk beskrivelser af formaterne, en angivelse af, hvilke værdier der er i hvert datafelt, og hvad disse værdier betyder.

Når du står over for et nyt datasæt, skal du aldrig tage metadata til pålydende værdi. Den store karakter af store data kræver, at de systemer, der genererer det, holdes op og kører så meget som muligt. Af denne grund er opdatering af metadataene for disse systemer, når ændringer er implementeret, ikke altid en topprioritet. Du skal bekræfte, at dataene virkelig er som metadata hævder.

Kontrol af dine kilder

Så klart som det lyder, er det vigtigt, at du har tillid til, hvor dine data kommer fra. Dette er især vigtigt, når du køber data. Tusindvis af leverandører derude tilbyder alle tænkelige data. Og de er ikke alle lige troværdighed.

Før du køber data, skal du prøve at forstå præcis, hvor og hvordan sælgeren samler den. Mysteri og vaghed er røde flag.

Tag ikke sælgerne på deres ord. Stol ikke udelukkende på kundetilfredshedsposteringer på hjemmesiden eller klienthenvisninger fra sælgeren. Hvis det er muligt, prøv at spore en person, der bruger eller har brugt dataene.

Hvis dine data kommer fra interne systemer, er det stadig vigtigt at evaluere kilderne. Forskellige systemer har forskellige formål og fokuserer derfor på forskellige data. De kan også indsamle data på forskellige tidspunkter.

For eksempel er det ikke ualmindeligt, at nogle hotelkæder bestiller reservationer i et separat system fra den, de bruger i receptionen, når gæsten tjekker ind. Det er muligt at gæsten kan modtage et diskonteret tilbud mellem booking og check-in. Dette betyder, at værelsesprisen i reservationssystemet muligvis ikke svarer til prisen i receptionen. Derudover kan reservationen blive aflyst og aldrig gøre det til receptionen!

Antag nu, at du foretager en analyse af hotelindtægter pr. By. Det er ret vigtigt, at du ved, at dine værelsesprisdata hentes fra receptionen i stedet for reservationssystemet. Men hvad nu hvis du forsøger at analysere, hvor mange reservationer der blev genereret af virksomhedens Super Bowl-reklame? I dette tilfælde vil du se data fra reservationssystemet.

Hoteleksemplet illustrerer, at selv rent faktisk rene data kan være problematiske. Selvom data er nøjagtige og præcis hvad det påstår at være, kan timing være et problem.Data ændres over tid.

Bekræftelse af formater

Som nævnt tidligere i dette kapitel er en af ​​de ting, som dine metadata giver dig, en indikation af, hvordan dataene formateres. Ved formateret, mener vi, hvordan hvert enkelt dataelement ser ud. Er "Produktkode" et tegn eller et tal? Er "Startdato" en dato, eller er det virkelig et datetime-frimærke?

Datatyper er vigtige i statistisk analyse, fordi de dikterer, hvilke statistiske og statistiske procedurer der kan anvendes til hvilke dataelementer. Hvis du forsøger at tage gennemsnitsværdien af ​​et tegnfelt som "Fornavn", får du en fejlmeddelelse hver gang.

Typisk er denne type metadata ret præcis. Det gemmes generelt af systemet, der indeholder dataene og kan genereres automatisk. Bekræftelse af formaterne er generelt ret ligetil. En sådan verifikation er i det væsentlige et biprodukt af valideringen af ​​dataområder diskuteret i det følgende afsnit. Men der er tilfælde hvor det kan være lidt vanskeligere.

Vi har set et sådant scenario flere gange, end vi er tilbøjelige til at huske. Det sker undertiden, at når et system først er designet, forsøger udviklingsholdet at sætte fleksibilitet i datastrukturerne for at imødekomme fremtidige forbedringer. Nogle gange tilføjer de blot en masse tomme (og brede) alfanumeriske datakolonner på slutningen af ​​hver post. Disse hjælpekolonner er oprindeligt ikke brugt til noget.

Analytikere vil altid fejle på siden af ​​at bede om flere data snarere end mindre - ofte, alle data i stedet for nogle. Denne kendsgerning kombineret med behovet for at få dataene hurtigt, resulterer nogle gange i en datadump. Denne dump indeholder generelt hjælpekolonnerne. I disse tilfælde fortæller metadata dig noget som "Fields 1-11" er formateret som "200 alfanumeriske tegn. "

Sådan information er praktisk talt ubrugelig. For at give mening om et datafelt som dette, skal du stort set få dine hænder snavset. Der er ikke meget du kan gøre undtagen at gennemgå et par dusin optegnelser og forsøge at gøre et informeret gæt om, hvad der egentlig er i marken. I de fleste tilfælde har disse felter tendens til at være tomme. Men ikke altid. Den gode nyhed er, at hvis feltet faktisk bliver brugt, skal du være i stand til at finde en programmør et sted, der ved, hvad det bruges til.

Typecasting dine data

Et af de mest kritiske trin i udførelsen af ​​en statistisk analyse er at sikre, at dine data er, hvad det påstår at være. Statistiske procedurer kolliderer altid, hvis du ikke giver dem gyldige oplysninger om dataformater. Men disse procedurer er stort set blinde for problemer med dataens gyldighed.

Forståelse af, hvordan et datafelt er formateret, er ikke nok. Før du skifter et datasæt til en statistisk procedure, skal du forstå, hvad dataene faktisk er i hvert af de felter, du bruger.

De fleste data falder ind i en af ​​fire kategorier: nominelt, ordinært, interval og forhold.Datatypen bestemmer, hvilken slags statistik og statistiske procedurer der kan anvendes på bestemte datafelter. Du kan f.eks. Ikke tage et gennemsnit af et felt som "Efternavn".

Forvirrende datatyper med dataformater er nemme (og alt for almindelige). At vide, om et datafelt er et tegn, heltal eller kontinuert, fortæller ikke datatypen.

Tegnfelter bruges nogle gange som pladsholdere til data, som kan blive fanget i fremtidige udgivelser af et system. Der er intet, der forhindrer et sådant felt i at blive brugt til at indfange monetære eller andre numeriske data.

Den mest almindelige fejl i datatypen indebærer, at et numerisk felt, især et helt værdieret felt, faktisk indeholder numeriske ordinære data. Det er meget almindeligt, at virksomhederne bruger numeriske koder ( nominelle data) til at repræsentere produkter, regioner, butikker og forskellige andre enheder.

Flyselskabsflyvekoder er et eksempel. Folkestatistiske regioner er en anden. Selv kreditkort og socialsikringsnumre gemmes typisk som heltal. Men alle disse enheder er kun identifikatorer. De er nominelle variabler. Det gennemsnitlige kreditkortnummer i en banks portefølje er en meningsløs statistik.

Ser dine data korrekt ud? - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...