Hjem Personlig finansiering Hvordan man prioriterer stor datakvalitet - dummier

Hvordan man prioriterer stor datakvalitet - dummier

Video: Rosas karbonader med stuvet hvidkål 2024

Video: Rosas karbonader med stuvet hvidkål 2024
Anonim

At få det rigtige perspektiv på datakvalitet kan være meget udfordrende i verden af ​​store data. Med de fleste store datakilder skal du antage, at du arbejder med data, der ikke er rene. Faktisk er den overvældende overflod af tilsyneladende tilfældige og afbrudte data i streams af sociale mediedata en af ​​de ting, der gør det så nyttigt for virksomhederne.

Du starter med at søge petabytes af data uden at vide, hvad du måske finder efter, at du har søgt efter mønstre i dataene. Du skal acceptere det faktum, at der vil være meget støj i dataene. Det er kun ved at søge og mønster matchende, at du vil kunne finde nogle gnister af sandhed midt i nogle meget beskidte data.

Selvfølgelig har nogle store datakilder som data fra RFID-tags eller sensorer bedre etablerede regler end sociale medier. Sensordata skal være rimeligt rene, selvom du måske regner med at finde nogle fejl. Det er altid dit ansvar, når du analyserer massive mængder data for at planlægge kvalitetsniveauet for disse data. Du bør følge en tofaset tilgang til datakvalitet:

Fase 1 : Se efter mønstre i store data uden bekymring for datakvalitet.

Fase 2: Når du har fundet dine mønstre og etablerer resultater, der er vigtige for virksomheden, skal du anvende de samme datakvalitetsstandarder, som du anvender på dine traditionelle datakilder. Du vil undgå at indsamle og administrere store data, der ikke er vigtige for virksomheden, og vil potentielt ødelægge andre dataelementer i Hadoop eller andre store dataplatforme.

Når du begynder at inkorporere resultaterne af din store dataanalyse i din forretningsproces, skal du erkende, at data af høj kvalitet er afgørende for, at et firma kan træffe gode forretningsbeslutninger. Dette gælder for store data såvel som traditionelle data.

Kvaliteten af ​​data refererer til egenskaber om dataene, herunder konsistens, nøjagtighed, pålidelighed, fuldstændighed, aktualitet, rimelighed og validitet. Datakvalitetssoftware sikrer, at dataelementer er repræsenteret på samme måde på tværs af forskellige datalager eller systemer for at øge dataens konsistens.

For eksempel kan en datalager bruge to linjer til en kundes adresse, og en anden datalager kan bruge en linje. Denne forskel på, hvordan dataene er repræsenteret, kan resultere i unøjagtige oplysninger om kunder, som f.eks. En kunde identificeres som to forskellige kunder.

Et selskab kan bruge dusinvis af varianter af virksomhedens navn, når det køber produkter.Datakvalitetssoftware kan bruges til at identificere alle variationer af firmanavnet i dine forskellige datalager og sikre, at du ved alt, hvad denne kunde køber fra din virksomhed.

Denne proces kaldes giver en enkelt visning af kunde eller produkt. Datakvalitetssoftware matcher data på tværs af forskellige systemer og rydder op eller fjerner overflødige data. Datakvalitetsprocessen giver virksomheden information, der er lettere at bruge, fortolke og forstå.

Dataprofileringsværktøjer bruges i datakvalitetsprocessen til at hjælpe dig med at forstå indholdet, strukturen og tilstanden af ​​dine data. De indsamler oplysninger om dataegenskaberne i en database eller anden datalager for at starte processen med at omdanne dataene til en mere betroet form. Værktøjerne analyserer dataene for at identificere fejl og inkonsekvenser.

De kan foretage justeringer for disse problemer og rette fejl. Værktøjerne tjekker for acceptable værdier, mønstre og intervaller og hjælper med at identificere overlappende data. Dataprofileringsprocessen kontrollerer for eksempel at se, om dataene forventes at være alfa eller numeriske. Værktøjerne kontrollerer også afhængigheder eller se, hvordan dataene vedrører data fra andre databaser.

Data-profileringsværktøjer til store data har en lignende funktion til data-profileringsværktøjer til traditionelle data. Data-profileringsværktøjer til Hadoop vil give dig vigtige oplysninger om dataene i Hadoop-klynger. Disse værktøjer kan bruges til at søge efter kampe og fjerne dubletter. Som et resultat kan du sikre, at dine store data er konsekvente. Hadoop værktøjer som HiveQL og Pig Latin kan bruges til transformationsprocessen.

Hvordan man prioriterer stor datakvalitet - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...