Hjem Personlig finansiering Hvordan man prioriterer stor datakvalitet - dummier

Hvordan man prioriterer stor datakvalitet - dummier

Video: Rosas karbonader med stuvet hvidkål 2025

Video: Rosas karbonader med stuvet hvidkål 2025
Anonim

At få det rigtige perspektiv på datakvalitet kan være meget udfordrende i verden af ​​store data. Med de fleste store datakilder skal du antage, at du arbejder med data, der ikke er rene. Faktisk er den overvældende overflod af tilsyneladende tilfældige og afbrudte data i streams af sociale mediedata en af ​​de ting, der gør det så nyttigt for virksomhederne.

Du starter med at søge petabytes af data uden at vide, hvad du måske finder efter, at du har søgt efter mønstre i dataene. Du skal acceptere det faktum, at der vil være meget støj i dataene. Det er kun ved at søge og mønster matchende, at du vil kunne finde nogle gnister af sandhed midt i nogle meget beskidte data.

Selvfølgelig har nogle store datakilder som data fra RFID-tags eller sensorer bedre etablerede regler end sociale medier. Sensordata skal være rimeligt rene, selvom du måske regner med at finde nogle fejl. Det er altid dit ansvar, når du analyserer massive mængder data for at planlægge kvalitetsniveauet for disse data. Du bør følge en tofaset tilgang til datakvalitet:

Fase 1 : Se efter mønstre i store data uden bekymring for datakvalitet.

Fase 2: Når du har fundet dine mønstre og etablerer resultater, der er vigtige for virksomheden, skal du anvende de samme datakvalitetsstandarder, som du anvender på dine traditionelle datakilder. Du vil undgå at indsamle og administrere store data, der ikke er vigtige for virksomheden, og vil potentielt ødelægge andre dataelementer i Hadoop eller andre store dataplatforme.

Når du begynder at inkorporere resultaterne af din store dataanalyse i din forretningsproces, skal du erkende, at data af høj kvalitet er afgørende for, at et firma kan træffe gode forretningsbeslutninger. Dette gælder for store data såvel som traditionelle data.

Kvaliteten af ​​data refererer til egenskaber om dataene, herunder konsistens, nøjagtighed, pålidelighed, fuldstændighed, aktualitet, rimelighed og validitet. Datakvalitetssoftware sikrer, at dataelementer er repræsenteret på samme måde på tværs af forskellige datalager eller systemer for at øge dataens konsistens.

For eksempel kan en datalager bruge to linjer til en kundes adresse, og en anden datalager kan bruge en linje. Denne forskel på, hvordan dataene er repræsenteret, kan resultere i unøjagtige oplysninger om kunder, som f.eks. En kunde identificeres som to forskellige kunder.

Et selskab kan bruge dusinvis af varianter af virksomhedens navn, når det køber produkter.Datakvalitetssoftware kan bruges til at identificere alle variationer af firmanavnet i dine forskellige datalager og sikre, at du ved alt, hvad denne kunde køber fra din virksomhed.

Denne proces kaldes giver en enkelt visning af kunde eller produkt. Datakvalitetssoftware matcher data på tværs af forskellige systemer og rydder op eller fjerner overflødige data. Datakvalitetsprocessen giver virksomheden information, der er lettere at bruge, fortolke og forstå.

Dataprofileringsværktøjer bruges i datakvalitetsprocessen til at hjælpe dig med at forstå indholdet, strukturen og tilstanden af ​​dine data. De indsamler oplysninger om dataegenskaberne i en database eller anden datalager for at starte processen med at omdanne dataene til en mere betroet form. Værktøjerne analyserer dataene for at identificere fejl og inkonsekvenser.

De kan foretage justeringer for disse problemer og rette fejl. Værktøjerne tjekker for acceptable værdier, mønstre og intervaller og hjælper med at identificere overlappende data. Dataprofileringsprocessen kontrollerer for eksempel at se, om dataene forventes at være alfa eller numeriske. Værktøjerne kontrollerer også afhængigheder eller se, hvordan dataene vedrører data fra andre databaser.

Data-profileringsværktøjer til store data har en lignende funktion til data-profileringsværktøjer til traditionelle data. Data-profileringsværktøjer til Hadoop vil give dig vigtige oplysninger om dataene i Hadoop-klynger. Disse værktøjer kan bruges til at søge efter kampe og fjerne dubletter. Som et resultat kan du sikre, at dine store data er konsekvente. Hadoop værktøjer som HiveQL og Pig Latin kan bruges til transformationsprocessen.

Hvordan man prioriterer stor datakvalitet - dummier

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...