Video: The Third Industrial Revolution: A Radical New Sharing Economy 2025
Dataudvinding sker ved forsøg og fejl, og for data minearbejdere er det kun naturligt at lave fejl. Fejl kan være værdifulde, med andre ord, i hvert fald under visse betingelser. Ikke alle fejl er skabt lige, dog. Nogle er bare bedre undgås. Den følgende liste indeholder ti sådanne fejl. Hvis du læser dem omhyggeligt og forpligter dem til hukommelse, kan du bare undgå nogle få slag på læringskurven:
-
Overvågning af datakvalitetskontrol: De fleste data minearbejdere tror at udvikle prædiktive modeller er mere sjov end at gennemgå data for kvalitetsproblemer. Men hvis du ikke opdager og korrigerer datakvalitetsproblemer, kan du ende med værdiløse forudsigelser.
-
Mangler punktet: Du har opdaget noget fascinerende! Det er rart, men hvis det ikke også er relevant for det forretningsproblemer, du sætter op for at løse, så er det slet ikke relevant. Kom tilbage på sporet.
-
At tro på, at et mønster i dataene viser et årsagssammenhæng: Du udforsker et datasæt og bemærker, at når Variabel A stiger, øges variabel B også. Dette kan forekomme, fordi Variabel A påvirker variabel B, eller fordi variabel B påvirker variabel A. På den anden side kan det være, at begge er påvirket af en anden variabel, som du ikke har overvejet. Eller det kunne være et engangssamfund. Hvem kan sige?
-
Strækninger til for langt: Antag ikke, at de forhold, du observerer i data, vil gentage sig under forskellige omstændigheder. Hvis dine data blev indsamlet i et køligt miljø, må du ikke gå ud fra, at tingene vil fungere på samme måde i en varm fabriksindstilling.
-
Væddemål på resultater, der ikke giver mening: Dataudvindingsmetoder er uformelle og er normalt ikke sikkerhedskopieret af videnskabelig metode og teori, så dine resultater har i hvert fald været bedre til at gøre forretningssans. Hvis der ikke er nogen fornuft forklaring på de resultater, du præsenterer, vil din ledelse sandsynligvis ikke tage det alvorligt, og de burde ikke.
-
At blive forelsket i en bestemt modelleringsmetode: Der findes ingen enkelt type data minedrift model, der passer til enhver situation.
-
Sæt en model i produktion uden tilstrækkelig testning: Forsæt ikke din virksomhed på en prædiktiv model, før du har testet det med holdout data og i en mindre skala i feltet.
-
Ignorerer resultater, som du ikke kan lide: Hvis du ignorerer dine data nu, kommer den tilbage en dag og siger, "Jeg fortalte dig det.
-
Dataudvinding har stor værdi, men nogle applikationer kræver stadig stringente dataindsamlingsmetoder, formel statistisk analyse og videnskabelig metode. Forudsat at traditionelle dataanalyseteknikker ikke længere betyder noget:
-
Se forrige punktum.