Video: Kenneth Cukier: Big data is better data 2025
For dit forudsigende analyseprojekt skal du identificere passende datakilder, pool data fra disse kilder og sætte det i et struktureret, velorganiseret format. Disse opgaver kan være meget udfordrende og vil sandsynligvis kræve en omhyggelig koordinering mellem forskellige dataforvaltere på tværs af din organisation.
Du skal også vælge de variabler, du skal analysere. Denne proces skal tage hensyn til data begrænsninger, projektmæssige begrænsninger og forretningsmæssige målsætninger.
De variabler, du vælger, skal have prædiktiv effekt. Du skal også overveje variabler, der er både værdifulde og gennemførlige for dit projekt inden for budget og tidsrammer. Hvis du for eksempel analyserer banktransaktioner i en kriminel efterforskning, kan telefonoptegnelser for alle involverede parter være relevante for analysen, men ikke tilgængelig for analytikerne.
Forvent at bruge meget tid på denne fase af projektet. Dataindsamling, dataanalyse og processen med at adressere dataindhold, kvalitet og struktur kan tilføje op til en tidskrævende opgaveliste.
Under processen med dataidentifikation hjælper det med at forstå dine data og dets egenskaber; Denne viden vil hjælpe dig med at vælge hvilken algoritme der skal bruges til at opbygge din model. For eksempel kan tidsseriedata analyseres ved hjælp af regressionsalgoritmer; Klassifikationsalgoritmer kan bruges til at analysere diskrete data.
Variabelt valg påvirkes af, hvor godt du forstår dataene. Vær ikke overrasket, hvis du skal se på og evaluere hundredvis af variabler, i det mindste først. Heldigvis, når du arbejder med disse variabler og begynder at få vigtige indsigter, begynder du at indsnævre dem til et par dusin. Forvent også variabelt valg at ændre, da din forståelse af dataene ændres gennem hele projektet.
Du kan finde det gavnligt at opbygge et datalager, som du kan bruge til at spore, hvad du ved, hvad du ikke ved, og hvad der mangler. Dataopgørelsen skal indeholde en fortegnelse over de forskellige dataelementer og eventuelle attributter, der er relevante i de efterfølgende trin i processen.
Du kan f.eks. Gerne dokumentere, om nogle segmenter mangler postnummer eller manglende poster i en bestemt periode.
Dine go-to people til erhvervskundskab (også kendt som domænenavneteksperter ) hjælper dig med at vælge de nøglevariabler, der kan påvirke resultaterne af dit projekt positivt. De kan hjælpe dig med at forklare betydningen af disse variabler, samt hvor og hvordan du får dem, blandt andet værdifulde input.