Indholdsfortegnelse:
- Opgave: Valg af data
- Opgave: Rengøringsdata
- Opgave: Konstruktion af data
- Opgave: Integrering af data
- Opgave: Formatering af data
Video: Il RIASSUNTONE della FASE 3 MARVEL (Doctor Strange, Black Panther, Spider-man) #ILRidoppiatore 2025
Data minearbejdere bruger det meste af deres tid på den tredje fase af procesmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM): databehandling. De fleste data, der blev brugt til data mining, blev oprindeligt indsamlet og bevaret til andre formål og har brug for en del forfining, før den er klar til brug til modellering.
Dataforberedelsesfasen indeholder fem opgaver . Disse er
-
Valg af data
-
Rengøringsdata
-
Konstruktion af data
-
Integrering af data
-
Formatering af data
CRISP-DM trin-for-trin vejledning nævner ikke udtrykkeligt datasæt som leverancer til hver af de data forberedelse opgaver, men disse datasæt havde darn bedre findes og være korrekt arkiveret og dokumenteret. Datasæt vil ikke svare til en-til-en med opgaver, men oplysninger om de anvendte data skal indgå i hver leveringsrapport.
Opgave: Valg af data
Nu bestemmer du hvilken del af de data, du har, faktisk bruges til data mining.
Den leverbare til denne opgave er begrundelsen for inkludering og udelukkelse. I det forklarer du, hvilke data vil blive brugt til yderligere data-minearbejde.
Du vil forklare årsagerne til at inkludere eller ekskludere hver del af de data, du har, baseret på relevans for dine mål, datakvalitet og tekniske problemer - som f.eks. Grænser for antallet af felter eller rækker, som dine værktøjer kan håndtere eller egnetheden af dataformaterne til dine behov.
Opgave: Rengøringsdata
De data, du har valgt at bruge, er usandsynligt, at de er helt rene (fejlfri). Du foretager ændringer, måske sporing af kilder for at foretage specifikke datakorrigeringer, eksklusive nogle tilfælde eller individuelle celler (dataelementer) eller udskifte nogle dataelementer med standardværdier eller udskiftninger valgt af en mere sofistikeret modelleringsteknik. Du kan vælge at bruge kun undergrupper af dataene til alle eller nogle af dine data-minearbejde.
Den leverbare til denne opgave er datarensningsrapporten, som dokumenterer, i uhyggelig detaljer, enhver beslutning og handling, der bruges til at rense dine data. Denne rapport skal dække og referere til hvert datakvalitetsproblem, der blev identificeret i verificer datakvalitetsopgaven i procesens dataforståelsesfase. Du rapporterer også, bør du tage fat på den potentielle indvirkning på resultaterne af de valg, du har foretaget under dataoprydning.
Opgave: Konstruktion af data
Du skal muligvis udlede nogle nye felter (f.eks. Brug leveringsdato og dato, hvor en kunde bestilte at beregne, hvor længe kunden ventede at modtage en ordre), aggregerede data, eller på anden måde oprette en ny form for data.
Leverancer til denne opgave omfatter to rapporter:
-
Afledte attributter: En rapport, der beskriver hvilke nye felter (kolonner) du har konstrueret, hvordan du gjorde det og hvorfor.
-
Genererede poster: En rapport, der beskriver hvilke nye tilfælde (rækker) du har konstrueret, hvordan du gjorde det, og hvorfor.
Selvom dataene i sammenfletningsdata og formatdata er listet sidst i denne fase af processen, kommer de ikke altid sidst, og de kan ikke komme op en gang. Du skal muligvis gøre nogle sammenlægninger eller omformatering tidligt i databehandlingsfasen.
Opgave: Integrering af data
Dine data kan nu være i flere forskellige datasæt. Du skal fusionere nogle eller alle disse forskellige datasæt sammen for at gøre dig klar til modelleringsfasen.
Den leverbare til denne opgave er de fusionerede data. (Og det ville ikke skade at dokumentere, hvordan fusionen blev udført.)
Opgave: Formatering af data
Data kommer ofte til dig i andre formater end dem, der er mest egnede til modellering. (Formatændringer drives normalt af designet af dine værktøjer.) Så konverter disse formater nu.
Den leverbare til denne opgave er dine omformaterede data. (Og en lille rapport, der beskriver de ændringer, du har lavet, ville være en smart ting at medtage.)
Du bør afslutte dataforberedelsesfasen i data minedriftsprocessen med et datasæt klar til modellering og en grundig rapport, der beskriver datasættet.