Hjem Personlig finansiering Fase 3 i CRISP-DM-procesmodellen: Dataforberedelse - dummier

Fase 3 i CRISP-DM-procesmodellen: Dataforberedelse - dummier

Indholdsfortegnelse:

Video: Il RIASSUNTONE della FASE 3 MARVEL (Doctor Strange, Black Panther, Spider-man) #ILRidoppiatore 2024

Video: Il RIASSUNTONE della FASE 3 MARVEL (Doctor Strange, Black Panther, Spider-man) #ILRidoppiatore 2024
Anonim

Data minearbejdere bruger det meste af deres tid på den tredje fase af procesmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM): databehandling. De fleste data, der blev brugt til data mining, blev oprindeligt indsamlet og bevaret til andre formål og har brug for en del forfining, før den er klar til brug til modellering.

Dataforberedelsesfasen indeholder fem opgaver . Disse er

  • Valg af data

  • Rengøringsdata

  • Konstruktion af data

  • Integrering af data

  • Formatering af data

CRISP-DM trin-for-trin vejledning nævner ikke udtrykkeligt datasæt som leverancer til hver af de data forberedelse opgaver, men disse datasæt havde darn bedre findes og være korrekt arkiveret og dokumenteret. Datasæt vil ikke svare til en-til-en med opgaver, men oplysninger om de anvendte data skal indgå i hver leveringsrapport.

Opgave: Valg af data

Nu bestemmer du hvilken del af de data, du har, faktisk bruges til data mining.

Den leverbare til denne opgave er begrundelsen for inkludering og udelukkelse. I det forklarer du, hvilke data vil blive brugt til yderligere data-minearbejde.

Du vil forklare årsagerne til at inkludere eller ekskludere hver del af de data, du har, baseret på relevans for dine mål, datakvalitet og tekniske problemer - som f.eks. Grænser for antallet af felter eller rækker, som dine værktøjer kan håndtere eller egnetheden af ​​dataformaterne til dine behov.

Opgave: Rengøringsdata

De data, du har valgt at bruge, er usandsynligt, at de er helt rene (fejlfri). Du foretager ændringer, måske sporing af kilder for at foretage specifikke datakorrigeringer, eksklusive nogle tilfælde eller individuelle celler (dataelementer) eller udskifte nogle dataelementer med standardværdier eller udskiftninger valgt af en mere sofistikeret modelleringsteknik. Du kan vælge at bruge kun undergrupper af dataene til alle eller nogle af dine data-minearbejde.

Den leverbare til denne opgave er datarensningsrapporten, som dokumenterer, i uhyggelig detaljer, enhver beslutning og handling, der bruges til at rense dine data. Denne rapport skal dække og referere til hvert datakvalitetsproblem, der blev identificeret i verificer datakvalitetsopgaven i procesens dataforståelsesfase. Du rapporterer også, bør du tage fat på den potentielle indvirkning på resultaterne af de valg, du har foretaget under dataoprydning.

Opgave: Konstruktion af data

Du skal muligvis udlede nogle nye felter (f.eks. Brug leveringsdato og dato, hvor en kunde bestilte at beregne, hvor længe kunden ventede at modtage en ordre), aggregerede data, eller på anden måde oprette en ny form for data.

Leverancer til denne opgave omfatter to rapporter:

  • Afledte attributter: En rapport, der beskriver hvilke nye felter (kolonner) du har konstrueret, hvordan du gjorde det og hvorfor.

  • Genererede poster: En rapport, der beskriver hvilke nye tilfælde (rækker) du har konstrueret, hvordan du gjorde det, og hvorfor.

Selvom dataene i sammenfletningsdata og formatdata er listet sidst i denne fase af processen, kommer de ikke altid sidst, og de kan ikke komme op en gang. Du skal muligvis gøre nogle sammenlægninger eller omformatering tidligt i databehandlingsfasen.

Opgave: Integrering af data

Dine data kan nu være i flere forskellige datasæt. Du skal fusionere nogle eller alle disse forskellige datasæt sammen for at gøre dig klar til modelleringsfasen.

Den leverbare til denne opgave er de fusionerede data. (Og det ville ikke skade at dokumentere, hvordan fusionen blev udført.)

Opgave: Formatering af data

Data kommer ofte til dig i andre formater end dem, der er mest egnede til modellering. (Formatændringer drives normalt af designet af dine værktøjer.) Så konverter disse formater nu.

Den leverbare til denne opgave er dine omformaterede data. (Og en lille rapport, der beskriver de ændringer, du har lavet, ville være en smart ting at medtage.)

Du bør afslutte dataforberedelsesfasen i data minedriftsprocessen med et datasæt klar til modellering og en grundig rapport, der beskriver datasættet.

Fase 3 i CRISP-DM-procesmodellen: Dataforberedelse - dummier

Valg af editor

Hvordan scoring fungerer på de nye SAT-dummies

Hvordan scoring fungerer på de nye SAT-dummies

Det nye SAT har et helt andet scoringssystem. Målet er at give gymnasier et dybtgående kig på din forestilling. Skræmt? Vær ikke. Hvis du tager eksamen flere gange, som de fleste mennesker gør, kan du bruge detaljerede oplysninger fra dine scoringsrapporter til at lave et personligt studieprogram, nulstilling på ...

Hvordan man erobrer passagerbaseret historie og samfundsstudier SAT-spørgsmål - dummier

Hvordan man erobrer passagerbaseret historie og samfundsstudier SAT-spørgsmål - dummier

Hvornår du tager SAT, på et tidspunkt vil du poring over en passage fra historie eller samfundsstudier (antropologi, sociologi, uddannelse, kulturstudier osv.). For at få de bedste resultater, hold disse tips i tankerne: Gå til den positive. SAT kritiserer ikke nogen med magt til at sagsøge eller kontakte medierne. ...

Sejler gennem SAT-Day Morning - dummies

Sejler gennem SAT-Day Morning - dummies

SAT-dagen er ikke en god tid til at sove. Indstil vækkeuret og spørg en pålidelig forælder, værge eller ven for at bekræfte, at du er vågnet til tiden. Hvis du ikke er en morgenperson, kan du få brug for et par ekstra minutter. Så, uanset hvor næringsmæssigt udfordret din sædvanlige morgenmad er, bryde ud af kassen og ...

Valg af editor

Lithium og behandling af bipolar lidelse - dummier

Lithium og behandling af bipolar lidelse - dummier

Siden lithium har været guldstandarden, behandling rækkevidden af ​​bipolære symptomer mere fuldt end nogen anden medicin, der anvendes i dag. Det behandler mani. Det kan behandle bipolar depression. Det bruges også til vedligeholdelsesbehandling, som langsigtet medicin til forebyggelse eller nedsættelse af tilbagevendende depressive eller maniske episoder. Og måske vigtigst er det ...

Logiske puslespil til at holde øje med skarpheden - dummier

Logiske puslespil til at holde øje med skarpheden - dummier

Tag på din tankegang til at løse disse logiske puslespil! Hver har kun et svar. Niveauer er nemme, besværlige, hårde og forræderiske, "let" er (selvfølgelig) de nemmeste puslespil, og "forræderiske" er de sværeste. Let: Hvor mange gange kan en matematiker trække ti fra 100? Nemt: Dechiffrere denne clue: YYYMEN Tricky: En kvinde ...

Opretholde humørsikkerhed i bipolar lidelse - dummier

Opretholde humørsikkerhed i bipolar lidelse - dummier

Den overordnede behandlingsplan, som en person med bipolar lidelse skal følge for at opnå og opretholde humør stabilitet er ret ligetil. Følg denne behandlingsplan: Tag dine lægemidler som foreskrevet, selv når du har det godt, og konsulter din læge, inden du tager ændringer i medicin. Etablere rutiner, der sikrer en regelmæssig sleep-wake-skema. Manglende kvalitet ...

Valg af editor

Sæt dine store data sammen - dummies

Sæt dine store data sammen - dummies

Hvordan vil du vide, hvordan du sætter alle dine data sammen? Med et stort dataprojekt angiver, hvad du vil gøre med dine strukturerede og ustrukturerede data, hvorfor du måske vælger et stykke teknologi over en anden. Det bestemmer også behovet for at forstå indgående datastrukturer for at sætte disse data i ...

Fase 6 i CRISP-DM-procesmodellen: Implementering - dummier

Fase 6 i CRISP-DM-procesmodellen: Implementering - dummier

Implementering er hvor data minedrift betaler sig. I denne sidste fase af processen CRISP-DM (Cross-Industry Standard Process for Data Mining) er det ligegyldigt, hvor strålende dine opdagelser kan være, eller hvor perfekte dine modeller passer til dataene, hvis du ikke rent faktisk bruger dem ting for at forbedre den måde, du gør forretninger på. Implementeringen ...

Fase 3 i CRISP-DM-procesmodellen: Dataforberedelse - dummier

Fase 3 i CRISP-DM-procesmodellen: Dataforberedelse - dummier

Data minearbejdere tilbringer det meste af deres tid på den tredje fase af procesmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM): databehandling. De fleste data, der blev brugt til data mining, blev oprindeligt indsamlet og bevaret til andre formål og har brug for en del forfining, før den er klar til brug til modellering. Databehandlingsfasen omfatter ...