Indholdsfortegnelse:
- Opgave: Indsamling af data
- Den leverbare til denne opgave er databeskrivelsesrapporten. Her beskriver du kilden og formaterne af dataene, antal sager, nummer og beskrivelser af felterne og andre generelle oplysninger, der kan være vigtige. Du foretager også en kort evaluering af dataernes egnethed til dine data-mining mål. Kontrollér for eksempel, at dataene indeholder de felter, du forventer og skal være der, og tilstrækkelige tilfælde til analyse.
- Bliv fortrolig med dataene.
- De data, du har brug for, findes ikke. (Har det aldrig eksisteret, eller blev det kasseret? Kan disse data indsamles og gemmes til fremtidig brug?)
Video: ESTADOS UNIDOS AVANZA A LA FASE 2 DE SU PLAN PARA ENTRAR A MÉXICO - CASPAR WEIMBERGER 2025
I anden fase af procesmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM) får du data og verificerer at det passer til dine behov. Du kan identificere problemer, der får dig til at vende tilbage til forretningsforståelse og revidere din plan. Du kan endda opdage fejl i din forretningsforståelse, en anden grund til at genoverveje mål og planer.
Dataforståelsesfasen indeholder fire opgaver . Disse er
-
Indsamling af data
-
Beskrive data
-
Udforsk data
-
Bekræft datakvalitet
Opgave: Indsamling af data
Du har netop sat mål og defineret en data minedrift plan. Hvert trin i planen afhænger af at have de rigtige data. Vær bedre sikker på at du virkelig har disse data!
Der findes kun én leverbar til denne opgave: Den oprindelige dataindsamlingsrapport. I din rapport skal du kontrollere, at du har erhvervet dataene eller i det mindste fået adgang til dataene, testet dataadgangsprocessen og bekræftet, at dataene eksisterer. Du skal også indlæse data i de værktøjer, du vil bruge til data mining, for at kontrollere, at værktøjerne er kompatible med dataene.
Du kan gøre en masse arbejde for at samle de data, du har brug for, før du kan skrive denne rapport. For det første vil du lave din plan som følger:
-
Oversigtskrav til data: Opret en liste over de typer data, der er nødvendige for at imødegå data mining målene. Udvid listen med detaljer som det ønskede tidsinterval og dataformater.
-
Bekræft datatilgængelighed: Bekræft, at de nødvendige data eksisterer, og at du kan bruge den. Hvis nogle af de data, du ønsker, ikke er tilgængelige, skal du beslutte, hvordan du vil løse problemet. Overvej alternativer som
-
Udskiftning af nye data
-
Definer udvælgelseskriterier:
-
Identificer de specifikke datakilder (databaser, filer, dokumenter osv.) du vil bruge. Inden for disse kilder skal du angive de tabeller, felter og sager, der er relevante for dette projekt.
Når du har gennemgået disse trin, skal du faktisk få dataene. På dette stadium importerer du dataene til den data minedrift platform, du vil bruge til projektet for at bekræfte, at det er muligt at gøre det, og at du forstår processen. I løbet af dette forsøg kan du opdage softwarebegrænsninger (eller hardware), som du ikke havde forventet, som f.eks. Grænser for antallet af sager eller felter, eller om mængden af hukommelse du kan bruge
Manglende evne til at læse dataformater af dine kilder
-
Vanskeligheder med mangler i dataene (for eksempel kan du støde på produkter, der ikke importerer eller analyserer ufuldstændige datasæt)
-
Endelig opsummerer indsamlingsprocessen i en rapport.Rapporten skal beskrive dine krav og forklare nøjagtigt, hvilke data du har samlet og fra hvilke kilder. Her bekræfter du, at du faktisk har fået dataene, og at den er kompatibel med din data-minedrift platform. Hvis du har ramt vanskeligheder, forklarer du, hvad de var, og hvordan du har adresseret dem (ved hjælp af alternative kilder, revision af planer, ændring af formater).
-
Den leverbare til denne opgave er bare en enkel rapport, men det arbejde, du skal gøre før du kan skrive rapporten, vil ikke være enkel! Datatilgang kan være en af de mest udfordrende og frustrerende dele af data-minedriftsprocessen, både med tekniske og forretningsmæssige udfordringer.
Opgave: Beskriv data
Nu hvor du har data, lav en generel beskrivelse af, hvad du har.
Den leverbare til denne opgave er databeskrivelsesrapporten. Her beskriver du kilden og formaterne af dataene, antal sager, nummer og beskrivelser af felterne og andre generelle oplysninger, der kan være vigtige. Du foretager også en kort evaluering af dataernes egnethed til dine data-mining mål. Kontrollér for eksempel, at dataene indeholder de felter, du forventer og skal være der, og tilstrækkelige tilfælde til analyse.
Opgave: Udforskning af data
I denne opgave undersøger du dataene nærmere. For hver variabel ser du på rækkevidden af værdier og deres distributioner. Du bruger simpel data manipulation og grundlæggende statistiske teknikker til yderligere kontrol i dataene. Dataudforskning understøtter flere formål:
Bliv fortrolig med dataene.
Spot tegn på problemer med datakvaliteten.
-
Indstil scenen til dataforberedelsestrin.
-
Den leverbare til denne opgave er dataudforskningsrapporten. Det er stedet at dokumentere eventuelle hypoteser eller indledende fund, som du har udviklet under dataudforskning. Denne rapport skal indeholde en mere detaljeret beskrivelse af dataene end databeskrivelsesrapporten, herunder distributioner, resuméer og eventuelle tegn på datakvalitetsproblemer.
-
Opgave: Bekræft datakvalitet
Du har dataene, og du har undersøgt det, og nu skal du afgøre, om det er godt nok til at understøtte dine mål. Du vil ofte have noget kvalitetsproblem, der skal adresseres, men stadig være i stand til at bevæge sig fremad, men til tider er datakvaliteten så dårlig, at den ikke kan understøtte din plan, og du skal søge efter alternativer. Nogle af de værste dataproblemer vil indeholde
De data, du har brug for, findes ikke. (Har det aldrig eksisteret, eller blev det kasseret? Kan disse data indsamles og gemmes til fremtidig brug?)
Det eksisterer, men du kan ikke få det. (Kan denne begrænsning overvinde?)
-
Du finder alvorlige datakvalitetsproblemer (mange manglende eller forkerte værdier, der ikke kan rettes).
-
Den leverbare til denne opgave er datakvalitetsrapporten. Dette opsummerer de data, du har, mindre og større kvalitetsproblemer, som du har fundet, og mulige løsninger for kvalitetsproblemer eller alternativer (f.eks. Ved hjælp af en alternativ datafil).Hvis du står over for alvorlige problemer med datakvaliteten og ikke kan identificere en passende løsning, skal du måske anbefale at genoverveje mål eller planer.