Hjem Personlig finansiering Fase 2 i CRISP-DM-procesmodellen: Dataforståelse - dummier

Fase 2 i CRISP-DM-procesmodellen: Dataforståelse - dummier

Indholdsfortegnelse:

Video: ESTADOS UNIDOS AVANZA A LA FASE 2 DE SU PLAN PARA ENTRAR A MÉXICO - CASPAR WEIMBERGER 2025

Video: ESTADOS UNIDOS AVANZA A LA FASE 2 DE SU PLAN PARA ENTRAR A MÉXICO - CASPAR WEIMBERGER 2025
Anonim

I anden fase af procesmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM) får du data og verificerer at det passer til dine behov. Du kan identificere problemer, der får dig til at vende tilbage til forretningsforståelse og revidere din plan. Du kan endda opdage fejl i din forretningsforståelse, en anden grund til at genoverveje mål og planer.

Dataforståelsesfasen indeholder fire opgaver . Disse er

  • Indsamling af data

  • Beskrive data

  • Udforsk data

  • Bekræft datakvalitet

Opgave: Indsamling af data

Du har netop sat mål og defineret en data minedrift plan. Hvert trin i planen afhænger af at have de rigtige data. Vær bedre sikker på at du virkelig har disse data!

Der findes kun én leverbar til denne opgave: Den oprindelige dataindsamlingsrapport. I din rapport skal du kontrollere, at du har erhvervet dataene eller i det mindste fået adgang til dataene, testet dataadgangsprocessen og bekræftet, at dataene eksisterer. Du skal også indlæse data i de værktøjer, du vil bruge til data mining, for at kontrollere, at værktøjerne er kompatible med dataene.

Du kan gøre en masse arbejde for at samle de data, du har brug for, før du kan skrive denne rapport. For det første vil du lave din plan som følger:

  • Oversigtskrav til data: Opret en liste over de typer data, der er nødvendige for at imødegå data mining målene. Udvid listen med detaljer som det ønskede tidsinterval og dataformater.

  • Bekræft datatilgængelighed: Bekræft, at de nødvendige data eksisterer, og at du kan bruge den. Hvis nogle af de data, du ønsker, ikke er tilgængelige, skal du beslutte, hvordan du vil løse problemet. Overvej alternativer som

  • Udskiftning af nye data

  • Definer udvælgelseskriterier:

  • Identificer de specifikke datakilder (databaser, filer, dokumenter osv.) du vil bruge. Inden for disse kilder skal du angive de tabeller, felter og sager, der er relevante for dette projekt.

  • Når du har gennemgået disse trin, skal du faktisk få dataene. På dette stadium importerer du dataene til den data minedrift platform, du vil bruge til projektet for at bekræfte, at det er muligt at gøre det, og at du forstår processen. I løbet af dette forsøg kan du opdage softwarebegrænsninger (eller hardware), som du ikke havde forventet, som f.eks. Grænser for antallet af sager eller felter, eller om mængden af ​​hukommelse du kan bruge

  • Manglende evne til at læse dataformater af dine kilder

    • Vanskeligheder med mangler i dataene (for eksempel kan du støde på produkter, der ikke importerer eller analyserer ufuldstændige datasæt)

    • Endelig opsummerer indsamlingsprocessen i en rapport.Rapporten skal beskrive dine krav og forklare nøjagtigt, hvilke data du har samlet og fra hvilke kilder. Her bekræfter du, at du faktisk har fået dataene, og at den er kompatibel med din data-minedrift platform. Hvis du har ramt vanskeligheder, forklarer du, hvad de var, og hvordan du har adresseret dem (ved hjælp af alternative kilder, revision af planer, ændring af formater).

    • Den leverbare til denne opgave er bare en enkel rapport, men det arbejde, du skal gøre før du kan skrive rapporten, vil ikke være enkel! Datatilgang kan være en af ​​de mest udfordrende og frustrerende dele af data-minedriftsprocessen, både med tekniske og forretningsmæssige udfordringer.

    Opgave: Beskriv data

    Nu hvor du har data, lav en generel beskrivelse af, hvad du har.

    Den leverbare til denne opgave er databeskrivelsesrapporten. Her beskriver du kilden og formaterne af dataene, antal sager, nummer og beskrivelser af felterne og andre generelle oplysninger, der kan være vigtige. Du foretager også en kort evaluering af dataernes egnethed til dine data-mining mål. Kontrollér for eksempel, at dataene indeholder de felter, du forventer og skal være der, og tilstrækkelige tilfælde til analyse.

    Opgave: Udforskning af data

    I denne opgave undersøger du dataene nærmere. For hver variabel ser du på rækkevidden af ​​værdier og deres distributioner. Du bruger simpel data manipulation og grundlæggende statistiske teknikker til yderligere kontrol i dataene. Dataudforskning understøtter flere formål:

    Bliv fortrolig med dataene.

    Spot tegn på problemer med datakvaliteten.

    • Indstil scenen til dataforberedelsestrin.

    • Den leverbare til denne opgave er dataudforskningsrapporten. Det er stedet at dokumentere eventuelle hypoteser eller indledende fund, som du har udviklet under dataudforskning. Denne rapport skal indeholde en mere detaljeret beskrivelse af dataene end databeskrivelsesrapporten, herunder distributioner, resuméer og eventuelle tegn på datakvalitetsproblemer.

    • Opgave: Bekræft datakvalitet

    Du har dataene, og du har undersøgt det, og nu skal du afgøre, om det er godt nok til at understøtte dine mål. Du vil ofte have noget kvalitetsproblem, der skal adresseres, men stadig være i stand til at bevæge sig fremad, men til tider er datakvaliteten så dårlig, at den ikke kan understøtte din plan, og du skal søge efter alternativer. Nogle af de værste dataproblemer vil indeholde

    De data, du har brug for, findes ikke. (Har det aldrig eksisteret, eller blev det kasseret? Kan disse data indsamles og gemmes til fremtidig brug?)

    Det eksisterer, men du kan ikke få det. (Kan denne begrænsning overvinde?)

    • Du finder alvorlige datakvalitetsproblemer (mange manglende eller forkerte værdier, der ikke kan rettes).

    • Den leverbare til denne opgave er datakvalitetsrapporten. Dette opsummerer de data, du har, mindre og større kvalitetsproblemer, som du har fundet, og mulige løsninger for kvalitetsproblemer eller alternativer (f.eks. Ved hjælp af en alternativ datafil).Hvis du står over for alvorlige problemer med datakvaliteten og ikke kan identificere en passende løsning, skal du måske anbefale at genoverveje mål eller planer.

    Fase 2 i CRISP-DM-procesmodellen: Dataforståelse - dummier

    Valg af editor

    Financial Freedom Tilbydes af Bitcoin - Dummies

    Financial Freedom Tilbydes af Bitcoin - Dummies

    Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

    Indsætte lydfiler i et PowerPoint Slide-dummies

    Indsætte lydfiler i et PowerPoint Slide-dummies

    For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

    Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

    Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

    Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

    Valg af editor

    Annoncer på Facebook - dummies

    Annoncer på Facebook - dummies

    Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

    Automatisk fotoalbum på Facebook - dummies

    Automatisk fotoalbum på Facebook - dummies

    Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

    Hvem kan se ting på din Facebook-tidslinje? - dummies

    Hvem kan se ting på din Facebook-tidslinje? - dummies

    Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

    Valg af editor

    Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

    Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

    , Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

    Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

    Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

    Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

    Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

    Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

    I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...