Hjem Personlig finansiering Fase 4 i CRISP-DM Process Model: Modeling - dummies

Fase 4 i CRISP-DM Process Model: Modeling - dummies

Indholdsfortegnelse:

Video: CRISP DM 2025

Video: CRISP DM 2025
Anonim

Modellering er en del af procesmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM), hvor de fleste data minearbejdere gerne bedst. Dine data er allerede i god form, og nu kan du søge efter nyttige mønstre i dine data.

Modelleringsfasen indeholder fire opgaver. Disse er

  • Valg af modelleringsteknikker

  • Udformning af test (er)

  • Byggemodeller

  • Vurdering af model (r)

Opgave: Valg af modelleringsteknikker

Den vidunderlige verden af ​​data mining tilbyder mange modeller for modelleringsteknikker, men ikke alle passer til dine behov. Begræns listen baseret på de involverede typer af variabler, udvælgelsen af ​​teknikker, der er tilgængelige i dine værktøjer og eventuelle forretningsmæssige overvejelser, der er vigtige for dig.

For eksempel favoriserer mange organisationer metoder med output, der er let at fortolke, så beslutnings træer eller logistisk regression kan være acceptabelt, men neurale netværk vil sandsynligvis ikke blive accepteret.

Leverancer til denne opgave omfatter to rapporter:

  • Modelingsteknik: Angiv den eller de teknikker, du vil bruge.

  • Modelleringsforudsætninger: Mange modelleringsmetoder er baseret på bestemte antagelser. For eksempel kan en modeltype være beregnet til brug med data, der har en bestemt type distribution. Dokumentér disse antagelser i denne rapport.

Statistikere er velinformerede, strenge og nøjeregnende over antagelser. Det er ikke nødvendigvis tilfældet for data minearbejdere, og det er ikke et krav at blive data minearbejder. Hvis du har dyb statistisk viden og forstår antagelserne bag de modeller, du vælger, kan du være streng og nøjeregnende over antagelser.

Men mange data minearbejdere, især nybegyndere data minearbejdere, opstyrer ikke meget over antagelser. Alternativet er testning - masser af prøvning - af dine modeller.

Opgave: Udformning af test

Testen i denne opgave er den test, du vil bruge til at bestemme, hvor godt din model fungerer. Det kan være lige så enkelt som at opdele dine data i en gruppe tilfælde til model træning og en anden gruppe til modelprøvning.

Træningsdata bruges til at matche matematiske formularer til datamodellen, og testdata bruges under model-træningsprocessen for at undgå overfitting: lave en model, der er perfekt til et datasæt, men ingen andre. Du kan også bruge holdout data, data, der ikke bruges under model-træningsprocessen, til en yderligere test.

Den leverbare til denne opgave er dit testdesign. Det behøver ikke være udførligt, men du skal i det mindste passe på, at dine trænings- og testdata er ens, og at du undgår at introducere nogen bias i dataene.

Opgave: Byggemodeller

Modellering er, hvad mange mennesker forestiller sig at være hele data minearbejderen, men det er kun en opgave med dusinvis! Ikke desto mindre er modellering for at imødegå specifikke forretningsmål det centrale i data-minearbejdet.

Leverancer til denne opgave omfatter tre elementer:

  • Parameterindstillinger: Når du bygger modeller, giver de fleste værktøjer dig mulighed for at justere forskellige indstillinger, og disse indstillinger har indflydelse på strukturen i den endelige model. Dokumentér disse indstillinger i en rapport.

  • Modelbeskrivelser: Beskriv dine modeller. Angiv typen af ​​model (som lineær regression eller neuralt netværk) og de anvendte variabler. Forklar hvordan modellen fortolkes. Dokumentér eventuelle vanskeligheder i modelleringsprocessen.

  • Modeller: Denne leverbare er modellerne selv. Nogle modeller kan let defineres med en simpel ligning; andre er alt for komplekse og skal overføres i et mere sofistikeret format.

Opgave: Vurdering af model (r)

Nu vil du gennemgå de modeller, du har oprettet, både teknisk og ud fra et forretningsmæssigt synspunkt (ofte med input fra forretningseksperter på dit projektteam).

Leverancer til denne opgave omfatter to rapporter:

  • Model vurdering: Sammenfatter de oplysninger, der er udviklet i din model anmeldelse. Hvis du har oprettet flere modeller, kan du rangere dem ud fra din vurdering af deres værdi for en bestemt applikation.

  • Reviderede parameterindstillinger: Du kan vælge at finjustere indstillinger, der blev brugt til at opbygge modellen og udføre en anden modelrunde og forsøge at forbedre dine resultater.

Data minedrift, som en løg, en Dobos torte eller en sedimentær sten, har masser af lag. Når du lige er begyndt i data minedrift, kan du starte med at forlade parameterindstillingerne til deres standardværdier (faktisk kan du ikke engang mærke til valgmuligheder, medmindre du gør en indsats for at søge efter dem).

Når du bliver komfortabel i din nye data-mining karriere, vil det være fornuftigt for dig at finde ud af om modelparametre og vide, hvordan du kan bruge dem. Dine muligheder varierer meget med typen af ​​model og det specifikke værktøj, du bruger.

Fase 4 i CRISP-DM Process Model: Modeling - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...