Hjem Personlig finansiering Forbereder dine data til prædiktiv Analytics

Forbereder dine data til prædiktiv Analytics

Indholdsfortegnelse:

Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2025

Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2025
Anonim

Når du har defineret målene for modellen, er det næste trin i predictive analytics at identificere og forberede de data, du vil bruge til at opbygge din model. Følgende oplysninger vedrører de vigtigste aktiviteter. Den generelle rækkefølge af trin ser sådan ud:

  1. Identificer dine datakilder.

    Data kan være i forskellige formater eller opholde sig på forskellige steder.

  2. Identificer, hvordan du får adgang til disse data.

    Nogle gange skal du erhverve tredjepartsdata eller data, der ejes af en anden afdeling i din organisation mv.

  3. Overvej hvilke variabler der skal inkluderes i din analyse.

    En standard tilgang er at starte med en bred vifte af variabler og eliminere dem, der ikke giver nogen forudsigelig værdi for modellen.

  4. Bestem, om der skal anvendes afledte variabler.

    I mange tilfælde vil en afledt variabel (såsom pris pr. Indtjeningsgrad anvendt til analyse af aktiekurser) have større direkte indflydelse på modellen end den råvariabel.

  5. Udforsk kvaliteten af ​​dine data, og søg efter at forstå både dets tilstand og begrænsninger.

    Nøjagtigheden af ​​modelens forudsigelser er direkte relateret til de variabler, du vælger, og kvaliteten af ​​dine data. Du vil gerne svare på nogle dataspecifikke spørgsmål på dette tidspunkt:

    • Er dataene komplette?
    • Har det nogen outliers?
    • Skal dataene renses?
    • Har du brug for at udfylde manglende værdier, holde dem som de er eller helt fjerne dem?

Forståelse af dine data og dens egenskaber kan hjælpe dig med at vælge den algoritme, der vil være mest nyttig i opbygningen af ​​din model. For eksempel:

  • Regressionsalgoritmer kan bruges til at analysere tidsseriedata.
  • Klassifikationsalgoritmer kan bruges til at analysere diskrete data.
  • Associeringsalgoritmer kan bruges til data med korrelerede attributter.

Individuelle algoritmer og prædiktive teknikker har forskellige svagheder og styrker. Det vigtigste er, at modelens nøjagtighed afhænger af at have både en stor mængde og kvalitet af data. Dine data skal have et tilstrækkeligt antal poster til at give statistisk signifikante resultater.

At samle relevante data (helst mange poster over en længere periode), forbehandling og udpakning af funktionerne med de mest forudsigelige værdier vil være hvor du bruger størstedelen af ​​din tid. Men du skal alligevel vælge algoritmen, en algoritme, der skal passe til forretningsproblemet.

Databehandling er specifik for det projekt, du arbejder på, og algoritmen du vælger at ansætte.Afhængigt af projektets krav vil du forberede dine data i overensstemmelse hermed og føje det til algoritmen, når du bygger din model for at imødekomme forretningsbehovene.

Datasættet, der bruges til at træne og teste modellen, skal indeholde relevant forretningsinformation for at kunne svare på det problem, du forsøger at løse. Hvis dit mål er (for eksempel) for at bestemme hvilken kunde der sandsynligvis vil churn, så skal det datasæt du vælger indeholde oplysninger om kunder, der har churned i fortiden ud over kunder, der ikke har det.

Nogle modeller, der er oprettet til min data og giver mening om dets underliggende relationer - for eksempel dem, der er bygget med clustering algoritmer - behøver ikke have et bestemt slutresultat i tankerne.

Underfitting

Underfitting er, når din model ikke kan registrere nogen forhold i dine data. Dette er normalt en indikation på, at vigtige variabler - dem med prædiktiv kraft - ikke var medtaget i din analyse.

Hvis de variabler, der anvendes i din model, ikke har høj forudsigelseskraft, så prøv at tilføje nye domæne-specifikke variabler og genudføre din model. Slutmålet er at forbedre modelens ydeevne på træningsdataene.

Et andet problem at se efter er seasonality (når du har sæsonmønster, hvis du ikke analyserer flere årstider, kan du komme i problemer.) Eksempelvis en lageranalyse, der kun indeholder data fra en tyr marked (hvor de generelle aktiekurser stiger) regner ikke med kriser eller bobler, som kan medføre større korrektioner for de samlede bestande. Mangler at inkludere data, der spænder over både bull og bærer markeder (når de samlede aktiekurser falder) holder modellen fra at producere det bedst mulige porteføljevalg.

Overfitting

Overfitting er, når din model indeholder data, der ikke har forudsigende effekt, men det er kun specifikt for datasættet, du analyserer. Støj - tilfældige variationer i datasættet - kan finde vej ind i modellen, så at køre modellen på et andet datasæt giver et væsentligt fald i modelens prædiktive ydeevne og nøjagtighed.

Forbereder dine data til prædiktiv Analytics

Valg af editor

Hvordan man opretter en ny arbejdsbog i Excel 2010 - dummies

Hvordan man opretter en ny arbejdsbog i Excel 2010 - dummies

Hvis du arbejder i Microsoft Excel 2010 og vil begynde at arbejde i en ny Excel-workbook-fil, kan du nemt oprette en ny projektmappe. For at gøre det kan du bruge en kommando på fanen Filer eller en tastaturgenvej. Klik på fanen Filer. Excel viser Backstage-visning, hvor du kan få adgang til filrelaterede kommandoer. ...

Hvordan man opretter en ny brugerordbog i Excel 2010 - dummies

Hvordan man opretter en ny brugerordbog i Excel 2010 - dummies

I Excel 2010 Opret brugerdefinerede ordbøger, der skal bruges, når du stavekontrollerer dine regneark. Du bruger knappen Tilføj til ordbog i dialogboksen Staveord til at tilføje ukendte ord til en brugerdefineret ordbog. Som standard tilføjer Excel disse ord til en brugerdefineret ordbog fil med navnet CUSTOM. DIC, men du kan oprette en ny brugerdefineret ...

Hvordan du opretter og formaterer et pivotdiagram i Excel 2010 - dummies

Hvordan du opretter og formaterer et pivotdiagram i Excel 2010 - dummies

, Når du opretter en pivottabel i Excel 2010, kan du oprette et pivotdiagram for at vise sine sammendragsværdier grafisk. Du kan også formatere et pivotdiagram for at forbedre udseendet. Du kan bruge en af ​​de diagramtyper, der er tilgængelige med Excel, når du opretter et pivotdiagram. Opret et pivotdiagram Følg disse ...

Valg af editor

Hvordan du ændrer layoutet på dit Ning-netværkets hovedside - dummier

Hvordan du ændrer layoutet på dit Ning-netværkets hovedside - dummier

Du kan flytte funktioner rundt på hovedsiden på dit Ning-netværk via siden Tilføj funktioner til dit netværk, ændrer layoutet, indtil det bare er det, du vil have. For at komme til denne side skal du klikke på linket Administrer i din navigation og derefter klikke på Funktioner under Dit netværk. Tilføj funktioner til dit netværk ...

Sådan vælger du et sprog med Ning Language Editor - dummies

Sådan vælger du et sprog med Ning Language Editor - dummies

Ning Language Editor er et af de mest kraftfulde værktøjer til din rådighed for at tilpasse dit netværk til det maksimale. Ning Language Editor hjælper dig med at lave din netværksgrænseflade (menuer, knapper, overskrifter, legender osv.), Og læs præcis som du vil have det til. Sprogeditoren giver dig mulighed for at vælge et bestemt sprog:

Hvordan man vælger et tema til dit Ning-netværk - dummies

Hvordan man vælger et tema til dit Ning-netværk - dummies

Du kan køre dit netværk på Ning uden at være en meget vellykket designer - og Ning's temaer lader dig få det til at ligne en million dollars! Folkene i Ning har taget godt af det og tilbyder dig mere end 50 flotte skabeloner (de kalder dem temaer), som du kan bruge med minimal indsats:

Valg af editor

Forstå kamphandlinger i rutefilter - dummier

Forstå kamphandlinger i rutefilter - dummier

De kamphandlinger, der er tilgængelige for rutefiltre, er identiske med dem, der er tilgængelige for andre routing politikker i Junos. Du kan acceptere ruter, afvise ruter, ændre attributter, der tilhører en rute, eller udføre flow kontrol type funktioner. Langt de mest almindelige handlinger, der skal bruges med rutefiltre, accepteres og afvises. Normalt vil du ...

Brug god sikkerhedspraksis ved installation af netværksudstyr - dummies

Brug god sikkerhedspraksis ved installation af netværksudstyr - dummies

Vigtigheden af ​​at følge sikkerhedsprotokoller kan ikke være overvurderet. Hvis der ikke træffes passende forholdsregler, kan der opstå alvorlig skade for personale eller apparatet. Følg disse retningslinjer for at sikre din sikkerhed og beskytte enheden mod skade. Vær altid opmærksom og udøv god dømmekraft. Bemærk: Kun uddannet og kvalificeret personale skal installere enheden. Brug ...

Forstå matchtyper i rutefilter - dummies

Forstå matchtyper i rutefilter - dummies

Rutefilter matcher bestemte IP-adresser eller præfiksintervaller. I lighed med andre routingpolitikker indeholder de nogle matchkriterier og tilsvarende kamphandlinger. En vigtig forskel mellem rutefiltre og andre politiske matchforhold er, hvordan flere filtre håndteres. Hvis du har mere end en matchtilstand, behandles betingelserne som ...