Hjem Personlig finansiering Forbereder dine data til prædiktiv Analytics

Forbereder dine data til prædiktiv Analytics

Indholdsfortegnelse:

Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2025

Video: Age of Deceit (2) - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language 2025
Anonim

Når du har defineret målene for modellen, er det næste trin i predictive analytics at identificere og forberede de data, du vil bruge til at opbygge din model. Følgende oplysninger vedrører de vigtigste aktiviteter. Den generelle rækkefølge af trin ser sådan ud:

  1. Identificer dine datakilder.

    Data kan være i forskellige formater eller opholde sig på forskellige steder.

  2. Identificer, hvordan du får adgang til disse data.

    Nogle gange skal du erhverve tredjepartsdata eller data, der ejes af en anden afdeling i din organisation mv.

  3. Overvej hvilke variabler der skal inkluderes i din analyse.

    En standard tilgang er at starte med en bred vifte af variabler og eliminere dem, der ikke giver nogen forudsigelig værdi for modellen.

  4. Bestem, om der skal anvendes afledte variabler.

    I mange tilfælde vil en afledt variabel (såsom pris pr. Indtjeningsgrad anvendt til analyse af aktiekurser) have større direkte indflydelse på modellen end den råvariabel.

  5. Udforsk kvaliteten af ​​dine data, og søg efter at forstå både dets tilstand og begrænsninger.

    Nøjagtigheden af ​​modelens forudsigelser er direkte relateret til de variabler, du vælger, og kvaliteten af ​​dine data. Du vil gerne svare på nogle dataspecifikke spørgsmål på dette tidspunkt:

    • Er dataene komplette?
    • Har det nogen outliers?
    • Skal dataene renses?
    • Har du brug for at udfylde manglende værdier, holde dem som de er eller helt fjerne dem?

Forståelse af dine data og dens egenskaber kan hjælpe dig med at vælge den algoritme, der vil være mest nyttig i opbygningen af ​​din model. For eksempel:

  • Regressionsalgoritmer kan bruges til at analysere tidsseriedata.
  • Klassifikationsalgoritmer kan bruges til at analysere diskrete data.
  • Associeringsalgoritmer kan bruges til data med korrelerede attributter.

Individuelle algoritmer og prædiktive teknikker har forskellige svagheder og styrker. Det vigtigste er, at modelens nøjagtighed afhænger af at have både en stor mængde og kvalitet af data. Dine data skal have et tilstrækkeligt antal poster til at give statistisk signifikante resultater.

At samle relevante data (helst mange poster over en længere periode), forbehandling og udpakning af funktionerne med de mest forudsigelige værdier vil være hvor du bruger størstedelen af ​​din tid. Men du skal alligevel vælge algoritmen, en algoritme, der skal passe til forretningsproblemet.

Databehandling er specifik for det projekt, du arbejder på, og algoritmen du vælger at ansætte.Afhængigt af projektets krav vil du forberede dine data i overensstemmelse hermed og føje det til algoritmen, når du bygger din model for at imødekomme forretningsbehovene.

Datasættet, der bruges til at træne og teste modellen, skal indeholde relevant forretningsinformation for at kunne svare på det problem, du forsøger at løse. Hvis dit mål er (for eksempel) for at bestemme hvilken kunde der sandsynligvis vil churn, så skal det datasæt du vælger indeholde oplysninger om kunder, der har churned i fortiden ud over kunder, der ikke har det.

Nogle modeller, der er oprettet til min data og giver mening om dets underliggende relationer - for eksempel dem, der er bygget med clustering algoritmer - behøver ikke have et bestemt slutresultat i tankerne.

Underfitting

Underfitting er, når din model ikke kan registrere nogen forhold i dine data. Dette er normalt en indikation på, at vigtige variabler - dem med prædiktiv kraft - ikke var medtaget i din analyse.

Hvis de variabler, der anvendes i din model, ikke har høj forudsigelseskraft, så prøv at tilføje nye domæne-specifikke variabler og genudføre din model. Slutmålet er at forbedre modelens ydeevne på træningsdataene.

Et andet problem at se efter er seasonality (når du har sæsonmønster, hvis du ikke analyserer flere årstider, kan du komme i problemer.) Eksempelvis en lageranalyse, der kun indeholder data fra en tyr marked (hvor de generelle aktiekurser stiger) regner ikke med kriser eller bobler, som kan medføre større korrektioner for de samlede bestande. Mangler at inkludere data, der spænder over både bull og bærer markeder (når de samlede aktiekurser falder) holder modellen fra at producere det bedst mulige porteføljevalg.

Overfitting

Overfitting er, når din model indeholder data, der ikke har forudsigende effekt, men det er kun specifikt for datasættet, du analyserer. Støj - tilfældige variationer i datasættet - kan finde vej ind i modellen, så at køre modellen på et andet datasæt giver et væsentligt fald i modelens prædiktive ydeevne og nøjagtighed.

Forbereder dine data til prædiktiv Analytics

Valg af editor

Dække dine baser med denne mobile SEO-tjekliste over opgaver - dummies

Dække dine baser med denne mobile SEO-tjekliste over opgaver - dummies

Det store flertal af amerikanerne surfer på internettet fra deres telefoner. Her er en hurtig-reference tjekliste over mobile webdesign og optimeringsopgaver. Når du gør dit websted mobil, skal du sørge for at afkrydse varerne på denne mobile SEO checkliste! Vælg en mobil platform Bestem hvilken metode til mobildesign, du vil implementere til dit mobilsite. ...

Styring af dine links til SEO - dummies

Styring af dine links til SEO - dummies

Inden du løber af for at søge efter links til at forbedre din søge ranking , tænk på, hvad du vil have disse links til at sige. Nøgleord i links er uhyre vigtige. Placeringen af ​​en side i søgemaskinerne afhænger ikke kun af teksten inden for denne side, men også på tekst på andre sider, der henviser til ...

Du skal tage den rigtige mobil tilgang til din SEO-strategi - dummies

Du skal tage den rigtige mobil tilgang til din SEO-strategi - dummies

Mobil brug i betragtning, når du udvikler dit websted til SEO. Fordi en stationær computerskærm og en smartphone er meget forskellig i størrelse, betyder design for mobil, at du skal gøre en af ​​tre ting: Opbyg et lydhurt webdesign, der dynamisk tilpasser indhold fra desktopformat til mobil ...

Valg af editor

Hvordan man opretter en influenslisteliste på Klout - dummies

Hvordan man opretter en influenslisteliste på Klout - dummies

I sidebjælken på venstre side af din Klout Friends-skærm, ser du en orange Opret en ny liste-knap. Når du klikker på denne knap, vises et pop op-vindue. I denne boks kan du tilføje folk til listen og navngive listen. På dette tidspunkt kan du kun føje influencere af deres Twitter ...

Hvordan man undgår beregninger faldgruber med dit websted Analytics data - dummies

Hvordan man undgår beregninger faldgruber med dit websted Analytics data - dummies

Du kan undre sig hvordan i verden kan du lave fejl med data, der bliver leveret til dig i pæne rapporter og grafer. Sociale metrics-tjenester gør et godt stykke arbejde med at indsamle alle de data, du fortæller dem, at finde. Der er mange målinger faldgruber derude. Du kan nemt ...

Sådan dekrypterer du Social Media Metrics Codes and Patterns - dummies

Sådan dekrypterer du Social Media Metrics Codes and Patterns - dummies

Som du sporer din sociale medieværdier over tid og begynder at bruge nogle af de næste lagværktøjer, såsom segmentering og dayparting, til at analysere din online og sociale interaktion, er det vigtigt at holde øje med brugsmønstre, interesse og engagement og hemmelige koder din besøgende og fans / tilhængere sender ...

Valg af editor

Matchende vinkler til levnedsmiddelfag i madfotografi - dummier

Matchende vinkler til levnedsmiddelfag i madfotografi - dummier

Give et andet udseende og følelse for dine billeder. Nøglen er at spille rundt med de forskellige vinkler og derefter fokusere på fødevaren. Nogle vinkler ser langt mere appetitvækkende ud end andre, men det varierer fra mad til mad.

Maksimere forstørrelse med små motiver - dummier

Maksimere forstørrelse med små motiver - dummier

Universet ser ud til at give detaljerede detaljer, fra galaksen til solen system, til bjergene, til træerne, til dyrene, til insekterne og ned til bakterierne og cellerne, til atomer og hinsides. Fotografering kan fange de oplysninger, der leveres på disse forskellige lag. Hvor langt ned på skalaen du ...

Meter med dit kamera i HDR Photography - dummies

Meter med dit kamera i HDR Photography - dummies

Ved hjælp af en forudindtaget bracketingstrategi i HDR fotografering fungerer godt, men ulempen ved ikke, om du virkelig fanger hele sceneens dynamiske område med parenteserne (hvis du holder øje med et levende histogram, er du tættere på at vide). En mere flot indflydelse afhænger af måling af højder og nedture ...