Hjem Personlig finansiering Anvendelse af hovedkomponentanalyse til prædiktiv analyse - dummier

Anvendelse af hovedkomponentanalyse til prædiktiv analyse - dummier

Video: Anvendelse af råvildtkølle 2025

Video: Anvendelse af råvildtkølle 2025
Anonim

Hovedkomponentanalyse (PCA) er en værdifuld teknik, der er meget udbredt inden for prædiktiv analyse og datalogi. Det studerer et datasæt for at lære de mest relevante variabler, der er ansvarlige for den højeste variation i datasættet. PCA bruges mest som en data reduktion teknik.

Når du bygger prædiktive modeller, kan du muligvis reducere antallet af funktioner, der beskriver dit datasæt. Det er meget nyttigt at reducere denne høje dimensionering af data gennem tilnærmelsesteknikker, hvor PCA udmærker sig. De tilnærmede data opsummerer alle vigtige variationer af de oprindelige data.

F.eks. Kan funktionssættet med data om lagre omfatte aktiekurser, daglige høje og lave priser, handelsvolumener, 200-dages glidende gennemsnit, pris-til-indtjeningsforhold, relative styrke til andre markeder, renter og styrken af ​​valutaer.

At finde de vigtigste forudsigelsesvariabler er kernen i at opbygge en prædiktiv model. Den måde, mange har gjort det på, er ved at bruge en brute force-tilgang. Tanken er at starte med så mange relevante variabler som muligt, og brug derefter en tragt tilgang til eliminering af funktioner, der ikke har nogen indflydelse eller ingen prædiktiv værdi.

Intelligensen og indsigten er bragt til denne metode ved at engagere forretningsmæssige interessenter, fordi de har nogle tanker om, hvilke variabler der vil have størst indflydelse i analysen. Erfaringerne fra de dataforskere, der er involveret i projektet, er også vigtige for at vide, hvilke variabler der skal bruges til, og hvilke algoritmer der skal bruges til en bestemt datatype eller et domæne-specifikt problem.

For at hjælpe med processen bruger dataforskere mange prædiktive analyseværktøjer, der gør det lettere og hurtigere at køre flere permutationer og analyser på et datasæt for at måle virkningen af ​​hver variabel på datasættet.

At vide, at der er en stor mængde data at arbejde med, kan du bruge PCA til hjælp.

At reducere antallet af variabler, du ser på, er grund nok til at anvende PCA. Derudover beskytter du ved at bruge PCA automatisk beskyttelse mod overfitting af modellen.

Du kan bestemt finde sammenhæng mellem vejrdata i et givet land og udførelsen af ​​sit aktiemarked. Eller med farven på en persons sko og den rute, som han eller han tager til kontoret, og udførelsen af ​​deres portefølje for den dag. Men inklusive disse variabler i en prædiktiv model er mere end bare overfitting, det er vildledende og fører til falske forudsigelser.

PCA bruger en matematisk gyldig tilgang til at bestemme delmængden af ​​dit datasæt, der indeholder de vigtigste funktioner; Når du bygger din model på det mindre datasæt, får du en model, der har forudsigende værdi for det samlede større datasæt, du arbejder med. Kort sagt bør PCA hjælpe dig med at forstå dine variabler ved at identificere delmængden af ​​variabler, der er ansvarlige for den mest variation med dit originale datasæt. Det hjælper dig med at se overflødighed. Det hjælper dig med at finde ud af, at to (eller flere variabler) fortæller dig det samme.

Desuden tager hovedkomponentanalysen dit multidimensionale datasæt og producerer et nyt datasæt, hvis variabler er repræsentative for lineariteten af ​​variablerne i det oprindelige datasæt. Derudover har det udgitte datasæt individuelt ukorrelerede variabler, og deres varians er bestilt af deres hovedkomponenter, hvor den første er den største og så videre. I denne henseende kan PCA også betragtes som en teknik til konstruktion af funktioner.

Mens du bruger PCA eller andre lignende teknikker, der hjælper med at reducere dimensionerne af datasættet, du har at gøre med, skal du altid være forsigtig med ikke at påvirke modelens ydeevne negativt. At reducere størrelsen af ​​dataene bør ikke komme på bekostning af at påvirke ydeevnen negativt (nøjagtigheden af ​​den prædiktive model). Træd sikker på og administrer dit datasæt med omhu.

Den øgede kompleksitet af en model oversætter ikke til højere kvalitet i udfaldet.

For at bevare modelens præstationer må du muligvis nøje evaluere effektiviteten af ​​hver variabel og måle dens anvendelighed i udformningen af ​​den endelige model.

At vide, at PCA'en kan være særlig nyttig, når variablerne er stærkt korrelerede inden for et givet datasæt, kan det kun komplicere opgaven med at reducere dimensionaliteten af ​​multivariate data ved at have et datasæt med ikke-korrelerede prædiktive variabler. Mange andre teknikker kan bruges her i tillæg til PCA'en, som f.eks. Fremadgående valg af funktion og tilbagevendende funktion eliminering.

PCA er ikke en magisk kugle, der løser alle problemer med multidimensionale data. Dens succes er meget afhængig af de data, du arbejder med. Den statistiske varians er muligvis ikke tilpasset til variabler med de mest forudsigelige værdier, selv om det er sikkert at arbejde med sådanne tilnærmelser.

Anvendelse af hovedkomponentanalyse til prædiktiv analyse - dummier

Valg af editor

Hvordan man behandler PHR / SPHR eksamensspørgsmål, du ikke ved - dummier

Hvordan man behandler PHR / SPHR eksamensspørgsmål, du ikke ved - dummier

Vil du uundgåeligt komme ind på et spørgsmål (eller et par) på PHR eller SPHR eksamen, hvor du simpelthen ikke vil vide svaret. Vær ikke overrasket, når du støder på en. Bliv rolig og tag ikke panik. Her er nogle strategier til at håndtere det ukendte: Stol på dit første instinkt. Prøv ikke at overtale spørgsmålet. Hvis du ...

Sammenligner PHR og SPHR-eksamenerne - dummier

Sammenligner PHR og SPHR-eksamenerne - dummier

Med den rette eksamen, enten PHR eller SPHR, har en effekt på mere end blot at gøre forberedelsesprocessen mindre stressende. Valg af den relevante test kan også påvirke dit fremtidige job og indtjeningspotentiale. Tænk på at ansøge om et HR-job på højt niveau, der kræver eksponering, erfaring og problemløsning i forretningsadministration og ...

Hvordan man håndterer svardistraherende på PHR / SPHR-eksamenerne - dummier

Hvordan man håndterer svardistraherende på PHR / SPHR-eksamenerne - dummier

Ud over de to gode svar valg, har et spørgsmål om PHR eller SPHR eksamen normalt også distraktorer. Distraktorer kan dukke op på et par forskellige steder: I spørgsmålstammen: Denne fremmede information er ikke relevant for det korrekte svar. I et af de fire svar valg: Nogle distractorer er svar baseret på ...

Valg af editor

I nogle organisationer, de operationelt anerkendte måneder tilbage en skattemåned fra en dato i Excel - dummies

I nogle organisationer, de operationelt anerkendte måneder tilbage en skattemåned fra en dato i Excel - dummies

Start ikke den 1. og slut den 30. eller 31. december. I stedet har de bestemte dage, der markerer begyndelsen og slutningen af ​​en måned. For eksempel kan du arbejde i en organisation, hvor hver skattemåned begynder den 21. og slutter den 20. ..

Roterende celledata i Excel 2007 - dummies

Roterende celledata i Excel 2007 - dummies

Brug retningsknappen på fanen Startside i Excel 2007 for at rotere data i celler. Du kan rotere data med uret, mod uret eller lodret. Brug dialogboksen Formaterceller til at indstille en mere præcis retning ved at angive antallet af grader for at rotere teksten. For at rotere celledata skal du følge disse trin: Vælg ...

Række højde og kolonne bredde i Excel 2013 - dummies

Række højde og kolonne bredde i Excel 2013 - dummies

Hver kolonne i et regneark starter med samme bredde , som er 8. 43 tegn (baseret på standard skrifttype og skriftstørrelse), medmindre du har ændret standardindstillingen. Det er cirka syv cifre og enten et stort symbol (f.eks. $) Eller to små (som decimaler og kommaer). Du kan definere standard ...

Valg af editor

Opret din første MindManager-kort - dummies

Opret din første MindManager-kort - dummies

Oprettelse af kort er hvad MindManager handler om, men at oprette et nyttigt kort kan tage lidt indsats og kreativ energi. Du vil bruge kort, der allerede er startet, kaldet skabeloner, når det er muligt. Opret dit første kort - et øvelseskort - ved at åbne dit MindManager-program og følg disse trin: 1. Klik på Learning ...

Crystal Reports 10: Forståelse af objektforbindelse og indlejring (OLE) - dummies

Crystal Reports 10: Forståelse af objektforbindelse og indlejring (OLE) - dummies

Formålet med en rapport er at præsentere databasedata for brugere i en form, der er let at forstå. Crystal Reports giver dig alle de værktøjer, du har brug for til at gøre det. Nogle gange vil du dog have en rapport, der gør mere end bare til stede databasedata. Du kan muligvis inkludere tekst fra et ord ...

Dag Trading Bitcoin versus Fiat - dummies

Dag Trading Bitcoin versus Fiat - dummies

Dagens handel handler om at købe og sælge finansielle instrumenter - som bitcoin - inden for samme handelsdag. Fiat valuta refererer til en national regering lovligt betalingsmiddel. Ved hjælp af bitcoin kan du handle på flere forskellige måder. Den mest oplagte handelsform byder bitcoins til og fra en hvilken som helst af de lokale valutaer den ...