Hjem Personlig finansiering Sådan bruges dataudjævning i Predictive Analytics - dummies

Sådan bruges dataudjævning i Predictive Analytics - dummies

Indholdsfortegnelse:

Video: Brug hjertestarter - sådan bruges en hjertestarter. 2025

Video: Brug hjertestarter - sådan bruges en hjertestarter. 2025
Anonim

Dataudjævning i prediktiv analyse forsøger i det væsentlige at finde "signalet" i "støj" ved kassere datapunkter, der betragtes som "støjende". Tanken er at skærpe mønstre i dataene og fremhæve tendenser dataene peger på.

Implikationen bag dataudjævning er, at dataene består af to dele: en del (bestående af kernedatapunkter ), der angiver overordnede tendenser eller reelle tendenser, og en anden del, der hovedsagelig består af afvigelser ( støj ) - nogle svingende punkter, der skyldes en vis volatilitet i dataene. Dataudjævning søger at fjerne den anden del.

Sådan slår du af støj

Dataudjævning virker på flere forudsætninger:

  • Denne udsving i data er sandsynligvis støj.

  • At den støjende del af dataene er kortvarig.

  • At dataens udsving, uanset hvor varieret det måtte være, vil ikke påvirke de underliggende tendenser repræsenteret ved de centrale datapunkter.

Støj i data har tendens til at være tilfældigt; dets udsving bør ikke påvirke de overordnede tendenser trukket fra at undersøge resten af ​​dataene. Således reducerer eller eliminerer støjende datapunkter klargør virkelige tendenser og mønstre i dataene - i virkeligheden forbedrer dataens "signal-til-støj-forhold. ”

Hvis du har identificeret støj korrekt og derefter reduceret, kan dataudjævning hjælpe dig med at forudsige det næste observerede datapunkt ved blot at følge de store trends, du har registreret inden for dataene.

Dataudjævning vedrører selve flertallet af datapunkterne, deres positioner i en graf, og hvad de resulterende mønstre forudser om den generelle tendens af (sig) en aktiekurs, om dens generelle retning er op, ned eller sidelæns.

Denne teknik vil ikke nøjagtigt forudsige den nøjagtige pris for den næste handel for et givet lager - men forudsigelse af en generel tendens kan give mere magtfulde indsigter end at kende den faktiske pris eller dens udsving.

En prognose baseret på en generel tendens afledt af glatte data forudsætter, at hvilken retning dataene har fulgt hidtil, vil fortsætte ind i fremtiden på en måde, som er i overensstemmelse med udviklingen. På aktiemarkedet er for eksempel præstationsresultater ikke nogen konkret indikation af fremtidige resultater, men det kan helt sikkert være en generel vejledning til fremtidig bevægelse af aktiekursen.

Metoder, fordele og ulemper ved dataudjævning

Dataudjævning er ikke forveksles med montering af en model, , som er en del af dataanalysen bestående af to trin:

  1. Find en passende model, der repræsenterer dataene.

  2. Sørg for, at modellen passer til dataene effektivt.

Dataudjævning fokuserer på at etablere en grundlæggende retning for kernedatapunkterne ved at (1) ignorere eventuelle støjende datapunkter og (2) tegne en glattere kurve gennem de datapunkter, der hopper over de vridende og understreger primære mønstre - tendenser - i dataene, uanset hvor langsom deres fremkomst. Følgelig tjener dataudjævning i en numerisk tidsserie som en form for filtrering.

Dataudjævning kan bruge en af ​​følgende metoder:

  • Tilfældig gåtur er baseret på ideen om, at det næste resultat eller fremtidige datapunkt er en tilfældig afvigelse fra den sidst kendte eller nuværende datapunkt.

  • Flytende gennemsnit er et løbende gennemsnit af på hinanden følgende, lige adskilte perioder. Et eksempel var beregningen af ​​et 200-dages glidende gennemsnit af en aktiekurs.

  • Eksponentiel udjævning tildeler eksponentielt større vægt eller betydning til nyere datapunkter end til ældre datapunkter.

    • Simple: Denne metode skal bruges, når tidsseriedataene ikke har nogen tendens og ingen årstid.

    • Lineær: Denne metode skal bruges, når tidsseriedataene har en trendlinie.

    • Sæsonbestemt: Denne metode skal bruges, når tidsseriedataene ikke har nogen tendens, men sæsonbestemt.

Hvad disse udjævningsmetoder alle har til fælles er, at de udfører en form for gennemsnitsproces på flere datapunkter. Sådan gennemsnittet af tilstødende datapunkter er den væsentlige måde at nulle på underliggende tendenser eller mønstre.

Fordelene ved dataudjævning er

  • Det er nemt at implementere.

  • Det hjælper med at identificere tendenser.

  • Det hjælper med at afsløre mønstre i dataene.

  • Det eliminerer datapunkter, som du har valgt, ikke er af interesse.

  • Det hjælper med at forudsige den generelle retning af de næste observerede datapunkter.

  • Det genererer flot glatte grafer.

Men alt har en ulempe. Ulemperne ved dataudjævning er

  • Det kan fjerne gyldige datapunkter, der skyldes ekstreme begivenheder.

  • Det kan føre til unøjagtige forudsigelser, hvis testdataene kun er sæsonbestemte og ikke fuldt repræsentative for den virkelighed, der genererede datapunkterne.

  • Det kan flytte eller skævre dataene, især toppene, hvilket resulterer i et forvrænget billede af, hvad der sker.

  • Det kan være sårbart for betydelige forstyrrelser fra outliers inden for dataene.

  • Det kan medføre en væsentlig afvigelse fra de oprindelige data.

Hvis dataudjævning kun giver dataene kun ansigtsløftning, kan det tegne en grundlæggende fejl på følgende måder:

  • Det kan introducere fejl gennem forvrængninger, der behandler de glatte data som om det var identisk med originalen data.

  • Det kan skæve tolkning ved at ignorere - og gemme - risici indlejret i dataene.

  • Det kan føre til tab af detaljer i dine data - hvilket er en måde at en glatt kurve kan afvige meget fra den oprindelige data.

Hvor alvorligt dataudjævning kan påvirke dine data afhænger af dataene ved hånden, og hvilken udjævningsteknik der blev implementeret på disse data.Hvis de originale data f.eks. Har flere toppe i det, vil dataudjævning føre til større skift af disse toppe i de glatte grafer - sandsynligvis en forvrængning.

Her er nogle advarselspunkter, der skal tages i betragtning, når du nærmer dig dataudjævning:

  • Det er en god ide at sammenligne glatte grafer til uberørte grafer, der plotter de originale data.

  • Datapunkter fjernet under dataudjævning er muligvis ikke støj; de kunne være gyldige, reelle datapunkter, der er resultatet af sjældne-men-virkelige begivenheder.

  • Dataudjævning kan være nyttigt med moderation, men dens overforbrug kan føre til en vildledning af dine data.

Ved at anvende din professionelle vurdering og din virksomheds viden ekspertise, kan du bruge dataudjævning effektivt. Fjernelse af støj fra dine data - uden at påvirke nøjagtigheden og anvendeligheden af ​​de oprindelige data - er mindst lige så meget en kunst som en videnskab.

Sådan bruges dataudjævning i Predictive Analytics - dummies

Valg af editor

Sammenligning af Hadoop-distributioner - dummier

Sammenligning af Hadoop-distributioner - dummier

Du vil opdage, at Hadoop-økosystemet har mange komponenter, som alle eksisterer som deres egne Apache projekter. Fordi Hadoop er vokset betydeligt og står over for nogle betydelige yderligere ændringer, er forskellige versioner af disse komponenter i open source-fællesskabet måske ikke fuldt kompatible med andre komponenter. Dette giver betydelige vanskeligheder for folk, der søger at få ...

Faktorer, der øger omfanget af statistisk analyse i Hadoop - dummies

Faktorer, der øger omfanget af statistisk analyse i Hadoop - dummies

Grunden til, at folk udprøver deres data før du kører statistisk analyse i Hadoop er, at denne form for analyse ofte kræver betydelige databehandlingsressourcer. Det handler ikke kun om datamængder: der er fem hovedfaktorer, der påvirker omfanget af statistisk analyse: Denne er let, men vi skal nævne det: mængden af ​​data på ...

Komprimering af data i Hadoop - dummies

Komprimering af data i Hadoop - dummies

Er de enorme datamængder, der er realiteter i en typisk Hadoop-implementering, en nødvendighed. Datakomprimering sparer helt sikkert en stor mængde lagerplads og er sikker på at fremskynde bevægelsen af ​​disse data i hele din klynge. Ikke overraskende er der en række tilgængelige komprimeringsordninger, kaldet codecs, derude for ...

Valg af editor

Hvordan man bruger Wordtracker Søgeordsværktøj - dummies

Hvordan man bruger Wordtracker Søgeordsværktøj - dummies

Wordracker er måske det mest populære kommercielle søgeordværktøj blandt seo fagfolk. Wordtracker har adgang til data fra et par store metakrawlere og en stor britisk internetudbyder. En metacrawler er et system, der søger flere søgemaskiner til dig. Skriv f.eks. Et ord i Dogpiles søgefelt, og systemet søger på Google, ...

Identificere mobile brugers søgemønstre for SEO - dummies

Identificere mobile brugers søgemønstre for SEO - dummies

I begyndelsen af ​​2014 Endelig skete: Internetbrug via mobile enheder oversteg faktisk desktop internetbrug i USA for første gang. Overveje det, alle har en smartphone i disse dage, og folk bruger i stigende grad disse handy-enheder, tabletter som iPad og det nye mellemstore sortiment af tabletter (overdimensionerede telefon-tablet-enheder) ...

Hvordan man bruger single page analyser til konkurrencedygtig seo forskning - dummies

Hvordan man bruger single page analyser til konkurrencedygtig seo forskning - dummies

Single Page Analyzer værktøj kan hjælpe dig med at forbedre dit websted til SEO. Det fortæller dig, hvad en websides søgeord er og beregner deres tæthed. Søgeordsdensitet er en procentdel, der angiver det antal gange søgeordet opstår i forhold til det samlede antal ord på siden. Når du kører en konkurrents side ...

Valg af editor

Sådan konstrueres en funktion i C Programmering - dummier

Sådan konstrueres en funktion i C Programmering - dummier

I C-programmering, alle funktioner kaldes med en navn, som skal være unikt ingen to funktioner kan have samme navn, og en funktion kan heller ikke have samme navn som et søgeord. Navnet efterfølges af parenteser, som derefter efterfølges af et sæt krøllede parenteser. Så i sin enkleste konstruktion, en ...

Sådan oprettes en ny kode:: Blokerer projekt i C-dummier

Sådan oprettes en ny kode:: Blokerer projekt i C-dummier

I C programmeringssprog, en konsol-applikation er en, der kører i tekst-tilstand i et terminalvindue. Selv om et integreret udviklingsmiljø er i stand til mere, er det den bedste måde at lære grundlæggende programmeringskoncepter på, uden at overvældende dig med et stort, komplekst grafisk dyr af et program. Sådan fungerer det: Start ...

Hvordan man viser tekst på skærmen i C med sætter () og printf () - Dummies

Hvordan man viser tekst på skærmen i C med sætter () og printf () - Dummies

De ting, som et C-program kan gøre, er ubegrænset, men når du først lærer sproget, skal du starte lille. En af de mest almindelige funktioner, du vil have dit C-program til at gøre, er at vise tekst på skærmen, og der er to måder at gøre: sætter () og printf (). sætter () Sætter sandsynligvis ...