Hjem Personlig finansiering Begrænsningerne af dataene i Prediktiv Analytics - Dummies

Begrænsningerne af dataene i Prediktiv Analytics - Dummies

Video: Leap Motion SDK 2025

Video: Leap Motion SDK 2025
Anonim

Som med mange aspekter af ethvert forretningssystem er data en menneskelig skabelse - så det er egnet til at have nogle begrænsninger på dets brugbarhed, når du først få det. Her er et overblik over nogle begrænsninger, som du sandsynligvis vil støde på:

  • Dataene kan være ufuldstændige. Manglende værdier, selv om der mangler en sektion eller en væsentlig del af dataene, kan begrænse brugen af ​​det.

    Dine data kan f.eks. Kun dække et eller to betingelser for et større sæt, du forsøger at model - som når en model, der er bygget til analyse af aktiemarkedsresultater, kun har data tilgængelige fra de seneste 5 år, hvilket skævner begge data og model mod antagelse af et tyr marked.

    I det øjeblik markedet gennemgår en korrektion, der fører til et bjørnemarked, undlader modellen at tilpasse sig - simpelthen fordi den ikke blev uddannet og testet med data, der repræsenterer et bjørnemarked.

    Sørg for at du kigger på en tidsramme, der giver dig et komplet billede af de naturlige udsving i dine data; Dine data bør ikke begrænses af sæsonbestemt .

  • Hvis du bruger data fra undersøgelser, skal du huske på, at folk ikke altid giver nøjagtige oplysninger. Ikke alle vil svare sandt om (hvor mange gange de udøver - eller hvor mange alkoholiske drikkevarer de forbruger - om ugen. Folk må ikke være uærlige så meget som selvbevidste, men dataene er stadig skævt.

  • Data indsamlet fra forskellige kilder kan variere i kvalitet og format. Data indsamlet fra så forskellige kilder som undersøgelser, e-mails, dataindtastningsformularer, og firmaets hjemmeside vil have forskellige egenskaber og strukturer. Data fra forskellige kilder kan muligvis ikke have meget kompatibilitet mellem datafelter. Sådanne data kræver større forbehandling før det er analyseret. Den ledsagende sidebjælke giver et eksempel.

Data indsamlet fra flere kilder kan have forskelle i formatering, duplikatoptegnelser og inkonsekvenser på tværs af fusionerede datafelter. Forvent at bruge lang tid på at rengøre sådanne data - og endnu længere validere dets pålidelighed.

For at bestemme begrænsningerne i dine data skal du sørge for:

  • Bekræft alle de variabler, du vil bruge i din model.

  • Vurder datalængden, især over tid, så din model kan undgå årstidsfælden.

  • Kontroller manglende værdier, identificer dem og vurder deres indvirkning på den samlede analyse.

  • Pas på ekstreme værdier (outliers) og afgøre, om de skal inkluderes i analysen.

  • Bekræft at puljen af ​​træning og testdata er stor nok.

  • Kontroller, at datatype (heltal, decimaltal eller tegn osv.) Er korrekt, og angiv de øverste og nederste grænser for mulige værdier.

  • Vær ekstra opmærksom på dataintegration, når dine data kommer fra flere kilder.

Vær sikker på at du forstår dine datakilder og deres indvirkning på den samlede kvalitet af dine data.

  • Vælg et relevant datasæt, der er repræsentativt for hele befolkningen.

  • Vælg de rigtige parametre til din analyse.

Selv efter al denne omhu og opmærksomhed, vær ikke overrasket over, om dine data stadig har brug for forbehandling, før du kan analysere det nøjagtigt. Forarbejdning tager ofte lang tid og en betydelig indsats, fordi den skal adressere flere problemer relateret til de originale data - disse problemer inkluderer:

  • Eventuelle værdier mangler fra dataene.

  • Eventuelle uoverensstemmelser og / eller fejl i dataene.

  • Eventuelle duplikater eller outliers i dataene.

  • Enhver normalisering eller anden transformation af dataene.

  • Eventuelle afledte data, der er nødvendige til analysen.

Begrænsningerne af dataene i Prediktiv Analytics - Dummies

Valg af editor

Hvordan man opretter en ny arbejdsbog i Excel 2010 - dummies

Hvordan man opretter en ny arbejdsbog i Excel 2010 - dummies

Hvis du arbejder i Microsoft Excel 2010 og vil begynde at arbejde i en ny Excel-workbook-fil, kan du nemt oprette en ny projektmappe. For at gøre det kan du bruge en kommando på fanen Filer eller en tastaturgenvej. Klik på fanen Filer. Excel viser Backstage-visning, hvor du kan få adgang til filrelaterede kommandoer. ...

Hvordan man opretter en ny brugerordbog i Excel 2010 - dummies

Hvordan man opretter en ny brugerordbog i Excel 2010 - dummies

I Excel 2010 Opret brugerdefinerede ordbøger, der skal bruges, når du stavekontrollerer dine regneark. Du bruger knappen Tilføj til ordbog i dialogboksen Staveord til at tilføje ukendte ord til en brugerdefineret ordbog. Som standard tilføjer Excel disse ord til en brugerdefineret ordbog fil med navnet CUSTOM. DIC, men du kan oprette en ny brugerdefineret ...

Hvordan du opretter og formaterer et pivotdiagram i Excel 2010 - dummies

Hvordan du opretter og formaterer et pivotdiagram i Excel 2010 - dummies

, Når du opretter en pivottabel i Excel 2010, kan du oprette et pivotdiagram for at vise sine sammendragsværdier grafisk. Du kan også formatere et pivotdiagram for at forbedre udseendet. Du kan bruge en af ​​de diagramtyper, der er tilgængelige med Excel, når du opretter et pivotdiagram. Opret et pivotdiagram Følg disse ...

Valg af editor

Hvordan du ændrer layoutet på dit Ning-netværkets hovedside - dummier

Hvordan du ændrer layoutet på dit Ning-netværkets hovedside - dummier

Du kan flytte funktioner rundt på hovedsiden på dit Ning-netværk via siden Tilføj funktioner til dit netværk, ændrer layoutet, indtil det bare er det, du vil have. For at komme til denne side skal du klikke på linket Administrer i din navigation og derefter klikke på Funktioner under Dit netværk. Tilføj funktioner til dit netværk ...

Sådan vælger du et sprog med Ning Language Editor - dummies

Sådan vælger du et sprog med Ning Language Editor - dummies

Ning Language Editor er et af de mest kraftfulde værktøjer til din rådighed for at tilpasse dit netværk til det maksimale. Ning Language Editor hjælper dig med at lave din netværksgrænseflade (menuer, knapper, overskrifter, legender osv.), Og læs præcis som du vil have det til. Sprogeditoren giver dig mulighed for at vælge et bestemt sprog:

Hvordan man vælger et tema til dit Ning-netværk - dummies

Hvordan man vælger et tema til dit Ning-netværk - dummies

Du kan køre dit netværk på Ning uden at være en meget vellykket designer - og Ning's temaer lader dig få det til at ligne en million dollars! Folkene i Ning har taget godt af det og tilbyder dig mere end 50 flotte skabeloner (de kalder dem temaer), som du kan bruge med minimal indsats:

Valg af editor

Forstå kamphandlinger i rutefilter - dummier

Forstå kamphandlinger i rutefilter - dummier

De kamphandlinger, der er tilgængelige for rutefiltre, er identiske med dem, der er tilgængelige for andre routing politikker i Junos. Du kan acceptere ruter, afvise ruter, ændre attributter, der tilhører en rute, eller udføre flow kontrol type funktioner. Langt de mest almindelige handlinger, der skal bruges med rutefiltre, accepteres og afvises. Normalt vil du ...

Brug god sikkerhedspraksis ved installation af netværksudstyr - dummies

Brug god sikkerhedspraksis ved installation af netværksudstyr - dummies

Vigtigheden af ​​at følge sikkerhedsprotokoller kan ikke være overvurderet. Hvis der ikke træffes passende forholdsregler, kan der opstå alvorlig skade for personale eller apparatet. Følg disse retningslinjer for at sikre din sikkerhed og beskytte enheden mod skade. Vær altid opmærksom og udøv god dømmekraft. Bemærk: Kun uddannet og kvalificeret personale skal installere enheden. Brug ...

Forstå matchtyper i rutefilter - dummies

Forstå matchtyper i rutefilter - dummies

Rutefilter matcher bestemte IP-adresser eller præfiksintervaller. I lighed med andre routingpolitikker indeholder de nogle matchkriterier og tilsvarende kamphandlinger. En vigtig forskel mellem rutefiltre og andre politiske matchforhold er, hvordan flere filtre håndteres. Hvis du har mere end en matchtilstand, behandles betingelserne som ...