Video: "Why in the World are They Spraying?" Documentary HD (multiple language subtitles) 2025
Når du stoler på teknologi eller instrumentering til at udføre en forudsigende analyseopgave, kan en fejl her eller der forårsage, at disse instrumenter registrerer ekstreme eller usædvanlige værdier. Hvis sensorer registrerer observationsværdier, der ikke overholder grundlæggende kvalitetskontrolstandarder, kan de producere reelle forstyrrelser, der afspejles i data.
En person, der udfører dataindtastning, kan f.eks. Nemt tilføje en ekstra 0 ved enden af en værdi ved en fejltagelse, idet man tager indgangen uden for rækkevidde og producerer en outlier.
Hvis du ser på observationsdata indsamlet af en vandføler, der er installeret i Baltimore Harbor - og det rapporterer en vanddybde på 20 fod over gennemsnittet af havets overflade - har du en outlier. Sensoren er naturligvis forkert, medmindre Baltimore er helt dækket af vand.
Data kan ende med at have afvigende på grund af eksterne hændelser eller en fejl af en person eller et instrument.
Hvis en reel begivenhed som et flashkrasj er sporet til en fejl i systemet, er dens konsekvenser stadig virkelige - men hvis du kender kilden til problemet, kan du konkludere, at en fejl i dataene, ikke din model, var skylden, hvis din model ikke forudsagde begivenheden.
At vide kilden til outlier vil guide din beslutning om, hvordan man skal håndtere det. Outliers, der var resultatet af dataindtastningsfejl, kan let korrigeres efter høring af datakilden. Outliers, der afspejler en forandringsrealitet, kan bede dig om at ændre din model.
Der er ingen svar på alle størrelser, når du beslutter dig for at medtage eller se bort fra ekstreme data, der ikke er en fejl eller fejl. Dit svar afhænger af arten af den analyse, du laver - og på typen af den model, du bygger. I nogle få tilfælde er vejen til at håndtere disse outliers ligefrem:
-
Hvis du sporer din outlier til en dataindtastningsfejl, når du konsulterer datakilden, kan du nemt rette dataene og (sandsynligvis) holde modellen intakt.
-
Hvis denne vandmåler i Baltimore Harbor rapporterer vand til en dybde på 20 fod over middelhavet, og du er i Baltimore, skal du kigge ud af dit vindue:
-
Hvis Baltimore ikke er helt dækket af vand, er sensoren er naturligvis forkert.
-
Hvis du ser en fisk, der ser på dig, er virkeligheden ændret; Du skal muligvis revidere din model.
-
-
Blitzkrasningen kan have været en engangshændelse (på kort sigt, alligevel), men virkningerne var reelle - og hvis du har studeret markedet på længere sigt, ved du, at noget lignende kan ske igen.Hvis din virksomhed er i økonomi, og du hele tiden beskæftiger aktiemarkedet, vil du have din model til at tage højde for sådanne afvigelser.
Generelt, hvis resultatet af en begivenhed normalt betragtes som en outlier, kan have en betydelig indvirkning på din virksomhed, skal du overveje, hvordan du håndterer disse begivenheder i din analyse. Hold disse generelle punkter i tankerne om uregelmæssigheder:
-
Det mindre datasæt er, desto mere signifikant kan konsekvensanalyserne have på analysen.
-
Når du udvikler din model, skal du sørge for, at du også udvikler teknikker til at finde outliers og systematisk forstå deres indvirkning på din virksomhed.
-
Detektion af outliers kan være en kompleks proces; der er ingen enkel måde at identificere dem på.
-
En domæneekspert (en, der kender det felt du modellerer) er din bedste person til at kontrollere, om et datapunkt er gyldigt, en outlier du kan se bort fra eller en outlier du har at tage hensyn til. Domæneeksperten skal være i stand til at forklare, hvilke faktorer der skabte outlieren, hvad dens variabilitetsområde er og dens indvirkning på virksomheden.
-
Visualiseringsværktøjer kan hjælpe dig med at lokalisere outliers i dataene. Også, hvis du kender det forventede værdisortiment, kan du let søge efter data, der falder uden for dette interval.