Matching data til algoritmer fra forskellige kilder - dummier

Video: How to separate fact and fiction online | Markham Nolan 2025

At interagere med data fra en enkelt kilde er et problem; At interagere med data fra flere kilder er helt andet. Datasæt i dag kommer imidlertid generelt fra mere end en kilde, så du skal forstå komplikationerne, som brugen af flere datakilder kan forårsage. Når du arbejder med flere datakilder, skal du gøre følgende:

Bestem, om begge datasæt indeholder alle de krævede data. To designere er usandsynligt at oprette datasæt, der indeholder præcis de samme data, i samme format, af samme type og i samme rækkefølge. Derfor skal du overveje, om datasættene indeholder de data, du har brug for, eller om du har brug for at rette op på dataene på en eller anden måde for at opnå det ønskede resultat.
Kontroller begge datasæt for problemer med datatype. Et datasæt kunne have data indgange som strenge, og en anden kunne have datoen indlæses som faktiske datoobjekter. Uoverensstemmelser mellem datatyper vil medføre problemer for en algoritme, der forventer data i en form og modtager den i en anden.
Sørg for at alle datasæt har samme betydning på dataelementer. Data, der er oprettet af en kilde, kan have en anden betydning end data, der er oprettet af en anden kilde. For eksempel kan størrelsen af et helt tal variere på tværs af kilder, så du kan muligvis se et 16-bit heltal fra en kilde og et 32-bit heltal fra et andet. Lavere værdier har samme betydning, men 32-biters heltal kan indeholde større værdier, hvilket kan medføre problemer med algoritmen. Datoer kan også forårsage problemer, fordi de ofte er afhængige af at lagre så mange millisekunder siden en bestemt dato (som f.eks. JavaScript, som lagrer antallet af millisekunder siden 1. januar, 1970 UTC). Computeren ser kun tal; mennesker tilføjer mening til disse tal, så applikationer fortolker dem på bestemte måder.
Kontroller datatributterne. Dataelementer har specifikke attributter. Denne fortolkning kan ændres, når du bruger numpy . Faktisk finder du, at datatributter skifter mellem miljøer, og udviklere kan ændre dem endnu mere ved at oprette brugerdefinerede datatyper. For at kombinere data fra forskellige kilder skal du forstå disse attributter for at sikre, at du fortolker dataene korrekt.

Jo mere tid du bruger til at verificere kompatibiliteten af data fra hver af de kilder, du vil bruge til et datasæt, desto mindre sandsynligt er der problemer, når du arbejder med en algoritme. Problemkompatibilitetsproblemer vises ikke altid som direkte fejl. I nogle tilfælde kan en inkompatibilitet medføre andre problemer, som f.eks. Fejlagtige resultater, der ser korrekt ud, men giver vildledende oplysninger.

Hvis du kombinerer data fra flere kilder, betyder det ikke altid, at du opretter et nyt datasæt, der ligeledes ligner kildedatasætene. I nogle tilfælde opretter du dataaggregater eller udfører andre former for manipulation for at oprette nye data fra de eksisterende data. Analyse tager alle mulige former, og nogle af de mere eksotiske former kan producere forfærdelige fejl, når de bruges forkert. For eksempel kan en datakilde give generel kundeinformation, og en anden datakilde kan give kundernes købsvaner. Uoverensstemmelser mellem de to kilder kan matche kunderne med forkerte købsinformation og forårsage problemer, når du forsøger at markedsføre nye produkter til disse kunder. Som et ekstremt eksempel skal du overveje, hvad der ville ske, når du kombinerer patientinformation fra flere kilder og skaber kombinerede patientindgange i en ny datakilde med alle mulige fejlmuligheder. En patient uden historie af en bestemt sygdom kan ende med registreringer, der viser diagnose og pleje af sygdommen.