Sigtning af de data du har brug for - dummies

Video: How I hacked online dating | Amy Webb 2025

Når du er data mining, vil du nogle gange have flere data, end du har brug for til et givet projekt. Sådan kan du parre ned til, hvad du har brug for.

Begrænsning af felterne

Når du har mange variabler i et datasæt, kan det være svært at finde eller se dem der interesserer dig. Og hvis dine datasæt er store, og du ikke har brug for alle variablerne, er det unødvendigt at holde ekstramaterialerne på overfladen. Så i nogle tilfælde behøver du at holde nogle variabler og slippe andre. Figuren viser et eksempel i KNIME, hvor det rigtige værktøj kaldes Kolonnefilter.

Et eksempel på opsætningen af dette værktøj er vist i den følgende figur.

For at indsnævre felterne skal du søge efter et værktøj til valg af variabel i din data mining applikation; disse findes med andre værktøjer til datamanipulation. Som med andre data-mining værktøjer, varierer navne fra produkt til produkt. Se efter variationer på ordene kolonne, variabel, eller , og valg eller filtrering.

Valg af relevante sager

Sager med ufuldstændige data kan filtreres ud, før modellen opbygges. Fjernelse af ufuldstændige tilfælde er et almindeligt eksempel på dataudvælgelse eller filtrering.

Men hvordan ville du kun vælge de relevante sager for hvert segment, der interesserer dig? Du vil bruge et dataudvælgelsesværktøj.

Følgende figur viser et dataudvælgelsesværktøj i en anden data-mining applikation.

Nedenstående figur viser, hvordan du opsætter værktøjet til en anden form for udvælgelse, denne baseret på værdien af en variabel.

Det er almindeligt at bruge denne type datavalg, og nogle programmer giver alle mulige indbyggede funktioner til at hjælpe dig med at definere præcis de tilfælde, du ønsker. Denne har nogle ekstraordinære egenskaber; den viser summarisk statistik for variablen og fortæller dig præcis, hvor mange tilfælde der opfylder udvælgelseskriterierne.

De fleste data mining applikationer har værktøjer til udvælgelse af de sager, du har brug for. Se i menuerne (eller søg) for vælg eller filter.

Prøvetagning

Et populært begreb i disse dage er, at flere data er bedre data. Dette er ikke en ny ide. Data-mining applikationer er altid blevet udviklet til at arbejde med store mængder data. Selv navnet "data mining" tyder på store mængder. Men ofte ved at arbejde med en stikprøve af dine data vil du give oplysninger, der er lige så nyttige, gøre dit arbejde nemmere og spare tid og ressourcer.

Prøveudtagning spiller vigtige roller i data mining. Hvis dataene er afbalancerede betyder det, at modellen anvendte et lige antal tilfælde i hver af grupperne, der sammenlignes (i dette eksempel var grupperne egenskaber, der ændrede hænder og egenskaber, der ikke gjorde), selvom en gruppe havde mange flere tilfælde end andre i de oprindelige data.

Senere blev dataene opdelt, adskilt i en delmængde til brug for træning af en model og en anden til testning. Ved kun at bruge en stikprøve af data i parallelle koordinater kan plot gøre det nemmere at se og tolke. (Scatterplots med tusindvis af point kan være umuligt svært at læse!) Måske er det mest vigtigt, at stikprøver kun reducerer mængden af data, så tingene løber hurtigere.