Hjem Personlig finansiering Sigtning af de data du har brug for - dummies

Sigtning af de data du har brug for - dummies

Indholdsfortegnelse:

Video: How I hacked online dating | Amy Webb 2025

Video: How I hacked online dating | Amy Webb 2025
Anonim

Når du er data mining, vil du nogle gange have flere data, end du har brug for til et givet projekt. Sådan kan du parre ned til, hvad du har brug for.

Begrænsning af felterne

Når du har mange variabler i et datasæt, kan det være svært at finde eller se dem der interesserer dig. Og hvis dine datasæt er store, og du ikke har brug for alle variablerne, er det unødvendigt at holde ekstramaterialerne på overfladen. Så i nogle tilfælde behøver du at holde nogle variabler og slippe andre. Figuren viser et eksempel i KNIME, hvor det rigtige værktøj kaldes Kolonnefilter.

Et eksempel på opsætningen af ​​dette værktøj er vist i den følgende figur.

For at indsnævre felterne skal du søge efter et værktøj til valg af variabel i din data mining applikation; disse findes med andre værktøjer til datamanipulation. Som med andre data-mining værktøjer, varierer navne fra produkt til produkt. Se efter variationer på ordene kolonne, variabel, eller , og valg eller filtrering.

Valg af relevante sager

Sager med ufuldstændige data kan filtreres ud, før modellen opbygges. Fjernelse af ufuldstændige tilfælde er et almindeligt eksempel på dataudvælgelse eller filtrering.

Men hvordan ville du kun vælge de relevante sager for hvert segment, der interesserer dig? Du vil bruge et dataudvælgelsesværktøj.

Følgende figur viser et dataudvælgelsesværktøj i en anden data-mining applikation.

Nedenstående figur viser, hvordan du opsætter værktøjet til en anden form for udvælgelse, denne baseret på værdien af ​​en variabel.

Det er almindeligt at bruge denne type datavalg, og nogle programmer giver alle mulige indbyggede funktioner til at hjælpe dig med at definere præcis de tilfælde, du ønsker. Denne har nogle ekstraordinære egenskaber; den viser summarisk statistik for variablen og fortæller dig præcis, hvor mange tilfælde der opfylder udvælgelseskriterierne.

De fleste data mining applikationer har værktøjer til udvælgelse af de sager, du har brug for. Se i menuerne (eller søg) for vælg eller filter.

Prøvetagning

Et populært begreb i disse dage er, at flere data er bedre data. Dette er ikke en ny ide. Data-mining applikationer er altid blevet udviklet til at arbejde med store mængder data. Selv navnet "data mining" tyder på store mængder. Men ofte ved at arbejde med en stikprøve af dine data vil du give oplysninger, der er lige så nyttige, gøre dit arbejde nemmere og spare tid og ressourcer.

Prøveudtagning spiller vigtige roller i data mining. Hvis dataene er afbalancerede betyder det, at modellen anvendte et lige antal tilfælde i hver af grupperne, der sammenlignes (i dette eksempel var grupperne egenskaber, der ændrede hænder og egenskaber, der ikke gjorde), selvom en gruppe havde mange flere tilfælde end andre i de oprindelige data.

Senere blev dataene opdelt, adskilt i en delmængde til brug for træning af en model og en anden til testning. Ved kun at bruge en stikprøve af data i parallelle koordinater kan plot gøre det nemmere at se og tolke. (Scatterplots med tusindvis af point kan være umuligt svært at læse!) Måske er det mest vigtigt, at stikprøver kun reducerer mængden af ​​data, så tingene løber hurtigere.

Sigtning af de data du har brug for - dummies

Valg af editor

Microsoft Project 2010 Genvejstaster - dummies

Microsoft Project 2010 Genvejstaster - dummies

Microsoft Project 2010 maksimerer effektiviteten, når du administrerer projekter - men også genvejstaster i Project 2010 din tid på tastaturet: Her er nogle genvejstaster, du vil bruge hele tiden, når du bygger og arbejder med en projektplan. Indtastning af tastetryk Indsæt Indsætter ny opgave Ctrl + K Indsætter hyperlink F7 Starter stavekontrol Alt + F10 Tildeler ressourcer ...

Hvordan man ændrer gridlines i Project 2016 - dummies

Hvordan man ændrer gridlines i Project 2016 - dummies

Flere visninger i Project 2016 inkluderer gridlines for at angive visse elementer, f.eks. en pause mellem uger eller status dato (det vil sige den dato, hvor der er sporet fremskridt på et projekt). Disse linjer hjælper en person med at læse planen for at skelne mellem tidsintervaller eller brud på information; For eksempel kan netlinjer være ...

Projekt 2016 AutoFilter-funktion - dummier

Projekt 2016 AutoFilter-funktion - dummier

Projekt 2016 AutoFilter-funktionen er som standard tændt for alle nye tidsplanfiler. Pile vises i kolonneoverskrifterne i det viste ark. Når du klikker på pilen i kolonnen Ressourcenavne, er navnet på hver ressource, der er tildelt opgaver i projektet, angivet i alfabetisk rækkefølge sammen med ...

Valg af editor

Netværksadministration: Windows Command Omdirigering og piping - dummies

Netværksadministration: Windows Command Omdirigering og piping - dummies

Omdirigering og piping af Windows-kommandoer er relaterede teknikker. Omdirigering giver dig mulighed for at angive en alternativ destination for output, der vil blive vist med en kommando eller en alternativ kilde til input, der skal indtastes i en kommando. Du kan f.eks. Gemme resultaterne af en kommando ipconfig / all til en fil ved navn myconfig. txt ...

Netværksadministration: VPN Security - dummies

Netværksadministration: VPN Security - dummies

Udtrykket tunnel er nogle gange brugt til at beskrive en VPN, fordi VPN'en skaber en sikker tunnel mellem to steder, som kun kan indtastes fra begge ender. De data, der bevæger sig gennem tunnelen fra den ene ende til den anden, er sikre, så længe det er inden for tunnelen - det vil sige inden for ...

Netværksadministration: Windows Miljøvariabler - dummies

Netværksadministration: Windows Miljøvariabler - dummies

Windows-kommandoskallen giver flere miljøvariabler til kommandoer. Miljøvariabler begynder og slutter med procent tegn. Du kan bruge en miljøvariabel overalt i en kommando. For eksempel viser C:> echo% OS%, der kører på% PROCESSOR_IDENTIFIER% en linje som denne: Windows_NT kører på en x86 Familie 15 Model 2 Stepping 8, ...

Valg af editor

Sådan bruger du arv i PHP med objektorienteret programmering - dummier

Sådan bruger du arv i PHP med objektorienteret programmering - dummier

Objektorienteret programmering i PHP har en anden funktion, der gør det meget nyttigt til store projekter. Mange objekter er relateret til hinanden, og du kan bruge et familietræforhold til at forenkle din programmering. Hvordan man bygger en critter baseret på en anden critter Der er en ny critter i byen. Denne har den samme grundlæggende ...

Sådan bruges PHP til at lave en switch til HTML5 og CSS3 Programmering - dummies

Sådan bruges PHP til at lave en switch til HTML5 og CSS3 Programmering - dummies

Du kører ofte over en situation i HTML5 og CSS3 programmering, hvor du har et udtryk, der kan have mange mulige værdier. Du kan altid bruge strukturen til at klare denne situation, men PHP leverer en anden interessant mulighed. Koden til dette program anvender omskifterstrukturen. Tag et kig på, hvordan det er gjort: