Hjem Personlig finansiering Data mining til store data - dummies

Data mining til store data - dummies

Video: How data mining works 2024

Video: How data mining works 2024
Anonim

Data mining indebærer at udforske og analysere store mængder data for at finde mønstre til store data. Teknikkerne kom ud af områderne statistik og kunstig intelligens (AI), med en smule databasehåndtering kastet i blandingen.

Målet med data mining er generelt enten klassificering eller forudsigelse. I klassificering er ideen at sortere data i grupper. For eksempel kan en marketingmedarbejder være interesseret i egenskaberne hos dem, der svarede mod, hvem der ikke reagerede på en forfremmelse.

Dette er to klasser. I forudsigelse er ideen at forudsige værdien af ​​en kontinuerlig variabel. For eksempel kan en marketingmedarbejder være interesseret i at forudsige dem, der vil reagere på en forfremmelse.

Typiske algoritmer, der anvendes til data mining, omfatter følgende:

  • Klassifikationstræer: En populær datautvindingsmetode, der bruges til at klassificere en afhængig kategorisk variabel baseret på målinger af en eller flere prediktorvariabler. Resultatet er et træ med knuder og forbindelser mellem de noder, der kan læses for at danne hvis-derefter regler.

  • Logistisk regression: En statistisk teknik, der er en variant af standardregression, men udvider konceptet til at håndtere klassificering. Det producerer en formel, der forudsiger sandsynligheden for forekomsten som en funktion af de uafhængige variabler.

  • Neurale netværk: En softwarealgoritme, der er modelleret efter den parallelle arkitektur af dyrehjerne. Netværket består af input nodes, skjulte lag og output nodes. Hver enhed er tildelt en vægt. Data gives til input node, og ved et system med forsøg og fejl justerer algoritmen vægten, indtil den opfylder et bestemt stopkriterium. Nogle mennesker har lignet dette til en black-box-tilgang.

  • Klyngeteknikker som K-nærmeste naboer: En teknik, der identificerer grupper af lignende poster. Den nærmeste nabosteknik beregner afstanden mellem posten og punkterne i de historiske (træningsdata). Den tildeler derefter denne post til klassen af ​​den nærmeste nabo i et datasæt.

Her er et eksempel på klassifikationstræer. Overvej situationen, hvor et telefonselskab ønsker at bestemme, hvilke boligkunder der sandsynligvis vil afbryde deres service.

Telefonfirmaet har oplysninger, der består af følgende egenskaber: hvor lang tid personen har haft tjenesten, hvor meget han bruger på tjenesten, om tjenesten har været problematisk, om han har den bedste opkaldsplan, han har brug for, hvor han lever, hvor gammel han er, om han har andre tjenester bundtet sammen, konkurrencedygtige oplysninger om andre luftfartsselskabers planer, og om han stadig har tjenesten.

Selvfølgelig kan du finde mange flere attributter end dette. Den sidste attribut er resultatet variabel; Dette er, hvad softwaren vil bruge til at klassificere kunderne i en af ​​de to grupper - måske kaldet stayers og flyrisici.

Datasættet er brudt i træningsdata og et testdatasæt. Træningsdataene består af observationer (kaldet attributter) og en resultatvariabel (binær i tilfælde af en klassifikationsmodel) - i så fald risikerer stayers eller flyvningen.

Algoritmen løber over træningsdataene og kommer op med et træ, der kan læses som en række regler. For eksempel, hvis kunderne har været hos virksomheden i mere end ti år, og de er over 55 år, vil de sandsynligvis forblive som loyale kunder.

Disse regler løber derefter over testdatasættet for at bestemme, hvor god denne model er på "nye data. "Nøjagtighedstiltag findes for modellen. For eksempel er en populær teknik forvirringsmatrixen. Denne matrix er en tabel, der indeholder oplysninger om, hvor mange tilfælde der var korrekt versus forkert klassificeret.

Hvis modellen ser godt ud, kan den implementeres på andre data, som den er tilgængelig (det vil sige ved at bruge den til at forudsige nye tilfælde af flyrisiko). Baseret på modellen kan selskabet f.eks. Beslutte at sende særlige tilbud til de kunder, som det mener er flyverisici.

Data mining til store data - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...