Hjem Personlig finansiering Data mining til store data - dummies

Data mining til store data - dummies

Video: How data mining works 2025

Video: How data mining works 2025
Anonim

Data mining indebærer at udforske og analysere store mængder data for at finde mønstre til store data. Teknikkerne kom ud af områderne statistik og kunstig intelligens (AI), med en smule databasehåndtering kastet i blandingen.

Målet med data mining er generelt enten klassificering eller forudsigelse. I klassificering er ideen at sortere data i grupper. For eksempel kan en marketingmedarbejder være interesseret i egenskaberne hos dem, der svarede mod, hvem der ikke reagerede på en forfremmelse.

Dette er to klasser. I forudsigelse er ideen at forudsige værdien af ​​en kontinuerlig variabel. For eksempel kan en marketingmedarbejder være interesseret i at forudsige dem, der vil reagere på en forfremmelse.

Typiske algoritmer, der anvendes til data mining, omfatter følgende:

  • Klassifikationstræer: En populær datautvindingsmetode, der bruges til at klassificere en afhængig kategorisk variabel baseret på målinger af en eller flere prediktorvariabler. Resultatet er et træ med knuder og forbindelser mellem de noder, der kan læses for at danne hvis-derefter regler.

  • Logistisk regression: En statistisk teknik, der er en variant af standardregression, men udvider konceptet til at håndtere klassificering. Det producerer en formel, der forudsiger sandsynligheden for forekomsten som en funktion af de uafhængige variabler.

  • Neurale netværk: En softwarealgoritme, der er modelleret efter den parallelle arkitektur af dyrehjerne. Netværket består af input nodes, skjulte lag og output nodes. Hver enhed er tildelt en vægt. Data gives til input node, og ved et system med forsøg og fejl justerer algoritmen vægten, indtil den opfylder et bestemt stopkriterium. Nogle mennesker har lignet dette til en black-box-tilgang.

  • Klyngeteknikker som K-nærmeste naboer: En teknik, der identificerer grupper af lignende poster. Den nærmeste nabosteknik beregner afstanden mellem posten og punkterne i de historiske (træningsdata). Den tildeler derefter denne post til klassen af ​​den nærmeste nabo i et datasæt.

Her er et eksempel på klassifikationstræer. Overvej situationen, hvor et telefonselskab ønsker at bestemme, hvilke boligkunder der sandsynligvis vil afbryde deres service.

Telefonfirmaet har oplysninger, der består af følgende egenskaber: hvor lang tid personen har haft tjenesten, hvor meget han bruger på tjenesten, om tjenesten har været problematisk, om han har den bedste opkaldsplan, han har brug for, hvor han lever, hvor gammel han er, om han har andre tjenester bundtet sammen, konkurrencedygtige oplysninger om andre luftfartsselskabers planer, og om han stadig har tjenesten.

Selvfølgelig kan du finde mange flere attributter end dette. Den sidste attribut er resultatet variabel; Dette er, hvad softwaren vil bruge til at klassificere kunderne i en af ​​de to grupper - måske kaldet stayers og flyrisici.

Datasættet er brudt i træningsdata og et testdatasæt. Træningsdataene består af observationer (kaldet attributter) og en resultatvariabel (binær i tilfælde af en klassifikationsmodel) - i så fald risikerer stayers eller flyvningen.

Algoritmen løber over træningsdataene og kommer op med et træ, der kan læses som en række regler. For eksempel, hvis kunderne har været hos virksomheden i mere end ti år, og de er over 55 år, vil de sandsynligvis forblive som loyale kunder.

Disse regler løber derefter over testdatasættet for at bestemme, hvor god denne model er på "nye data. "Nøjagtighedstiltag findes for modellen. For eksempel er en populær teknik forvirringsmatrixen. Denne matrix er en tabel, der indeholder oplysninger om, hvor mange tilfælde der var korrekt versus forkert klassificeret.

Hvis modellen ser godt ud, kan den implementeres på andre data, som den er tilgængelig (det vil sige ved at bruge den til at forudsige nye tilfælde af flyrisiko). Baseret på modellen kan selskabet f.eks. Beslutte at sende særlige tilbud til de kunder, som det mener er flyverisici.

Data mining til store data - dummies

Valg af editor

Sådan tager du et portræt ved brug af kort belysning - dummier

Sådan tager du et portræt ved brug af kort belysning - dummier

Når du bruger kort belysning, skal du dreje dit motivs hoved, så hans eller hendes ansigt ikke stirrer direkte ind i kameraet. Den vigtigste lyskilde i kort belysning kommer fra den side af ansigtet rettet væk fra kameraet. Nogle gange betegnes smal belysning, er kort belysning en værdifuld belysning ...

Sådan får du bedre feriebilleder - dummies

Sådan får du bedre feriebilleder - dummies

Et par enkle tricks og retningslinjer kan forbedre dine feriebilleder eller lave dine rejsebilleder er mere unikke. Når du rejser med dit digitalkamera, vil du jo tage billeder, der fortæller historien om din rejse, enten at dele dine oplevelser med andre eller at bringe dine egne minder tilbage fra ...

Hvordan man tager digitale billeder i tidlig morgen eller sent på eftermiddagen - dummies

Hvordan man tager digitale billeder i tidlig morgen eller sent på eftermiddagen - dummies

Tiden af dagen påvirker, hvordan du kan tage billeder med dit digitalkamera. Den tidlige morgen og den sene eftermiddags sol kræver en vis tilgang til billedoptagelse. Morgen og eftermiddagssol er nær horisonten og skaber fotografiske skygger, du kan drage fordel af.

Valg af editor

Elektronik: 555 Timer som en Astable Multivibrator - Dummies

Elektronik: 555 Timer som en Astable Multivibrator - Dummies

555 Kan opføre sig som en astabil multivibrator eller oscillator. Ved at forbinde komponenter til chippen i din elektronik, kan du konfigurere 555 til at producere en kontinuerlig serie af spændingsimpulser, som automatisk veksler mellem lavt (0 volt) og højt (den positive forsyningsspænding, VCC). Du kan beregne de lave og høje tidsintervaller ...

Elektronisk projektplan Trin 3: Prototype dine kredsløbsdummier

Elektronisk projektplan Trin 3: Prototype dine kredsløbsdummier

Inden du forpligter dit elektroniske kredsløb til en permanent printkort, vil du gerne sørge for at det virker. Den nemmeste måde at gøre det på er at opbygge kredsløbet på et loddefrit brødbræt. Det loddefrie brødbræt giver dig mulighed for hurtigt at samle komponenterne i dit kredsløb uden at lodde noget. I stedet skubber du bare baren ...

Elektronisk projektplan Trin 2: Design kretsdummierne

Elektronisk projektplan Trin 2: Design kretsdummierne

, Når du har en ide om en elektronisk projekt, det næste skridt er at designe et kredsløb, som opfylder projektets behov. I første omgang finder du det meget svært at designe dine egne kredsløb, så du kan vende dig til bøger eller til internettet for at finde andres kredsløbsdesign. Med en smule Google ...

Valg af editor

Læge assistent eksamen praksis sundhed vedligeholdelse og medicinsk etik spørgsmål - dummies

Læge assistent eksamen praksis sundhed vedligeholdelse og medicinsk etik spørgsmål - dummies

Disse praksis spørgsmål er ens til de egentlige spørgsmål, du måtte se på den lægeassistenteksamen (PANCE) eksamen, der har at gøre med forebyggende medicin, epidemiologi, vold i hjemmet og etik. Eksempel PANCE Spørgsmål Du ser en 19-årig kvinde, der har været seksuelt aktiv i de sidste to år. Du bruger meget af kontoret ...

Lægeassistenteksamen Øvelsesspørgsmål om fordøjelsessystemet - dummies

Lægeassistenteksamen Øvelsesspørgsmål om fordøjelsessystemet - dummies

En masse patologi vedrører fordøjelseskanalen system og du kan satse der vil være spørgsmål om dem på Lægeassistenteksamen (kendt som PANCE). Her er nogle livlige spørgsmål om GI-systemet. Eksempel PANCE Spørgsmål Hvilket af følgende udsagn angående tyktarmscancer screening er korrekt? ? (A) Efter alderen af ​​...

Lægeassistenteksamen: skulderfrakturer - dummies

Lægeassistenteksamen: skulderfrakturer - dummies

Stort set alle ved, hvordan det er at gøre ondt i skulderen eller overdelen arm, så det er vigtigt at kende til lægeassistenteksamen (PANCE). At gøre meget af noget kan være svært, især hvis smerten eller skaden påvirker den dominerende arm. Du bør vide om forskellige forskydninger af skulder og overarm, nemlig ...