Hjem Personlig finansiering Grundlæggende om dataklynger i prædiktiv analyse - dummier

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Video: Grundlæggende om ETNer med Sylvester Andersen 2024

Video: Grundlæggende om ETNer med Sylvester Andersen 2024
Anonim

A datasæt < (eller dataindsamling) er et sæt elementer i prædiktiv analyse. Et sæt dokumenter er for eksempel et datasæt, hvor dataelementerne er dokumenter. Et sæt brugernavnet til socialt netværk (navn, alder, venneliste, fotos osv.) Er et datasæt, hvor dataelementerne er profiler af brugere af sociale netværk. Dataklyngning

har til opgave at opdele et datasæt i undergrupper af lignende genstande. Elementer kan også omtales som forekomster, observation, enheder eller dataobjekter. I de fleste tilfælde er et datasæt repræsenteret i tabelformat - en datamatrix . En datamatrix er en tabel med tal, dokumenter eller udtryk, repræsenteret i rækker og kolonner som følger:

Hver række svarer til et givet emne i datasættet.
  • Rækker er nogle gange omtalt som

    elementer, objekter, forekomster eller observationer. Hver kolonne repræsenterer et bestemt karakteristika for et element.

  • Kolonner kaldes

    funktioner eller attributter. Anvendelse af dataklyngning til et datasæt genererer grupper af lignende dataelementer. Disse grupper kaldes

klynger - samlinger af lignende dataposter.

Lignende

varer har et stærkt, målbart forhold mellem dem - friske grøntsager, for eksempel, ligner hinanden mere end de er frosne fødevarer - og clusteringsteknikker bruger det forhold til gruppen varerne. Styrken af ​​et forhold mellem to eller flere elementer kan kvantificeres som en

lighedsmåling: En matematisk funktion beregner korrelationen mellem to dataposter. Resultaterne af denne beregning, kaldet lighedværdier, sammenligner i det væsentlige et bestemt dataelement til alle andre elementer i datasættet. Disse andre elementer vil enten være mere ens eller mindre ens i forhold til den specifikke vare.

Beregnede ligheder spiller en vigtig rolle ved tildeling af elementer til grupper (

klynger ). Hver gruppe har et element, der bedst repræsenterer det; Dette punkt benævnes en klyngerepræsentant . Overvej et datasæt, der består af flere typer frugter i en kurv. Kurven har frugter af forskellige typer som æbler, bananer, citroner og pærer. I dette tilfælde er frugt dataelementerne. Dataklyngingsprocessen udtræk grupper af lignende frugter ud af dette datasæt (kurv af forskellige frugter).

Det første trin i en dataklyngningsproces er at oversætte dette datasæt til en datagrundvisning: En måde at model dette datasæt på er at have rækkerne repræsenterer elementerne i datasættet (frugter); og kolonnerne repræsenterer karakteristika eller funktioner, der beskriver elementerne.

F.eks. Kan en frugtfunktion være frugttype (såsom en banan eller æble), vægt, farve eller pris. I dette eksempeldatasæt har varerne tre funktioner: frugt type, farve og vægt.

I de fleste tilfælde kan anvendelse af en dataklyngeteknik til frugtdatasættet som beskrevet ovenfor gøre det muligt at

Hente grupper (klynger) af lignende genstande.

  • Du kan fortælle, at din frugt er af N antal grupper. Derefter vil du, hvis du vælger en tilfældig frugt, kunne gøre en erklæring om den pågældende vare som en del af en af ​​N-grupperne. Hent clusterrepræsentanter for hver gruppe.

  • I dette eksempel vil en klyngerepræsentant vælge en frugttype fra kurven og sætte den til side. Kendetegnene ved denne frugt er sådan, at den frugt bedst repræsenterer den klynge, den tilhører. Når du er færdig med clustering, er dit datasæt organiseret og opdelt i naturlige grupperinger.

Dataklyngning afslører strukturen i dataene ved at udvinde naturlige grupperinger fra et datasæt. At opdage klynger er derfor et vigtigt skridt i retning af at formulere ideer og hypoteser om strukturen af ​​dine data og udlede indsigt for bedre at forstå det.

Dataklyngning kan også være en måde at model data på: Det repræsenterer en større mængde data af klynger eller klyngerrepræsentanter.

Derudover kan din analyse måske simpelthen søge at opdele dataene i grupper af lignende ting - som når

markedssegmentering partitionerer målmarkedsdata i grupper som Forbrugere, der har samme interesser (som middelhavsretter)

  • Forbrugere, der har fælles behov (for eksempel dem med specifikke fødevareallergier)

  • Identifikation af klynger af lignende kunder kan hjælpe dig med at udvikle en markedsføringsstrategi, der passer til specifikke klyngers behov.

Desuden kan dataklyngning også hjælpe dig med at identificere, lære eller forudsige arten af ​​nye dataposter - især hvordan nye data kan knyttes til forudsigelser. I eksempelvis kan

mønstergenkendelse analysere mønstre i dataene (såsom købsmønstre i bestemte regioner eller aldersgrupper) hjælpe dig med at udvikle predictive analytics - i dette tilfælde forudsige arten af ​​fremtidige dataposter, der kan passer godt med etablerede mønstre. Frugtkurv-eksemplet bruger dataklyngning til at skelne mellem forskellige dataposter. Antag, at din virksomhed samler brugerdefinerede frugtkurve, og der introduceres en ny, ukendt frugt til markedet. Du vil lære eller forudsige, hvilken klynge det nye element vil tilhøre, hvis du tilføjer det til frugtkurven.

Fordi du allerede har anvendt dataklyngning til frugtdatasættet, har du fire klynger - hvilket gør det nemmere at forudsige, hvilken klynge (specifik type frugt) der passer til den nye genstand. Alt du skal gøre er at sammenligne den ukendte frugt med de andre fire klyngernes repræsentanter og identificere hvilken klynge der er den bedste kamp.

Selvom denne proces kan synes at være indlysende for en person, der arbejder med et lille datasæt, er det ikke så indlysende i større målestok - når du skal klynge millioner af genstande uden at undersøge hver enkelt.Kompleksiteten bliver eksponentiel, når datasættet er stort, forskelligt og relativt usammenhængende. Derfor eksisterer klyngalgoritmer: Computere gør den slags arbejde bedst.

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...