Grundlæggende om dataklynger i prædiktiv analyse - dummier

A datasæt < (eller dataindsamling) er et sæt elementer i prædiktiv analyse. Et sæt dokumenter er for eksempel et datasæt, hvor dataelementerne er dokumenter. Et sæt brugernavnet til socialt netværk (navn, alder, venneliste, fotos osv.) Er et datasæt, hvor dataelementerne er profiler af brugere af sociale netværk. Dataklyngning

har til opgave at opdele et datasæt i undergrupper af lignende genstande. Elementer kan også omtales som forekomster, observation, enheder eller dataobjekter. I de fleste tilfælde er et datasæt repræsenteret i tabelformat - en datamatrix . En datamatrix er en tabel med tal, dokumenter eller udtryk, repræsenteret i rækker og kolonner som følger:

Hver række svarer til et givet emne i datasættet.

Rækker er nogle gange omtalt som

elementer, objekter, forekomster eller observationer. Hver kolonne repræsenterer et bestemt karakteristika for et element.
Kolonner kaldes

funktioner eller attributter. Anvendelse af dataklyngning til et datasæt genererer grupper af lignende dataelementer. Disse grupper kaldes

klynger - samlinger af lignende dataposter.

Lignende

varer har et stærkt, målbart forhold mellem dem - friske grøntsager, for eksempel, ligner hinanden mere end de er frosne fødevarer - og clusteringsteknikker bruger det forhold til gruppen varerne. Styrken af et forhold mellem to eller flere elementer kan kvantificeres som en

lighedsmåling: En matematisk funktion beregner korrelationen mellem to dataposter. Resultaterne af denne beregning, kaldet lighedværdier, sammenligner i det væsentlige et bestemt dataelement til alle andre elementer i datasættet. Disse andre elementer vil enten være mere ens eller mindre ens i forhold til den specifikke vare.

Beregnede ligheder spiller en vigtig rolle ved tildeling af elementer til grupper (

klynger ). Hver gruppe har et element, der bedst repræsenterer det; Dette punkt benævnes en klyngerepræsentant . Overvej et datasæt, der består af flere typer frugter i en kurv. Kurven har frugter af forskellige typer som æbler, bananer, citroner og pærer. I dette tilfælde er frugt dataelementerne. Dataklyngingsprocessen udtræk grupper af lignende frugter ud af dette datasæt (kurv af forskellige frugter).

Det første trin i en dataklyngningsproces er at oversætte dette datasæt til en datagrundvisning: En måde at model dette datasæt på er at have rækkerne repræsenterer elementerne i datasættet (frugter); og kolonnerne repræsenterer karakteristika eller funktioner, der beskriver elementerne.

F.eks. Kan en frugtfunktion være frugttype (såsom en banan eller æble), vægt, farve eller pris. I dette eksempeldatasæt har varerne tre funktioner: frugt type, farve og vægt.

I de fleste tilfælde kan anvendelse af en dataklyngeteknik til frugtdatasættet som beskrevet ovenfor gøre det muligt at

Hente grupper (klynger) af lignende genstande.

Du kan fortælle, at din frugt er af N antal grupper. Derefter vil du, hvis du vælger en tilfældig frugt, kunne gøre en erklæring om den pågældende vare som en del af en af N-grupperne. Hent clusterrepræsentanter for hver gruppe.
I dette eksempel vil en klyngerepræsentant vælge en frugttype fra kurven og sætte den til side. Kendetegnene ved denne frugt er sådan, at den frugt bedst repræsenterer den klynge, den tilhører. Når du er færdig med clustering, er dit datasæt organiseret og opdelt i naturlige grupperinger.

Dataklyngning afslører strukturen i dataene ved at udvinde naturlige grupperinger fra et datasæt. At opdage klynger er derfor et vigtigt skridt i retning af at formulere ideer og hypoteser om strukturen af dine data og udlede indsigt for bedre at forstå det.

Dataklyngning kan også være en måde at model data på: Det repræsenterer en større mængde data af klynger eller klyngerrepræsentanter.

Derudover kan din analyse måske simpelthen søge at opdele dataene i grupper af lignende ting - som når

markedssegmentering partitionerer målmarkedsdata i grupper som Forbrugere, der har samme interesser (som middelhavsretter)

Forbrugere, der har fælles behov (for eksempel dem med specifikke fødevareallergier)
Identifikation af klynger af lignende kunder kan hjælpe dig med at udvikle en markedsføringsstrategi, der passer til specifikke klyngers behov.

Desuden kan dataklyngning også hjælpe dig med at identificere, lære eller forudsige arten af nye dataposter - især hvordan nye data kan knyttes til forudsigelser. I eksempelvis kan

mønstergenkendelse analysere mønstre i dataene (såsom købsmønstre i bestemte regioner eller aldersgrupper) hjælpe dig med at udvikle predictive analytics - i dette tilfælde forudsige arten af fremtidige dataposter, der kan passer godt med etablerede mønstre. Frugtkurv-eksemplet bruger dataklyngning til at skelne mellem forskellige dataposter. Antag, at din virksomhed samler brugerdefinerede frugtkurve, og der introduceres en ny, ukendt frugt til markedet. Du vil lære eller forudsige, hvilken klynge det nye element vil tilhøre, hvis du tilføjer det til frugtkurven.

Fordi du allerede har anvendt dataklyngning til frugtdatasættet, har du fire klynger - hvilket gør det nemmere at forudsige, hvilken klynge (specifik type frugt) der passer til den nye genstand. Alt du skal gøre er at sammenligne den ukendte frugt med de andre fire klyngernes repræsentanter og identificere hvilken klynge der er den bedste kamp.

Selvom denne proces kan synes at være indlysende for en person, der arbejder med et lille datasæt, er det ikke så indlysende i større målestok - når du skal klynge millioner af genstande uden at undersøge hver enkelt.Kompleksiteten bliver eksponentiel, når datasættet er stort, forskelligt og relativt usammenhængende. Derfor eksisterer klyngalgoritmer: Computere gør den slags arbejde bedst.