Hjem Personlig finansiering Grundlæggende om dataklynger i prædiktiv analyse - dummier

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Video: Grundlæggende om ETNer med Sylvester Andersen 2025

Video: Grundlæggende om ETNer med Sylvester Andersen 2025
Anonim

A datasæt < (eller dataindsamling) er et sæt elementer i prædiktiv analyse. Et sæt dokumenter er for eksempel et datasæt, hvor dataelementerne er dokumenter. Et sæt brugernavnet til socialt netværk (navn, alder, venneliste, fotos osv.) Er et datasæt, hvor dataelementerne er profiler af brugere af sociale netværk. Dataklyngning

har til opgave at opdele et datasæt i undergrupper af lignende genstande. Elementer kan også omtales som forekomster, observation, enheder eller dataobjekter. I de fleste tilfælde er et datasæt repræsenteret i tabelformat - en datamatrix . En datamatrix er en tabel med tal, dokumenter eller udtryk, repræsenteret i rækker og kolonner som følger:

Hver række svarer til et givet emne i datasættet.
  • Rækker er nogle gange omtalt som

    elementer, objekter, forekomster eller observationer. Hver kolonne repræsenterer et bestemt karakteristika for et element.

  • Kolonner kaldes

    funktioner eller attributter. Anvendelse af dataklyngning til et datasæt genererer grupper af lignende dataelementer. Disse grupper kaldes

klynger - samlinger af lignende dataposter.

Lignende

varer har et stærkt, målbart forhold mellem dem - friske grøntsager, for eksempel, ligner hinanden mere end de er frosne fødevarer - og clusteringsteknikker bruger det forhold til gruppen varerne. Styrken af ​​et forhold mellem to eller flere elementer kan kvantificeres som en

lighedsmåling: En matematisk funktion beregner korrelationen mellem to dataposter. Resultaterne af denne beregning, kaldet lighedværdier, sammenligner i det væsentlige et bestemt dataelement til alle andre elementer i datasættet. Disse andre elementer vil enten være mere ens eller mindre ens i forhold til den specifikke vare.

Beregnede ligheder spiller en vigtig rolle ved tildeling af elementer til grupper (

klynger ). Hver gruppe har et element, der bedst repræsenterer det; Dette punkt benævnes en klyngerepræsentant . Overvej et datasæt, der består af flere typer frugter i en kurv. Kurven har frugter af forskellige typer som æbler, bananer, citroner og pærer. I dette tilfælde er frugt dataelementerne. Dataklyngingsprocessen udtræk grupper af lignende frugter ud af dette datasæt (kurv af forskellige frugter).

Det første trin i en dataklyngningsproces er at oversætte dette datasæt til en datagrundvisning: En måde at model dette datasæt på er at have rækkerne repræsenterer elementerne i datasættet (frugter); og kolonnerne repræsenterer karakteristika eller funktioner, der beskriver elementerne.

F.eks. Kan en frugtfunktion være frugttype (såsom en banan eller æble), vægt, farve eller pris. I dette eksempeldatasæt har varerne tre funktioner: frugt type, farve og vægt.

I de fleste tilfælde kan anvendelse af en dataklyngeteknik til frugtdatasættet som beskrevet ovenfor gøre det muligt at

Hente grupper (klynger) af lignende genstande.

  • Du kan fortælle, at din frugt er af N antal grupper. Derefter vil du, hvis du vælger en tilfældig frugt, kunne gøre en erklæring om den pågældende vare som en del af en af ​​N-grupperne. Hent clusterrepræsentanter for hver gruppe.

  • I dette eksempel vil en klyngerepræsentant vælge en frugttype fra kurven og sætte den til side. Kendetegnene ved denne frugt er sådan, at den frugt bedst repræsenterer den klynge, den tilhører. Når du er færdig med clustering, er dit datasæt organiseret og opdelt i naturlige grupperinger.

Dataklyngning afslører strukturen i dataene ved at udvinde naturlige grupperinger fra et datasæt. At opdage klynger er derfor et vigtigt skridt i retning af at formulere ideer og hypoteser om strukturen af ​​dine data og udlede indsigt for bedre at forstå det.

Dataklyngning kan også være en måde at model data på: Det repræsenterer en større mængde data af klynger eller klyngerrepræsentanter.

Derudover kan din analyse måske simpelthen søge at opdele dataene i grupper af lignende ting - som når

markedssegmentering partitionerer målmarkedsdata i grupper som Forbrugere, der har samme interesser (som middelhavsretter)

  • Forbrugere, der har fælles behov (for eksempel dem med specifikke fødevareallergier)

  • Identifikation af klynger af lignende kunder kan hjælpe dig med at udvikle en markedsføringsstrategi, der passer til specifikke klyngers behov.

Desuden kan dataklyngning også hjælpe dig med at identificere, lære eller forudsige arten af ​​nye dataposter - især hvordan nye data kan knyttes til forudsigelser. I eksempelvis kan

mønstergenkendelse analysere mønstre i dataene (såsom købsmønstre i bestemte regioner eller aldersgrupper) hjælpe dig med at udvikle predictive analytics - i dette tilfælde forudsige arten af ​​fremtidige dataposter, der kan passer godt med etablerede mønstre. Frugtkurv-eksemplet bruger dataklyngning til at skelne mellem forskellige dataposter. Antag, at din virksomhed samler brugerdefinerede frugtkurve, og der introduceres en ny, ukendt frugt til markedet. Du vil lære eller forudsige, hvilken klynge det nye element vil tilhøre, hvis du tilføjer det til frugtkurven.

Fordi du allerede har anvendt dataklyngning til frugtdatasættet, har du fire klynger - hvilket gør det nemmere at forudsige, hvilken klynge (specifik type frugt) der passer til den nye genstand. Alt du skal gøre er at sammenligne den ukendte frugt med de andre fire klyngernes repræsentanter og identificere hvilken klynge der er den bedste kamp.

Selvom denne proces kan synes at være indlysende for en person, der arbejder med et lille datasæt, er det ikke så indlysende i større målestok - når du skal klynge millioner af genstande uden at undersøge hver enkelt.Kompleksiteten bliver eksponentiel, når datasættet er stort, forskelligt og relativt usammenhængende. Derfor eksisterer klyngalgoritmer: Computere gør den slags arbejde bedst.

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Valg af editor

Fotografering af fugle Brug af dine digitale spejlreflekskameraer

Fotografering af fugle Brug af dine digitale spejlreflekskameraer

Du kan optage interessante billeder af fugle store og små med din digitale spejlreflekskamera . Du behøver bare lidt tålmodighed og lidt viden om den fugl, du vil fotografere. En fuglefoder er et ideelt sted at fotografere små fugle. Du kan rejse til et område med en sø eller flod eller til ...

Fotografering af byer med dine digitale spejlreflekskameraer

Fotografering af byer med dine digitale spejlreflekskameraer

Om du bor i en søvnig lille by eller en storby, der overfylder menneskeheden kan din digitale spejlreflekskamera fange hjertet og sjælen i din hjemby. Du kan eksperimentere med at tage billeder om natten, når byen er dramatisk eller øde eller om dagen, når beboerne og deres aktiviteter gør byen ...

Fotografering af objekter i bevægelse - dummier

Fotografering af objekter i bevægelse - dummier

Der er et par tankeskoler om fotografering af objekter i bevægelse. Opskriften på en perfekt eksponering kan opnås på mange måder. Du kan vælge en lille blænde (stort f-stopnummer) for at få en stor dybdeskarphed, eller du kan vælge en hurtig lukkerhastighed, hvilket betyder en stor blænde (lille ...

Valg af editor

Hvordan man fortjener mor fra blogging uden at sælge - dummier

Hvordan man fortjener mor fra blogging uden at sælge - dummier

Sælger er et udtryk, der anvendes til kompromittere din integritet, principper eller moral for at vinde penge eller succes. Problemet er, at hvis alle havde de samme principper og definition af integritet, ville der ikke være meget behov for forskellige politiske partier eller religioner. Folk kan anklaget for at sælge ud, hvis de simpelthen gør ting som ...

Hvordan man korrekt bruger nøgleord til din online community - dummies

Hvordan man korrekt bruger nøgleord til din online community - dummies

Når du har en god ide om hvilke typer søgeord der skal bruges i dit online-fællesskab, er det tid til at skrive indholdet, så det ser naturligt ud. For mange mennesker peber søgeord liberalt omkring deres blogindlæg, web artikler, Om sider og andet indhold, som ser dumt og forkert ud. Selvom du bruger nøgleord, er det godt ...

Sådan sættes annoncer på din blog - dummies

Sådan sættes annoncer på din blog - dummies

For at få annoncer på din blogwebsite, de programmer du tilmelde dig normalt give dig en smule kode, som du indsætter i din hjemmeside skabeloner. Nogle programmer har trinvise instruktioner til populære blogsoftwarepakker, men vær opmærksom på at du måske også har brug for at konsultere dokumentation til blogsoftware til hjælp med ...

Valg af editor

Ompirrende Signaler og hvad de betyder i Cricket - Dummies

Ompirrende Signaler og hvad de betyder i Cricket - Dummies

Embedsmændene med ansvar for et cricketpil er kaldet umpires, og de har en lang række signaler til at angive de beslutninger, de træffer i løbet af et spil. Disse er de vigtigste. Højre arm udstrakte. No-bold. Dette signal indikerer, at bowlerens fod har landet over frontlinjen af ​​...

Vælg en Tennis Racquet - Dummies

Vælg en Tennis Racquet - Dummies

Ja, du kan støv af den racquet, du spillede for fem år siden og give det en strålende tilbagevenden til retten - hvis det føles godt i din hånd og det får dine skud hvor (og hvordan) vil du have dem til at gå. Hvis du er på markedet for et nyt våben, vil du dog ...

Skæring og dicing, tennis stil - dummies

Skæring og dicing, tennis stil - dummies

Skive eller backspin, får tennisbolden til at vende tilbage mod effektkilde (dig). Når et stykke skud springer, forbliver bolden lavt, hvilket tvinger din modstander til virkelig at strække for at komme til bolden. Hvis spillere gerne angriber nettet og volley, skar de meget. Skiven kan være en nyttig ...