Klyngningsalgoritmer Bruges i datalogi - dummier

Du bruger klyngningsalgoritmer til at opdele dine datasæt i klynger af datapunkter, der svarer mest til en foruddefineret attribut. Hvis du har et datasæt, der beskriver flere attributter om en bestemt funktion og vil gruppere dine datapunkter i overensstemmelse med deres attributter ligheder, så brug clustering algoritmer.

En simpel scatterplot af Country Income and Education datasæt giver det diagram, du ser her.

I uovervåget klyngning starter du med disse data og fortsætter derefter med at opdele det i undergrupper. Disse undergrupper hedder klynger og består af datapunkter, der ligner hinanden mest. Det ser ud til, at der er mindst to klynger, sandsynligvis tre - en i bunden med lav indkomst og uddannelse, og så ser højlandene ud som om de kan opdeles mellem lav og høj indkomst.

Følgende figur viser resultatet af eyeballing - et visuelt estimat af - klynger i dette datasæt.

Selvom du kan generere visuelle estimater af gruppering, kan du opnå meget mere præcise resultater, når du håndterer meget større datasæt ved at bruge algoritmer til at generere klynger til dig. Visuel estimering er en grov metode, der kun er nyttig på mindre datasæt med minimal kompleksitet. Algoritmer producerer nøjagtige, gentagelige resultater, og du kan bruge algoritmer til at generere clustering for flere dimensioner af data i dit datasæt.

Klyngningsalgoritmer er en type tilgang i ikke-overvåget maskinindlæring - andre metoder omfatter Markov-metoder og metoder til dimensionreduktion. Klyngningsalgoritmer er egnede i situationer, hvor følgende egenskaber er sande:

Du kender og forstår datasættet, du analyserer.
Før du kører klyngningsalgoritmen, har du ikke en præcis ide om undergruppernes art (klynger). Ofte ved du ikke engang, hvor mange delmængder der er i datasættet, før du kører algoritmen.
Undergrupperne (klynger) bestemmes kun af det ene datasæt, du analyserer.
Dit mål er at bestemme en model, der beskriver undergrupperne i et enkelt datasæt og kun dette datasæt.

Hvis du tilføjer flere data, skal du genoprette analysen fra bunden for at få komplette og præcise modelresultater.