Basics af K-Means og DBSCAN Clustering Models for Predictive Analytics - dummies <[SET:descriptionda]Uovervåget læring

Video: Auburn Coach Wife Kristi Malzahn Agrees with Match & eHarmony: Men are Jerks 2025

Uovervåget læring har mange udfordringer for prædiktiv analyse - herunder ikke at vide, hvad man kan forvente, når man kører en algoritme. Hver algoritme vil producere forskellige resultater; du vil aldrig være sikker på, om et resultat er bedre end det andet - eller om resultatet er af nogen værdi.

Når du ved, hvad resultaterne skal være, kan du tilpasse algoritmerne til at producere de ønskede resultater. I rigtige datasæt vil du ikke have denne luksus. Du skal afhænge af nogle forudgående kendskab til dataene - eller intuitionen - for at bestemme hvilke initialiseringsparametre og algoritmer der skal bruges, når du opretter din model.

I reelle uovervågede læringsopgaver er denne forudgående viden imidlertid utilgængelig, og det ønskede resultat er svært at finde. At vælge det rigtige antal klynger er nøgleproblemet. Hvis du tilfældigvis snuble over det rigtige antal klynger, vil dine data give indsigt, som du kan lave meget præcise forudsigelser. På forsiden kan gætte det forkerte antal klynger muligvis give resultater.

K-middel algoritmen er et godt valg til datasæt, der har et lille antal klynger med proportionalstørrelser og lineært adskilelige data - og du kan skala det op for at bruge algoritmen på meget store datasæt.

Tænk på lineært adskilelig data som en flok punkter i en graf, der kan adskilles ved hjælp af en lige linje. Hvis dataene ikke er lineært adskilt, skal der bruges mere avancerede versioner af K-midler - hvilket vil blive dyrere beregningsmæssigt og muligvis ikke egnet til meget store datasæt. I sin standard implementering er kompleksiteten til at beregne klyngesentre og afstande lav.

K-midler er i vid udstrækning ansat til at løse problemer med store data, fordi det er nemt at bruge, effektivt og meget skalerbart. Ikke underligt, at de fleste kommercielle leverandører bruger K-middelalgoritmen som en nøglekomponent i deres prædiktive analysepakker.

Implementeringen af DBSCAN (Density-Based Spatial Clustering of Applications with Noise) i scikit-learning kræver ikke nogen brugerdefinerede initialiseringsparametre for at oprette en forekomst. Du kan tilsidesætte standardparametrene under initialisering, hvis du vil. Desværre, hvis du bruger standardparametrene, kan algoritmen ikke give en tæt match til det ønskede resultat.

DBSCAN passer bedre til datasæt, der har disproportionelle klyngestørrelser, og hvis data kan adskilles på en ikke-lineær måde.Som K-betyder, er DBSCAN skalerbar, men brug af det på meget store datasæt kræver mere hukommelse og databehandlingskraft.