Hjem Personlig finansiering Grundlæggende om dataklynger i prædiktiv analyse - dummier

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Video: Grundlæggende om ETNer med Sylvester Andersen 2025

Video: Grundlæggende om ETNer med Sylvester Andersen 2025
Anonim

A datasæt < (eller dataindsamling) er et sæt elementer i prædiktiv analyse. Et sæt dokumenter er for eksempel et datasæt, hvor dataelementerne er dokumenter. Et sæt brugernavnet til socialt netværk (navn, alder, venneliste, fotos osv.) Er et datasæt, hvor dataelementerne er profiler af brugere af sociale netværk. Dataklyngning

har til opgave at opdele et datasæt i undergrupper af lignende genstande. Elementer kan også omtales som forekomster, observation, enheder eller dataobjekter. I de fleste tilfælde er et datasæt repræsenteret i tabelformat - en datamatrix . En datamatrix er en tabel med tal, dokumenter eller udtryk, repræsenteret i rækker og kolonner som følger:

Hver række svarer til et givet emne i datasættet.
  • Rækker er nogle gange omtalt som

    elementer, objekter, forekomster eller observationer. Hver kolonne repræsenterer et bestemt karakteristika for et element.

  • Kolonner kaldes

    funktioner eller attributter. Anvendelse af dataklyngning til et datasæt genererer grupper af lignende dataelementer. Disse grupper kaldes

klynger - samlinger af lignende dataposter.

Lignende

varer har et stærkt, målbart forhold mellem dem - friske grøntsager, for eksempel, ligner hinanden mere end de er frosne fødevarer - og clusteringsteknikker bruger det forhold til gruppen varerne. Styrken af ​​et forhold mellem to eller flere elementer kan kvantificeres som en

lighedsmåling: En matematisk funktion beregner korrelationen mellem to dataposter. Resultaterne af denne beregning, kaldet lighedværdier, sammenligner i det væsentlige et bestemt dataelement til alle andre elementer i datasættet. Disse andre elementer vil enten være mere ens eller mindre ens i forhold til den specifikke vare.

Beregnede ligheder spiller en vigtig rolle ved tildeling af elementer til grupper (

klynger ). Hver gruppe har et element, der bedst repræsenterer det; Dette punkt benævnes en klyngerepræsentant . Overvej et datasæt, der består af flere typer frugter i en kurv. Kurven har frugter af forskellige typer som æbler, bananer, citroner og pærer. I dette tilfælde er frugt dataelementerne. Dataklyngingsprocessen udtræk grupper af lignende frugter ud af dette datasæt (kurv af forskellige frugter).

Det første trin i en dataklyngningsproces er at oversætte dette datasæt til en datagrundvisning: En måde at model dette datasæt på er at have rækkerne repræsenterer elementerne i datasættet (frugter); og kolonnerne repræsenterer karakteristika eller funktioner, der beskriver elementerne.

F.eks. Kan en frugtfunktion være frugttype (såsom en banan eller æble), vægt, farve eller pris. I dette eksempeldatasæt har varerne tre funktioner: frugt type, farve og vægt.

I de fleste tilfælde kan anvendelse af en dataklyngeteknik til frugtdatasættet som beskrevet ovenfor gøre det muligt at

Hente grupper (klynger) af lignende genstande.

  • Du kan fortælle, at din frugt er af N antal grupper. Derefter vil du, hvis du vælger en tilfældig frugt, kunne gøre en erklæring om den pågældende vare som en del af en af ​​N-grupperne. Hent clusterrepræsentanter for hver gruppe.

  • I dette eksempel vil en klyngerepræsentant vælge en frugttype fra kurven og sætte den til side. Kendetegnene ved denne frugt er sådan, at den frugt bedst repræsenterer den klynge, den tilhører. Når du er færdig med clustering, er dit datasæt organiseret og opdelt i naturlige grupperinger.

Dataklyngning afslører strukturen i dataene ved at udvinde naturlige grupperinger fra et datasæt. At opdage klynger er derfor et vigtigt skridt i retning af at formulere ideer og hypoteser om strukturen af ​​dine data og udlede indsigt for bedre at forstå det.

Dataklyngning kan også være en måde at model data på: Det repræsenterer en større mængde data af klynger eller klyngerrepræsentanter.

Derudover kan din analyse måske simpelthen søge at opdele dataene i grupper af lignende ting - som når

markedssegmentering partitionerer målmarkedsdata i grupper som Forbrugere, der har samme interesser (som middelhavsretter)

  • Forbrugere, der har fælles behov (for eksempel dem med specifikke fødevareallergier)

  • Identifikation af klynger af lignende kunder kan hjælpe dig med at udvikle en markedsføringsstrategi, der passer til specifikke klyngers behov.

Desuden kan dataklyngning også hjælpe dig med at identificere, lære eller forudsige arten af ​​nye dataposter - især hvordan nye data kan knyttes til forudsigelser. I eksempelvis kan

mønstergenkendelse analysere mønstre i dataene (såsom købsmønstre i bestemte regioner eller aldersgrupper) hjælpe dig med at udvikle predictive analytics - i dette tilfælde forudsige arten af ​​fremtidige dataposter, der kan passer godt med etablerede mønstre. Frugtkurv-eksemplet bruger dataklyngning til at skelne mellem forskellige dataposter. Antag, at din virksomhed samler brugerdefinerede frugtkurve, og der introduceres en ny, ukendt frugt til markedet. Du vil lære eller forudsige, hvilken klynge det nye element vil tilhøre, hvis du tilføjer det til frugtkurven.

Fordi du allerede har anvendt dataklyngning til frugtdatasættet, har du fire klynger - hvilket gør det nemmere at forudsige, hvilken klynge (specifik type frugt) der passer til den nye genstand. Alt du skal gøre er at sammenligne den ukendte frugt med de andre fire klyngernes repræsentanter og identificere hvilken klynge der er den bedste kamp.

Selvom denne proces kan synes at være indlysende for en person, der arbejder med et lille datasæt, er det ikke så indlysende i større målestok - når du skal klynge millioner af genstande uden at undersøge hver enkelt.Kompleksiteten bliver eksponentiel, når datasættet er stort, forskelligt og relativt usammenhængende. Derfor eksisterer klyngalgoritmer: Computere gør den slags arbejde bedst.

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Valg af editor

Middelhavsret Opskrifter: Kretiske Kyllingretter - Dummies

Middelhavsret Opskrifter: Kretiske Kyllingretter - Dummies

Grillning og braising er de mest populære måder at lave mad kød på Kreta; kombineret med friske urter og krydderier og traditionelle fødevarer som yoghurt, ost og oliven, skaber disse teknikker kyllingevarer med en masse smag. Sautéed Kyllingebryst i Rødvin Tomat Sauce Forberedelsestid: 10 minutter Kogetid: 45 minutter ...

Middelhavs kost Opskrifter: Pasta med kød - dummies

Middelhavs kost Opskrifter: Pasta med kød - dummies

En fantastisk måde at lave en one-pot Middelhavet måltid er at tilføje nogle slags kød, såsom kylling, svinekød eller oksekød, til din pasta. Tilsæt nogle grøntsager og en frisk sovs, og du har et komplet måltid. Brug af kød er en god måde at tilføje mere volumen til din pasta, så du ikke gør det.

Middelhavs Diet Opskrifter: Entree Salater - Dummies

Middelhavs Diet Opskrifter: Entree Salater - Dummies

Selvom entree salat er mere populært i USA og Canada, kan du stadig skabe et middelhavs-inspireret måltid ved at kombinere friske råvarer med proteinkilder som laks eller kylling. Entree salater er også et godt sommermåltid for at fejre de fødevarer, der er i sæson. Grillet laks med karameliserede løg over blandede grønne ...

Valg af editor

Opret en samlingsklasse i Java-dummier

Opret en samlingsklasse i Java-dummier

En samlingsklasse i Java-kode er en klasse, hvis job skal opbevares en flok objekter ad gangen - en flok stringsobjekter, en flok BagOfCheese objekter, en flok tweets eller hvad som helst. Du kan oprette en samlingsklasse med denne kode. pakke com. allmycode. samlinger; importer java. util. ArrayList; offentlig klasse SimpleCollectionsDemo {...

Lav en abstrakt klasse i Java-dummier

Lav en abstrakt klasse i Java-dummier

En abstrakt klasse i Java er en klasse, der indeholder en eller flere abstrakte metoder, der simpelthen er metoden deklarationer uden en krop - det vil sige uden eksekverbar kode, der gennemfører klassen eller metoden. En abstrakt metode er som en prototype til en metode, der erklærer metodeens returtype og parameterliste, men ikke ...

Hvordan man skaber tegnfelter i Java - dummier

Hvordan man skaber tegnfelter i Java - dummier

Her lærer du hvordan du kan bruge en char variabel snarere end et helt tal i en Java-switch statement. Når du bruger en karetype, er det almindeligt at give to på hinanden følgende case-konstanter for hver case-gruppe, for at tillade både små og store bogstaver. Antag at du skal indstille kommissionsrenten for ...

Valg af editor

Koordinering mellem IT og Cloud Provider Service Desks - dummies

Koordinering mellem IT og Cloud Provider Service Desks - dummies

I et cloud computing miljø, skal du effektivt styre koordinationen er nødvendig mellem din virksomhed IT og cloud udbyder service skrivebord. Dine interne kunder er nødt til at stole på, at it-tjenester leveres som forventet, og spørgsmål vil blive rettet hurtigt. Din organisation skal overvåge hele miljøet baseret på servicekrav til din ...

Opbygge din Hybrid Cloud Service Management Plan - dummies

Opbygge din Hybrid Cloud Service Management Plan - dummies

Et vigtigt krav til hybrid cloud service management er at lave en plan på plads, hvilket indebærer at forstå, hvilke cloud services du introducerer i din virksomhed, og hvordan de skal interagere med dine data center aktiver. Nu skal du træffe beslutsomhed om hvilke tjenester du skal kontrollere, fordi de kan påvirke ...

Fordele ved en serviceorienteret tilgang i Cloud Computing - dummies

Fordele ved en serviceorienteret tilgang i Cloud Computing - dummies

Den stigende vedtagelse af hybrid sky Miljøer kan være direkte forbundet med den succes, virksomhederne har gjort i at flytte til en serviceorienteret tilgang til it. Serviceorientering er en måde at modulere vigtige forretningstjenester på og etablere veldefinerede grænseflader designet til at sikre, at disse tjenester fungerer i mange forskellige situationer. Dette tiltag til service ...