Hjem Personlig finansiering Grundlæggende om dataklynger i prædiktiv analyse - dummier

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Video: Grundlæggende om ETNer med Sylvester Andersen 2025

Video: Grundlæggende om ETNer med Sylvester Andersen 2025
Anonim

A datasæt < (eller dataindsamling) er et sæt elementer i prædiktiv analyse. Et sæt dokumenter er for eksempel et datasæt, hvor dataelementerne er dokumenter. Et sæt brugernavnet til socialt netværk (navn, alder, venneliste, fotos osv.) Er et datasæt, hvor dataelementerne er profiler af brugere af sociale netværk. Dataklyngning

har til opgave at opdele et datasæt i undergrupper af lignende genstande. Elementer kan også omtales som forekomster, observation, enheder eller dataobjekter. I de fleste tilfælde er et datasæt repræsenteret i tabelformat - en datamatrix . En datamatrix er en tabel med tal, dokumenter eller udtryk, repræsenteret i rækker og kolonner som følger:

Hver række svarer til et givet emne i datasættet.
  • Rækker er nogle gange omtalt som

    elementer, objekter, forekomster eller observationer. Hver kolonne repræsenterer et bestemt karakteristika for et element.

  • Kolonner kaldes

    funktioner eller attributter. Anvendelse af dataklyngning til et datasæt genererer grupper af lignende dataelementer. Disse grupper kaldes

klynger - samlinger af lignende dataposter.

Lignende

varer har et stærkt, målbart forhold mellem dem - friske grøntsager, for eksempel, ligner hinanden mere end de er frosne fødevarer - og clusteringsteknikker bruger det forhold til gruppen varerne. Styrken af ​​et forhold mellem to eller flere elementer kan kvantificeres som en

lighedsmåling: En matematisk funktion beregner korrelationen mellem to dataposter. Resultaterne af denne beregning, kaldet lighedværdier, sammenligner i det væsentlige et bestemt dataelement til alle andre elementer i datasættet. Disse andre elementer vil enten være mere ens eller mindre ens i forhold til den specifikke vare.

Beregnede ligheder spiller en vigtig rolle ved tildeling af elementer til grupper (

klynger ). Hver gruppe har et element, der bedst repræsenterer det; Dette punkt benævnes en klyngerepræsentant . Overvej et datasæt, der består af flere typer frugter i en kurv. Kurven har frugter af forskellige typer som æbler, bananer, citroner og pærer. I dette tilfælde er frugt dataelementerne. Dataklyngingsprocessen udtræk grupper af lignende frugter ud af dette datasæt (kurv af forskellige frugter).

Det første trin i en dataklyngningsproces er at oversætte dette datasæt til en datagrundvisning: En måde at model dette datasæt på er at have rækkerne repræsenterer elementerne i datasættet (frugter); og kolonnerne repræsenterer karakteristika eller funktioner, der beskriver elementerne.

F.eks. Kan en frugtfunktion være frugttype (såsom en banan eller æble), vægt, farve eller pris. I dette eksempeldatasæt har varerne tre funktioner: frugt type, farve og vægt.

I de fleste tilfælde kan anvendelse af en dataklyngeteknik til frugtdatasættet som beskrevet ovenfor gøre det muligt at

Hente grupper (klynger) af lignende genstande.

  • Du kan fortælle, at din frugt er af N antal grupper. Derefter vil du, hvis du vælger en tilfældig frugt, kunne gøre en erklæring om den pågældende vare som en del af en af ​​N-grupperne. Hent clusterrepræsentanter for hver gruppe.

  • I dette eksempel vil en klyngerepræsentant vælge en frugttype fra kurven og sætte den til side. Kendetegnene ved denne frugt er sådan, at den frugt bedst repræsenterer den klynge, den tilhører. Når du er færdig med clustering, er dit datasæt organiseret og opdelt i naturlige grupperinger.

Dataklyngning afslører strukturen i dataene ved at udvinde naturlige grupperinger fra et datasæt. At opdage klynger er derfor et vigtigt skridt i retning af at formulere ideer og hypoteser om strukturen af ​​dine data og udlede indsigt for bedre at forstå det.

Dataklyngning kan også være en måde at model data på: Det repræsenterer en større mængde data af klynger eller klyngerrepræsentanter.

Derudover kan din analyse måske simpelthen søge at opdele dataene i grupper af lignende ting - som når

markedssegmentering partitionerer målmarkedsdata i grupper som Forbrugere, der har samme interesser (som middelhavsretter)

  • Forbrugere, der har fælles behov (for eksempel dem med specifikke fødevareallergier)

  • Identifikation af klynger af lignende kunder kan hjælpe dig med at udvikle en markedsføringsstrategi, der passer til specifikke klyngers behov.

Desuden kan dataklyngning også hjælpe dig med at identificere, lære eller forudsige arten af ​​nye dataposter - især hvordan nye data kan knyttes til forudsigelser. I eksempelvis kan

mønstergenkendelse analysere mønstre i dataene (såsom købsmønstre i bestemte regioner eller aldersgrupper) hjælpe dig med at udvikle predictive analytics - i dette tilfælde forudsige arten af ​​fremtidige dataposter, der kan passer godt med etablerede mønstre. Frugtkurv-eksemplet bruger dataklyngning til at skelne mellem forskellige dataposter. Antag, at din virksomhed samler brugerdefinerede frugtkurve, og der introduceres en ny, ukendt frugt til markedet. Du vil lære eller forudsige, hvilken klynge det nye element vil tilhøre, hvis du tilføjer det til frugtkurven.

Fordi du allerede har anvendt dataklyngning til frugtdatasættet, har du fire klynger - hvilket gør det nemmere at forudsige, hvilken klynge (specifik type frugt) der passer til den nye genstand. Alt du skal gøre er at sammenligne den ukendte frugt med de andre fire klyngernes repræsentanter og identificere hvilken klynge der er den bedste kamp.

Selvom denne proces kan synes at være indlysende for en person, der arbejder med et lille datasæt, er det ikke så indlysende i større målestok - når du skal klynge millioner af genstande uden at undersøge hver enkelt.Kompleksiteten bliver eksponentiel, når datasættet er stort, forskelligt og relativt usammenhængende. Derfor eksisterer klyngalgoritmer: Computere gør den slags arbejde bedst.

Grundlæggende om dataklynger i prædiktiv analyse - dummier

Valg af editor

Sammenligning af Hadoop-distributioner - dummier

Sammenligning af Hadoop-distributioner - dummier

Du vil opdage, at Hadoop-økosystemet har mange komponenter, som alle eksisterer som deres egne Apache projekter. Fordi Hadoop er vokset betydeligt og står over for nogle betydelige yderligere ændringer, er forskellige versioner af disse komponenter i open source-fællesskabet måske ikke fuldt kompatible med andre komponenter. Dette giver betydelige vanskeligheder for folk, der søger at få ...

Faktorer, der øger omfanget af statistisk analyse i Hadoop - dummies

Faktorer, der øger omfanget af statistisk analyse i Hadoop - dummies

Grunden til, at folk udprøver deres data før du kører statistisk analyse i Hadoop er, at denne form for analyse ofte kræver betydelige databehandlingsressourcer. Det handler ikke kun om datamængder: der er fem hovedfaktorer, der påvirker omfanget af statistisk analyse: Denne er let, men vi skal nævne det: mængden af ​​data på ...

Komprimering af data i Hadoop - dummies

Komprimering af data i Hadoop - dummies

Er de enorme datamængder, der er realiteter i en typisk Hadoop-implementering, en nødvendighed. Datakomprimering sparer helt sikkert en stor mængde lagerplads og er sikker på at fremskynde bevægelsen af ​​disse data i hele din klynge. Ikke overraskende er der en række tilgængelige komprimeringsordninger, kaldet codecs, derude for ...

Valg af editor

Hvordan man bruger Wordtracker Søgeordsværktøj - dummies

Hvordan man bruger Wordtracker Søgeordsværktøj - dummies

Wordracker er måske det mest populære kommercielle søgeordværktøj blandt seo fagfolk. Wordtracker har adgang til data fra et par store metakrawlere og en stor britisk internetudbyder. En metacrawler er et system, der søger flere søgemaskiner til dig. Skriv f.eks. Et ord i Dogpiles søgefelt, og systemet søger på Google, ...

Identificere mobile brugers søgemønstre for SEO - dummies

Identificere mobile brugers søgemønstre for SEO - dummies

I begyndelsen af ​​2014 Endelig skete: Internetbrug via mobile enheder oversteg faktisk desktop internetbrug i USA for første gang. Overveje det, alle har en smartphone i disse dage, og folk bruger i stigende grad disse handy-enheder, tabletter som iPad og det nye mellemstore sortiment af tabletter (overdimensionerede telefon-tablet-enheder) ...

Hvordan man bruger single page analyser til konkurrencedygtig seo forskning - dummies

Hvordan man bruger single page analyser til konkurrencedygtig seo forskning - dummies

Single Page Analyzer værktøj kan hjælpe dig med at forbedre dit websted til SEO. Det fortæller dig, hvad en websides søgeord er og beregner deres tæthed. Søgeordsdensitet er en procentdel, der angiver det antal gange søgeordet opstår i forhold til det samlede antal ord på siden. Når du kører en konkurrents side ...

Valg af editor

Sådan konstrueres en funktion i C Programmering - dummier

Sådan konstrueres en funktion i C Programmering - dummier

I C-programmering, alle funktioner kaldes med en navn, som skal være unikt ingen to funktioner kan have samme navn, og en funktion kan heller ikke have samme navn som et søgeord. Navnet efterfølges af parenteser, som derefter efterfølges af et sæt krøllede parenteser. Så i sin enkleste konstruktion, en ...

Sådan oprettes en ny kode:: Blokerer projekt i C-dummier

Sådan oprettes en ny kode:: Blokerer projekt i C-dummier

I C programmeringssprog, en konsol-applikation er en, der kører i tekst-tilstand i et terminalvindue. Selv om et integreret udviklingsmiljø er i stand til mere, er det den bedste måde at lære grundlæggende programmeringskoncepter på, uden at overvældende dig med et stort, komplekst grafisk dyr af et program. Sådan fungerer det: Start ...

Hvordan man viser tekst på skærmen i C med sætter () og printf () - Dummies

Hvordan man viser tekst på skærmen i C med sætter () og printf () - Dummies

De ting, som et C-program kan gøre, er ubegrænset, men når du først lærer sproget, skal du starte lille. En af de mest almindelige funktioner, du vil have dit C-program til at gøre, er at vise tekst på skærmen, og der er to måder at gøre: sætter () og printf (). sætter () Sætter sandsynligvis ...