Sådan konverteres Raw Data til en Predictive Analysis Matrix - Dummies

Video: Nassim Haramein 2015 - The Connected Universe 2025

Før du kan udtrække grupper af ensartede dataelementer fra dit datasæt til dit forudsigende analyseprojekt, skal du muligvis repræsentere dine data i en tabelform format kendt som en datamatrix . Dette er et forbehandlingstrin, der kommer før dataklyngning.

Sådan oprettes en forudsigende analysematrix af udtryk i dokumenter

Antag datasættet, som du skal analysere, findes i et sæt Microsoft Word-dokumenter. Den første ting, du skal gøre, er at konvertere sæt af dokumenter til en datamatrix. Flere kommercielle og open source-værktøjer kan klare den opgave, der producerer en matrix, hvor hver række svarer til et dokument i datasættet. Eksempler på disse værktøjer omfatter RapidMiner og R text mining pakker.

A dokument er i det væsentlige et sæt ord. Et udtryk er et sæt af et eller flere ord.

Hvert udtryk, som et dokument indeholder, nævnes enten en eller flere gange i samme dokument. Antallet af gange et udtryk er nævnt i et dokument kan repræsenteres med termfrekvens (TF), en numerisk værdi.

Vi konstruerer matrixen af udtryk i dokumentet som følger:

Vilkårene, der vises i alle dokumenter, er angivet på tværs af den øverste række.
Doktititler er angivet ned til venstre øverste kolonne
Tallene, der vises inde i matrixcellerne, svarer til hvert termins frekvens.

For eksempel er dokument A repræsenteret som sæt af tal (5, 16, 0, 19, 0, 0.) hvor 5 svarer til det antal gange, udtrykket predictive analytics gentages, 16 svarer til antallet til gange datalogi gentages, og så videre. Dette er den enkleste måde at konvertere et sæt af dokumenter til en matrix.

Prediktiv Analytics	Computer Science	Learning	Clustering	2013	Antropologi
Dokument A	5	16	0 < 19	0	0	Dokument B
8	6	2	3	0	0	Dokument C
0 < 5	2	3	3	9	Dokument D	1
9	13	4	6	7 > Dokument E	2	16
16	0	2	13	Dokument F	13	0
19	16 > 4	2	Grundlæggende om valg af prædiktiv analyse sigtetid	En udfordring i gruppering af tekstdokumenter bestemmer, hvordan man vælger de bedste vilkår for at repræsentere alle dokumenter i samlingen. Hvor vigtigt et begreb er i en samling dokumenter kan beregnes på forskellige måder.	Hvis du f.eks. Tæller antallet af gange et udtryk gentages i et dokument og sammenligner det samlede antal med, hvor ofte det genvinder i hele samlingen, får du en fornemmelse af begrebet betydning i forhold til andre vilkår.	Basering af den relative betydning af et udtryk på dens frekvens i en samling er ofte kendt som

vægtning

. Den vægt, du tildeler, kan baseres på to principper:

Vilkår, der vises flere gange i et dokument, begunstiges over vilkår, der kun vises én gang.

Vilkår, der bruges i forholdsvis få dokumenter, er begunstiget over vilkår, der er nævnt i alle dokumenter. Hvis (for eksempel) udtrykket århundrede

er nævnt i alle dokumenter i dit datasæt, kan du måske ikke overveje at give den tilstrækkelig vægt til at have en egen kolonne i matrixen.
På samme måde, hvis du har at gøre med et datasæt for brugere af et online socialt netværk, kan du nemt konvertere datasættet til en matrix. Bruger-id'er eller navne vil optage rækkerne; kolonnerne viser de funktioner, der bedst beskriver disse brugere.