Video: Livestream: Song Lyrics Topic Analysis with Python 2024
Der findes mange metoder til analyse af ustrukturerede data til dit store datainitiativ. Historisk set kom disse teknikker ud af tekniske områder som NLP (Natural Language Processing), vidensopdagelse, dataudvinding, informationsindsamling og statistik. Tekstanalyse er processen med at analysere ustruktureret tekst, udvinde relevant information og omdanne den til strukturerede oplysninger, som derefter kan udnyttes på forskellige måder.
Analyse- og udvindingsprocesserne udnytter teknikker, der stammer fra computational lingvistik, statistik og andre computervidenskabelige discipliner.
Nogle gange kan et eksempel hjælpe med at forklare et komplekst emne. Antag at du arbejder for marketingafdelingen i et trådløst telefonfirma. Du har netop lanceret to nye kaldeplaner - Plan A og Plan B - og du får ikke den optagelse, du ønskede på Plan A. Den ustrukturerede tekst fra callcenternoterne kan give dig et indblik i, hvorfor dette skete.
De understregede ord giver de oplysninger, du måtte have brug for at forstå, hvorfor Plan A ikke opnår hurtig vedtagelse. For eksempel vises entiteten Plan A i alle call center noter, hvilket indikerer, at rapporterne nævner planen.
Udtrykkene overløbsminuter, 4GB data, dataplan, og dyrt er tegn på, at der er et problem med overløbsminutter, dataplanen og prisen. Ord som latterligt og dumt giver indsigt i opkaldsstemningen, som i dette tilfælde er negativ.
Tekstanalyseprocessen anvender forskellige algoritmer, f.eks. Forståelse af sætningsstruktur, analysere den ustrukturerede tekst og derefter udtrække information og omdanne denne information til strukturerede data. De strukturerede data, der ekstraheres fra den ustrukturerede tekst, er illustreret i tabel 13-1.
Identifikator | Entitet | Udgave | Sentiment |
---|---|---|---|
Cust XYZ | Plan A | Roll-over minutter | Neutral |
Cust ABC | Plan A | Rulleminder | Negativ |
XXXX | Plan A | Dyr | Neutral |
XXXX | Plan A | Dataplan | Neutral |
Cust XYT > Plan A | Dataplan | Negativ | Du kan se på dette og sige, "Men jeg kunne have fundet ud af det ved at se på callcenter-optegnelserne. "Men disse er kun en lille delmængde af de oplysninger, der registreres af tusindvis af callcenter-agenter. Hver enkelt agent kan muligvis ikke mærke en bred tendens til at løse problemet med hver enkelt plan, der tilbydes af virksomheden. |
Agenter har ikke tid eller krav om at dele disse oplysninger på tværs af alle de andre callcenter-agenter, der muligvis får lignende antal opkald om Plan A. Men efter at disse oplysninger er aggregeret og behandlet ved hjælp af tekstanalysalgoritmer, er en trend kan komme ud af disse ustrukturerede data. Det er, hvad der gør tekstanalysen så kraftfuld.
Søgning handler om at hente et dokument baseret på, hvad slutbrugere allerede ved, de søger. Tekstanalyse handler om at opdage information. Mens tekstanalyser adskiller sig fra søgning, kan det øge søgeteknikkerne. For eksempel kan tekstanalyse kombineret med søgning bruges til at give bedre kategorisering eller klassificering af dokumenter og til at producere abstracts eller resuméer af dokumenter.
Der er fire teknologier: forespørgsel, dataudvinding, søgning og tekstanalyse. På venstre side af bordet er forespørgsel og søgning, der begge handler om hentning. For eksempel kan en slutbruger forespørge en database for at finde ud af, hvor mange kunder der er stoppet med at bruge virksomhedens tjenester i den seneste måned.
Forespørgslen ville returnere et enkelt nummer. Kun ved at stille flere og forskellige forespørgsler vil slutbrugeren få de oplysninger, der kræves for at afgøre, hvorfor kunderne forlader. På samme måde giver søgeordssøgning slutbrugeren mulighed for at finde de dokumenter, der indeholder navnene på en virksomheds konkurrenter. Søgningen ville returnere en gruppe dokumenter. Kun ved at læse dokumenterne vil slutbrugeren komme med eventuelle relevante svar.
Indhentning
Indsigt | Struktureret | |
---|---|---|
Forespørgsel: Returnerer data | Dataudvikling: Indsigt fra strukturerede data | Ustruktureret |
Søgning: Returnerer dokumenter | Tekstanalyse: Indsigt fra tekst < Teknologien til venstre returnerer informationstyper og kræver menneskelig interaktion til at syntetisere og analysere disse oplysninger. Teknologierne til højre - data mining og tekstanalyse - giver indsigt meget hurtigere. Forhåbentlig bliver værdien af tekstanalyser til din organisation klar. |