Indholdsfortegnelse:
Video: Strategisk Analyse og Systemdesign, DTU 2024
Generelt bruger tekstanalyseløsninger til store data en kombination af statistiske og Natural Language Processing (NLP) teknikker til at udtrække information fra ustrukturerede data. NLP er et bredt og komplekst felt, der har udviklet sig de sidste 20 år.
Et primært mål med NLP er at udlede mening fra tekst. Natural Language Processing gør generelt brug af sproglige begreber som grammatiske strukturer og dele af tale. Ideen bag denne type analyser er ofte at bestemme hvem gjorde hvad til hvem, hvornår, hvor, hvordan og hvorfor.
NLP udfører analyse på tekst på forskellige niveauer:
-
Lexisk / morfologisk analyse undersøger egenskaberne ved et enkelt ord - herunder præfikser, suffikser, rødder og taledele (substantiv, verb, adjektiv osv.) - oplysninger, der vil bidrage til at forstå, hvad ordet betyder i sammenhæng med den leverede tekst. Lexisk analyse afhænger af en ordbog, tesaurus eller en liste over ord, der indeholder oplysninger om disse ord.
-
Syntaktisk analyse bruger grammatisk struktur til at dissekere teksten og sætte enkelte ord i kontekst. Her udvider du dit blik fra et enkelt ord til sætningen eller den fulde sætning. Dette trin kan diagramere forholdet mellem ord (grammatikken) eller se efter sekvenser af ord, der danner korrekte sætninger eller for sekvenser af tal, der repræsenterer datoer eller monetære værdier.
-
Semantisk analyse bestemmer de mulige betydninger af en sætning. Dette kan omfatte undersøgelse af ordrækkefølge og sætningsstruktur og disambiguerende ord ved at forbinde syntaksen, der findes i sætninger, sætninger og afsnit.
-
Diskursniveauanalyse forsøger at bestemme betydningen af tekst ud over sætningsniveauet.
Forstå de uddragne oplysninger fra store data
Visse teknikker kombineret med andre statistiske eller sproglige teknikker til automatisering af mærkning og markering af tekstdokumenter kan udvinde følgende slags oplysninger:
-
Vilkår: En anden navn til nøgleord.
-
Entiteter: Ofte kaldet navngivne enheder , disse er specifikke eksempler på abstraktioner. Eksempler er navne på personer, navne på virksomheder, geografiske steder, kontaktoplysninger, datoer, tider, valutaer, titler og positioner og så videre. For eksempel kan tekstanalytisk software uddrage virksomheden Jane Doe som en person, der henvises til i teksten, der analyseres. Enheden 3. marts 2007 kan udvindes som en dato og så videre.
-
Fakta: Også kaldet relationer , fakta angiver hvem / hvad / hvor relationerne mellem to enheder. John Smith er CEO for firma Y og Aspirin reducerer feber er eksempler på fakta. Begivenheder:
-
Mens nogle eksperter anvender udtrykene faktum , forholdet , og begivenheden , skelner andre mellem begivenheder og fakta, at begivenheder normalt indeholder en tidsdimension og ofte forårsager fakta at ændre sig. Eksempler er en ændring i ledelsen inden for et firma eller status for en salgsproces. Begreber:
-
Dette er sæt ord og sætninger, der angiver en bestemt ide eller et emne, som brugeren er bekymret over. Eksempelvis kan begrebet ulykkelig kunde indeholde ordene vred, skuffet, og forvirret og frasen afbryd tjenesten, ringede ikke tilbage, og spild af penge - blandt mange andre. Således kan begrebet ulykkelig kunde uddrages uden at udtrykket ulykkelig eller kunde fremgår af teksten. Sentiment:
-
Sentimentanalyse bruges til at identificere synspunkter eller følelser i den underliggende tekst. Nogle teknikker gør dette ved at klassificere tekst som f.eks. Subjektiv (mening) eller objektiv (faktum) ved hjælp af maskinlæring eller NLP-teknikker. Sentimentanalyse er blevet meget populær i "kundens stemme" slags applikationer. Store datakatonomier
Taxonomier er ofte kritiske for tekstanalyser. A
taxonomi er en metode til at organisere information i hierarkiske relationer. Det kaldes undertiden som en måde at organisere kategorier på. Fordi en taxonomi definerer forholdet mellem de vilkår, et firma anvender, gør det lettere at finde og derefter analysere tekst. For eksempel tilbyder en teletjenesteudbyder både kablet og trådløs service. Inden for den trådløse service kan virksomheden understøtte mobiltelefoner og internetadgang. Virksomheden kan så have to eller flere måder at kategorisere mobiltelefonitjeneste på, såsom planer og telefontyper. Taksonomien kunne nå hele vejen ned til selve telefonens dele.
Taxonomier kan også bruge synonymer og alternative udtryk, idet man erkender at mobiltelefon, mobiltelefon og mobiltelefon er alle de samme. Disse taksonomier kan være ret komplekse og kan tage lang tid at udvikle.