Hjem Personlig finansiering Analyse- og ekstraktionsteknikker til Big Data - dummies

Analyse- og ekstraktionsteknikker til Big Data - dummies

Indholdsfortegnelse:

Video: Strategisk Analyse og Systemdesign, DTU 2024

Video: Strategisk Analyse og Systemdesign, DTU 2024
Anonim

Generelt bruger tekstanalyseløsninger til store data en kombination af statistiske og Natural Language Processing (NLP) teknikker til at udtrække information fra ustrukturerede data. NLP er et bredt og komplekst felt, der har udviklet sig de sidste 20 år.

Et primært mål med NLP er at udlede mening fra tekst. Natural Language Processing gør generelt brug af sproglige begreber som grammatiske strukturer og dele af tale. Ideen bag denne type analyser er ofte at bestemme hvem gjorde hvad til hvem, hvornår, hvor, hvordan og hvorfor.

NLP udfører analyse på tekst på forskellige niveauer:

  • Lexisk / morfologisk analyse undersøger egenskaberne ved et enkelt ord - herunder præfikser, suffikser, rødder og taledele (substantiv, verb, adjektiv osv.) - oplysninger, der vil bidrage til at forstå, hvad ordet betyder i sammenhæng med den leverede tekst. Lexisk analyse afhænger af en ordbog, tesaurus eller en liste over ord, der indeholder oplysninger om disse ord.

  • Syntaktisk analyse bruger grammatisk struktur til at dissekere teksten og sætte enkelte ord i kontekst. Her udvider du dit blik fra et enkelt ord til sætningen eller den fulde sætning. Dette trin kan diagramere forholdet mellem ord (grammatikken) eller se efter sekvenser af ord, der danner korrekte sætninger eller for sekvenser af tal, der repræsenterer datoer eller monetære værdier.

  • Semantisk analyse bestemmer de mulige betydninger af en sætning. Dette kan omfatte undersøgelse af ordrækkefølge og sætningsstruktur og disambiguerende ord ved at forbinde syntaksen, der findes i sætninger, sætninger og afsnit.

  • Diskursniveauanalyse forsøger at bestemme betydningen af ​​tekst ud over sætningsniveauet.

Forstå de uddragne oplysninger fra store data

Visse teknikker kombineret med andre statistiske eller sproglige teknikker til automatisering af mærkning og markering af tekstdokumenter kan udvinde følgende slags oplysninger:

  • Vilkår: En anden navn til nøgleord.

  • Entiteter: Ofte kaldet navngivne enheder , disse er specifikke eksempler på abstraktioner. Eksempler er navne på personer, navne på virksomheder, geografiske steder, kontaktoplysninger, datoer, tider, valutaer, titler og positioner og så videre. For eksempel kan tekstanalytisk software uddrage virksomheden Jane Doe som en person, der henvises til i teksten, der analyseres. Enheden 3. marts 2007 kan udvindes som en dato og så videre.

  • Fakta: Også kaldet relationer , fakta angiver hvem / hvad / hvor relationerne mellem to enheder. John Smith er CEO for firma Y og Aspirin reducerer feber er eksempler på fakta. Begivenheder:

  • Mens nogle eksperter anvender udtrykene faktum , forholdet , og begivenheden , skelner andre mellem begivenheder og fakta, at begivenheder normalt indeholder en tidsdimension og ofte forårsager fakta at ændre sig. Eksempler er en ændring i ledelsen inden for et firma eller status for en salgsproces. Begreber:

  • Dette er sæt ord og sætninger, der angiver en bestemt ide eller et emne, som brugeren er bekymret over. Eksempelvis kan begrebet ulykkelig kunde indeholde ordene vred, skuffet, og forvirret og frasen afbryd tjenesten, ringede ikke tilbage, og spild af penge - blandt mange andre. Således kan begrebet ulykkelig kunde uddrages uden at udtrykket ulykkelig eller kunde fremgår af teksten. Sentiment:

  • Sentimentanalyse bruges til at identificere synspunkter eller følelser i den underliggende tekst. Nogle teknikker gør dette ved at klassificere tekst som f.eks. Subjektiv (mening) eller objektiv (faktum) ved hjælp af maskinlæring eller NLP-teknikker. Sentimentanalyse er blevet meget populær i "kundens stemme" slags applikationer. Store datakatonomier

Taxonomier er ofte kritiske for tekstanalyser. A

taxonomi er en metode til at organisere information i hierarkiske relationer. Det kaldes undertiden som en måde at organisere kategorier på. Fordi en taxonomi definerer forholdet mellem de vilkår, et firma anvender, gør det lettere at finde og derefter analysere tekst. For eksempel tilbyder en teletjenesteudbyder både kablet og trådløs service. Inden for den trådløse service kan virksomheden understøtte mobiltelefoner og internetadgang. Virksomheden kan så have to eller flere måder at kategorisere mobiltelefonitjeneste på, såsom planer og telefontyper. Taksonomien kunne nå hele vejen ned til selve telefonens dele.

Taxonomier kan også bruge synonymer og alternative udtryk, idet man erkender at mobiltelefon, mobiltelefon og mobiltelefon er alle de samme. Disse taksonomier kan være ret komplekse og kan tage lang tid at udvikle.

Analyse- og ekstraktionsteknikker til Big Data - dummies

Valg af editor

Test din kode med Dreamweavers webstedrapporteringsfunktioner - dummies

Test din kode med Dreamweavers webstedrapporteringsfunktioner - dummies

Hvis du har brugt Dreamweaver til bygg din mobilwebsite, du kan tjekke dit arbejde ved hjælp af Dreamweaver Site Reporting funktionerne. Det lader dig oprette en række rapporter og endda tilpasse dem til at identificere problemer med eksterne links, overflødige og tomme tags, untitled dokumenter og manglende alternativ tekst. Du kan nemt gå glip af problemer - især ...

Sådan bruger du dit eget domæne til dit Squarespace-websted - dummier

Sådan bruger du dit eget domæne til dit Squarespace-websted - dummier

Når du underskriver op for din Squarespace-konto, får du en unik Squarespace-URL, der ser sådan ud: http: // dit kontonavn. Squarespace. com. Hvis du vil have fuldstændig kontrol over branding af dit websted eller blot ønsker en unik webadresse, kan du kortlægge eller pege på et brugerdefineret domæne på din Squarespace-konto. Du har tre muligheder for indstilling ...

Fordelene ved at bruge Markdown på din Squarespace Website - dummies

Fordelene ved at bruge Markdown på din Squarespace Website - dummies

Markdown er en plain- tekst skriftformat, der gør det muligt hurtigt at anvende tekst styling baseret på hvordan du formaterer din Squarespace 6 websteds tekst. Markdown er en af ​​Du bruger to typer blokke, du kan bruge til at tilføje tekst. Du tilføjer indhold til dine Squarespace-sidesider ved at bruge indholdsblokke i Site Manager → Indhold ...

Valg af editor

Wicca og Witchcraft For Dummies Cheat Sheet - dummies

Wicca og Witchcraft For Dummies Cheat Sheet - dummies

Wicca, en heksekunst, er centreret i rituelle Wiccans udfører til specifikke formål, såsom at kommunikere med eller ære guddom. Sabbats er wiccan sol helligdage fokuseret på jordens sti omkring solen, nogle gange omtalt som Årets hjul. Esbats er wiccan månens ferie, der fokuserer på månens cyklus. ...

Sammenhængende trosretninger: almindelige erfaringer i skrifterne - dummies

Sammenhængende trosretninger: almindelige erfaringer i skrifterne - dummies

Interessant de tre Abrahams trosretninger - jødedom, kristendom , og islam - deler meget til fælles, herunder en række af ædle profeter sendt af Gud. På grund af commonality ligger en dyb forbindelse til arv fra profeten Abraham og en tro på en Gud. Koranen finder fælles sted med kristne og jøder (kendt ...

Charmerende din vej til effektiv magi - dummies

Charmerende din vej til effektiv magi - dummies

En firkløver for held. Den jakkesæt, som du altid bærer til jobsamtaler for succes. Ringen du tager aldrig af, fordi den repræsenterer din kærlighed til en anden person. Den hængende du bærer rundt om halsen hver dag for beskyttelse. Den lille statue hængende fra bilens bagspejl til sikker rejse. ...

Valg af editor

Vælger skråninger, kanter og ansigter i blender - dummies

Vælger skråninger, kanter og ansigter i blender - dummies

I Blender's Edit-tilstand, kuben ændrer farve og prikker danner i hver af kubens hjørner. Hver prik er et vertex. Linjen der dannes mellem to hjørner er en kant. Et ansigt i Blender er en polygon, der er dannet af tre eller flere forbindelseskanter. Tidligere er ansigter i Blender ...