Hjem Personlig finansiering Analyse- og ekstraktionsteknikker til Big Data - dummies

Analyse- og ekstraktionsteknikker til Big Data - dummies

Indholdsfortegnelse:

Video: Strategisk Analyse og Systemdesign, DTU 2024

Video: Strategisk Analyse og Systemdesign, DTU 2024
Anonim

Generelt bruger tekstanalyseløsninger til store data en kombination af statistiske og Natural Language Processing (NLP) teknikker til at udtrække information fra ustrukturerede data. NLP er et bredt og komplekst felt, der har udviklet sig de sidste 20 år.

Et primært mål med NLP er at udlede mening fra tekst. Natural Language Processing gør generelt brug af sproglige begreber som grammatiske strukturer og dele af tale. Ideen bag denne type analyser er ofte at bestemme hvem gjorde hvad til hvem, hvornår, hvor, hvordan og hvorfor.

NLP udfører analyse på tekst på forskellige niveauer:

  • Lexisk / morfologisk analyse undersøger egenskaberne ved et enkelt ord - herunder præfikser, suffikser, rødder og taledele (substantiv, verb, adjektiv osv.) - oplysninger, der vil bidrage til at forstå, hvad ordet betyder i sammenhæng med den leverede tekst. Lexisk analyse afhænger af en ordbog, tesaurus eller en liste over ord, der indeholder oplysninger om disse ord.

  • Syntaktisk analyse bruger grammatisk struktur til at dissekere teksten og sætte enkelte ord i kontekst. Her udvider du dit blik fra et enkelt ord til sætningen eller den fulde sætning. Dette trin kan diagramere forholdet mellem ord (grammatikken) eller se efter sekvenser af ord, der danner korrekte sætninger eller for sekvenser af tal, der repræsenterer datoer eller monetære værdier.

  • Semantisk analyse bestemmer de mulige betydninger af en sætning. Dette kan omfatte undersøgelse af ordrækkefølge og sætningsstruktur og disambiguerende ord ved at forbinde syntaksen, der findes i sætninger, sætninger og afsnit.

  • Diskursniveauanalyse forsøger at bestemme betydningen af ​​tekst ud over sætningsniveauet.

Forstå de uddragne oplysninger fra store data

Visse teknikker kombineret med andre statistiske eller sproglige teknikker til automatisering af mærkning og markering af tekstdokumenter kan udvinde følgende slags oplysninger:

  • Vilkår: En anden navn til nøgleord.

  • Entiteter: Ofte kaldet navngivne enheder , disse er specifikke eksempler på abstraktioner. Eksempler er navne på personer, navne på virksomheder, geografiske steder, kontaktoplysninger, datoer, tider, valutaer, titler og positioner og så videre. For eksempel kan tekstanalytisk software uddrage virksomheden Jane Doe som en person, der henvises til i teksten, der analyseres. Enheden 3. marts 2007 kan udvindes som en dato og så videre.

  • Fakta: Også kaldet relationer , fakta angiver hvem / hvad / hvor relationerne mellem to enheder. John Smith er CEO for firma Y og Aspirin reducerer feber er eksempler på fakta. Begivenheder:

  • Mens nogle eksperter anvender udtrykene faktum , forholdet , og begivenheden , skelner andre mellem begivenheder og fakta, at begivenheder normalt indeholder en tidsdimension og ofte forårsager fakta at ændre sig. Eksempler er en ændring i ledelsen inden for et firma eller status for en salgsproces. Begreber:

  • Dette er sæt ord og sætninger, der angiver en bestemt ide eller et emne, som brugeren er bekymret over. Eksempelvis kan begrebet ulykkelig kunde indeholde ordene vred, skuffet, og forvirret og frasen afbryd tjenesten, ringede ikke tilbage, og spild af penge - blandt mange andre. Således kan begrebet ulykkelig kunde uddrages uden at udtrykket ulykkelig eller kunde fremgår af teksten. Sentiment:

  • Sentimentanalyse bruges til at identificere synspunkter eller følelser i den underliggende tekst. Nogle teknikker gør dette ved at klassificere tekst som f.eks. Subjektiv (mening) eller objektiv (faktum) ved hjælp af maskinlæring eller NLP-teknikker. Sentimentanalyse er blevet meget populær i "kundens stemme" slags applikationer. Store datakatonomier

Taxonomier er ofte kritiske for tekstanalyser. A

taxonomi er en metode til at organisere information i hierarkiske relationer. Det kaldes undertiden som en måde at organisere kategorier på. Fordi en taxonomi definerer forholdet mellem de vilkår, et firma anvender, gør det lettere at finde og derefter analysere tekst. For eksempel tilbyder en teletjenesteudbyder både kablet og trådløs service. Inden for den trådløse service kan virksomheden understøtte mobiltelefoner og internetadgang. Virksomheden kan så have to eller flere måder at kategorisere mobiltelefonitjeneste på, såsom planer og telefontyper. Taksonomien kunne nå hele vejen ned til selve telefonens dele.

Taxonomier kan også bruge synonymer og alternative udtryk, idet man erkender at mobiltelefon, mobiltelefon og mobiltelefon er alle de samme. Disse taksonomier kan være ret komplekse og kan tage lang tid at udvikle.

Analyse- og ekstraktionsteknikker til Big Data - dummies

Valg af editor

Opret en Photomerge Scene Cleaner Composite i Photoshop Elements 11 - dummies

Opret en Photomerge Scene Cleaner Composite i Photoshop Elements 11 - dummies

Photoshop Elements 11's Photomerge Scene Cleaner Det lyder som et skjult job hos CIA, hvor du bruger dine dage til at bevise på forbrydelsesscener, men det er ikke helt så spændende. Dette Photomerge-kommandoværktøj sætter dig i stand til at skabe det optimale billede ved at tillade dig at fjerne irriterende distraktioner, såsom biler, forbipasserende og så ...

Opret et online fotoalbum i Photoshop Elements 10 - dummies

Opret et online fotoalbum i Photoshop Elements 10 - dummies

, Når du klikker på Del i enten Organizer eller Fuld fotoredigeringstilstand for Photoshop Elements 10, og åbn panelet Del, finder du Online Album øverst på listen. Betegnelsen Online er en smule vildledende her, fordi du kan bruge denne delingsfunktion til både online og lokale filskabelser. Eksporter ...

Opret et smart album i Photoshop Elements 10 - dummies

Opret et smart album i Photoshop Elements 10 - dummies

Du kan udføre en søgning baseret på et antal forskellige kriterier. Funktionen Smart Album gør det muligt at gemme søgeresultaterne i et album. Når du har alle de filer, der vises i organisatoren, baseret på de søgninger, du udfører, kan du oprette et smart album som følger:

Valg af editor

Enterprise Mobile Devices and Exchange ActiveSync - dummies

Enterprise Mobile Devices and Exchange ActiveSync - dummies

Microsoft udviklede Exchange ActiveSync (EAS) som en synkroniseringsprotokol til Microsoft Exchange , men det er blevet tilpasset til at omfatte mere mobil enhedens sikkerhed og ledelsesfunktionalitet. EAS er en proprietær protokol, der er udviklet af Microsoft, og som er blevet licenseret og godkendt af leverandørerne af enhedsoperativsystemer, og er blevet en de facto-standard over ...

Enterprise Mobile Device Protection med applikationspolitikker - dummies

Enterprise Mobile Device Protection med applikationspolitikker - dummies

Applikationspolitikker beskriver, hvilke applikationer brugere har lov til at bruge, mens de får adgang virksomhedens netværk med en mobil enhed. Ansøgningspolitikker er særligt afgørende, fordi de mange applikationer, som brugere kan downloade, vokser eksponentielt. Dette øger risikoen for, at dine brugere sandsynligvis uskyldigt downloader en ondsindet program, der forårsager kaos ...

Enterprise Mobile Device Security: Carrier-Provided Voice Encryption - dummies

Enterprise Mobile Device Security: Carrier-Provided Voice Encryption - dummies

Med den udbredte adoption af mobil enheder kommer en tendens til at bruge dem til at drive missionskritisk forretning og åbne talekommunikation som en sikkerhedsvektor. Det gør de mobile enheder til et meget saftigt mål for alle vandaler derude. Og selvom der ikke har været udbredt udnyttelse af talekommunikation hidtil, kan dagen ikke ...

Valg af editor

Hvordan man skyder natportrætter på din Canon EOS 6D - dummies

Hvordan man skyder natportrætter på din Canon EOS 6D - dummies

, Når du vil oprette portrætter af emner om natten på din EOS 6D med denne tilstand, forbliver lukkeren åben lang nok til at fange detaljer i baggrunden også. Det betyder, at du skal montere dit kamera på et stativ for at kompensere for langsom lukkertid. Du skal også bruge en Canon ...

Sådan optager du billeder med HDR Backlight Control SCN-tilstand på din Canon EOS 6D - dummies

Sådan optager du billeder med HDR Backlight Control SCN-tilstand på din Canon EOS 6D - dummies

Nogle gange vil du fotografere en scene med en bred varians i toneområdet. Din EOS 6D tilbyder en løsning med HDR Backlight Control SCN-tilstand. Ellers er din Canon nødt til at gå på kompromis, og du ender med et billede, der har detaljer i mellemklassen, men mangler detaljer i skyggeområdet. Når du ...