Hjem Personlig finansiering Sådan søger du dine prædiktive Analytics-data - dummier

Sådan søger du dine prædiktive Analytics-data - dummier

Indholdsfortegnelse:

Video: Kenneth Cukier: Big data is better data 2024

Video: Kenneth Cukier: Big data is better data 2024
Anonim

At udnytte Dine prædiktive analysedata skal du vide, hvordan du finder de oplysninger, du vil finde. Der er to hovedbegreber for at søge dine data som forberedelse til at bruge det i prædiktiv analyse:

  • Gør dig klar til at gå ud over den grundlæggende søgeordsøgning

  • Gør dine data semantisk søgbare

Sådan bruger du søgeordbaseret søgning i prædiktiv analytics

Forestil dig, om du havde til opgave at søge store mængder data. En måde at nærme sig problemet på er at udstede en søgeforespørgsel, der består (tydeligvis) af ord. Søgeværktøjet søger efter matchende ord i databasen, datalageret, eller går rummaging gennem enhver tekst, hvor dine data er bosat.

Antag, at du udsteder følgende søgeforespørgsel: USAs præsident besøger Afrika . Søge resultaterne vil bestå af tekst, der indeholder nøjagtigt en eller en kombination af ordene præsident, USA, besøg, Afrika . Du kan få de nøjagtige oplysninger, du leder efter, men ikke altid.

Hvad med de dokumenter, der ikke indeholder noget af de tidligere nævnte ord, men en kombination af følgende: Obamas tur til Kenya .

Intet af de ord, du oprindeligt søgte efter, er der - men søgeresultaterne er semantisk (meningsfuldt) nyttigt. Hvordan kan du forberede dine data til at være semantisk retrievable? Hvordan kan du gå ud over den traditionelle søgeordssøgning? Dine svar kan findes, hvis du fortsætter med at læse.

Hvordan man bruger semantisk baserede søgninger i prædiktiv analyse

En illustration af, hvordan semantisk baseret søgning virker, er et projekt, som Anasse Bari førte til i Verdensbankgruppen, en international organisation, hvis primære mission er at bekæmpe fattigdom rundt om i verden.

Projektet har til formål at undersøge eksisterende storskala virksomhedssøgning og -analyse på markedet og opbygge en prototype til en banebrydende ramme, der vil organisere data fra Verdensbanken - hvoraf de fleste var en ustruktureret samling af dokumenter, publikationer, projektrapporter, trusser og casestudier.

Denne massive værdifulde viden er en ressource, der anvendes til bankens hovedopgave at reducere verdensfattigdom. Men det faktum, at det er ustruktureret gør det vanskeligt at få adgang til, fange, dele, forstå, søge, data-mine og visualisere.

Verdensbanken er en enorm organisation, med mange afdelinger over hele kloden. En af hovedafdelingerne bestræbte sig på at have en ramme og var klar til at allokere ressourcer til at hjælpe Bari-holdet til Human Development Network inden for Verdensbanken.

Vicedirektøren for Human Development Network skitserede et problem, der stammer fra tvetydighed: Hans division brugte flere udtryk og begreber, der havde den samme overordnede betydning, men forskellige nuancer.

F.eks. Var begreber som klimatologi, klimaændringer, gas ozon depletion, og drivhusemissioner alle semantisk beslægtede men ikke identiske i betydningen. Han ønskede en søgemaskine, der var smart nok til at udtrække dokumenter, der indeholdt relaterede begreber, når nogen søgte på nogen af ​​disse vilkår.

Prototypens rammer for den kapacitet, som Bari-holdet valgte, var Ustructured Information Management Architecture (UIMA), en softwarebaseret løsning. UIMA blev oprindeligt designet af IBM Research, og er tilgængelig i IBM-software som IBM Content Analytics, et af de værktøjer, der drev IBM Watson, den berømte computer, der vandt Jeopardy-spillet.

Bari-teamet kom sammen med et meget talentfuldt team fra IBM Content Management og Enterprise Search, og senere med et IBM Watson-team til at samarbejde om dette projekt.

En Unstructured Information Management (UIM) løsning er et software system, der analyserer store mængder ustruktureret information (tekst, lyd, video, billeder osv.) For at opdage, organisere og levere relevant viden til klienten eller applikations slutbrugeren.

Et domænes ontologi er en række begreber og beslægtede udtryk, der er specifikke for et domæne. En UIMA-baseret løsning bruger ontologier til at give semantisk tagging, hvilket muliggør beriget søgning uafhængigt af dataformat (tekst, tale, PowerPoint-præsentation, e-mail, video osv.). UIMA tilføjer et andet lag til de indfangede data og tilføjer derefter metadata for at identificere data, som kan struktureres og ses semantisk.

Semantisk søgning er baseret på den kontekstuelle betydning af søgeord, som de fremgår af det søgbare dataplads, som UIMA bygger. Semantisk søgning er mere præcis end den sædvanlige søgeordsbaserede søgning, fordi en brugers forespørgsel returnerer søgeresultater af ikke kun dokumenter, der indeholder søgeordene, men også af dokumenter, der er semantisk relevante for forespørgslen.

Hvis du søger efter biodiversitet i Afrika , returnerer en typisk søgeordsbaseret søgning dokumenter, der har de nøjagtige ord biodiversitet og Afrika . En UIMA-baseret semantisk søgning returnerer ikke kun de dokumenter, der har disse to ord, men også noget, der er semantisk relevant for "biodiversitet i Afrika" dokumenter, der indeholder sådanne kombinationer af ord som "plante ressourcer i Afrika", "dyre ressourcer i Marokko "eller" genetiske ressourcer i Zimbabwe. "

Gennem semantisk mærkning og brug af ontologier bliver information semantisk retrievable, uafhængig af det sprog eller medium, hvor informationerne blev oprettet (Word, PowerPoint, e-mail, video osv.). Denne løsning giver et enkelt hub, hvor data kan indfanges, organiseres, udveksles og gøres semantisk retrievable.

Ordbøger af synonymer og relaterede udtryk er open source (frit tilgængeligt) - eller du kan udvikle dine egne ordbøger specifikke for dit domæne eller dine data. Du kan opbygge et regneark med rodordet og dets tilhørende relaterede ord, synonymer og bredere udtryk. Regnearket kan uploades til et søgeværktøj som f.eks. IBM Content Analytics (ICA) for at drive virksomhedens søgning og indholdsanalyse.

Sådan søger du dine prædiktive Analytics-data - dummier

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...