Sådan søger du dine prædiktive Analytics-data - dummier

At udnytte Dine prædiktive analysedata skal du vide, hvordan du finder de oplysninger, du vil finde. Der er to hovedbegreber for at søge dine data som forberedelse til at bruge det i prædiktiv analyse:

Gør dig klar til at gå ud over den grundlæggende søgeordsøgning
Gør dine data semantisk søgbare

Sådan bruger du søgeordbaseret søgning i prædiktiv analytics

Forestil dig, om du havde til opgave at søge store mængder data. En måde at nærme sig problemet på er at udstede en søgeforespørgsel, der består (tydeligvis) af ord. Søgeværktøjet søger efter matchende ord i databasen, datalageret, eller går rummaging gennem enhver tekst, hvor dine data er bosat.

Antag, at du udsteder følgende søgeforespørgsel: USAs præsident besøger Afrika . Søge resultaterne vil bestå af tekst, der indeholder nøjagtigt en eller en kombination af ordene præsident, USA, besøg, Afrika . Du kan få de nøjagtige oplysninger, du leder efter, men ikke altid.

Hvad med de dokumenter, der ikke indeholder noget af de tidligere nævnte ord, men en kombination af følgende: Obamas tur til Kenya .

Intet af de ord, du oprindeligt søgte efter, er der - men søgeresultaterne er semantisk (meningsfuldt) nyttigt. Hvordan kan du forberede dine data til at være semantisk retrievable? Hvordan kan du gå ud over den traditionelle søgeordssøgning? Dine svar kan findes, hvis du fortsætter med at læse.

Hvordan man bruger semantisk baserede søgninger i prædiktiv analyse

En illustration af, hvordan semantisk baseret søgning virker, er et projekt, som Anasse Bari førte til i Verdensbankgruppen, en international organisation, hvis primære mission er at bekæmpe fattigdom rundt om i verden.

Projektet har til formål at undersøge eksisterende storskala virksomhedssøgning og -analyse på markedet og opbygge en prototype til en banebrydende ramme, der vil organisere data fra Verdensbanken - hvoraf de fleste var en ustruktureret samling af dokumenter, publikationer, projektrapporter, trusser og casestudier.

Denne massive værdifulde viden er en ressource, der anvendes til bankens hovedopgave at reducere verdensfattigdom. Men det faktum, at det er ustruktureret gør det vanskeligt at få adgang til, fange, dele, forstå, søge, data-mine og visualisere.

Verdensbanken er en enorm organisation, med mange afdelinger over hele kloden. En af hovedafdelingerne bestræbte sig på at have en ramme og var klar til at allokere ressourcer til at hjælpe Bari-holdet til Human Development Network inden for Verdensbanken.

Vicedirektøren for Human Development Network skitserede et problem, der stammer fra tvetydighed: Hans division brugte flere udtryk og begreber, der havde den samme overordnede betydning, men forskellige nuancer.

F.eks. Var begreber som klimatologi, klimaændringer, gas ozon depletion, og drivhusemissioner alle semantisk beslægtede men ikke identiske i betydningen. Han ønskede en søgemaskine, der var smart nok til at udtrække dokumenter, der indeholdt relaterede begreber, når nogen søgte på nogen af disse vilkår.

Prototypens rammer for den kapacitet, som Bari-holdet valgte, var Ustructured Information Management Architecture (UIMA), en softwarebaseret løsning. UIMA blev oprindeligt designet af IBM Research, og er tilgængelig i IBM-software som IBM Content Analytics, et af de værktøjer, der drev IBM Watson, den berømte computer, der vandt Jeopardy-spillet.

Bari-teamet kom sammen med et meget talentfuldt team fra IBM Content Management og Enterprise Search, og senere med et IBM Watson-team til at samarbejde om dette projekt.

En Unstructured Information Management (UIM) løsning er et software system, der analyserer store mængder ustruktureret information (tekst, lyd, video, billeder osv.) For at opdage, organisere og levere relevant viden til klienten eller applikations slutbrugeren.

Et domænes ontologi er en række begreber og beslægtede udtryk, der er specifikke for et domæne. En UIMA-baseret løsning bruger ontologier til at give semantisk tagging, hvilket muliggør beriget søgning uafhængigt af dataformat (tekst, tale, PowerPoint-præsentation, e-mail, video osv.). UIMA tilføjer et andet lag til de indfangede data og tilføjer derefter metadata for at identificere data, som kan struktureres og ses semantisk.

Semantisk søgning er baseret på den kontekstuelle betydning af søgeord, som de fremgår af det søgbare dataplads, som UIMA bygger. Semantisk søgning er mere præcis end den sædvanlige søgeordsbaserede søgning, fordi en brugers forespørgsel returnerer søgeresultater af ikke kun dokumenter, der indeholder søgeordene, men også af dokumenter, der er semantisk relevante for forespørgslen.

Hvis du søger efter biodiversitet i Afrika , returnerer en typisk søgeordsbaseret søgning dokumenter, der har de nøjagtige ord biodiversitet og Afrika . En UIMA-baseret semantisk søgning returnerer ikke kun de dokumenter, der har disse to ord, men også noget, der er semantisk relevant for "biodiversitet i Afrika" dokumenter, der indeholder sådanne kombinationer af ord som "plante ressourcer i Afrika", "dyre ressourcer i Marokko "eller" genetiske ressourcer i Zimbabwe. "

Gennem semantisk mærkning og brug af ontologier bliver information semantisk retrievable, uafhængig af det sprog eller medium, hvor informationerne blev oprettet (Word, PowerPoint, e-mail, video osv.). Denne løsning giver et enkelt hub, hvor data kan indfanges, organiseres, udveksles og gøres semantisk retrievable.

Ordbøger af synonymer og relaterede udtryk er open source (frit tilgængeligt) - eller du kan udvikle dine egne ordbøger specifikke for dit domæne eller dine data. Du kan opbygge et regneark med rodordet og dets tilhørende relaterede ord, synonymer og bredere udtryk. Regnearket kan uploades til et søgeværktøj som f.eks. IBM Content Analytics (ICA) for at drive virksomhedens søgning og indholdsanalyse.