Indholdsfortegnelse:
- Entity-ekstraktion og berigelse
- Søgning og advarsel
- Samlede funktioner
- Kortlægning og business intelligence
Video: Azure Friday | What’s New in Azure Cosmos DB’s API for MongoDB 2025
Det er fantastisk at gemme og hente store mængder data og gøre det så hurtigt, og når du har dine nyligt administrerede data i NoSQL, kan du gøre gode ting.
Entity-ekstraktion og berigelse
Du kan bruge databasetrykere, advarselshandlinger og eksterne systemer til at analysere kildedata. Måske er det for det meste gratis tekst, men nævner kendte emner. Disse udløsere og advarsler kan markere teksten som en person eller organisation, der effektivt tagger selve indholdet og det dokument, det ligger indenfor.
Et godt eksempel er indholdet i en nyhedsartikel. Du kan bruge et værktøj som Apache Stanbol eller OpenCalais til at identificere nøgleord. Disse værktøjer kan se "præsident Putin" og beslutte, at dette vedrører en person kaldet Vladimir Putin, der er russisk, og er den nuværende præsident for Den Russiske Føderation.
Andre eksempler omfatter navne på sygdomme og medicin, organisationer, samtalespørgsmål, produkter nævnt, og om en kommentar var positiv eller negativ.
Dette er alle eksempler på enhedsudvinding (som er processen med automatisk udtrækning af typer objekter fra deres tekstnavne) . Ved at identificere nøgleord kan du tagge dem eller pakke dem i et XML-element, som hjælper dig med at søge indhold mere effektivt.
Entity berigelse betyder at tilføje oplysninger baseret på den oprindelige tekst ud over at identificere den. I Putin-eksemplet kan du slå det almindelige tekstord Putin til præsident Putin. Alternativt kan du vende "London" til London.
Du kan vise disse data i en brugergrænseflade som markeret tekst med et link til yderligere information om hvert emne.
Du kan levere berigelse ved hjælp af gratis tekstsøgning, advarsel, databaseudløsere og integrationer til ekstern software som TEMIS Luxid og SmartLogic.
Søgning og advarsel
Når du har gemt dine oplysninger, kan du søge efter det. Fri tekst søgning er ligetil, men efter udførelse af enhedsudvinding har du flere muligheder. Du kan søge specifikt til en person ved navn "Orange" (som i William of Orange) i stedet for at søge poster, der omtaler ordet orange - hvilket selvfølgelig også er en farve og en frugt.
Gør det, resulterer i en mere granuleret søgning. Det giver også facetteret navigation. Hvis du går til Amazon og søger efter Harry Potter, vil du se kategorier for bøger, film, spil osv. produktkategori er et eksempel på en facet , som viser dig et aspekt af data i søgeresultaterne - det vil sige de mest almindelige værdier for hver facet på tværs af alle søgeresultater, selv de ikke på den aktuelle side.
Brugergrænseflader kan understøtte rige explorations i data (såvel som grundlæggende Google-esque søgninger). Brugere kan også bruge dem til at gemme og indlæse tidligere søgninger.
Du kan oprette gemte søgekriterier, så advarsler aktiveres, når nyligt tilføjede poster matcher disse kriterier. Så hvis der kommer en ny post, der matcher dine søgekriterier, sker der en handling. Måske "Putin" bliver Putin
Ikke alle søgemaskiner er i stand til at gøre hver forespørgselsperiode en advarsel. Nogle er begrænset til tekstfelter; andre kan ikke gøre geospatiale kriterier. Vær sikker på at din kan håndtere de advarsler, du skal konfigurere.
Samlede funktioner
Når du har fundet relevant information, vil du måske gerne dybere dybere. Afhængigt af kilden kan du spørge, hvor mange lande der har et BNP på over 400 milliarder dollars, eller hvad er gennemsnitsalderen for alle medlemmerne i dit stamtræ, eller hvor finder de mest slangebitt sted i Australien. Disse eksempler illustrerer, hvordan analyser udføres over et sæt søgeresultater. Disse er henholdsvis tæller, middelværdi og geospatiale varmekortberegninger.
At kunne foretage sådanne beregninger ved siden af dataene giver flere fordele. Den første fordel er, at du kan bruge indekserne til at fremskynde tingene. For det andet vil disse indekser sandsynligvis blive cachelagret i hukommelsen, hvilket gør dem endnu hurtigere. For det tredje er hukommelsesindekser særligt nyttige for en NoSQL-database, der bruger Hadoop File System (HDFS) -lagring. HDFS foretager ikke native indeksering eller in-memory-kolonneforretninger til hurtige aggregeringsberegninger selv - det kræver en NoSQL-database på toppen for at gøre dette.
Facetted navigation er et eksempel på count-baserede aggregeringer over søgeresultater, der vises i en brugergrænseflade. Det samme gælder for en tidslinje, der viser antallet af poster, der nævner et bestemt tidspunkt. For eksempel vil du vise resultater fra dette år, denne måned eller denne time?
Hvis du vil have denne funktionalitet, skal du sørge for, at din database har mulighed for at beregne aggregater effektivt ud for dataene. De fleste NoSQL databaser gør, men nogle gør det ikke.
Kortlægning og business intelligence
Den næste indlysende brugergrænsefladeudvidelse indebærer at kortlægge og se tabeloversigter for live management information og historisk business intelligence analyse.
De fleste NoSQL-databaser giver en let-integreret REST-API i deres databaser. Det betyder, at du kan tilslutte en række applikationsniveauer, eller endda tilslutte JavaScript-programmer direkte til disse databaser. En række fremragende kortlægningsbiblioteker er tilgængelige for JavaScript. Du kan endda bruge R Ecosystem til at oprette diagrammer baseret på data i disse databaser, efter at have installeret en passende database-stik.
Nogle NoSQL databaser leverer endda en ODBC eller JDBC relationsdatabase plug-in. Oprettelse af indekser inden for en given post og viser dem som en relationel visning er en pæn måde at vende ustruktureret data i en NoSQL-dokumentdatabase til data, der kan analyseres med et business intelligence-værktøj.
Kontroller, om din NoSQL-databaseleverandør tilbyder visualiseringsværktøjer eller har forretningspartnere med værktøjer, end der kan oprettes forbindelse til disse databaser. I vogue-værktøjer er Tableau Server, som er en moderne delt business-intellence-server, der understøtter udgivelse af interaktive rapporter over data i en lang række databaser, herunder NoSQL-databaser.