Indholdsfortegnelse:
Video: Masterclass livestream - Skab succes med data 2025
Ustrukturerede data er data, der ikke følger et bestemt format til store data. Hvis 20 procent af dataene til virksomhederne er strukturerede data, er de øvrige 80 procent ustrukturerede. Ustrukturerede data er virkelig de fleste af de data, du vil støde på. Indtil for nylig støttede teknologien ikke rigtig meget med det, undtagen at lagre det eller analysere det manuelt.
Kilder til ustrukturerede store data
Ustrukturerede data er overalt. Faktisk udfører de fleste individer og organisationer deres liv omkring ustrukturerede data. Ligesom med strukturerede data er ustrukturerede data enten maskingenererede eller menneskelige genererede.
Her er nogle eksempler på maskingenererede ustrukturerede data:
-
Satellitbilleder: Dette inkluderer vejrdata eller de data, som regeringen indfanger i sit satellitovervågningsbillede. Tænk bare på Google Earth, og du får billedet.
-
Videnskabelige data: Dette omfatter seismiske billeder, atmosfæriske data og høj energi fysik.
-
Fotografier og video: Dette omfatter sikkerheds-, overvågnings- og trafikvideo.
-
Radar- eller sonardata: Dette omfatter køretøjs-, meteorologiske og oceanografiske seismiske profiler.
Følgende liste viser et par eksempler på menneskelige genererede ustrukturerede data:
-
Tekst internt til din virksomhed: Tænk på al tekst inden for dokumenter, logfiler, undersøgelsesresultater og e-mails. Virksomhedsoplysninger repræsenterer faktisk en stor procentdel af tekstinformationen i verden i dag.
-
Social media data: Disse data genereres fra sociale medier platforme som YouTube, Facebook, Twitter, LinkedIn og Flickr.
-
Mobildata: Dette inkluderer data som tekstbeskeder og placeringsoplysninger.
-
indhold på webstedet: Dette kommer fra ethvert websted, der leverer ustruktureret indhold, som YouTube, Flickr eller Instagram.
Og listen fortsætter.
Nogle mener, at udtrykket ustrukturerede data er vildledende, fordi hvert dokument kan indeholde sin egen specifikke struktur eller formatering baseret på den software, der oprettede den. Men hvad er internt i dokumentet er virkelig ustruktureret.
Langt ustruktureret data er det største stykke af dataekvationen, og brugssagerne for ustrukturerede data ekspanderer hurtigt. På tekstsiden alene kan tekstanalyser bruges til at analysere ustruktureret tekst og udvinde relevante data og omdanne disse data til strukturerede oplysninger, der kan bruges på forskellige måder.
For eksempel er en populær stor datafunktion tilfældet social media analytics til brug i højkundede kundekonversationer. Desuden analyseres ustrukturerede data fra call center notater, e-mails, skriftlige kommentarer i en undersøgelse og andre dokumenter for at forstå kundeadfærd. Dette kan kombineres med sociale medier fra titusindvis af kilder for at forstå kundeoplevelsen.
En CMS rolle i stor datahåndtering
Organisationer gemmer nogle ustrukturerede data i databaser. Men de udnytter også enterprise content management systems (CMS'er), der kan styre indholdets komplette livscyklus. Dette kan omfatte webindhold, dokumentindhold og andre formater.
Ifølge Association for Information and Image Management (AIIM) omfatter en nonprofitorganisation, der tilbyder uddannelse, forskning og bedste praksis, Enterprise Content Management (ECM) "strategier, metoder og værktøjer, der bruges til at fange, styre, gemme, bevare og levere indhold og dokumenter relateret til organisatoriske processer. "De teknologier, der indgår i ECM, omfatter dokumenthåndtering, arkivstyring, billedbehandling, workflow management, webindholdshåndtering og samarbejde.
En hel industri er vokset op omkring at administrere indhold, og mange leverandører af indholdsforvaltning scalerer deres løsninger til at håndtere store mængder ustrukturerede data. Men nye teknologier udvikler sig også til at hjælpe med at understøtte ustrukturerede data og analysere ustrukturerede data. Nogle af disse understøtter både strukturerede og ustrukturerede data. Nogle understøtter realtidsstrømme. Disse omfatter teknologier som Hadoop, MapReduce og streaming.
Systemer, der er designet til at gemme indhold i form af indholdsstyringssystemer, er ikke længere stand-alone løsninger. Snarere vil de sandsynligvis være en del af en samlet datahåndteringsløsning. For eksempel kan din organisation overvåge kvidre-feeds, der så programmatisk kan udløse en CMS-søgning.
Nu har den person, der udløste tweetet, fået et svar tilbage, der giver et sted, hvor den enkelte kan finde det produkt, som han eller hun måske søger. Den største fordel er, når denne type interaktion kan ske i realtid. Det illustrerer også værdien af at udnytte real-time ustruktureret, struktureret (kundedata om den person, der tweeted) og semistrukturerede (det faktiske indhold i CMS) dataene.
Virkeligheden er, at du sandsynligvis vil bruge en hybrid tilgang til at løse dine store dataproblemer. For eksempel er det ikke fornuftigt at flytte alt dit nyhedsindhold til f.eks. Hadoop på dine lokaler, fordi det skal hjælpe med at håndtere ustrukturerede data.