Hjem Personlig finansiering Ustrukturerede data i et stort datamiljø - dummier

Ustrukturerede data i et stort datamiljø - dummier

Indholdsfortegnelse:

Video: Masterclass livestream - Skab succes med data 2025

Video: Masterclass livestream - Skab succes med data 2025
Anonim

Ustrukturerede data er data, der ikke følger et bestemt format til store data. Hvis 20 procent af dataene til virksomhederne er strukturerede data, er de øvrige 80 procent ustrukturerede. Ustrukturerede data er virkelig de fleste af de data, du vil støde på. Indtil for nylig støttede teknologien ikke rigtig meget med det, undtagen at lagre det eller analysere det manuelt.

Kilder til ustrukturerede store data

Ustrukturerede data er overalt. Faktisk udfører de fleste individer og organisationer deres liv omkring ustrukturerede data. Ligesom med strukturerede data er ustrukturerede data enten maskingenererede eller menneskelige genererede.

Her er nogle eksempler på maskingenererede ustrukturerede data:

  • Satellitbilleder: Dette inkluderer vejrdata eller de data, som regeringen indfanger i sit satellitovervågningsbillede. Tænk bare på Google Earth, og du får billedet.

  • Videnskabelige data: Dette omfatter seismiske billeder, atmosfæriske data og høj energi fysik.

  • Fotografier og video: Dette omfatter sikkerheds-, overvågnings- og trafikvideo.

  • Radar- eller sonardata: Dette omfatter køretøjs-, meteorologiske og oceanografiske seismiske profiler.

Følgende liste viser et par eksempler på menneskelige genererede ustrukturerede data:

  • Tekst internt til din virksomhed: Tænk på al tekst inden for dokumenter, logfiler, undersøgelsesresultater og e-mails. Virksomhedsoplysninger repræsenterer faktisk en stor procentdel af tekstinformationen i verden i dag.

  • Social media data: Disse data genereres fra sociale medier platforme som YouTube, Facebook, Twitter, LinkedIn og Flickr.

  • Mobildata: Dette inkluderer data som tekstbeskeder og placeringsoplysninger.

  • indhold på webstedet: Dette kommer fra ethvert websted, der leverer ustruktureret indhold, som YouTube, Flickr eller Instagram.

Og listen fortsætter.

Nogle mener, at udtrykket ustrukturerede data er vildledende, fordi hvert dokument kan indeholde sin egen specifikke struktur eller formatering baseret på den software, der oprettede den. Men hvad er internt i dokumentet er virkelig ustruktureret.

Langt ustruktureret data er det største stykke af dataekvationen, og brugssagerne for ustrukturerede data ekspanderer hurtigt. På tekstsiden alene kan tekstanalyser bruges til at analysere ustruktureret tekst og udvinde relevante data og omdanne disse data til strukturerede oplysninger, der kan bruges på forskellige måder.

For eksempel er en populær stor datafunktion tilfældet social media analytics til brug i højkundede kundekonversationer. Desuden analyseres ustrukturerede data fra call center notater, e-mails, skriftlige kommentarer i en undersøgelse og andre dokumenter for at forstå kundeadfærd. Dette kan kombineres med sociale medier fra titusindvis af kilder for at forstå kundeoplevelsen.

En CMS rolle i stor datahåndtering

Organisationer gemmer nogle ustrukturerede data i databaser. Men de udnytter også enterprise content management systems (CMS'er), der kan styre indholdets komplette livscyklus. Dette kan omfatte webindhold, dokumentindhold og andre formater.

Ifølge Association for Information and Image Management (AIIM) omfatter en nonprofitorganisation, der tilbyder uddannelse, forskning og bedste praksis, Enterprise Content Management (ECM) "strategier, metoder og værktøjer, der bruges til at fange, styre, gemme, bevare og levere indhold og dokumenter relateret til organisatoriske processer. "De teknologier, der indgår i ECM, omfatter dokumenthåndtering, arkivstyring, billedbehandling, workflow management, webindholdshåndtering og samarbejde.

En hel industri er vokset op omkring at administrere indhold, og mange leverandører af indholdsforvaltning scalerer deres løsninger til at håndtere store mængder ustrukturerede data. Men nye teknologier udvikler sig også til at hjælpe med at understøtte ustrukturerede data og analysere ustrukturerede data. Nogle af disse understøtter både strukturerede og ustrukturerede data. Nogle understøtter realtidsstrømme. Disse omfatter teknologier som Hadoop, MapReduce og streaming.

Systemer, der er designet til at gemme indhold i form af indholdsstyringssystemer, er ikke længere stand-alone løsninger. Snarere vil de sandsynligvis være en del af en samlet datahåndteringsløsning. For eksempel kan din organisation overvåge kvidre-feeds, der så programmatisk kan udløse en CMS-søgning.

Nu har den person, der udløste tweetet, fået et svar tilbage, der giver et sted, hvor den enkelte kan finde det produkt, som han eller hun måske søger. Den største fordel er, når denne type interaktion kan ske i realtid. Det illustrerer også værdien af ​​at udnytte real-time ustruktureret, struktureret (kundedata om den person, der tweeted) og semistrukturerede (det faktiske indhold i CMS) dataene.

Virkeligheden er, at du sandsynligvis vil bruge en hybrid tilgang til at løse dine store dataproblemer. For eksempel er det ikke fornuftigt at flytte alt dit nyhedsindhold til f.eks. Hadoop på dine lokaler, fordi det skal hjælpe med at håndtere ustrukturerede data.

Ustrukturerede data i et stort datamiljø - dummier

Valg af editor

A + eksamener og netværkskortet (NIC) - dummies

A + eksamener og netværkskortet (NIC) - dummies

Er bekendt med netværksgrænsefladen kort (NIC) til A + eksamenerne og forstå fordelene herfor. Netværksinterfacekortet (almindeligvis benævnt et netværkskort) er ansvarlig for at forbinde computeren eller enheden til netværket. Endnu vigtigere er netværkskortet på afsendelsescomputeren ansvarlig for at konvertere digitale data til en ...

Enhedsrelaterede fejl du behøver at vide - dummies

Enhedsrelaterede fejl du behøver at vide - dummies

Når du forfølger din compTIA A + -certificering, skal du vide om enhedsrelaterede fejl og hvad man skal gøre, når du støder på dem. Det er uheldigt, at enhederne og deres drivere, der tillader folk at udføre så meget af deres daglige arbejde med computere, er også en af ​​de største faktorer ved ikke at kunne ...

A + Certificering Alt-i-One til Dummies Cheat Sheet - dummies

A + Certificering Alt-i-One til Dummies Cheat Sheet - dummies

A + Certification All -in-One For Dummies online snydeark giver dig hurtige fakta at huske på testdagen for at hjælpe dig med at besvare spørgsmål, der findes på A + Certification Exams. Før A + eksamenerne vil du gennemgå nogle af de store Windows-begreber som boot-filer, gendannelsesværktøjer, RAID-typer og fejlfinding af værktøjer. Du ...

Valg af editor

Hvordan man definerer ordforråddefinitioner for SAT-dummierne

Hvordan man definerer ordforråddefinitioner for SAT-dummierne

Du kan komme igennem ordforrådssektionen af SAT med flyvende farver, hvis du kan forberede dig til testen ved at gruppere ord i logiske klynger. Under testen kan du finde ud af orddefinitioner fra orddele og bruge kontekst til at give dig spor til et ords betydning. Overvejer konnotationsklynger Medmindre du har ...

Valg af editor

Outlook 2013 Task Home Tab - dummies

Outlook 2013 Task Home Tab - dummies

Du kan planlægge og spore personlige projekter og professionelle projekter i Outlook 2013. Knapper og ikoner på fanen Opgaver Startside i Outlook 2013-båndet er de værktøjer, der hjælper med at håndtere din arbejdsbyrde. Outlook 2013 tilbyder forskellige visninger - Afsluttet, i dag og næste 7 dage - for at hjælpe dig med at prioritere.

Outlook 2007 Business Contact Manager til Dummies Cheat Sheet - dummies

Outlook 2007 Business Contact Manager til Dummies Cheat Sheet - dummies

Outlook 2007 Business Contact Manager (BCM ) er lige hvad du har brug for, hvis du er en sælger eller en forretningschef. Sammen med de normale, hjælpsomme Outlook-funktioner tilbyder BCM værktøjer, der hjælper dig med at holde dig i top af dit forretningsliv.

Vedligeholdelse af en glad og sund kontaktperson mappe i Outlook - dummies

Vedligeholdelse af en glad og sund kontaktperson mappe i Outlook - dummies

I patologi, som er undersøgelsen af sygdomme og hvordan de overføres, er en kontaktperson en person, der overleverer en smitsom sygdom, men i Outlook er en kontaktperson, som du holder information om. Oplysninger om kontaktpersoner gemmes i mappen Kontakter. Denne mappe er en superdrevet adressebog. Det har steder ...