Video: Big Data Opportunity: Structured vs. Unstructured Data 2025
Data indeholdt i databaser, dokumenter, e-mails og andre datafiler til prædiktiv analyse kan kategoriseres enten som strukturerede eller ustrukturerede data. Struktureret data er velorganiseret, følger en konsistent rækkefølge, er relativt let at søge og forespørgsel, og kan let nås og forstås af en person eller et computerprogram.
Et klassisk eksempel på strukturerede data er et Excel-regneark med mærkede kolonner. Sådanne strukturerede data er konsekvente; kolonneoverskrifter - normalt korte og præcise beskrivelser af indholdet i hver kolonne - fortæl dig præcis, hvilken slags indhold du kan forvente.
Strukturerede data gemmes normalt i veldefinerede skemaer som databaser. Det er normalt tabulært, med kolonner og rækker, der klart definerer dets attributter.
Ustrukturerede data har derimod tendens til at være friformet, ikke-tabelformet, dispergeret og ikke let genoprettelig; Sådanne data kræver bevidst indgriben for at give mening. Forskellige e-mails, dokumenter, websider og filer (hvad enten tekst, lyd og / eller video) på spredte steder er eksempler på ustrukturerede data.
Det er svært at kategorisere indholdet af ustrukturerede data. Det har tendens til at være for det meste tekst, det er normalt lavet i en hodgepodge af frie form stilarter, og at finde nogen attributter, du kan bruge til at beskrive eller gruppere det, er ikke en lille opgave.
Indholdet af ustrukturerede data er svært at arbejde med eller giver mening om programmatisk. Computerprogrammer kan ikke analysere eller generere rapporter om sådanne data, simpelthen fordi det mangler struktur, har ingen underliggende dominerende karakteristika, og individuelle dataelementer har ingen fælles grund.
Generelt er der en højere procentdel ustrukturerede data end strukturerede data i verden. Ustrukturerede data kræver mere arbejde for at gøre det nyttigt, så det bliver mere opmærksomt - har derfor tendens til at forbruge mere tid.
Undersøg ikke betydningen af strukturerede data og den kraft det medfører til din analyse. Det er langt mere effektivt at analysere strukturerede data end at analysere ustruktureret data. Ustrukturerede data kan også være dyre at præprocessere til analyse, da du bygger et prædiktivt analyseprojekt. Udvælgelsen af relevante data, dets rensning og efterfølgende transformationer kan være langvarig og kedelig.
De resulterende nyorganiserede data fra de nødvendige forbehandlingstrin kan derefter anvendes i en prediktiv analysemodel. Engrostransformationen af ustrukturerede data må dog vente, indtil du har din prædiktive analysemodel op og kører.
Dataudvinding og tekstanalyse er to metoder til strukturering af tekstdokumenter, sammenkobling af indhold, gruppering og opsummering af deres data og afdækning af mønstre i disse data. Begge discipliner giver en rig ramme med algoritmer og teknikker til at minde teksten spredt over et hav af dokumenter.
Det er også værd at bemærke, at søgemaskineplatforme giver let tilgængelige værktøjer til indeksering af data og gør det søgbart.
Lad os sammenligne strukturerede og ustrukturerede data.
Karakteristika | Struktureret | Ustruktureret |
---|---|---|
Forening | Organiseret | Spredt og spredt |
Udseende | Formelt defineret | Fri form |
Tilgængelighed | Let at adgang og forespørgsel | Nem adgang til og forespørgsel |
Tilgængelighed | Procentvis lavere | Procentvis højere |
Analyse | Effektiv at analysere | Der kræves yderligere forbehandling |
Ustrukturerede data er ikke helt mangler struktur - du skal bare fryse det ud. Selv teksten inden for digitale filer har stadig en vis struktur, der ofte er forbundet med metadata - f.eks. Dokumenttitler, datoer, der blev sidst ændret, og deres forfatteres navne.
Det samme gælder for e-mails: Indholdet kan være ustruktureret, men strukturerede data er forbundet med dem - f.eks. Dato og klokkeslæt, de blev sendt, navnene på deres afsendere og modtagere, uanset om de indeholder vedhæftede filer.
Adskillelseslinjen mellem de to datatyper er ikke altid klar. Generelt kan du altid finde nogle attributter af ustrukturerede data, der kan betragtes som strukturerede data. Hvorvidt den struktur afspejler indholdet af disse data - eller nyttig i dataanalyse - er ubestemt i bedste fald.
I den sammenhæng kan strukturerede data indeholde ustrukturerede data. I en webformular kan brugerne f.eks. Blive bedt om at give feedback på et produkt ved at vælge et svar fra flere valgmuligheder - men også præsenteret med en kommentarboks, hvor de kan give yderligere feedback.
Svarene fra flere valg er struktureret; Kommentarfeltet er ustruktureret på grund af dets frie form natur. Sådanne tilfælde forstås bedst som en blanding af strukturerede og ustrukturerede data. De fleste data er en sammensætning af begge.
For et vellykket predictive analytics-projekt skal både dine strukturerede og ustrukturerede data kombineres i et logisk format, der kan analyseres.