Hjem Personlig finansiering Basics of Structured and Unstructured Data i Predictive Analysis - dummies

Basics of Structured and Unstructured Data i Predictive Analysis - dummies

Video: Big Data Opportunity: Structured vs. Unstructured Data 2025

Video: Big Data Opportunity: Structured vs. Unstructured Data 2025
Anonim

Data indeholdt i databaser, dokumenter, e-mails og andre datafiler til prædiktiv analyse kan kategoriseres enten som strukturerede eller ustrukturerede data. Struktureret data er velorganiseret, følger en konsistent rækkefølge, er relativt let at søge og forespørgsel, og kan let nås og forstås af en person eller et computerprogram.

Et klassisk eksempel på strukturerede data er et Excel-regneark med mærkede kolonner. Sådanne strukturerede data er konsekvente; kolonneoverskrifter - normalt korte og præcise beskrivelser af indholdet i hver kolonne - fortæl dig præcis, hvilken slags indhold du kan forvente.

Strukturerede data gemmes normalt i veldefinerede skemaer som databaser. Det er normalt tabulært, med kolonner og rækker, der klart definerer dets attributter.

Ustrukturerede data har derimod tendens til at være friformet, ikke-tabelformet, dispergeret og ikke let genoprettelig; Sådanne data kræver bevidst indgriben for at give mening. Forskellige e-mails, dokumenter, websider og filer (hvad enten tekst, lyd og / eller video) på spredte steder er eksempler på ustrukturerede data.

Det er svært at kategorisere indholdet af ustrukturerede data. Det har tendens til at være for det meste tekst, det er normalt lavet i en hodgepodge af frie form stilarter, og at finde nogen attributter, du kan bruge til at beskrive eller gruppere det, er ikke en lille opgave.

Indholdet af ustrukturerede data er svært at arbejde med eller giver mening om programmatisk. Computerprogrammer kan ikke analysere eller generere rapporter om sådanne data, simpelthen fordi det mangler struktur, har ingen underliggende dominerende karakteristika, og individuelle dataelementer har ingen fælles grund.

Generelt er der en højere procentdel ustrukturerede data end strukturerede data i verden. Ustrukturerede data kræver mere arbejde for at gøre det nyttigt, så det bliver mere opmærksomt - har derfor tendens til at forbruge mere tid.

Undersøg ikke betydningen af ​​strukturerede data og den kraft det medfører til din analyse. Det er langt mere effektivt at analysere strukturerede data end at analysere ustruktureret data. Ustrukturerede data kan også være dyre at præprocessere til analyse, da du bygger et prædiktivt analyseprojekt. Udvælgelsen af ​​relevante data, dets rensning og efterfølgende transformationer kan være langvarig og kedelig.

De resulterende nyorganiserede data fra de nødvendige forbehandlingstrin kan derefter anvendes i en prediktiv analysemodel. Engrostransformationen af ​​ustrukturerede data må dog vente, indtil du har din prædiktive analysemodel op og kører.

Dataudvinding og tekstanalyse er to metoder til strukturering af tekstdokumenter, sammenkobling af indhold, gruppering og opsummering af deres data og afdækning af mønstre i disse data. Begge discipliner giver en rig ramme med algoritmer og teknikker til at minde teksten spredt over et hav af dokumenter.

Det er også værd at bemærke, at søgemaskineplatforme giver let tilgængelige værktøjer til indeksering af data og gør det søgbart.

Lad os sammenligne strukturerede og ustrukturerede data.

Karakteristika Struktureret Ustruktureret
Forening Organiseret Spredt og spredt
Udseende Formelt defineret Fri form
Tilgængelighed Let at adgang og forespørgsel Nem adgang til og forespørgsel
Tilgængelighed Procentvis lavere Procentvis højere
Analyse Effektiv at analysere Der kræves yderligere forbehandling

Ustrukturerede data er ikke helt mangler struktur - du skal bare fryse det ud. Selv teksten inden for digitale filer har stadig en vis struktur, der ofte er forbundet med metadata - f.eks. Dokumenttitler, datoer, der blev sidst ændret, og deres forfatteres navne.

Det samme gælder for e-mails: Indholdet kan være ustruktureret, men strukturerede data er forbundet med dem - f.eks. Dato og klokkeslæt, de blev sendt, navnene på deres afsendere og modtagere, uanset om de indeholder vedhæftede filer.

Adskillelseslinjen mellem de to datatyper er ikke altid klar. Generelt kan du altid finde nogle attributter af ustrukturerede data, der kan betragtes som strukturerede data. Hvorvidt den struktur afspejler indholdet af disse data - eller nyttig i dataanalyse - er ubestemt i bedste fald.

I den sammenhæng kan strukturerede data indeholde ustrukturerede data. I en webformular kan brugerne f.eks. Blive bedt om at give feedback på et produkt ved at vælge et svar fra flere valgmuligheder - men også præsenteret med en kommentarboks, hvor de kan give yderligere feedback.

Svarene fra flere valg er struktureret; Kommentarfeltet er ustruktureret på grund af dets frie form natur. Sådanne tilfælde forstås bedst som en blanding af strukturerede og ustrukturerede data. De fleste data er en sammensætning af begge.

For et vellykket predictive analytics-projekt skal både dine strukturerede og ustrukturerede data kombineres i et logisk format, der kan analyseres.

Basics of Structured and Unstructured Data i Predictive Analysis - dummies

Valg af editor

Fotografering af fugle Brug af dine digitale spejlreflekskameraer

Fotografering af fugle Brug af dine digitale spejlreflekskameraer

Du kan optage interessante billeder af fugle store og små med din digitale spejlreflekskamera . Du behøver bare lidt tålmodighed og lidt viden om den fugl, du vil fotografere. En fuglefoder er et ideelt sted at fotografere små fugle. Du kan rejse til et område med en sø eller flod eller til ...

Fotografering af byer med dine digitale spejlreflekskameraer

Fotografering af byer med dine digitale spejlreflekskameraer

Om du bor i en søvnig lille by eller en storby, der overfylder menneskeheden kan din digitale spejlreflekskamera fange hjertet og sjælen i din hjemby. Du kan eksperimentere med at tage billeder om natten, når byen er dramatisk eller øde eller om dagen, når beboerne og deres aktiviteter gør byen ...

Fotografering af objekter i bevægelse - dummier

Fotografering af objekter i bevægelse - dummier

Der er et par tankeskoler om fotografering af objekter i bevægelse. Opskriften på en perfekt eksponering kan opnås på mange måder. Du kan vælge en lille blænde (stort f-stopnummer) for at få en stor dybdeskarphed, eller du kan vælge en hurtig lukkerhastighed, hvilket betyder en stor blænde (lille ...

Valg af editor

Hvordan man fortjener mor fra blogging uden at sælge - dummier

Hvordan man fortjener mor fra blogging uden at sælge - dummier

Sælger er et udtryk, der anvendes til kompromittere din integritet, principper eller moral for at vinde penge eller succes. Problemet er, at hvis alle havde de samme principper og definition af integritet, ville der ikke være meget behov for forskellige politiske partier eller religioner. Folk kan anklaget for at sælge ud, hvis de simpelthen gør ting som ...

Hvordan man korrekt bruger nøgleord til din online community - dummies

Hvordan man korrekt bruger nøgleord til din online community - dummies

Når du har en god ide om hvilke typer søgeord der skal bruges i dit online-fællesskab, er det tid til at skrive indholdet, så det ser naturligt ud. For mange mennesker peber søgeord liberalt omkring deres blogindlæg, web artikler, Om sider og andet indhold, som ser dumt og forkert ud. Selvom du bruger nøgleord, er det godt ...

Sådan sættes annoncer på din blog - dummies

Sådan sættes annoncer på din blog - dummies

For at få annoncer på din blogwebsite, de programmer du tilmelde dig normalt give dig en smule kode, som du indsætter i din hjemmeside skabeloner. Nogle programmer har trinvise instruktioner til populære blogsoftwarepakker, men vær opmærksom på at du måske også har brug for at konsultere dokumentation til blogsoftware til hjælp med ...

Valg af editor

Ompirrende Signaler og hvad de betyder i Cricket - Dummies

Ompirrende Signaler og hvad de betyder i Cricket - Dummies

Embedsmændene med ansvar for et cricketpil er kaldet umpires, og de har en lang række signaler til at angive de beslutninger, de træffer i løbet af et spil. Disse er de vigtigste. Højre arm udstrakte. No-bold. Dette signal indikerer, at bowlerens fod har landet over frontlinjen af ​​...

Vælg en Tennis Racquet - Dummies

Vælg en Tennis Racquet - Dummies

Ja, du kan støv af den racquet, du spillede for fem år siden og give det en strålende tilbagevenden til retten - hvis det føles godt i din hånd og det får dine skud hvor (og hvordan) vil du have dem til at gå. Hvis du er på markedet for et nyt våben, vil du dog ...

Skæring og dicing, tennis stil - dummies

Skæring og dicing, tennis stil - dummies

Skive eller backspin, får tennisbolden til at vende tilbage mod effektkilde (dig). Når et stykke skud springer, forbliver bolden lavt, hvilket tvinger din modstander til virkelig at strække for at komme til bolden. Hvis spillere gerne angriber nettet og volley, skar de meget. Skiven kan være en nyttig ...