Indholdsfortegnelse:
Video: Masterclass livestream - Skab succes med data 2024
Udtrykket strukturerede data refererer generelt til data, der har en defineret længde og format for store data. Eksempler på strukturerede data inkluderer tal, datoer og grupper af ord og tal kaldet strings . De fleste eksperter er enige om, at denne slags data tegner sig for omkring 20 procent af de data, der er derude. Strukturerede data er de data, du sandsynligvis er vant til at håndtere. Det gemmes normalt i en database.
Kilder til strukturerede store data
Selv om dette kan virke som forretningsmæssigt som normalt, tager strukturelle data i virkeligheden en ny rolle i verden af store data. Udviklingen af teknologi giver nye kilder til strukturerede data, der produceres - ofte i realtid og i store mængder. Datakilderne er opdelt i to kategorier:
-
Computer- eller maskingenereret: Maskingenererede data refererer generelt til data, der oprettes af en maskine uden menneskelig indgriben.
-
Human-generated: Dette er data, som mennesker, i interaktion med computere, leverer.
Nogle eksperter hævder, at der findes en tredje kategori, der er en hybrid mellem maskine og menneske. Her er vi dog bekymret for de to første kategorier.
Maskingenererede strukturerede data kan omfatte følgende:
-
Sensordata: Eksempler omfatter radiofrekvens ID-mærker, intelligente målere, medicinske enheder og data fra Global Positioning System. Virksomheder er interesserede i dette for supply chain management og inventar kontrol.
-
weblog data: Når servere, applikationer, netværk og så videre opererer, fanger de alle slags data om deres aktivitet. Dette kan udgøre enorme mængder data, der kan være nyttige, for eksempel at håndtere aftaler på serviceniveau eller for at forudsige sikkerhedsbrud.
-
Point-of-sale data: Når kasseapparatet svinger stregkoden for et produkt, som du køber, genereres alle de data, der er knyttet til produktet.
-
Finansielle data: Mange finansielle systemer er nu programmatiske; De opereres ud fra foruddefinerede regler, der automatiserer processer. Aktiehandelsdata er et godt eksempel på dette. Den indeholder strukturerede data som firmaets symbol og dollar værdi. Nogle af disse data er maskingenereret, og nogle er menneskeskabte.
Eksempler på strukturerede menneskelige data kan indeholde følgende:
-
Indtastningsdata: Dette er ethvert stykke data, som et menneske kan indtaste i en computer, f.eks. Navn, alder, indkomst, ikke-fri -form undersøgelser svar, og så videre. Disse data kan være nyttige til at forstå grundlæggende kundeadfærd.
-
Klik-stream data: Data genereres hver gang du klikker på et link på et websted. Disse data kan analyseres for at bestemme kundeadfærd og købsmønstre.
-
Gaming-relaterede data: Alle bevægelser du laver i et spil kan optages. Dette kan være nyttigt for at forstå, hvordan slutbrugere bevæger sig gennem en spilleportefølje.
Når det er sammen med millioner af andre brugere, der sender de samme oplysninger, er størrelsen astronomisk. Derudover har meget af disse data en realtids komponent til den, der kan være nyttig til at forstå mønstre, der har potentialet til at forudsige resultater.
Den nederste linje er, at denne form for information kan være kraftig og kan anvendes til mange formål.
Relationelle databasers rolle i store data
Data persistens refererer til, hvordan en database bevarer versioner af sig selv, når den ændres. Den store granddaddy af vedholdende datalagre er relationsdatabasebehandlingssystemet . I sin barndom anvendte computerindustrien, hvad der nu anses for primitive teknikker til persistens af data.
Relationsmodellen blev opfundet af Edgar Codd, en IBM-forsker, i 1970'erne og blev brugt af IBM, Oracle, Microsoft og andre. Det er stadig i vid udstrækning i dag og spiller en vigtig rolle i udviklingen af store data. Forståelse af relationsdatabasen er vigtig, fordi andre typer af databaser anvendes med store data.
I en relationel model lagres dataene i en tabel. Denne database vil indeholde et skema - det vil sige en strukturel repræsentation af, hvad der er i databasen. For eksempel definerer skemaet i en relationsdatabase tabellerne, felterne i tabellerne og forholdet mellem de to.
Dataene gemmes i kolonner, en hver for hver specifik attribut. Dataene lagres også i rækken. Den første tabel lagrer produktinformation; Den anden lagrer demografiske oplysninger. Hver har forskellige egenskaber. Hver tabel kan opdateres med nye data, og data kan slettes, læses og opdateres. Dette opnås ofte i en relationel model ved hjælp af et struktureret forespørgselssprog (SQL).
Et andet aspekt af relationsmodellen ved hjælp af SQL er, at tabeller kan forespørges ved hjælp af en fælles nøgle. Den fælles nøgle i tabellerne er CustomerID.
Du kan indgive en forespørgsel, for eksempel for at bestemme kødet af kunder, der har købt et bestemt produkt. Det kan se sådan ud:
Vælg CustomerID, Stat, Køn, Produkt fra "Demografisk tabel", "Produkt tabel" hvor Produkt = XXYY