Video: Venti - Effektiv arbejdsgang, overblik og godt beslutningsgrundlag med korrekte data i TRIMIT 2025
For at forstå store data-arbejdsgange skal du forstå, hvad en proces er, og hvordan den relaterer til arbejdsprocessen i dataintensive miljøer. Processer har en tendens til at være designet som højt niveau, ende-til-ende strukturer, der er nyttige til beslutningstagning og normalisering af, hvordan tingene bliver gjort i et firma eller en organisation.
Arbejdsflyt er derimod opgaveorienteret og kræver ofte mere specifikke data end processer. Processer består af en eller flere arbejdsgange, der er relevante for det overordnede mål for processen.
På mange måder svarer store arbejdsgange til standardarbejdsprocesser. Faktisk er i alle arbejdsgange nødvendige data i de forskellige faser for at udføre opgaverne. Overvej arbejdsprocessen i en sundhedssituation.
En elementær arbejdsgang er processen med at "tegne blod. "Tegning af blod er en nødvendig opgave, der kræves for at fuldføre den samlede diagnostiske proces. Hvis der sker noget, og blod ikke er trukket eller data fra blodprøven er gået tabt, vil det have en direkte indflydelse på virkeligheden eller sandheden af den samlede aktivitet.
Hvad sker der, når du introducerer en workflow, der afhænger af en stor datakilde? Selvom du måske vil kunne bruge eksisterende arbejdsgange, kan du ikke gå ud fra, at en proces eller arbejdsgang fungerer korrekt ved blot at erstatte en stor datakilde til en standardkilde. Dette kan muligvis ikke fungere, fordi standard databehandlingsmetoder ikke har behandlingsmetoder eller ydeevne til at håndtere kompleksiteten af de store data.
Sundhedseksemplet fokuserer på behovet for at foretage en analyse efter at blodet er trukket fra patienten. I standarddatafunktionen udskrives blodet, og der udføres visse kemiske test baseret på sundhedspraktiserens krav.
Det er usandsynligt, at denne arbejdsgang forstår den test, der er nødvendig for at identificere specifikke biomarkører eller genetiske mutationer. Hvis du leverede store datakilder til biomarkører og mutationer, ville workflowen mislykkes. Det er ikke store databevidste og skal ændres eller omskrives for at understøtte store data.
Den bedste praksis til at forstå arbejdsgange og effekten af store data er at gøre følgende:
-
Identificer de store datakilder, du skal bruge.
-
Kort de store datatyper til dine workflow datatyper.
-
Sørg for, at du har behandlingshastighed og lageradgang for at understøtte din arbejdsgang.
-
Vælg datalager, der passer bedst til datatyperne.
-
Rediger den eksisterende workflow for at rumme store data eller oprette nye store dataflytninger.
Når du har dine store data-arbejdsgange, vil det være nødvendigt at finjustere dem, så de ikke vil overvælde eller forurene din analyse.For eksempel indeholder mange store datakilder ikke veldefinerede datadefinitioner og metadata om elementerne i disse kilder. Nogle gange er disse datakilder ikke blevet renset. Du skal sørge for at have det rette niveau for viden om de kilder, du skal bruge.