Sådan sættes arkitektonfonden til store data - dummier

Det er vigtigt at lægge et stærkt arkitektonisk fundament, hvis du vil lykkes med store data. Ud over at understøtte de funktionelle krav er det vigtigt at understøtte den krævede præstation. Dine behov afhænger af arten af den analyse, du støtter. Du skal bruge den rigtige mængde computerkraft og hastighed.

Din arkitektur skal også have den rigtige mængde af redundans, så du er beskyttet mod uventet ventetid og nedetid.

Start med at stille dig selv følgende spørgsmål:

Hvor meget data skal din organisation håndtere i dag og i fremtiden?
Hvor ofte skal din organisation håndtere data i realtid eller i nærheden af realtid?
Hvor stor risiko kan din organisation have råd til? Er din industri underlagt strenge krav til sikkerhed, overholdelse og styring?
Hvor vigtigt er hastigheden for dit behov for at håndtere data?
Hvor sikker eller præcis skal dataene være?

Grænseflader og feeds til store data

For at forstå, hvor store data der fungerer i den virkelige verden, er det vigtigt at starte med at forstå nødvendigheden af grænseflader og feeds. Faktisk er det, der gør store data store, den kendsgerning, at den er afhængig af at samle masser af data fra mange kilder.

Derfor vil åbne applikationsprogrammeringsgrænseflader (API'er) være kernen i enhver stor dataarkitektur. Derudover skal du huske på, at der findes grænseflader på hvert niveau og mellem hvert lag af stakken. Uden integrationstjenester kan der ikke ske store data.

Redundant stor data fysisk infrastruktur

Den understøttende fysiske infrastruktur er grundlæggende for driften og skalerbarheden af en stor dataarkitektur. Faktisk, uden tilgængeligheden af robust fysisk infrastruktur, ville store data sandsynligvis ikke have fremkommet som sådan en vigtig tendens. For at understøtte et uventet eller uforudsigeligt datamængde skal en fysisk infrastruktur til store data være anderledes end for traditionelle data.

Den fysiske infrastruktur er baseret på en distribueret computermodel. Det betyder, at data kan lagres fysisk på mange forskellige steder og kan kobles sammen via netværk, brugen af et distribueret filsystem og forskellige store datalogiske værktøjer og applikationer.

Redundans er vigtigt, fordi du beskæftiger dig med så mange data fra så mange forskellige kilder. Redundans kommer i mange former. Hvis din virksomhed har oprettet en privat sky, vil du gerne have redundans opbygget i det private miljø, så det kan skalere ud for at understøtte skiftende arbejdsbyrder.

Hvis din virksomhed ønsker at indeholde intern it-vækst, kan den bruge eksterne cloud services til at udvide sine interne ressourcer. I nogle tilfælde kan denne redundans komme i form af et SaaS-tilbud (Software as a Service), der giver virksomheder mulighed for at foretage sofistikeret dataanalyse som en service. SaaS-tilgangen giver lavere omkostninger, hurtigere opstart og problemfri udvikling af den underliggende teknologi.

Stor datasikkerhedsinfrastruktur

Den vigtigere store dataanalyse bliver til virksomheder, desto vigtigere er det at sikre dataene. Hvis du for eksempel er et sundhedsfirma, vil du sandsynligvis gerne bruge store dataprogrammer til at bestemme ændringer i demografi eller skift i patientbehov. Disse data om dine bestanddele skal beskyttes både for at opfylde kravene til overholdelse og for at beskytte patienternes privatliv.

Du skal tage højde for, hvem der har lov til at se dataene, og under hvilke omstændigheder har de lov til at gøre det. Du skal kunne verificere brugerens identitet samt beskytte patienternes identitet.

Operative store datakilder

Det er vigtigt at forstå, at du skal inkorporere alle datakilder, der giver dig et komplet billede af din virksomhed og se, hvordan dataene påvirker din virksomheds forretning. Når verden ændrer sig, er det vigtigt at forstå, at operationelle data nu skal omfatte et bredere sæt datakilder, herunder ustrukturerede kilder som sociale medier i alle dens former.

Du finder nye nye tilgange til datastyring i den store dataliv, herunder dokument-, graf-, kolonne- og geospatiale databasearkitekturer. Samlet betegnes disse som NoSQL, eller ikke kun SQL, databaser. I det væsentlige skal du kortlægge datarchitecturerne til de typer transaktioner.

Dette gør det muligt at sikre, at højre data er tilgængelige, når du har brug for det. Du har også brug for datarchitecturer, som understøtter komplekst ustruktureret indhold. Du skal inkludere både relationelle databaser og ikke-relationelle databaser i din tilgang til at udnytte store data. Det er også nødvendigt at inkludere ustrukturerede datakilder, som f.eks. Indholdsstyringssystemer, så du kan komme tættere på den 360-graders business view.

Alle disse operationelle datakilder har flere fælles karakteristika:

De repræsenterer systemer med rekord, der holder styr på de kritiske data, der kræves til realtid, den daglige drift af virksomheden.
De opdateres løbende ud fra transaktioner, der sker inden for forretningsenheder og fra internettet.
For at disse kilder skal give en nøjagtig repræsentation af virksomheden, skal de blande strukturerede og ustrukturerede data.
Disse systemer skal også kunne skala for at understøtte tusindvis af brugere på en ensartet basis. Disse kan omfatte transaktionsbaserede e-handelssystemer, kundeforholdsstyringssystemer eller callcenter-applikationer.