Indholdsfortegnelse:
- Beregningsrammer i realtid
- Platforme til massivt parallelforarbejdning (MPP)
- Introduktion af NoSQL-databaser
Video: The State of Modern Big Data Solutions: Are There Alternatives to Hadoop? | Webinars at Pythian 2025
Ser forbi Hadoop, kan du se alternative store dataløsninger på horisonten. Disse løsninger gør det muligt at arbejde med store data i realtid eller bruge alternative databaseteknologier til at håndtere og behandle det. Her introduceres du i real-time-behandlingsrammerne, derefter platformene for massivt parallelforarbejdning (MPP) og endelig NoSQL-databaserne, der giver dig mulighed for at arbejde med store data uden for Hadoop-miljøet.
Du bør være opmærksom på noget, der er omtalt som ACID-overholdelse, kort for A tomicity, C onsistency, I og D overholdelse af brugervenlighed. ACID-overholdelse er en standard, som garanterer nøjagtige og pålidelige databasetransaktioner.
I store dataløsninger er de fleste databasesystemer ikke AC-kompatible, men dette udgør ikke nødvendigvis et stort problem. Det skyldes, at de fleste store datasystemer bruger Decision Support Systems (DSS), at batchprocesdata før dataene læses ud. DSS er informationssystemer, der bruges til organisatorisk beslutningstøtte. Ikke-transaktionsbaseret DSS viser ingen reelle ACID-overholdelseskrav.
Beregningsrammer i realtid
Nogle gange kan du muligvis forespørge store datastrømme i realtid … og du kan bare ikke gøre denne slags ting ved hjælp af Hadoop. I disse tilfælde skal du bruge en realtidsbehandling i stedet. En realtidsbehandlingsramme er - som navnet antyder - en ramme, der kan behandle data i realtid (eller i nærheden af realtid) som datastrømmene og strømmer ind i systemet. Væsentligste behandlingsrammer i realtid er antitese af de batchbehandlingsrammer, som du ser implementeret i Hadoop.
Real-time-behandlingsrammer kan klassificeres i følgende to-kategorier:
-
Rammer der sænker overhead for MapReduce-opgaver for at øge systemets samlede tidseffektivitet: Løsninger i denne kategori omfatter Apache Storm og Apache Spark til nær-real-time stream behandling.
-
Rammer der anvender innovative forespørgselsmetoder til at lette forespørgsler i realtid af store data: Nogle løsninger i denne kategori omfatter Googles Dremel, Apache Drill, Shark for Apache Hive og Cloudera's Impala.
Real-time strømforarbejdningsrammer er ret nyttige i en lang række brancher - fra aktie- og finansmarkedsanalyser til e-handelsoptimeringer og fra realtidssvindelopdagelse til optimeret orderlogistik. Uanset hvilken industri du arbejder i, hvis din virksomhed påvirkes af datastrømmer i realtid, der genereres af mennesker, maskiner eller sensorer, vil en realtidsbehandling ramme være til gavn for dig i at optimere og generere værdi for din organisation.
Platforme til massivt parallelforarbejdning (MPP)
Platforme for massiv parallelbehandling (MPP) kan bruges i stedet for MapReduce som en alternativ tilgang til distribueret databehandling. Hvis dit mål er at implementere parallelbehandling på et traditionelt datalager, så kan en MPP være den perfekte løsning.
For at forstå, hvordan MPP sammenligner med en standard MapReduce parallelbehandling ramme, overveje følgende. MPP kører parallel computing opgaver på dyre, brugerdefineret hardware, mens MapReduce kører dem på billige råvareservere. Derfor er MPP-processorkompetencerne omkostningsbegrænsende. Dette sagt, MPP er hurtigere og lettere at bruge end standard MapReduce job. Det skyldes, at MPP kan forespørges ved hjælp af Structured Query Language (SQL), men native MapReduce-jobs styres af det mere komplicerede Java-programmeringssprog.
Kendte MPP-leverandører og produkter omfatter den gamle skole Teradata platform plus nyere løsninger som EMC 2 s Greenplum DCA, HP's Vertica, IBMs Netezza og Oracle Exadata.
Introduktion af NoSQL-databaser
Traditionelle relationsdatabasestyringssystemer (RDBMS) er ikke udstyret til at håndtere store datakrav. Det skyldes, at traditionelle relationelle databaser er designet til at håndtere kun relationelle datasæt, der er konstrueret af data, der er lagret i rene rækker og kolonner, og dermed kan forespørges via Structured Query Language (SQL).
RDBM-systemer er ikke i stand til at håndtere ustrukturerede og semistrukturerede data. Desuden har RDBM-systemer simpelthen ikke de behandlings- og håndteringsfunktioner, der er nødvendige for at opfylde store datamængder og hastighedskrav.
Det er her, hvor NoSQL kommer ind. NoSQL databaser, som MongoDB, er ikke-relationelle, distribuerede databasesystemer, der var designet til at stige til den store dataudfordring. NoSQL databaser træder ud over den traditionelle relationsdatabase arkitektur og tilbyder en langt mere skalerbar, effektiv løsning.
NoSQL-systemer letter ikke-SQL-forespørgsel af ikke-relationelle eller skemafrie, semistrukturerede og ustrukturerede data. På denne måde kan NoSQL-databaser håndtere de strukturerede, semistrukturerede og ustrukturerede datakilder, der er almindelige i store datasystemer.
NoSQL tilbyder fire kategorier af ikke-relationelle databaser - grafdatabaser, dokumentdatabaser, nøgleværdisbutikker og kolonnefamilieforretninger. Da NoSQL tilbyder indbygget funktionalitet til hver af disse separate typer datastrukturer, tilbyder den meget effektiv lagrings- og hentningsfunktionalitet til de fleste typer ikke-relationelle data. Denne tilpasningsevne og effektivitet gør NoSQL til et stadig mere populært valg til håndtering af store data og for at overvinde procesudfordringer, der følger med det.
Der er noget af en debat om betydningen af navnet NoSQL. Nogle hævder, at NoSQL står for Ikke kun SQL , mens andre hævder at akronym repræsenterer Ikke-SQL-databaser . Argumentet er ret komplekst, og der er ikke noget ægte snit og tørt svar.For at holde tingene enkle skal du bare tænke på NoSQL som en klasse af ikke-relationelle databasehåndteringssystemer, der ikke falder inden for frekvensområdet af RDBM-systemer, der forespørges ved hjælp af SQL.