Styring af Big Data Technologies i en hybrid cloud dummies

Video: TTT Corporation: The Best Alternative of Traditional File Servers and Public Cloud | Synology 2025

Begrebet store data bruges ofte i verden af hybrid cloud teknologi på grund af det løbende behov for at behandle stigende mængder data. Nøglefakta om store data er, at den eksisterer på tippestedet for de løsninger, som organisationer historisk har indført for at klare store mængder komplekse data. Store datateknologier gør det muligt for folk faktisk at analysere og udnytte disse data effektivt.

Store dataegenskaber

Store data har generelt tre karakteristika - volumen, sort og hastighed:

Volumen: Store data er store i volumen. Det refererer generelt til mindst flere terabyte data. Mange store data implementeringer søger at analysere petabytes af information.

Navn	God
Byte	10 ⁰
Gigabyte	10 ⁹ byte
Terabyte	10 ^{12 > bytes} petabyte
10	15 ^byte Exabyte
10	18 ^bytes

Variety:

Store data kommer i forskellige former og størrelser. Det omfatter disse typer af data: Strukturerede data
- er den typiske type data, som analytikere bruges til at håndtere. Det omfatter omsætning og antal salg - hvilken type data du tænker på, herunder i en database. Strukturerede data produceres også på nye måder i produkter som sensorer og RFID-tags.
  
  Semistrukturerede data
- har en vis struktur til det, men ikke som du tænker på tabeller i en database. Det indeholder EDI-formater og XML. Ustrukturerede data
- indeholder tekst, billede og lyd, herunder ethvert dokument, e-mail-besked, tweet eller blog internt til et firma eller på internettet. Ustrukturerede data tegner sig for omkring 80 procent af alle data. Hastighed:
Dette er den hastighed, hvormed dataene bevæger sig. Tænk over sensorer, der indfanger data hver millisekund eller datastrømme output fra medicinsk udstyr. Store data kommer ofte til dig i en strøm, så det har en realtids natur forbundet med den. Skyen er et ideelt sted for store data på grund af dets skalerbare lagring, beregning af strøm og elastiske ressourcer. Sky-modellen er storskala; distribueret databehandling og en række rammer og teknologier har vist sig at understøtte denne model, herunder

Apache Hadoop:

En open source distribueret computer platform skrevet i Java. Det er et softwarebibliotek, der muliggør distribueret behandling på tværs af computerklynger. Det er virkelig et distribueret filsystem. Det opretter en computer pool, hver med et Hadoop filsystem. Hadoop var designet til at håndtere store mængder komplekse data.Dataene kan struktureres, ustruktureret eller semistruktureres. Hadoop kan køre på tværs af mange servere, der ikke deler hukommelse eller disk. Se Hadoop for mere information. MapReduce:
En software ramme indført af Google for at understøtte distribueret databehandling på store datamængder. Det er kernen i, hvad Hadoop gør med store data og stor dataanalyse. Det er designet til at udnytte cloud ressourcer. Denne beregning udføres på tværs af mange computere, kaldet klynger , og hver klynge betegnes som en knudepunkt. MapReduce kan håndtere både strukturerede og ustrukturerede data. Brugere angiver en kortfunktion, der behandler et nøgle / værdipar til at generere et sæt mellemliggende par og en reduktionsfunktion, der fusionerer disse par. Store databaser

En vigtig appel af Hadoop er, at den kan håndtere forskellige typer data. Parallelle databasestyringssystemer har været på markedet i årtier. De kan understøtte parallel eksekvering, fordi de fleste af tabellerne er delt op over noderne i en klynge, og de kan oversætte SQL-kommandoer til en plan, der er delt på tværs af noderne i klyngen. Men de beskæftiger sig for det meste med strukturerede data, fordi det er svært at passe ustruktureret, freeform data ind i kolonnerne og rækker i en relationel model.

Hadoop har startet en bevægelse i hvad der er blevet kaldt

NoSQL, , hvilket betyder ikke kun SQL. Udtrykket refererer til et sæt teknologier, der adskiller sig fra relationelle databasesystemer. En stor forskel er, at de ikke bruger SQL. De er også designet til distribuerede datalager. NoSQL betyder ikke, at folk ikke skal bruge SQL. Ideen er snarere, at afhængigt af hvad dit problem er, kan relationsdatabaser og NoSQL-databaser sameksistere i en organisation. Der er talrige eksempler på disse typer af databaser, herunder følgende:

Apache Cassandra:

Et open source distribueret datastyringssystem, der oprindeligt blev udviklet af Facebook. Det har ingen strenge strukturkrav, så det kan håndtere alle forskellige typer data. Eksperter hævder, at det udmærker sig ved transaktionsbehandling i høj volumen. Andre open source-databaser omfatter MongoDB, Apache CouchDB og Apache HBase. Amazon Simple DB:
Amazon ligner denne database i et regneark, idet det har kolonner og rækker med attributter og elementer gemt i hver. I modsætning til et regneark kan hver celle dog have flere værdier, og hvert element kan have sit eget sæt associerede attributter. Amazon indekserer derefter automatisk dataene. For nylig annoncerede Amazon Amazon Dynamo DB som en måde at bringe store data NoSQL til skyen. Google BigTable:
Denne hybrid er som et stort bord. Fordi tabeller kan være store, er de opdelt i rækken grænser i tabeller, som kan være hundreder af megabyte eller deromkring. MapReduce bruges ofte til at generere og ændre data, der er gemt i BigTable.