Hjem Personlig finansiering Styring af Big Data Technologies i en hybrid cloud dummies

Styring af Big Data Technologies i en hybrid cloud dummies

Indholdsfortegnelse:

Video: TTT Corporation: The Best Alternative of Traditional File Servers and Public Cloud | Synology 2024

Video: TTT Corporation: The Best Alternative of Traditional File Servers and Public Cloud | Synology 2024
Anonim

Begrebet store data bruges ofte i verden af ​​hybrid cloud teknologi på grund af det løbende behov for at behandle stigende mængder data. Nøglefakta om store data er, at den eksisterer på tippestedet for de løsninger, som organisationer historisk har indført for at klare store mængder komplekse data. Store datateknologier gør det muligt for folk faktisk at analysere og udnytte disse data effektivt.

Store dataegenskaber

Store data har generelt tre karakteristika - volumen, sort og hastighed:

  • Volumen: Store data er store i volumen. Det refererer generelt til mindst flere terabyte data. Mange store data implementeringer søger at analysere petabytes af information.

    Navn God
    Byte 10 0
    Gigabyte 10 9 byte
    Terabyte 10 12 > bytes petabyte
    10 15 byte Exabyte
    10 18 bytes
    Variety:
  • Store data kommer i forskellige former og størrelser. Det omfatter disse typer af data: Strukturerede data

    • er den typiske type data, som analytikere bruges til at håndtere. Det omfatter omsætning og antal salg - hvilken type data du tænker på, herunder i en database. Strukturerede data produceres også på nye måder i produkter som sensorer og RFID-tags.

      Semistrukturerede data
    • har en vis struktur til det, men ikke som du tænker på tabeller i en database. Det indeholder EDI-formater og XML. Ustrukturerede data

    • indeholder tekst, billede og lyd, herunder ethvert dokument, e-mail-besked, tweet eller blog internt til et firma eller på internettet. Ustrukturerede data tegner sig for omkring 80 procent af alle data. Hastighed:

  • Dette er den hastighed, hvormed dataene bevæger sig. Tænk over sensorer, der indfanger data hver millisekund eller datastrømme output fra medicinsk udstyr. Store data kommer ofte til dig i en strøm, så det har en realtids natur forbundet med den. Skyen er et ideelt sted for store data på grund af dets skalerbare lagring, beregning af strøm og elastiske ressourcer. Sky-modellen er storskala; distribueret databehandling og en række rammer og teknologier har vist sig at understøtte denne model, herunder

Apache Hadoop:

  • En open source distribueret computer platform skrevet i Java. Det er et softwarebibliotek, der muliggør distribueret behandling på tværs af computerklynger. Det er virkelig et distribueret filsystem. Det opretter en computer pool, hver med et Hadoop filsystem. Hadoop var designet til at håndtere store mængder komplekse data.Dataene kan struktureres, ustruktureret eller semistruktureres. Hadoop kan køre på tværs af mange servere, der ikke deler hukommelse eller disk. Se Hadoop for mere information. MapReduce:

  • En software ramme indført af Google for at understøtte distribueret databehandling på store datamængder. Det er kernen i, hvad Hadoop gør med store data og stor dataanalyse. Det er designet til at udnytte cloud ressourcer. Denne beregning udføres på tværs af mange computere, kaldet klynger , og hver klynge betegnes som en knudepunkt. MapReduce kan håndtere både strukturerede og ustrukturerede data. Brugere angiver en kortfunktion, der behandler et nøgle / værdipar til at generere et sæt mellemliggende par og en reduktionsfunktion, der fusionerer disse par. Store databaser

En vigtig appel af Hadoop er, at den kan håndtere forskellige typer data. Parallelle databasestyringssystemer har været på markedet i årtier. De kan understøtte parallel eksekvering, fordi de fleste af tabellerne er delt op over noderne i en klynge, og de kan oversætte SQL-kommandoer til en plan, der er delt på tværs af noderne i klyngen. Men de beskæftiger sig for det meste med strukturerede data, fordi det er svært at passe ustruktureret, freeform data ind i kolonnerne og rækker i en relationel model.

Hadoop har startet en bevægelse i hvad der er blevet kaldt

NoSQL, , hvilket betyder ikke kun SQL. Udtrykket refererer til et sæt teknologier, der adskiller sig fra relationelle databasesystemer. En stor forskel er, at de ikke bruger SQL. De er også designet til distribuerede datalager. NoSQL betyder ikke, at folk ikke skal bruge SQL. Ideen er snarere, at afhængigt af hvad dit problem er, kan relationsdatabaser og NoSQL-databaser sameksistere i en organisation. Der er talrige eksempler på disse typer af databaser, herunder følgende:

Apache Cassandra:

  • Et open source distribueret datastyringssystem, der oprindeligt blev udviklet af Facebook. Det har ingen strenge strukturkrav, så det kan håndtere alle forskellige typer data. Eksperter hævder, at det udmærker sig ved transaktionsbehandling i høj volumen. Andre open source-databaser omfatter MongoDB, Apache CouchDB og Apache HBase. Amazon Simple DB:

  • Amazon ligner denne database i et regneark, idet det har kolonner og rækker med attributter og elementer gemt i hver. I modsætning til et regneark kan hver celle dog have flere værdier, og hvert element kan have sit eget sæt associerede attributter. Amazon indekserer derefter automatisk dataene. For nylig annoncerede Amazon Amazon Dynamo DB som en måde at bringe store data NoSQL til skyen. Google BigTable:

  • Denne hybrid er som et stort bord. Fordi tabeller kan være store, er de opdelt i rækken grænser i tabeller, som kan være hundreder af megabyte eller deromkring. MapReduce bruges ofte til at generere og ændre data, der er gemt i BigTable.

Styring af Big Data Technologies i en hybrid cloud dummies

Valg af editor

Routingprotokollvalgskriterier - dummies

Routingprotokollvalgskriterier - dummies

Folk bruger to grundlæggende metoder til klassificering af ruteprotokoller - hvor de bruges og af hvordan de beregner routing. Du kan se, hvordan du vælger protokoller baseret på, hvor du planlægger at bruge dem, måden protokollen håndterer data på, og hvordan din router vælger hvilken protokol der skal bruges, når mere end en ...

Indstilling af Cisco Device Timeouts - dummies

Indstilling af Cisco Device Timeouts - dummies

Uden at indstille timeout-indstillinger for Cisco Device Privileged EXEC-tilstand, dine sessioner forbliver åbne på ubestemt tid. Dette er især farligt for konsolporten. Uden timeout parametre aktiveret, hvis administratoren ikke logger ud, har en indtrenger adgang og ingen problemer får forhøjede tilladelser. For at undgå denne potentielt farlige situation behøver du kun skrive a ...

Router Ethernet-interfacekonfiguration - dummies

Router Ethernet-interfacekonfiguration - dummies

Du starter processen med at konfigurere router Ethernet-grænseflader ved at foretage en fysisk forbindelse til din router. Når du har etableret forbindelsen, kan du fortsætte med den grundlæggende konfiguration af Ethernet-, Fast Ethernet- eller Gigabit Ethernet-forbindelser. Tilslutning til din router For at starte din konfiguration skal du oprette forbindelse til din router og komme ind i ...

Valg af editor

Med fokus på nogle hurtige løsninger til fotofile - dummier

Med fokus på nogle hurtige løsninger til fotofile - dummier

På trods af alle kameraproducenters forsøg på at gør fotografering idiotsikker, vi laver alle stadig mindre end perfekte billeder. Nogle gange er vi problemet - vi er for tætte eller for langt væk, eller kan ikke finde ud af, hvordan du bruger kameraets tåbebeskyttelsesfunktioner. Nogle gange er problemet, at virkeligheden nøjagtigt nægter at overholde vores forventninger: Himlen er ...

Lær at kende dine Manga Studio Layer Typer - Dummies

Lær at kende dine Manga Studio Layer Typer - Dummies

Manga Studio giver et udvalg af lag typer til brug i dit arbejde. Når du lærer at forstå og forstå, hvordan lag fungerer, vil du spekulere på, hvordan du nogensinde har arbejdet uden dem. Her er en introduktion til, hvad Manga Studio har til opbevaring for dig i sin lag lineup: Raster Layer: Dette er det grundlæggende ...

Få dit mobilwebsted tildelt på sociale bogmærker - dummies

Få dit mobilwebsted tildelt på sociale bogmærker - dummies

Populariteten af ​​websider med antallet af stemmer, de får. Resultatet er, at disse websteder er gode ressourcer til folk, der ønsker at holde øje med, hvad der er populært online. De fleste tilbyder speciel software, der gør det nemt for alle at stemme på et websted. Få dit websted opført ...

Valg af editor

Automatisk opdatering af din journal i Outlook 2000 - dummies

Automatisk opdatering af din journal i Outlook 2000 - dummies

Stardat 2001: På Star Trek, Virksomheden gør trofast daglige poster i kaptajnens log. Kaptajnen registrerer oplysninger om de planeter, besætningen har udforsket, udlændinge, de har kæmpet, og de bizarre fænomener, de har observeret ud i det dybe rum, hvor ingen er gået før! Nu er det din tur. Bare ...

Slet og gendan kontakter i Outlook - dummies

Slet og gendan kontakter i Outlook - dummies

Med Outlook, du behøver ikke at rive sider ud af en papir adressebog for at slippe af med en persons oplysninger; bare slet kontakten. Slettede kontakter går til mappen Slette emner i Outlook, indtil næste gang du tømmer mappen Slette elementer, så du kan hente dem derfra, hvis du laver ...