Navngiv datablokke med NameNode i HDFS - dummies
NameNode fungerer som adressebogen for Hadoop Distributed File System (HDFS), fordi det ikke kun kender til hvilke blokke der udgør enkelte filer, men også hvor hver af disse blokke og deres replikaer er gemt. Når en bruger gemmer en fil i HDFS, er filen opdelt i datablokke og tre kopier af ...
Gris latin i Hadops grise programmer - dummies
Gris latin er sproget for grise programmer. Pig oversætter Pig Latin script til MapReduce jobs, som det kan udføres i Hadoop cluster. Når man kom op med gris latin, fulgte udviklingsholdet tre centrale designprincipper: Hold det enkelt. Pig Latin giver en strømlinet metode til interaktion med Java MapReduce. Det er en ...
NoSQL Data Stores versus Hadoop-dummies
NoSQL data butikker oprindeligt abonnerede på forestillingen "Just Say No to SQL" ( at omskrive fra en reklamekampagne mod narkotika i 1980'erne), og de var en reaktion på de opfattede begrænsninger af (SQL-baserede) relationelle databaser. Det er ikke, at disse folk hadede SQL, men de var trætte af at tvinge firkantede pinde til runde huller af ...
Replikerende datablokke i Hadoop Distributed File System - dummies
Hadoop Distributed File System (HDFS) er designet til at gemme data om billig og mere upålidelig hardware. Billig har en attraktiv ring til det, men det rejser bekymringer om systemets pålidelighed som helhed, især for at sikre den høje tilgængelighed af dataene. Planlægningen i forvejen for katastrofe gjorde hjernerne bag HDFS ...
Styring af filer med Hadoop filsystemkommandoer - dummies
HDFS er en af de to hovedkomponenter i Hadoop ramme den anden er det beregningsmæssige paradigme, der er kendt som MapReduce. Et distribueret filsystem er et filsystem, der styrer opbevaring på tværs af en netværksklynge af maskiner. HDFS gemmer data i blokke, enheder, hvis standardstørrelse er 64 MB. Filer, som du vil gemme i ...
Række Taster i HBase Data Model - dummier
HBase data butikker består af en eller flere tabeller, som er indekseret med radnøgler. Data lagres i rækker med kolonner, og rækker kan have flere versioner. Som standard implementeres dataudvikling til rækker med tidsstempler. Logisk visning af kundens kontaktoplysninger i HBase Row Nøglekolonnefamilie: {Column Qualifier: Version: Value} 00001 Kundenavn: ...
Regioner i HBase - dummies
Regionservers er en ting, men du skal også se på, hvordan de enkelte regioner arbejder. I HBase er en tabel både spredt over en række RegionServers samt består af individuelle regioner. Efterhånden som tabellerne splittes, bliver splittelserne regioner. Regioner opbevarer en række nøgleværdipar, og hver ...
Maskine Læring med Mahout i Hadoop - dummies
Maskinindlæring refererer til en gren af kunstig intelligenssteknik, der giver værktøjer, der gør det muligt at computere til at forbedre deres analyse baseret på tidligere begivenheder. Disse computersystemer udnytter historiske data fra tidligere forsøg på at løse en opgave for at forbedre præstationen af fremtidige forsøg på lignende opgaver. Med hensyn til forventede resultater, maskine læring ...
Kører programmer inden Hadoop 2 - dummies
Fordi mange eksisterende Hadoop-implementeringer stadig ikke bruger endnu en ressourceforhandler ( YARN), kig hurtigt på, hvordan Hadoop lykkedes sin databehandling inden Hadops 2-dage. Konsentrere sig om den rolle, som JobTracker master daemons og TaskTracker slave daemons spillede i håndtering af MapReduce-behandling. Hele punktet med at anvende distribuerede systemer ...
Risikomodellering med Hadoop-dummies
Risikomodellering er en anden vigtig anvendelsesformål, der er udnyttet af Hadoop. Du vil opdage, at det er tæt på brugen af bedrageri påvisning, fordi det er en modelbaseret disciplin. Jo flere data du har, og jo flere du kan "forbinde prikkerne", desto oftere vil dine resultater give bedre risikovurderingsmodeller. Det altomfattende ord ...
Master nodes i Hadoop Clusters - dummies
Master nodene i distribuerede Hadoop clusters er vært for de forskellige lagrings- og behandlingsstyringstjenester, beskrevet i denne liste for hele Hadoop-klyngen. Redundans er afgørende for at undgå enkelte punkter med fejl, så du kan se to kontakter og tre master noder. NameNode: Håndterer HDFS-lagring. For at sikre høj tilgængelighed har du både en aktiv ...
At køre statistiske modeller i Hadoop's MapReduce - dummies
Konvertere statistiske modeller til at køre parallelt er en udfordrende opgave. I det traditionelle paradigme til parallel programmering reguleres hukommelsesadgang ved brug af tråde - delprocesser oprettet af operativsystemet til at distribuere en enkelt delt hukommelse på tværs af flere processorer. Faktorer som raceforhold mellem konkurrerende tråde - når to eller ...
Planlægning og koordinering af Oozie-arbejdsprocesser i Hadoop-dummies
Efter at du har oprettet et sæt arbejdsprocesser, kan du brug en række Oozie koordinator jobs til at planlægge, når de udføres. Du har to planlægningsmuligheder for udførelse: en bestemt tid og tilgængeligheden af data i forbindelse med en bestemt tid. Tidsbaseret planlægning af Oozie koordinator job Oozie koordinator job kan planlægges at ...
Scripting med gris latin i Hadoop - dummies
Hadoop er et rigt og hurtigt udviklende økosystem med et voksende sæt nye applikationer. I stedet for at forsøge at holde op med alle kravene til nye muligheder, er Pig designet til at blive udvidet via brugerdefinerede funktioner, også kendt som UDF'er. UDF'er kan skrives i en række programmeringssprog, herunder Java, Python og ...
Slave node og diskfejl i HDFS - dummies
Som død og skat, diskfejl , selv knudepunkter eller rackfejl) er uundgåelige i Hadoop Distributed File System (HDFS). I det viste eksempel kunne klyngen fortsætte med at fungere, selvom en rack skulle svigte. Resultatet vil lide, fordi du har mistet halvdelen af dine behandlingsressourcer, men systemet er stadig online ...
Opsæt Hadoop miljøet med Apache Bigtop - dummies
Hvis du er komfortabel med at arbejde med VM og Linux , er du velkommen til at installere Bigtop på en anden VM end hvad der anbefales. Hvis du er rigtig fed og har hardwaren, så prøv at installere Bigtop på en klynge af maskiner i fuldt distribueret tilstand! Trin 1: Downloading af en VM Hadoop kører på alle populære Linux ...
Slave Noder i Hadoop Clusters - dummies
I et Hadoop univers, slave noder er hvor Hadoop data er gemt og hvor data forarbejdning finder sted. Følgende tjenester gør det muligt for slave noder at gemme og behandle data: NodeManager: Koordinerer ressourcerne til en enkelt slave node og rapporterer tilbage til Resource Manager. ApplicationMaster: Sporer fremskridtene i alle de opgaver, der kører på ...
Slave Noder i Hadoop Distributed File System (HDFS) - dummier
I en Hadoop-klynge , hver data node (også kendt som en slave node) kører en baggrundsproces ved navn DataNode. Denne baggrundsproces (også kendt som en dæmon) holder styr på de skiver af data, som systemet gemmer på sin computer. Det taler regelmæssigt til masterserveren for HDFS (kendt som navnetNode) til ...
SQL's betydning for Hadoop-dummies
Der er overbevisende grunde til, at SQL har vist sig at være elastisk. IT-branchen har haft 40 års erfaring med SQL, da den blev udviklet af IBM i begyndelsen af 1970'erne. Med stigningen i vedtagelsen af relationelle databaser i 1980'erne er SQL siden blevet en standard færdighed for de fleste it ...
Sqoop 2. 0 Preview - dummies
Med hele succesen omkring Sqoop 1. x ved sin eksamen fra Apache-inkubatoren , Sqoop har fart! Så som du måske forventer, er Sqoop 2. 0 i arbejdet med spændende nye funktioner undervejs. Du kan se, at Sqoop 1. 99. 3 kan downloades, komplet med dokumentation. Du spekulerer nok på, hvor mange 1. 99. x udgivelser vil være ...
Connectorer og drivere - dummies
-Koblinger går generelt hånd i hånd med en JDBC-driver. Sqoop pakker ikke JDBC-drivere, fordi de normalt er proprietære og licenseret af RDBMS eller DW-sælgeren. Så der er tre mulige scenarier for Sqoop, afhængigt af typen af datahåndteringssystem (RDBM
Sqoop Eksporter ved hjælp af opdaterings- og opdateringsindsætningen - dummies
Med indsætningsmodus, arkiver eksporteret af Sqoop er vedlagt til slutningen af måltavlen. Sqoop giver også en opdateringsfunktion, som du kan bruge ved at give argumentet kommandolinje argumentet. Denne handling får Sqoop til at generere en SQL UPDATE-sætning til at køre på RDBMS eller datalager. Antag, at du ...
SQuirreL som Hive Client med JDBC Driver - dummies
SQuirreL SQL er et open source værktøj, der fungerer som en Hive klient. Du kan downloade denne universelle SQL-klient fra SourceForge-webstedet. Det giver en brugergrænseflade til Hive og forenkler opgaverne med at forespørge store tabeller og analysere data med Apache Hive. Figuren illustrerer hvordan Hive-arkitekturen ville fungere, når ...
Social Sentiment Analyse med Hadoop - dummies
Social sentimentanalyse er let den mest overhypede af Hadoop-anvendelserne, som skal være ingen overraskelse, da verden er konstant forbundet og den nuværende ekspressive befolkning. Denne brugstilfælde udnytter indhold fra fora, blogs og andre sociale medier til at udvikle en følelse af, hvad folk laver (for eksempel livshændelser) ...
Kommandoprogrammerne Hadoop dfsadmin - dummies
Dfsadmin-værktøjerne er et specifikt sæt værktøjer, der er udviklet til at hjælpe dig med at udrydde oplysninger om dit Hadoop Distributed File system (HDFS). Som en ekstra bonus kan du også bruge dem til at udføre nogle administrationsoperationer på HDFS. Mulighed for hvad det gør - rapporter rapporter grundlæggende filsystem information og statistik. -safemode enter | ...
Tag HBase til en testkørsel - dummier
Her finder du ud af, hvordan du henter og installerer HBase i standalone tilstand . Det er utroligt nemt at installere HBase og begynde at bruge teknologien. Bare husk, at HBase typisk implementeres på en klynge af råvareservere, selvom du også nemt kan implementere HBase i en selvstændig konfiguration i stedet for at lære eller demonstrere ...
Hybrid Data Preprocess Option i Hadoop - dummies
Udover at skulle lagre større mængder af kolde data, Et tryk, du ser i traditionelle datalagre, er, at stigende mængder behandlingsressourcer bruges til transformation (ELT) arbejdsbyrder. Tanken bag at bruge Hadoop som en forarbejdningsmotor til at håndtere datatransformation betyder, at dyrebare behandlingscyklusser frigøres, hvilket gør det muligt at ...
Arkitekturen af Apache Hive - dummies
Som du undersøger elementerne i Apache Hive vist, kan du se i bunden at Hive sidder oven på Hadoop Distributed File System (HDFS) og MapReduce-systemer. I tilfælde af MapReduce har figurerne både Hadoop 1 og Hadoop 2 komponenterne. Med Hadoop 1 konverteres Hive-forespørgsler til MapReduce-kode ...
Hadoop-Based Landing Zone - dummies
, Når du forsøger at finde ud af, hvad et analysemiljø kan se ud i Fremtiden, du snuble over mønsteret af Hadoop-baserede landingszone gang på gang. Faktisk er det ikke længere en futuresorienteret diskussion, fordi landingszonen er blevet den måde, som fremadrettede virksomheder nu forsøger at redde IT ...
Begrænsningerne for prøveudtagning i Hadoop - dummies
Statistiske analyser er langt fra at være et nyt barn i blokken, og Det er helt sikkert gamle nyheder, at det afhænger af at behandle store mængder data for at få nyt indblik. Imidlertid er mængden af data, der traditionelt behandles af disse systemer, i intervallet mellem 10 og 100 (eller hundredvis af) gigabyte - ...
HBase MasterServer - dummies
, Der starter en diskussion af HBase (Hadoop Database) arkitekturen ved at beskrive RegionServers i stedet for MasterServer, kan overraske dig . Udtrykket RegionServer synes at betyde, at det afhænger af (og er sekundært til) MasterServer, og at du derfor bør diskutere MasterServer først. Som den gamle sang går, er det dog ikke nødvendigvis sådan. "The ...
Nøglerne til vellykket vedtagelse af Hadoop - dummies
I et seriøst Hadoop-projekt, bør du starte med at samarbejde med IT Ledere fra VP'er ned for at hjælpe med at løse dine forretningers smertepunkter - disse problemer (rigtige eller opfattede), der vækker stor i alles hjerne. Virksomheder ønsker at se værdi fra deres it-investeringer, og med Hadoop kan det komme i en række ...
Hive CLI Client-dummies
Den første Hive-klient er Hive-kommandolinjegrænsefladen (CLI). For at beherske de finere punkter i Hive CLI-klienten, kan det hjælpe med at gennemgå den (lidt travle) Hive-arkitektur. I den anden figur er arkitekturen strømlinet for kun at fokusere på de komponenter, der kræves, når du kører CLI. Disse er komponenterne ...
HBase Client Ecosystem - dummies
HBase er skrevet i Java, et elegant sprog til opbygning af distribuerede teknologier som HBase, men ansigt det - ikke alle, der ønsker at udnytte HBase-innovationer, er en Java-udvikler. Derfor er der et rigt HBase klientekosystem derude, hvis eneste formål er at gøre den store Java løft for dig og ...
MapReduces betydning i Hadoop - dummies
For det meste af Hadops historie har MapReduce været det eneste spil i byen når det kommer til databehandling. Tilgængeligheden af MapReduce har været årsagen til Hadops succes og samtidig en vigtig faktor i begrænsningen af yderligere adoption. MapReduce gør det muligt for dygtige programmører at skrive distribuerede applikationer uden at skulle bekymre sig om ...
Attributterne til HBase - dummies
HBase (Hadoop Database) er en Java implementering af Googles BigTable. Google definerer BigTable som et "sparsomt, distribueret, vedholdende multidimensionalt sorteret kort. "Det er en ganske kortfattet definition, men du er også enig i, at det er lidt på den komplekse side. For at nedbryde BigTables kompleksitet lidt følger en diskussion af hver attribut. Hbase er sparsom ...
Grisarkitekturen i Hadoop-dummies
"Simple" betyder ofte "elegant" når det kommer til de arkitektoniske tegninger til det nye Silicon Valley palæ, du har planlagt til, når pengene begynder at rulle ind, efter at du har implementeret Hadoop. Det samme princip gælder for softwarearkitektur. Svin består af to (tæller dem, to) komponenter: Sproget selv: Som bevis på, at programmører ...
MapReduce Application Flow i Hadoop - dummies
I kernen, MapReduce er en programmeringsmodel til behandling af datasæt, der opbevares på en distribueret måde over en Hadoop-klynges slaveknude. Nøglebegrebet her er opdeling og erobring. Specifikt vil du bryde et stort datasæt i mange mindre stykker og behandle dem parallelt med den samme algoritme. ...