Pig Latin Application Flow i Hadoop-dummies
I sin kerne er Pig Latin et dataflow-sprog, hvor du definerer en datastrøm og en række transformationer, der anvendes til dataene, som det strømmer gennem din ansøgning. Dette er i modsætning til et kontrolflow sprog (som C eller Java), hvor du skriver en række instruktioner. I kontrolflow ...
Principperne for Sqoop Design - dummies
Når det kommer til Sqoop, er et billede ofte tusind ord, så Tjek figuren, som giver dig et fugleperspektiv på Sqoop-arkitekturen. Ideen bag Sqoop er, at den udnytter kortopgaver - opgaver, der udfører parallel import og eksport af relationsdatabase tabeller - lige indenfor ...
Reduktionsfasen af Hadoop's MapReduce Application Flow-dummies
Reduktionsfasen behandler nøglerne og deres individuelle lister af værdier, så det, der normalt returneres til klientprogrammet, er et sæt nøgle / værdipar. Her er blow-by-blow hidtil: Et stort datasæt er opdelt i mindre stykker, kaldet input splits, og individuelle forekomster af mapper opgaver har behandlet hver ...
Webbrowseren som Hive Client-dummies
Ved hjælp af Hive CLI kræver kun en kommando for at starte Hive Shell, men når du ønsker at få adgang til Hive ved hjælp af en webbrowser, skal du først starte HWI-serveren og derefter pege din browser til den port, hvor serveren lytter. Følgende illustrerer, hvordan denne type Hive-klient ...
Map-programmet af Hadoop's MapReduce Application Flow-dummies
En MapReduce-applikation behandler dataene i indgangsklover på en rekord-for-rekord basis, og at hver post forstås af MapReduce som et nøgle / værdi par. Når inddelingsopdelingerne er blevet beregnet, kan mapperopgaverne begynde at behandle dem - det vil sige lige efter, at ressourceadministratorens planlægningsfacilitet tildeler dem deres behandlingsressourcer. ...
YARN Arkitekturen i Hadoop - dummies
YARN, for dem, der netop ankommer til denne særlige fest, står for endnu en ressource Negotiator, et værktøj, der gør det muligt at køre andre databehandlingsrammer på Hadoop. YARNs herlighed er, at den præsenterer Hadoop med en elegant løsning på en række langvarige udfordringer. Garn er beregnet til at give en mere effektiv og ...
Hvad SQL Access Actually Means - dummies
Er en række virksomheder investeret kraftigt i at drive open source-projekter og proprietære løsninger til SQL-adgang til Hadoop-data. Når du hører termen SQL-adgang, bør du vide, at du er afhængig af nogle få grundlæggende forudsætninger: Sprogstandarder: Den vigtigste standard indebærer selvfølgelig selve sproget. Mange "SQL-lignende" løsninger eksisterer, ...
YARNs applikationsmester i Hadoop - dummies
I modsætning til andre YARN (endnu en ressourceforhandler) komponenter, ingen komponent i Hadoop 1 kort direkte til Application Master. I det væsentlige er dette arbejde, som JobTracker gjorde for hver applikation, men implementeringen er radikalt anderledes. Hver applikation, der kører på Hadoop-klyngen, har sin egen, dedikerede Application Master-forekomst, som faktisk kører i ...
Shuffle-fasen af Hadoop's MapReduce Application Flow-dummies
Efter Map-fasen og før begyndelsen af Reducer fase er en håndoff proces, kendt som shuffle og sortering. Her udarbejdes data fra mapperopgaverne og flyttes til noderne, hvor reduktionsopgaverne bliver kørt. Når mapper-opgaven er færdig, sorteres resultaterne efter nøgle, opdelt hvis ...
Hvornår gør HBase mening for dig? - dummies
Så hvornår skal du overveje at bruge HBase? Selvom svaret på dette spørgsmål ikke nødvendigvis er ligetil for alle, skal du for det første klart have et stort datakrav og tilstrækkelige hardwareressourcer. Et stort datakrav: Terabytes til petabytes-ellers har du mange ledige servere i dine racks. Tilstrækkelige hardware ressourcer: Fem servere ...
YARNs Node Manager i Hadoop - dummies
Hver slave node i Endnu en anden ressourceforhandler (YARN) har en Node Manager daemon , som fungerer som en slave for Resource Manager. Som med TaskTracker har hver slave node en tjeneste, der binder den til behandlingstjenesten (Node Manager) og lagertjenesten (DataNode), der gør det muligt for Hadoop at være et distribueret system. ...
YARNs Resource Manager - dummies
Kernekomponenten i YARN (endnu en ressourceforhandler) er Resource Manager, der styrer alle de databehandlingsressourcer i Hadoop-klyngen. Enkelt sagt er Resource Manager en dedikeret scheduler, der tildeler ressourcer til at anmode om applikationer. Dens eneste opgaver er at opretholde en global opfattelse af alle ressourcer i klyngen, der håndterer ...
Tracking JobTracker og TaskTracker i Hadoop 1 - dummies
MapReduce behandling i Hadoop 1 håndteres af JobTracker og TaskTracker dæmoner. JobTracker opretholder en oversigt over alle tilgængelige behandlingsressourcer i Hadoop-klyngen, og når ansøgningsanmodninger kommer ind, planlægger og distribuerer de dem til TaskTracker-noderne til udførelse. Da applikationer kører, modtager JobTracker statusopdateringer fra ...
High-Speed Data Caching med NoSQL - dummies
Med NoSQL, har du hurtig data caching. Forestil dig, at du er bankmand med tre andre kolleger, der arbejder. Du har hver en linje af mennesker, der skal serveres. En af kunderne holder imidlertid ved at komme i kø for at spørge om hans check er blevet indbetalt endnu og beløbet krediteret til sin konto. Når du ...
Sådan kommunikerer du indsigt fra store data - dummier
Store data kan hjælpe dig med at få indsigt. Virksomheder får en konkurrencemæssig fordel, når de rigtige oplysninger leveres til de rigtige mennesker på det rigtige tidspunkt. Det betyder at udtrække indsigt og information fra data og formidle dem til beslutningstagere på en måde, som de nemt kan forstå. Når alt kommer til alt, er folk mindre tilbøjelige til at handle, hvis de ...
Zookeeper og HBase Pålidelighed - dummies
Zookeren er en distribueret klynge af servere, der samlet leverer pålidelige koordinerings- og synkroniseringstjenester til grupperede applikationer . Helt sikkert kan navnet "Zookeeper" synes at være et mærkeligt valg, men når du forstår hvad det gør for en HBase-klynge, kan du se logikken bag den. Når du bygger og debugging distribueres ...
Overførsel fra en RDBMS-model til HBase-dummies
Hvis du står over for designfasen til din ansøgning og du tror, at HBase ville være en god pasform, så er det den rigtige tilgang at designe dine rækkenøgler og skema, så de passer til HBase-datamodellen og arkitekturen. Men nogle gange giver det mening at flytte en database oprindeligt designet til en RDBMS til HBase. A ...
Højhastighedstastadgang med NoSQL-dummies
Nøgleværdisbutikker i NoSQL handler om hastighed. Du kan bruge forskellige teknikker til at maksimere denne hastighed, fra caching data, til at have flere kopier af data, eller ved at bruge de mest passende opbevaringsstrukturer. Caching data i hukommelse Da data er let tilgængelige, når den er gemt i RAM (random access memory), vælges en nøgleværdi butik, der ...
Hvordan man udvikler et godt styret og sikkert stort datamiljø - dummier
En tankevækkende og velkontrolleret tilgang til sikkerhed kan lykkes i at mildne mod mange sikkerhedsrisici. Du skal udvikle et sikkert stort datamiljø. En ting du kan gøre er at evaluere din nuværende tilstand. I et stort datamiljø begynder sikkerheden at vurdere din aktuelle tilstand. Et godt sted at starte er ved at ...
Sådan styrer du variabel orden i et datasæt - dummier
Rækkefølgen af variabler (kolonner) i et datasæt er normalt kun et spørgsmål om, hvordan de blev arrangeret i kildefilen eller den database forespørgsel, der blev brugt til at importere dem. Det arrangement er måske ikke praktisk for dig. Hvis du har mange variabler, kan det være svært at se dem, du vil have ...
Sådan får du data fra KNIME - dummies
Dit første hånd på trin med data får det fra hvor som helst det er til det sted, hvor du har brug for det. Tekstformater er almindelige, og du vil sandsynligvis støde på dem ofte. En af de mest almindelige er kommasepareret værdi (.csv) tekst. KNIME. com AG er et lille software- og serviceselskab med fokus på data ...
Sådan hentes data fra Orange - dummies
Bioinformatiklaboratoriet i fakultetet for computer- og informationsvidenskab, University of Ljubljana, Slovenien, udvikler Orange i samarbejde med et open source-fællesskab. For at åbne prøvedataene i Orange skal du følge disse trin:
Sådan får du data fra RapidMiner - dummies
RapidMiner er et lille software- og servicefirma med fokus på data mining. Det tilbyder et data minedrift produkt med en visuel programmering interface. Følg disse trin for at åbne prøvedataene i RapidMiner:
Sådan får du data fra Weka-dummies
Universitetet i Waikato-fakultetets medlemmer udvikler værktøjer som led i deres arbejde mod fremskridt inden for maskinindlæring. Disse værktøjer bruges til undervisning, forskere og i industrien. Weka er dets generelle data-minedrift værktøj, der tilbyder en visuel programmering grænseflade og en bred vifte af analytics kapaciteter. MOA er til minedrift i realtid ...
Håndtering af partitioner i NoSQL - dummies
Ordet partition bruges til to forskellige begreber i NoSQL land. En datadeling er en mekanisme til at sikre, at data fordeles jævnt over en klynge. På den anden side opstår der en netværkspartition, når to dele af den samme databasekluster ikke kan kommunikere. På meget store grupperede systemer er det mere sandsynligt, at ...
Hvordan man bygger business cases - dummies
Som data minearbejder, du vil have data minedrift værktøjer, tid til at vie et værdifuldt data-minedrift projekt, eller måske bare muligheden for at gøre noget nyt og forskelligt fra den sædvanlige rutine. I din forretningssag er du ikke ved at gøre noget for alle, der ønsker data minedrift. Du er ved at overbevise en bestemt gruppe ...
Hvordan man relaterer en variabel til en anden med scatterplots - dummies
Er det første skridt mod predictive modellering relateret variabler til hinanden. Et simpelt, bemærkelsesværdigt redskab til det er scatterplot. Det er vant til at forholde en kontinuerlig foranstaltning til en anden. Data minearbejdere strækker nogle gange reglerne og bruger det med kategoriske variable også. Den horisontale (x) akse i plottet repræsenterer værdier af en ...
Sådan integreres store data i diagnosen sygdomme - dummier
Over hele verden, store data Kilder til sundhedspleje skabes og stilles til rådighed for integration i eksisterende processer. Kliniske forsøgsdata, genetik og genetiske mutationsdata, proteinterapeutiske data og mange andre nye informationskilder kan høstes for at forbedre de daglige sundhedsplejeprocesser. Sociale medier kan og vil blive brugt til at øge eksisterende ...
Hybrid NoSQL Databaser - dummier
Givet rækkevidden af datatyper, der styres af NoSQL databaser, du er tilgivet, hvis du tror dig har brug for tre forskellige databaser til at styre alle dine data. Men selvom hver NoSQL-database har sit hovedmålgruppe, kan flere bruges til at styre to eller flere datastrukturer. Nogle giver endda søgning på toppen af denne kerne ...
Hvordan man prioriterer stor datakvalitet - dummier
At få det rette perspektiv på datakvaliteten kan være meget udfordrende i verden af store data. Med de fleste store datakilder skal du antage, at du arbejder med data, der ikke er rene. Faktisk er den overvældende overflod af tilsyneladende tilfældige og frakoblede data i streams af sociale medier data ...
Installerer Python på MacOS til Arbejde med Algorithms - dummies
Mac OS X-installationen leveres kun i én form : 64-bit. Inden du kan udføre installationen, skal du downloade en kopi af Mac-softwaren fra Continuum Analytics-webstedet. Installationsfilerne findes i to former. Den første afhænger af et grafisk installatør; den anden er afhængig af kommandolinjen. Kommandolinjeversionen ...
Integrere Big Data med det traditionelle datavarehus - dummies
, Mens verdens store data og de traditionelle data lageret vil krydse, de er usandsynligt at fusionere når som helst snart. Tænk på et datalager som et system for rekord for business intelligence, ligesom en CRM eller et regnskabssystem. Disse systemer er stærkt strukturerede og optimerede til specifikke formål. Derudover vil ...
Brug af undersøgelser til dataminne - dummier
Undersøgelser er nyttige til at indsamle data om næsten ethvert aspekt af mennesket liv. Du kan kun ignorere undersøgelser, hvis dit erhverv ikke har noget med folk at gøre, som f.eks. Astrofysik. Derefter har astrofysikere brug for folk til at finansiere deres forskning og vil have folk til at besøge planetarier, så de kan også have brug for undersøgelser også! Her er eksempler på ...
Identitet og adgangsstyring (IdAM) i NoSQL - dummies
Godkendelse af en bruger for adgang til information eller database funktionalitet er en ting, men før du kan gøre det, skal du være sikker på at systemet "ved", at brugeren er, som hun siger hun er. Det er her, hvor autentificering kommer ind. Autentificering kan ske inden for en bestemt database, eller det kan delegeres til ...
Hvordan man arbejder med loyalitetsprogramdata - dummier
Hvis du har et loyalitetsprogram og de data, det producerer, hvad skal du gøre med det? Som data minearbejder er det din rolle at give beslutningstagere en analyse, som understøtter virksomheden. Nogle ledere forstår loyalitetsprogrammer og kan anmode om specifikke oplysninger, måske mere af det end du har timer til ...
Undersøge variabler med stregdiagrammer og histogrammer - dummier
En grundlæggende del af dataforståelsesfasen af dataene -miningprocessen undersøger variabler en ad gangen, gennemgår deres distributioner og kontrollerer indlysende datakvalitetsproblemer. Stregdiagrammer og histogrammer er visuelle resuméer, der gør det nemt og hurtigt at forstå variable distributioner. De to diagramtyper er meget ens. Hvis variablen ...
Hold Big Data Analytics i perspektiv - dummies
Store data begynder at have en vigtig indflydelse på forretningsstrategien. På grund af den stigende betydning af store data er opretholdelse af dataanalyser i perspektiv god forretningspraksis. Virksomheder er begyndt at indse, at de kan begynde at udnytte data i hele planlægningscyklus frem for i slutningen. Som det store datamarked begynder ...
Nøgleværdisbutikker i NoSQL - dummies
Nøgleværdighedsbutikker NoSQL har en post med et id-felt - nøgle i nøgletal butikker - og et sæt data. Disse data kan være et af følgende: Et vilkårligt stykke data, som applikationsudvikleren fortolker (i modsætning til databasen) Ethvert sæt navneværdipar (kaldet bakker) Tænk på det ...
Mærkning Data - dummies
Ved hjælp af koder til data reducerer dataindtastningstiden, forhindrer fejl og reducerer hukommelseskravene til lagring af data. Men koderne er ikke meningsfulde, medmindre du har dokumentation eller etiketter for at forklare deres betydning. Nogle dataformater giver dig mulighed for at nyde fordelene ved at bruge koder, mens du holder oplysninger om betydningen af ...