Hjem Personlig finansiering Hadoop som en arkivdata destination - dummies

Hadoop som en arkivdata destination - dummies

Video: Hops - Hadoop Open Platform-As-a-Service – RISE SICS 2024

Video: Hops - Hadoop Open Platform-As-a-Service – RISE SICS 2024
Anonim

Den billige pris for lagring til Hadoop plus muligheden for at forespørge Hadoop-data med SQL gør Hadoop til den primære destination for arkivdata. Denne brugs sag har en lille indflydelse på din organisation, fordi du kan begynde at opbygge din Hadoop-færdighed på data, der ikke er gemt på ydeevne-missionskritiske systemer.

Desuden behøver du ikke arbejde hårdt for at få adgang til dataene. (Da arkiverede data normalt gemmes på systemer med lav brug, er det lettere at komme videre end data, der er i "rampelyset" på ydeevne-kritiske systemer, som datalagre.) Hvis du allerede bruger Hadoop som landing zone, du har grundlaget for dit arkiv! Du behold blot hvad du vil arkivere og slette, hvad du ikke gør.

Hvis du tænker på Hadops landingszone, udvider forespørgselsarkivet, som vist i figuren, værdien af ​​Hadoop og begynder at integrere stykker, der sandsynligvis allerede findes i din virksomhed. Det er et godt eksempel på at finde stordriftsfordele og omkostningsmuligheder ved at bruge Hadoop.

Her forbinder arkivkomponenten landingsområdet og datalageret. De data, der arkiveres, stammer fra lageret og opbevares derefter i Hadoop-klyngen, som også forsyner landingsområdet. Kort sagt, du kan bruge samme Hadoop-klynge til at arkivere data og fungere som din landingszone.

Den vigtigste Hadoop-teknologi, du vil bruge til at udføre arkiveringen, er Sqoop, som kan flytte dataene, der skal arkiveres fra datalageret til Hadoop. Du skal overveje, hvilken form du vil have dataene til at tage i din Hadoop-klynge. Generelt er komprimerede Hive-filer et godt valg.

Du kan selvfølgelig omdanne dataene fra lagerstrukturerne til en anden form (for eksempel en normaliseret form for at reducere redundans), men det er generelt ikke en god idé. Ved at holde dataene i samme struktur som i lageret bliver det meget nemmere at udføre en komplet datasæt forespørgsel på tværs af de arkiverede data i Hadoop og de aktive data, der er på lageret.

Begrebet spørger både de aktive og arkiverede datasæt giver en anden overvejelse: Hvor mange data skal du arkivere? Der er virkelig to fælles valg: arkiver alt som data tilføjes og ændres i datalageret, eller arkiver kun de data, du anser for at være kolde.

Arkivering af alt har den fordel, at du nemt kan udstede forespørgsler fra en enkelt grænseflade på tværs af hele datasættet - uden et fuldt arkiv, skal du finde ud af en fødereret forespørgselsløsning, hvor du skal forene resultaterne fra arkivet og det aktive datalager.

Men ulempen her er, at regelmæssige opdateringer af dit datalagers varme data ville medføre hovedpine for Hadoop-baserede arkiver. Dette skyldes, at eventuelle ændringer i data i individuelle rækker og kolonner kræver grove sletning og re-katalogisering af eksisterende datasæt.

Nu er arkivdata gemt i din Hadoop-baserede landingszone (forudsat at du bruger en indstilling som de komprimerede Hive-filer, der er nævnt tidligere), kan du spørge det. Det er her, hvor SQL på Hadoop-løsninger kan blive interessante.

Et glimrende eksempel på, hvad der er muligt, er, at analyseværktøjerne (til højre i figuren) direkte kan udføre rapporter eller analyser på de arkiverede data, der er gemt i Hadoop. Dette er ikke at erstatte data warehouse - Hadoop ville trods alt ikke kunne matche lagerets præstationsegenskaber til at understøtte hundredvis af eller flere samtidige brugere, der stillede komplekse spørgsmål.

Pointen her er, at du kan bruge rapporteringsværktøjer mod Hadoop til at eksperimentere og komme med nye spørgsmål til at svare i et dedikeret lager eller mart.

Når du starter dit første Hadoop-baserede projekt til arkivering af lagerdata, må du ikke bryde de nuværende processer, før du har testet dem fuldt ud på din nye Hadoop-løsning. Med andre ord, hvis din nuværende lagerstrategi er at arkivere til bånd, skal du holde denne proces på plads og dobbelt arkivere dataene i Hadoop og tape, indtil du har testet scenariet fuldt ud (hvilket typisk vil omfatte genopretning af lagerdataene i tilfælde af et lagerfejl).

Selv om du opretholder (på kort sigt) to arkivbeholdninger, har du en robust infrastruktur på plads og testet, før du frigiver en forsøgt og sand proces. Denne proces kan sikre, at du forbliver ansat - hos din nuværende arbejdsgiver.

Denne brugssag er enkel, fordi der ikke er nogen ændring i det eksisterende lager. Forretningsmålet er stadig det samme: Billigere lager- og licensomkostninger ved at overføre sjældent brugte data til et arkiv. Forskellen i dette tilfælde er, at teknologien bag arkivet er Hadoop snarere end offline-opbevaring, som tape.

Derudover er forskellige arkivleverandører begyndt at indarbejde Hadoop i deres løsninger (for eksempel at lade deres proprietære arkivfiler opholde sig på HDFS), så forvent kapaciteterne på dette område at udvides snart.

Når du udvikler Hadoop-færdigheder (som udveksling af data mellem Hadoop og relationsdatabaser og forespørgselsdata i HDFS) kan du bruge dem til at løse større problemer, såsom analyseprojekter, som kunne give yderligere værdi for din organisations Hadoop-investering.

Hadoop som en arkivdata destination - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...