Hjem Personlig finansiering Log data analyse med Hadoop - dummies

Log data analyse med Hadoop - dummies

Video: Big Data analysis Hadoop with Mapreduce, HIVE, PIG , Zookeeper and Spark class 9 2024

Video: Big Data analysis Hadoop with Mapreduce, HIVE, PIG , Zookeeper and Spark class 9 2024
Anonim

Loganalyse er en almindelig brugssag til et indledende Hadoop-projekt. Faktisk var Hadoops tidligste anvendelser til den omfattende analyse af clickstream logs - logs, der registrerer data om de websider, som folk besøger, og i hvilken rækkefølge de besøger dem.

Alle loggene af data, der genereres af din it-infrastruktur, kaldes ofte dataudstødning. En log er et biprodukt fra en fungerende server, ligesom røg, der kommer fra en arbejdsmotorens udstødningsrør. Dataudslip har konnotationen for forurening eller affald, og mange virksomheder går utvivlsomt ind på denne slags data med den tankegang.

Logdata vokser ofte hurtigt, og på grund af de producerede høje mængder kan det være kedeligt at analysere. Og den potentielle værdi af disse data er ofte uklar. Så fristelsen i it-afdelinger er at gemme denne log data i så lidt tid som rimeligt muligt. (Når alt kommer til alt, koster det penge for at bevare data, og hvis der ikke er nogen opfattet forretningsmæssig værdi, hvorfor gem den?)

Men Hadoop ændrer matematikken: Omkostningerne ved opbevaring af data er forholdsvis billige, og Hadoop blev oprindeligt udviklet specielt til storskala batch behandling af log data.

Logbrugsanalysens brug er et nyttigt sted at starte din Hadoop-rejse, fordi chancerne er gode, at de data, du arbejder med, bliver slettet eller "faldt til gulvet. "Nogle virksomheder, der konsekvent registrerer en terabyte (TB) eller mere af kundens webaktivitet om ugen, kasserer dataene uden analyse (hvilket gør dig i tvivl om hvorfor de generede at samle det).

For at komme i gang hurtigt, er dataene i denne brugssag sandsynligvis let at få, og omfatter generelt ikke de samme problemer, du vil støde på, hvis du starter din Hadoop-rejse med andre (styrede) data.

Når industrianalytikere diskuterer de hurtigt voksende mængder data, der findes (4. 1 exabyte fra 2014 - mere end 4 millioner 1TB harddiske), tegner logdata for meget af denne vækst. Og ikke underligt: ​​Næsten alle aspekter af livet resulterer nu i frembringelsen af ​​data. En smartphone kan generere hundredvis af logindgange pr. Dag for en aktiv bruger, der sporer ikke kun tale, tekst og dataoverførsel, men også geolokationsdata.

De fleste husstande har nu klare målere, der logger deres elforbrug. Nyere biler har tusindvis af sensorer, der registrerer aspekter af deres tilstand og brug. Hvert klik og mus bevægelse du laver, mens du surfer på internettet, forårsager en kaskade af logposter, der skal genereres.

Hver gang du køber noget - selv uden at bruge et kreditkort eller betalingskort - registrerer systemet aktiviteten i databaser - og i logfiler.Du kan se nogle af de mere almindelige kilder til logdata: it-servere, web-klikstrømme, sensorer og transaktionssystemer.

Hver industri (såvel som alle de logtyper, der netop er beskrevet) har det enorme potentiale for værdifuld analyse - især når du kan nulle ind på en bestemt type aktivitet og derefter korrelere dine resultater med et andet datasæt for at give kontekst.

Som eksempel, overvej denne typiske web-baserede browsing og købsoplevelse:

  1. Du surfer på webstedet og leder efter varer, der skal købes.

  2. Du klikker for at læse beskrivelser af et produkt, der fanger dit øje.

  3. Til sidst tilføjer du en vare til din indkøbskurv og fortsæt til kassen (købsånden).

Efter at have set fragtomkostningerne bestemmer du dog, at varen ikke er prisen værd, og du lukker browservinduet. Hvert klik du har lavet - og derefter standsede - har potentialet til at tilbyde værdifuld indsigt til virksomheden bag dette e-handelssite.

I dette eksempel går ud fra, at denne virksomhed indsamler klikstrømdata (data om hvert klik med mus og sidevisning, som en besøgende "rører") med det formål at forstå, hvordan man bedre kan betjene sine kunder. En fælles udfordring blandt e-handelsvirksomheder er at genkende nøglefaktorerne bag forladte indkøbsvogne. Når du udfører en dybere analyse af clickstream-dataene og undersøger brugeradfærd på webstedet, er mønstre bundet til at dukke op.

Kender din virksomhed svaret på det tilsyneladende simple spørgsmål, "Er visse produkter forladt mere end andre? "Eller svaret på spørgsmålet," Hvor meget indtjening kan genindvindes, hvis du reducerer vognabonnementet med 10 procent? "Det følgende giver et eksempel på, hvilke rapporter du kan vise til dine virksomhedsledere for at søge deres investering i din Hadoop-sag.

For at komme til det punkt, hvor du kan generere dataene til at oprette de viste grafikker, isolerer du webs browsing sessioner af individuelle brugere (en proces kaldet sessionering) , identificerer indholdet i deres indkøbsvogne, og derefter etablere transaktionens tilstand i slutningen af ​​sessionen - alt ved at undersøge klikstrømdataene.

Følgende er et eksempel på, hvordan man opstiller brugernes webs browsing sessioner ved at gruppere alle klik og webadresser efter IP-adresse.

I en Hadoop-sammenhæng arbejder du altid med nøgler og værdier - hver fase af MapReduce input og output data i sæt af nøgler og værdier. Nøglen er IP-adressen, og værdien består af tidsstempel og URL. Under kortfasen samles bruger sessioner parallelt for alle filblokke i clickstream datasættet, der er gemt i din Hadoop-klynge.

Kortfasen returnerer disse elementer:

  • Den endelige side, der er besøgt

  • En liste over varer i indkøbskurven

  • Transaktionens tilstand for hver brugersession (indekseret af IP-adresse nøglen) < Reducenten opfanger disse optegnelser og udfører aggregeringer for at summe antallet og værdien af ​​vogne, der er forladt om måneden, og for at tilvejebringe totaler af de mest almindelige endelige sider, som nogen har set før afslutningen af ​​brugerens session.

Log data analyse med Hadoop - dummies

Valg af editor

Hvad er nyt i Microsoft Word 2016? - dummies

Hvad er nyt i Microsoft Word 2016? - dummies

Udgivelsen af ​​Microsoft Word i 2016 er funktionel pakket og kan prale af evnen til at forenkle arbejdsgange og forene arbejdsgrupper. Hvad det betyder for dig er, at det er et meget lettere produkt at bruge i forhold til tidligere versioner. Med funktionelle ændringer, der er indbygget i knapper og faner af Word 2016s båndformede proceslinje, har den ...

Word 2010 Tastaturgenveje - Dummies

Word 2010 Tastaturgenveje - Dummies

Word 2010 tilbyder en række nyttige tastaturgenveje til hurtigt at udføre opgaver. Her er nogle genveje til almindelig Word-formatering, redigering og fil- og dokumentopgaver. Word 2010 Formatering Genveje Kommando Genvej Bånd Placering Fed Ctrl + B Startside Fane, Skrifttype Gruppe Kursiv Ctrl + I Startside, Skriftgruppe Understrege Ctrl + U Startside Fane, Skriftgruppe Center Ctrl + E ...

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 For Dummies Cheat Sheet - dummies

Word 2007 ser anderledes ud, men tilbyder stadig de praktiske Word hæfteklammer som f.eks. tastaturgenveje til at hjælpe dig med at oprette, formatere, indsætte ting i og flytte gennem dine Word-dokumenter. Og Word 2007 tilbyder også et par nye funktioner, der hjælper dig med at håndtere din tekstbehandling med lethed.

Valg af editor

ASVAB Montering af objekter Subtest: Shapes - dummies

ASVAB Montering af objekter Subtest: Shapes - dummies

Mange mennesker kan finde den anden type montering af objekter problem på ASVAB lettere end forbindelsesproblemerne. Denne type problem er meget som et puslespil, medmindre det ikke resulterer i et billede af Frihedsgudinden eller et kort over USA. Der er også en heck of a ...

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

ASVAB Aritmetisk Reasoning Subtest: Viser Sammenligninger med Ratioer - Dummies

Du skal vide, hvordan du arbejde med forhold for den aritmetiske begrundelse subtest af ASVAB. Et forhold viser et forhold mellem to ting. For eksempel, hvis Margaret investerede i hendes tatoveringslokale i forholdet 2: 1 (eller 2 til 1) til hendes forretningspartner Julie, satte Margaret $ 2 for hver ...

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

ASVAB Auto & Shop Information Undertest: Drilling, Punching og Gouging Tools - dummies

Nej, det handler ikke om hånd-til-hånd kamp træning fra grundlæggende træning. Imidlertid vil ASVAB teste din viden om, hvor praktisk du er med boring, stansning og gouging-værktøjer. Masters i butikskunst gør ofte huller i det materiale, de arbejder med for at opbygge det perfekte fuglehus (eller hvad de arbejder på). ...

Valg af editor

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

EMT-eksamen: Sådan arbejder du med et team under et nødsituation

Arbejder helt alene som en EMT er ekstremt sjælden. Selv under disse omstændigheder vil du sandsynligvis interagere med andre sundhedspleje- og offentlige sikkerhedsudbydere på et eller andet tidspunkt under et opkald. Mere sandsynligt vil du fungere som medlem af et hold. Det kan være en enkelt partner, et brandmandsbesætningsmedlem eller endda en nødsituation ...

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

EMT-eksamen: Sådan dokumenterer du dine tilfælde - dummier

Til eksamen og i feltet EMT er forpligtet til at dokumentere, hvad du observerede om patienten og miljøet, de resultater, du vurderede, den omhu du gav, og eventuelle ændringer i patientens tilstand, mens du var i din pleje. Dokumentation kan ske enten på papirformularer eller elektronisk med en computer, bærbar computer, ...