Log data analyse med Hadoop - dummies - Personlig finansiering 2025

Loganalyse er en almindelig brugssag til et indledende Hadoop-projekt. Faktisk var Hadoops tidligste anvendelser til den omfattende analyse af clickstream logs - logs, der registrerer data om de websider, som folk besøger, og i hvilken rækkefølge de besøger dem.

Alle loggene af data, der genereres af din it-infrastruktur, kaldes ofte dataudstødning. En log er et biprodukt fra en fungerende server, ligesom røg, der kommer fra en arbejdsmotorens udstødningsrør. Dataudslip har konnotationen for forurening eller affald, og mange virksomheder går utvivlsomt ind på denne slags data med den tankegang.

Logdata vokser ofte hurtigt, og på grund af de producerede høje mængder kan det være kedeligt at analysere. Og den potentielle værdi af disse data er ofte uklar. Så fristelsen i it-afdelinger er at gemme denne log data i så lidt tid som rimeligt muligt. (Når alt kommer til alt, koster det penge for at bevare data, og hvis der ikke er nogen opfattet forretningsmæssig værdi, hvorfor gem den?)

Men Hadoop ændrer matematikken: Omkostningerne ved opbevaring af data er forholdsvis billige, og Hadoop blev oprindeligt udviklet specielt til storskala batch behandling af log data.

Logbrugsanalysens brug er et nyttigt sted at starte din Hadoop-rejse, fordi chancerne er gode, at de data, du arbejder med, bliver slettet eller "faldt til gulvet. "Nogle virksomheder, der konsekvent registrerer en terabyte (TB) eller mere af kundens webaktivitet om ugen, kasserer dataene uden analyse (hvilket gør dig i tvivl om hvorfor de generede at samle det).

For at komme i gang hurtigt, er dataene i denne brugssag sandsynligvis let at få, og omfatter generelt ikke de samme problemer, du vil støde på, hvis du starter din Hadoop-rejse med andre (styrede) data.

Når industrianalytikere diskuterer de hurtigt voksende mængder data, der findes (4. 1 exabyte fra 2014 - mere end 4 millioner 1TB harddiske), tegner logdata for meget af denne vækst. Og ikke underligt: Næsten alle aspekter af livet resulterer nu i frembringelsen af data. En smartphone kan generere hundredvis af logindgange pr. Dag for en aktiv bruger, der sporer ikke kun tale, tekst og dataoverførsel, men også geolokationsdata.

De fleste husstande har nu klare målere, der logger deres elforbrug. Nyere biler har tusindvis af sensorer, der registrerer aspekter af deres tilstand og brug. Hvert klik og mus bevægelse du laver, mens du surfer på internettet, forårsager en kaskade af logposter, der skal genereres.

Hver gang du køber noget - selv uden at bruge et kreditkort eller betalingskort - registrerer systemet aktiviteten i databaser - og i logfiler.Du kan se nogle af de mere almindelige kilder til logdata: it-servere, web-klikstrømme, sensorer og transaktionssystemer.

Hver industri (såvel som alle de logtyper, der netop er beskrevet) har det enorme potentiale for værdifuld analyse - især når du kan nulle ind på en bestemt type aktivitet og derefter korrelere dine resultater med et andet datasæt for at give kontekst.

Som eksempel, overvej denne typiske web-baserede browsing og købsoplevelse:

Du surfer på webstedet og leder efter varer, der skal købes.
Du klikker for at læse beskrivelser af et produkt, der fanger dit øje.
Til sidst tilføjer du en vare til din indkøbskurv og fortsæt til kassen (købsånden).

Efter at have set fragtomkostningerne bestemmer du dog, at varen ikke er prisen værd, og du lukker browservinduet. Hvert klik du har lavet - og derefter standsede - har potentialet til at tilbyde værdifuld indsigt til virksomheden bag dette e-handelssite.

I dette eksempel går ud fra, at denne virksomhed indsamler klikstrømdata (data om hvert klik med mus og sidevisning, som en besøgende "rører") med det formål at forstå, hvordan man bedre kan betjene sine kunder. En fælles udfordring blandt e-handelsvirksomheder er at genkende nøglefaktorerne bag forladte indkøbsvogne. Når du udfører en dybere analyse af clickstream-dataene og undersøger brugeradfærd på webstedet, er mønstre bundet til at dukke op.

Kender din virksomhed svaret på det tilsyneladende simple spørgsmål, "Er visse produkter forladt mere end andre? "Eller svaret på spørgsmålet," Hvor meget indtjening kan genindvindes, hvis du reducerer vognabonnementet med 10 procent? "Det følgende giver et eksempel på, hvilke rapporter du kan vise til dine virksomhedsledere for at søge deres investering i din Hadoop-sag.

For at komme til det punkt, hvor du kan generere dataene til at oprette de viste grafikker, isolerer du webs browsing sessioner af individuelle brugere (en proces kaldet sessionering) , identificerer indholdet i deres indkøbsvogne, og derefter etablere transaktionens tilstand i slutningen af sessionen - alt ved at undersøge klikstrømdataene.

Følgende er et eksempel på, hvordan man opstiller brugernes webs browsing sessioner ved at gruppere alle klik og webadresser efter IP-adresse.

I en Hadoop-sammenhæng arbejder du altid med nøgler og værdier - hver fase af MapReduce input og output data i sæt af nøgler og værdier. Nøglen er IP-adressen, og værdien består af tidsstempel og URL. Under kortfasen samles bruger sessioner parallelt for alle filblokke i clickstream datasættet, der er gemt i din Hadoop-klynge.

Kortfasen returnerer disse elementer:

Den endelige side, der er besøgt
En liste over varer i indkøbskurven
Transaktionens tilstand for hver brugersession (indekseret af IP-adresse nøglen) < Reducenten opfanger disse optegnelser og udfører aggregeringer for at summe antallet og værdien af vogne, der er forladt om måneden, og for at tilvejebringe totaler af de mest almindelige endelige sider, som nogen har set før afslutningen af brugerens session.