Hjem Personlig finansiering Log data analyse med Hadoop - dummies

Log data analyse med Hadoop - dummies

Video: Big Data analysis Hadoop with Mapreduce, HIVE, PIG , Zookeeper and Spark class 9 2025

Video: Big Data analysis Hadoop with Mapreduce, HIVE, PIG , Zookeeper and Spark class 9 2025
Anonim

Loganalyse er en almindelig brugssag til et indledende Hadoop-projekt. Faktisk var Hadoops tidligste anvendelser til den omfattende analyse af clickstream logs - logs, der registrerer data om de websider, som folk besøger, og i hvilken rækkefølge de besøger dem.

Alle loggene af data, der genereres af din it-infrastruktur, kaldes ofte dataudstødning. En log er et biprodukt fra en fungerende server, ligesom røg, der kommer fra en arbejdsmotorens udstødningsrør. Dataudslip har konnotationen for forurening eller affald, og mange virksomheder går utvivlsomt ind på denne slags data med den tankegang.

Logdata vokser ofte hurtigt, og på grund af de producerede høje mængder kan det være kedeligt at analysere. Og den potentielle værdi af disse data er ofte uklar. Så fristelsen i it-afdelinger er at gemme denne log data i så lidt tid som rimeligt muligt. (Når alt kommer til alt, koster det penge for at bevare data, og hvis der ikke er nogen opfattet forretningsmæssig værdi, hvorfor gem den?)

Men Hadoop ændrer matematikken: Omkostningerne ved opbevaring af data er forholdsvis billige, og Hadoop blev oprindeligt udviklet specielt til storskala batch behandling af log data.

Logbrugsanalysens brug er et nyttigt sted at starte din Hadoop-rejse, fordi chancerne er gode, at de data, du arbejder med, bliver slettet eller "faldt til gulvet. "Nogle virksomheder, der konsekvent registrerer en terabyte (TB) eller mere af kundens webaktivitet om ugen, kasserer dataene uden analyse (hvilket gør dig i tvivl om hvorfor de generede at samle det).

For at komme i gang hurtigt, er dataene i denne brugssag sandsynligvis let at få, og omfatter generelt ikke de samme problemer, du vil støde på, hvis du starter din Hadoop-rejse med andre (styrede) data.

Når industrianalytikere diskuterer de hurtigt voksende mængder data, der findes (4. 1 exabyte fra 2014 - mere end 4 millioner 1TB harddiske), tegner logdata for meget af denne vækst. Og ikke underligt: ​​Næsten alle aspekter af livet resulterer nu i frembringelsen af ​​data. En smartphone kan generere hundredvis af logindgange pr. Dag for en aktiv bruger, der sporer ikke kun tale, tekst og dataoverførsel, men også geolokationsdata.

De fleste husstande har nu klare målere, der logger deres elforbrug. Nyere biler har tusindvis af sensorer, der registrerer aspekter af deres tilstand og brug. Hvert klik og mus bevægelse du laver, mens du surfer på internettet, forårsager en kaskade af logposter, der skal genereres.

Hver gang du køber noget - selv uden at bruge et kreditkort eller betalingskort - registrerer systemet aktiviteten i databaser - og i logfiler.Du kan se nogle af de mere almindelige kilder til logdata: it-servere, web-klikstrømme, sensorer og transaktionssystemer.

Hver industri (såvel som alle de logtyper, der netop er beskrevet) har det enorme potentiale for værdifuld analyse - især når du kan nulle ind på en bestemt type aktivitet og derefter korrelere dine resultater med et andet datasæt for at give kontekst.

Som eksempel, overvej denne typiske web-baserede browsing og købsoplevelse:

  1. Du surfer på webstedet og leder efter varer, der skal købes.

  2. Du klikker for at læse beskrivelser af et produkt, der fanger dit øje.

  3. Til sidst tilføjer du en vare til din indkøbskurv og fortsæt til kassen (købsånden).

Efter at have set fragtomkostningerne bestemmer du dog, at varen ikke er prisen værd, og du lukker browservinduet. Hvert klik du har lavet - og derefter standsede - har potentialet til at tilbyde værdifuld indsigt til virksomheden bag dette e-handelssite.

I dette eksempel går ud fra, at denne virksomhed indsamler klikstrømdata (data om hvert klik med mus og sidevisning, som en besøgende "rører") med det formål at forstå, hvordan man bedre kan betjene sine kunder. En fælles udfordring blandt e-handelsvirksomheder er at genkende nøglefaktorerne bag forladte indkøbsvogne. Når du udfører en dybere analyse af clickstream-dataene og undersøger brugeradfærd på webstedet, er mønstre bundet til at dukke op.

Kender din virksomhed svaret på det tilsyneladende simple spørgsmål, "Er visse produkter forladt mere end andre? "Eller svaret på spørgsmålet," Hvor meget indtjening kan genindvindes, hvis du reducerer vognabonnementet med 10 procent? "Det følgende giver et eksempel på, hvilke rapporter du kan vise til dine virksomhedsledere for at søge deres investering i din Hadoop-sag.

For at komme til det punkt, hvor du kan generere dataene til at oprette de viste grafikker, isolerer du webs browsing sessioner af individuelle brugere (en proces kaldet sessionering) , identificerer indholdet i deres indkøbsvogne, og derefter etablere transaktionens tilstand i slutningen af ​​sessionen - alt ved at undersøge klikstrømdataene.

Følgende er et eksempel på, hvordan man opstiller brugernes webs browsing sessioner ved at gruppere alle klik og webadresser efter IP-adresse.

I en Hadoop-sammenhæng arbejder du altid med nøgler og værdier - hver fase af MapReduce input og output data i sæt af nøgler og værdier. Nøglen er IP-adressen, og værdien består af tidsstempel og URL. Under kortfasen samles bruger sessioner parallelt for alle filblokke i clickstream datasættet, der er gemt i din Hadoop-klynge.

Kortfasen returnerer disse elementer:

  • Den endelige side, der er besøgt

  • En liste over varer i indkøbskurven

  • Transaktionens tilstand for hver brugersession (indekseret af IP-adresse nøglen) < Reducenten opfanger disse optegnelser og udfører aggregeringer for at summe antallet og værdien af ​​vogne, der er forladt om måneden, og for at tilvejebringe totaler af de mest almindelige endelige sider, som nogen har set før afslutningen af ​​brugerens session.

Log data analyse med Hadoop - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...