Hjem Personlig finansiering Grafikbehandling i Hadoop - dummies

Grafikbehandling i Hadoop - dummies

Indholdsfortegnelse:

Video: Hadoop Processing Frameworks 2025

Video: Hadoop Processing Frameworks 2025
Anonim

En af de mere spændende nye NoSQL teknologier indebærer lagring og behandling af grafdata. Du tror måske, at denne erklæring er gammel nyhed, fordi computerforskere har udviklet grafanalyse teknikker i årtier. Hvad du siger kan godt være sandt, men hvad er nyt er, at ved at bruge Hadoop, kan du gøre grafanalyse i stor skala.

Hvad er grafdata?

A graf i datat termer er simpelthen en repræsentation af individuelle enheder og deres forhold. En grafs enheder kaldes noder (eller hjørner ), og relationerne mellem enheder i en graf kaldes kanter (eller forbindelser >). At repræsentere datasæt i en graf i modsætning til traditionelle rækker og kolonner gør det meget nemmere at behandle dine data på en måde, der gør forholdet mellem objekter krystalklar. Typiske grafberegninger er repræsenteret af den korteste stiafstand mellem flere knudepunkter i din graf eller blot ved hvor mange knudepunkter der er forbindelser af en bestemt type til en bestemt knude.

Ansøgninger til grafanalyse

Den mest velkendte ansøgning til grafdatabaser er Googles PageRank-algoritme, som beregner forbindelsesforholdene mellem alle kendte websider. Google repræsenterer nettet som en kæmpe graf, hvor websiderne er noder, og linkene fra den ene side til den anden er repræsenteret som kanter. (Google delte rigdom ved at offentliggøre et dokument, der beskriver sit grafanalyseprojekt - mærket Pregel-back i 2010.) Den grafbehandling, som Google var interesseret i, involverede beregning af antallet af indgående forbindelser for hver webside.

Facebook lavede en betydelig splash i 2013, da den meddelte, at den brugte Apache Giraph (baseret på Pregel-papiret), en grafbehandlingsmaskine designet til at behandle grafer lagret i HDFS. Det viste Giraphs magt ved at vise en graf, der repræsenterer alle Facebooks brugere (over 1 mia.) Og deres venskaber (milliarder!), Som i alt har over 1 billionskanter. Denne skala er svimlende: Hvis du er Facebook, og du skal lave beregninger som ven anbefalinger, hvad bedre værktøj til brug end en graf behandlingsmotor? Det er ikke overraskende, at en distribueret grafdatabase ligger i kernen i alle andre bemærkelsesværdige sociale medier, herunder Twitter, LinkedIn, OkCupid og Pinterest.

En grafbehandlingsmotor kan nemt besvare mange praktiske spørgsmål til sociale medier. To eksempler er, hvordan LinkedIn viser graden af ​​adskillelse mellem dig og en anden bruger er den korteste vejberegning (hvad er den nærmeste forbindelse mellem to noder?) og hvordan OkCupid viser brugere med fælles interesser er et sæt samarbejdende filtreringsberegninger (hvad er de mest almindelige forbindelser til et bestemt sæt af noder?).

Grafanalyse i Hadoop

Fra foråret 2014 forbliver grafanalyse på Hadoop i sine tidlige stadier. Med fremkomsten af ​​Garn i Hadoop 2 vil grafanalyse og andre specialiserede behandlingsteknikker blive stadig mere populære på Hadoop. Mange af de sociale websteder, der er nævnt i denne artikel, bruger deres egne grafiske databaser og behandlingsmotorer, men Facebook er en fremtrædende bruger af Giraph. Fordi Facebooks (stiltiende) godkendelsesmærke er Giraph blevet et populært valg til grafanalyse på Hadoop, men det har nogle begrænsninger. Det er udelukkende en behandlingsmotor, fordi den indlæser data som en graf i klyngens hukommelse, og den er optimeret til batch-orienterede forespørgsler.

En anden grafbehandling løsning kommer fra Aurelius, et firma, der har udgivet et sæt open source grafanalyseværktøjer til Hadoop. Kernen i sine tilbud er Titan, en grafdatabase, der bruger HBase som et persistenslag, der er optimeret til interaktive forespørgsler, og Faunus, en grafbehandlingsmotor, der lagrer et øjebliksbillede af en graf fra Titan i HDFS og kører MapReduce jobs imod det. For både de interaktive (Titan) og batch (Faunus) applikationer har Aurelius den fælles graf-traversale API ved navn Gremlin.

Endelig har Apache Spark-projektet GraphX-offshooten, som gør det muligt at generere grafdata og derefter behandle alt inden for Spark-rammerne.

Grafikbehandling i Hadoop - dummies

Valg af editor

Financial Freedom Tilbydes af Bitcoin - Dummies

Financial Freedom Tilbydes af Bitcoin - Dummies

Bitcoin tilbyder sine brugere mange fordele, men måske er den vigtigste en hidtil uset niveau af frihed. Og denne frihed kommer på mange forskellige måder: finansiel frihed fra at være nødt til at stole på eksisterende infrastruktur, men også den mentale frihed til at være i kontrol med egne midler og teknologi. Flyt mod ...

Indsætte lydfiler i et PowerPoint Slide-dummies

Indsætte lydfiler i et PowerPoint Slide-dummies

For at afspille lyd i en PowerPoint 2007-præsentation, indsætter du en lydfil i et dias. Hvordan og når lyden høres, er op til dig. Du kan gøre lydfilen automatisk afspilning, når diaset vises eller begynder at afspille, når du klikker. Før du indsætter din lydfil på et dias, spørg ...

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Er dit Excel Dashboard eller rapport nøjagtigt? - dummies

Intet dræber et Excel-dashboard eller rapporterer hurtigere end den opfattelse, at dens data er unøjagtige. Inden du sender dit færdige Excel dashboard eller rapport, skal du sørge for at kontrollere din rapporteringsmekanisme. Dit omdømme er på linjen! Her er tre faktorer, der fastslår, at et dashboard er korrekt: Overensstemmelse med autoritative ...

Valg af editor

Annoncer på Facebook - dummies

Annoncer på Facebook - dummies

Facebook er gratis for dig at bruge. I stedet for at opkræve sine brugere penge betaler Facebook regningerne ved at sælge annoncer. Disse annoncer vises derefter til dig. Så på en måde ser du på annoncer, hvordan du betaler for at bruge Facebook. Facebook har en række forskellige måder, hvorpå det vælger hvilke annoncer der skal ...

Automatisk fotoalbum på Facebook - dummies

Automatisk fotoalbum på Facebook - dummies

Det meste af tiden, hvor du laver et fotoalbum i Facebook, du bestemmer hvad du skal title det og hvilke fotos går ind i det. Der er nogle få undtagelser fra denne regel. Facebook samler visse typer billeder i album på dine vegne. Vigtigste, hver gang du ændrer dit profilbillede eller omslagsfoto, ...

Hvem kan se ting på din Facebook-tidslinje? - dummies

Hvem kan se ting på din Facebook-tidslinje? - dummies

Der er forskel på at tilføje ting til dit Facebook-tidslinje, som de foregående indstillinger kontrollerer, og blot kigger på dit tidslinje, som indstillingerne i dette afsnit styrer. Tre indstillinger her vedrører, hvad folk ser, når de ser på din profil. Gennemgå, hvad andre mennesker ser på din tidslinje. Dette er ikke så meget en indstilling ...

Valg af editor

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

Beskyt Excel-regneark og låseceller i Office 2011 til Mac-dummies

, Når du laver formularer I Excel 2011 til Mac skifter du ofte regnearkbeskyttelse til og fra. Du skal slukke for regnearkbeskyttelse, når du vil opbygge en formular. Slukning af arkbeskyttelse gør det muligt at bruge formularkontrolerne på fanen Udvikler i båndet og giver dig mulighed for at redigere regnearket ...

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Arbejder med Excel-arktyper i Office 2011 til Mac-dummies

Hvis du arbejder i Office 2011 til Mac, finder du, at Excel-ark kan være generelle eller dedikeret til et bestemt formål. Du behøver ikke være ekspert i Excel 2011 til Mac til at bruge de forskellige arktyper, men du bør kende deres navne og hver arktype formål. Du kan blande forskellige ...

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

Udfyldning af et formular med en grafik i Office 2011 til Mac - dummies

I Office 2011 for Mac-programmer, former kan fyldes med et billede fra en fil eller fyldes med en af ​​flere teksturer fra en menu ved hjælp af fanen Billede eller tekstur i dialogboksen Formatformat. Mønstre er geometriske design, der bruger to farver, og de er tilgængelige fra fanen Mønster i ...