Video: Recommender Systems 2025
Stor dataanalyse har fået en masse hype for nylig og med god grund. Du skal kende egenskaberne ved stor dataanalyse, hvis du vil være en del af denne bevægelse. Virksomheder ved, at der er noget derude, men indtil for nylig har det ikke været muligt at minde det. Dette skubber konvolutten på analyse er et spændende aspekt af den store dataanalysebevægelse.
Virksomheder er spændte på at kunne få adgang til og analysere data, som de har indsamlet eller ønsker at få indsigt i, men har ikke kunnet klare eller analysere effektivt. Det kan indebære at visualisere store mængder uensartede data, eller det kan indebære avanceret analyseret streaming på dig i realtid. Det er evolutionært i nogle henseender og revolutionerende i andre.
Så hvad er anderledes, når din virksomhed skubber konvolutten med stor dataanalyse? Infrastrukturen, der understøtter stor dataanalyse, er forskellig, og algoritmerne er blevet ændret for at være opmærksom på infrastruktur.
Stor dataanalyse bør ses fra to perspektiver:
-
Beslutningsorienteret
-
Handlingsorienteret
Beslutningsorienteret analyse ligner mere traditionel business intelligence. Se på selektive undergrupper og repræsentationer af større datakilder, og prøv at anvende resultaterne til processen med at træffe forretningsbeslutninger. Visse beslutninger kan helt sikkert medføre en eller anden form for handling eller procesændring, men formålet med analysen er at øge beslutningstagningen.
Handlingsorienteret analyse bruges til hurtig respons, når et mønster kommer frem eller der opdages specifikke data, og der kræves handling. At drage fordel af store data gennem analyse og forårsage proaktive eller reaktive adfærdsændringer giver stort potentiale for tidlige adoptører.
Find og udnytte store data ved at oprette analyseprogrammer kan holde nøglen til at udvinde værdi snarere snarere end senere. For at opnå denne opgave er det mere effektivt at bygge disse brugerdefinerede applikationer fra bunden eller ved at udnytte platforme og / eller komponenter.
Se først på nogle af de ekstra karakteristika ved stor dataanalyse, der gør det anderledes end traditionelle analyser bortset fra de tre Vs af volumen, hastighed og variation:
-
Det kan være programmatisk. En af de største ændringer i analysen er, at du tidligere havde at gøre med datasæt, du kunne manuelt indlæse i en applikation og udforske. Med stor dataanalyse kan du blive udsat for en situation, hvor du måske begynder med rå data, der ofte skal håndteres programmisk for at foretage enhver form for efterforskning på grund af datas omfang.
-
Det kan være datadrevet. Mens mange datavidenskabere bruger en hypotese-baseret tilgang til dataanalyse (udvikle en forudsætning og indsamle data for at se, om denne forudsætning er korrekt), kan du også bruge dataene til at køre analysen - især hvis du har samlet enorme mængder af det. For eksempel kan du bruge en maskin-læring algoritme til at gøre denne form for hypotese-fri analyse.
-
Det kan bruge mange attributter. Tidligere har du måske været i færd med at beskæftige sig med hundredvis af attributter eller egenskaber ved denne datakilde. Nu kan du måske beskæftige dig med hundredvis af gigabyte data, der består af tusindvis af attributter og millioner af observationer. Alt foregår nu i større målestok.
-
Det kan være iterativt. Mere beregningskraft betyder, at du kan gentage på dine modeller, indtil du får dem, hvordan du vil have dem. Her er et eksempel. Antag, at du opbygger en model, der forsøger at finde forudsigere for bestemte kundeadfærd forbundet. Du kan begynde at udtrække en rimelig stikprøve af data eller forbinde til, hvor dataene er bosat. Du kan bygge en model for at teste en hypotese.
Mens du tidligere ikke har haft så meget hukommelse for at gøre din model til at fungere effektivt, skal du have en enorm mængde fysisk hukommelse for at gennemgå de nødvendige iterationer, der kræves for at træne algoritmen. Det kan også være nødvendigt at bruge avancerede computerteknikker som naturlig sprogbehandling eller neurale netværk, der automatisk udvikler modellen baseret på læring, da flere data tilføjes.
-
Det kan være hurtigt for at få de beregne cykler, du har brug for ved at udnytte en skybaseret infrastruktur som en tjeneste. Med Infrastructure as a Service (IaaS) platforme som Amazon Cloud Services (ACS) kan du hurtigt levere en klynge af maskiner til at indtage store datasæt og analysere dem hurtigt.