Video: #17 OnDigital: Hvad konkret betyder Facebooks algoritme? (Organisk dør) 2025
Mennesket er nu i en utrolig krydsning af hidtil usete datamængder, der genereres af stadig mindre og kraftig hardware og analyseres af algoritmer, at det samme processen hjalp med at udvikle sig. Det er ikke bare et spørgsmål om volumen, som i sig selv er en vanskelig udfordring.
Som formaliseret af forskerfirmaet Gartner i 2001 og derefter reprized og udvidet af andre virksomheder, som IBM, kan store data opsummeres af fire V s, der repræsenterer dets nøgleegenskaber:
- Volumen: Mængden af data
- Hastighed: Datagenerationshastigheden
- Variety: Antallet og typer af datakilder
- Veracity: Dataens kvalitet og autoritative stemme (kvantificeringsfejl, dårlige data og støj blandet med signaler), et mål for usikkerheden af dataene
Hver stor data karakteristik giver en udfordring og en mulighed. F.eks. Vurderer volumen mængden af nyttige data. Hvad en organisation anser for store data kunne være små data for en anden. Manglende evne til at behandle dataene på en enkelt maskine gør ikke dataene store. Hvad der skelner mellem store data fra de forretningsmæssige og sædvanlige data er, at det tvinger en organisation til at revidere sine fremherskende metoder og løsninger og skubber nuværende teknologier og algoritmer til at se fremad.
Variety muliggør brugen af store data til at udfordre den videnskabelige metode som forklaret af denne milepæl og meget diskuteret artikel skrevet af Chris Anderson, Wired s chefredaktør på det tidspunkt, hvor store mængder data kan hjælpe videnskabelige opdagelser uden for den videnskabelige metode. Forfatteren er afhængig af Googles eksempel i reklame- og oversættelsesbranchen, hvor virksomheden kunne opnå fremtrædelse uden at bruge specifikke modeller eller teorier, men ved at anvende algoritmer til at lære af data. Ligesom i reklame kan videnskabsfysik (fysik, biologi) understøtte innovation, der gør det muligt for forskere at nærme sig problemer uden hypoteser, men ved at overveje variationerne i store mængder data og ved opdagelsesalgoritmer.
Veracity karakteristikken hjælper demokratisering af data selv. Tidligere skaffede organisationer data, fordi det var værdifuldt og vanskeligt at opnå. På dette tidspunkt skaber forskellige kilder data i sådanne voksende mængder, der forhindrer det, er meningsløst (90 procent af verdens data er blevet oprettet i de sidste to år), så der er ingen grund til at begrænse adgangen. Data bliver til sådan en vare, at der er mange åbne dataprogrammer, der går over hele verden.(USA har en lang tradition for åben adgang, de første åbne dataprogrammer går tilbage til 1970'erne, da National Oceanic and Atmospheric Administration, NOAA, begyndte at frigive vejrdata frit for offentligheden.) Men fordi data er blevet en vare, usikkerheden om disse data er blevet et problem. Du ved ikke længere, om dataene er helt sande, fordi du måske ikke engang kender dens kilde.
Data er blevet så allestedsnærværende, at dens værdi ikke længere er i den faktiske information (f.eks. Data gemt i en virksomheds database). Værdien af data findes i, hvordan du bruger den. Her kommer algoritmer til spil og ændrer spillet. Et firma som Google føder sig fra frit tilgængelige data, såsom indholdet af websteder eller teksten, der findes i offentligt tilgængelige tekster og bøger. Men værdien Google-ekstrakter fra dataene kommer hovedsageligt fra dens algoritmer. Som et eksempel findes dataværdi i PageRank-algoritmen (illustreret i kapitel 11), som er selve grundlaget for Googles forretning. Værdien af algoritmer gælder også for andre virksomheder. Amazons anbefalingsmotor bidrager med en betydelig del af virksomhedens indtægter. Mange finansielle firmaer anvender algoritmisk handel og robo-rådgivning, udnytter frit tilgængelige lagerdata og økonomiske oplysninger til investeringer.