Video: Data Stream 2025
Når data strømmer i enorme beløb, lagring det hele kan være svært eller endog umuligt. Faktisk kan opbevaring af det hele ikke engang være nyttigt. Her er nogle tal på, hvad du kan forvente at ske inden for et enkelt minut på internettet:
- 150 millioner e-mails sendt
- 350, 000 nye tweets sendt på Twitter
- 2. 4 millioner forespørgsler forespurgt på Google
- 700.000 mennesker logget ind på deres konto på Facebook
I betragtning af sådanne mængder synes akkumulering af data hele dagen for inkremental analyse måske ikke at være effektiv. Du gemmer det blot et eller andet sted og analyserer det på følgende eller på en senere dag (som er den udbredte arkivstrategi, der er typisk for databaser og datalagre). Men brugbare datasøgninger har tendens til at spørge om de seneste data i strømmen, og data bliver mindre nyttige, når det er aldre (i nogle sektorer, som f.eks. Økonomisk, kan en dag være meget tid).
Desuden kan du forvente endnu flere data at ankomme i morgen (mængden af data stiger dagligt) og det gør det svært, om ikke umuligt at trække data fra lagre, mens du trykker på nye data. At trække gamle data fra repositorier efterhånden som friske data henter, er beslægtet med straffen af Sisyphus. Sisyphus, som en græsk myte fortæller, modtog en frygtelig straf fra gud Zeus: At blive tvunget til evigt at rulle en enorm klods op på toppen af en bakke, for kun at se den rulle ned igen hver gang.
Nogle gange gør det endnu mere umuligt at håndtere ting, så data kan komme så hurtigt og i så store mængder, at det ikke er muligt at skrive det til disken. Ny information kommer hurtigere end den tid, der kræves for at skrive den til harddisk. Dette er et problem, der er typisk for partikeleksperimenter med partikelacceleratorer, såsom Large Hadron Collider, der kræver, at forskere bestemmer, hvilke data der skal opbevares. Selvfølgelig kan du kødata for en tid, men ikke for længe, fordi køen hurtigt vokser og bliver umulig at vedligeholde. Hvis der f.eks. Bliver gemt i hukommelsen, vil kødata snart føre til en fejl i hukommelsen.
Fordi nye datastrømme kan gøre den tidligere behandling af gamle data forældede, og udsættelse ikke er en løsning, har folk udtænkt flere strategier til øjeblikkelig behandling af massive og foranderlige datamængder. Folk bruger tre måder at håndtere store mængder data på:
- Gemt: Nogle data gemmes, fordi det kan hjælpe med at svare på uklare spørgsmål senere. Denne metode er afhængig af teknikker til at gemme den med det samme og analysere det senere meget hurtigt, uanset hvor massiv det er.
- Opsummeret: Nogle data er opsummeret, fordi man holder alt som det er, giver ingen mening; kun de vigtige data opbevares.
- Forbrugt: De resterende data forbruges, fordi brugen er forudbestemt. Algoritmer kan øjeblikkeligt læse, fordøje og omdanne dataene til information. Derefter glemmer systemet for evigt.
Når du taler om massive data, der ankommer til et computersystem, vil du ofte høre det i forhold til vand: streaming data, datastrømme, dataslamslang.
Du opdager, hvordan datastrømme er som forbrug af ledningsvand: Ved åbning af vandhanen kan du opbevare vandet i kopper eller drikkeflasker, eller du kan bruge det til madlavning, skrubning af mad, rengøringsplader eller vaskehænder. Under alle omstændigheder er det meste eller hele vandet væk, men det viser sig meget nyttigt og meget vigtigt.