Video: Verdi av kjøpsopsjon vha replikerende metode 2024
Hadoop Distributed File System (HDFS) er designet til at gemme data om billig og mere upålidelig hardware. Billig har en attraktiv ring til det, men det rejser bekymringer om systemets pålidelighed som helhed, især for at sikre den høje tilgængelighed af dataene.
Planlægningen forud for katastrofe tog hjernerne bag HDFS beslutningen om at oprette systemet, så det ville gemme tre (tæller-tre) kopier af hver datablok.
HDFS forudsætter, at hvert diskdrev og hver slave node i sig selv er upålidelige, så det er klart, at der skal tages hensyn til, hvor de tre kopier af datablokke er gemt.
Figuren viser, hvordan datablokke fra den tidligere fil er stribet over Hadoop-klyngen - hvilket betyder, at de er jævnt fordelt mellem slaveknyderne, så en kopi af blokken stadig vil være tilgængelig uanset disk, node eller rackfejl.
Den viste fil har fem datablokke, mærket a, b, c, d og e. Hvis du ser nærmere, kan du se, at denne klynge består af to stativer med to noder, og at de tre kopier af hver datablok er spredt ud over de forskellige slaveknudepunkter.
Hver komponent i Hadoop-klyngen ses som et potentielt fejlpunkt, så når HDFS gemmer replikerne af de oprindelige blokke på tværs af Hadoop-klyngen, forsøger den at sikre, at blokreplikaterne gemmes i forskellige fejlpunkter.
Se f.eks. Blok A. På det tidspunkt, der skulle opbevares, blev Slave Node 3 valgt, og den første kopi af Blok A blev gemt der. For flere racksystemer bestemmer HDFS, at de resterende to kopier af blok A skal opbevares i et andet rack. Så den anden kopi af blok A er lagret på slave node 1.
Den endelige kopi kan lagres på samme rack som den anden kopi, men ikke på samme slave node, så den bliver gemt på slave node 2.