Video: Apache Sqoop Tutorial | Sqoop: Import & Export Data From MySQL To HDFS | Hadoop Training | Edureka 2025
Klar til at dykke ind i at importere data med Sqoop? Start med at se på figuren, som illustrerer trinene i en typisk Sqoop-importoperation fra et RDBMS eller et datalagringssystem. Intet for kompliceret her - bare en typisk Produktdatatabel fra et (typisk) fiktivt firma, som importeres til en typisk Apache Hadoop-klynge fra et typisk datastyringssystem (DMS).
Under trin 1 bruger Sqoop den passende konnektor til at hente produkttabellmetadata fra mål-DMS. (Metadata bruges til at kortlægge datatyperne fra produkttabellen til datatyper på Java-sproget.)
Trin 2 bruger derefter disse metadata til at generere og kompilere en Java-klasse, der skal bruges af en eller flere kortopgaver til importer de faktiske rækker fra produkttabellen. Sqoop gemmer den genererede Java-klasse til temprum eller til en mappe, du angiver, så du kan udnytte den til den efterfølgende behandling af dine dataposter.
Den Sqoop genererede Java-kode, der er gemt til dig, er som den gave, der fortsætter med at give! Med denne kode registrerer Sqoop-import fra DMS og gemmer dem til HDFS ved hjælp af et af tre formater, som du kan vælge: binære Avro-data, binære sekvensfiler eller afgrænsede tekstfiler. Derefter er denne kode tilgængelig for dig til efterfølgende databehandling.
Sekvensfiler er et naturligt valg, hvis du importerer binære datatyper, og du skal bruge den genererede Java-klasse til at serialisere og deserialisere dine data senere - måske for MapReduce-behandling eller eksport. Avro-data - baseret på Apaches eget serialiseringsramme - er nyttigt, hvis du skal interagere med andre applikationer efter importen til HDFS.
Hvis du vælger at gemme dine importerede data i afgrænset tekstformat, kan du muligvis finde den genererede Java-kode værdifuld senere, når du analyserer og udfører dataformatkonverteringer på dine nye data. Du kan se, at den genererede kode også hjælper dig med at slå sammen datasæt efter Sqoop-importoperationer, og den genererede Java-kode kan hjælpe med at undgå tvetydighed, når du behandler afgrænsede tekstdata.
Endelig deler Sqoop i trin 3 dataopgørelserne i produkttabellen over en række kortopgaver (med antallet af mappere, der eventuelt er angivet af brugeren) og importerer tabeldataene til HDFS, Hive eller HBase.