Video: Teen Titans GO | Obinray gris-latin | Dansk Cartoon Network 2024
Pig Latin er sproget for Pig-programmer. Pig oversætter Pig Latin script til MapReduce jobs, som det kan udføres i Hadoop cluster. Når vi kom op med gris latin, fulgte udviklingsholdet tre centrale designprincipper:
-
Hold det enkelt . Pig Latin giver en strømlinet metode til interaktion med Java MapReduce. Det er en abstraktion, med andre ord, der forenkler oprettelsen af parallelle programmer på Hadoop-klyngen til datastrømme og analyse. Komplekse opgaver kan kræve en række indbyrdes forbundne datatransformationer - sådanne serier er kodet som dataflydsekvenser.
Skrivning af datatransformation og strømninger som Pig Latin-scripts i stedet for Java MapReduce-programmer gør disse programmer lettere at skrive, forstå og vedligeholde, fordi a) du ikke behøver at skrive jobbet i Java, b) du behøver ikke at tænke med hensyn til MapReduce, og c) du behøver ikke at komme op med brugerdefineret kode for at understøtte rige datatyper.
Pig Latin giver et enklere sprog til at udnytte din Hadoop-klynge, hvilket gør det lettere for flere mennesker at udnytte Hadops magt og blive produktive tidligere.
-
Gør det smart. Du kan huske, at Pig Latin Compiler gør arbejdet med at omdanne et gris latin-program til en række Java MapReduce-job. Tricket er at sikre, at kompilatoren optimerer udførelsen af disse Java MapReduce-job automatisk, så brugeren kan fokusere på semantik snarere end hvordan man optimerer og får adgang til dataene.
For dig SQL-typer derude, lyder denne diskussion velkendt. SQL er oprettet som en deklarativ forespørgsel, som du bruger til at få adgang til strukturerede data, der er gemt i en RDBMS. RDBMS-motoren oversætter først spørgsmålet til en dataadgangsmetode og ser derefter på statistikken og genererer en række dataadgangsmetoder. Den omkostningsbaserede optimizer vælger den mest effektive tilgang til udførelse.
-
Begræns ikke udvikling. Gør Pig udvidelig, så udviklere kan tilføje funktioner til at løse deres særlige forretningsproblemer.
Traditionelle RDBMS-datalagre benytter ETL-databehandlingsmønsteret, hvor du e xtract-data fra eksterne kilder, t formler det for at passe til dine driftsbehov og derefter > l oad i det endelige mål, uanset om det er en operationsdatabutik, et datalager eller en anden variant af databasen. Men med store data vil du typisk reducere mængden af data, du har flyttet om, så du ender med at bringe behandlingen til dataene selv.
Sproget for Pig-datastrømme passerer derfor den gamle ETL-tilgang og går med ELT i stedet:
E xtract dataene fra dine forskellige kilder, l oad det til HDFS, og derefter t omformes det som nødvendigt for at forberede dataene til yderligere analyse.