Video: Java-programmering 43 - Aggregering vs komposisjon 2024
Sammenfattende data, find totals og beregning af middelværdier og andre beskrivende foranstaltninger er nok ikke nye for dig. Når du har brug for dine resuméer i form af nye data, snarere end rapporter, kaldes processen aggregering. Aggregerede data kan danne grundlag for yderligere beregninger, fusioneret med andre datasæt, der anvendes på nogen måde, som andre data anvendes.
Her er et eksempel på en dataaggregeringsproces. Et datasæt indeholder generel information om over 160, 000 pakker af fast ejendom. Disse data omfatter en række forskellige anvendelsesområder. Hvad hvis du vil se den gennemsnitlige vurderede værdi for jorden i hver arealanvendelseskategori? Sådan gør du det.
Du vil finde dataaggregeringsværktøjet i din data-mining applikation. Du kan muligvis bruge søgningen til at finde den.
Du vil tilføje værktøjet til en proces og forbinde det til et kildedatasæt.
I dataaggregationsværktøjet vælger du en gruppevariabel. I dette tilfælde er det markanvendelsesvariablen C_A_CLASS.
Så skal du definere de resuméer, du ønsker. For at få den gennemsnitlige vurderede værdi af jorden, vælger du variablen med vurderingerne for at opsummere og vælge den gennemsnitlige funktion.
Når aggregatet udføres, er resultatet et nyt datasæt med en række for hver type arealanvendelse og en ny variabel for de beregnede gennemsnit.
Før eller senere skal du sammenlægge et helt datasæt. Men når du vil summe eller gennemsnitlige alle dataene i et datasæt, kan du komme ind i et problem: Hvad er din gruppevariabel? Tricket er at bruge en variabel med en konstant værdi for hele datasættet. Så lav en variabel, hvor hver værdi er den samme, og brug den som din gruppevariabel.