Video: data transfer and shift registers (in minecraft) 2025
Data mining har meget strenge krav til dataanalyse. De er ikke eksotiske, komplekse eller vanskelige krav til at mødes, men de er strenge. Figuren viser en stikprøve af data, der ses som en tabel i data-mining software.
Hver række repræsenterer en pakke af fast ejendom. Oplysninger om pakker af fast ejendom er organiseret i kolonner. Den første kolonne indeholder skatteidentifikationsnummeret (TAXKEY), den anden kolonne indeholder den vurderede værdi af jorden fra en tidligere vurdering (P_A_LAND) osv.
Hver post i en række vedrører en bestemt pakke jord. Hver post i en enkelt kolonne er den samme type information. Ingen rækker eller kolonner er tomme af hensyn til stil og læsbarhed. Disse data er ordentligt organiseret til undersøgelse af forskelle mellem ejendomspakkerne.
Hvis du i stedet for fast ejendom undersøger personer, vil hver person være repræsenteret af en række i dataene, og alle detaljer om befolkningen vil blive organiseret i kolonner. Hvis du undersøger røntgenstråler i brystet, vil hver røntgenstråle være repræsenteret af en række i dataene, og alle detaljer om røntgenstrålerne vil blive organiseret i kolonner.
I dataanalytik terminologi kaldes de ting, du studerer - tingene i rækkerne sager eller poster. Og detaljerne om dem, som er i kolonnerne, kaldes variabler . Du vil også høre kolonnerne kaldet felter, især i forbindelse med databaser.
Så dataudvinding kræver data organiseret med en enkelt række for hver sag og en enkelt kolonne for hver variabel. Mange kilder til data er allerede organiseret på denne måde. Statistikere organiserer data på denne måde ved vane. Databasepersonale må ikke bruge denne fremgangsmåde til meget af deres arbejde, men de forstår normalt hvad du vil have, hvis du kalder det et fladt bord.
Du finder subtile variationer i datastruktur. Nogle typer af software anvender beskrivende information i et overskrift før dataene, såsom visse specialformater, der er associeret med Orange og Weka data-mining applikationer. Nogle komplekse analytiske procedurer har yderligere eller lidt varierede krav (det er ret usædvanligt). Men kernen i dataene har stadig sagerne i rækker og variabler i kolonner.