Formatering af data korrekt - dummier - Personlig finansiering 2025

Video: Datumsvariable beim Excel-Import in R ins korrekte Format bringen 2025

Mennesker bruger erfaring, når de fortolker de data, de ser, men computere kan ikke. Din data-mining software vil gøre sit bedste for at identificere typen af data i hver kolonne, men datatyper er ofte tvetydige.

Når du ser en liste over ZIP-koder, forsøger du ikke at tilføje og trække dem fra. Du ved, at de repræsenterer steder. Du forstår dette, fordi du har stor erfaring med at se og genkende postkoder. En computer kan fortolke et postnummer som et helt tal eller en kontinuerlig foranstaltning. I sidste ende er det op til dig at definere det korrekte format.

Funktioner til indstilling af dataformater og roller (som f.eks. Betegner den afhængige variabel til modellering) kan begraenses inden for en række steder i din data mining applikation. Du kan definere formater og rolle variabler i en datafil, før du selv åbner en data mining applikation (de oprindelige dataformater for Orange og Weka tillader dette) som en del af importen eller engang senere i processen.

Du kan have værktøjer til dette formål, ligesom værktøjerne vist i de følgende figurer, eller du kan definere disse egenskaber inden for andre procedurer.

Hver data-mining ansøgning har sit eget sæt af variable typer og sine egne grænser for, hvordan hver type kan bruges. Nogle af disse grænser er teoretisk baseret. For eksempel kan du kun tilføje og trække tal, ikke bogstaver. Men andre kan kun være et spørgsmål om, hvordan ansøgningen blev designet.

Så du kan f.eks. Opdage, at et bestemt modelleringsværktøj i en applikation giver dig mulighed for at forudsige både kategoriske og kontinuerlige variabler, men et lignende værktøj i en anden applikation kan muliggøre modellering af kun den ene eller den anden.