Indholdsfortegnelse:
- Fokus på data minedrift
- Forstå, hvordan data minearbejdere bruger deres tid
- Lære at kende data-minedriftsprocessen
- Making models
- Forståelse af matematiske modeller
- Sæt information til handling
Video: What is Big Data and how does it work? 2025
Hvis du tænker på data som råmateriale, og de oplysninger, du kan få fra data som noget værdifuldt og relativt raffineret, kan processen med uddragning af information være sammenlignet med udvinding af metal fra malm eller ædelstene fra snavs. Sådan opstod udtrykket data mining .
Fokus på data minedrift
Data minearbejdere overvejer ikke bare data, men også håber at finde noget interessant. Hvert data-mining projekt begynder med et specifikt forretningsproblem og et mål at matche.
Som data minearbejder har du sandsynligvis ikke autoritet til at træffe endelige forretningsbeslutninger, så det er vigtigt, at du tilpasser dit arbejde til beslutningstagernes behov. Du skal forstå deres problemer, behov og præferencer, og fokusere din indsats på at give oplysninger, som understøtter gode forretningsbeslutninger.
Din egen erhvervskundskab er meget vigtig. Ledere vil ikke sidde ved siden af dig, mens du arbejder, og giver feedback om relevansen af dine opdagelser til deres bekymringer. Du skal bruge din egen erfaring og skat til at bedømme det for dig selv, mens du arbejder.
Forstå, hvordan data minearbejdere bruger deres tid
Det ville være dejligt, hvis data minearbejdere kunne bruge hele dagen til at lave livsforandrende opdagelser, bygge værdifulde modeller og integrere dem i hverdagens forretning. Men det er som at sige, at det ville være fantastisk, hvis sportsfolk kunne tilbringe hele dagen vinder turneringer. Det kræver en masse forberedelser at bygge op til de øjeblikkelige triumfer. Så som atleter bruger data minearbejdere meget tid på forberedelsen.
Lære at kende data-minedriftsprocessen
En god arbejdsproces hjælper dig med at få mest muligt ud af din tid, dine data og alle dine andre ressourcer. I denne bog finder du den mest populære data-mining proces, CRISP-DM. Det er en seks-fase cyklus med opdagelse og handling skabt af et konsortium af data minearbejdere fra mange brancher og en åben standard, som alle kan bruge.
Faser i CRISP-DM-processen er
-
Forretningsforståelse
-
Dataforståelse
-
Dataforberedelse
-
Modellering
-
Evaluering
-
Implementering (ved hjælp af modeller i dagligdags forretninger)
Hver fase har lige stor vægt på kvaliteten af resultaterne og værdien til virksomheden. Men med hensyn til den nødvendige tid dominerer data forberedelsen. Databehandling tager rutinemæssigt mere tid end alle andre faser af data minedriftsprocessen kombineret.
Making models
Når målene er forstået, og dataene er ryddet op og klar til brug, kan du gøre opmærksom på at bygge prædiktive modeller.Modeller gør hvad rapporter ikke kan; de giver dig oplysninger, der understøtter handling.
En rapport kan fortælle dig, at salget er nede. Det kan ødelægge salget efter region, produkt og kanal, så du ved, hvor salget faldt, og om disse afvigelser var udbredt eller kun påvirket af bestemte områder. Men de giver dig ingen spor om hvorfor salg faldt, eller hvilke handlinger der kan hjælpe med at genoplive virksomheden.
Modeller hjælper dig med at forstå de faktorer, der påvirker salget, de handlinger, der har tendens til at øge eller formindske salget, samt de strategier og taktikker, der holder din virksomhed i gang. Det er spændende, er det ikke? Måske er det derfor, at de fleste data mindere overvejer modellering til at være den sjove del af jobbet.
Forståelse af matematiske modeller
Matematiske modeller er centrale for data mining, men hvad er de? Hvad gør de, hvordan virker de, og hvordan skabes de?
En matematisk model er ren og simpel, en ligning eller et sæt ligninger, der beskriver et forhold mellem to eller flere ting. Sådanne ligninger er stenografi for teorier om naturens og samfundets arbejde. Teorien kan understøttes af et betydeligt bevismateriale, eller det kan bare være et vildt gæt. Matematikens sprog er det samme i begge tilfælde.
Vilkår som predictive model, statistisk model, eller lineær model henviser til specifikke typer matematiske modeller, navnene afspejler den påtænkte anvendelse, formularen eller metoden til udledning en bestemt model. Disse tre eksempler er blot nogle få af mange sådanne udtryk.
Når en model er nævnt i en forretningsindstilling, er det højst sandsynligt, at en model bruges til at foretage forudsigelser. Modeller bruges til at forudsige aktiekurser, produktsalg og ledighed blandt mange andre ting.
Disse forudsigelser kan eller ikke være korrekte, men for et givet sæt værdier (kendte faktorer som disse kaldes uafhængige variabler eller indgange ) inkluderet i modellen, vil du find en veldefineret forudsigelse (også kaldet en afhængig variabel, output, eller resultat ). Matematiske modeller bruges også til andre formål i erhvervslivet, så som at beskrive de arbejdsmekanismer, der driver en bestemt proces.
I data mining skaber du modeller ved at finde mønstre i data ved hjælp af maskinindlæring eller statistiske metoder. Data minearbejdere følger ikke den samme strenge tilgang, som klassiske statistikere gør, men alle modeller er afledt af faktiske data og konsistente matematiske modelleringsteknikker. Alle data-mining modeller understøttes af et krop af beviser.
Hvorfor bruge matematiske modeller? Kunne ikke de samme forhold beskrives ved hjælp af ord? Det er muligt, men du finder visse fordele ved brug af ligninger. Disse omfatter
-
Convenience: Sammenlignet med tilsvarende beskrivelser skrevet i sætninger, er ligninger korte. Matematisk symbolik har udviklet sig specifikt med det formål at repræsentere matematiske relationer; sprog som engelsk har ikke.
-
Klarhed: Ligninger overfører ideer kort og er entydige.De er ikke underlagt forskellige fortolkninger baseret på kultur, og matematikens symbolik er et slags fælles sprog, der anvendes bredt over hele kloden.
-
Konsistens: Fordi matematiske repræsentationer er entydige, er konsekvenserne af en bestemt situation klart defineret af en matematisk model.
Sæt information til handling
En model giver kun værdi, når du bruger den i virksomheden. En model forudsigelser kan understøtte beslutningstagning på en række måder. Du kan muligvis
-
inkorporere forudsigelser i en rapport eller præsentation, der skal bruges til at træffe en bestemt beslutning.
-
Integrér modellen i et operationelt system (f.eks. Et kundeservice system) for at give real-time forudsigelser til daglig brug. (For eksempel kan du markere forsikringsanmodninger om øjeblikkelig betaling, øjeblikkelig benægtelse eller yderligere undersøgelse.)
-
Brug modellen til batch forudsigelser. (Du kan f.eks. Score den interne kundeliste for at afgøre, hvilke kunder der skal modtage et bestemt tilbud.)