Hjem Personlig finansiering Hvad Data Miners Do dummies

Hvad Data Miners Do dummies

Indholdsfortegnelse:

Video: What is Big Data and how does it work? 2025

Video: What is Big Data and how does it work? 2025
Anonim

Hvis du tænker på data som råmateriale, og de oplysninger, du kan få fra data som noget værdifuldt og relativt raffineret, kan processen med uddragning af information være sammenlignet med udvinding af metal fra malm eller ædelstene fra snavs. Sådan opstod udtrykket data mining .

Fokus på data minedrift

Data minearbejdere overvejer ikke bare data, men også håber at finde noget interessant. Hvert data-mining projekt begynder med et specifikt forretningsproblem og et mål at matche.

Som data minearbejder har du sandsynligvis ikke autoritet til at træffe endelige forretningsbeslutninger, så det er vigtigt, at du tilpasser dit arbejde til beslutningstagernes behov. Du skal forstå deres problemer, behov og præferencer, og fokusere din indsats på at give oplysninger, som understøtter gode forretningsbeslutninger.

Din egen erhvervskundskab er meget vigtig. Ledere vil ikke sidde ved siden af ​​dig, mens du arbejder, og giver feedback om relevansen af ​​dine opdagelser til deres bekymringer. Du skal bruge din egen erfaring og skat til at bedømme det for dig selv, mens du arbejder.

Forstå, hvordan data minearbejdere bruger deres tid

Det ville være dejligt, hvis data minearbejdere kunne bruge hele dagen til at lave livsforandrende opdagelser, bygge værdifulde modeller og integrere dem i hverdagens forretning. Men det er som at sige, at det ville være fantastisk, hvis sportsfolk kunne tilbringe hele dagen vinder turneringer. Det kræver en masse forberedelser at bygge op til de øjeblikkelige triumfer. Så som atleter bruger data minearbejdere meget tid på forberedelsen.

Lære at kende data-minedriftsprocessen

En god arbejdsproces hjælper dig med at få mest muligt ud af din tid, dine data og alle dine andre ressourcer. I denne bog finder du den mest populære data-mining proces, CRISP-DM. Det er en seks-fase cyklus med opdagelse og handling skabt af et konsortium af data minearbejdere fra mange brancher og en åben standard, som alle kan bruge.

Faser i CRISP-DM-processen er

  1. Forretningsforståelse

  2. Dataforståelse

  3. Dataforberedelse

  4. Modellering

  5. Evaluering

  6. Implementering (ved hjælp af modeller i dagligdags forretninger)

Hver fase har lige stor vægt på kvaliteten af ​​resultaterne og værdien til virksomheden. Men med hensyn til den nødvendige tid dominerer data forberedelsen. Databehandling tager rutinemæssigt mere tid end alle andre faser af data minedriftsprocessen kombineret.

Making models

Når målene er forstået, og dataene er ryddet op og klar til brug, kan du gøre opmærksom på at bygge prædiktive modeller.Modeller gør hvad rapporter ikke kan; de giver dig oplysninger, der understøtter handling.

En rapport kan fortælle dig, at salget er nede. Det kan ødelægge salget efter region, produkt og kanal, så du ved, hvor salget faldt, og om disse afvigelser var udbredt eller kun påvirket af bestemte områder. Men de giver dig ingen spor om hvorfor salg faldt, eller hvilke handlinger der kan hjælpe med at genoplive virksomheden.

Modeller hjælper dig med at forstå de faktorer, der påvirker salget, de handlinger, der har tendens til at øge eller formindske salget, samt de strategier og taktikker, der holder din virksomhed i gang. Det er spændende, er det ikke? Måske er det derfor, at de fleste data mindere overvejer modellering til at være den sjove del af jobbet.

Forståelse af matematiske modeller

Matematiske modeller er centrale for data mining, men hvad er de? Hvad gør de, hvordan virker de, og hvordan skabes de?

En matematisk model er ren og simpel, en ligning eller et sæt ligninger, der beskriver et forhold mellem to eller flere ting. Sådanne ligninger er stenografi for teorier om naturens og samfundets arbejde. Teorien kan understøttes af et betydeligt bevismateriale, eller det kan bare være et vildt gæt. Matematikens sprog er det samme i begge tilfælde.

Vilkår som predictive model, statistisk model, eller lineær model henviser til specifikke typer matematiske modeller, navnene afspejler den påtænkte anvendelse, formularen eller metoden til udledning en bestemt model. Disse tre eksempler er blot nogle få af mange sådanne udtryk.

Når en model er nævnt i en forretningsindstilling, er det højst sandsynligt, at en model bruges til at foretage forudsigelser. Modeller bruges til at forudsige aktiekurser, produktsalg og ledighed blandt mange andre ting.

Disse forudsigelser kan eller ikke være korrekte, men for et givet sæt værdier (kendte faktorer som disse kaldes uafhængige variabler eller indgange ) inkluderet i modellen, vil du find en veldefineret forudsigelse (også kaldet en afhængig variabel, output, eller resultat ). Matematiske modeller bruges også til andre formål i erhvervslivet, så som at beskrive de arbejdsmekanismer, der driver en bestemt proces.

I data mining skaber du modeller ved at finde mønstre i data ved hjælp af maskinindlæring eller statistiske metoder. Data minearbejdere følger ikke den samme strenge tilgang, som klassiske statistikere gør, men alle modeller er afledt af faktiske data og konsistente matematiske modelleringsteknikker. Alle data-mining modeller understøttes af et krop af beviser.

Hvorfor bruge matematiske modeller? Kunne ikke de samme forhold beskrives ved hjælp af ord? Det er muligt, men du finder visse fordele ved brug af ligninger. Disse omfatter

  • Convenience: Sammenlignet med tilsvarende beskrivelser skrevet i sætninger, er ligninger korte. Matematisk symbolik har udviklet sig specifikt med det formål at repræsentere matematiske relationer; sprog som engelsk har ikke.

  • Klarhed: Ligninger overfører ideer kort og er entydige.De er ikke underlagt forskellige fortolkninger baseret på kultur, og matematikens symbolik er et slags fælles sprog, der anvendes bredt over hele kloden.

  • Konsistens: Fordi matematiske repræsentationer er entydige, er konsekvenserne af en bestemt situation klart defineret af en matematisk model.

Sæt information til handling

En model giver kun værdi, når du bruger den i virksomheden. En model forudsigelser kan understøtte beslutningstagning på en række måder. Du kan muligvis

  • inkorporere forudsigelser i en rapport eller præsentation, der skal bruges til at træffe en bestemt beslutning.

  • Integrér modellen i et operationelt system (f.eks. Et kundeservice system) for at give real-time forudsigelser til daglig brug. (For eksempel kan du markere forsikringsanmodninger om øjeblikkelig betaling, øjeblikkelig benægtelse eller yderligere undersøgelse.)

  • Brug modellen til batch forudsigelser. (Du kan f.eks. Score den interne kundeliste for at afgøre, hvilke kunder der skal modtage et bestemt tilbud.)

Hvad Data Miners Do dummies

Valg af editor

Microsoft Project 2010 Genvejstaster - dummies

Microsoft Project 2010 Genvejstaster - dummies

Microsoft Project 2010 maksimerer effektiviteten, når du administrerer projekter - men også genvejstaster i Project 2010 din tid på tastaturet: Her er nogle genvejstaster, du vil bruge hele tiden, når du bygger og arbejder med en projektplan. Indtastning af tastetryk Indsæt Indsætter ny opgave Ctrl + K Indsætter hyperlink F7 Starter stavekontrol Alt + F10 Tildeler ressourcer ...

Hvordan man ændrer gridlines i Project 2016 - dummies

Hvordan man ændrer gridlines i Project 2016 - dummies

Flere visninger i Project 2016 inkluderer gridlines for at angive visse elementer, f.eks. en pause mellem uger eller status dato (det vil sige den dato, hvor der er sporet fremskridt på et projekt). Disse linjer hjælper en person med at læse planen for at skelne mellem tidsintervaller eller brud på information; For eksempel kan netlinjer være ...

Projekt 2016 AutoFilter-funktion - dummier

Projekt 2016 AutoFilter-funktion - dummier

Projekt 2016 AutoFilter-funktionen er som standard tændt for alle nye tidsplanfiler. Pile vises i kolonneoverskrifterne i det viste ark. Når du klikker på pilen i kolonnen Ressourcenavne, er navnet på hver ressource, der er tildelt opgaver i projektet, angivet i alfabetisk rækkefølge sammen med ...

Valg af editor

Netværksadministration: Windows Command Omdirigering og piping - dummies

Netværksadministration: Windows Command Omdirigering og piping - dummies

Omdirigering og piping af Windows-kommandoer er relaterede teknikker. Omdirigering giver dig mulighed for at angive en alternativ destination for output, der vil blive vist med en kommando eller en alternativ kilde til input, der skal indtastes i en kommando. Du kan f.eks. Gemme resultaterne af en kommando ipconfig / all til en fil ved navn myconfig. txt ...

Netværksadministration: VPN Security - dummies

Netværksadministration: VPN Security - dummies

Udtrykket tunnel er nogle gange brugt til at beskrive en VPN, fordi VPN'en skaber en sikker tunnel mellem to steder, som kun kan indtastes fra begge ender. De data, der bevæger sig gennem tunnelen fra den ene ende til den anden, er sikre, så længe det er inden for tunnelen - det vil sige inden for ...

Netværksadministration: Windows Miljøvariabler - dummies

Netværksadministration: Windows Miljøvariabler - dummies

Windows-kommandoskallen giver flere miljøvariabler til kommandoer. Miljøvariabler begynder og slutter med procent tegn. Du kan bruge en miljøvariabel overalt i en kommando. For eksempel viser C:> echo% OS%, der kører på% PROCESSOR_IDENTIFIER% en linje som denne: Windows_NT kører på en x86 Familie 15 Model 2 Stepping 8, ...

Valg af editor

Sådan bruger du arv i PHP med objektorienteret programmering - dummier

Sådan bruger du arv i PHP med objektorienteret programmering - dummier

Objektorienteret programmering i PHP har en anden funktion, der gør det meget nyttigt til store projekter. Mange objekter er relateret til hinanden, og du kan bruge et familietræforhold til at forenkle din programmering. Hvordan man bygger en critter baseret på en anden critter Der er en ny critter i byen. Denne har den samme grundlæggende ...

Sådan bruges PHP til at lave en switch til HTML5 og CSS3 Programmering - dummies

Sådan bruges PHP til at lave en switch til HTML5 og CSS3 Programmering - dummies

Du kører ofte over en situation i HTML5 og CSS3 programmering, hvor du har et udtryk, der kan have mange mulige værdier. Du kan altid bruge strukturen til at klare denne situation, men PHP leverer en anden interessant mulighed. Koden til dette program anvender omskifterstrukturen. Tag et kig på, hvordan det er gjort: