Bedrageri detektion med Hadoop - dummies - Personlig finansiering 2025

Det store antal transaktioner gør det sværere at finde svindel på grund af mængden af data, ironisk nok kan denne samme udfordring bidrage til at skabe bedre bedrageriske prædiktive modeller - et område, hvor Hadoop skinner.

I dagens sammenhængende verden gør det store volumen og kompleksiteten af transaktioner det sværere end nogensinde at finde bedrageri. Hvad der tidligere blev kaldt "at finde en nål i en høstak" er blevet til opgave at "finde en bestemt nål i stak af nåle. ”

Traditionelle metoder til bekæmpelse af svig er ikke særlig effektive. For eksempel styres forvaltningen af ukorrekte betalinger ofte af analytikere, der reviderer, hvad der svarer til en meget lille stikprøve af krav i forbindelse med at anmode om medicinsk dokumentation fra målrettede indleverere. Industriens betegnelse for denne model er løn og jage: Krav accepteres og udbetales, og processer kigger efter forsætlige eller utilsigtede overbetalinger ved efterbetaling af disse krav.

Så hvordan er svindel afsløring gjort nu? På grund af begrænsningerne i traditionelle teknologier bygges svigsmodeller ved stikprøvedata og bruger prøven til at opbygge et sæt svindel-forudsigelses- og detektionsmodeller. Når du kontrasterer denne model med en Hadoop-forankret svindelafdeling, der bruger det fulde datasæt - ingen prøveudtagning - for at bygge modellerne, kan du se forskellen.

Det mest almindelige tilbagevendende tema, du ser på de fleste Hadoop-brugssager, er, at det hjælper med at bryde gennem glasloftet på mængden og antallet af data, der kan indarbejdes i beslutningsanalyse. Jo flere data du har (og jo mere historie du gemmer), desto bedre kan dine modeller være.

Blanding ufradraditionelle dataformer med dit sæt historiske transaktioner kan gøre dine svindelmodeller endnu mere robuste. Hvis en arbejdstager f.eks. Gør en arbejdstagers erstatningskrav for en dårlig tilbagekaldelse fra en fald og fald-hændelse, har en pulje af millioner af patientudfaldssager, der detaljerer behandling og længden af opsving, med til at skabe et påvisningsmønster for svig.

Som et eksempel på, hvordan denne model kan fungere, kan du forestille dig at finde ud af, om patienter i landdistrikterne bliver langsommere end dem i byområder. Du kan starte med at undersøge nærheden til fysioterapi. Er der et mønster korrelation mellem opsvingstider og geografisk placering?

Hvis din svindelafdeling bestemmer, at en bestemt skade tager tre ugers genopretning, men at en landbruger med samme diagnose lever en time fra en fysioterapeut, og kontormedarbejderen har en praktiserende læge på sit kontor, er det en anden variabel at tilføje til bedrageriet -detektionsmønster.

Når du henter sociale netværksdata for fordringshavere og finder en patient, der hævder at lide af whiplash, stoler på at fuldføre den robuste serie af udholdenhedshændelser, der kaldes Tough Mudder, er det et eksempel på at blande nye typer data med traditionelle dataformularer at spotte svig.

Hvis du ønsker at sparke dine bedrageribekæmpelsesindsatser i et højere gear, kan din organisation arbejde for at bevæge sig væk fra markedssegmentmodellering og bevæge sig mod transaktioner eller på personniveau modellering.

Det er ganske enkelt nyttigt at lave en prognose baseret på et segment, men det er (naturligvis) bedre at træffe en beslutning baseret på specifikke oplysninger om en enkelt transaktion. For at gøre dette oparbejder du et større antal data end konventionelt muligt i den traditionelle tilgang. Kun (højst) 30 procent af de tilgængelige oplysninger, der kan være nyttige til svigsmodellering, bliver brugt.

For at oprette svindel-detektionsmodeller er Hadoop velegnet til

Håndtering af lydstyrke: Det betyder at behandle det fulde datasæt - ingen dataudtagning.
Administrer nye datatyper: Eksempler er inkludering af nærhedstjenester og sociale kredse for at dekorere svindelmodellen.
Vedligeholde et fleksibelt miljø: Aktiver forskellige former for analyse og ændringer i eksisterende modeller.

Svindelmodellerne kan tilføje og teste nye variabler til modellen uden at skulle stille et forslag til dit databaseadministrator team og derefter vente et par uger for at godkende en skifteændring og placere den i deres omgivelser.

Denne proces er afgørende for svindelopdagelse, fordi dynamiske miljøer normalt har cykliske svigsmønstre, der kommer og går i timer, dage eller uger. Hvis de data, der bruges til at identificere eller understøtte nye svindel-detekteringsmodeller, ikke er tilgængelige for øjeblikket, vil det være for sent at forhindre skade, når du opdager disse nye mønstre.

Evaluer fordelene ved din virksomhed for ikke blot at udbygge mere omfattende modeller med flere typer data, men også at kunne opdatere og forbedre disse modeller hurtigere end nogensinde. Virksomheden, som kan opdatere og forbedre modellerne dagligt, går bedre end dem, der gør det kvartalsvis.

Du kan tro at dette problem har et simpelt svar - spørg kun din CIO for godkendelse af driftsudgifter (OPEX) og kapitaludgifter (CAPEX) for at imødekomme flere data for at lave bedre modeller og indlæse de øvrige 70 procent af dataene i din beslutningsmodeller.

Du kan endda tro på, at denne investering vil betale sig selv med bedre bedrageri afsløring; Problemet med denne tilgang er imidlertid de høje omkostninger, der skal sænkes til ukendt data, hvor du ikke ved, om det indeholder noget virkelig værdifuldt indblik.

Det er sikkert, at triple størrelsen på dit datalager eksempelvis giver dig mere adgang til strukturerede historiske data for at finjustere dine modeller, men de kan ikke rumme sociale medierudbrud. Traditionelle teknologier er heller ikke så fleksible. Hadoop gør det nemt at introducere nye variabler i modellen, og hvis de viser sig ikke at give forbedringer til modellen, kan du blot kassere dataene og fortsætte.