VISIONWORKS BLOGT

Hoe Data Science de wereld verandert

VisionWorks is tijdens het Big Data Expo op 21 en 22 september 2016 Gold Sponsor. Onze collega's Harold Selman en Emile Kelkboom zullen hier gaan vertellen hoe zij de wereld veranderen met Data Science.

  • Harold Selman
  • 15 september 2016

Tijdens de aankomende editie van de Big Data Expo in de Jaarbeurs Utrecht is Ordina VisionWorks Gold Sponsor. Dit betekent dat we onze tribe presenteren in een eigen stand, via advertenties aan de deelnemers en tijdens twee presentaties die wij mogen geven over hoe Data Science de wereld verandert. De ene presentatie wordt verzorgd door onze collega Emile Kelkboom, Senior Data Scientist bij Ordina VisionWorks, en gaat over Asset Management (voorraadbeheer professionaliseren door te voorspellen hoeveel voorraad je nodig hebt, wanneer je nieuwe voorraad bestelt en hoeveel je dan bestelt) en Predictive Maintenance (voorspellen wanneer onderhoud nodig is om falen te voorkomen). Mijn verhaal gaat over hoe je fraudebestrijding kunt inzetten om datakwaliteit te verbeteren.

Wil je ook naar de Big Data Expo in de Jaarbeurs Utrecht? Meld je aan als bezoeker via de website!

Hoe Data Science de wereld verandert: datakwaliteit en fraudebestrijding

Data speelt een steeds grotere rol bij het nemen van beslissingen. Data is een weerspiegeling van de wereld, maar verandert ook de wereld. Daarom is het uiterst belangrijk dat onze gegevens van goede kwaliteit zijn. Namelijk hoe hoger de kwaliteit van de gegevens, hoe eenvoudiger fouten, afwijkingen en fraudeurs te herkennen zijn. Ordina VisionWorks laat zien hoe datakwaliteit en fraudebestrijding hand in hand gaan. Aan de andere kant zijn ze verschillend van aard. Waar een procesbegeleider blij is als 97 % van zijn gegevens juist zijn, beweegt de fraudeur zich vrij tussen de overige 3%. Vanuit het oogpunt van fraudebestrijding is goed vaak niet goed genoeg.

Ordina VisionWorks helpt bedrijven om meer te doen met Big Data, Advanced Data Analytics, Data Science en daarmee om meer data-driven te worden. Hoe begin je eraan? Hoe word je data-driven? Hoe worden jouw analyses volwassen en geven ze voorspellingen? Hoe krijgen ze een plek binnen je organisatie? Hoe zet je een data-analyseteam op? Dit zijn de vragen die we vaak te horen krijgen. Daar helpen we klanten mee. Ordina VisionWorks biedt daarbij expertise over alle stappen van databronnen tot informatieproducten.

Met onze praktijkervaring en onze visie willen we u overtuigen dat u meer kunt halen uit uw data, door bijvoorbeeld het inzetten van Data Scientists, Linked Data of Web Analytics. Mijn verhaal zal ingaan op het werk dat collega’s van Ordina VisionWorks hebben gedaan voor het ministerie van Binnenlandse Zaken en Koningsrelaties. Zij hebben geholpen om een data-analyseteam op te zetten op het gebied van datakwaliteit en fraudebestrijding en hebben geholpen hier een volwassen team van te maken. Hoe zorg je voor kwalitatief goede gegevens en vind je fouten? Hoe bewaak je de privacy van de burger hierbij? Deze en andere vragen beantwoorden wij voor klanten.

Datakwaliteit en fraudebestrijding

Op het eerste gezicht lijken datakwaliteit en fraudebestrijding misschien losstaande onderwerpen. Schijn bedriegt. Datakwaliteit is voor veel bedrijven essentieel om processen te laten draaien. Ook speelt data een steeds grotere rol bij het nemen van beslissingen en daarom is de datakwaliteit van groot belang. Daarnaast zijn er aparte teams die werken aan fraudebestrijding, die zoeken bijvoorbeeld afwijkende patronen met behulp van risicoprofielen om fraudeurs op te sporen.

Tijdens mijn presentatie op de Big Data Expo (donderdag 22 september) laat ik zien dat datakwaliteit en fraudebestrijding in de kern dezelfde werkzaamheden bevatten. Natuurlijk zijn er verschillen, maar het grootste verschil zit in de naam, zeg nou zelf fraudebestrijding klinkt veel sexyer dan datakwaliteit. Het woord fraudebestrijding roept bijvoorbeeld op dat je fraudeurs die misbruik maken van het systeem aanpakt, maar het roept ook vragen op bij eerlijke burgers over hoe men omgaat met hun gegevens en of ze niet in de gaten worden gehouden. Daarnaast roept het ook op dat het misschien gaat om terreurbestrijding, of werkzaamheden die de politie uitvoert om criminelen te vangen. De fraudebestrijding waar ik over praat, bestrijdt adresgerelateerde fraude. Dit betekent dat we willen weten waar elke burger woont, omdat de samenstelling van het huishouden in Nederland bepalend is voor veel voorzieningen waar je recht op hebt. Door te liegen over waar je woont, kun je dus ten onrechte aanspraak maken op (hogere) voorzieningen en dat willen we voorkomen. Met datakwaliteit bedoel ik dus dat we weten van elke burger waar hij woont.

In kern is fraudebestrijding gelijk aan datakwaliteit, want door het vinden van (afwijkende) patronen in de data kun je mogelijke fouten opsporen. Ten eerste is het de vraag of het daadwerkelijk fouten zijn en daarvoor is onderzoek nodig in de praktijk. Ten tweede willen we zo veel mogelijk fouten opsporen (en daarmee ook fraudeurs). Ten derde loont het vanuit de beweegredenen van de fraudeur te denken bij het ontwikkelen van risicoprofielen. Tot slot kunnen wij ons afvragen of de fouten opzettelijk zijn of niet. Naar mijn idee is dat laatste niet relevant. Zolang je kunt laten zien dat de datakwaliteit stijgt en zichtbaar fraudeurs tegengaat, blijf je bestaansrecht houden om data-analyse te doen. Bovendien kunnen deze analyses ook ideeën geven voor preventie van fouten.

 

Ministerie van Binnenlands Zaken en Koningsrelaties (samen duurzaam innoveren)

Data ScienceSinds begin 2016 ben ik ingezet als Data Scientist voor het ministerie van Binnenlandse Zaken en Koningsrelaties in een analyseteam dat zich richt op datakwaliteit en fraudebestrijding. In het jaar daarvoor heeft mijn collega Emile Kelkboom daar geholpen een data-analyseteam op te zetten. Ik heb zijn werkzaamheden voortgezet. Samen met de interne collega’s onderzoeken we gepseudonimiseerde persoonsgegevens uit de Basisregistratie Personen (BRP) en ontwikkelen we risicoprofielen die onder andere gebruikt worden in het project Landelijke Aanpak Adreskwaliteit (LAA). We leveren een steekproef aan van adressen uit deze risicoprofielen waarmee gemeentes langs de deuren gaan om te kijken of de samenstelling van het huishouden overeenkomt met de personen die op papier in de BRP staan. Het ministerie van Binnenlandse Zaken en Koningsrelaties is tevreden dat wij hiermee de datakwaliteit van de BRP verhogen en tegelijkertijd is het belangrijk dat elke burger krijgt waar hij/zij recht op heeft (en fraudeurs dus geen recht op hebben). Door deze ervaring kwam ik op het onderwerp voor deze presentatie. Welke doelen en technieken gebruik je voor het verhogen van de datakwaliteit en gebruik je om fraude te bestrijden? Zoals je hieronder leest, zijn de twee onderwerpen nauw met elkaar verbonden. Ik licht toe waar ze van elkaar verschillen en waarom ze in zekere zin gelijke doelen nastreven. De technieken voor fraudebestrijding kijken vaak naar afwijkingen of patronen in data, en die kunnen goed gebruikt worden in kader van de datakwaliteit (om fouten te vinden).

Wat doet een Data Scientist precies voor datakwaliteit en fraudebestrijding?

Ik ontwikkel risicoprofielen aan de hand van praktijkvoorbeelden van risico's die worden aangedragen door mijn ervaren collega's, gemeenten en afnemers van de BRP (zoals Belastingdienst, SVB, Politie, CJIB, etc.).Een risicoprofiel is een selectie van personen of adressen die voldoen aan een aantal risicofactoren. We verwachten dat er gegevens in de BRP niet kloppen voor die selectie, omdat we denken dat hiermee voordeel gehaald wordt. Dit kan gaan om fraude, maar kunnen ook onbewuste fouten zijn. Uiteindelijke gaat het om de datakwaliteit van de BRP en het verhogen van deze datakwaliteit door analyses. Met datakwaliteit bedoel ik dan dat we weten waar alle burgers wonen, zodat iedere burger krijgt waar hij recht op heeft (uitkeringen, toeslagen, sociale voorzieningen en initiatieven). Vanuit ons oogpunt om de datakwaliteit van de BRP te verbeteren, is de intentie van de burger niet van belang, maar dat is wel de manier waarop we risicopatronen vinden (door te kruipen in de huid van een fraudeur en door te kijken naar de belangen van de fraudeur).

Na het opstellen van een risicoprofiel is het belangrijk dat dit getoetst wordt aan de werkelijkheid. Zo bepalen we of onze risicoprofielen en risicofactoren juist waren. Hiervoor is een rol weggelegd voor de gemeenten. Door het aanleveren van adressen en personen die naar voren komen uit een risicoprofiel kunnen gemeenten gericht adresonderzoek doen, gebaseerd op risico dat in de praktijk is geconstateerd. Zo kan de ene gemeente een risico ontdekken; via het analyseteam kan hiermee een risicoprofiel gemaakt worden; dit risicoprofiel kan getest en aangescherpt worden door het bij een pilotgroep gemeenten uit te zetten en daarna kunnen alle gemeenten profiteren van deze informatie.

Feedback van de gemeenten is essentieel om de juiste verbeteringen aan te brengen in de risicoprofielen. Daarnaast kan feedback de bevestiging zijn dat inderdaad het juiste risicoprofiel is ontwikkeld en dat het geconstateerde risico inderdaad meer voorkomt. Als we beschikken over de feedback, dan stelt dat ons analyseteam in staat supervised learning toe te passen. Deze techniek is onderdeel van machine learning waarbij patronen herkend worden in de dataset op basis van de labels die gegeven worden aan de geleverde personen of adressen, of er inderdaad een fout in de BRP wordt geconstateerd of niet. De waarde van deze supervised learning technieken zijn we nu aan het onderzoeken.

Daarnaast ben ik als Data Scientist ook bezig met data-gedreven onderzoek. Deze andere aanpak maakt het mogelijk nieuwe, onzichtbare of onduidelijke risicoprofielen te ontwikkelen door te kijken naar de dataset en de feedback die je hebt. Deze aanpak is data-gedreven, omdat je kijkt welk profiel het beste past als je kijkt naar de dataset en de feedback die je hebt over de dataset. Door de dataset te analyseren met een unsupervised learning methode, zoals clusteren, en die te combineren met de feedback, kan ik nieuwe ideeën voor risicoprofielen genereren. Door personen of adressen te clusteren krijg je clusters van soortgelijke personen en adressen. Als je de feedback bekijkt over de clustering heen - komen de fouten vooral voor in een specifiek cluster? - dan zou je dat cluster kunnen gebruiken als nieuw risicoprofiel. Ook kun je de clusters bekijken die resulteren uit de clustering. Hoeveel clusters krijg je eruit? Hoe goed lijken de personen of adressen op elkaar in de clusters? Door welke eigenschappen zitten deze personen of adressen in hetzelfde cluster? Hoe verschillen de personen of adressen van twee verschillende clusters? Ook hieruit leer je over de dataset die je tot je beschikking hebt, zonder de feedback te gebruiken.

Ik ontwikkel momenteel een clusteringsalgoritme dat zowel numerieke variabelen (getallen) en categorische variabelen (eigenschappen, labels, categorieën) kan gebruiken om de datapunten in te delen in clusters met vergelijkbare datapunten. Het unieke aan mijn aanpak is het gebruik van categorische variabelen (daar zijn niet zo veel methoden voor) en dan die gebruiken om te combineren met een clusteringstechniek voor numerieke variabelen, tot een uiteindelijke clustering. Dit clusteringsalgoritme stelt het ministerie van Binnenlandse Zaken en Koningsrelaties in staat op basis van historisch succes te zoeken naar nieuwe risicoprofielen en voor het aanscherpen van bestaande risicoprofielen. Dit zorgt ervoor dat op een efficiënte manier de datakwaliteit van de BRP (alle persoonsgegevens van de Nederlandse burger) verhoogd kan worden. Daarnaast ben ik een R Shiny applicatie aan het ontwikkelen waarin mijn collega's informatie uit onze analyses kunnen ophalen voor als ze in gesprek gaan met gemeenten over fraudebestrijding en willen spreken over het verbeteren van de datakwaliteit. Het stelt mijn collega's in staat om gedreven door recente data het gesprek aan te gaan. Deze ontwikkelingen zijn nog niet af en de waarde daarvan zal nog moeten blijken.

Gebruik van risicoprofielen (aanpassingsvermogen en innovatiekracht)

Het gebruik van risicoprofielen is een krachtig middel om data-gedreven te werken. Het belangrijkste is het zoeken naar constante verbetering op basis van het analyseren van de data en het verifiëren van resultaten met de praktijksituatie. In de kern komt het neer op een feedbackloop, waarin de praktijksituatie wordt vergeleken met de data. Het draait om het aanwijzen van risico’s of afwijkingen die verderop in de keten impact hebben. De data zou een weerspiegeling moeten zijn van de wereld, en data verandert de manier waarop we tegen de wereld aankijken.

Hoe werkt dat dan, risicoprofielen? Het is een gezonde combinatie van twee werelden, vanuit de praktijk naar de theorie (ervaring, kennis, expertise) en vanuit de theorie naar de praktijk (data). De eerste stap is vaak vanuit praktijkvoorbeelden en -ervaring een risicoprofiel ontwikkelen. Waar verwachten experts afwijkingen, patronen of misbruik? Rondom zo’n vermoeden bouw je dan een risicoprofiel en dat ga je testen met behulp van de data. Hoeveel zit er in het risicoprofiel? Is dat veel of weinig? Is dat interessant of juist niet?

Vaak worden Data Science-technieken gebruikt om risicoprofielen vanuit praktijkvoorbeelden aan te scherpen door de informatie in de data optimaal te gebruiken. Hierbij kun je denken aan de volgende technieken: zoeken naar (afwijkende) patronen (pattern recognition), afwijkingen van de verwachting detecteren (outliers detection), leggen van interessante nieuwe verbanden door data te visualiseren (data visualization), afhankelijkheid in de data blootleggen (correlations), missende waarden bestuderen (missing values), clusters maken van soortgelijke datapunten (clustering), nieuwe data uit bestaande data genereren (feature engineering), maken van voorspellende modellen (predictive analytics).

Om de resultaten uit deze Data Science technieken te gebruiken in de praktijk, moet je de resultaten toetsen door feedback van de praktijk (experts, data uit de praktijk, toegevoegde waarde). Klopt het resultaat van de analyse en levert het meerwaarde (kwaliteit, omzet, inzicht) op? Dan kun je op basis van de afwijkingen in de data een risicoprofiel typeren en een domeinexpert vragen of deze afwijkingen logisch zijn of inderdaad vreemd. In mijn beleving is dit altijd een iteratief proces waarbij zowel kennis en ervaring nodig is van data-analyse als van het domein / de praktijk.

Hoe begin je met data-analyse? (samen duurzaam innoveren)

Wilt u ook meer uit uw data halen door data-analyse, machine learning, Big Data of Data Science? Begin klein, en laat het groeien als het zich uitbetaald, is mijn advies. Toon de meerwaarde die de analyses kunnen brengen aan en daarmee creëert u het bestaansrecht. Een Data Scientist is in mijn ogen een onderzoeker die gebruik maakt van businesskennis en data om gevraagd en ongevraagd advies te geven over de data en de waarde daarvan. Omdat het onderzoek is, is zullen niet alle analyses het redden tot het stadium dat ze in de praktijk meerwaarde kunnen bieden. Dit maakt duidelijk dat het succesvol laten worden van data-analyse afhangt van een investering, voordat het zich uitbetaalt. Dat is de reden dat klein beginnen de voorkeur heeft. Naarmate de meerwaarde van de data-analyse aangetoond wordt, kan er opeens ook uitgebreid worden.

Begin ook met de data van binnen je organisatie. Op deze data heb je zelf invloed, hier heb je kennis over en deze data zegt iets over je core business. Leer je eigen data kennen en verhoog de datakwaliteit. Kijk daarna pas naar databronnen om je eigen data mee te verrijken (social media, open data, marktdata) en vraag je bovendien af wat het koppelen je oplevert. Is het noodzakelijk om alle informatie te koppelen? Welk doel streef je na met je analyse en ligt dit in lijn met de data die je daarvoor koppelt? Meer data dan nodig, is niet alleen zonde maar kan ook juridische problemen opleveren. Mag je jouw eigen data wel verrijken met externe data of komt daarbij de privacy in het geding? Spreek hierover met collega’s, management en juristen om te komen tot verantwoord gebruik van data.

Anonimiseren of pseudonimiseren? Voor heel veel analyses hoeft u niet alles te weten. Vooral voor het bekijken van aantallen, verbanden en trends hoeft u niet te weten wiens data u bekijkt. In dat geval kunt u data anonimiseren, zodat niet meer terug te halen is van wie de data was. In sommige gevallen wilt u wel de historie en de verbanden behouden die in de data zitten. Dan kan pseudonimiseren een uitkomst bieden. Daarbij krijgen personen en objecten een pseudoniem, bijvoorbeeld een getal. Pas op, want dan behoudt de data zijn waarde en met de juiste kenmerken en voorkennis is het dan mogelijk de personen in de data te herkennen en hier misbruik van te maken. Gepseudonimiseerde data kunt u niet openbaar maken zonder gevolgen (zie voorbeeld Netflix en IMDb, "How To Break Anonymity of the Netflix Prize Dataset" door Narayanan en Shmatikov). Dus als u wilt pseudonimiseren, moet u de data goed beveiligen. Ook moet u de pseudoniemen veilig opbergen om misbruik te voorkomen. Tot slot kunt u ook nog waarden kunnen afronden of categoriseren om het moeilijker te maken om de pseudoniemen te achterhalen met voorkennis.

En als u hulp nodig heeft om te beginnen met data-analyse, dan kunnen wij u daarbij helpen.

Over de auteur:

Harold Selman

Harold is een enthousiaste Data Scientist die vanuit zijn achtergrond in Wiskunde en Educatie een passie heeft voor het analyseren van data en het overbrengen van de vergaarde kennis op de klant.