Projets

Pour traquer la fraude, BNP Paribas Personal Finance mise sur une base en graphes

Mehdi Barchouchi, responsable innovation data & outils à la direction des risques France, BNP Paribas Personal Finance : « Sur une base en graphes, on sait retracer, capturer le contexte. »

BNP Paribas Personal Finance a mis en place le SGBD en graphes Neo4j pour optimiser la détection des fraudes sur les crédits à la consommation.

PublicitéBNP Paribas Personal Finance est une filiale du groupe BNP Paribas spécialisée dans les crédits à la consommation, qui propose notamment des services de paiement fractionné sur les sites de e-commerce. Pour améliorer la détection des dossiers frauduleux sur ces services, l'entreprise a expérimenté l'usage d'une base de données en graphes, Neo4j, technologie qui a ensuite été mise en production après avoir fourni des résultats concluants. Un premier bilan de ce projet a été présenté lors du salon Big Data & IA 2022.

Les services de paiement fractionné, qui permettent d'étaler un paiement en trois ou quatre fois, sont fréquemment visés par des réseaux de fraudeurs. « Ceux-ci ne se contentent pas de réutiliser les informations (noms, numéros de téléphone ou de carte bleue...) d'un dossier à l'autre. Ils les changent, ce qui fait que les approches traditionnelles de listes noires ne fonctionnent plus », explique Mehdi Barchouchi, responsable innovation data & outils à la direction des risques France chez BNP Paribas Personal Finance. Pour améliorer la détection des dossiers frauduleux, il faut donc pouvoir établir des connexions entre dossiers, ne comportant parfois aucune information commune. À cela s'ajoute une exigence de taille : le scoring devait se faire en temps réel, pour être en mesure de donner une réponse immédiate au client qui transmet son dossier.

Cas d'usage parfait

Sur de tels traitements, la performance des bases de données relationnelles classiques s'avère insuffisante. Il faut en effet multiplier les jointures pour détecter une relation entre dossiers, une opération particulièrement coûteuse. « Le problème réside dans la profondeur des réseaux », indique Mehdi Barchouchi. BNP Paribas Personal Finance a donc décidé de tester une base de données en graphes, car cette technologie correspond bien à une structure où de multiples données sont connectées entre elles. Pour Édouard Tabary, responsable de l'équipe innovation et data science au centre de scoring BNP Paribas Personal Finance, « c'est le cas d'usage parfait ».

La solution de Neo4j est alors retenue et un pilote est mis en place courant 2020 sur un serveur on-premise, avec un jeu de données réduit. L'équipe crée d'abord le modèle de données en graphes à partir de données tabulaires, puis elle l'affine progressivement pour arriver au modèle cible, en utilisant notamment des algorithmes de machine learning. Enfin, elle bâtit des indicateurs basés sur la valeur des prédictions. « Nous avons obtenu un modèle très performant : en l'appliquant à une faible quantité de population, nous avons couvert la quasi-totalité des réseaux de fraudeurs », confie Édouard Tabary.

Édouard Tabary, responsable de l'équipe innovation et data science au centre de scoring BNP Paribas Personal Finance : « Nous pouvons remonter des dossiers sans aucune information commune, mais avec un chemin qui les relie. »

PublicitéUn projet complexe par sa dimension temps réel

L'étape suivante : industrialiser le modèle Un travail démarré début 2021 et qui s'est achevé début 2022 avec le go live. Lors de cette phase, l'algorithme a continué à être optimisé, en particulier pour le temps réel. Mais l'essentiel du temps a surtout été consacré à la conception d'une architecture adaptée, également hébergée en interne. « Nous avons mis en place un système pour appeler en temps réel l'infrastructure Neo4j dans le parcours, mais ce système comporte toujours une partie transactionnelle, afin de préserver notre capacité à étudier les données pour améliorer l'algorithme », a indiqué Édouard Tabary.

Désormais, les données arrivent directement dans la base en graphes et peuvent immédiatement être comparées à toutes les demandes passées, avec une réponse en quelques millisecondes. « C'est ainsi que nous pouvons remonter deux dossiers sans aucune information commune, mais avec un chemin qui les relie », détaille Édouard Tabary. Une fois les groupements identifiés, l'équipe peut ensuite trouver des marqueurs potentiels de fraude, en exploitant notamment les liens de similarité de Neo4j. Le but est d'avoir le moins de faux positifs possibles, mais il faut également comprendre le chemin qui a conduit un dossier à obtenir un score de risque frauduleux élevé, afin d'apporter une réponse au client dont le dossier se verrait refusé. « Nous avons une obligation d'explicabilité du modèle, de compréhension des marqueurs de risque », souligne Mehdi Barchouchi. « Sur une base en graphes, on sait retracer, capturer le contexte. L'empreinte des données fournit un contexte particulier, au fur et à mesure nous obtenons des patterns de plus en plus précis. Nous pouvons expliquer la prédiction de fraude en allant regarder le voisinage, retrouver ce qui a conduit à la prédiction en tenant compte des délais légaux de conservation des données. » L'équipe veille également à l'équité du modèle, afin de ne pas induire des biais discriminants.

Un modèle amené à évoluer

D'autres entités du groupe BNP Paribas utilisent Neo4j, notamment l'IT pour la résolution d'incidents. Toutefois, l'usage d'une telle technologie est une première pour l'équipe de BNP Paribas Personal Finance, constituée de deux experts métiers, de deux data scientists et d'un petit groupe de développeurs et d'administrateurs. Sur ce projet, cette équipe transverse, associant notamment IT et direction des risques, a bénéficié d'un accompagnement de l'éditeur pour écrire le modèle et l'alimenter à partir de ses données. « Nous étions habitués aux formats tabulaires et nous avons dû apprendre », confie Mehdi Barchouchi. Aujourd'hui, l'enjeu est d'élargir la base de sachants afin de pouvoir explorer d'autres cas d'usages et toucher d'autres populations.

De cette expérience, l'équipe a déjà tiré certains enseignements. Selon Mehdi Barchouchi, « pour engager une telle démarche, il est important de bien connaître ses données et de disposer de bons exemples de cas de fraude en réseau, que l'on pourra retrouver avec le graphe. » Il recommande également d'y consacrer du temps, à la fois en amont, sur la phase exploratoire, mais aussi après la mise en production. « Celle-ci n'est que le début de la vie du projet. Il faut pouvoir faire évoluer le modèle, afin de réagir à l'activité des fraudeurs », insiste le responsable innovation data & outils à la direction des risques France. Sans oublier, ajoute-t-il, de mesurer la performance à travers des indicateurs.