La CNAV met Hadoop à la retraite et mise sur Teradata et Dataïku

La caisse gestionnaire des retraites écarte peu à peu Hadoop pour moderniser ses traitements de données. En travaillant avec deux équipes internes, qui font office d'éclaireurs dans le déploiement de la nouvelle plateforme.
PublicitéCréée en 2019 et forte de 65 personnes environ, la direction de la gestion de la donnée de la CNAV (Caisse nationale d'assurance vieillesse, qui gère la retraite de 36 millions d'assurés) a d'entrée de jeu souhaité regrouper l'abondante donnée (17 à 18 milliards d'enregistrements) de cet organisme né des ordonnances de 1945. Avec, au départ, une solution basée sur Hadoop, plus précisément sur une distribution de Cloudera. Mais, dès 2022, ce choix est remis en cause, y compris sur la data science pour laquelle la CNAV exploitait aussi les outils de cet éditeur. Si Teradata est retenu pour la construction d'un datawarehouse, c'est Dataïku, porté par la société Octo Technology, qui est choisi fin 2024 pour cette partie data Science. « Le projet a démarré fin mars, sur une solution on-premise, intégrée à notre Active Directory et à Teradata », précise Franck Augeard, responsable technique de la data platform de la CNAV, qui s'exprimait à l'occasion d'un événement organisé par l'éditeur français, fin septembre, à Paris.
Une première mise en production de la solution, qui prévoit l'exploitation de fichiers SAS existants, a lieu en juin dernier, auprès de 50 utilisateurs et sur des fonctions essentielles. Au sein de la CNAV, deux équipes servent de départements pilotes, la direction de la statistique, de la prospective et de la recherche (DSPR) et une mission chargée de qualité de la donnée sur 5 grands référentiels de l'organisme. La première étant habituée à produire du code, la seconde privilégiant plutôt les approches no-code. « Nos efforts se sont concentrés sur ces deux équipes qui chacune de leur côté, avaient construit des traitements Hadoop », confirme Franck Augeard.
Contrôler la qualité des fichiers échangés
« Dès juin, nous avons pu traiter deux cas d'usage sur le nouveau système », indique Alexandra Condamin, responsable qualité de la donnée qui travaille au sein de la seconde équipe. L'un d'eux concerne les identités mal renseignées au sein du référentiel gérant les ressources mensuelles des assurés. « Nous avons pu produire une segmentation des mauvais déclarants afin de proposer des listes de personnes à appeler en priorité », reprend la responsable. La solution est également exploitée pour contrôler, de façon exhaustive, une vingtaine de fichiers échangés entre caisses de retraite, afin d'y repérer des anomalies. Un sujet sur lequel travaillent trois personnes au sein de la CNAV. « La solution, en place depuis trois mois, a permis de mettre fin à l'échantillonnage », souligne Alexandra Condamin.
Au sein de la DSPR également - un service d'une soixantaine de personnes où 80 à 90% des collaborateurs sont des utilisateurs SAS ou ont des compétences en programmation -, deux cas d'usage ont été mis en oeuvre avec la nouvelle plateforme. Pour la création d'une table synthétisant la carrière des assurés, sur la base d'échantillons, tout d'abord. « Avec Dataïku, visualiser les différentes étapes et collaborer s'avère plus simple que précédemment », explique Mathilde Quérrec, statisticienne à la CNAV, qui imagine désormais faire évoluer la solution pour qu'elle se déclenche automatiquement en cas de mise à jour de la base de données des valorisations. L'autre cas d'usage est centré sur l'identification des dossiers à risque en amont ou au moment de leur dépôt par le requérant. « Ce qui permet aux contrôleurs de prioriser leurs actions, souligne la statisticienne. À terme, nous voudrions aussi automatiser ces traitements. »
PublicitéHadoop : fermeture prévue fin 2025
Si ces automatisations, tout comme le recours à l'IA, figurent bien sur la feuille de route de la CNAV, la première échéance reste de finir le déploiement de la solution de Data Science avant la fin d'année, pour sortir d'Hadoop à cette échéance. Ce qui suppose de compléter la mise en oeuvre de quelques fonctions, comme la connexion à S3 pour le stockage objet de certaines données non structurées. De son côté, la DSPR mise sur la nouvelle plateforme de Data Science pour mieux exploiter la richesse des données internes, « notamment pour zoomer sur des populations particulières, plutôt que de travailler sur des échantillons », comme le dit Mathilde Quérrec.
Article rédigé par

Reynald Fléchaux, Rédacteur en chef CIO
Suivez l'auteur sur Twitter
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire