Projets

La CNAV met Hadoop à la retraite et mise sur Teradata et Dataiku

La CNAV met Hadoop à la retraite et mise sur Teradata et Dataiku
Franck Augeard, responsable technique de la data platform de la CNAV : « nos efforts se sont concentrés sur deux équipes qui, chacune de leur côté, avaient construit des traitements Hadoop. » (Photo : R.F.)

La caisse gestionnaire des retraites écarte peu à peu Hadoop pour moderniser ses traitements de données. En travaillant avec deux équipes internes, qui font office d'éclaireurs dans le déploiement de la nouvelle plateforme.

PublicitéMis à jour le 8/10 à 9h10

Créée en 2019 et forte de 65 personnes environ, la direction de la gestion de la donnée de la CNAV (Caisse nationale d'assurance vieillesse, qui gère la retraite de 36 millions d'assurés) a d'entrée de jeu souhaité regrouper l'abondante donnée (17 à 18 milliards d'enregistrements) de cet organisme né des ordonnances de 1945. Avec, au départ, une solution basée sur Hadoop, plus précisément sur une distribution de Cloudera. Mais, dès 2022, ce choix est remis en cause, y compris sur la data science pour laquelle la CNAV exploitait aussi les outils de cet éditeur. Si Teradata est retenu pour la construction d'un datawarehouse, c'est Dataiku, porté par la société Octo Technology, qui est choisi fin 2024 pour cette partie data Science. « Le projet a démarré fin mars, sur une solution on-premise, intégrée à notre Active Directory et à Teradata », précise Franck Augeard, responsable technique de la data platform de la CNAV, qui s'exprimait à l'occasion d'un événement organisé par l'éditeur français, fin septembre, à Paris.

Une première mise en production de la solution, qui prévoit une interaction forte avec les traitements effectués sous SAS à travers des échanges de données via Teradata ou via un partage des fichiers au format propriétaire SAS, a lieu en juin dernier, auprès de 50 utilisateurs et sur des fonctions essentielles. Au sein de la CNAV, deux équipes servent de départements pilotes, la direction de la statistique, de la prospective et de la recherche (DSPR) et la Direction de la Gestion des données (DGD) chargée de la qualité de la donnée sur 5 grands référentiels dont la CNAV est opérateur. La première étant habituée à produire du code, la seconde privilégiant plutôt les approches no-code. « Nos efforts se sont concentrés sur ces deux équipes qui chacune de leur côté, avaient construit des traitements Hadoop », confirme Franck Augeard.

Contrôler la qualité des fichiers échangés

« Dès juin, nous avons pu traiter deux cas d'usage sur le nouveau système », indique Alexandra Condamin, data quality analyst au sein de la seconde équipe. L'un d'eux concerne les identités mal renseignées au sein du référentiel gérant les ressources mensuelles des assurés. « Nous avons pu produire une segmentation des entreprises montrant des anomalies déclaratives, afin de proposer des listes de déclarants à contacter en priorité », reprend l'analyste. La solution est également exploitée pour contrôler, de façon exhaustive, une vingtaine de fichiers échangés par les régimes de retraite, afin d'y repérer des défauts de qualité des données. Un sujet sur lequel travaillent trois personnes au sein de la CNAV. « La solution, en place depuis trois mois, a permis de mettre fin à l'échantillonnage », souligne Alexandra Condamin.

PublicitéAu sein de la DSPR également - un service d'une soixantaine de personnes où 80 à 90% des collaborateurs sont des utilisateurs SAS ou ont des compétences en programmation -, deux cas d'usage ont été mis en oeuvre avec la nouvelle plateforme. Pour la création d'une table synthétisant la carrière des assurés, sur la base d'échantillons, tout d'abord. « Avec Dataiku, visualiser les différentes étapes et collaborer s'avère plus simple que précédemment », explique Mathilde Querrec, Data Scientist à la CNAV, qui imagine désormais faire évoluer la solution pour qu'elle se déclenche automatiquement en cas de mise à jour de la base de données des valorisations. L'autre cas d'usage est centré sur l'identification des dossiers complexes en amont ou au moment de leur dépôt par le requérant. « Ce qui permettrait aux contrôleurs de fiabiliser leur traitement, souligne la Data Scientist. À terme, nous voudrions aussi automatiser ces traitements. »

Hadoop : fermeture prévue fin 2025

Si ces automatisations, tout comme le recours à l'IA, figurent bien sur la feuille de route de la CNAV, la première échéance reste de finir le déploiement de la solution de Data Science avant la fin d'année, pour sortir d'Hadoop à cette échéance. Ce qui suppose de compléter la mise en oeuvre de quelques fonctions, comme la connexion à S3 pour le stockage objet de certaines données non structurées. De son côté, la DSPR mise sur la nouvelle plateforme de Data Science pour mieux exploiter la richesse des données internes, « notamment pour travailler de façon exhaustive, plutôt que sur des échantillons », comme le dit Mathilde Querrec.

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis