Technologies

Scoring à la Cnaf, un petit pas vers la transparence

Scoring à la Cnaf, un petit pas vers la transparence
Poussée par un recours devant le Conseil d'Etat, la Cnaf a rendu public les programmes derrière le scoring de ses allocataires. (Photo : Cnaf)

La Cnaf publie le code source de ses programmes de scoring pour le contrôle des dossiers d'allocataires. Un premier pas vers la transparence salué par les 25 associations qui ont entamé un recours au Conseil d'État sur le sujet. Mais la potentielle discrimination des plus précaires et la non-protection des données personnelles demeurent des questions ouvertes.

PublicitéMi-janvier, la Cnaf (Caisse nationale d'allocations familiales) a rendu publics, d'une part, la liste des critères qu'elle utilise pour déterminer la nécessité ou non de contrôler un dossier d'allocataire et, d'autre part, le code source des programmes de scoring associés qui servent à évaluer cette nécessité. Autrement dit, la probabilité qu'un dossier contienne une erreur, voire une tentative de fraude. Un document détaillé accompagne cette publication qui explique comment cette solution de BI de la Cnaf a évolué vers une démarche d'éthique et de transparence, sous le nom de DMDE 2026 (datamining données entrantes 2026).

Cette annonce répond en particulier à un recours entamé fin 2024 par 15 associations emmenées par la Quadrature du Net auprès du Conseil d'État, au nom du droit de la protection des données personnelles et du principe de non-discrimination. On trouve parmi ces associations la Ligue des droits de l'Homme, Amnesty International France, le Groupe d'information et de soutien des immigré·es (Gisti) ou Le Mouton numérique. Le recours porte sur la transparence de l'algorithme de contrôle de la Cnaf, et vise « l'étendue de la surveillance mise en place et la discrimination perpétrée par cet algorithme ». En 2022, le montant des fraudes constatées ne s'est en effet élevé qu'à 350 M€ selon la Cnaf, sur un total de 100 Md€ de prestations versées, soit 0,35%. Le reste des indus, c'est-à-dire des trop-perçus (environ 650 M€), étant liés à des erreurs de déclaration. Les associations à l'origine du recours ont salué la publication du code source, mais poursuivent la procédure, car elles jugent le risque de discrimination important. Dix autres associations, parmi lesquelles la CGT ou Data for Good, viennent d'ailleurs de rejoindre les 15 premiers requérants.

Publication du code des 4 programmes concernés

« À la Cnaf, nous faisons le choix d'une démarche fondée sur la transparence, l'éthique et la responsabilité », assure néanmoins Nicolas Grivel, DG de la Cnaf, en ouverture du document. Sans plus de contexte, le communiqué assure par ailleurs que « l'utilisation d'algorithmes, et la mobilisation à terme des technologies d'intelligence artificielle est riche en opportunités pour les organismes de protection sociale », et que la démarche est menée dans un cadre de confiance et d'éthique. Un comité d'éthique a été créé avec des représentants de la Cnaf et des CAF (caisses d'allocation familiale), d'associations d'usagers, de membres du conseil d'administration et d'experts en droit, en nouvelles technologies, en data, en éthique et en philosophie. Une charte d'encadrement des développements a également été définie, centrée sur le « respect absolu de la vie privée des allocataires et de leurs données personnelles ».

PublicitéCertaines données « sensibles ou discriminantes », comme la nationalité, le genre ou l'adresse, sont exclues, tout comme les informations sur le comportement ou l'historique de contentieux. La Cnaf liste les variables utilisées dans les deux modèles de scoring (sur les périodes avant et après la déclaration préremplie dite « solidarité à la source ») qu'elle exploite. Il s'agit, par exemple, de la situation d'activité du responsable de dossier et de son conjoint, du montant moyen de prime d'activité perçue sur les 12 derniers mois ou encore du fait générateur de confirmation de logement étudiant. La CAF publie donc également le code source des 4 programmes en Pyspark (API Python pour Apache Spark) qui traitent ces data : score pour le modèle 1, identification de correction à la baisse d'au moins 150 euros de la déclaration automatique, score pour le modèle 2, pondération des deux scores donnant le score final.

Une présomption de discrimination indirecte

Dans un article sur son site Dans les algorithmes, notre confrère Hubert Guillaud cite les investigations de La Quadrature du Net, de Lighthouse Reports et du Monde, qui pointent depuis la décennie 2010 l'absence de publication du code source des outils de scoring de la Cnaf, mais aussi la prise en compte de critères comme le fait de toucher le RSA ou le chômage, ou encore le niveau de revenu. Si le code source est désormais public, ces derniers éléments, eux, sont toujours présents dans la liste publiée par la CAF, et susceptibles d'engendrer des biais de confirmation négatifs, malgré la volonté affichée par l'administration d'appliquer un usage éthique des technologies. Selon Mediapart, cité par Hubert Guillaud, dans des constatations non rendues publiques, le Défenseur des droits indique que ce traitement algorithmique « paraît produire un surcontrôle des populations les plus précaires et donc constituer une différence de traitement fondée sur la particulière vulnérabilité économique. Une présomption de discrimination indirecte semble établie ».

La Cnaf, qui a effectué 31,5 millions de contrôles en 2024, rappelle de son côté que ce sont principalement des échanges de données avec d'autres organismes qui permettent d'identifier les incohérences dans les dossiers des allocataires. Elle ajoute que seuls 1% de ces contrôles seraient liés à un signalement par l'algorithme de scoring de l'allocataire et qu'il ne s'agit nullement d'automatiser la décision, mais de créer un indicateur. La décision de réaliser un contrôle reste humaine, assure la Cnaf.

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis