Technologies

Crédit Mutuel Arkéa libère un LLM entraîné en français

Le siège du Crédit Mutuel Arkéa. Le LLM se base sur un nombre de paramètres relativement modeste (7 milliards) limitant ainsi la consommation d’énergie associée à son entraînement. (Photo : FJaffres CC BY-SA 4.0)

La banque a entraîné un modèle d'IA générative pour une quarantaine de cas d'usage et a décidé de le placer en Open Source, sur HuggingFace.

PublicitéDans la continuité d'une stratégie data faisant la part belle à l'Open Source, le Crédit Mutuel Arkéa libère un modèle d'IA générative. Entraîné en langue française, ce modèle, mis à disposition sur la plateforme HuggingFace, a été conçu par le Data Office du groupe en collaboration avec le service conformité afin de respecter les enjeux de sécurité propres au secteur bancaire. Les équipes du Crédit Mutuel Arkéa ont concentré leurs efforts sur une quarantaine de cas d'usage afin de s'assurer du contrôle de la donnée sur l'ensemble du processus : « un chatbot en support des collaborateurs sur la base de corpus documentaires, la rédaction de synthèses et de documentation, ou encore la collecte de données extra-financières à partir de rapports », illustre l'établissement bancaire dans un communiqué. La banque explique encore que les travaux qu'il a menés sur l'IA générative a déjà permis de lancer plusieurs projets en interne, notamment sur la catégorisation des mails, la lecture de factures ou encore le diagnostic de performance énergétique.

7 milliards de paramètres... seulement

Le développement de ce modèle s'inscrit « dans la volonté du gouvernement d'accélérer la création et la mise en accessibilité de communs numériques sur l'ensemble de la chaîne de valeur de l'IA générative », selon Laurent Jurrius, directeur du Pôle Innovation et Opérations. « Nous avons atteint les trois objectifs de performance, de souveraineté et de sobriété que nous nous étions fixés, tout en gardant comme ligne directrice la démarche d'ouverture qui fait la singularité de notre groupe », reprend le responsable. En effet, le modèle placé en Open Source fonctionne sur la base de 7 milliards de paramètres, très loin de la course au gigantisme qui anime les grands modèles de langage des grands acteurs américains. GPT3 compte par exemple 175 milliards de paramètres. Leur nombre reste inconnu sur GPT4, mais on parle fréquemment de 1000 milliards ! « Ce modèle plus léger permet de conserver un haut niveau de performance avec une consommation de ressources plus raisonnée », assure Crédit Mutuel Arkéa, groupe de 11 000 personnes environ, comportant une activité banque de détail et une quarantaine de filiales spécialisées.

Le modèle placé en Open Source est issu des travaux du pôle Innovation et Opérations que la banque présente comme son « moteur technologique et industriel ». Composé de 6 directions et de 1 000 collaborateurs, ce pôle intègre depuis 2022 un Data Office, que dirige Maxime Havez. Lors d'une conférence fin septembre, à Paris, ce dernier mettait en lumière un autre développement du Data Office appelé à être placé en Open Source : une solution maison de développement dédié au Data Processing permettant de concevoir un code unique que l'application soit déployée on-premise ou sur le cloud.