Projets

Leclerc met de l'ordre dans son catalogue data avec un agent IA

De gauche à droite, Vincent Constanza, architecte data au Galec (Leclerc), Florent Legras, CTO data et IA de Sfeir, et Baptiste Pirault, ingénieur client data et IA de Sfeir. (Photo : R.F.)

Pour simplifier l'accès à son catalogue de données, le Galec, la centrale d'achat de Leclerc, a déployé un agent capable de raisonner et guider les utilisateurs dans leurs requêtes. Une première approche d'une architecture permettant à ceux-ci de dialoguer avec les données.

PublicitéAu sein de la coopérative Leclerc, le Galec joue le rôle de centrale d'achats et de pilote de la stratégie commerciale du groupe. « Dans nos métiers, le nerf de la guerre, c'est la donnée », tranche Vincent Constanza, architecte data au Galec. La coopérative (180 000 collaborateurs, 875 magasins et 791 drive), qui a généralisé Google Workspace, exploite notamment des tableaux de la suite collaborative pour gérer son catalogue de données, soit 11 documents au total, un par jeu de données, totalisant 83 onglets. « Ce choix aboutissait à des variations sur les définitions de données et à un manque d'homogénéité sur les indicateurs. Par ailleurs, la maintenance de ces Google Sheet était fastidieuse et leur consommation difficile pour les utilisateurs. In fine, ils étaient davantage contournés que consultés », reconnait l'architecte, qui s'exprimait lors d'une conférence du Google Cloud Summit, le 4 juin dernier, à Paris.

En 2024, accompagnée de Sfeir, la centrale d'achat amorce une réflexion sur l'usage de la GenAI pour améliorer l'expérience utilisateur et rationaliser son catalogue, en y apportant notamment des règles écrites en langage naturel. Sur une durée de 18 mois, le projet, dont l'ambition est de mettre en oeuvre un agent pour simplifier l'accès des utilisateurs aux data, verra se succéder trois architectures différentes, tâtonnements qui témoignent du caractère mouvant de ces technologies. Mi-2024, l'ESN et la centrale d'achat misent d'abord sur une approche totalement managée, sur Vertex AI Agent Builder de Google, et une connexion directe au Drive renfermant le catalogue de données. Une solution qui plafonne rapidement, notamment du fait de l'absence de composant de raisonnement capable de prendre en charge les questions un tant soit peu complexes. « Début 2025, nous nous tournons alors vers une approche RAG sur LangChain et utilisons la fonction de recherche vectorielle de BigQuery », raconte Florent Legras, le CTO data et IA de Sfeir. « Le résultat est meilleur, mais on atteint rapidement les limites, le RAG n'offrant qu'un nombre limité de résultats et l'application ne gérant pas l'aspect conversationnel », souligne notamment Vincent Constanza. Par ailleurs, les utilisateurs posant des questions dans leur jargon métier, l'application nécessite la construction d'un lexique général et de dictionnaires plus spécifiques, couvrant le vocabulaire des différents métiers du Galec.

L'agent détermine la chaîne d'actions la plus appropriée

Ce n'est finalement que mi-2025 que l'équipe projet identifie l'architecture répondant réellement à ses attentes, au centre de laquelle figure Google ADK, un framework de développement d'agents tout juste mis sur le marché par l'hyperscaler. « Cette architecture permettait à la fois de proposer des réponses plus adaptées, via un agent basé sur un modèle Gemini capable de raisonner sur les questions, et l'accès à différents outils sous-jacents », souligne Florent Legras. Plutôt qu'un workflow rigide, c'est l'agent qui détermine son plan d'action en sélectionnant les outils dont il a besoin : BigQuery, le glossaire, l'outil collaboratif Confluence utilisé en interne ou encore le diagramme des relations entre les données. Autre atout de cette architecture, selon le CTO : la rapidité de mise en production.

Publicité« La solution reste un agent de découverte de la donnée, souligne Vincent Constanza. Mais elle peut désormais suggérer des usages de celle-ci, en proposant les requêtes BigQuery associées à ces usages et en estimant même le coût de celles-ci. » L'outil, aujourd'hui en production auprès d'environ 150 employés du Galec, peut aussi, par exemple, générer un diagramme représentant les relations entre tables.

Un coût mensuel inférieur à 300 €

Associé à un mécanisme de feedback des utilisateurs, l'assistant est accompagné d'un dispositif de monitoring, un LLM évaluant la qualité des réponses ainsi que l'enchaînement du recours aux différents outils et le nombre d'appels à ceux-ci. L'équipe en charge du projet maintient encore une liste de questions clefs pour évaluer les conséquences des évolutions des modèles Gemini sur la fiabilité de la solution. Selon l'architecte data du Galec, la solution prend aujourd'hui en charge plus de 1000 questions par mois, et coûte, sur cette même période, entre 100 et 200 euros en infrastructures auxquels s'ajoutent environ 100 euros en tokens. « Dans notre prompt système, nous avons prévu des alertes quand une requête va dépasser certains seuils, avant même son exécution », précise Vincent Constanza.

A court terme, la centrale d'achat prévoit d'enrichir son assistant, en greffant à la solution de nouvelles sources de données ou en l'enrichissant de fonctions de traçabilité et de mise en qualité des données. « A moyen terme, pour 2027, on peut imaginer aller vers une plateforme multi-agent, par exemple en exposant ce premier agent via le protocole A2A (Agent2Agent, lancé en avril 2025 par Google, NDLR). Ce dernier pourrait alors devenir une composante d'une solution plus large de Talk to data », imagine le CTO Florent Legras. Et de lorgner également vers le protocole A2UI (Agent-to-User Interface, là encore conçu par Google), permettant de générer à la volée une interface utilisateur en fonction de la question de celui-ci et du format de la réponse que construit l'agent.