Projets

L'évaluation des IA va créer de l'emploi

Des équipes d‘évaluation d’agents IA s’avèrent essentielles pour le passage à l’échelle de cette technologie (Photo: Pixabay)

Certaines organisations mettent en place des équipes d'évaluation lorsqu'elles constatent des décisions surprenantes de la part d'agents d'IA, ayant pourtant passé avec succès les tests initiaux.

PublicitéDe nouveaux emplois dans l'IT émergent pour aider les organisations à mieux évaluer les résultats de l'IA à mesure qu'elles passent de projets pilotes à des déploiements à grande échelle. De nombreuses organisations envisagent désormais de constituer ou de recruter des équipes d'évaluation de l'IA, certains experts qualifiant ces nouveaux postes de filet de sécurité indispensable pour les entreprises qui déploient ces technologies.

L'essor rapide des agents IA favorise cette tendance, et des équipes d'évaluation IA ont commencé à se former ces derniers mois, explique Yasmeen Ahmad, directrice générale de la gestion des produits, des données et du cloud IA chez Google Cloud. « Jusqu'à présent, nous n'en étions pas vraiment au stade où nous disposions d'agents autonomes capables d'un raisonnement complexe en plusieurs étapes, explique-t-elle. À mesure que les entreprises observent le comportement des agents dans la pratique, ils se rendent compte que l'évaluation n'est pas une étape à franchir, mais qu'elle doit être une pratique continue. »

Chez Google, les équipes d'évaluation sont intégrées aux groupes de développement des agents afin que les deux fonctions puissent être exercées simultanément, explique Yasmeen Ahmad. « Pendant que les développeurs d'agents travaillent, l'évaluation se fait en parallèle, ce qui permet d'obtenir une boucle d'itération rapide », explique-t-elle.

D'autres organisations ont commencé à créer des groupes de travail chargés d'évaluer l'IA au sein de leurs départements IT et IA, explique Maksim Hodar, CIO chez Innowise, une société de développement de logiciels. Dans certains cas, les entreprises regroupent des architectes data, des responsables de la sécurité et des responsables de la conformité au sein de la nouvelle équipe, plutôt que de recruter à partir de zéro, note-t-il.

La stratégie du filet de sécurité

Les membres de l'équipe d'évaluation de l'IA jouent un rôle hybride, à mi-chemin entre le codage brut et l'éthique, ajoute Maksim Hodar. « On peut sans doute affirmer que nous assistons à l'évolution de l'équipe d'évaluation de l'IA, qui passe d'un simple ''plus'' à une nécessité, souligne-t-il. Nous avons observé que les entreprises s'éloignent de l'adoption aveugle de l'IA et adoptent une approche plus mesurée, celle du ''filet de sécurité'' ».

Bien qu'un ensemble d'outils émergents, notamment des produits d'observabilité et de gouvernance, se concentrent sur la prévention des défaillances de l'IA, la technologie n'est pas une réponse suffisante, ajoute-t-il. Les humains devront décider si l'outil informatique est conforme aux valeurs de l'entreprise et aux réglementations telles que le RGPD, selon Maksim Hodar. « Si la technologie peut identifier les erreurs techniques, elle ne peut pas évaluer le contexte, note-t-il. Elle fournit des informations, mais c'est toujours l'équipe d'évaluation qui donne le feu vert. On ne peut pas automatiser la responsabilisation. »

PublicitéFace à des décideurs non déterministes

Les équipes d'évaluation humaine ont besoin des données fournies par les outils d'observabilité, mais la technologie elle-même ne peut pas fournir le contexte nécessaire aux modèles et agents d'IA pour corriger les résultats erronés, abonde Yasmeen Ahmad. Les agents d'IA sont devenus très performants pour réussir les tests en amont, mais les équipes d'évaluation sont indispensables pour suivre les résultats en condition réelle, explique la responsable de Google Cloud. « Les applications agentiques peuvent réussir les tests unitaires initiaux de ce scénario précis que vous avez décrit, détaille-t-elle. Mais les systèmes agentiques sont des décideurs non déterministes ; leur comportement est donc imprévisible. Vous ne testez pas toutes les manières possibles dont ils pourraient se comporter dans le monde réel. »

Bien qu'un outil d'observabilité puisse fournir des données sur l'utilisation des jetons et des outils, leurs défaillances et les erreurs de raisonnement, l'intervention d'évaluateurs humains reste indispensable pour résoudre bon nombre de problèmes. Les équipes d'évaluation peuvent ainsi apporter un éclairage sur les erreurs de raisonnement fréquemment rencontrées par les agents, précise Yasmeen Ahmad. « Lorsque nos équipes d'évaluation internes passent beaucoup de temps sur nos agents, une grande partie de ce temps est consacrée à la question : "pourquoi le raisonnement a-t-il échoué à cet endroit ?". Et c'est parce que l'agent n'a pas accès à suffisamment de contexte. La solution consiste à fournir le contexte adéquat aux strates appropriées de l'agent afin qu'il puisse prendre de meilleures décisions dans son raisonnement. »

En production, l'enthousiasme pour l'IA ne suffit pas

Une bonne équipe d'évaluation prend également en compte plusieurs autres aspects, notamment la gouvernance , la préparation de la culture interne, l'alignement des workflows organisationnels et la mesure de l'impact des outils d'IA, ajoute Noe Ramos, vice-présidente des opérations d'IA chez Agiloft, fournisseur de solutions de gestion du cycle de vie des contrats. La technologie seule ne peut pas résoudre tous ces problèmes, précise-t-elle. « Le principal obstacle n'est pas technique, il est humain. On peut acheter des outils performants et rencontrer malgré tout des difficultés si les gens ne leur font pas confiance, ne les comprennent pas ou ne voient pas comment ils s'intègrent à leur travail. »

À l'instar de Maksim Hodar et Yasmeen Ahmad, Noe Ramos constate également une demande croissante d'équipes d'évaluation de l'IA, même si ces rôles émergent davantage comme une compétence que comme des titres officiels. « À mesure que les organisations dépassent la phase d'expérimentation, elles réalisent que l'IA ne peut pas être déployée uniquement sur la base d'un enthousiasme pour la technologie », ajoute-t-elle. Elle souligne qu'une discipline d'évaluation formelle devient essentielle à mesure que les organisations déploient l'IA à grande échelle.

« En fin de compte, l'évaluation de l'IA ne se limite pas à la sécurité, il s'agit de s'assurer que l'IA favorise la clarté et l'action plutôt que de générer des informations superflues, explique Noe Ramos. « Ou, pour reprendre notre formulation interne, nous utilisons l'IA pour favoriser la clarté et l'action, et non pour submerger les équipes de tableaux de bord. » Noe Ramos a récemment été promue de vice-présidente IT à vice-présidente des opérations d'IA. Son équipe comprend un responsable des opérations d'IA, un ingénieur en agents d'IA et un responsable des systèmes GPT et d'IA, précise-t-elle. L'objectif est d'intégrer l'évaluation au modèle opérationnel d'Agiloft.

D'abord cartographier ses processus

À mesure que les organisations maîtrisent mieux l'utilisation de l'IA, le passage de l'enthousiasme à une évaluation rigoureuse crée le besoin d'une fonction d'évaluation structurée, ajoute Noe Ramos. « D'après mon expérience, l'un des plus grands risques est que les initiatives en matière d'IA soient dictées par les voix les plus puissantes dans les organisations plutôt que par les véritables priorités opérationnelles, dit la DSI et responsable IA. Je ne pense pas que le développement de l'IA doive reposer sur les voix les plus influentes ; il devrait s'appuyer sur les personnes les plus sensées pour maximiser son impact au sein de l'organisation. »

Dans la plupart des entreprises, le rôle d'évaluation devrait se situer à l'intersection des IT, de la sécurité, du data leadership et des directions métiers, selon Noe Ramos, ajoutant que les responsables de l'évaluation doivent également avoir une compréhension approfondie du fonctionnement de l'organisation. « L'une des raisons de l'échec des évaluations de l'IA est que les entreprises ne comprennent pas toujours leurs propres workflows, explique la responsable d'Agiloft. On ne peut pas évaluer intelligemment l'IA par rapport à des processus que l'on n'a pas cartographiés, à des blocages que l'on n'a pas identifiés ou à des priorités que l'on n'a pas alignées. »