Évaluation et tests : le coût caché du déploiement des agents IA
Les organisations qui adoptent des agents sous-estiment souvent le coût des tests d'une technologie dont la nature non déterministe engendre fréquemment des évaluations complexes et onéreuses.
PublicitéMauvaise surprise en vue pour les entreprises ayant déployé ou déployant des agents IA ? Selon certaines études, près de 80% des entreprises ont déjà mis en oeuvre cette technologie, mais la plupart d'entre elles ignorent le coût de leur entrainement et de l'évaluation de leurs résultats. Or, selon les experts, ces coûts peuvent largement dépasser les prévisions.
De nombreuses organisations expérimentent encore pour trouver les meilleures façons de détecter les problèmes des agents avant qu'ils ne provoquent le chaos en production, explique Lior Gavish, cofondateur et directeur technique de Monte Carlo, fournisseur de solutions d'observabilité de l'IA.
Comme beaucoup d'organisations utilisent un second LLM pour vérifier les résultats d'un agent basé sur un premier modèle de langage, les tests peuvent s'avérer bien plus coûteux que traditionnellement, ajoute-t-il. De plus, cette méthode, appelée « LLM as-a-judge », peut s'avérer plus coûteuse que le fonctionnement même de l'agent, car le coût d'utilisation d'un LLM sur une période prolongée peut rapidement devenir important.
« Tester ou de contrôler ces résultats reste complexe, souligne Lior Gavish. En pratique, on demande à un second LLM d'évaluer les performances d'un premier LLM selon divers critères, qui varient considérablement d'un cas d'utilisation à l'autre. » Monte Carlo a elle-même constaté ce problème lorsqu'une évaluation basée sur un LLM a été menée pendant plusieurs jours, générant une facture à cinq chiffres, se remémore le directeur technique. « Une évaluation par un LLM coûte généralement beaucoup plus cher que n'importe quelle opération logicielle traditionnelle », avertit-il.
Quand les LLM évaluent les LLM
Le recours à un second LLM pour examiner les résultats d'un agent peut aussi poser un problème de confiance, car la démarche suppose que les conclusions de ce second LLM soient exactes, explique Lior Gavish. Les doutes quant à la précision des résultats peuvent engendrer de nouveaux coûts supplémentaires, les organisations menant alors d'autres tests pour les vérifier. « Ces contrôles sont non déterministes et même impossibles à reproduire, explique le directeur technique. On peut obtenir des résultats différents si l'on n'est pas vigilant. » L'approche s'éloigne donc des tests ou de la surveillance logicielle plus traditionnels, où le résultat est soit positif, soit négatif.
Le coût des évaluations des agents peut encore varier considérablement selon leur complexité, souligne Russell Twilligear, responsable de la R&D en IA chez BlogBuster, un fournisseur de contenu généré par IA. Par exemple, l'évaluation d'un agent simple et bien défini peut se limiter à quelques milliers de dollars, tandis que celle d'agents plus complexes va se chiffrer en dizaines de milliers de dollars, précise-t-il. « Il faut prendre en compte tous les tests, la journalisation et les vérifications humaines, dit-il. Chaque modification implique de relancer les évaluations, et le coût grimpe très vite. »
PublicitéIndispensable contrôle humain
Les évaluations d'agents peuvent être complexes car elles doivent couvrir plusieurs facteurs, notamment le raisonnement, l'exécution, les fuites de données, le ton des réponses, la confidentialité et même l'éthique, soulignent les experts en IA. Selon Paul Ferguson, fondateur de la société de conseil Clearlead AI Consulting, une bonne évaluation intègre toujours une dimension humaine, nécessitant l'intervention d'experts du domaine pour vérifier les résultats. Il ajoute que l'un des principaux défis de l'évaluation consiste à définir ce que signifie un résultat « correct » dans des cas d'utilisation ambigus.
Dans ce type de projets, la plupart des responsables IT budgétisent les coûts évidents - temps de calcul, appels API et heures d'ingénierie -, mais négligent le coût du jugement humain nécessaire pour définir ce que Paul Ferguson appelle la « vérité de référence ». « Pour évaluer si un agent a correctement traité une requête client ou rédigé une réponse appropriée, il est indispensable que des experts du domaine évaluent manuellement les résultats et parviennent à un consensus sur ce qui constitue une réponse "correcte", note-t-il. Ce niveau d'étalonnage humain est coûteux et il est trop souvent négligé. »
L'évaluation automatisée peut être simple lorsqu'il s'agit de vérifier qu'un code franchit l'étape de compilation ou réussit tous les tests unitaires. « Mais pour les requêtes vagues comme "Aidez-moi à comprendre ces données" ou "Rédigez une réponse à ce client", définir ce qui constitue une réponse correcte devient vraiment difficile, insiste Paul Ferguson. Même les humains peuvent être en désaccord entre eux dans certains cas. »
Tester les agents : un travail de Sisyphe
Le coût élevé des évaluations provient rarement des coûts de calcul de l'agent lui-même, mais du « multiplicateur non déterministe » des tests, reconnaît Chengyu « Cay » Zhang, ingénieur logiciel et fondateur de Redcar.ai, fournisseur de solutions d'IA vocale. Il compare la formation des agents à celle des nouveaux employés, les deux étant sujettes aux aléas. « On ne peut pas se contenter de tester un prompt une seule fois ; il faut le tester 50 fois dans différents scénarios pour vérifier la fiabilité de l'agent et éviter les erreurs, explique-t-il. Et chaque modification d'un prompt ou changement de modèle implique de relancer des milliers de simulations. »
Il existe plusieurs méthodes d'évaluation des agents, notamment les tests unitaires à faible coût, l'évaluation synthétique à l'aide d'un autre modèle d'IA, les simulations d'attaques et l'observation humaine, plus onéreuse, où un expert accompagne un agent pendant une semaine ou plus, précise l'ingénieur.
Mais les organisations recherchent souvent des solutions de facilité, généralement en s'appuyant entièrement sur d'autres modèles d'IA pour l'évaluation. Un raccourci que Cay Zhang déconseille. « Pour moi, les évaluations sont une assurance, détaille-t-il. Les raccourcis dans les évaluations ne sont qu'une forme de dette technique qui se paie avec intérêts lorsque l'agent commet une erreur grossière devant un client VIP. Vous pourriez économiser 10 000 dollars sur les évaluations aujourd'hui, mais si votre agent financier commet une erreur grossière lors d'une transaction, ce coût est négligeable comparé aux dommages causés à votre image de marque. »
Limiter le champ d'action de l'agent
Si une organisation souhaite faire des économies, la meilleure solution consiste à restreindre le champ d'action de l'agent plutôt que de réduire les tests, ajoute-t-il. « Si vous négligez les étapes coûteuses, comme la vérification humaine ou les tests d'intrusion, vous vous en remettez entièrement au hasard », résume Cay Zhang.
Pour limiter les coûts d'évaluation, Paul Ferguson de Clearlead AI Consulting recommande aux organisations de commencer par des cas d'utilisation associés à des réponses claires et binaires, comme la compilation de code, avant d'aborder des scénarios plus subjectifs. Il conseille également aux organisations d'utiliser des frameworks d'évaluation de LLM, tels que LangSmith, PromptLayer ou Ragas, plutôt que de développer leur propre outillage. Selon lui, les équipes IT devraient encore commencer les tests au plus tôt. « Créer des environnements d'évaluation avant la production est bien moins coûteux que d'adapter les agents ultérieurement », affirme Paul Ferguson.
Lior Gavish, de Monte Carlo, propose d'autres solutions pour réduire les coûts, comme la définition de plafonds de dépenses pour les évaluations et une vérification rigoureuse des LLM utilisés pour tester les agents. « Il est possible d'optimiser légèrement le modèle, explique-t-il. Bien sûr, vous pouvez utiliser la dernière version de ChatGPT pour chaque évaluation, mais ce n'est probablement pas la solution optimale. »
Article rédigé par
Grant Gross, CIO US (adapté par Reynald Fléchaux)
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire