Technologies

Les agents d'IA capables d'accomplir jusqu'à 30% des tâches

Les agents d'IA capables d'accomplir jusqu'à 30% des tâches
Pour tester l’aptitude des bots à automatiser des tâches administratives ou de programmation, les chercheurs ont créé un environnement simulant le fonctionnement d’un éditeur de logiciels. (Photo : Mina-FC/Unsplash)

Déployé au sein d'un éditeur de logiciels fictif, le modèle le plus performant, Gemini 2.5, est capable d'accomplir 3 tâches sur 10 de façon autonome.

PublicitéLes agents d'IA en passe de remplacer la plupart des salariés en entreprise ? Selon une étude (en préprint) de chercheurs des universités de Carnegie Mellon et de Duke, on en est encore assez loin. Pour tester les aptitudes de divers modèles de langage à accomplir certaines tâches courantes en entreprise, les chercheurs ont créé un environnement de simulation, TheAgentCompany, afin d'évaluer les agents d'intelligence artificielle interagissant avec leur environnement de manière similaire à celle d'un travailleur du numérique : en naviguant sur le web, en écrivant du code, en exécutant des programmes et en communiquant avec des collègues.

Dans cet environnement virtuel, au mieux, un agent parvient à accomplir 30% des tâches de façon autonome. « Les agents utilisant les technologies d'IA de référence aujourd'hui sont capables d'effectuer de manière autonome une grande variété de tâches rencontrées dans le cadre du travail quotidien, écrivent les auteurs de l'étude. Cependant, ils ne sont pas près d'automatiser toutes les tâches rencontrées dans une entreprise, y compris au sein du sous-ensemble de tâches présentes dans TheAgentCompany, qui sont des tâches administratives et de programmation bien ciblées, rencontrées dans le quotidien d'un éditeur de logiciels. » Bref, même sur un terrain d'expression très adapté à ses caractéristiques, la technologie montre ses limites.

GPT-4o et Llama distancés par Gemini

A ce petit jeu, c'est Gemini 2.5 Pro qui obtient le meilleur résultat, accomplissant près d'un tiers des tâches de façon autonome. C'est aussi ce modèle qui obtient le meilleur score dans l'étude (39,3%), une métrique qui tient compte de la capacité des modèles à accomplir partiellement certaines tâches. Le modèle de Google devance Claude 3.7 Sonnet et la version 3.5 de la technologie d'Anthropic. Tant GPT-4o, que Llama 3 (dans ses versions 3.1 et 3.3) ou encore davantage Qwen sont en revanche largement distancés, ces modèles ne parvenant à accomplir que moins d'une tâche sur dix au sein de l'entreprise fictive TheAgentCompany. Signalons que cet environnement de simulation est disponible en Open Source pour les entreprises qui souhaiteraient mener leurs propres tests.

Les erreurs des agents, que détaillent les chercheurs, sont assez significatives : rupture des échanges après avoir été renvoyé vers une compétence spécifique en interne, incapacité à surfer sur le web pour y récupérer l'information souhaitée, tendance à prendre des raccourcis afin de considérer la tâche accomplie alors qu'il n'en est rien.

'Agent-washing' selon Gartner

Il a quelques jours, le cabinet d'études Gartner pronostiquait que 40% des projets d'IA agentique seraient arrêtés avant la fin de 2027, en raison de leurs coûts, de leur valeur incertaine ou d'un contrôle des risques inadéquat. « La plupart des projets d'IA agentique ne sont pour l'instant que des expérimentations préliminaires ou des prototypes principalement motivés par le battage médiatique et masquent une mauvaise application de la technologie », souligne Anushree Verma, Senior Director Analyst au Gartner.

PublicitéSi le cabinet critique ce qu'il qualifie « d'agent washing », autrement dit la propension de l'industrie à renommer agents toute sorte de technologies qui n'en présentent pas les caractéristiques, il reste persuadé du potentiel de l'IA agentique. Gartner prédit, en effet, qu'au moins 15 % des décisions quotidiennes en entreprise seront prises de manière autonome, via l'IA agentique, d'ici 2028, contre 0 % en 2024.

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis