Technologies

Agents IA : une épée de Damoclès pour les budgets IT

Selon une étude, les LLM sont peu fiables pour prédire leur propre consommation de tokens quand ils sont déployés sous forme d’agents. Difficile dès lors pour la DSI d’établir des prévisions budgétaires. (Photo : Towfiqu Barbhuiya/Unsplash)

Peut-on prédire la consommation de tokens d'un agent avant de lui demander d'exécuter une tâche ? A cette question clef pour les budgets IT, une étude répond par la négative. Ni les humains, ni les LLM ne fournissent de prédictions fiables.

PublicitéL'IA agentique apparaît prometteuse pour l'évolution du SI, mais quelle sera la facture d'une telle évolution ? A l'heure où nombre de DSI s'interrogent sur l'évolution de la tarification associée aux modèles d'IA, une étude publiée par des chercheurs issus de grandes université américaines, comme le MIT ou Stanford, mais aussi de l'industrie (Google Deepmind et Microsoft en particulier), tente une première approche, en évaluant la capacité de 8 LLM, déployés au sein d'agents spécialisés sur des tâches de programmation, à estimer leur consommation de tokens avant l'exécution d'une tâche.

Les premiers résultats issus de cette étude ne sont guère rassurants pour les DSI. Les chercheurs affirment d'abord que le mode agentique consomme de l'ordre de 1000 fois plus de tokens qu'un assistant chargé de raisonner ou d'accompagner les développeurs via un chat, surtout via les tokens en entrée. En termes pratiques, cela signifie, selon les tests des chercheurs, qu'une tâche limitée au raisonnement (résolution de problèmes en une seule étape) coûte en moyenne 0,016 $. Total qui monte à 0,023 $ pour le mode chat (dialogue itératif sur des problèmes de codage). Et explose pour approcher 1,9 $ avec le mode agentique.

Les LLM sous-estiment les coûts

Tout aussi ennuyeux, l'utilisation des jetons est très variable et intrinsèquement imprévisible : « le nombre total de jetons utilisés pour une même tâche peut varier d'un facteur allant jusqu'à 30 », écrivent les chercheurs. Sans oublier le fait qu'une plus forte consommation de tokens ne garantit absolument pas des résultats plus fiables ! « La précision atteint souvent un pic à un coût intermédiaire et se dégrade aux niveaux de coût les plus élevés, ce qui suggère qu'une dépense excessive de jetons reflète fréquemment une exploration improductive plutôt qu'un raisonnement plus approfondi », écrivent les auteurs de cette étude publiée fin avril.

Selon les chercheurs, les experts humains ne parviennent pas à prévoir les coûts réels en se basant sur la difficulté des tâches telle qu'ils la perçoivent. Et, les modèles eux-mêmes sont tout autant à côté de la plaque quand il s'agit de prédire leurs besoins en jetons pour une tâche, « en sous-estimant systématiquement les coûts ». Toutefois, selon l'étude, cette 'auto-prédiction', malgré sa fiabilité « faible à modérée », fournit « une indication utile, bien que grossière, du coût relatif », sur laquelle les équipes IT peuvent s'appuyer pour générer « des alertes budgétaires précoces avant le lancement d'exécutions coûteuses ».

Les alertes de Microsoft et Uber

Selon la presse américaine, les coûts de l'IA commencent à peser sur les décisions d'investissement y compris des géants locaux de la tech. Mi-mai, The Verge indiquait que Microsoft prépare un abandon de Claude Code, déployé depuis décembre, la technologie étant jugée trop coûteuse, au profit de l'outil maison, Copilot CLI. Selon le magazine, la plupart des licences Claude sont appelées à être ainsi stoppées, malgré la popularité de cet outil au sein des équipes de Microsoft. De son côté, Uber a récemment indiqué avoir consommé en quatre mois son budget 2026 d'IA, mettant en lumière la difficulté des équipes IT à prédire les coûts de cette technologie. Dans une interview accordée à la chaîne YouTube Rapid Response, Andrew Macdonald, président et directeur des opérations d'Uber, explique par ailleurs que l'entreprise ne constate aucun lien entre l'augmentation de la consommation de tokens pour Claude Code et la mise à disposition de fonctionnalités utiles pour ses clients.