Stratégie

Tokenmaxxing : quand la course au tokens vire au cauchemar budgétaire

Aveuglées par leur volonté d’accélérer l’adoption de l’IA en interne, des entreprises ont choisi le niveau d’utilisation des tokens comme principal KPI. Avec des conséquences budgétaires catastrophiques. (Photo : Stock Birken/Unsplash)

Les évaluations des salariés en fonction de leur utilisation de tokens peuvent encourager les travailleurs à maximiser leurs usages de l'IA sans se soucier des coûts et de la productivité réelle qui en découle.

PublicitéLe suivi de l'adoption de l'IA en entreprise pose un dilemme DSI. Si le ROI devrait être le critère principal de réussite d'une initiative d'IA, s'assurer que les employés utilisent réellement les outils déployés est une étape cruciale pour l'atteindre. Dès lors, quel est le meilleur moyen de mesurer l'adoption de l'IA sans perdre de vue l'objectif ultime ?

Certaines entreprises ont adopté la mesure de l'usage de tokens comme indicateur de l'adoption, allant jusqu'à rendre ludique les interactions avec l'IA pour encourager son utilisation. Des entreprises comme Amazon, JPMorgan, Meta et Disney auraient ainsi mis en place des classements basé sur le niveau d'utilisation de l'IA pour encourager son adoption, incitant parfois leurs employés à accumuler des factures astronomiques en épuisant leurs budgets de tokens. Un employé de Disney a interagi avec l'IA Claude 460 000 fois en neuf jours, selon Business Insider.

Un phénomène en essor

Ces incitations ont engendré un phénomène appelé « tokenmaxxing » , où les employés intensifient leur utilisation des outils d'IA afin d'améliorer leur classement. Suivre l'utilisation des tokens par les employés sans la corréler aux indicateurs de performance ou de productivité est un cocktail explosif, en particulier pour les DSI responsables des budgets d'IA, selon plusieurs experts du domaine.

Dans certains cas, les plus gros utilisateurs de tokens au sein des entreprises auraient dépensé des millions de dollars. « Ces classements partent d'une bonne intention, d'une réelle volonté de suivre la façon dont les employés interagissent avec les outils d'IA », explique Trevor Stuart , vice-président du fournisseur de services de support au développement logiciel Harness. « Ils essaient simplement de comprendre comment les gens utilisent ces outils, et combien de personnes les utilisent, explique-t-il. En encourageant l'adoption, les classements devraient vraisemblablement entraîner une 'augmentation de la productivité en aval' ».
Les classements à la consommation de tokens incitent toutefois les employés à utiliser des outils d'IA sans se soucier des coûts, certains utilisant même des modèles d'IA de pointe pour des tâches simples. « C'est comme utiliser le mauvais outil alors qu'un outil plus basique permettrait d'accomplir la même tâche, reprend Trevor Stuart. C'est là que la course aux tokens encourage réellement les mauvais comportements. »

Un indicateur simpliste

La mesure des tokens utilisés est devenue monnaie courante, car il s'agit d'un indicateur relativement facile à collecter, note Todd Olson , Pdg de Pendo, fournisseur de solutions d'analyse d'IA. « Si quelqu'un ne dépense aucun token, il n'utilise pas du tout l'IA et n'en tire aucune valeur, explique-t-il. Mais dès que tout le monde commence à s'en servir, la situation devient bien plus complexe et les frontières beaucoup plus floues. »

PublicitéUne fois que les entreprises ont convaincu leurs employés d'utiliser les outils d'IA, elles doivent s'intéresser à d'autres indicateurs, plaide Todd Olson. « Il y a d'abord l'inertie liée au fait d'amener les gens à essayer quelque chose et à changer leurs habitudes, dit-il. C'est en quelque sorte un problème de passage de zéro à un. Mais ensuite, la question est : est-ce que les gens utilisent ces outils simplement pour le plaisir de les utiliser ? »

Le problème majeur, selon Logan Wolfe , associé au sein de la société de services Kyndryl, réside dans le fait que l'utilisation de tokens n'entraîne pas nécessairement une augmentation de la productivité. « Les entreprises utilisent le nombre de tokens consommés comme un indicateur de la productivité des employés utilisant l'IA, explique-t-il. De fait, les employés sont incités à utiliser des tokens, voire pénalisés s'ils n'en utilisent pas suffisamment. De plus, il est évident que cet indicateur est très facile à manipuler. »

La volume au détriment de l'efficacité

Logan Wolfe compare les KPI basés sur l'utilisation des tokens aux récompenses accordées aux développeurs de logiciels qui écrivent le plus de lignes de code, ce qui conduit à des applications hypertrophiées. « Lorsque l'utilisation des tokens devient l'indicateur clé de performance, on privilégie le volume de production au détriment de résultats tels que l'efficacité, la qualité et la réduction des risques », ajoute-t-il.

L'un des principaux pièges pour les DSI étant que ces incitations peuvent faire exploser le budget, reprend Logan Wolfe. « Étant donné que les réductions du prix par token et du prix par inférence ne semblent pas se profiler à l'horizon, notamment en raison de la crise croissante des coûts énergétiques, cela conduit en réalité à une courbe inverse de la rentabilité unitaire et du ROI des initiatives en matière d'IA », dit-il.

Une corrélation avec la productivité, pas une équivalence

Selon Itamar Friedman , Pdg de Qodo, fournisseur de solutions d'analyse de code par IA, se contenter de mesurer l'utilisation des tokens reviendrait à ce qu'une personne suive le nombre de kilomètres parcourus chaque jour pour améliorer sa santé, sans tenir compte des calories consommées, ni vérifier régulièrement ses indicateurs médicaux de base.

A ses yeux, le suivi de l'utilisation des tokens par les employés n'est pas une mauvaise pratique, mais l'utiliser comme unique indicateur donne aux entreprises une image incomplète des avantages de leurs déploiements d'IA. « Je pense qu'il existe une corrélation entre la maximisation des tokens et une productivité accrue, dit-il. Mais le problème, c'est que si vous considérez cela comme votre seul et unique critère de productivité, vous risquez de développer une forme de vanité. » Surveiller l'utilisation des tokens par leurs programmeurs peut conduire à produire d'énormes quantités de code, ce dont l'organisation pourrait s'enorgueillir sauf que celui-ci est probablement de piètre qualité.

Davantage d'indicateurs nécessaires

Pour éviter les pièges liés au suivi de l'utilisation des tokens, Trevor Stuart de Harness recommande lui aussi aux entreprises de bâtir des indicateurs de productivité ou de rendement. « Il faut concevoir le système de manière à récompenser les comportements qui vous tiennent à coeur, explique-t-il. Chez Harness, par exemple, l'incitation ne réside pas dans la quantité de tokens consommés, mais dans le résultat obtenu et la transformation des entrées en sorties. » Pour les développeurs, par exemple, le KPI principal ne sera peut-être pas le nombre de lignes de code écrites, mais plutôt le nombre de lignes de code mises en production. « Avez-vous dépensé de l'argent pour écrire des lignes de code qui ont été rejetées, modifiées ou non déployées en production ?, demande-t-il. Si vous mettez en place des critères d'évaluation, vous devez aussi prendre en compte ces gaspillages potentiels et intégrer cette mesure. »

Les entreprises peuvent également suivre la manière dont leurs employés optimisent leur utilisation de l'IA, ajoute-t-il. « Il faut distinguer dépenses optimisables, gaspillage et tokens consommés, explique Trevor Stuart. Il est essentiel de considérer ces trois aspects simultanément. Enfin, le quatrième élément à prendre en compte est le suivant : quel est le résultat ? Le code est-il déployé en production ? »