Technologies

Maîtriser la consommation des agents IA ? La solution est sur Netflix

En utilisant des techniques de compression et de cache, un ingénieur de Netflix dit avoir réduit sa facture Claude Code de 287 à 110 $ par mois. (Photo : Hans/Pixabay)

Fortement consommatrice de tokens, l'IA agentique fait peser une menace sur les budgets IT. Un projet Open Source propose de compresser les fenêtres de contexte, pour limiter cette inflation.

PublicitéOuvrir en grand les vannes de l'IA agentique aux équipes d'ingénierie logicielle peut conduire à quelques mauvaises surprises budgétaires, comme l'ont appris récemment à leurs dépens Microsoft et Uber et comme l'a confirmé une étude récente montrant la difficulté à anticiper les coûts avec cette technologie. A moins qu'un projet Open Source, conçu par un ingénieur de Netflix, ne permette d'apporter une première réponse. Développé par Tejas Shopra et présenté lors d'une conférence Open Source Summit mi-mai, Headroom agit comme un filtre sur les instructions d'entrée, réduisant ainsi le nombre de jetons nécessaires, donc la facture.

Tejas Chopra explique que jusqu'à 90% des jetons d'entrée peuvent s'avérer superflus, dans certains cas. Selon lui, Headroom, dont la première mouture date de janvier dernier et qui est toujours en développement, a déjà permis à ses utilisateurs d'économiser 700 000 $, soit 200 milliards de jetons. Bien qu'il ne s'agisse pas d'un projet officiel de Netflix à ce stade, le composant spécialisé dans l'optimisation de la couche de contexte, avant transmission au LLM, suscite déjà un intérêt marqué sur GitHub, avec près de 280 forks. Actuellement en version 0.22, Headroom est proposé sous licence Apache 2.0.

« Une taxe pas une fonctionnalité »

Selon un billet de blog de Tejas Chopra, l'idée de ce filtre lui est venu d'une facture Claude Code de décembre dernier, s'élevant à 287 $. « J'ai analysé la répartition des jetons et j'ai trouvé le problème : 90% de ma fenêtre de contexte était remplie de données inutiles, écrit l'ingénieur. À chaque requête de base de données, l'outil MCP renvoyait 500 lignes, alors que je n'en avais besoin que de 3. À chaque recherche dans les logs, j'obtenais 1 000 entrées, alors que je n'avais besoin que des 2 entrées contenant des erreurs. Chaque réponse de l'API était une imbrication de Json de 50 Ko, alors que l'information utile ne faisait que 200 octets. » Bref, selon lui, « la fenêtre de contexte est une taxe, pas une fonctionnalité ». D'autant que l'ingénieur souligne l'inflation des fenêtres de contexte avec les modèles premium, les modèles de raisonnement (avec des tokens internes auxquels l'utilisateur n'accède pas, tout en les payant !), ou l'emploi du protocole MCP.

Travaillant sur l'infrastructure data de Netflix, et notamment sur la compression de Po de données, Tejas Chopra fait alors un constat simple : les données de contexte sont en réalité fortement structurées, que l'on parle de fichiers Json, de logs, de lignes de bases de données ou de réponses API. « Vous pouvez compresser de 50 à 90% les résultats d'outils classiques sans aucune perte d'information », souligne Tejas Chopra. Contrairement à d'autres techniques (résumés par un LLM, troncatures...). « C'est une véritable compression sans perte, réversible lorsque le modèle a besoin des données complètes », assure l'ingénieur. C'est sur ce principe d'une compression installée entre l'application et le LLM qu'est bâti Headroom.

Publicité60% d'économie sur la facture Claude

Dans son billet, Tejas Chopra donne quelques indications de l'efficacité du dispositif. Sur les lignes d'une base de données ? Environ 50 et 70% de gains. Sur les sorties d'un serveur MCP ? Plus de 70%. Sur les logs ? Plus de 90%. Sans oublier une gestion plus intelligente des fonctions de cache proposées par les éditeurs de modèles (OpenAI, Anthropic) pour les prompts systèmes. Comme le souligne l'ingénieur de Netflix, Headroom est en revanche inopérant avec les contenus denses et uniques, comme les textes. Néanmoins, sur ses usages propres, Tejas Chopra dit avoir ramené sa facture Claude de 287 à 110 $, sans perte de précision. Et au prix d'une dégradation minime de performances, que l'ingénieur situe entre 2 et 5 ms.

Fin avril, une étude sur la consommation de tokens par les agents spécialisés dans les tâches de développement, réalisée par des chercheurs du MIT, de Stanford, de l'université du Michigan et par des ingénieurs de Google et Microsoft, soulignait le poids des fenêtres de contexte dans le coût de cette technologie. « Les workflows agentiques accumulent les informations provenant de différentes sources et le même contexte est réinjecté de manière répétée dans les modèles, ce qui entraîne un ratio entrée/sortie considérablement plus élevé » qu'avec des usages plus classiques comme la résolution de problèmes ou le chat, notaient alors les chercheurs. En moyenne, selon ces derniers, les tâches de programmation agentiques consomment 3500 fois plus de tokens qu'une résolution de problème sans itération et 1200 fois plus qu'un chat itératif.