Technologies

Pour Yann LeCun, les world models sont la prochaine frontière de l'IA

Yann LeCun, lors du World AI Cannes Festival, le 13 février : « nous avons besoin de systèmes comprenant le monde réel. En la matière, les LLM sont inappropriés. » (Photo : R.F.)

A Cannes, lors du salon sur l'IA, Yann LeCun est venu défendre son approche de l'évolution de l'IA, celle de modèles comprenant le monde physique et ne l'appréhendant pas uniquement par le biais de textes. Avec de premiers résultats à l'appui.

PublicitéDéjà pas franchement convaincu du potentiel des LLM en 2024, lors d'un précédent passage au World AI Cannes Festival, Yann LeCun, le scientifique français le plus emblématique dans l'IA, est revenu conclure l'édition 2026 du sommet, le 13 février, par un message similaire : l'évolution de l'IA a besoin de systèmes comprenant le monde réel et « les LLM ne sont pas appropriés » pour y parvenir. Un plafond de verre de l'IA générative qui a poussé l'ex-responsable de la recherche en IA de Meta à fonder sa propre start-up, AMI Labs (pour Advanced Machine Intelligence) en janvier dernier, afin de concevoir des modèles comprenant le monde physique.

Mais le chemin vers des modèles simulant le monde réel s'annonce encore long, prévient le prix Turing 2018. « Nous ne sommes encore très loin de concevoir des robots domestiques. Aucune des entreprises bâtissant des robots humanoïdes n'a la moindre idée de comment les rendre suffisamment intelligents pour qu'ils soient utiles dans ces environnements », assure le scientifique. Pour autant, de premiers travaux dessinent un chemin vers des 'world models', des modèles d'IA capables d'intégrer la réalité physique du monde qui nous entoure, et non de le décrire simplement par le biais du langage (soit la voie choisie par les LLM). Pour Yann LeCun, ces modèles doivent réunir plusieurs caractéristiques clefs : mémoire persistante, raisonnement, planification, faculté de contrôle et garantie de sécurité.

Prédire sur la base d'abstractions

Comme le reconnaît l'ex-directeur des recherches en IA de Meta, s'attaquer à ce type de problème a longtemps semblé impossible. « Cela fait par exemple 15 ans que j'essaie de trouver une manière de prédire des vidéos. J'ai échoué pendant 10 ans », dit-il. Une façon de dire que des avancées récentes permettent d'entrevoir une solution industrielle à ce problème, notamment avec les modèles dits Jepa (Joint Embedding Predictive Architecture). « Cette architecture repose sur une idée évidente à posteriori, consistant à trouver une abstraction d'un signal et à effectuer des prédictions sur cette base. Les humains eux-mêmes ne comprennent pas le monde en le sérialisant, mais en effectuant des abstractions », détaille Yann LeCun, pour qui les modèles de diffusion - ceux qu'exploitent des outils de génération de vidéos comme Sora - n'ont qu'un avenir limité du fait de leur incapacité à appréhender la réalité.

Cette première percée est toutefois loin de déboucher sur un système complet, permettant, par exemple, à un robot d'évoluer de façon autonome dans un environnement non maîtrisé au préalable. « Pour ce faire, nous avons besoin d'une architecture hiérarchique à multiples niveaux, constituée de différents modèles et représentations, assure Yann LeCun. Et chacune de ces couches est en elle-même un champ de recherches. » Un empilement qui reflètera les capacités humaines de planification et de raisonnement. « Nous planifions nos actions d'abord à un haut niveau d'abstraction, avant les décomposer via une série d'objectifs de niveau inférieur. Pour reproduire, ce schéma, nous avons besoin d'un 'world model' hiérarchique, une question totalement non résolue à ce stade. »

PublicitéProchaine action en fonction de l'objectif

Sans attendre cette perspective, de premières applications sont d'ores et déjà envisageables, comme l'a détaillé Pascal Fung, une chercheuse de l'université des sciences et technologies de Hong Kong qui travaille également pour Meta. Cette dernière, qui a collaboré avec Yann LeCun sur différents travaux, a présenté, toujours lors du salon cannois, quelques résultats, par exemple avec VL-Jepa (Joint Embedding Predictive Architecture for vision-language), qui permet de décrire des actions par analyse d'une vidéo. « Ce modèle fait la moitié de la taille d'un LLM et tourne deux fois plus vite, assure la chercheuse. Il ne décode l'image que si celle-ci renferme un changement. » Le modèle de fondation VLWM (Vision Language World Model) calcule, de son côté, quelle doit être la prochaine action par rapport à un objectif donné. « Cette prochaine action est conditionnée par celle que j'effectue au moment présent et le modèle n'est pas affecté par les actions parasites, comme une personne se préparant une tasse de café au milieu de la réalisation d'une recette de cuisine », assure Pascale Fung.

« Les 'world models' cognitifs doivent permettre à une IA de percevoir son environnement, de mémoriser, de planifier et ensuite d'agir », souligne la chercheuse Pascale Fung. (Photo : R.F.)

Pour cette dernière, ces premiers travaux dessinent une autre voie par rapport à la structure dominante du marché actuel de l'IA qui consiste, aux yeux de la chercheuse, à ajouter sans cesse davantage de GPU, afin de muscler les capacités des IA génératives. « Ces dernières années, tout a été question d'échelle », indique Pascal Fung. Selon elle, même si cette tendance se prolonge aujourd'hui, un consensus scientifique est en train de se dégager sur les limites de cette approche. « Le monde physique est fait de lois, comme la gravité, qui ne sont pas forcément écrite, y compris dans les textes de physique. Les LLM ne seront jamais capables de les apprendre », dit la chercheuse.

La GenAI, une perte de temps pour l'IA physique ?

Or, cette limitation de la GenAI fait figure de sérieuse pierre dans le jardin de l'IA dite physique (Physical AI), où des systèmes sont capables d'agir en fonction d'objectifs donnés dans un environnement qui n'est pas 100% déterministe. « Les 'world models' cognitifs doivent permettre à une IA de percevoir son environnement, de mémoriser, de planifier et ensuite d'agir, dit Pascale Fung. On tente aujourd'hui d'y parvenir avec des LLM et c'est un échec : c'est cher et inefficace. Nous devons nous éloigner des modèles autorégressifs (une caractéristique clef de la GenAI, NDLR), qui nous font perdre beaucoup de temps. »

L'intérêt pour les world models dépasse, de loin, les seuls Yann LeCun et Pascale Fung. Google, via sa branche DeepMind, Nvidia ou encore des start-ups, comme World Labs de la chercheuse américaine Fei-Fei Li, ont déjà dévoilé des prototypes, voire de premiers produits commerciaux, qui se réclament des world models, car prenant en compte la réalité physique de notre environnement. Même si les frontières entre ces approches et celles de l'IA générative sont en train de s'estomper, les derniers modèles de génération de vidéo issues de cette dernière famille technologique, comme Sora 2, tenant de mieux en mieux compte des contingences physiques.

Entraînement sur des vidéos

Si les tenants des world models critiquent la course aux GPU des IA génératives, leurs architectures n'en réclament pas moins énormément de puissance de calcul et de volumes de stockage. Tout simplement parce que les phases d'entraînement s'effectuent sur des vidéos. Comme le reconnaît Yann LeCun lui-même, qui souligne la masse de connaissances, y compris implicites, que renferme la vidéo. Et de livrer en la matière une comparaison. En assemblant toutes les données texte d'Internet, on aboutit à environ 30 trillions de tokens, soit 0,9 exposant 14 octets. A raison de 2 Mo par seconde transportés par les nerfs optiques au cerveau pendant ses 16 000 heures de veille, un enfant de 4 ans emmagasine, de son côté, l'équivalent de 1,1 exposant 14 octet. « Un enfant de 4 ans a donc vu autant de données qu'un LLM qui serait entrainé sur tous les textes disponibles sur Internet », résume Yann LeCun, pour qui cette seule métrique démontre aussi l'impasse dans laquelle s'enferre la GenAI.