7 méthodes pour créer de la valeur avec des données synthétiques

La GenAI crée désormais des données synthétiques pour alimenter des applications d'IA, donnant à celles-ci une valeur plus importante dans les entreprises. Elles comblent des lacunes, préservent la confidentialité, mais aident aussi à cibler de nouveaux marchés, à créer des jumeaux numériques de personnes ou à mettre en production des agents d'IA.
PublicitéDe nombreuses entreprises déploient désormais des projets de GenAI. Reste que la plupart exploitent les mêmes plateformes provenant des mêmes fournisseurs. La création d'une solution d'IA adaptée aux besoins spécifiques d'une entreprise nécessite, en effet, un grand volume de données. Malheureusement, celles dont disposent les entreprises présentent souvent des lacunes importantes et posent des questions de confidentialité ou de conformité lorsqu'il s'agit de les utiliser. Enfin, il n'y en aura probablement jamais assez. Autant de fossés que les données synthétiques peuvent combler.
Mi-avril, le cabinet de conseil en transformation numérique Epam a publié une enquête menée auprès de plus de 7300 dirigeants et professionnels IT de grandes entreprises. Tous les répondants expérimentent ou déploient l'IA. 14% débutent et 32% développent leurs compétences en la matière, sans pourtant en voir les résultats concrets. Près de la moitié des répondants disent au contraire déjà en obtenir et utiliser l'IA pour devenir plus compétitifs. Seuls 5% se considèrent comme des leaders sur le sujet. Mais, selon Deloitte Consulting, 30% des cadres supérieurs affirment que le manque de données de haute qualité est l'un des principaux obstacles à l'adoption de la GenAI. « « Disposer de données réelles est clé, insiste Chida Sadayappan, spécialiste du cloud de données et du machine learning dans le cabinet de conseil. Mais les enrichir avec des données synthétiques est un excellent outil de différenciation vis-à-vis de la concurrence ».
La GenAI largement utilisée pour créer des data synthétiques
Selon Gartner, 75% des entreprises utiliseront l'IA pour créer des données clients synthétiques d'ici à l'année prochaine. Ils étaient moins de 5% en 2023. Pour Forrester, la majorité des entreprises dans le monde le font déjà. Un rapport du cabinet d'étude montre ainsi que 14%d des organisations ont déployé plusieurs cas d'usage à l'échelle de l'entreprise, 22% à l'échelle d'un service et que 22% travaillent sur une première mise en production. De plus, 15% sont en phase pilote et autant en PoC. Aujourd'hui, il est déjà possible d'identifier au moins 7 pistes pour créer de la valeur avec des données synthétiques
1. Construire une IA qui comprend vraiment votre entreprise
« Lorsque les principaux fournisseurs entraînent leurs modèles sur les mêmes ensembles de données accessibles au public, il en sort souvent des résultats homogénéisés, estime Andy Frawley, PDG de Data Axle, une société de services spécialisée dans la data. De plus, ces datasets peuvent perpétuer des inexactitudes intégrées au fil du temps, réduisant la fiabilité des décisions basées sur l'IA ». Une conséquence qui peut aussi venir du fait que les informations disponibles dans les grands modèles peinent à couvrir les nuances de segments de clientèle spécifiques.
PublicitéLes entreprises peuvent combler cette lacune en affinant ou en augmentant les modèles d'IA existants, ou en créant de petits modèles personnalisés utilisant leurs propres données ou des données achetées. Mais lorsque cela ne suffit pas, ils peuvent créer de nouvelles données synthétiques. Nextuple, une société de gestion des stocks, utilise ces dernières pour créer des modèles d'IA et de machine learning capables de comprendre les défis de la gestion des stocks. Si, par exemple, un lot de marchandises important arrive dans un entrepôt central, l'entreprise « doit choisir où l'envoyer, dit Darpan Seth, cofondateur et PDG de l'entreprise. C'est une décision de grande valeur qui est prise à ce moment-là. » De nombreux paramètres liés à la logistique et à l'optimisation des flux entrent en ligne de compte pour prendre une telle décision, des facteurs uniques à chaque entreprise. Et l'utilisation de données synthétiques a été centrale pour résoudre des questions en suspens depuis des années dans le cadre de la conception et le test des solutions.
Un processus démocratisé par la genAI
« Rien de nouveau sur le principe, observe Darpan Seth. Mais c'est la façon dont on peut exploiter les données synthétiques aujourd'hui qui offre de nombreuses opportunités ». Nextuple ne les utilise pas seulement pour aider à entraîner des modèles d'IA, car la possibilité de créer ces données synthétiques avec de la GenAI rend le processus plus rapide, plus facile, plus flexible et plus intelligent que jamais. « Nous avons nourri notre modèle d'un grand nombre d'exigences que nous voyons dans tous les domaines, chez tous nos clients, explique-t-il. Avec toutes ces données, nous pouvons désormais demander au moteur de générer des cas d'usage, des cas de tests, des données, des tests et de l'automatisation de tests ». Dans le passé, la génération de ces données synthétiques - créer une commande avec trois articles, puis une autre avec 10 articles, par exemple, et ainsi de suite, avec des variations mineures - aurait exigé un processus manuel lourd, qui est devenu très rapide avec la GenAI. « Elle a démocratisé l'ensemble du processus ».
Fin 2024, Nextuple a donc équipé toutes ses équipes d'outils d'IA. Mais comme ses clients professionnels disposent de plateformes différentes et variées, l'entreprise a conçu des systèmes indépendants du modèle utilisé. « De fait, nous utilisons tout, d'OpenAI à Claude, en passant par Llama et Gemini, détaille Darpan Seth. Au total, il y a plus de 80 fournisseurs et toute une gamme de modèles différents ». L'entreprise n'utilise donc pas la pile technologique d'un fournisseur d'IA particulier, mais la sienne propre avec des composants open source tels que LangChain, LangGraph, LangFlow et, pour l'intégration du RAG, des bases de données vectorielles telles que Pgvector de PostgreSQL. Et de nouveaux paradigmes émergent, tels que les MCP ou model context protocoles [protocoles standards de description de contexte par les applications pour un LLM], par exemple . « Les choses changent tellement vite ! »
2. Combler les lacunes
Les données réelles sont rarement complètes. Parfois, les écarts sont dus à des changements de comportements. Par exemple, les données d'achat historiques peuvent montrer un pic durant le Black Friday. Mais aujourd'hui, tout le monde peut faire des achats en ligne et un pic d'une journée peut durer jusqu'à une semaine entière. D'autres situations ne se produisent que très rarement et créent aussi des manques dans le modèle qui, selon les entreprises, peuvent être très conséquents.
« Je m'occupe beaucoup de la gestion du trafic routier, explique ainsi Karen Panetta, membre de l'IEEE et doyenne du cursus d'ingénierie de l'Université Tufts (Massachusetts). Nous avons beaucoup de données disponibles sur ce sujet provenant de caméras par exemple. Mais certaines autres data parmi les plus critiques sont plus rares ». C'est le cas de certains types d'accidents comme les tonneaux. Ou encore de certaines données de reconnaissance faciale qui proviennent de bases ne contenant que des photos prises sous un bon éclairage avec des personnes qui regardent droit devant elles. Peu utile pour l'analyse d'un accident de la circulation, par exemple. L'entraînement de modèles avec ce type de données aboutit à des systèmes qui ne fonctionnent pas toujours et peuvent même être dangereux s'ils sont utilisés pour la sécurité. « Dès que vous tournez la tête, mettez vos lunettes, souriez ou mettez un masque, c'est un échec », souligne ainsi Karen Panetta.
Des technologies encore imprécises
L'université s'est donc tournée vers les données synthétiques pour combler ces lacunes. Les générateurs d'images créent des permutations de photographies qui simulent différentes conditions ou angles d'éclairage. Même s'il y a encore des limites à ce que la technologie actuelle sait faire. « Nous avons essayé de générer des données synthétiques pour les personnes portant des masques, mais cela ne correspond pas suffisamment à la réalité de l'anatomie humaine, raconte par exemple Karen Panetta. Or, les contours du visage sont importants pour notre travail. Et là, l'IA échoue lamentablement. Mais seulement dans ce type de cas ».
3. Protéger la vie privée tout en maximisant la valeur des données
De nombreuses entreprises ont aussi des cas d'usage spécifiques que les modèles standards ne couvrent pas bien. Il ne s'agit pas forcément d'applications de gestion des stocks ou de pilotage de voitures autonomes. Il peut s'agir de projet plus simples, comme la génération d'un e-mail ou de slides pour un prospect. « La meilleure manière de rédiger un e-mail à un client ne peut pas être décrite de façon objective et générique, explique par exemple Eric Lin, vice-président de l'IA appliquée chez Dynamo AI, entreprise spécialisée dans la conformité de l'IA. En effet, chaque entreprise a son propre style, son propre langage et, bien sûr, des informations uniques sur ses produits. Il est possible de combler le manque de données sur le produit en dirigeant l'IA vers une base de données vectorielle au point d'inférence, via une intégration en RAG. Mais il faut être prudent, car l'entraînement d'une IA avec des e-mails envoyés à des clients réels pourrait compromettre leur vie privée, que ce soit par le biais d'un réglage fin ou d'une intégration RAG ». Selon Eric Lin, l'avantage des données synthétiques réside dans la possibilité d'éliminer toutes les informations privées sensibles, afin qu'elles n'entrent pas dans la base d'alimentation de l'IA tout en permettant la création de modèles qui rédigent exactement le type d'e-mails ou de slides recherché.
« Dans le secteur de la santé, par exemple, cela permet de simuler les données des patients et les scénarios cliniques, en garantissant la conformité aux lois sur la protection de la vie privée, mais en créant des datasets diversifiés pour l'entraînement des modèles, explique Bharath Thota, associé au sein de la pratique numérique et analytique chez Kearney. Avec des données synthétiques, les entreprises de santé qui évoluent pourtant dans un domaine très règlementé, peuvent obtenir des résultats avec une meilleure précision ou concevoir des produits innovants,».
4. Accélérer le développement des produits et la R&D
Pour la création de nouveaux produits, le problème ne réside plus forcément uniquement dans la confidentialité, mais dans l'absence de données historiques avec lesquelles travailler. C'est ce qui s'est passé lorsque Nextuple a voulu créer une nouvelle application d'inventaire des stocks. « Nous voulions simuler la façon dont les stocks d'une entreprise sont consommés dans son réseau logistique et dans ses magasins en fonction de facteurs de demande typiques, explique Darpan Seth. Sans données réelles, il n'y avait aucun moyen de tester si cela fonctionnait dans un scénario réel. »
La société a créé des données synthétiques comprenant les positions de stocks dans les réseaux de magasins et d'entrepôts, et a simulé des commandes et le moment où elles arrivent. « Nous avons utilisé ce système pour évaluer l'augmentation des ventes pendant Thanksgiving, par exemple, et comprendre les situations réelles durant cette période. Et pour cela, nous avons créé des données synthétiques. Ensuite, nous avons eu la chance de pouvoir tester et valider notre hypothèse avec un prospect ».
Optimiser l'évolution de robots en usine
Les robots industriels constituent un autre exemple de l'utilisation de données synthétiques pour le développement de produits. « Il existe des environnements virtuels, comme le Nvidia Omniverse, qui simule des robots interagissant avec des objets en usine également simulés, explique Augustin Huerta, vice-président directeur de l'innovation numérique chez l'éditeur Globant. Ce système crée de grandes quantités de données pour entrainer des IA et améliorer la capacité d'un robot à naviguer dans des espaces de type usines ou à manipuler des produits ». Même chose pour les données issues de la computer vision pour l'entraînement des solutions de conduite autonome. « Nous avons besoin de données synthétiques - il n'y a pas d'autre moyen de le faire. Sinon, nous devrions réaliser des crash tests sur de vrais véhicules ».
5. Explorer de nouveaux marchés sans données historiques
« Lorsqu'une entreprise souhaite vendre un produit sur un nouveau marché, elle peut modéliser la façon dont les consommateurs réagiraient face à ce produit », explique Bharath Thota. Elle peut également utiliser les données simulées pour affiner les fonctions et les stratégies marketing. « Une banque qui cherche à pénétrer une nouvelle région peut utiliser des données synthétiques pour simuler les conditions économiques locales, les habitudes de consommation et la façon dont les gens pourraient adopter leurs produits financiers », ajoute-t-il.
Anand Rao, professeur d'IA à l'Université Carnegie Mellon a, lui, déjà travaillé sur ce type de cas avec une entreprise de covoiturage. Chez cette dernière, utiliser la même stratégie partout n'aurait pas été très efficace, car les conditions varient géographiquement. « À New York, il faut cinq à dix minutes aux automobilistes pour arriver, explique-t-il. Mais les clients sont très peu tolérants face aux retards liés à de mauvaises prédictions. Alors qu'à Ann Arbor, dans le Michigan, par exemple, cela ne pose pas de problème ». Les données synthétiques ont permis d'affiner et de personnaliser les stratégies en fonction des géographies. « Nous avions plus de 200 000 scénarios de mise sur le marché pour dix villes. Cela a donné aux dirigeants un aperçu réel de la façon de s'adapter ».
6. Construire des jumeaux numériques
Historiquement, les jumeaux numériques servaient à modéliser des moteurs, à aider les entreprises pour la maintenance prédictive ou à concevoir et gérer des usines. Aujourd'hui, leur périmètre s'élargit aux systèmes logiciels, aux workflows d'entreprise et même aux personnes. Les entreprises simulent les clients, leurs comportements, leurs parcours et leurs habitudes d'achat et la façon dont ils réagissent à une promotion particulière. Et elles le font en créant des profils synthétiques de clients. « Cela nous aide à comprendre comment différents groupes démographiques réagiront à différents positionnements de produits, explique Tom Edwards, responsable de l'IA grand public pour les Amériques chez EY. Et ce que nous obtenons, c'est une meilleure prévision de la demande et un meilleur ciblage. De plus en plus d'entreprises utilisent des persona synthétiques plutôt que des focus groupes. Vous pouvez créer des centaines de persona et tester différents messages. Les données synthétiques permettent de combler les détails psychographiques manquants. »
Ces persona simulés peuvent également être utilisés pour améliorer la personnalisation en e-commerce. « Je peux exécuter des millions de combinaisons différentes, et lorsque vous allez faire vos achats, je vais immédiatement vous faire correspondre avec une des persona préconfigurées à partir de données synthétiques, ajoute-t-il. Je vous connais mieux qu'un algorithme traditionnel, car j'ai déjà extrapolé des millions de voies potentielles ! » La valeur issue de ce type de démarche pourrait se chiffrer en millions de dollars, selon Tom Edwards. Elle permet de s'aligner de manière transparente sur les consommateurs et de leur recommander des produits qu'ils n'ont jamais vus auparavant.
Des jumeaux numériques de personnes
Une entreprise peut également créer des jumeaux numériques de ses employés. « Nous disposons de données historiques sur nos consultants, mais nos données sur leurs compétences sont peu fiables, raconte par exemple Nick Kramer, responsable des solutions appliquées chez SSA & Company, une société de conseil en gestion. Mais nous avons beaucoup d'informations issues de nos projets, et c'est en quelque sorte la boule d'argile à partir de laquelle nous allons travailler autour de différentes façons de synthétiser les données. »
Les persona synthétiques peuvent être des personnes, des rôles dans un projet ou des fonctions spécifiques. Elles sont combinées au sein d'équipes de projet également simulées, ce qui donne une idée de ce à quoi pourrait ressembler la dotation en personnel et renseigne sur la façon d'équilibrer celle-ci en fonction des compétences et des outils. Cela permet aussi d'optimiser les résultats, la vitesse, les revenus et les marges.
7. Se préparer à l'IA agentique
Selon une enquête de l'éditeur Cloudera publiée en avril 2025, 96% des responsables informatiques d'entreprise prévoient d'étendre leur utilisation des agents d'IA dans les 12 prochains mois. Et bien que 57% disent en avoir déjà mis en place, l'obstacle le plus important réside dans la confidentialité des donnéesµ, 53% affirmant que cela en ralentit l'adoption. « Les données synthétiques sont un excellent moyen d'accélérer l'apprentissage de ces agents et de cartographier des scénarios complexes », explique Tom Edwards d'EY. Elles peuvent aussi servir à s'assurer que les agents peuvent gérer tout ce qui leur est envoyé. « Si vous êtes capable d'exécuter des millions de scénarios différents basés sur des interactions complexes, cela devient un outil incroyablement précieux, dit-il. Cela va devenir un aspect fondamental du déploiement des agents. »
Le risque d'une dépendance excessive
Il existe également des dangers liés à une utilisation excessive de données synthétiques. Comme Karen Panetta l'a découvert en essayant de créer des images de personnes portant des masques faciaux, la technique a ses limites. « Si vous en abusez, vous risquez l'équivalent du problème d'overfitting - quand le modèle est si proche de ses données d'entraînement qu'il ne sait pas s'adapter à d'autres data - avec des résultats qui deviennent très répétitifs, explique Gordon Van Huizen, vice-président directeur de la stratégie chez Mendix. À ce moment-là, traiter un prompt sur des données autres que celles de l'entraînement peut engendrer des résultats aléatoires ou bizarres, car le système a du mal à interpréter le nouveau modèle ». Dans ce cas, il est possible de mélanger des données synthétiques avec les données réelles ou d'ajouter du bruit aux données pour éviter les valeurs aberrantes. Mais la clé pour tirer parti des données synthétiques est de toujours inclure, dans la mesure du possible, des protocoles de validation humaine.
Article rédigé par
Maria Korolov, CIO US (adapté par E.Delsol)
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire