En matière d'IA, toutes les données ne se valent pas
Les entreprises collectent des données pendant des années dans l'espoir de pouvoir les exploiter un jour. Avec le GenAI, ce moment est arrivé. Sauf que le plus dur reste à faire.
PublicitéLa GenAI bouleverse presque tous les secteurs, mais utiliser les meilleurs modèles et outils ne suffit pas. Le véritable avantage concurrentiel réside dans la capacité à entraîner et à affiner ses propres modèles, ou à leur fournir un contexte spécifique. Ce qui nécessite des données.
Le code source, la documentation et les journaux des changements ? Autant de données pour vos agents de développement. Votre bibliothèque d'anciennes propositions commerciales et de contrats ? Du pain béni pour vos assistants de rédaction. Vos bases de données clients et vos tickets d'assistance ? Le carburant de votre chatbot de service client. Mais ce n'est pas parce que toutes ces données existent qu'elles sont forcément pertinentes.
« Utiliser n'importe quelles données disponibles pour ses modèles est si facile, souligne Manju Naglapur, vice-président senior et directeur général des solutions cloud, applications et infrastructure chez Unisys. Ces trois dernières années, nous avons constaté que cette erreur se répétait sans cesse. Le vieil adage 'données erronées en entrée, données erronées en sortie' (ou garbage in, garbage out) reste d'actualité. »
Dans une étude du Boston Consulting Group, publiée en septembre, 68% des 1 250 décideurs interrogés ont expliqué que le manque d'accès à des données de qualité constituait un obstacle majeur à l'adoption de l'IA. D'autres études récentes le confirment. Comme celle de Cisco, menée en octobre auprès de plus de 8 000 responsables de l'IA. Seulement 35 % des entreprises disaient disposer de données propres et centralisées, intégrées en temps réel pour les agents IA. D'ici 2027, selon IDC, les entreprises qui ne privilégient pas des données de qualité prêtes pour l'IA auront des difficultés à déployer à grande échelle des solutions des GenAI et des agents, ce qui entraînerait une perte de productivité de 15%.
Les repères sémantiques s'effacent
Un autre problème lié à l'utilisation de données hétérogènes réside dans la confusion qui en découle au niveau sémantique. Lorsque les données proviennent de sources multiples, un même type d'information peut être défini et structuré de multiples façons. Et à mesure que le nombre de sources de données augmente, en raison de nouveaux projets ou de nouvelles acquisitions, ce défi ne fait que s'accroître. Même le simple suivi des clients - le type de données le plus critique - et les problèmes basiques liés aux données représentent un défi pour de nombreuses entreprises.
PublicitéDans une étude, Dun & Bradstreet a indiqué l'année dernière que plus de la moitié des organisations s'inquiètent de la fiabilité et de la qualité des données qu'elles utilisent pour l'IA. Par exemple, dans le secteur des services financiers, 52% des entreprises affirment que des projets d'IA ont échoué en raison de données de mauvaise qualité. Et 44% d'entre elles ont la qualité des données comme principale préoccupation pour 2026, juste après la cybersécurité, selon une enquête menée auprès de plus de 2 000 professionnels du secteur et publiée en décembre.
La multiplicité des normes de données contradictoires constitue un défi pour tous, reconnaît Eamonn O'Neill, directeur technique de Lemongrass, une société de conseil spécialisée sur le cloud. « Chaque incohérence représente un risque », affirme-t-il. L'IA peut d'ailleurs être configurée pour aider les équipes dans les travaux de mise en cohérence des données, à condition de bien comprendre le problème et d'y consacrer du temps et des efforts. Même si les données sont considérées comme propres, une entreprise devrait tout de même procéder à un exercice de cartographie sémantique. « Prenez un cas d'usage avec un petit volume de données et assurez-vous qu'elles soient correctes, explique Eamonn O'Neill. Ensuite, vous pouvez étendre le projet. Voilà à quoi ressemble une adoption réussie. »
Données non structurées et non gérées
Une autre erreur fréquente des entreprises qui intègrent l'IA consiste à l'orienter vers des sources de données non structurées, selon le CTO de Lemongrass. Certes, les IA sont très performantes pour lire des données non structurées et interpréter textes et images. Le problème, c'est que tous les documents ne sont pas pertinents pour l'IA. Certains peuvent être obsolètes, d'autres de simples versions préliminaires non corrigées ou contenant des erreurs. « C'est un problème courant, constate Eamonn O'Neill. On connecte son OneDrive ou son espace de stockage de fichiers à un chatbot, et celui-ci est incapable de faire la différence entre la "version 2" et la "version finale 2". »
Or, maintenir une gestion de versions rigoureuse est très difficile pour les utilisateurs, souligne-t-il. « Microsoft peut gérer les différentes versions, mais les utilisateurs continuent d'utiliser la fonction "Enregistrer sous" et on se retrouve avec une multitude de données non structurées », conclut Eamonn O'Neill.
L'IA agentique fait dérailler la sécurité
Lorsque les DSI envisagent la sécurité des systèmes d'IA, ils pensent généralement aux garde-fous encadrant les modèles ou à la protection des données d'entraînement et des données utilisées pour le RAG. Cependant, à mesure que les chatbots à base d'IA évoluent vers l'agentique, les problèmes de sécurité se complexifient.
Prenons l'exemple d'une base de données des salaires des employés. Si un employé a une question concernant sa rémunération et interroge un chatbot intégré au portail IA de son entreprise, l'approche RAG consisterait à collecter uniquement les données pertinentes de la base de données à l'aide d'un code intégré au prompt, puis à envoyer la requête à l'IA. L'IA ne voit que les informations auxquelles elle est autorisée à accéder, et la pile logicielle déterministe traditionnelle se charge de sécuriser le reste des données des employés.
Mais quand ce schéma évolue vers un système multi-agents, les agents d'IA peuvent interroger les bases de données de manière autonome via des serveurs MCP. Comme ils doivent pouvoir répondre aux questions de n'importe quel employé, ils ont besoin d'accéder à toutes les données des employés, et empêcher qu'elles ne tombent entre de mauvaises mains devient un défi de taille. Selon l'étude Cisco, seulement 27% des entreprises disposent de contrôles d'accès dynamiques et détaillés pour leurs systèmes d'IA, et moins de la moitié des organisations se sentent capables de protéger les données sensibles ou d'empêcher tout accès non autorisé.
Se passer de datalake
La situation se complique encore si toutes les données sont collectées dans un lac de données, observe Eamonn O'Neill. « Si vous avez intégré des données provenant de nombreuses sources différentes, chacune de ces sources peut avoir son propre modèle de sécurité, explique-t-il. Lorsque vous les stockez dans un mode bloc, vous perdez cette granularité sur le contrôle. » Tenter d'ajouter une couche de sécurité a posteriori peut s'avérer difficile. La solution, selon lui, consiste à accéder directement aux sources de données originales et à se passer complètement d'un datalake.
Selon le CTO, cette technologie visait à « préserver l'historique pour toujours, car le stockage était alors très bon marché et le Machine Learning permettait de déceler des schémas et des tendances au fil du temps. De plus, des schémas interdisciplinaires pouvaient être identifiés en combinant des données provenant de différentes sources. »
De manière générale, l'accès aux données change radicalement lorsque des agents IA remplacent les humains, souligne Doug Gilbert, DSI et CDO de Sutherland Global, cabinet de conseil en transformation numérique. « Avec les humains, la sécurité repose des protections entourant les utilisateurs, explique-t-il. Par exemple, la plupart des interfaces utilisateur sont conçues de telle sorte que si un champ ne peut contenir que des chiffres, il est impossible d'y saisir une lettre. Mais, dès qu'une IA intervient, toutes ces protections disparaissent. C'est une porte dérobée pour vos systèmes. »
Le piège de la vitesse
Mais, pour Doug Gilbert, l'erreur numéro un des DSI est de vouloir aller trop vite. « C'est pourquoi la plupart des projets échouent, affirme-t-il. On est pris dans une véritable course de vitesse. » Trop souvent, les DSI perçoivent ainsi les problèmes liés aux données comme des ralentissements, alors que ce sont plutôt des facteurs de risque considérables, selon lui. « De nombreuses personnes travaillant sur des projets d'IA vont faire l'objet d'audits et devront tout interrompre et tout recommencer », dit-il. Ainsi, parvenir à des données correctes ne doit pas être perçu comme un ralentissement. « Lorsque vous mettez en place l'infrastructure adéquate, vous accélérez l'innovation, vous réussissez les audits et vous êtes conforme aux réglementations », indique Doug Gilbert.
De même, les tests peuvent apparaître comme une perte de temps, quand le projet est sous pression d'une direction métier ou d'une direction générale. Ce n'est pas toujours une bonne stratégie d'avancer vite, de prendre des risques et de corriger les problèmes après le déploiement. « Quel est le coût d'une erreur qui se propage à la vitesse de la lumière ?, interroge Doug Gilbert. Je privilégierais toujours les tests. C'est incroyable le nombre de produits commercialisés sans aucun test. »
L'IA au service de la qualité des données
Le manque de données de qualité peut sembler un problème insoluble qui ne fera que s'aggraver avec l'expansion des cas d'usage de l'IA. Selon une étude AvePoint d'octobre dernier, basée sur les réponses de 775 dirigeants d'entreprises internationales, 81% des organisations ont déjà reporté le déploiement d'assistants IA en raison de problèmes de gestion ou de sécurité des données. Pour un retard moyen de six mois. Parallèlement, non seulement le nombre de projets d'IA continue de croître, mais le volume de données aussi. Près de 52% des répondants de l'étude AvePoint ont expliqué que leur entreprise gérait plus de 500 Po de données, contre seulement 41% il y a un an.
Malgré cette inflation, pour Manju Naglapur, d'Unisys, il sera bientôt plus facile d'obtenir une vision à 360 degrés d'un client, ainsi que de nettoyer et réconcilier d'autres sources de données, grâce à l'IA. « C'est le paradoxe, indique-t-il. L'IA va tout changer. Une transformation numérique qui prenait trois ans peut désormais être réalisée en 12 à 18 mois grâce à l'IA. »
Article rédigé par
Maria Korolov, CIO (adapté par Reynald Fléchaux)
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire