Technologies

Les entreprises plongent leur IA dans des data lakehouses

Les entreprises sophistiquent leur usage des data lakehouses, pour en faire un socle de leur stratégie IA. (Photo : Pixabay/G.Altmann)

Les data lakehouses offrent déjà une base solide pour les IA. Reste que lorsque des agents accèdent aux données de manière autonome, les entreprises doivent se préoccuper de la sécurité, des contrôles d'accès, des pistes d'audit et du contexte sémantique.

PublicitéLes data lakehouses deviennent des plateformes de données d'entreprise de référence, car ils combinent la capacité d'un datalake à prendre en charge différents types de données à faible coût, avec la fiabilité, la structure et la gouvernance d'un datawarehouse traditionnel. Ils offrent un référentiel centralisé d'informations provenant de différentes sources au sein d'une entreprise, associé à des outils de sécurité et d'audit, ce qui les rend parfaitement adaptés pour les stratégies d'IA.

L'éditeur spécialisé dans la signature et les transactions électroniques DocuSign utilise désormais un data lakehouse pour soutenir ses ambitions en matière d'IA agentique. « Les données sont, par exemple, extraites de Salesforce, puis utilisées pour entraîner un agent IA interne dédié aux ventes », raconte Shivi Verma, responsable de l'ingénierie de l'éditeur. L'entreprise entraîne également des modèles de machine learning afin d'offrir un service client plus précis, entraine des LLM avec de la data en RAG, et explore le MCP.

Une attention à la sécurité et la gouvernance

Mais, quel que soit l'usage, l'une des principales préoccupations de DocuSign lorsqu'il s'agit d'exposer les données de son data lakehouse est la sécurité et la gouvernance. « Nous procédons avec une extrême prudence, insiste Shivi Verma. Chaque projet fait l'objet d'un examen de sécurité rigoureux et de discussions avec les parties prenantes techniques et business, afin de nous assurer que nous ne prenons aucune mesure contraire aux normes de sécurité et de conformité. » Les contrôles de sécurité sont effectués aussi bien lors de l'entrée des données dans Snowflake que lors de leur sortie. Les restrictions sont particulièrement strictes en ce qui concerne l'accès aux données sensibles, telles que les données clients. « Nous commençons par exposer les informations présentant un faible risque, poursuit-il. Cela peut inclure des informations publiques, comme le contenu d'un site web ou les détails d'un produit. »

DocuSign n'est pas un cas isolé. « Nous constatons déjà un taux d'adoption des data lakehouse parmi les clients de Gartner de 65% », indique ainsi Prasad Pore, analyste pour le cabinet d'études. C'est en train de devenir la fondation de l'IA du futur ». Il ajoute que les fournisseurs évoluent pour prendre en charge ce cas d'usage et intégrer directement certaines technologies indispensables à l'IA. Ils sont de plus en plus nombreux, comme Databricks et Microsoft avec Fabrics, par exemple, à prendre en compte des bases vectorielles, structures de données indispensables au RAG. Certains intègrent aussi MCP, ce qui était jusque-là rarement le cas.

L'inefficace accès direct aux données sources

Mais pour les entreprises qui cherchent à fournir à leur système d'IA le contexte métier essentiel dont il a besoin pour apporter de la valeur à l'entreprise, le data lakehouse n'est pas la seule réponse. Certaines organisations construisent manuellement des bases de données vectorielles ou des pipelines vectoriels à partir de sources individuelles, ou utiliser une plateforme de données pour établir la connexion. « Microsoft Fabric peut se connecter, par exemple directement aux sources de départ, ce qui est idéal pour une analyse rapide, explique Prasad Pore. En revanche, cela surcharge les systèmes sources, ce qui est préjudiciable à ces derniers et aux machines. » Un autre inconvénient réside dans le fait que les modèles de données utilisés dans les systèmes d'origine ne sont généralement pas optimaux pour l'analyse et peuvent se révéler coûteux. Pour le consultant du Gartner, se connecter directement aux sources n'est tout simplement pas efficace.

PublicitéIl existe aussi des processus bien établis pour la gestion des autorisations d'accès aux données dans un data lakehouse. « Il unifie physiquement les données, leur maintenance, leur sécurité et leur gouvernance, insiste Prasad Pore. C'est essentiel pour la mise en oeuvre de l'IA. En tant que source unique de vérité pour l'organisation, c'est une solution moderne pour créer un référentiel centralisé. »

La société de conseil Lemongrass a débuté avec un datalake il y a une dizaine d'années, avant d'entamer une migration vers un data lakehouse il y a quatre ans. « À l'époque, le concept n'était pas très répandu », se souvient le directeur de l'innovation, Kausik Chaudhuri. L'entreprise a donc développé ses propres fonctions de data lakehouse spécifiques pour son datalake Amazon S3. Actuellement, elle travaille sur un système de gestion des incidents et du changement. « Les données d'origine se trouvent dans ServiceNow, continue Kausik Chaudhiri. Il serait trop coûteux de les extraire directement du lakehouse pour les utiliser dans un système d'IA. Nous envisageons donc de créer un serveur MCP pour interroger ces données ».

Le coût des tokens

Lemongrass prévoit aussi de passer de ses modules Lakehouse maison à une solution standard. « À nos débuts, une grande partie de nos outils reposait sur AWS, raconte le directeur de l'innovation. Aujourd'hui, nous envisageons de changer cela, car l'IA offre de nombreuses possibilités. » Même si le cloud d'Amazon propose désormais des fonctions Lakehouse. « Les données sont déjà disponibles. Nous n'avons pas besoin de tout réinventer. » De plus, AWS est connecté à Claude AI d'Anthropic et à d'autres modèles d'IA. Il n'y a donc pas de frais de sortie de données.

Lemongrass prévoit de lancer un POC au troisième trimestre de cette année pour la mise à niveau de son système. « Nous devons veiller scrupuleusement aux types de données du data lakehouse que nous enverrons à l'IA et dans quel volume. Nous ne transmettons pas nos data clients à des LLM, insiste Kausik Chaudhiri. Et envoyer 10 000 lignes de tables à Claude ferait exploser notre consommation de tokens. Nous savons depuis plusieurs années déjà que ne pas être attentifs à la quantité de tokens pourrait nous conduire à la faillite ! »

Inutile de donner accès aux données clients

Dans certains cas, il n'est même pas besoin que le LLM voit quoi que ce soit une fois la solution déployée. Par exemple, les employés de Lemongrass généraient des rapports d'activité sur leurs clients à la main pour un usage interne. Une tâche fastidieuse qu'un modèle d'IA pourrait, en théorie, facilement prendre en charge. Mais il aurait alors accès aux données clients. Qui plus est, comme les IA ne sont pas déterministes, chaque rapport serait différent.

Mais un LLM peut aussi générer un formulaire personnalisé à signer par chaque client. « Nous avons demandé à Claude de concevoir un programme qui génère le rapport correspondant à partir des informations recueillies, explique Kausik Chaudhuri. Le processus de génération des rapports et des formulaires repose sur un logiciel classique et déterministe. Les données client ne sont jamais exposées, et les rapports sont produits rapidement et à moindre coût. »

Sécurité et gouvernance

La tendance explose. Selon un rapport récent de Databricks, basé sur les données de 20 000 organisations, le pourcentage de bases de données créées par des agents d'IA est passé de 0,1 % à 80 % au cours des deux dernières années. Mais l'un des principaux défis pour les entreprises réside dans la sécurité et les problèmes connexes lorsque des agents IA accèdent aux lakehouses.

Auparavant, les données alimentaient des tableaux de bord dont la sécurité et les contrôles d'accès étaient programmés. Ou bien elles étaient transmises à des data analysts, qui les manipulaient en fonction de leurs droits d'accès. Et les premiers cas d'usage de l'IA se faisaient via un embarquement en RAG, plus facile à gérer. Dans ce contexte, c'est en effet un logiciel déterministe traditionnel qui extrait les données et les intègre à un prompt LLM pour un workflow spécifique. Les développeurs qui le configurent gèrent les aspects de sécurité pour chaque cas d'utilisation. Avec l'agentique et les serveurs MCP, en revanche, l'IA peut extraire des données de manière autonome, selon les besoins.

La nouvelle frontière sémantique

Selon Matt Arellano, SVP data et IA du cabinet de conseil en transformation digitale Genpact, les entreprises doivent déterminer comment gérer l'identité des agents d'IA, contrôler l'accès aux données, créer des audit trails et filtrer les prompts et le contenu. « Les audit trails et une complète observabilité sont particulièrement importants. Certains fournisseurs, comme Databricks, Okta, Palo Alto ou Zscaler offrent ce type de fonctions. »

La prochaine évolution dans les data lakehouses, ce sont les couches sémantiques qui, selon Gartner, deviendront une infrastructure critique d'ici à 2030. « En créer une pour développer ou soutenir de l'IA est devenu indispensable pour les responsables data et analytics, selon le cabinet d'études. C'est le seul moyen d'améliorer la précision, de maîtriser les coûts, de réduire considérablement la dette technique IA, d'harmoniser les systèmes multiagents et d'enrayer les incohérences coûteuses avant qu'elles ne se propagent. »

Aider l'IA à trouver les bonnes données

Il est une chose pour une IA d'avoir accès à des données, mais c'est tout autre chose de comprendre ce qu'elles représentent réellement pour l'entreprise. La couche sémantique, ce sont les connaissances métier qui ne sont généralement pas formalisées dans une base de données structurées. Une commande ou un client, par exemple, auront des significations différentes selon les systèmes.

« Auparavant, cette couche sémantique était un plus, mais pas indispensable, car les data scientists savent quelles sources de données ils veulent interroger », explique Amit Kinha, membre du conseil d'administration de la Finops Foundation et directeur technique de terrain chez DoiT International, une société de conseil en cloud. Mais désormais, sans elle, un agent d'IA ne saura pas où trouver les données dont il a besoin. Ou alors, il effectuera une jointure incorrecte, ou une opération qui entraînera une explosion des coûts. La couche sémantique sera essentielle pour exploiter efficacement les data lakehouse.

Vers un rôle d'orchestration centrale

Elle peut également s'intégrer à une boucle de rétroaction, dans laquelle les systèmes d'agents apprennent par expérience, selon Kevin Martelli, responsable du développement de solutions d'IA chez EY Americas. Si une entreprise à un processus d'approbation pour certains paiements, et de validation par le DAF pour les dépenses supérieures à 500 000 euros, lorsque l'agent IA sollicite l'approbation d'un humain, ce dernier pourrait dire : « L'IA me demande d'approuver cette facture, mais je sais qu'elle dépasse 500 000 euros et doit d'abord être validée par le DAF. » Cette information peut ensuite être enregistrée dans la session et conservée dans le système de gestion de données sous forme de document de procédure ou d'enregistrement d'une action. « C'est là que le système prend tout son sens et s'améliore avec le temps et l'utilisation, explique Kevin Martelli, car il est impossible d'obtenir un résultat parfait dès le premier jour. »

Difficile de savoir aujourd'hui comment cette couche sémantique va converger avec le data lakehouse. Pour Steven Karan, vice-président de la transformation par l'IA chez Capgemini Australie et Nouvelle-Zélande, ce dernier s'oriente progressivement vers un rôle d'orchestration centrale. « Les entreprises se concentrent désormais moins sur l'analyse et le reporting, et davantage sur le développement d'applications pilotées par l'IA et de systèmes multiagents. Les architectures les plus performantes que j'observe aujourd'hui combinent un coeur data lakehouse enrichi par des couches de service spécialisées. » Cela inclut des bases de données vectorielles pour l'IA, des plateformes de streaming de données en temps réel et des bases de données opérationnelles pour les applications à faible latence. « Le système centralisé de données n'est plus seulement dédié à l'analyse, conclut Steven Karan. Il constitue le socle des données pour l'entreprise et pour l'IA. Son rôle consiste désormais moins à remplacer tous les autres systèmes de gestion de données, qu'à les unifier et à les gouverner afin d'accélérer l'innovation tout en conservant le contrôle ».