Projets

La data factory de l'ESA décolle lentement, mais sûrement hors du cloud

La data factory de l'ESA décolle lentement, mais sûrement hors du cloud
L'Agence spatiale européenne travaille sur une plateforme data pour prendre des décisions en quasi temps réel en particulier pour ses projets spatiaux. (Photo : lancement de satellites sur Ariane6 - ESA S.Corvaja)

L'Agence spatiale européenne met progressivement en place une plateforme et une gouvernance pour ses données administratives et celles de ses grands projets. Objectif, accompagner les décisions en temps réel. Pour cela, elle abandonne en partie le cloud et automatise un ensemble de règles sur la sensibilité des données.

PublicitéUne centaine de To de données administratives, et un volume largement plus important de données techniques. Autant d'informations nécessaires aux opérations de l'Agence spatiale européenne (ESA), qu'elle fait en sorte d'organiser, de rationaliser et de mieux exploiter depuis près de 5 ans, au sein d'une data factory en charge à la fois de déployer une data plateforme et une gouvernance. C'est Bernhard Isemann, issu d'une carrière essentiellement exercée dans l'industrie informatique et télécoms, qui pilote cette entité. Comme il le rappelle, l'ESA développe et opère des engins spatiaux, des fusées et des satellites, dans le cadre des programmes spatiaux européens. Elle emploie 3000 personnes et travaille avec de nombreux partenaires externes. La data factory, elle, compte 45 personnes, mais s'appuie aussi sur une communauté connectée d'une quarantaine de data stewards. Ces utilisateurs implémentent les règles de gouvernance de l'entité, et l'aident à collecter la donnée dont elle a besoin et à bâtir son modèle de data. Pour l'instant, comme le précise Bernhard Isemann, et même si le sujet reste ouvert à discussion, la data factory reste un service transverse qui travaille directement avec les métiers, et ne dépend pas de la DSI centralisée.

L'ESA exerce des activités très variées ; de ce fait, l'organisme collecte et traite trois catégories très différentes de données. ICelles relatives au financement des projets, celles liées à la technique et les données issues de l'espace, ces dernières n'entrant pas dans le champ de la data factory. « En réalité, le volume de données dont nous disposons n'importe plus tellement, car le stockage est devenu beaucoup plus abordable, explique Bernhard Isemann. Et nous disposons de plusieurs datacenters. En revanche, ce qui est central pour nous, c'est la vitesse à laquelle nous pouvons analyser ces data. » La baisse des coûts de stockage a induit un premier changement de taille pour la stratégie data de l'ESA, puisqu'elle a tout simplement reconsidéré sa présence dans le cloud, « pour des raisons de souveraineté, mais aussi parce que nous voulons contrôler nos données de bout en bout. » Les données de gestion et des projets avaient historiquement en grande partie migré dans le cloud, mais depuis 5 ans, l'Agence revient progressivement en arrière pour se tourner vers une infrastructure hybride.

Un framework de règles sur la sensibilité des data

« Et nous avons une vision très claire du type de data qui peut aller dans le cloud, et de celui qui ne peut pas y aller, en fonction du degré de sensibilité, ajoute Bernhard Isemann. La capacité de certains fournisseurs américains à accéder, dans le cadre du Patriot Act, à certaines données dans le cloud, même hébergées sur le sol européen, est par exemple un des critères majeurs de choix entre on-premise et cloud ». Si une data provient d'une source déjà classée sensible, le système de l'ESA le comprend en temps réel. Plus largement, l'Agence a développé des règles qui permettent à l'IT en particulier de définir clairement ce qui est sensible et ce qui ne l'est pas et de labelliser, en fonction de ce critère, les data. « Nous avons aussi développé au fil des années un framework de règles de manipulation de ces données sensibles, qui sont appliquées automatiquement par le système. »

Publicité
« En réalité, le volume de données dont nous disposons n'importe plus tellement, car le stockage est devenu beaucoup plus abordable, explique Bernhard Isemann, directeur de la data factory de l'ESA. En revanche, c'est la vitesse à laquelle nous pouvons analyser ces data qui est centrale pour nous. » (Photo DR)

Pour sa plateforme, la data factory travaille sur un modèle médaillon (données bronze, argent et or), en partant d'une zone d'atterrissage pour toutes les data brutes collectées à partir de différents systèmes sources et à différents rythmes (en temps réel, heure par heure, jour par jour, etc.) « Nous disposons ensuite de data lines qui traitent, enrichissent, interconnectent ces données pour construire un modèle logique. Au sein de ce modèle gold, la donnée est validée avec du data modeling. « Il est essentiel pour nous de disposer de cet outil de gestion de données de bout en bout », indique le directeur de la data factory. Le coeur de cette plateforme Gold, qui permet un accès interne et externe gouverné, sous conditions, aux données de l'Agence, s'appuie sur un cube basé entre autres sur Microsoft Azure Synapse et sur Microsoft Fabric. L'accès à cette zone Gold est donné soit à des outils de tableau de bord, soit à des utilisateurs qui réalisent des analyses ad hoc, en fonction de leurs autorisations. « Nous avons un monitoring permanent pour vérifier en temps réel qui accède à quel data set, » résume Bernhard Isemann.

Du temps réel, y compris on-premise

L'infrastructure data on-premise de l'agence s'appuie sur Kubernetes pour les bases de données classiques. « Mais nous disposons également de séries temporelles, par exemple, acquises en temps réel, pour les grands volumes de données de laboratoire, précise Bernhard Isemann. Et nous avons des data sets hébergés, par exemple, dans Synapse de Microsoft, donc dans le cloud, qui sont traitées notamment avec Apache Spark. »

En ce qui concerne les données administratives et de projet, l'Agence a réalisé l'extrême importance pour elle de disposer d'un reporting en temps réel pour prendre les bonnes décisions. Pour y faire face, l'équipe de la data factory a notamment fait appel à l'éditeur français Suadeo. Celui-ci répond en particulier aux exigences de l'ESA en matière de rapidité d'analyse. « Nous avons d'une part été intéressé par leur mécanisme de cache très malin, qui nous permet justement de disposer d'éléments très spécifiques dont avons besoin en temps réel, mais aussi parce que leur solution fonctionne on-premise ». L'ESA exploite un ensemble d'outils dont celui de Suadeo, mais aussi Datavault Builder de l'éditeur zurichois éponyme, par exemple. « Nous avons commencé à tester Suadeo avant l'été, et nous sommes en train de le mettre en production sur la gestion des données à destination des états membres de l'UE et de leurs ministères ».

La mise en place progressive de la plateforme data soulève deux enjeux d'avenir essentiels. Pour commencer, la fraicheur des données. « C'est une chose de bâtir une digital boardroom pour nos directeurs exécutifs, afin qu'ils disposent dans un délai court de toutes les informations nécessaires pour prendre leurs décisions durant les conseils d'administration, avec une quarantaine de KPI, décrit Bernhard Isemann. Mais aujourd'hui, ils veulent plus. Il ne leur suffit plus d'avoir des data de la veille ou du mois précédent. Pour certaines décisions tactiques, ils veulent des informations qui n'ont qu'une ou deux heures ». Le 2ème enjeu d'avenir, selon le directeur de la data factory de l'ESA, c'est le souhait de la direction de digitaliser les processus qui, comme dans beaucoup d'organisations, sont encore exécutés manuellement. Un enjeu face auquel l'équipe de Bernhard Isemann a renversé la question. Elle a poussé les dirigeants de l'ESA à s'interroger sur l'intérêt de disposer d'autant de données pour prendre une décision. « C'est un changement de culture. En particulier pour le board, car c'est une question intrusive que nous avons posée. Reste que, même si du côté de l'IT, nous nous réjouissons à chaque fois que l'IA trouve la meilleure solution, plaisante-t-il, nos décisionnaires ont toujours du mal à faire confiance à une IA pour prendre une décision ».

Des documents presque trop complexes pour la GenAI

Bien sûr, comme toutes les organisations, en particulier ayant une data plateforme en place, l'ESA s'intéresse aussi à la GenAI. Elle l'utilise par exemple pour de l'analyse prédictive sur les plannings de projet. « Les équipes de l'agence réalisent ces plannings de projets avec les processus habituels : estimation du calendrier, de coûts, etc. Mais en parallèle, nous créons avec une GenAI une ligne de data pour le planning, mais dans laquelle elle ne donne qu'un avis complémentaire, et différentes options. » Quant à l'utilisation de la GenAI pour l'exploitation, l'investigation ou la synthèse de documents complexes, qu'ils soient techniques ou réglementaires, la démarche se révèle plus complexe et longue à mettre en oeuvre que prévu. « Nous avons des vocabulaires très spécifiques, rappelle ainsi Bernhard Iseman, qu'il s'agisse de celui de l'industrie spatiale ou tout simplement de notre structure. Nous sommes une organisation internationale et on pourrait presque dire que l'anglais que nous utilisons est en réalité un mélange des 23 dialectes de nos 23 membres ».

Sans oublier qu'avec des projets spatiaux de très longues durées, certains des documents associés ont plus de 20 ans. Et ont été conçus dans un langage, mais aussi avec des méthodes de reporting totalement différentes. L'ESA teste différents LLM sur ce corpus, qu'il s'agisse de Mistral ou d'OpenAI, mais « entraîner un modèle à comprendre nos documents en contexte, à interpréter la façon dont ils ont été écrits, etc., c'est très complexe. Il y a une vraie pression pour que nous y arrivions, et pour que cette connaissance soit rendue plus accessible. Et nous voyons très bien le potentiel et les bénéfices de la GenAI dans ce cadre. Nous y travaillons, mais sommes encore loin de pouvoir qualifier le projet de succès. Nous espérons arriver à un résultat d'ici un an. »

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis