France Télévisions mise sur la donnée et l'IA pour valoriser ses programmes


Données et documents : un patrimoine à valoriser pour le business
Qu'il s'agisse de construire les transports en commun de demain pour la région parisienne, de valoriser des programmes audiovisuels ou, plus simplement, d'exploiter la data à des fins commerciales ou encore de traiter des notes de frais, le terme "système d'information" prend tout son sens. Ces...
DécouvrirPour mieux valoriser ses programmes, France Télévisions a mis en place une stratégie centrée sur les données, avec la création d'un département Data et intelligence artificielle (IA). Data hub et IA sont mis à profit pour collecter et enrichir les données sur les programmes, qui viennent ensuite alimenter les différents métiers du groupe.
PublicitéPour accompagner l'évolution des usages en matière de consommation audiovisuelle, France Télévisions a entrepris de moderniser ses outils de production et de diffusion des programmes TV. Le groupe a notamment décidé de renforcer son expertise autour de la donnée et de l'intelligence artificielle, en particulier sur les phases de fabrication des programmes, durant lesquelles sont produites la plupart des données descriptives utilisées ensuite pour la classification et la valorisation des contenus. La hausse constante de la consommation sur les canaux numériques (+25% de vidéos vues sur France.tv entre 2019 et 2020) nécessite en effet de mettre en place de nouveaux services, pour lesquels la qualité et la richesse de ces données sont primordiales : navigation, recommandations, recherche parmi les milliers de programmes disponibles, etc.
Dans ce but, le groupe a créé fin 2019 un département Data et intelligence artificielle (IA), rattaché à la direction des technologies. Pour Frédéric Brochard, directeur des technologies de France Télévisions, il s'agissait de « fédérer et dynamiser les initiatives de l'entreprise autour de ces sujets de transformation et de modernisation cruciaux pour nous : meilleure efficacité de nos processus, aide à la décision pour nos programmes et nos antennes, meilleurs outils de recherche pour nos journalistes, meilleure exposition de nos contenus, sont autant de leviers que ce département a en charge d'identifier et de développer. » Ce département, qui compte une vingtaine d'experts de la donnée, est sous la responsabilité de Matthieu Parmentier. « Le département fonctionne comme un pôle d'expertise à la disposition des départements d'ingénierie (fabrication, diffusion, distribution, etc.), pour les épauler, voire prendre en charge la dimension data de leurs projets », explique celui-ci. « Au démarrage, il a fallu faire comprendre ce qu'était un projet data, faire en sorte que les métiers comprennent la valeur des données qu'ils génèrent ou saisissent. Une donnée qui circule, c'est de la valeur ajoutée pour l'entreprise », ajoute-t-il. Afin de réfléchir aux nouveaux cas d'usage autour des données et de l'IA dans le secteur audiovisuel, le groupe a choisi de se faire accompagner par Cap Gemini, à la suite d'un appel d'offres européen lancé en avril 2020.
Plus d'une centaine de données descriptives par programme
Pour favoriser la circulation et la valorisation des données, France Télévisions a également décidé de mettre en place un data hub fédérant l'ensemble des données descriptives sur des programmes. Un appel d'offres public a été lancé, à l'issue duquel le groupe a choisi la solution de DAM (Digital Asset Management) de Perfect Memory. L'outil, hébergé chez OVH, collecte l'ensemble des données de haute valeur disponibles en interne, notamment celles fournies par les conseillers de programmes, la fabrication et le centre de diffusion, chargé de vérifier la qualité et le respect des obligations légales. « Ces données décrivent par exemple qui est présent dans quelle scène, les costumes, les époques, les lieux... Certaines d'entre elles ne peuvent être connues à l'avance et ne sont déterminées qu'au montage final », précise Matthieu Parmentier. À celles-ci s'ajoutent d'autres données ajoutées ultérieurement, comme les données d'audience ou liées aux usages publicitaires. « Aujourd'hui, il existe au moins une centaine de données de haute valeur par programme, de tout ordre : genres, casting, audience, marqueurs de position des génériques... Chaque plan, chaque scène est associée à une tonalité », indique le responsable du département Data et IA. Avec plus de 800 programmes quotidiens et 500 000 programmes actifs, ces données représentent une masse d'information conséquente. Pour chaque programme, l'outil de Perfect Memory permet de voir les données disponibles et celles qui manquent.
PublicitéQuand c'est possible, le département récupère directement les données générées par l'outil de fabrication, comme sur le feuilleton quotidien « « Un si grand soleil ». Si ce processus est le plus fiable et le moins coûteux, il n'est pas toujours possible. « Nous n'avons pas le droit d'en savoir moins que Google ou Netflix sur nos propres programmes », estime Matthieu Parmentier. Pour enrichir la connaissance des programmes, le département Data et IA utilise donc de nombreux outils d'intelligence artificielle, qui permettent de compléter les données non renseignées : retranscription textuelle du langage (speech-to-text), reconnaissance faciale, d'objets, de mouvements, de lieux... « Pour faire la segmentation automatique du contenu, nous faisons appel à sept réseaux de neurones différents, sur les personnes, les objets, la valeur des plans ou encore le contraste visuel et graphique » illustre le responsable du département Data et IA. Beaucoup de ces outils sont open source, certains provenant du laboratoire de Télecom SudParis, avec qui le groupe travaille sur l'IA appliquée à l'analyse d'image. « Quand ils obtiennent un prototype performant, nous le reprenons et nous l'industrialisons », indique Matthieu Parmentier.
Optimiser le coût des traitements d'IA
L'industrialisation est indispensable pour maîtriser les coûts. Pour cela, le groupe s'appuie sur une architecture à deux niveaux. L'orchestration des traitements est gérée par une plateforme de microservices développée en interne, le projet open source Media-Cloud-AI. « Nous avons pour ambition de reverser certains de nos travaux en open source dès que possible, c'est aussi une façon de répondre à notre mission de service public et cela facilite nos collaborations avec d'autres entreprises », explique Matthieu Parmentier. La plateforme est hébergée dans le cloud privé de France Télévisions. En revanche, les traitements sont déployés et exécutés dans des clouds semi-publics d'AWS, Google ou Oracle, hébergés en Europe et intégrés dans l'environnement de cybersécurité de France Télévisions. Appliqués à 800 programmes par jour, les traitements d'IA représentent vite un coût élevé, en particulier quand il faut recourir à des GPU dans le cloud. Grâce à la plateforme d'orchestration, « nous pilotons et nous pouvons rediriger les jobs en fonction des différentes opportunités, là où les GPU sont les moins chers », souligne Matthieu Parmentier. Le département s'organise aussi pour qu'un processus qui a besoin de GPU soit coupé en deux. « La partie GPU est exécutée à part, le plus vite possible, à travers un microservice dédié pour en optimiser le coût ». Enfin, si le traitement GPU nécessite de charger un modèle au préalable, par exemple pour l'analyse de lieu, « nous laissons ce modèle chargé et nous passons le maximum de jobs avant d'en charger un autre », détaille le responsable.
Les données produites par l'IA sont ensuite analysées et mises en relation avec les autres données disponibles, de façon à obtenir un jeu de données le plus fiable possible par émission. « Ces données issues des traitements IA ont du sens quand elles sont combinées. Nous analysons la bande-son, les images et les textes pour comparer les avis et supprimer le bruit : par exemple, si l'outil d'analyse d'image identifie un camion de pompiers et qu'on entend le son, cela conforte le résultat », illustre le responsable du département Data et IA. Inversement, « utiliser l'IA pour savoir où se passe une scène n'a que peu d'intérêt sur un gros plan centré sur un visage, il est utile de discriminer les informations de reconnaissance du lieu en fonction du type de plan. »
Des données au service des collaborateurs et partenaires
Une fois intégrées dans le data hub, les données des programmes viennent alimenter et enrichir de nombreux services. « L'outil de DAM nous permet d'exposer différemment ces données, notamment dans les moteurs de recherche et d'indexation. Grâce à lui, nous réalimentons la Media Factory du groupe, qui fournit ces données aux différentes offres numériques de France Télévisions (france.tv, Salto, Okoo, Slash...) », indique Matthieu Parmentier. Les données servent également pour l'aide à la décision. Elles seront prochainement utilisées par la régie publicitaire, afin de choisir les bons spots à diffuser sur les supports numériques. « L'objectif est de supprimer le plus possible les publicités avant le début des programmes, au profit d'une coupure intermédiaire : grâce à l'IA, il est possible de déterminer le moment où cette coupure gêne le moins la narration, mais aussi de choisir des spots en adéquation avec le contenu des programmes, pour éviter par exemple des publicités pour les 4x4 sur un programme nature », illustre le responsable. « Le but est que cela perturbe le moins possible les téléspectateurs, tout en rendant service aux annonceurs, qui sont indispensables à l'équilibre financier de nos offres numériques gratuites. »
Les programmes restent dans le système Perfect Memory jusqu'à neuf mois après leur première diffusion, après quoi la plateforme est purgée et les données sont reversées à l'INA (Institut National de l'Audiovisuel). « Nous travaillons actuellement sur l'accostage de nos deux modèles de données, afin de perdre le moins d'information possible. La finalisation de ce travail est prévue pour cette année », confie le responsable. Une intégration bidirectionnelle est même prévue, de manière à inclure directement le moteur de l'INA dans l'environnement DAM, pour que les collaborateurs de France Télévisions puissent facilement retrouver leurs programmes archivés.
Article rédigé par

Aurélie Chandeze, Rédactrice en chef adjointe de CIO
Suivez l'auteur sur Linked In,
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire