Data Asset : quels outils mettre au service de la valorisation des données ?


Data Asset : maîtriser et valoriser le patrimoine de données de l'entreprise
La maîtrise de la donnée pour générer un maximum de valeur métier : cet enjeu est aujourd'hui essentiel, fondamental, stratégique. Et le DSI se doit de fournir les outils adaptés pour atteindre cet objectif. Les entreprises les plus performantes atteignent même une activité reposant et pilotée par...
DécouvrirPierre Delort (ANDSI), Nicolas Korchia (Solocal Group - Mappy), Evert Rutgers (TNS Sofres) ont témoigné sur les outils au service de la valorisation des données lors de la Matinée Stratégique CIO « Data Asset : maîtriser et valoriser le patrimoine des données de l'entreprise » du 14 avril 2016.
PublicitéLe Big Data nécessite de nouveaux outils de valorisation des données. Sur ce sujet, les DSI sont en veille et scrutent de près les témoignages, comme ceux proposés par la première table-ronde de la Matinée Stratégique CIO « Data Asset : Maîtriser et valoriser le patrimoine des données de l'entreprise », qui s'est tenue le 14 avril 2016. Trois acteurs étaient sur scène : Pierre Delort, Président de l'ANDSI et auteur du Que sais-je ? « Le Big Data », Nicolas Korchia, Responsable Business Intelligence, Solocal Group - Mappy, Evert Rutgers, Directeur des operations Technology Enabled Research, à TNS Sofres.
L'ANDSI se distingue dans l'univers des organisations professionnelles : c'est une association d'individus, fonctionnant par leurs seules cotisations. Elle est active de plusieurs manières, précise son Président Pierre Delort. Par des conférences (par exemple une après-midi au Sénat avec le sénateur Bockel sur la loi de programmation militaire), ou une soirée avec un témoin, des retours d'expérience, ou le directeur général adjoint de l'ANSSI, ou même des fournisseurs.
« Parallèlement, nous organisons des cycles d'exploration en entreprise où nous allons rencontrer les équipes sur une thématique, l'innovation (chez Générali, Total, la SNCF), le software asset building, c'est-à-dire comment créer l'application (Chrome Mobile chez Google, Toyota), la transformation digitale avec des exemples dans l'Internet des objets. »
Pierre Delort a découvert à l'Inserm, où il était DSI, le big data, « ça transforme le coeur de la recherche ». Le concept est apparu il y a une dizaine d'années, « en deux mots on met des données dans un modèle et on fait des merveilles avec ça, grâce aux mathématiques». Ce qui est nouveau, ce sont des démarches d'exploration sur la donnée. Un exemple issu du monde de la santé : on peut utiliser les données pour prendre de l'avance sur les épidémies, donc en produisant des alertes sanitaires très larges, avec de nouveaux outils
Des projets plus transverses
Dans les entreprises en général, ce qui est réellement fait, c'est plutôt le côté marketing avec la DMP (Data management platform) qui permet de recenser et d'évaluer les données clients, « je préfère ce sigle DMP, à data lake », note Pierre Delort. Ce n'est donc pas tout à fait nouveau dans le marketing, où on observe également des demandes pour réussir des projets qui sont beaucoup plus transverses. Le digital ou le juridique demandent des aides de la DSI pour réussir des projets transverses. « La valeur des données résulte maintenant de leur partage, et donc, le rôle de la DSI c'est de faire partager ces données », observe Pierre Delort.
Pour sa part, Nicolas Korchia, est responsable BI de SoLocal Group - Mappy et membre du club des utilisateurs Hadoop. Un groupe meetup de 1200 membres, 3 réunions ont déjà eu lieu, dont une animée par Mappy. « Pour comprendre notre manière de valoriser les données, il faut d'abord comprendre ce qu'on fait. Je vais faire simple : vous pouvez installer Mappy et désinstaller les appli Google (sur iPhone en tout cas) ! Mappy, c'est important, est une PME française de 100 personnes qui fournit des cartes, des itinéraires et recherche des points d'intérêt cartographiques. Pourquoi avoir monté un système BI depuis deux ans ? On a attaqué le sujet en partant des questions posées, avec une approche très structurée. Et non pas en se disant, il y a énormément de logs et de données qu'est-ce qu'on peut faire en termes de services ? Notre entrepôt de données (je n'utilise pas non plus le terme data lake) est structuré, toutes les tables au quotidien sont manipulées dans une datavis' et sont structurées. »
PublicitéLa performance fait la différence
Autre point important pour Nicolas Korchia, la performance. Entre l'approche SGBDR classique d'un côté, et les bases de données de type big data et Hadoop de l'autre, la différence clé ne se fait pas sur le relationnel, mais bien dans la performance. « On prépare nos données et une grosse table pour répondre à toutes les questions sans avoir à faire de jointure, donc on « dénormalise » la donnée, c'est juste une histoire de performance. Au final, on va dire : « aujourd'hui j'ai besoin qu'un clic, ça répond en une seconde max ». Du coup, pas de jointures à la volée et une grosse table « dénormalisée ».
Une autre différence peut se dessiner entre ces bases Hadoop et celles de type Vertica ou Teradata. Cette différence, c'est le coût ! « En termes de structuration, nous, chez Mappy, on a mis en place une couche d'indexation par-dessus les tables qui permet de répondre très rapidement à certains types d'agrégats et d'aller très vite. Mais on est toujours dans une problématique de performance, chez Mappy on est pas Google ou Critéo on a six clusters et on n'a pas 500 ou 1000 machine comme Critéo, ou des villes complètes de serveurs comme Google, on compte 3 milliards de lignes pour la base la plus grosse. Si je devais acheter une Vertica, ça me couterait des centaines de milliers d'euros, alors qu'Hadoop avec un peu d'intelligence, ça va très, très vite et c'est moins cher. On est toujours dans la « perf » et en plus on est dans l'économie. »
Pour Nicolas Korchia être malin est important quand on choisit une solution de big data, sinon on attend trop longtemps. « On ne peut pas avoir des analystes qui passent 80% de leur temps à préparer la donnée, chez nous, ils passent 100% de leur temps à jouer avec la donnée. »
Le client change
Justement sur l'analyse de cette donnée, Evert Rutgers, directeur des opérations technology enabled research chez TNS Sofres, explique comment son travail a changé. « Avant, on créait des données, écrites, on line, mobiles... on nous demandait de valoriser plutôt les données qui sont chez le client, donc vous aviez une série d'informations pas structurées qui sont des verbatims ».
C'est aussi la culture des clients qui change, ils ont accès plus vite aux données. Pour garder un avantage sur la concurrence, ils sont obligés d'aller plus loin et plus vite, et ne savent pas forcément comment tirer la valeur de leurs données et cadrer ces données. De nouvelles questions arrivent : on nous demande d'aller très vite et de créer des tableaux de bord, avec des données agrégées succinctes tout en allant en profondeur. »
Evert Rutgers donne l'exemple d'un annonceur dans le domaine des cosmétiques, qui aura d'abord des questions classiques pour cadrer et ensuite des questions ouvertes. Sur ce dernier point, peut-être aura-t-il des données issues des réseaux sociaux de ses clients. Il voudra sans doute tirer du sens presque en temps réel, or, pour TNS Sofres, il faut quand même rédiger l'étude et redresser quelques données. Et le client n'a pas besoin de lire tout le verbatim, l'institut lui donne un nuage de mots et il fait lui-même son tri.
Et la sémantique ?
L'autre grande question du verbatim, c'est l'aspect sémantique. « Comment distinguer, demande l'animateur, deux phrases aux termes voisins mais au sens opposé, par exemple d'un côté, « bravo, mon colis est arrivé du Japon en 24h », et de l'autre, « la SNCF a mis 24h pour emmener mon colis à Bordeaux » ? La deuxième étant évidemment ironique.
L'analyse sémantique, explique Evert Rutgers, ne fait évidemment pas d'analyse de sentiment. Lui travaille avec un partenaire sur ce sujet, « on passe par des spécialistes, ils sont à la pointe de l'analyse sémantique. L'enjeu est d'aller aussi loin que possible, dans le cas de l'annonceur cosmétique, le client veut de l'analyse, donc vraiment des verbatim. Si on gagne du temps chez nous, par exemple avec un module d'analyse sémantique, le client aura lui-même plus de temps, pour accéder à des informations pertinentes pour lui. »
Des questions fermées ont longtemps constitué l'essentiel des enquêtes, mais cet intérêt exploratoire des clients est vraiment nouveau. « Le client souhaiterait lire tout le verbatim, mais notre boulot est de le faire aller très vite vers la donnée pertinente, souligne Evert Rutgers. Nos clients qui sont dans le marketing s'intéressent vraiment à la sémantique et au contenu des données et nous devons leur proposer des outils nouveaux. »
Article rédigé par

Didier Barathon, Journaliste
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire