Stratégie

8 conseils pour (enfin) exploiter vos données non structurées

8 conseils pour (enfin) exploiter vos données non structurées
90 % des données d'entreprise sont non structurées. Parvenir à en tirer parti est donc un enjeu clef pour la plupart des Chief Data Officer. (Photo : Pexels / Pixabay)

Dans la plupart des organisations, les données sous forme de texte, de vidéo, d'audio et d'autres formats sont abondantes, mais restent inexploitées. Voici comment tirer parti de cette mine d'informations.

PublicitéTirer le meilleur parti des données de l'entreprise est aujourd'hui une préoccupation majeure de tout responsable IT. Les organisations cherchant à prendre des décisions 'data-driven', les DSI doivent concevoir des stratégies data visant à créer de la valeur à partir de leur patrimoine de données, quel que soit l'endroit où elles se trouvent ou la forme qu'elles prennent.

Pour de nombreuses entreprises, les données non structurées, sous forme de texte, de vidéo, d'audio, de contenus issus de médias sociaux, d'images et d'autres formats, restent insaisissables et inexploitées. Alors que les analystes estiment que 90 % des données d'entreprise sont non structurées, 61 % des responsables informatiques déclarent que la gestion de ces types de données constitue un problème pour leur organisation, et 24 % n'incluent même pas ces informations dans leur short-list de données et d'applications analytiques, selon une étude de Foundry.

Dès lors, comment transformer les données non structurées en nouvelle source de valeur ? Voici quelques conseils pour y parvenir.

Améliorer le processus créatif

Chez RetroStyle Games, société de développement de jeux mobiles, les données non structurées se sont révélées être une 'mine d'or' qui contribue directement à la croissance de l'entreprise et à l'amélioration de ses offres, explique Ivan Konoval, data analyst au sein de l'entreprise. Parmi les nombreuses manières dont RetroSyle Games utilise les données non structurées, les plus marquantes résident sans doute dans la collecte d'illustrations et de données audio.

« Le processus créatif de nos développeurs de jeux commence souvent par une esquisse, une planche ou un concept artistique, explique Ivan Konoval. Ces oeuvres, bien que non structurées, capturent l'essence de ce que nous voulons exprimer dans le jeu. Pour qu'elles ne se perdent pas parmi d'autres et puissent être facilement retrouvées à l'avenir lorsque nous travaillerons sur la suite du jeu, nous utilisons des outils de reconnaissance d'images avancés. »

Ces outils catégorisent et étiquettent les différents éléments de l'oeuvre, qu'il s'agisse d'un personnage, d'un paysage ou d'un autre élément. « Ce qui permet à nos artistes et à nos développeurs de retrouver rapidement les illustrations apparentées, donnant de la cohérence à la conception et accélérant le processus de développement, reprend le data analyst. En outre, ce système nous permet de stocker des informations sur le développement des oeuvres au sein de l'entreprise, ce qui est très utile pour la formation des nouveaux employés. »

En ce qui concerne les données audio, l'interprétation vocale joue un rôle clé dans l'expérience des joueurs dans l'univers d'un jeu, souligne Ivan Konoval. « Nous collectons une grande quantité de données à partir des dialogues du jeu, des sons d'arrière-plan et des discussions des joueurs. Grâce à la reconnaissance vocale et à l'analyse des sons, nous extrayons des nuances telles que l'humeur et le sentiment. » Par exemple, si un certain dialogue fait que les joueurs entrent systématiquement dans les chats vocaux avec excitation, les développeurs en prennent note. De même, les anomalies telles que les bruits de fond qui ne correspondent pas à l'environnement sont identifiées et traitées. « Les informations tirées de ces données audio ont directement contribué à améliorer l'expérience audio du jeu, en veillant à ce que les joueurs soient constamment engagés émotionnellement et interagissent avec l'environnement virtuel proposé », dit le data analyst.

PublicitéLes jeux sont dynamiques, et les données qu'ils génèrent le sont tout autant, souligne par ailleurs Ivan Konoval. Des fonctions telles que l'analyse des sentiments dans le chat du jeu nécessitaient un traitement temps réel pour filtrer les comportements inappropriés de certains joueurs. « Nous avons résolu ce problème en exploitant des frameworks de traitement de flux tels qu'Apache Kafka, explique-t-il. Cela permet à nos modérateurs de répondre en temps réel à tous les modèles et problèmes émergents. »

À chaque sortie et mise à jour d'un jeu, la quantité de données non structurées traitées augmente de façon exponentielle, note Ivan Konoval. « Ce volume de données pose de sérieux problèmes en termes de stockage et d'efficacité des traitements. » Pour les résoudre, RetroStyle Games a investi dans des datalakes. « Cela nous permet non seulement de stocker d'énormes quantités de données non structurées, mais aussi de les interroger et de les analyser efficacement, offrant ainsi un accès immédiat aux informations à nos Data Scientists et développeurs », indique l'analyste.

Alimenter l'IA générative

Workhuman, un fournisseur de logiciels de gestion de l'expérience des employés, exploite les données non structurées de multiples façons sur sa plateforme cloud, explique Jesse Harriott, responsable de l'analytique et directeur général. « Les données non structurées sont la forme de données la plus répandue, mais aussi la plus difficile à utiliser efficacement », estime ce derniert. Le cloud de Workhuman contient des millions de messages d'employés travaillant dans le monde entier, qui font part de leurs commentaires positifs sur une personne avec laquelle ils travaillent.

« Ils le font avec leurs propres mots, de sorte que chaque message est totalement unique », Jesse Harriott. « Nous utilisons ces données pour alimenter des modèles d'IA qui aident les entreprises à mieux définir la manière dont les employés collaborent au sein de leur organisation, à isoler les sujets qui reviennent le plus souvent dans les messages et à veiller à l'équité des récompenses aux employés les plus reconnus dans l'ensemble de l'organisation. »

L'entreprise utilise également de grands modèles de langage (LLM) pour résumer les tendances en matière de messages de reconnaissance au fil du temps et pour suggérer une forme pour un message efficace. « Une initiative dont je suis particulièrement fier est notre outil Inclusion Advisor, un outil de coaching basé sur l'IA qui identifie et suggère des corrections pour les préjugés inconscients dans le langage employé dans les messages, avant que ceux-ci ne soient envoyés au destinataire », observe Jesse Harriott.

L'un des plus grands défis pour tirer parti des données non structurées réside dans l'accès limité à des données d'entrainement fiables et valides pour les cas d'usage métiers les plus structurants pour l'organisation. « Vous pouvez disposer de grandes quantités de données non structurées, mais sans données d'entrainement efficaces pour créer et valider un modèle, les progrès et la qualité en pâtiront », estime Jesse Harriott. « L'utilisation des LLM peut certainement aider à cet égard, mais de nombreux d'usage ne sont pas pris en compte de manière efficace par les LLM existants. »

En outre, « avec un LLM, il peut toujours exister des biais issus des données d'entrainement », ajoute le responsable de l'analytique. Workhuman dispose d'une équipe de linguistes chargée de l'annotation, de l'enrichissement et de la validation des données afin de résoudre certains de ces problèmes. « Nous travaillons également en partenariat avec nos grands clients, des multinationales, pour nous assurer que les modèles produisent des résultats significatifs et utiles », ajoute Jesse Harriott.

8 conseils pour transformer les données non structurées en valeur

1. Lier les initiatives aux bénéfices pour l'entreprise. Les responsables IT doivent s'assurer que les initiatives visant à exploiter les données non structurées sont étroitement liées aux besoins de l'entreprise et qu'elles bénéficient du soutien de la direction, explique Jesse Harriott. « Trop souvent, une équipe peut avoir un cas d'usage créatif pour les données non structurées, mais le lien avec un résultat métier clé n'est pas évident pour les autres et elle peut alors perdre leur soutien », souligne le responsable de Workhuman. « Il incombe au leader du projet d'expliquer à l'organisation pourquoi ce scénario d'usage est important et comment il peut directement ou indirectement générer des avantages pour l'entreprise. »

2. Reconnaître le chemin parcouru. Les responsables data doivent également fixer les étapes de l'initiative et ne pas omettre de mettre en avant les jalons franchis, en particulier compte tenu de la difficulté à créer de la valeur à partir de données non structurées. « Rendre les données non structurées exploitables peut nécessiter plus de temps et d'efforts que l'entreprise ne le pense », explique Jesse Harriott. « En mettant en lumière les étapes importantes, les dirigeants donnent aux différentes parties prenantes une visibilité sur les progrès réalisés et s'assurent également que les membres de leur équipe se sentent appréciés pour les efforts qu'ils déploient. »

3. Donner la priorité à la qualité. Une autre clé du succès est de donner la priorité à la qualité des données. « L'adage 'garbage in, garbage out' est, ici, on ne peut plus approprié, observe Ivan Konoval. Se lancer dans une analyse sans s'assurer de la qualité des données peut s'avérer contre-productif. Nous avons toujours adopté une approche consistant à démarrer par les étapes suivantes : nettoyer les données, supprimer ce qui n'est pas nécessaire et s'assurer qu'elles répondent aux normes de qualité. » Dans l'industrie du jeu, « des décisions mal informées peuvent entraîner le développement de fonctionnalités coûteuses qui pourraient ne pas plaire aux joueurs, ou pire encore, des bogues qui pourraient ternir notre réputation », souligne Ivan Konoval. « Notre cadre rigoureux de gouvernance des données garantit que les fondements de nos analyses sont solides comme le roc. »

4. Séparer les données exploitables de l'anecdotique. Il est également essentiel de donner la priorité aux données sur lesquelles les utilisateurs de l'entreprise peuvent agir. « Ce qui est important, c'est le volume de données et la capacité à distinguer ce qui est exploitable de ce qui est uniquement informatif », explique Joe Minarik, directeur de l'exploitation chez le fournisseur de services de colocation et de données DataBank. Pour souligner l'importance de ce point, ce dernier donne l'exemple de l'utilisation de données non structurées pour la surveillance des systèmes. « Les aspects pouvant faire l'objet d'une action doivent être hiérarchisés et traités rapidement, explique-t-il. Étant donné que de nombreux aspects des systèmes sont surveillés, un seul problème peut générer des alarmes et des informations provenant de dispositifs en aval, ce qui entraîne une surabondance d'alertes, d'alarmes et d'informations qui doivent être passées au crible afin d'identifier le point qui doit réellement être traité. »

5. Utiliser largement l'IA. Poursuivant son exemple, Joe Minarik souligne le rôle précieux que jouent l'IA et le Machine Learning dans l'analyse des flux de données non structurées. « Cela vous aide à établir une corrélation entre les systèmes et vous permet d'éliminer le bruit et d'aller immédiatement à la racine d'un problème. »

Par exemple, les organisations peuvent déployer la reconnaissance des entités nommées (NER pour Named entity recognition), une forme de traitement du langage naturel (NLP) qui se concentre sur l'identification et la catégorisation des entités nommées dans un texte non structuré, avec des étiquettes telles que "personne", "organisation" ou "lieu".

« Dans la pratique, la reconnaissance des entités joue un rôle crucial dans une multitude d'applications, explique Joe Minarik. Il s'agit notamment de systèmes de recherche d'informations qui indexent et organisent le contenu, de systèmes de réponse aux questions qui localisent les passages pertinents dans le texte et des moteurs de recommandation qui personnalisent le contenu en fonction des entités reconnues. »

« En identifiant et en catégorisant les entités nommées, le NER permet aux analystes de données et aux ingénieurs système d'obtenir des informations précieuses à partir des nombreuses données collectées par les organisations ».

6. Soigner la visualisation de données. Le processus d'exploitation des données non structurées ne s'arrête pas à l'analyse, précise Joe Minarik. Il culmine avec le rapport et la communication des résultats. « Les rapports impliquent généralement une présentation structurée des principaux résultats, des méthodologies et des implications de l'analyse, explique le directeur de l'exploitation de DataBank. Les visualisations, telles que les diagrammes, les graphiques et les tableaux de bord, permettent de transmettre des données complexes dans un format compréhensible. Les représentations visuelles facilitent non seulement la compréhension, mais aussi l'identification par les parties prenantes des tendances, des valeurs aberrantes et des informations essentielles. C'est ce qui permet de prendre en temps voulu des décisions réellement data-driven. »

7. Monitorer au fil de l'eau. Une autre bonne pratique, parfois négligée, réside dans la nécessité d'un contrôle et d'une maintenance continus, souligne Joe Minarik. « Dans la vie d'une entreprise, les données sont dynamiques et en constante évolution. Les monitorer en continu est essentiel pour garantir que les données restent utilisables au fil du temps. » Pour ce faire, il faut nettoyer régulièrement les données et effectuer des contrôles de qualité afin de préserver leur exactitude et leur fiabilité, ajoute le responsable de DataBank. Les anomalies, les incohérences et les doublons doivent être identifiés et rectifiés rapidement afin d'éviter des analyses faussées ou erronées.

8. Maintenez les compétences de votre équipe à jour. Enfin, investir dans le développement des compétences adéquates s'avère indispensable. Un effort qui, compte tenu de l'évolution constante des outils sous-jacents, doit qui plus est être permanent. « Le monde de l'analyse de données, en particulier pour les données non structurées, est dynamique, souligne Ivan Konoval. Le moindre avantage, tel qu'une équipe maîtrisant les dernières technologies de reconnaissance d'images et l'analyse de concepts artistiques, peut faire la différence entre un jeu réussi et un jeu raté. Nous avons déjà constaté que la maîtrise de technologies avancées a un impact sur la narration et la conception de nos jeux, se traduisant par des réactions positives et un engagement accru des joueurs. »

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis

    La question du moment
    Disposez-vous d’un cadre de sécurité unifié pour tous vos environnements IT, qu’ils soient dans le cloud ou sur site ?