Comment les données peuvent changer le business des entreprises

Le patrimoine de données permet non seulement d'améliorer la gestion des entreprises mais aussi d'en transformer le business. C'est ce qu'il ressort d'un débat organisé par le CPI-B2B sur le « data-centric ».
PublicitéTous les outils décisionnels permettant d'optimiser la gestion d'une entreprise reposent évidemment sur le patrimoine de données de celle-ci. Mais ce serait une erreur de limiter l'usage de la data à cette seule optimisation. C'est bien le business même de l'entreprise qui peut être transformée grâce à une exploitation adéquate des données, via une approche qualifiée de « data-centric ». C'était là le sujet du débat organisé par le Club de la Presse Informatique B2B (CPI-B2B) le 24 octobre 2018.
Le simple stockage de données, en s'accroissant, peut être utilisé comme alimentation à des outils d'intelligence artificielle aux multiples usages, y compris dans le cloud bien sûr. L'augmentation des volumes n'est pas, dès lors, sans poser de réels problèmes de protection et de sûreté car, par exemple, la sauvegarde via duplication devient de plus en plus lourde. L'une des sources de données les plus importante, c'est bien sûr l'IoT. Du coup, ces données peuvent amener à une réelle transformation de la production industrielle si des capteurs suivent le fil de la fabrication. Et l'un des usages les plus spectaculaires de l'objet connecté, c'est bien sûr la voiture connectée, ce qui va jusqu'à l'automobile autonome.
Vie, croissance de valeur et mort de la donnée
Les données circulent, se stockent, se protègent... mais peuvent aussi être toxiques. Le flux de données peut être corrompu soit parce que les données sont de piètre qualité soit parce qu'elles intègrent du code malicieux. Et il est alors pour le moins un comble de sauvegarder un virus... A cela s'ajoute la difficulté de ne pas se contenter d'accumuler toujours plus de données, notamment les données personnelles (à cause du RGPD) mais aussi les autres données applicatives et les données système. Il faut donc savoir gérer un cycle de vie (et donc de mort) des données.
Et, quand on parle de données, c'est un peu un abus de langage. Ce qui est réellement utile, c'est évidemment l'information transportée par la donnée et donc l'extraction suppose un raffinage, une analyse. Et les capacités de calcul requises peuvent être colossales. L'intelligence artificielle permet aujourd'hui de traiter le langage naturel mais à condition de disposer de telles ressources. Quand on parle de véhicules connectés ou autonomes, on arrive à des chiffres rapidement gigantesques : 1500 mesures à la seconde, de la vidéo (pour le véhicule autonome)... jusqu'à 70 To/jour voire 15 To/heure en période de test.
Une valeur liée à la mise en relation
Comme toujours, les données peuvent être structurées (des mesures...) ou non-structurées (les vidéos...). Mais certaines données structurées sont bien particulières, ce que l'on appelle des « séries temporelles », c'est à dire une série de mesures dans le temps. Lorsqu'il s'agit de données géolocalisées, on en arrive à ces données que l'on nomme « 4D », c'est à dire les trois dimensions de la géolocalisation et le temps. Une autre distinction possible est celles entre données d'origine humaine et celles provenant de machines. Des données particulièrement massives sont également constituées par les logs de connexion, c'est à dire les données comportementales en ligne. Des volumes considérables mais dont l'utilité reste encore parfois à démontrer.
PublicitéPour développer de la valeur autour des données, il faut savoir les mettre en perspective, les croiser et les relier. Il faut donc savoir aussi les échanger, adopter une « approche en écosystème » et de l'« open-data », tant pour offrir des données que pour en récupérer. Un exemple de cette approche, imposé par la directive européenne « DSP 2 », est l'open-banking : les données bancaires doivent être mises à disposition et être exploitables par toutes les autres banques si le client concerné le souhaite. Tous ces croisements de données se heurtent alors à un obstacle, parfois baptisé RGPD : le consentement du réel propriétaire de la donnée, celui qui en est l'objet pour ce qui concerne les données personnelles.
Ne pas oublier l'intendance
Mais, quand les volumes et les liens possibles explosent, comment techniquement assurer la couverture des besoins ? Au sein des clouds dédiés ou des datacenters privés, c'est simple. Mais entre clouds ou entre espaces de stockage privés, c'est une autre histoire. D'où l'importance de liens réseaux spécifiques, soit au sein de datacenters partagés, soit entre datacenters.
Alors que l'on croyait ce genre de soucis derrière nous avec la baisse considérable des coûts du stockage et de la puissance de calcul, les contingences techniques réapparaissent donc au détour du traitement des données. Et de multiples solutions sont nées pour répondre comme le streaming analytics (sans transfert) ou la virtualisation des données. Pour éviter de recopier ou de transférer des volumes considérables, on peut les assembler virtuellement pour les exposer mais sans les déplacer réellement.
Article rédigé par

Bertrand Lemaire, Rédacteur en chef de CIO
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire