Viadeo
.
Contributions

Paroles d'experts

Didier Gaultier

Le Big Data : un cadeau empoisonné pour les Data Miners


Didier Gaultier - Directeur du Développement SPAD et Datamining chez Coheris


(26/11/2012)

L'auteur analyse les évolutions de l'analytique à l'ère du « Big Data » et s'interroge sur le rôle du Datamining en 2012.

« Big Data » est l'une des expressions à la mode en 2012 dans le monde du Data Mining, et les entreprises ressentent de plus en plus comme une pression le fait de devoir s'en emparer rapidement. Dans ce cadre, l'analyse des contenus audio et vidéo est annoncée par certains acteurs du logiciel comme étant presque à portée de main. Techniquement, la possibilité existe : il s'agit par exemple de transformer ces contenus en texte-libre, à partir d'une reconnaissance initiale, puis d'utiliser le text-mining*. Quand on dit « Big Data » on pense plus généralement à la pléthore d'informations existant dans les réseaux sociaux, et que beaucoup de professionnels du marketing aimeraient bien pouvoir mieux exploiter pour leur campagnes, mais quid de la qualité de ces données dites « non-structurées » et de leur utilité pour l'entreprise ?

Depuis la naissance de l'informatique, un principe né en 1963 à New York est en effet toujours resté particulièrement vrai de nos jours. Il stipule « Garbage in, Garbage out ». Un input de données aberrantes sera traité par un ordinateur, mais il n'en ressortira qu'un résultat absurde ou une absence de résultat. Un moteur statistique peut trier les données ineptes à la manière d'un tamis, mais si leur fiabilité est globalement trop compromise, il ne faut pas espérer de miracle. A partir de là, seul un contexte bien contrôlé autour d'un contenu libre, permet vraiment d'espérer en déduire de la connaissance utile.

L'Analytique face au « Big Data »

L'enjeu pour les entreprises face au « Big Data » ne se situe donc pas tant dans la capacité d'analyse elle-même qu'autour de 2 problématiques qui ont tendances à être trop souvent ignorées :
- Le mode de collecte des données doit rester connu et maitrisé pour être certain qu'une analyse de Data Mining ne produise pas d'effets contre-productifs pour l'entreprise.
- L'analyse de grandes quantités de données ne doit pas se faire au détriment de leur qualité. Toutes n'ont pas la même utilité et ne permettent pas à l'entreprise de dégager de la valeur.

Comme nous l'expliquons souvent à nos clients en Data Mining, l'analyse statistique impose ainsi certaines règles de base sur les données, et ces règles ont très peu à voir avec la quantité de données. En ne les respectant pas, on s'expose au mieux à une absence de résultats, voire à des résultats faux et trompeurs. Une de ces règles d'or est ainsi de toujours utiliser le même instrument de collecte sur un jeu de données. Par exemple, une partie des données d'enquêtes venant d'un site internet ne peut donc pas être mélangé directement avec une autre partie (portant sur les mêmes questions) dont l'origine est une enquête téléphonique. Au risque sinon d'obtenir des données dont nous dirons par la suite pour simplifier qu'elles présentent une qualité dégradée.

Cette contrainte de base a souvent été oubliée, avec des conséquences qui ont pu être grave pour les entreprises. Il existe d'autres contraintes à respecter en Data Mining. Ainsi en 2008, pendant la crise des subprimes, une partie des ordres de bourse passés par certains automates programmés à la hâte était aberrante, car les modèles prévus par les organismes financiers initialement conçus et testés pour fonctionner dans un marché boursier fluide, ne prenaient pas en compte que la spécificité de la crise sur les actifs toxiques violait certaines hypothèses statistiques. Des algorithmes qui marchaient parfaitement en période d'activité financière « normale », ont cessé d'être pertinents. Ce n'est bien sûr pas la raison première de la crise, mais c'est un des facteurs de son aggravation, il ne s'agit donc pas d'un sujet mineur.

Trop d'informations tue l'information

Un autre aspect de bon sens à considérer est qu'une très grande quantité de données ne constitue pas une garantie d'une information de qualité, bien au contraire, on dit souvent que « trop d'informations tue l'information ».

C'est un principe qui, dans une certaine mesure, et contrairement aux idées reçues, reste vrai en Data Mining. Introduire une quantité astronomique de nouvelles données dans un modèle qui fonctionne n'introduit que très rarement de l'information réellement actionnable supplémentaire pour alimenter le modèle. Pire encore, certains modèles de Data Mining fonctionnent bien mieux, sont plus robustes et précis lorsque qu'on évite de les alimenter avec des données supplémentaires (trop pauvres en informations) en entrée. Avoir un modèle prédictif avec des dizaines voire des centaines de paramètres, est en soi une aberration, car on cherchera toujours à élaborer un modèle pour qu'il soit le plus performant possible d'une part, mais surtout fonctionnant avec le nombre minimum possible de variables d'autre part. Le fait d'introduire une grande quantité de sources supplémentaires en espérant qu'une d'entre elle fera « par chance » l'affaire, est à comparer à une pratique que les marketeurs appellent dans un autre domaine le « SPAM » avec un effet inverse à celui qu'on veut créer. Le principe de simplicité s'applique donc en Data Mining, car plus un modèle est simple, plus il est puissant.
L'autre raison pour laquelle on cherche principalement des modèles de Data Mining simples, réside dans leur pouvoir explicatif. Plus un modèle est simple, plus il permet de comprendre ce qu'il se passe. Simplicité est donc synonyme de puissance explicative. Devenu trop complexe, un modèle de Data Mining n'explique plus rien et devient difficile à mettre en oeuvre.
Il ne faut donc jamais perdre de vue l'objectif du Data Mining qui est de créer de la connaissance client et de la valeur, qui n'est donc, loin s'en faut, pas garanti par l'accumulation d'une énorme masse de données dont on a même parfois oublié jusqu'à la provenance voire l'utilité.

Analyser le « Big Data » : l'exemple des réseaux sociaux

Page suivante (2/3) >


Les études CIO/LMI





CONNEXION AU CIO PDF
E-MAIL :
MOT DE 
PASSE : 
   Mot de passe oublié ?



SONDAGE