Une visualisation quasi-instantanée à partir de 7 To de données chez Mappy

En ajoutant une brique Indexima à son cluster Hadoop pour la visualisation dans Tableau, Mappy a considérablement accéléré ses temps de réponse.
PublicitéDepuis trois ans, une start-up a fait son nid au sein de Mappy pour y accélérer les requêtes décisionnelles sur de très gros volumes de données sans multiplier les noeuds Hadoop. Indexima est officiellement née en mars 2016 mais poursuit une co-innovation avec le service français de cartes et d'itinéraires du groupe Solocal, délivrant des résultats qui sont désormais visibles.
Mappy possède 13 millions d'utilisateurs en France. Ceux-ci peuvent requêter sur plus de cinq millions de points d'intérêts. Les logs du service dépassent 1 To/semaine en data brute, alimentant 7 To de datas statistiques dans le datalake sous Hadoop, données qui font l'objet d'analyses. L'objectif de Mappy est de comprendre les usages de son service par les internautes et ainsi vérifier sa pertinence comme sa qualité. Cela passe par la création de visualisations dans Tableau à partir du datalake. Or une des tables dépasse les 5 milliards de lignes.
Un temps de réponse divisé par 200
« Mappy n'avait aucune envie de multiplier les noeuds et de gérer des centaines de machines dans notre cluster Hadoop » explique Nicolas Korchia, responsable Business Intelligence chez Mappy. Le cluster Hadoop a donc été maintenu à six serveurs. Pas un de plus. Mais le temps de réponse de certaines requêtes pouvait dépasser les vingt secondes. C'est un délai qui ne peut pas être accepté.
Un démonstrateur a été monté en 2014 avec ce qui allait devenir la start-up Indexima. La solution vient s'installer sur le cluster Hadoop pour l'accélérer. Aujourd'hui, les requêtes qui prenaient 20 secondes s'exécutent en 0,1 seconde. Le temps de réponse a donc été divisé par 200. Depuis 2014, Indexima co-innove avec Mappy. Le service web ne paye pas de licence mais un développeur deux jours par semaines pour continuer de faire progresser l'outil. « Et ainsi j'ai une influence sur la roadmap » se réjouit Nicolas Korchia.
« Oui, c'est révolutionnaire » juge Nicolas Korchia
Un mécanisme de pré-agrégation
Lorsque la requête a été « prévue », Indexima va utiliser totalement ses agrégats pré-calculés et ses index. Lorsque la requête ne peut pas entièrement s'appuyer sur les pré-calculs, seules les lignes manquantes vont faire l'objet d'un calcul spécifique. L'accélération est donc nette aussi bien sur l'imprévu que sur le prévu. Nicolas Korchia observe : « le traitement du stockage en colonnes est donc accéléré par les index construits à l'occasion de la fabrication des pré-agrégats même si ces pré-agrégats ne sont pas les seules données utilisées. »
Cependant, l'outil ne fait pas de miracles et n'est pas omnipotent. « Les requêtes accélérées sont celles que l'on utilise en décisionnel, donc de type sélection/agrégation » avertit Nicolas Korchia.
PublicitéUn problème de riche
Et il a un effet secondaire non-prévu. Nicolas Korchia constate : « les utilisateurs ne se rendent plus compte de la complexité et des volumes des données qu'ils manipulent et leur niveau d'exigence s'accroît. » Or, sur des milliards de lignes, la qualité des données peut comporter des incidents. Mappy doit donc accroître aussi son niveau de qualité des données.
Article rédigé par

Bertrand Lemaire, Rédacteur en chef de CIO
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire