Crédit Agricole Consumer Finance industrialise son data lake

Depuis deux ans, Crédit Agricole Consumer Finance, qui possède la marque Sofinco (crédit à la consommation) bâtit un data lake qui ingère les données internes de l'entreprise et des données externes pour les croiser et les exposer en temps réel. Parmi les nombreux cas d'usage : monitoring de la performance des sites web, refonte des applications analytiques et de la datavisualisation, identification 360 des clients pour les agences Sofinco et les centres d'appels et projets R&D de data science.
PublicitéLancé depuis deux ans dans la rénovation de son système d'information et la numérisation de ses parcours clients, Crédit Agricole Consumer Finance a adopté une démarche centrée sur la donnée avec la constitution d'un data lake. Acteur de premier plan du crédit à la consommation, cette filiale du groupe bancaire détient la marque Sofinco. « Nous nous sommes engagés sur un énorme chantier de digitalisation de l'entreprise avec, d'une part, la refonte de tous les canaux de distribution, des sites web et des postes de travail et, d'autre part, la mise à disposition de la donnée auprès de nos collaborateurs, de nos partenaires et de nos clients », a expliqué hier sur Talend Connect Europe, à Paris, Pierrick Condette, responsable de l'équipe IT marketing et big data analytics chez Crédit Agricole Consumer Finance. « Nous avons une mine d'information dans les 200, 300 ou 400 applications de nos SI. C'est un héritage historique. L'approche de SI data centric consiste à dé-siloter l'accès à l'information interne et externe pour la mettre facilement à disposition de toutes les parties de l'entreprise, de nos partenaires, retail, bancaires ou même de nos clients ». Le volume de données manipulé est colossal, avec une capacité d'ingestion d'une dizaine de téraoctets par jour, souligne Pierrick Condette qui évoque dans le même temps les problématiques de protection des données personnelles. « Nous avons travaillé en avance de phase avec les équipes conformité, sécurité informatique et la CNIL pour appréhender les exigences de la réglementation GDPR ».
Pour mettre en place le data lake, l'entreprise a bâti une infrastructure avec Silca, l'infogéreur privé du groupe CA, et s'est tournée vers Accenture qui s'est appuyé sur une équipe de spécialistes « capables de naviguer dans l'écosystème big data », a expliqué ce matin Jean-François Guilmard, responsable des équipes big data et analytiques en France pour Accenture. « Il est très important d'investir sur l'expertise au démarrage du projet », a-t-il insisté. L'infrastructure de data lake construite s'appuie sur la distribution Hadoop de MapR, la base de données analytique Vertica (HPE/Micro Focus), le moteur de recherche Elasticsearch et sur la plateforme d'intégration de données de Talend. Une fois les grandes briques technologiques identifiées, il a fallu déterminer ce qui allait être fait dans chacune d'entre elles et évaluer s'il fallait également compléter avec « des jobs spécifiques en Spark », a relaté Jean-François Guilmard. Ce qui a été le cas [des jobs Spark qui ont parfois donné du fil à retordre lorsqu'il a fallu optimiser leurs performances]. « L'objectif était de délivrer de façon massifiée un nombre de projets important et de façon rapide, en diminuant les coûts avec des équipes industrialisées ».
Une refonte complète de la plateforme décisionnelle
Publicité « Le data lake mis en place, entrepôt unique des données d'entreprise, structurées, non structurées, internes, externes, permet d'ingérer la donnée, de la stocker, la croiser, l'exposer, à chaud, à froid, en temps réel et apporte les capacités qui permettent de la gouverner, de gérer les ressources, etc. », a résumé hier Pierrick Condette en soulignant que cette plateforme big data a véritablement déclenché de nouveaux usages. En premier lieu, le monitoring de la performance des sites web a permis d'affiner les parcours des internautes sur les différentes sites. Ce monitoring se fait en croisant les gros volumes de données récupérés sur les parcours des internautes avec les données de vente. Des projets analytiques ont également été menés autour de la refonte complète de la plateforme décisionnelle. « Nous avons eu d'énormes gains en remettant nos anciens datamarts sur les plateformes big data », a indiqué le responsable IT marketing et big data. « De même autour de la datavisualisation en refondant notre usine à reporting dans l'outil Qlikview sur des données venant du data lake ».
Il y a aussi des usages très opérationnels. « Car l'idée, ce n'est pas uniquement de servir des statisticiens, des data miners, des datascientists, mais aussi des collaborateurs, des clients, des partenaires », insiste Pierrick Condette. « La vision client 360, par exemple, permet dans les agences Sofinco et sur les plateaux téléphoniques d'identifier très facilement toutes les interactions que le client a eu avec Sofinco CACF que ce soit sur le web, ou à travers un relevé, un email, un SMS qu'on lui a envoyé ou un dialogue en chat. » Toutes ces informations issues de différentes applications sont stockées dans le data lake et remises à disposition en temps réel. Dans le même temps, d'autres usages concernent la segmentation client, mise à disposition des partenaires et qui s'appuie sur un calcul fait dans la plateforme big data.
Un volet R&D autour de la data science
Parmi les usages jugés innovants par CACF figure le financement du crédit par les réseaux sociaux. L'internaute se voit proposer un préremplissage de son formulaire, avec son consentement, s'il donne accès à ses données de réseaux sociaux, Facebook, Linkedin. Ces informations sont utilisées pour faciliter l'octroi de son crédit, a-t-il été expliqué hier dans une vidéo. La dernière nature d'usage se fait autour de la data science sur un volet R&D. « Nous mettons à disposition le data lake auprès de nos data scientists pour qu'ils puissent explorer de nouveaux jeux de données, notamment externes afin de pouvoir construire de nouveaux modèles et enrichir ceux qui existent ». Autant d'utilisateurs très distincts autour de cet environnement big data avec des enjeux déjà fixés pour 2018. « Nous prévoyons d'aller beaucoup plus loin dans l'industrialisation des modèles et dans l'analytique en temps réel en commençant à faire du streaming. L'histoire n'est pas finie », assure Pierrick Condette.
Article rédigé par

Maryse Gros, Journaliste, chef de rubrique LMI
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire