Big Data et datascience à la Banque de France
Le 24 avril 2017, le Club MOA, en première partie, a donné la parole à Stanislas BLANCHY (membre du Club) qui a présenté l’entreprise « SNCF Réseau », dans laquelle il travaille. Farid OUKACI lui a succédé pour un exposé complet du rôle de « Data Scientist » au sein de la Banque de France
1 SNCF Réseau et son SI
SNCF Un groupe public ferroviaire qui est composé de 3 EPIC exerçant 5 métiers.
EPIC SNCF (pilotage, support, Appui)
- Métier : SNCF IMMOBILIER (optimisation de la gestion du parc immobilier)
EPIC SNCF RESEAU
- Métier : SNCF RESEAU (Gestion, exploitation, maintenance, ingénierie, développement et mise en valeur du réseau ferré français.)
EPIC SNCF MOBILITES
- Métier : SNCF VOYAGEURS
- Métier : KEOLIS
- Métier : SNCF LOPGISTICS (Transports et logistiques marchandises)
SNCF RESEAU en chiffre
- 3 entités :
- La Direction de la circulation Ferroviaire
- La gestion des infrastructures
- Réseau ferré de France
- 25 000 agents mobilisés 24H / 24H ; 7 jours sur 7
- 13 000 agents de circulation
- 52 000 collaborateurs
- 30 000 KM de voies dont 2000 à grande vitesse
- 15 000 trains qui circulent chaque jour
- 4,9 milliards d’euros investis en 2015
- 1500 chantiers de modernisation en 2015
- 20 000 sillons délivrés chaque jour
SNCF RESEAU : les enjeux et les métiers
- Accès au réseau : gestion des sillons, gestion commerciale et tarifaire, élaborer le design du réseau
- Circulation : sécurité, ponctualité, régularité
- Ingénierie et projets : optimisation de la conduite de projets, être à la pointe de la technique
- Maintenance et travaux : maintenir le réseau (sécurité, fiabilité, disponibilité)
Chiffres Clé du SI SNCF RESEAU (à fin 2016)
[…]
Au-delà de ces informations objectives, Stanislas Blanchy a évoqué quelques thèmes importants : L’ouverture à la concurrence qui est pour les cheminots une réelle révolution, la modélisation de 50 000 km de voies, le passage progressif des informations dans le Cloud (Dans 10 ans, 50% des informations dans le Cloud), le développement de l’internet des objets (mise en œuvre généralisée de capteurs)
Pour aller plus loin: http://www.sncf.com/fr/portrait-du-groupe/un-groupe-de-service
2 Banque de France
Mise en œuvre des techniques Big Data et Data science à la Banque de France
Introduction
Farid OUKACI présente le sujet en rappelant quelques exemples de questions et d’approches relevant des problématiques qui peuvent aujourd’hui être traitées plus complètement en mettant en œuvre les techniques de Big Data et notamment d’IA
- Moneyball et sabermetric,
- Peut-on connaître les personnes qui pourraient voter Obama et les pousser à aller aux urnes ?
- Comment recommander des films que le client pourrait aimer pour augmenter sa fidélisation? NETFLIX avait conçu un algorithme de recommandation pour amener le client à rester sur son site, mais cet algorithme était inutilisable en temps réel.
- L’algorithme « Page Rank de Google
- Amazon qui a augmenté ses ventes de 30% grâce à ses algorithmes
- SIRI : assistant personnel « intelligent » conçu par Apple et présenté en 2011
Le machine learning : Un avantage concurrentiel des entreprises disruptivesLe fait important est la pénétration du Machine Learning et de l’IA dans notre quotidien et dans tous les secteurs: Vente et grande distribution, transports, santé, télécommunications…
Big data et datascience dans le contexte d’une banque centrale
L’évolution de l’économie, des sociétés, sans doute en partie sous la pression de la transition numérique, de nouveaux enjeux sont apparus.Récurrence des crisesMondialisation financièreNouveaux rôle des banques centralesUne plus grande sensibilité du public (attente d’informations et d’explications)
Ces évolutions conduisent à une exploitation plus importante des données pour créer de nouveaux services et apporter de nouvelles réponses.
La « donnée » se place désormais au cœur de l’activité tant au niveau opérationnel que stratégique. Les données sont de plus en plus nombreuses. Les crises financières de 2008 et les évolutions des régulations ont ouvert un accès inédit, pour les banques centrales, à des données détaillées en provenance des organismes financiers.
Les crises de 2007 et 2008 ont amené de nouvelles régulations.
Genèse du big data à la Banque de France
Le recours aux technologies du Big Data permet de :
- Tirer parti de cette nouvelle richesse de données,
- S’ouvrir à des sources d’information encore plus larges,
- Explorer de nouvelles pratiques dans l’approche de l’analyse de données
En 2013, La Banque de France lance une initiative Big Data et Data Science
Cette initiative concrétise une intersection entre 3 enjeux fondamentaux :
- Les enjeux business (viabilité)
- Les enjeux organisationnels (opportunités)
- Les enjeux technologiques (faisabilité)
Cette intersection définit une zone de « Data Innovation »
La Banque de France a mis en place un service pour enclencher et opérer ces innovations. Une organisation pour le Big Data et la Data Science en deux entités.
1. Un centre d’innovation (Créer et expérimenter)
- Réfléchir à de nouveaux cas d’usage
- Implémenter des expérimentations (POC en Big Data et Machine Learning)
- Promouvoir la culture Data
- Aider les Directions métiers à mieux valoriser leurs données
2. Un Service à Valeur Ajoutée (SVA) (Construire et mettre en œuvre)
- Préparer l’industrialisation des POCs
- Définir et construire les infrastructures cibles
- Assurer le déploiement
- Fournir le support
- Former les équipes
Depuis 2013 les réalisations importantes ont été les suivantes :
- 7 infrastructures Big Data construites
- Dont 3 clusters dédiés à l’innovation
- 4 clusters en production
- 5 projets Big data industrialisés
- 6 Directions impactéesStatistiques, supervision, économie, fabrication et tri des billets …
- 7 Séminaires, workshops, formation big data & data
- Plus de 500 participants
- Sujets : Big data, Text Mining, Data Science, Data visualisation
- 14 POCs data science réalisés
- GABI, GIPSI, MDT, COS, FIBEN, DSF, SMPS
- …et plus de 140 serveurs installés
Les processus du Data Science
Passer de l’idée à l’expérimentation, selon un schéma bien déterminé !
- 1. Génération d’idées
- 2. Convergence (intérêt, complexité, priorisation)3.
- 3. POC (prototype, résultats, ajustements, projection sur le réel)
- 4. Industrialisation
[…]
Transformer les données à l’aide d’algorithmes (machine learning) pour produire de l’information pertinente (intelligence ou “insights”) et aider à la prise de décision
Machine learning
Le Machine Learning utilise des algorithmes basés sur l’IA (Intelligence Artificielle) et l’analyse statistique avancée pour comprendre la donnée ou découvrir des informations cachées que l’on appelle « Signaux faibles ».
A première vue, les signaux faibles sont des d’informations qui n’ont pas d’intérêt particulier, qui ne traduisent pas une utilité immédiate. Pourtant, en replaçant correctement ces informations dans un contexte précis et déterminé, ces dernières peuvent s’avérer capitales. Il faut donc rester attentif pour pouvoir les détecter. En effet, les signaux faibles peuvent permettre de prédire certaines actions ou certains événements
Exemples de traitement: associations, séquences, classifications, anomalies, prévisions, clusters (groupes homogènes, relations, tendances…
Méthodologie CRISP
La méthode CRISP7 (initialement connue comme CRISP-DM) a été au départ développée par IBM dans les années 60 pour réaliser les projets Datamining. Elle reste aujourd’hui la seule méthode utilisable efficacement pour tous les projets Data Science.
Elle se décompose en 6 étapes :
- 1. La compréhension du problème métier
- 2. La compréhension des données
- 3. La construction du Data Hub (préparation des données)
- 4. La modélisation
- 5. L’évaluation
- 6. Le déploiement
Cette méthode est agile et itérative, c’est-à-dire que chaque itération apporte de la connaissance métier supplémentaire qui permet de mieux aborder l’itération suivante.
Niveaux de valorisation de la donnée
La valorisation des données comprend 3 niveaux principaux qui sont fonction d’un niveau de complexité.
- Niveau 1 : Analyse descriptive : Que s’est-il passé ? [Découvrir / Mesurer]
- Niveau 2 : Analyse prédictive : Que va-t-il se passer ? [Anticiper / Prédire / Aider à décider]
- Niveau 3 : Analyse prescriptive : comment y parvenir ? [Influencer]
La problématique actuelle, mise en œuvre par les GAFA dans certaines circonstances : Comment des données massives pour construire des modèles prédictifs de comportements humains, de prix ou de phénomènes sociaux
Le Data scientist : Mouton à cinq pattes
Le Data Scientist a pour mission le traitement et la valorisation de « Big data », c’est-à-dire de données massives. Ce métier, reconnu depuis peu est essentiel à l’entreprise. Il apporte des informations impossibles à obtenir par une voie classique en structurant (comparer les types de données et les moyens de stockage) et en manipulant habilement les données complexes du Big Data.
Farid OUKACI cite un ensemble de compétences utiles ou indispensables dans son travail :
- Etre capable d’accéder à des bases de données
- Savoir prototyper des applications
- Coder des visualisations
- Manipuler les technologies du Big Data
- Comprendre les modèles, leurs différences et leurs conditions d’applications
- Avoir une intuition sur le fonctionnement des modèles
- Etre capable de customiser certaines parties calculatoires des algorithmes
- Connaître les données étudiées
- Maitriser les cibles métiers à valoriser
- Imaginer de nouveaux axes d’analyses et de nouvelles variables explicatives
Cependant, la réalité du travail au quotidien comporte une partie importante de « nettoyage » de données de manière à rendre ces dernières exploitables par les technologies mises en œuvre. Il indique que les données peuvent naturellement être alphanumériques mais également graphiques (photo du réseau Instagram par exemple)
Exemples de Projets Data Science et traitement analytique avancé:
- Expérimentations en data science et Big data sur les machines de tri des billets de banque
- Maintenance prédictive sur les machines de tri des billets : Une machine va-t-elle tomber en panne demain ?
- Projet CashCycle : Cycle de vie du billet : Mieux connaître le billet, de sa fabrication à sa destruction
- Ecoute du web pour la détection de mauvaises pratiques commerciales
- Nouvelle approche basée sur les données pour mesurer la nouvelle économie : application à l’hébergement et au transport de personnes
Conclusion
En conclusion d’un exposé passionnant et « touffu », Farid OUKACI jette un regard synthétique sur le « Data Scientism ».
C’est une démarche empirique et agile, avec des expérimentations faciles à mettre en œuvre et rapidement évolutives (scalables). La data science n’est pas chère : Elle peut être démarrée sur de petites quantités de données avec des outils open source. Il faut être vigilant, ne pas faire d’acharnement, limiter la durée du POC et ne pas hésiter à arrêter s’il n y a pas de résultats probants. Le travail se fait en équipe restreinte, le plus souvent en binôme (data scientist + expert métier) et en mode « Pizza Team » pour l’industrialisation et la construction de l’infrastructure.
Un projet data n’est pas qu’un projet technologique, il s’inscrit dans une stratégie data façonnée par les besoins des métiers, au sein d’une culture, d’une organisation.Enfin, il précise que le respect de la confidentialité des données est une priorité. La sécurisation des données pour protéger le capital informationnel de la Banque et de ses administrés est une préoccupation constante.
Pour aller plus loin.
- https://fr.slideshare.net/mongodb/la-stratgie-big-data-de-la-banque-de-france
- https://www.banque-france.fr/fileadmin/user_upload/banque_de_france/publications/Revue_de_la_stabilite_financiere/RSF20/RSF20-Dossier-presse-FR.pdf
- http://www.eifr.eu/uploads/eventdocs/57e2467b0d289.pdf
- https://www.lesechos.fr/04/11/2016/lesechos.fr/0211462841724_avec-son-open-data-room–la-banque-de-france-rompt-avec-la-culture-du-secret.htm#
NB: Le compte-rendu intégral est réservé aux adhérents