Rencontre avec un Chief Data Scientist

Dès 2014 Intelligences Economiques s’était plongé dans la révolution Big Data. Nous avons retrouvé Khalid Mehl, Chief Data Scientist, et nous lui avons proposé de faire un nouvel « état des lieux » sur ce phénomène.

Il y a deux années, vous avez pu intervenir sur ce blog. Vous étiez alors en poste dans le cabinet de conseil 55. Où en êtes-vous aujourd’hui ?

Je suis actuellement chez Mediabong en tant que Chief Data Scientist, une startup Internationale spécialisée dans la publicité vidéo. La particularité de Mediabong est de proposer un modèle économique basé sur la performance. L’annonceur ne paye que pour les internautes qui ont accordé suffisamment d’attention à leurs vidéos publicitaires.

Ce choix stratégique nous pousse à optimiser nos solutions de diffusion pour ne cibler que les utilisateurs qui seraient potentiellement intéressés par une campagne publicitaire. Pour y parvenir, nous collectons des millions d’événements par heure dans nos bases de données non relationnelles du type Cassandra ou ElasticSearch. Mon équipe de Data-scientists analyse ces données et développe des algorithmes d’apprentissage pour prédire l’intérêt que peut représenter une vidéo publicitaire à un internaute. Le volume de données est tel qu’il faut sans cesse travailler sur l’optimisation de nos scripts et sur le dimensionnement de l’infrastructure.

Votre travail et, plus globalement, celui du Data Scientist a-t-il évolué en deux ans ?

Les Data-scientists ont vu certains langages et outils s’imposer tels que Python, Spark, Jupyter, Scikit-learn et Pandas. Leurs points communs, c’est qu’ils offrent à la fois la souplesse indispensable pour l’exploration et la fiabilité nécessaire pour la mise en production.

Je crois que la vraie révolution n’est pas du côté outil, mais dans les organisations. Le CDS (Chief Data Scientist) est désormais considéré au même titre que le CTO, il a gagné en autonomie et en liberté. Grâce à cet équilibre, les CDSs et CTOs ont apporté davantage d’agilité aux processus de mise en production, les Data-Scientists ont donc la possibilité d’affiner leurs modèles plus rapidement en faisant plus d’itérations. Une autre tendance que j’ai remarqué, c’est qu’il y a de plus en plus de Data-scientists qui se spécialisent par discipline (Vision, Traitement du Language,…) ou par secteur (Médical, Bancaire, Publicitaire,…), l’idée étant d’apporter des solutions de plus en plus précises.

Selon vous, la France est-elle si dépassée qu’on le dit sur sa compréhension et son adaptation aux enjeux du Big Data ?

Je ne pense pas qu’on soit dépassé, surtout en ce qui concerne les startups qui ont mis le Big-data au cœur de leurs stratégies et ont investi sur les bons profils. En France, on a la chance d’avoir un système éducatif capable de produire des Data-scientists d’un bon niveau. C’est pour ça que des géants tel que Google ou Facebook sont venus ouvrir leurs R&D en région parisienne. Il y a peut-être plus de retard du côté des grandes entreprises, car souvent l’intégration du Big-data et de la Data-science se fait plus difficilement du fait qu’ils remettent en causes les frontières entre les différents pôles et services.

Interview réalisé par Christophe Rohel