Ouverture d’une chaire de sciences des données au Collège de France

En janvier 2018, une chaire de Sciences des données a été ouverte au Collège de France par Stéphane Mallat, chercheur français qui avait mis au point en 1987 un algorithme à l’origine du futur format JPEG2000 avant de fonder une start-up produisant des puces électroniques pour TV qui permettaient d’améliorer la résolution de l’image (production d’un image haute résolution à partir d’un signal standard), puis de faire des recherches sur les algorithmes d’apprentissage profond pour des problèmes liés à la reconnaissance automatique d’images.

Dans une interview pour le journal La recherche¹, il explique les raisons de la création de sa chaire au Collège de France et donne des indications sur le contenu des cours qu’il y donne.

Pour lui, il était important que le nom de sa chaire soit « Sciences des données » au pluriel, car il s’agit d’un champ de recherche multidisciplinaire. En effet, bien que les outils utilisés soient toujours les mêmes (mathématiques appliquées, informatique et IA, théorie de l’information etc.), les jeux de données traités concernent toutes sortes de sciences (physique, biologie, sciences cognitives, économie, sciences sociales, etc.). Or chacune de ces sciences ont leur propre manière d’aborder le problème des big data, ce qui fait des sciences des données un domaine massivement pluridisciplinaire. D’ailleurs, Stéphane Mallat soutient que l’émergence de cette discipline n’est pas due à une nécessité scientifique, mais plutôt à une pression sociale et universitaire, puisque ces méthodes sont tout simplement en train de révolutionner nos sociétés en profondeur (un peu comme les chaires d’informatique se sont imposées petit à petit dans les universités, cinquante ans plus tôt). En fait, cette pression est telle que Stéphane Mallat travaille actuellement à l’ouverture d’une autre chaire de sciences des données à l’Ecole Normale Supérieure. Du coup, comme le domaine commence tout juste à cristalliser, le principal objectif de sa chaire au Collège de France sera de créer un vocabulaire commun, utilisable par les tenants de toutes les disciplines scientifiques concernées, pour traiter des problèmes liés aux données de grande dimension. Autrement dit, de poser les bases de cette nouvelle science par la création d’un vocabulaire qui lui est propre.

Historiquement, si on veut comprendre d’où vient ce domaine émergent, c’est par les biais de l’accumulation des données (big data) et de l’augmentation de la puissance de calcul que les maths appliqués et l’informatique se sont rencontrés pour donner naissance au machine learning. Parce qu’historiquement, on a d’abord été capable de stocker un grand nombre de données, avant de savoir ce qu’on pourrait en faire. Globalement, les sciences des données sont utilisées pour atteindre deux types d’objectifs : la modélisation d’un jeu de données (pour générer des données nouvelles, compresser des données, reconstruire ou améliorer la qualité d’une image etc.) et la prédiction (qui consiste à donner du sens à un amas de données). Actuellement, les techniques à base de réseaux de neurones profonds fonctionnent bien pour ces utilisations, mais on comprend mal pourquoi. Il y a donc un domaine entier de recherche à ce niveau, qui devrait permettre de les rendre plus fiables pour les applications critiques comme la médecine (diagnostic médical) ou la conduite autonome. Les autres axes de recherche concernent la réduction du nombre de dimensions des problèmes en découvrant et utilisant des hiérarchies multi-échelles (observation des données à différentes échelles) et des symétries (invariances) dans les jeux de données traités.

Et du fait qu’on a d’une part des entrepôts de données et d’autre part tout un arsenal de maths appliquées à utiliser, l’une des particularités de ce domaine est qu’il est à la fois théorique et expérimental. Ce sont en effet, d’après Stéphane Mallat, des approches empiriques et des intuitions remarquables de plusieurs chercheurs et ingénieurs que sont nés les récents et foudroyants progrès que l’on connaît dans les techniques de reconnaissance visuelle et vocale, de traduction automatique ou encore dans les jeux de go ou des échecs. Et c’est pour lui la recherche expérimentale dans ce domaine qui fait émerger de nouveaux problèmes mathématiques ; et c’est donc pourquoi cette correspondance maths et application est au cœur de son cours.

Notes

1■ La recherche, février 2018

Ouverture d’une chaire de sciences des données au Collège de France

Articles +++

Laisser un commentaire Annuler la réponse