
MadLearning
Mathématiques de l’apprentissage profond : De la théorie aux applications
Aperçu
François Malgouyres, professeur des universités, Institut de Mathématiques de Toulouse et Université de Toulouse
Le projet MadLearning explore la géométrie des réseaux de neurones, ainsi que son impact sur le paysage d’optimisation et sur la régularisation des fonctions apprises. Il analyse comment les propriétés de la fonction objectif influencent les trajectoires des algorithmes stochastiques, ainsi que celles de l’estimateur direct (« straight-through estimator »). Les résultats théoriques obtenus sont confrontés à la pratique et enrichissent la conception d’architectures State-Space Models (SSMs) performantes et efficientes, notamment pour des applications en vision par ordinateur et en modélisation de séries temporelles.
Mots clefs : Géométrie des réseaux de neurones, Paysage d’optimisation, Régularisation implicite, Algorithme de gradient stochastique, Estimateur direct, State-Space Models, Réseaux de neurones quantifiés
Les missions
Nos recherches
Etude géométrique des réseaux de neurones
Etudier la dimension locale de l’image par un réseau de neurones d’un échantillon, lorsque les paramètres du réseau varient. Cette dimension locale permet de caractériser à la fois la régularité de la fonction apprise et la géométrie de la fonction objectif.
Analyser cette dimension locale pour différentes architectures, telles que les State-Space Models (SSMs), les Transformers et les ResNet.
Mettre en évidence les propriétés spécifiques des réseaux de neurones présentant une faible dimension locale.
Etude d’algorithmes stochastiques
Etudier le comportement de différents algorithmes stochastiques lorsque la fonction objectif présente des structures variées, notamment des vallées plates dont le fond est composé de minimiseurs locaux.
Etude de l’estimateur direct (le « Straight-Through-Estimator »)
L’estimateur direct (« straight-through estimator ») est l’algorithme privilégié pour l’optimisation des poids des réseaux de neurones lorsque ceux-ci sont contraints à des valeurs quantifiées. Cette approche est essentielle pour concevoir des modèles efficients et/ou embarquables. Pourtant, ses performances et son comportement restent mal compris.
Analyser cet estimateur sous différentes hypothèses concernant les propriétés de la fonction objectif, afin d’en éclairer les mécanismes.
Application aux SSMs
Les « State-Space Models » (SSMs) sont des architectures de réseaux de neurones permettent de résoudre certaines tâches avec une efficacité supérieure aux architectures concurrentes, tout en présentant une complexité algorithmique réduite.
Adapter cette architecture à des applications en vision par ordinateur et en modélisation et traitement de séries temporelles.
Le consortium
Université de Toulouse (UT), Ecole d’Economie et de science sociale de Toulouse (TSE), Université Grenoble Alpes (UGA), CNRS, Université de Lille, IRT Saint-Exupéry, Brown university
- Les résultats obtenus faciliteront le choix et la conception d’architectures de réseaux de neurones adaptées à des applications ciblées.
- Ils faciliteront le choix et la conception des algorithmes et de leurs paramètres.
- Ils contribueront à une meilleure compréhension des forces et limites de l’estimateur direct. Cela permettra non seulement de l’utiliser de manière plus judicieuse, mais aussi d’y apporter des améliorations.
- Le projet introduira des architectures de State-Space Model (SSM) nouvelles, ainsi que les méthodes permettant leur construction.
Le projet MadLearning améliorera la compréhension de l’impact des choix d’architectures et d’algorithmes sur les performances de l’apprentissage. Ce faisant, il facilitera la construction d’IA de nouvelle génération, performantes et efficientes.
Une communauté d’une dizaine de chercheurs, enseignants-chercheurs et ingénieurs permanents, mobilisant en outre 4 doctorants et 1 post-doctorant au fur et à mesure du projet.

Publications
Autres projets