
Géné-Pi
Mathématiques des modèles génératifs
Aperçu
Claire Boyer, PR, Université Paris-Saclay
Le projet Géné-Pi projet vise à développer un cadre théorique unifié pour mieux comprendre et améliorer les architectures de deep learning de type Transformers et modèles de diffusion. L’objectif est ainsi d’accroître leur fiabilité, leur efficacité et leur applicabilité dans des contextes variés, notamment en apprentissage auto-supervisé, génération de données et modélisation contrainte par la physique.
Mots clefs : Transformer-based models, attention layers, diffusion-based generative models
Les missions
Nos recherches
Comprendre le rôle de l’optimisation et ses impacts statistiques des modèles profonds
Analyser comment les trajectoires d’optimisation (gradient descent, choix des hyperparamètres) induisent des biais implicites
qui influencent la généralisation et la robustesse des modèles.
Combiner outils de théorie statistique et d’optimisation pour étudier conjointement erreurs d’optimisation et erreurs
statistiques sur des modèles simplifiés mais représentatifs.
Élucider les mécanismes internes des Transformers
Comprendre comment les Transformers apprennent à extraire et structurer l’information, et identifier les situations où les
mécanismes d’attention échouent (entanglement des têtes).
Étudier des tâches statistiques contrôlées (régression multi-localisation, clustering, auto-supervision) et analyser les
minima locaux et dynamiques d’apprentissage afin de proposer des correctifs algorithmiques et architecturaux.
Relier Transformers et méthodes statistiques classiques de réduction de dimension
Montrer comment certaines architectures Transformer apprennent des représentations proches de méthodes classiques (PCA,
PLS), tout en offrant plus de flexibilité.
Adopter une vision continue des couches d’attention comme opérateurs agissant sur des distributions, et analyser leur
apprentissage par descente de gradient dans des cadres gaussiens et semi-gaussiens.
Déconstruire le “boîte noire” du score matching dans les modèles de diffusion
Expliquer pourquoi et comment les modèles de diffusion apprennent efficacement des lois complexes sans mémoriser
excessivement les données.
Étudier le rôle de la régularisation implicite induite par l’optimisation, analyser les lois d’échelle (scaling laws) et leur
lien avec la stabilité et la généralisation du score appris
Améliorer l’échantillonnage et intégrer des contraintes physiques dans les modèles génératifs
Rendre les modèles de diffusion plus efficaces, interprétables et adaptés à des données non euclidiennes, discrètes ou
gouvernées par des lois physiques.
Explorer des alternatives aux bruits gaussiens isotropes, développer des diffusions compatibles avec des structures
discrètes, et intégrer des contraintes issues d’EDP via des cadres théoriques fondés sur les noyaux.
Le consortium
Université Paris-Saclay, Inria, Sorbonne Université
- Des contributions valorisées via des articles dans les journaux et les conférences majeures du domaine
- La formation et le recrutement de jeunes scientifiques
- L’organisation d’une ou deux conférences internationales sur le sujet
- Faire avancer la compréhension fondamentale des modèles d’IA, et conforter l’école française en tant que leader dans ce domaine
- Une meilleure compréhension fondamentale des modèles d’IA, afin de les rendre plus explicables et plus fiables
- Une formation de jeunes scientifiques en particulier doctorant·e·s, et étudiant·e·s en master
- Le développement d’enseignement spécialisé sur ces thèmes niveau master/doctorat
Une communauté de 20 chercheurs, enseignements chercheurs et ingénieurs permanents, mobilisant en outre 3 doctorants, 2 post-doctorants et une dizaine de collaborateurs au fur et à mesure du projet.

Publications
Autres projets