Géné-Pi

Mathématiques des modèles génératifs

Aperçu

Claire Boyer, PR, Université Paris-Saclay

Le projet Géné-Pi projet vise à développer un cadre théorique unifié pour mieux comprendre et améliorer les architectures de deep learning de type Transformers et modèles de diffusion. L’objectif est ainsi d’accroître leur fiabilité, leur efficacité et leur applicabilité dans des contextes variés, notamment en apprentissage auto-supervisé, génération de données et modélisation contrainte par la physique.

Mots clefs : Transformer-based models, attention layers, diffusion-based generative models

Les missions

Nos recherches

Comprendre le rôle de l’optimisation et ses impacts statistiques des modèles profonds

Analyser comment les trajectoires d’optimisation (gradient descent, choix des hyperparamètres) induisent des biais implicites
qui influencent la généralisation et la robustesse des modèles.
Combiner outils de théorie statistique et d’optimisation pour étudier conjointement erreurs d’optimisation et erreurs
statistiques sur des modèles simplifiés mais représentatifs.

Élucider les mécanismes internes des Transformers

Comprendre comment les Transformers apprennent à extraire et structurer l’information, et identifier les situations où les
mécanismes d’attention échouent (entanglement des têtes).
Étudier des tâches statistiques contrôlées (régression multi-localisation, clustering, auto-supervision) et analyser les
minima locaux et dynamiques d’apprentissage afin de proposer des correctifs algorithmiques et architecturaux.

Relier Transformers et méthodes statistiques classiques de réduction de dimension

Montrer comment certaines architectures Transformer apprennent des représentations proches de méthodes classiques (PCA,
PLS), tout en offrant plus de flexibilité.
Adopter une vision continue des couches d’attention comme opérateurs agissant sur des distributions, et analyser leur
apprentissage par descente de gradient dans des cadres gaussiens et semi-gaussiens.

Déconstruire le “boîte noire” du score matching dans les modèles de diffusion

Expliquer pourquoi et comment les modèles de diffusion apprennent efficacement des lois complexes sans mémoriser
excessivement les données.
Étudier le rôle de la régularisation implicite induite par l’optimisation, analyser les lois d’échelle (scaling laws) et leur
lien avec la stabilité et la généralisation du score appris

Améliorer l’échantillonnage et intégrer des contraintes physiques dans les modèles génératifs

Rendre les modèles de diffusion plus efficaces, interprétables et adaptés à des données non euclidiennes, discrètes ou
gouvernées par des lois physiques.
Explorer des alternatives aux bruits gaussiens isotropes, développer des diffusions compatibles avec des structures
discrètes, et intégrer des contraintes issues d’EDP via des cadres théoriques fondés sur les noyaux.

Le consortium

Université Paris-Saclay, Inria, Sorbonne Université

Les attendus scientifiques

Les impacts sociétaux

Développement de compétences

Publications

Autres projets

MacLeOD

Apprentissage machine sur geometries et distributions

MadLearning

Mathématiques de l'apprentissage profond : De la théorie aux applications

MAGICALL

Mathématiques des modèles génératifs: une analyse interdisciplinaire des paysages de fonctions de perte

PERSNET

Structures PERsistantes dans les Réseaux Neuronaux

PRODIGE-AI

PRObability, ranDom matrIx theory, Geometry and gEneralization for generative-AI

TENSOR4ML

Méthodes TENSORielles pour maîtriser l'apprentissage automatique moderne

THEOREM

Théorie pour des modèles génératifs plus performants

Appel à chaires Attractivités

Le Programme de recherche PEPR IA ouvre son appel à chaires Attractivité, à destination de chercheurs juniors et seniors, avec pour principal critère un excellent parcours en recherche dans les thèmes du PEPR IA.

NNawaQ

NNawaQ (Neural Network Adequate Hardware Architecture for Quantization)

Package Python Keops

Package Python Keops pour les calculs tensoriels en (très) grande dimension (projet PDE-AI)

MPTorch

MPTorch, framework d’encapsulation construit sur PyTorch

FloPoCo

FloPoCo (Floating-Point Cores), générateur de noyaux arithmétiques majoritairement pour les FPGA (projet HOLIGRAIL)

CaBRNeT

CaBRNeT, une bibliothèque pour le développement et l'évaluation de modèles de raisonnement basé sur des cas simplifiés (projet SAIF)

SNN Software

SNN Software, un outil open-source pour le design SNN (projet EMERGENCES)

SDOT

SDOT, logiciel pour le transport optimal semi-discret

Lazylinop

Lazylinop (Lazy Linear Operator), un opérateur linéaire paresseux de haut niveau basé en Python (projet SHARP)

CAISAR

CAISAR, une plateforme de caractérisation de la sécurité et de l’intelligence artificielle robuste (projet SAIF)

P16

P16 ou développer, diffuser et maintenir un ensemble de bibliothèques souveraines pour l'IA

AIDGE

AIDGE ou la plateforme ouverte de développement en embarqué du projet DEEPGREEN

Jean-Zay

Jean Zay ou l'infrastructure nationale pour la communauté de recherche en IA

ADAPTING

Architectures adaptatives pour l'intelligence artificielle embarquée

Appels à chaire Choose France – CNRS AI Rising Talents (appel clos)

Appels à chaire Choose France - CNRS AI Rising Talents

Bourse CEA AI Rising Talents

Le programme CEA AI Rising Talents, vous offre une formidable opportunité de concrétiser vos idées et de diriger votre propre projet de recherche au bénéfice de l’industrie et de la société.