REDEEM
Apprentissage automatique résilient, décentralisé et respectueux de la vie privée
Aperçu
Un apprentissage automatique résilient, décentralisé et respectueux de la vie privée
Cédric Gouy-Pailler , Ingénieur Chercheur CEA
Sonia Ben Mokhtar, Directrice de recherche CNRS
Ce projet vise à explorer de nouvelles approches d’apprentissage distribuées résilientes, robustes aux bruits et attaques adverses et respectueuses de la vie privée. Ces approches distribuées doivent permettre d’aller au-delà de l’apprentissage fédéré actuel. D’un point de vue théorique, REDEEM vise à fournir des bases solides pour les approches proposées, et en particulier dans le cas où des protagonistes malveillants participeraient à la phase d’apprentissage, et avec l’objectif primordial d’assurer autant que possible la confidentialité des données. Au-delà des nouvelles approches de distribution de l’apprentissage, REDEEM vise également des implémentations efficaces, en offrant à la communauté des codes et des outils open-sources.
Mots clefs : Apprentissage automatique distribué ; Robustesse aux attaques ; apprentissage respectueux de la vie privée ; Résilience byzantine ; Optimisation distribuée ; Algorithmes de consensus en machine learning ; Grands modèles de langage.
Site web du projet : Project.REDEEM.fr
Les missions
Nos recherches
Spécifications et guide pour la conception de système décentralisé avec l’identification des menaces associées
Formaliser le cadre fondateur du projet avec l’identification des fonctions primaires à remplir par le système d’apprentissage (détection, classification, recommandation), la définition mathématique des contraintes potentielles existantes (communication, ressources de calcul), et l’explicitation d’un ensemble de propriétés ciblées liées à la robustesse, à la confidentialité, à la résilience et aux capacités de personnalisation des systèmes.
Aspects algorithmiques de l’apprentissage décentralisé dans un environnement sans adversaire
Étude de l’apprentissage décentralisé en se concentrant sur les aspects algorithmiques tout en supposant que les participants soient honnêtes. Ces investigations prendront en compte des spécificités telles qu’un environnement dynamique et hétérogène, des modèles de très grande taille et la personnalisation.
Apprentissage décentralisé attaqué
Étude des nouvelles attaques byzantines et attaques contre la confidentialité, ainsi que les algorithmes de mitigation dans un environnement distribué.
Gestion avancée des compromis
Envisager des algorithmes d’apprentissage avancés avec de nouvelles stratégies d’optimisation sur des modèles de grande taille et décentralisés dans des réseaux dynamiques et dans un environnement hostile subissant des attaques.
Le consortium
CEA, INRIA, CNRS, Ecole Polytechnique, LAMSADE
- Codes associés à des articles méthodologiques scientifiques
Bibliothèques open source - Jeux de données et benchmarks partagés pour assurer une visibilité maximale
- Documents techniques pour diffuser du code et jeux de données spécialisés
- Supports de communication tels que le site web et les réseaux sociaux
- Prototypes montrant l’utilisation des bibliothèques dans des cas d’usage décentralisés
- Démonstrateurs grand public
- Formation des étudiants à l’apprentissage automatique décentralisé
Le projet a le potentiel de créer un impact majeur sur la société : permettre aux utilisateurs de récupérer le contrôle de leurs données personnelles (souveraineté des données à la granularité des individus) – tout en bénéficiant des services avancés qui peuvent être dérivés du collectif. L’apprentissage distribué tel qu’envisagé dans REDEEM peut conduire à une réorganisation significative de l’économie des données (où les données ne sont plus partagées mais exploitées sans partage). Par conséquent, de nouvelles applications devraient apparaître.
Une communauté de 44 chercheurs, enseignements chercheurs et ingénieurs permanents, mobilisant en outre 15 doctorants, 8 post-doctorants et 6 ingénieurs de recherche contractuels.