Aller au contenu principal
Guide : implémenter et comparer FedAvg et FedProx en apprentissage fédéré sur CIFAR-10 non-IID avec NVIDIA FLARE
RechercheMarkTechPost10h

Guide : implémenter et comparer FedAvg et FedProx en apprentissage fédéré sur CIFAR-10 non-IID avec NVIDIA FLARE

Résumé IASource uniqueImpact UE
Source originale ↗·

Un guide technique publié récemment propose une comparaison concrète entre deux algorithmes d'apprentissage fédéré, FedAvg et FedProx, dans un environnement simulant des conditions réalistes de données hétérogènes. Le protocole s'appuie sur NVIDIA FLARE, le framework open-source de federated learning développé par NVIDIA, et utilise le jeu de données CIFAR-10, une référence en classification d'images à 10 catégories. L'expérience mobilise trois clients simulés entraînés sur cinq rounds de communication, avec un seul epoch local par round et un taux d'apprentissage de 0,01. Pour créer des distributions non homogènes de données, le tutoriel recourt à une partition de Dirichlet avec un paramètre alpha fixé à 0,3, ce qui génère un déséquilibre réaliste dans la répartition des étiquettes entre les différents clients, tel qu'on en observe dans des déploiements médicaux ou industriels réels. Le modèle utilisé est un petit réseau convolutif sans batch normalization, choix délibéré pour garantir la compatibilité du dictionnaire d'état avec l'agrégation FedAvg.

Cette comparaison illustre un défi central du federated learning : comment entraîner un modèle global performant lorsque les données locales de chaque participant sont très différentes les unes des autres. FedAvg, l'algorithme historique de McMahan et al. publié en 2017, agrège simplement les poids des modèles locaux, mais il peut diverger ou sous-performer lorsque les distributions sont trop hétérogènes. FedProx, son successeur plus robuste, introduit un terme de régularisation proximal contrôlé par le paramètre mu, qui pénalise les poids locaux s'éloignant trop du modèle global et stabilise ainsi la convergence en conditions non-IID. Visualiser l'évolution de la précision du modèle global sur plusieurs rounds permet de quantifier concrètement ce gain de stabilité, une information directement utile pour les équipes concevant des systèmes distribués en production.

L'apprentissage fédéré s'est imposé comme une réponse aux contraintes croissantes sur la confidentialité des données : plutôt que de centraliser des données sensibles, médicales, financières ou industrielles, chaque participant conserve ses données localement et n'envoie que les mises à jour de son modèle au serveur central. NVIDIA FLARE, lancé en 2021 et aujourd'hui largement utilisé dans le domaine de la santé via des consortiums hospitaliers, facilite ce type d'expérimentation grâce à une API de jobs structurée et un simulateur multi-clients intégré. La popularisation de tutoriels comparant FedAvg et FedProx sur des données hétérogènes répond à un besoin réel : la plupart des déploiements réels font face à des distributions non-IID, et choisir le bon algorithme d'agrégation peut faire la différence entre un modèle convergent et un entraînement instable. Les prochaines étapes naturelles incluent l'intégration de mécanismes de confidentialité différentielle ou l'extension à des architectures plus complexes comme les transformeurs.

Impact France/UE

L'apprentissage fédéré est directement pertinent pour les hôpitaux et entreprises européens soumis au RGPD, leur permettant d'entraîner des modèles collaboratifs sans centraliser de données sensibles.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement
1NVIDIA AI Blog 

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper
1 source
2MarkTechPost 

TabPFN : comment l'apprentissage en contexte surpasse Random Forest et CatBoost sur les données tabulaires

TabPFN-2.5, un modèle de fondation pour données tabulaires développé par Prior Labs, s'impose comme un concurrent sérieux face aux références historiques du machine learning structuré que sont Random Forest, XGBoost et CatBoost. Contrairement à ces modèles entraînés spécifiquement sur chaque jeu de données, TabPFN est pré-entraîné sur des millions de tâches synthétiques générées à partir de processus causaux. Lors des tests comparatifs sur un jeu de données de classification binaire contenant 5 000 échantillons et 20 variables (dont 10 informatives et 5 redondantes), TabPFN surpasse les modèles à base d'arbres de décision en termes de précision tout en éliminant la phase d'entraînement itératif classique. Il obtient ses prédictions directement, sans ajustement des hyperparamètres, en s'appuyant uniquement sur ce qu'il a déjà appris. Ce changement de paradigme est significatif pour les praticiens du machine learning. Pendant des années, les modèles à arbres ont dominé les données tabulaires, la forme la plus répandue en entreprise, de la santé à la finance, car les réseaux de neurones profonds n'arrivaient pas à les battre de manière cohérente sur ce format. TabPFN-2.5 renverse cette tendance en appliquant le principe d'apprentissage en contexte aux données structurées, à l'image de ce que font les grands modèles de langage pour le texte. Il se montre compétitif face à des systèmes d'ensemble puissants comme AutoGluon, tout en réduisant drastiquement le temps et l'effort de mise en oeuvre. Pour les équipes data qui passent des heures à optimiser des pipelines ML, c'est une promesse concrète de gain de productivité. Les données tabulaires représentent la grande majorité des cas d'usage réels en machine learning industriel, un domaine longtemps considéré comme l'apanage des modèles classiques. L'essor des modèles de fondation généralistes, d'abord dans le langage, puis dans l'image, laissait entrevoir cette évolution vers le tabular, mais les tentatives précédentes restaient limitées en taille et en performance. TabPFN-2.5 franchit un cap en prenant en charge des jeux de données plus larges et plus complexes que ses versions antérieures. Prior Labs propose également une approche de distillation permettant de convertir les prédictions de TabPFN en modèles plus légers (réseaux de neurones ou ensembles d'arbres), préservant l'essentiel de la précision tout en accélérant l'inférence pour la production. La prochaine étape sera de valider ces résultats à grande échelle sur des benchmarks industriels diversifiés, mais la direction est claire : les modèles de fondation s'attaquent désormais au coeur du machine learning appliqué.

UEPrior Labs, entreprise allemande, porte cette avancée depuis l'UE, offrant aux équipes data européennes un outil réduisant significativement le temps de développement de pipelines ML sur données tabulaires.

RecherchePaper
1 source
NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle
3MarkTechPost 

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper
1 source
Notes complémentaires sur la délégation à l'IA et la fiabilité à long terme
4Microsoft Research 

Notes complémentaires sur la délégation à l'IA et la fiabilité à long terme

Une équipe de chercheurs vient de publier une étude intitulée "LLMs Corrupt Your Documents When You Delegate", qui examine la fiabilité des modèles de langage lorsqu'on leur confie des tâches longues et répétées sur des fichiers importants. Le protocole d'évaluation, baptisé DELEGATE-52, soumet les modèles à des séquences de transformations et d'inversions appliquées à des documents, des feuilles de calcul, du code ou des fichiers structurés, sans supervision humaine entre chaque étape. Les résultats sont significatifs : sur 20 itérations de délégation, les meilleurs modèles du marché affichent une dégradation de la fidélité sémantique comprise entre 19 et 34 %. Exception notable, les flux de travail en Python se montrent bien plus robustes, avec une dégradation inférieure à 1 % en moyenne. Les erreurs mesurées portent sur le contenu sémantique réel des artefacts, et non sur des différences de mise en forme ou de style. Ces chiffres interpellent, mais leur portée exacte mérite d'être précisée. La recherche ne mesure ni le taux de complétion des tâches, ni la satisfaction des utilisateurs : elle se concentre exclusivement sur l'intégrité du contenu sur la durée. Or, dans les environnements de production actuels, des mécanismes comme les boucles de vérification, l'orchestration multi-agents et les outils spécialisés par domaine permettent déjà d'atténuer ces effets. L'enjeu concret est ailleurs : les bonnes performances d'un modèle sur des tâches courtes ne garantissent pas une exécution fiable sur des workflows longs et peu supervisés, ce qui a des implications directes pour les entreprises qui automatisent des processus critiques impliquant des documents financiers, juridiques ou techniques. Ce travail s'inscrit dans un débat plus large sur le fossé entre les scores obtenus par les modèles sur des benchmarks standardisés et leur comportement réel dans des contextes professionnels complexes. L'objectif des chercheurs n'est pas de décourager le recours à l'IA dans les workflows métiers, mais d'identifier précisément les zones de fragilité qui nécessitent encore des efforts de recherche et d'ingénierie. DELEGATE-52 se veut un outil de diagnostic, une sorte de test de stress pour la délégation longue durée, et non une mesure globale des capacités des modèles. La prochaine étape pour l'industrie sera de concevoir des architectures d'agents capables de maintenir la cohérence sémantique sur de longues séquences d'actions, un problème ouvert qui conditionne la confiance que l'on peut raisonnablement accorder aux assistants IA autonomes.

UELes entreprises européennes automatisant des workflows documentaires critiques (juridiques, financiers, techniques) sont directement exposées à ce risque de dégradation sémantique cumulative dans leurs pipelines d'agents IA peu supervisés.

💬 20 itérations, 19 à 34% de dérive sémantique sur tes documents. Ce que je retiens surtout c'est le contraste avec les workflows Python, quasi intacts à moins de 1%, parce que le code ne tolère pas l'ambiguïté là où le texte laisse toujours une porte ouverte. Tant qu'on n'a pas résolu ça pour le non-structuré, je ne délègue pas un flux critique sans filet.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour