RechercheMarkTechPost6sem· 2 min de lecture

Guide : implémenter et comparer FedAvg et FedProx en apprentissage fédéré sur CIFAR-10 non-IID avec NVIDIA FLARE

Un guide technique publié récemment propose une comparaison concrète entre deux algorithmes d'apprentissage fédéré, FedAvg et FedProx, dans un environnement simulant des conditions réalistes de données hétérogènes. Le protocole s'appuie sur NVIDIA FLARE, le framework open-source de federated learning développé par NVIDIA, et utilise le jeu de données CIFAR-10, une référence en classification d'images à 10 catégories. L'expérience mobilise trois clients simulés entraînés sur cinq rounds de communication, avec un seul epoch local par round et un taux d'apprentissage de 0,01. Pour créer des distributions non homogènes de données, le tutoriel recourt à une partition de Dirichlet avec un paramètre alpha fixé à 0,3, ce qui génère un déséquilibre réaliste dans la répartition des étiquettes entre les différents clients, tel qu'on en observe dans des déploiements médicaux ou industriels réels. Le modèle utilisé est un petit réseau convolutif sans batch normalization, choix délibéré pour garantir la compatibilité du dictionnaire d'état avec l'agrégation FedAvg.

Cette comparaison illustre un défi central du federated learning : comment entraîner un modèle global performant lorsque les données locales de chaque participant sont très différentes les unes des autres. FedAvg, l'algorithme historique de McMahan et al. publié en 2017, agrège simplement les poids des modèles locaux, mais il peut diverger ou sous-performer lorsque les distributions sont trop hétérogènes. FedProx, son successeur plus robuste, introduit un terme de régularisation proximal contrôlé par le paramètre mu, qui pénalise les poids locaux s'éloignant trop du modèle global et stabilise ainsi la convergence en conditions non-IID. Visualiser l'évolution de la précision du modèle global sur plusieurs rounds permet de quantifier concrètement ce gain de stabilité, une information directement utile pour les équipes concevant des systèmes distribués en production.

L'apprentissage fédéré s'est imposé comme une réponse aux contraintes croissantes sur la confidentialité des données : plutôt que de centraliser des données sensibles, médicales, financières ou industrielles, chaque participant conserve ses données localement et n'envoie que les mises à jour de son modèle au serveur central. NVIDIA FLARE, lancé en 2021 et aujourd'hui largement utilisé dans le domaine de la santé via des consortiums hospitaliers, facilite ce type d'expérimentation grâce à une API de jobs structurée et un simulateur multi-clients intégré. La popularisation de tutoriels comparant FedAvg et FedProx sur des données hétérogènes répond à un besoin réel : la plupart des déploiements réels font face à des distributions non-IID, et choisir le bon algorithme d'agrégation peut faire la différence entre un modèle convergent et un entraînement instable. Les prochaines étapes naturelles incluent l'intégration de mécanismes de confidentialité différentielle ou l'extension à des architectures plus complexes comme les transformeurs.

Impact France/UE

L'apprentissage fédéré est directement pertinent pour les hôpitaux et entreprises européens soumis au RGPD, leur permettant d'entraîner des modèles collaboratifs sans centraliser de données sensibles.

Dans nos dossiers

NVIDIA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1NVIDIA AI Blog

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper

1 source

2MarkTechPost

TabPFN : comment l'apprentissage en contexte surpasse Random Forest et CatBoost sur les données tabulaires

TabPFN-2.5, un modèle de fondation pour données tabulaires développé par Prior Labs, s'impose comme un concurrent sérieux face aux références historiques du machine learning structuré que sont Random Forest, XGBoost et CatBoost. Contrairement à ces modèles entraînés spécifiquement sur chaque jeu de données, TabPFN est pré-entraîné sur des millions de tâches synthétiques générées à partir de processus causaux. Lors des tests comparatifs sur un jeu de données de classification binaire contenant 5 000 échantillons et 20 variables (dont 10 informatives et 5 redondantes), TabPFN surpasse les modèles à base d'arbres de décision en termes de précision tout en éliminant la phase d'entraînement itératif classique. Il obtient ses prédictions directement, sans ajustement des hyperparamètres, en s'appuyant uniquement sur ce qu'il a déjà appris. Ce changement de paradigme est significatif pour les praticiens du machine learning. Pendant des années, les modèles à arbres ont dominé les données tabulaires, la forme la plus répandue en entreprise, de la santé à la finance, car les réseaux de neurones profonds n'arrivaient pas à les battre de manière cohérente sur ce format. TabPFN-2.5 renverse cette tendance en appliquant le principe d'apprentissage en contexte aux données structurées, à l'image de ce que font les grands modèles de langage pour le texte. Il se montre compétitif face à des systèmes d'ensemble puissants comme AutoGluon, tout en réduisant drastiquement le temps et l'effort de mise en oeuvre. Pour les équipes data qui passent des heures à optimiser des pipelines ML, c'est une promesse concrète de gain de productivité. Les données tabulaires représentent la grande majorité des cas d'usage réels en machine learning industriel, un domaine longtemps considéré comme l'apanage des modèles classiques. L'essor des modèles de fondation généralistes, d'abord dans le langage, puis dans l'image, laissait entrevoir cette évolution vers le tabular, mais les tentatives précédentes restaient limitées en taille et en performance. TabPFN-2.5 franchit un cap en prenant en charge des jeux de données plus larges et plus complexes que ses versions antérieures. Prior Labs propose également une approche de distillation permettant de convertir les prédictions de TabPFN en modèles plus légers (réseaux de neurones ou ensembles d'arbres), préservant l'essentiel de la précision tout en accélérant l'inférence pour la production. La prochaine étape sera de valider ces résultats à grande échelle sur des benchmarks industriels diversifiés, mais la direction est claire : les modèles de fondation s'attaquent désormais au coeur du machine learning appliqué.

UEPrior Labs, entreprise allemande, porte cette avancée depuis l'UE, offrant aux équipes data européennes un outil réduisant significativement le temps de développement de pipelines ML sur données tabulaires.

RecherchePaper

1 source

3MarkTechPost

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper

1 source

4Amazon Science

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

Anthropic a présenté Turnstile, un petit proxy écrit en langage Rust destiné à résoudre un problème technique précis dans l'entraînement des modèles de langage par apprentissage par renforcement (RL). Pour progresser sur des tâches complexes et prolongées, comme écrire du code, naviguer sur un site web ou mener une recherche en plusieurs étapes, un modèle est encadré par un harnais logiciel qui lui permet d'appeler des outils, d'observer les résultats et de décider de l'étape suivante. L'entraînement RL consiste à faire tenter de nombreuses tâches au modèle, à noter chaque tentative, puis à ajuster ses paramètres vers les choix qui ont fonctionné. Le problème vient du fait que les modèles ne traitent pas le texte tel quel, mais sous forme de tokens, des unités numérotées par un tokenizer propre à chaque modèle. Un simple changement de mise en forme, un espace en trop ou une manière différente d'écrire un appel d'outil en JSON peut modifier les identifiants de tokens sans changer le texte apparent, un phénomène qu'Anthropic appelle la dérive de retokenisation ou la dérive du template de conversation. Turnstile s'installe entre le harnais de l'agent et le système qui fait tourner le modèle, et enregistre l'historique exact, token par token, de chaque requête au moment précis de sa génération, le seul instant où cette information est garantie exacte. Cette précision compte parce que les mathématiques du RL par gradient de politique ne fonctionnent correctement que si l'entraînement optimise le comportement du modèle par rapport au contexte réellement vu par la version du modèle qui a produit la tentative, appelée la politique comportementale. Si le contexte est légèrement redessiné lors de la relecture, le modèle est entraîné sur un contexte qu'il n'a jamais réellement rencontré, ce qui dégrade le signal d'apprentissage de façon souvent invisible, le modèle semblant continuer à progresser normalement. Le problème s'aggrave avec des harnais complexes, qui peuvent compacter d'anciens messages pour économiser du contexte, relancer un appel d'outil mal formé, créer des sous-agents puis fusionner leurs résultats, ou résumer l'historique en cours de route, autant d'opérations qui peuvent introduire un décalage entre ce que le modèle a vu et ce que l'entraîneur croit qu'il a vu. Turnstile exporte ces trajectoires token par token dans un format générique, indépendant de tout framework, compatible avec n'importe quelle pile d'entraînement RL existante. Anthropic affirme avoir utilisé cet outil pour de véritables campagnes d'entraînement, avec deux agents différents, un agent de codage purement textuel et un agent multimodal capable d'utiliser un ordinateur, qui ont tous deux progressé de façon régulière au fil de leurs sessions de RL, sans qu'aucune modification du harnais d'origine ne soit nécessaire. Cette publication s'inscrit dans un effort plus large de l'industrie pour fiabiliser l'entraînement des agents IA, à mesure que les tâches confiées aux modèles deviennent plus longues et plus complexes, et que la moindre incohérence dans les données d'entraînement peut se traduire par des gains de performance illusoires ou instables.

💬 Turnstile, c'est le genre d'outil qui ne fera jamais la une, mais qui règle un vrai bug de fond : quand ton harnais d'agent reformate un appel d'outil ou compacte l'historique, le modèle s'entraîne sur un contexte qu'il n'a jamais vu, et ça pourrit le RL sans que personne s'en aperçoive. Le fait qu'Anthropic sorte un proxy Rust juste pour ça montre à quel point l'entraînement des agents devient une affaire de plomberie fine, pas de nouvelles architectures. Ce genre de correction invisible en dit plus sur la maturité d'un labo que ses derniers benchmarks.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic