Aller au contenu principal
Les agents RL passent du plantage au parkour en multipliant les couches du réseau
RechercheThe Decoder13sem· 1 min de lecture

Les agents RL passent du plantage au parkour en multipliant les couches du réseau

Source originale ↗·

Une équipe de chercheurs vient de démontrer que l'apprentissage par renforcement (RL) souffrait depuis des années d'un goulot d'étranglement insoupçonné : la profondeur des réseaux de neurones. En portant le nombre de couches jusqu'à 1 024, contre les 2 à 5 habituellement utilisées, ils ont obtenu des gains de performance allant de 2x à 50x — et vu des comportements entièrement inédits émerger spontanément chez leurs agents.

L'apprentissage par renforcement est la technique qui permet à des agents virtuels d'apprendre par essais et erreurs, en maximisant une récompense. C'est cette approche qui a produit les IA de jeux vidéo surhumaines d'OpenAI et DeepMind, et qui alimente aujourd'hui une partie de la recherche en robotique. Que de simples choix architecturaux aient bridé ses capacités pendant des décennies représente un signal fort : le potentiel du RL est loin d'être épuisé, et des gains massifs pourraient être accessibles sans changer les algorithmes fondamentaux.

L'expérience a été conduite avec un agent auto-supervisé — un paradigme où l'agent génère lui-même ses propres signaux d'apprentissage, sans étiquetage humain. À faible profondeur, les agents peinent à accomplir des tâches basiques de locomotion, trébuchant et s'effondrant. À mesure que les chercheurs empilent les couches vers 512 puis 1 024, les mêmes agents commencent à exécuter des enchaînements fluides évoquant du parkour — sauts, roulades, franchissements d'obstacles — sans que ces comportements aient été explicitement programmés.

Ces résultats relancent une question structurante pour le domaine : les lois d'échelle (scaling laws) qui ont révolutionné les grands modèles de langage s'appliquent-elles aussi à l'apprentissage par renforcement ? Si oui, augmenter la taille des réseaux RL pourrait devenir aussi systématiquement bénéfique que pour les LLM, ouvrant la voie à des agents incarnés bien plus capables dans des environnements physiques réels.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples

Une équipe de recherche de Databricks a publié des résultats montrant que les agents multi-étapes surpassent systématiquement les systèmes RAG classiques lorsque les questions nécessitent de croiser données structurées et contenu non structuré. Testés sur neuf tâches de connaissance d'entreprise, les agents multi-étapes affichent des gains de 20% ou plus sur le benchmark STaRK de Stanford, qui couvre trois domaines semi-structurés : les données produits Amazon, le Microsoft Academic Graph et une base de connaissances biomédicale. Sur ce dernier domaine, l'écart de performance atteint 38%. Pour s'assurer que ces gains ne s'expliquent pas simplement par la qualité du modèle sous-jacent, Databricks a réexécuté les baselines STaRK publiées en utilisant un modèle de fondation plus récent et plus puissant : ce modèle plus fort a quand même perdu face à l'agent multi-étapes, confirmant que le problème est architectural. Le problème fondamental des systèmes RAG à passage unique est leur incapacité à décomposer une requête hybride, c'est-à-dire une question qui mélange un filtre structuré précis avec une recherche sémantique ouverte. Une question telle que "Quels produits ont vu leurs ventes baisser ces trois derniers mois, et quels problèmes connexes remontent dans les avis clients ?" exige d'interroger simultanément un entrepôt SQL et des documents non structurés, puis de combiner les résultats. Un système RAG classique ne peut pas scinder cette requête, router chaque partie vers la bonne source de données et synthétiser le tout. Michael Bendersky, directeur de la recherche chez Databricks, résume ainsi la limite : "RAG fonctionne, mais ça ne passe pas à l'échelle. Si vous voulez comprendre pourquoi vos ventes baissent, il faut aider l'agent à voir les tables et les données commerciales. Votre pipeline RAG sera incompétent pour cette tâche." Pour répondre à ce problème, Databricks a conçu le Supervisor Agent, implémentation concrète de cette approche de recherche. Son architecture repose sur trois mécanismes : la décomposition parallèle des outils, où l'agent lance simultanément des requêtes SQL et des recherches vectorielles avant d'analyser les résultats combinés ; l'auto-correction, qui lui permet de détecter un échec de récupération, de reformuler la requête et d'emprunter un autre chemin, comme lorsqu'il exécute une jointure SQL pour trouver un auteur ayant exactement 115 publications sur un sujet précis ; et une configuration déclarative en langage naturel, qui permet de connecter n'importe quelle nouvelle source de données sans ré-entraînement. Ces travaux s'appuient sur les recherches antérieures de Databricks sur les retrievers instruits, qui avaient déjà amélioré la récupération sur données non structurées via des requêtes enrichies de métadonnées, et marquent une extension logique vers les sources relationnelles que les entreprises utilisent le plus au quotidien.

RecherchePaper
1 source
Routage KV stochastique : partage adaptatif du cache par couches
2Apple Machine Learning 

Routage KV stochastique : partage adaptatif du cache par couches

Des chercheurs ont publié une étude proposant une nouvelle méthode appelée « Stochastic KV Routing » pour réduire l'empreinte mémoire du cache clé-valeur (KV cache) utilisé lors de l'inférence des grands modèles de langage de type transformer. Cette technique s'attaque à l'un des principaux goulets d'étranglement du déploiement à grande échelle : le stockage des vecteurs K et V pour chaque couche du modèle, indispensables pour éviter de recalculer les représentations à chaque token généré. Plutôt que de compresser ou d'élaguer le cache selon l'axe temporel (les tokens passés), les auteurs explorent la dimension de profondeur, c'est-à-dire les couches du réseau. L'impact potentiel est direct sur les coûts d'infrastructure des fournisseurs de modèles : le KV cache peut représenter une part considérable de la mémoire GPU lors du service à haute charge, limitant le nombre de requêtes traitables en parallèle. En permettant un partage adaptatif du cache entre couches, certaines couches se révélant redondantes, cette approche ouvre la voie à une réduction significative de la mémoire sans dégradation substantielle des performances. La recherche sur l'efficacité de l'inférence est devenue un enjeu stratégique majeur depuis l'explosion de l'usage des LLM en production. La plupart des travaux récents se sont concentrés sur la compression temporelle (attention sparse, éviction de tokens), laissant la dimension de profondeur relativement inexploitée. Cette nouvelle direction pourrait compléter les techniques existantes de manière orthogonale, offrant aux opérateurs de modèles un levier supplémentaire pour optimiser leurs coûts de serving sans retraining.

RecherchePaper
1 source
3InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source
DeLM de Stanford réduit de 50 % les coûts des tâches multi-agents, sans orchestrateur central
4VentureBeat AI 

DeLM de Stanford réduit de 50 % les coûts des tâches multi-agents, sans orchestrateur central

Des chercheurs de Stanford ont publié un article de recherche présentant DeLM (Decentralized Language Model), un nouveau cadre pour les systèmes multi-agents qui abandonne le modèle centralisé dominant dans les frameworks d'IA actuels. Développé par Yuzhen Mao et Azalia Mirhoseini, DeLM remplace l'agent orchestrateur central par une architecture décentralisée reposant sur une base de connaissances partagée et une file d'attente de tâches. Concrètement, les agents travaillent en parallèle, lisent directement les résultats vérifiés de leurs pairs sous forme de "gists" (résumés compacts), et sélectionnent eux-mêmes les sous-tâches disponibles dans la file. Aucun agent principal ne collecte, filtre ou redistribue les informations. Selon les auteurs, cette approche réduit les coûts d'inférence de 50 % par rapport aux architectures centralisées classiques. Cette réduction de coût n'est pas un simple gain marginal : elle remet en question un postulat fondamental sur lequel reposent la plupart des frameworks multi-agents existants comme LangChain, AutoGen ou CrewAI. Dans les systèmes traditionnels, l'orchestrateur central devient rapidement un goulot d'étranglement lorsque le nombre de sous-tâches augmente. Il doit recevoir tous les rapports des sous-agents, décider quoi fusionner, quoi ignorer, puis redistribuer le contexte filtré, risquant à chaque étape de "diluer, omettre ou déformer" des informations utiles. Ce va-et-vient ralentit la coordination et contraint l'ensemble du système aux capacités d'un seul agent surchargé. DeLM contourne ce problème en permettant aux agents de construire directement sur le travail vérifié de leurs pairs, d'éviter les échecs déjà documentés et de ne récupérer les preuves détaillées que lorsqu'ils en ont besoin. L'essor des systèmes multi-agents en IA reflète une tendance de fond : face aux limites des modèles de langage individuels sur des tâches complexes et longues, l'industrie mise sur la décomposition parallèle du travail. Mais cette parallélisation a un coût en latence et en tokens que les équipes d'ingénierie peinent à contenir. Les travaux de Mao et Mirhoseini s'inscrivent dans une réflexion plus large sur l'architecture optimale pour des raisonnements à longue portée, notamment dans des scénarios de recherche d'information ou de résolution de problèmes multi-étapes. DeLM introduit également un mécanisme de vérification des gists avant leur partage : seuls les résultats validés entrent dans le contexte commun, limitant la propagation d'erreurs. Si ces résultats se confirment dans des benchmarks plus larges et des environnements de production, DeLM pourrait influencer la prochaine génération de frameworks agentiques, à un moment où les coûts d'inférence restent l'un des principaux freins au déploiement à grande échelle des systèmes d'IA autonomes.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic