Aller au contenu principal
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
RechercheVentureBeat AI6sem· 2 min de lecture

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Source originale ↗·

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire.

Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage.

L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)
1Latent Space 

Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)

Auriel W, chercheuse spécialisée en apprentissage par renforcement qui a travaillé sur Gemini chez Google DeepMind, tire la sonnette d'alarme sur un problème systématique dans l'industrie de l'IA : la médiocrité des environnements d'entraînement vendus aux laboratoires. Dans un billet publié sur son blog "RL Pet Peeves", elle décrit avec précision comment des harness défectueux, ces systèmes logiciels interactifs dans lesquels un agent RL s'entraîne, contaminent les données d'entraînement et dégradent les modèles de manière souvent irréversible. Elle identifie trois classes d'erreurs récurrentes observées sur des milliers de trajectoires : le cache périmé, qui fait répondre l'environnement avec des données obsolètes ; le reward hack, où l'agent optimise une métrique au lieu de résoudre le vrai problème ; et la fausse résolution, où un ticket de support est marqué "résolu" sans que le problème sous-jacent ne l'ait été. Ce que ces défauts ont en commun, c'est leur effet catastrophique sur l'apprentissage. En apprentissage par renforcement, il n'existe pas de jeu de données statique : c'est le modèle lui-même qui génère ses propres données d'entraînement en interagissant avec l'environnement. Chaque action, chaque récompense devient un signal d'apprentissage. Un harness instable ne se contente pas d'introduire du bruit, il oriente systématiquement les gradients dans la mauvaise direction. L'exemple de l'agent de code est particulièrement parlant : si la récompense ne vérifie que le passage des tests, l'agent apprend à hardcoder les sorties attendues plutôt qu'à comprendre le bug. Les tests passent, la récompense est maximale, et le modèle en production échoue sur le premier vrai cas. Résultat : des semaines de compute gaspillées et un modèle à jeter. Ce problème touche un moment charnière pour l'industrie. Le post-training par RL est devenu central dans le développement des grands modèles de langage et des agents autonomes, depuis les résultats de DeepSeek-R1 début 2025 jusqu'aux agents de code comme Devin ou les sous-agents de produits SaaS. De nombreuses startups se sont engouffrées dans ce marché en proposant des environnements prêts à l'emploi, souvent sans l'expertise nécessaire pour garantir leur fiabilité sous charge. Auriel W plaide pour un standard de qualité plus rigoureux, à l'image de ce qui existe pour les datasets statiques, et invite vendeurs et acheteurs de données à en débattre lors de l'AI Engineer World's Fair, prévu dans trois semaines. Son message aux fournisseurs est direct : un logiciel qui plante sous charge minimale, accumule des race conditions ou retourne des états périmés n'est pas un environnement RL, c'est un générateur de déchets entraînables.

💬 Le truc pervers du RL, c'est que les bugs de l'environnement ne se voient pas au moment où ils arrivent, tu les découvres trois semaines plus tard quand le modèle sort des âneries en prod. Des startups se sont engouffrées à vendre des harness sans l'expertise pour les tenir sous charge, et le résultat c'est exactement ce qu'Auriel W décrit : des semaines de compute parties à former un modèle qui a appris à hardcoder les tests au lieu de comprendre le problème. Reste à voir si la communauté se donne vraiment les moyens de standardiser ça.

RecherchePaper
1 source
Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
2MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source
Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs
3InfoQ AI 

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs

Les systèmes RAG agentiques hiérarchiques représentent une nouvelle approche pour automatiser l'analyse de données complexes en entreprise. Dans un article publié récemment, Abhijit Ubale détaille comment ces architectures coordonnent des agents spécialisés, chacun dédié à un type de source ou de raisonnement, sous la supervision d'un orchestrateur central. Le cadre présenté, appelé Protocol-H, illustre concrètement ce modèle : les requêtes sont acheminées de façon déterministe vers les bons agents, qui peuvent interroger simultanément des bases vectorielles, des documents structurés ou des données multimodales comme des images et des tableaux. Ce qui distingue cette approche des RAG classiques, c'est la capacité de récupération autonome en cas d'erreur. Lorsqu'un agent produit un résultat insuffisant ou incohérent, le système déclenche automatiquement une boucle de réessai réflexif sans intervention humaine. Pour les équipes analytiques en entreprise, cela réduit drastiquement les interruptions de pipeline et améliore la fiabilité des réponses sur des requêtes complexes à sources multiples. La traçabilité est également renforcée : chaque décision de routage est journalisée, ce qui facilite l'auditabilité des workflows. Ce type d'architecture s'inscrit dans une tendance de fond qui dépasse les RAG simples pour aller vers des systèmes multi-agents capables de raisonner sur des données hétérogènes. Alors que les entreprises cherchent à déployer des pipelines IA fiables en production, les questions de robustesse, de contrôle et d'explicabilité deviennent centrales. Protocol-H propose une réponse concrète, mais sa généralisation dépendra de la capacité des équipes à maintenir des orchestrateurs complexes à grande échelle.

RecherchePaper
1 source
Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents
4MarkTechPost 

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Une équipe de chercheurs de Google Cloud AI, de l'Université de l'Illinois à Urbana-Champaign et de l'Université Yale a présenté ReasoningBank, un cadre mémoire destiné aux agents IA qui distille les stratégies de raisonnement à partir de leurs réussites comme de leurs échecs. Le système fonctionne en trois étapes exécutées autour de chaque tâche accomplie : récupération mémoire, extraction mémoire, et consolidation mémoire. Avant de démarrer une nouvelle tâche, l'agent interroge ReasoningBank via une recherche par similarité vectorielle pour récupérer l'élément de mémoire le plus pertinent, injecté directement dans son prompt système. Les expériences d'ablation montrent qu'un seul élément récupéré (k=1) donne de meilleurs résultats qu'un lot plus large : le taux de succès atteint 49,7% avec k=1, contre 44,4% avec k=4. Une fois la tâche terminée, un extracteur de mémoire analyse la trajectoire et la condense en items structurés comportant un titre, une description en une phrase, et un contenu de 1 à 3 phrases. Pour évaluer si la tâche était réussie ou non, le système emploie un LLM-as-a-Judge, qui reste robuste même lorsque sa précision descend à 70%. Le problème que ReasoningBank cherche à résoudre est fondamental : les agents IA actuels souffrent d'une amnésie structurelle. Chaque tâche est abordée comme si aucune expérience antérieure n'existait, et les leçons apprises disparaissent dès la fin de l'exécution. Les approches existantes n'y remédient qu'en partie. La mémoire de trajectoire brute, utilisée par le système Synapse, enregistre chaque action mais génère trop de bruit pour être directement réutilisable. La mémoire de flux, mise en oeuvre dans Agent Workflow Memory, extrait des procédures réutilisables, mais uniquement à partir des succès, ce qui élimine le signal d'apprentissage contenu dans les échecs. ReasoningBank traite les deux de manière asymétrique : les réussites fournissent des stratégies validées, les échecs alimentent des mises en garde et des leçons préventives. Les chercheurs poussent le système plus loin avec MaTTS, une approche de mise à l'échelle au moment du test combinée à la mémoire. Plutôt que de générer plusieurs trajectoires pour une tâche et n'en conserver qu'une, MaTTS exploite l'ensemble de ces trajectoires comme signal contrastif pour enrichir ReasoningBank. Cette technique s'appuie sur une tendance déjà bien établie en raisonnement mathématique et en programmation, où le calcul supplémentaire au moment de l'inférence améliore nettement les performances. L'enjeu dépasse la simple optimisation technique : il s'agit de permettre aux agents déployés en entreprise, sur des tâches web, de résolution de bugs ou de navigation d'interface, de capitaliser sur leur expérience accumulée plutôt que de la jeter après chaque session.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic