Aller au contenu principal
RechercheVentureBeat AI4sem

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples

Résumé IASource uniqueImpact UE
Source originale ↗·

Une équipe de recherche de Databricks a publié des résultats montrant que les agents multi-étapes surpassent systématiquement les systèmes RAG classiques lorsque les questions nécessitent de croiser données structurées et contenu non structuré. Testés sur neuf tâches de connaissance d'entreprise, les agents multi-étapes affichent des gains de 20% ou plus sur le benchmark STaRK de Stanford, qui couvre trois domaines semi-structurés : les données produits Amazon, le Microsoft Academic Graph et une base de connaissances biomédicale. Sur ce dernier domaine, l'écart de performance atteint 38%. Pour s'assurer que ces gains ne s'expliquent pas simplement par la qualité du modèle sous-jacent, Databricks a réexécuté les baselines STaRK publiées en utilisant un modèle de fondation plus récent et plus puissant : ce modèle plus fort a quand même perdu face à l'agent multi-étapes, confirmant que le problème est architectural.

Le problème fondamental des systèmes RAG à passage unique est leur incapacité à décomposer une requête hybride, c'est-à-dire une question qui mélange un filtre structuré précis avec une recherche sémantique ouverte. Une question telle que "Quels produits ont vu leurs ventes baisser ces trois derniers mois, et quels problèmes connexes remontent dans les avis clients ?" exige d'interroger simultanément un entrepôt SQL et des documents non structurés, puis de combiner les résultats. Un système RAG classique ne peut pas scinder cette requête, router chaque partie vers la bonne source de données et synthétiser le tout. Michael Bendersky, directeur de la recherche chez Databricks, résume ainsi la limite : "RAG fonctionne, mais ça ne passe pas à l'échelle. Si vous voulez comprendre pourquoi vos ventes baissent, il faut aider l'agent à voir les tables et les données commerciales. Votre pipeline RAG sera incompétent pour cette tâche."

Pour répondre à ce problème, Databricks a conçu le Supervisor Agent, implémentation concrète de cette approche de recherche. Son architecture repose sur trois mécanismes : la décomposition parallèle des outils, où l'agent lance simultanément des requêtes SQL et des recherches vectorielles avant d'analyser les résultats combinés ; l'auto-correction, qui lui permet de détecter un échec de récupération, de reformuler la requête et d'emprunter un autre chemin, comme lorsqu'il exécute une jointure SQL pour trouver un auteur ayant exactement 115 publications sur un sujet précis ; et une configuration déclarative en langage naturel, qui permet de connecter n'importe quelle nouvelle source de données sans ré-entraînement. Ces travaux s'appuient sur les recherches antérieures de Databricks sur les retrievers instruits, qui avaient déjà amélioré la récupération sur données non structurées via des requêtes enrichies de métadonnées, et marquent une extension logique vers les sources relationnelles que les entreprises utilisent le plus au quotidien.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?
1VentureBeat AI 

Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?

Des chercheurs de l'université de Stanford ont publié une étude qui remet en cause l'un des dogmes les plus répandus dans le développement IA en entreprise : l'idée que les systèmes multi-agents seraient intrinsèquement supérieurs aux architectures à agent unique pour les tâches complexes. Menée par Dat Tran et Douwe Kiela, la recherche a soumis les deux types d'architectures à des tâches de raisonnement en chaîne ("multi-hop reasoning"), c'est-à-dire des problèmes nécessitant de relier plusieurs informations disparates pour parvenir à une conclusion. Le protocole clé : imposer un budget identique de "tokens de réflexion", les tokens utilisés exclusivement pour le raisonnement intermédiaire, hors prompt initial et réponse finale. Résultat : dans la majorité des cas, un agent unique dispose du même budget surpasse ou égale un système multi-agents. L'enjeu est considérable pour les équipes d'ingénierie qui investissent massivement dans des architectures complexes. Les systèmes multi-agents, qu'il s'agisse d'agents planificateurs, de systèmes en débat ou d'essaims de modèles, génèrent des traces de raisonnement plus longues et multiplient les appels LLM, consommant mécaniquement davantage de ressources. Le problème soulevé par Stanford est que la plupart des comparaisons publiées jusqu'ici n'étaient pas à budget égal : les gains affichés par le multi-agent reflétaient souvent une simple dépense de calcul supplémentaire, et non un avantage architectural réel. Autrement dit, les entreprises pourraient payer une "taxe essaim" sans bénéfice net. La seule situation où le multi-agent conserve un avantage légitime est celle où le contexte d'un agent unique devient trop long ou corrompu, atteignant une limite physique. Pour aller plus loin, les chercheurs ont introduit une technique baptisée SAS-L (single-agent system with longer thinking), conçue pour corriger un comportement fréquent : les agents uniques abandonnent parfois leur raisonnement interne prématurément, laissant du budget de calcul inexploité. La solution proposée est purement structurelle, sans surcoût architectural : reformuler le prompt pour encourager explicitement le modèle à dépenser son budget disponible en analyse pré-réponse, en identifiant les ambiguïtés et les hypothèses intermédiaires avant de conclure. Cette approche s'inscrit dans une tendance de fond qui pousse le domaine à reconsidérer la complexité comme valeur en soi. Alors que les frameworks multi-agents prolifèrent et que les coûts d'inférence restent élevés, Stanford offre un argument empirique solide pour privilégier la simplicité, et ne recourir à l'orchestration multi-agents qu'une fois le plafond de l'agent unique véritablement atteint.

UELes équipes d'ingénierie en France et en Europe qui déploient des systèmes multi-agents peuvent directement réduire leurs coûts d'inférence en simplifiant leurs architectures, en s'appuyant sur les conclusions empiriques de cette étude pour justifier ce choix en interne.

RecherchePaper
1 source
2VentureBeat AI 

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Des chercheurs de Meta et de plusieurs universités ont présenté un nouveau cadre d'agents autonomes baptisé "hyperagents", conçu pour surmonter les limites des systèmes d'IA auto-améliorants actuels. Contrairement aux architectures existantes, comme la Darwin Gödel Machine (DGM) de Sakana AI, qui ne fonctionnent efficacement que sur des tâches de programmation, les hyperagents peuvent réécrire et optimiser leur propre logique de résolution de problèmes dans des domaines non techniques comme la robotique, l'analyse documentaire ou la revue d'articles scientifiques. Le système est dit "entièrement autoréférentiel" : il peut analyser, évaluer et modifier n'importe quelle partie de lui-même sans contraintes liées à sa configuration initiale. Les hyperagents inventent de façon autonome des capacités génériques comme la mémoire persistante ou le suivi automatisé des performances, sans intervention humaine. L'enjeu est considérable pour les entreprises qui cherchent à déployer des agents IA dans des environnements de production réels, où les tâches sont imprévisibles et variables. Jusqu'ici, les systèmes auto-améliorants étaient bridés par un "meta-agent" statique, conçu par des ingénieurs humains et incapable d'évoluer plus vite que ces derniers ne pouvaient le maintenir. Jenny Zhang, co-auteure de l'article, résume le problème ainsi : "Chaque fois que quelque chose change ou se casse, une personne doit intervenir pour mettre à jour les règles ou la logique." Les hyperagents brisent ce "mur de maintenance" en découplant la capacité à améliorer les tâches de la capacité à modifier le code sous-jacent, deux compétences fondamentalement distinctes. Le résultat est un système qui non seulement s'améliore sur les tâches, mais optimise également le cycle d'auto-amélioration lui-même, accélérant les progrès de façon exponentielle avec moins de prompt engineering manuel. Ce travail s'inscrit dans une course plus large à l'automatisation de l'ingénierie des agents IA, un domaine en pleine effervescence depuis les succès de DGM sur les benchmarks de programmation en 2025. La DGM avait démontré qu'une amélioration récursive et ouverte était techniquement réalisable, mais uniquement lorsque la tâche elle-même était du code. Meta franchit une étape supplémentaire en généralisant ce principe à des domaines où l'évaluation des performances et la réécriture du comportement requièrent des compétences radicalement différentes, comme l'analyse textuelle subjective ou l'exploration de données métier. Si les hyperagents tiennent leurs promesses à l'échelle, ils pourraient réduire drastiquement la dépendance aux équipes d'ingénierie spécialisées pour adapter les agents à chaque nouveau contexte, ouvrant la voie à des systèmes véritablement capables de s'adapter seuls aux environnements d'entreprise en constante évolution.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
3MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
4VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour