Aller au contenu principal
RechercheVentureBeat AI6sem

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples

Résumé IASource uniqueImpact UE
Source originale ↗·

Une équipe de recherche de Databricks a publié des résultats montrant que les agents multi-étapes surpassent systématiquement les systèmes RAG classiques lorsque les questions nécessitent de croiser données structurées et contenu non structuré. Testés sur neuf tâches de connaissance d'entreprise, les agents multi-étapes affichent des gains de 20% ou plus sur le benchmark STaRK de Stanford, qui couvre trois domaines semi-structurés : les données produits Amazon, le Microsoft Academic Graph et une base de connaissances biomédicale. Sur ce dernier domaine, l'écart de performance atteint 38%. Pour s'assurer que ces gains ne s'expliquent pas simplement par la qualité du modèle sous-jacent, Databricks a réexécuté les baselines STaRK publiées en utilisant un modèle de fondation plus récent et plus puissant : ce modèle plus fort a quand même perdu face à l'agent multi-étapes, confirmant que le problème est architectural.

Le problème fondamental des systèmes RAG à passage unique est leur incapacité à décomposer une requête hybride, c'est-à-dire une question qui mélange un filtre structuré précis avec une recherche sémantique ouverte. Une question telle que "Quels produits ont vu leurs ventes baisser ces trois derniers mois, et quels problèmes connexes remontent dans les avis clients ?" exige d'interroger simultanément un entrepôt SQL et des documents non structurés, puis de combiner les résultats. Un système RAG classique ne peut pas scinder cette requête, router chaque partie vers la bonne source de données et synthétiser le tout. Michael Bendersky, directeur de la recherche chez Databricks, résume ainsi la limite : "RAG fonctionne, mais ça ne passe pas à l'échelle. Si vous voulez comprendre pourquoi vos ventes baissent, il faut aider l'agent à voir les tables et les données commerciales. Votre pipeline RAG sera incompétent pour cette tâche."

Pour répondre à ce problème, Databricks a conçu le Supervisor Agent, implémentation concrète de cette approche de recherche. Son architecture repose sur trois mécanismes : la décomposition parallèle des outils, où l'agent lance simultanément des requêtes SQL et des recherches vectorielles avant d'analyser les résultats combinés ; l'auto-correction, qui lui permet de détecter un échec de récupération, de reformuler la requête et d'emprunter un autre chemin, comme lorsqu'il exécute une jointure SQL pour trouver un auteur ayant exactement 115 publications sur un sujet précis ; et une configuration déclarative en langage naturel, qui permet de connecter n'importe quelle nouvelle source de données sans ré-entraînement. Ces travaux s'appuient sur les recherches antérieures de Databricks sur les retrievers instruits, qui avaient déjà amélioré la récupération sur données non structurées via des requêtes enrichies de métadonnées, et marquent une extension logique vers les sources relationnelles que les entreprises utilisent le plus au quotidien.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?
1VentureBeat AI 

Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?

Des chercheurs de l'université de Stanford ont publié une étude qui remet en cause l'un des dogmes les plus répandus dans le développement IA en entreprise : l'idée que les systèmes multi-agents seraient intrinsèquement supérieurs aux architectures à agent unique pour les tâches complexes. Menée par Dat Tran et Douwe Kiela, la recherche a soumis les deux types d'architectures à des tâches de raisonnement en chaîne ("multi-hop reasoning"), c'est-à-dire des problèmes nécessitant de relier plusieurs informations disparates pour parvenir à une conclusion. Le protocole clé : imposer un budget identique de "tokens de réflexion", les tokens utilisés exclusivement pour le raisonnement intermédiaire, hors prompt initial et réponse finale. Résultat : dans la majorité des cas, un agent unique dispose du même budget surpasse ou égale un système multi-agents. L'enjeu est considérable pour les équipes d'ingénierie qui investissent massivement dans des architectures complexes. Les systèmes multi-agents, qu'il s'agisse d'agents planificateurs, de systèmes en débat ou d'essaims de modèles, génèrent des traces de raisonnement plus longues et multiplient les appels LLM, consommant mécaniquement davantage de ressources. Le problème soulevé par Stanford est que la plupart des comparaisons publiées jusqu'ici n'étaient pas à budget égal : les gains affichés par le multi-agent reflétaient souvent une simple dépense de calcul supplémentaire, et non un avantage architectural réel. Autrement dit, les entreprises pourraient payer une "taxe essaim" sans bénéfice net. La seule situation où le multi-agent conserve un avantage légitime est celle où le contexte d'un agent unique devient trop long ou corrompu, atteignant une limite physique. Pour aller plus loin, les chercheurs ont introduit une technique baptisée SAS-L (single-agent system with longer thinking), conçue pour corriger un comportement fréquent : les agents uniques abandonnent parfois leur raisonnement interne prématurément, laissant du budget de calcul inexploité. La solution proposée est purement structurelle, sans surcoût architectural : reformuler le prompt pour encourager explicitement le modèle à dépenser son budget disponible en analyse pré-réponse, en identifiant les ambiguïtés et les hypothèses intermédiaires avant de conclure. Cette approche s'inscrit dans une tendance de fond qui pousse le domaine à reconsidérer la complexité comme valeur en soi. Alors que les frameworks multi-agents prolifèrent et que les coûts d'inférence restent élevés, Stanford offre un argument empirique solide pour privilégier la simplicité, et ne recourir à l'orchestration multi-agents qu'une fois le plafond de l'agent unique véritablement atteint.

UELes équipes d'ingénierie en France et en Europe qui déploient des systèmes multi-agents peuvent directement réduire leurs coûts d'inférence en simplifiant leurs architectures, en s'appuyant sur les conclusions empiriques de cette étude pour justifier ce choix en interne.

RecherchePaper
1 source
Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir
2VentureBeat AI 

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir

Des chercheurs du Mind Lab et de plusieurs universités ont publié une technique appelée delta-mem, conçue pour doter les agents d'intelligence artificielle d'une mémoire de travail persistante sans modifier les paramètres du modèle sous-jacent. Le principe : comprimer l'historique des interactions d'un agent en une matrice de taille fixe, appelée OSAM (Online State of Associative Memory), mise à jour dynamiquement au fil des échanges. Le module résultant n'ajoute que 0,12 % des paramètres du modèle de base, contre 76,40 % pour la solution concurrente la plus répandue, tout en surpassant cette dernière sur les benchmarks exigeants en mémoire. Lors de la génération, le système ne réinjecte pas de texte brut dans le contexte : l'état caché du modèle est projeté dans la matrice pour récupérer les informations passées, ce qui réduit la latence et évite de saturer la fenêtre de contexte. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, un assistant de code qui perd le fil d'une session de débogage, ou un agent d'analyse de données qui réingère les mêmes informations à chaque étape, génère des coûts en tokens, de la latence et des workflows fragiles. Les deux solutions habituelles, élargir la fenêtre de contexte ou multiplier les appels RAG, montrent leurs limites dès que les interactions s'étalent sur de longues séquences : le coût computationnel de l'attention croit de façon quadratique avec la longueur de la séquence, et les modèles souffrent de ce que les chercheurs appellent le "context rot", une dégradation effective de la mémorisation malgré des fenêtres théoriques d'un million de tokens. Delta-mem offre une troisième voie : une mémoire interne, compacte et continuellement mise à jour, sans dépendance à un module externe. Ce travail s'inscrit dans un débat plus large sur l'architecture des agents autonomes. Les approches existantes se répartissent en trois catégories : la mémoire textuelle, limitée par la taille de la fenêtre et sujette à la perte d'information ; le RAG, qui introduit de la latence et des problèmes d'alignement ; et les adaptateurs paramétriques, statiques après l'entraînement et incapables d'intégrer de nouvelles informations en temps réel. Delta-mem se positionne comme une quatrième voie, paramétrique mais dynamique, opérant à l'intérieur du modèle gelé. Jingdi Lei, co-auteur de l'article, cite des cas concrets : un assistant de code qui doit retenir les conventions d'un projet, les étapes de débogage récentes ou les préférences d'un développeur sur toute la durée d'un workflow ; un agent d'analyse qui doit maintenir des hypothèses et des observations intermédiaires sur plusieurs appels d'outils successifs. La technique reste pour l'instant au stade de la recherche, mais elle pointe vers une architecture d'agent où la mémoire de travail est un composant de première classe, aussi central que le modèle lui-même.

RecherchePaper
1 source
3VentureBeat AI 

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Des chercheurs de Meta et de plusieurs universités ont présenté un nouveau cadre d'agents autonomes baptisé "hyperagents", conçu pour surmonter les limites des systèmes d'IA auto-améliorants actuels. Contrairement aux architectures existantes, comme la Darwin Gödel Machine (DGM) de Sakana AI, qui ne fonctionnent efficacement que sur des tâches de programmation, les hyperagents peuvent réécrire et optimiser leur propre logique de résolution de problèmes dans des domaines non techniques comme la robotique, l'analyse documentaire ou la revue d'articles scientifiques. Le système est dit "entièrement autoréférentiel" : il peut analyser, évaluer et modifier n'importe quelle partie de lui-même sans contraintes liées à sa configuration initiale. Les hyperagents inventent de façon autonome des capacités génériques comme la mémoire persistante ou le suivi automatisé des performances, sans intervention humaine. L'enjeu est considérable pour les entreprises qui cherchent à déployer des agents IA dans des environnements de production réels, où les tâches sont imprévisibles et variables. Jusqu'ici, les systèmes auto-améliorants étaient bridés par un "meta-agent" statique, conçu par des ingénieurs humains et incapable d'évoluer plus vite que ces derniers ne pouvaient le maintenir. Jenny Zhang, co-auteure de l'article, résume le problème ainsi : "Chaque fois que quelque chose change ou se casse, une personne doit intervenir pour mettre à jour les règles ou la logique." Les hyperagents brisent ce "mur de maintenance" en découplant la capacité à améliorer les tâches de la capacité à modifier le code sous-jacent, deux compétences fondamentalement distinctes. Le résultat est un système qui non seulement s'améliore sur les tâches, mais optimise également le cycle d'auto-amélioration lui-même, accélérant les progrès de façon exponentielle avec moins de prompt engineering manuel. Ce travail s'inscrit dans une course plus large à l'automatisation de l'ingénierie des agents IA, un domaine en pleine effervescence depuis les succès de DGM sur les benchmarks de programmation en 2025. La DGM avait démontré qu'une amélioration récursive et ouverte était techniquement réalisable, mais uniquement lorsque la tâche elle-même était du code. Meta franchit une étape supplémentaire en généralisant ce principe à des domaines où l'évaluation des performances et la réécriture du comportement requièrent des compétences radicalement différentes, comme l'analyse textuelle subjective ou l'exploration de données métier. Si les hyperagents tiennent leurs promesses à l'échelle, ils pourraient réduire drastiquement la dépendance aux équipes d'ingénierie spécialisées pour adapter les agents à chaque nouveau contexte, ouvrant la voie à des systèmes véritablement capables de s'adapter seuls aux environnements d'entreprise en constante évolution.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
4MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour