RechercheVentureBeat AI · 16 juin 2026, 20:47· 2 min de lecture

DeLM de Stanford réduit de 50 % les coûts des tâches multi-agents, sans orchestrateur central

Des chercheurs de Stanford ont publié un article de recherche présentant DeLM (Decentralized Language Model), un nouveau cadre pour les systèmes multi-agents qui abandonne le modèle centralisé dominant dans les frameworks d'IA actuels. Développé par Yuzhen Mao et Azalia Mirhoseini, DeLM remplace l'agent orchestrateur central par une architecture décentralisée reposant sur une base de connaissances partagée et une file d'attente de tâches. Concrètement, les agents travaillent en parallèle, lisent directement les résultats vérifiés de leurs pairs sous forme de "gists" (résumés compacts), et sélectionnent eux-mêmes les sous-tâches disponibles dans la file. Aucun agent principal ne collecte, filtre ou redistribue les informations. Selon les auteurs, cette approche réduit les coûts d'inférence de 50 % par rapport aux architectures centralisées classiques.

Cette réduction de coût n'est pas un simple gain marginal : elle remet en question un postulat fondamental sur lequel reposent la plupart des frameworks multi-agents existants comme LangChain, AutoGen ou CrewAI. Dans les systèmes traditionnels, l'orchestrateur central devient rapidement un goulot d'étranglement lorsque le nombre de sous-tâches augmente. Il doit recevoir tous les rapports des sous-agents, décider quoi fusionner, quoi ignorer, puis redistribuer le contexte filtré, risquant à chaque étape de "diluer, omettre ou déformer" des informations utiles. Ce va-et-vient ralentit la coordination et contraint l'ensemble du système aux capacités d'un seul agent surchargé. DeLM contourne ce problème en permettant aux agents de construire directement sur le travail vérifié de leurs pairs, d'éviter les échecs déjà documentés et de ne récupérer les preuves détaillées que lorsqu'ils en ont besoin.

L'essor des systèmes multi-agents en IA reflète une tendance de fond : face aux limites des modèles de langage individuels sur des tâches complexes et longues, l'industrie mise sur la décomposition parallèle du travail. Mais cette parallélisation a un coût en latence et en tokens que les équipes d'ingénierie peinent à contenir. Les travaux de Mao et Mirhoseini s'inscrivent dans une réflexion plus large sur l'architecture optimale pour des raisonnements à longue portée, notamment dans des scénarios de recherche d'information ou de résolution de problèmes multi-étapes. DeLM introduit également un mécanisme de vérification des gists avant leur partage : seuls les résultats validés entrent dans le contexte commun, limitant la propagation d'erreurs. Si ces résultats se confirment dans des benchmarks plus larges et des environnements de production, DeLM pourrait influencer la prochaine génération de frameworks agentiques, à un moment où les coûts d'inférence restent l'un des principaux freins au déploiement à grande échelle des systèmes d'IA autonomes.

Dans nos dossiers

Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA

Des chercheurs du King's College London et de l'Alan Turing Institute ont développé xMemory, une nouvelle technique de mémoire pour les agents d'intelligence artificielle conçus pour fonctionner sur de longues durées et plusieurs sessions. Le problème qu'ils cherchent à résoudre est concret : les pipelines RAG (Retrieval-Augmented Generation) standard, qui permettent aux LLMs de puiser dans des données externes, ne sont pas adaptés aux assistants persistants. xMemory organise les conversations en une hiérarchie structurée de thèmes sémantiques, puis les recherche de haut en bas, du thème général vers les détails bruts, au lieu de faire des recherches directes dans les journaux de conversation bruts. Les résultats sont significatifs : selon les chercheurs, le système ramène la consommation de tokens de plus de 9 000 à environ 4 700 tokens par requête sur certaines tâches, tout en améliorant la qualité des réponses et le raisonnement sur le long terme. L'enjeu est majeur pour les entreprises qui déploient des agents IA dans des contextes métiers, assistants personnalisés, outils de décision multi-sessions, support client continu. Le problème fondamental du RAG classique dans ce contexte, c'est que la mémoire d'un agent n'est pas une base de données diverse, mais un flux continu et corrélé de conversations. Les passages récupérés se ressemblent souvent, contiennent des quasi-doublons, et sont liés par des coréférences et des dépendances temporelles strictes. Résultat : les systèmes classiques récupèrent trop d'informations similaires sur un même sujet, par exemple, plusieurs variantes de "j'aime les oranges", en ratant des faits catégoriels essentiels pour répondre à la vraie question. Les tentatives de correction par filtrage ou compression après récupération aggravent souvent le problème, car elles suppriment accidentellement des éléments de contexte indispensables. L'approche xMemory repose sur un principe qu'ils appellent "découplage vers agrégation" : au lieu d'interroger directement les logs de conversation, le système décompose d'abord le flux en faits sémantiques distincts et autonomes, puis les regroupe dans une hiérarchie de thèmes. Cette structure évite la redondance, deux passages similaires assignés à des composants sémantiques différents ne seront pas récupérés ensemble. C'est une réponse directe à l'un des angles morts les plus sous-estimés du déploiement LLM en entreprise : la gestion de la mémoire à long terme. Alors que la demande pour des agents IA cohérents et personnalisés explose, xMemory propose une architecture qui réduit à la fois les coûts de calcul et les hallucinations liées à une mémoire mal gérée, un double gain qui pourrait rapidement influencer la façon dont les équipes d'ingénierie construisent leurs pipelines d'agents persistants.

UELa recherche, menée par le King's College London et l'Alan Turing Institute, pourrait influencer les architectures d'agents IA adoptées par les équipes d'ingénierie européennes cherchant à réduire les coûts de déploiement et améliorer la cohérence des assistants persistants.

RecherchePaper

1 source

2VentureBeat AI

RecursiveMAS accélère l'inférence multi-agents de 2,4x et réduit l'usage des tokens de 75 %

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign et de l'Université Stanford ont développé RecursiveMAS, un nouveau cadre pour systèmes multi-agents qui multiplie la vitesse d'inférence par 2,4 et réduit l'utilisation de tokens de 75 %. Le principe central est de remplacer la communication textuelle entre agents par des échanges dans l'espace des représentations latentes (embeddings). Concrètement, plutôt que chaque agent génère du texte que le suivant doit lire et interpréter, les agents se transmettent directement leurs représentations vectorielles internes, évitant toute génération de tokens intermédiaires. Le système s'inspire des modèles de langage récursifs, dans lesquels un ensemble de couches partagées traite les données en boucle pour approfondir le raisonnement sans ajouter de paramètres. Dans RecursiveMAS, chaque agent joue le rôle d'une couche : il reçoit une représentation latente, la traite, puis la passe au suivant. Après le dernier agent, les sorties sont renvoyées au premier, déclenchant un nouveau cycle de raisonnement. Seul l'agent final produit un texte à la dernière itération. Les expériences montrent des gains de précision sur des domaines exigeants comme la génération de code, le raisonnement médical et la recherche d'information. L'impact de cette architecture est direct et mesurable pour les équipes qui développent ou déploient des systèmes d'IA complexes. Une accélération de 2,4 fois de l'inférence et une réduction de 75 % des tokens utilisés signifient des coûts de calcul et d'API considérablement réduits à l'échelle. RecursiveMAS est également nettement moins coûteux à entraîner que les méthodes classiques de fine-tuning complet ou les approches LoRA, ce qui en fait une option viable pour des équipes aux ressources limitées. En permettant d'entraîner l'ensemble du système comme une unité cohérente plutôt que comme une collection d'agents isolés, le cadre ouvre la voie à des systèmes capables de s'adapter et de s'améliorer collectivement au fil du temps, sans les goulots d'étranglement typiques de la génération séquentielle de texte. Les systèmes multi-agents ont émergé comme une réponse aux limites des modèles de langage individuels face à des tâches complexes nécessitant coordination, vérification ou spécialisation. Mais leur passage à l'échelle bute sur un problème fondamental : la communication par texte impose une séquentialité coûteuse, chaque agent devant attendre que le précédent ait terminé de générer sa réponse avant de commencer sa propre analyse. Des approches comme le prompt engineering ou le fine-tuning individuel n'adressent qu'une partie du problème. RecursiveMAS propose une rupture architecturale en traitant le système entier comme un seul modèle récursif unifié. Si les résultats expérimentaux se confirment en conditions réelles, cette approche pourrait redéfinir la manière dont les architectures multi-agents sont conçues et optimisées, avec des implications importantes pour l'IA appliquée à la médecine, au droit, à la programmation et à la recherche scientifique.

UELes équipes européennes développant des pipelines multi-agents pourraient bénéficier indirectement de réductions de coûts de calcul si cette architecture de recherche est adoptée et intégrée dans des frameworks open source.

💬 Passer les embeddings directement entre agents plutôt que de générer du texte à chaque étape, c'est une idée qui aurait dû arriver il y a deux ans. 75 % de tokens en moins et 2,4x plus vite sur du code et du raisonnement médical, c'est pas du flan. Bon, sur le papier c'est Illinois et Stanford, mais faut que LangGraph ou un équivalent s'en empare pour que ça compte vraiment en prod.

RecherchePaper

1 source

3VentureBeat AI

PixelRAG surpasse les analyseurs de texte en précision et réduit de 10 fois le coût en tokens des agents IA

Une équipe de chercheurs des universités UC Berkeley, Princeton et EPFL, en collaboration avec Databricks, a publié cette semaine un article présentant PixelRAG, un système de recherche augmentée par récupération (RAG) qui abandonne complètement l'étape de conversion en texte des pages web. Plutôt que de transformer le HTML en texte brut avant de l'indexer, PixelRAG prend des captures d'écran des pages, découpe ces images en tuiles de 1 024 pixels et les encode directement dans un index vectoriel interrogeable par un modèle de langage à vision. Le système a été testé sur 30 millions de tuiles couvrant l'intégralité des 7 millions d'articles de Wikipédia, et surpasse les pipelines RAG traditionnels sur six benchmarks distincts, avec un gain de précision allant jusqu'à 18,1 % par rapport aux approches textuelles. L'enjeu est considérable pour toutes les entreprises qui déploient des agents IA sur leurs bases documentaires internes ou sur le web ouvert. Les pipelines RAG actuels échouent pour trois raisons mesurables : la conversion HTML détruit 36,6 % des réponses avant même l'indexation, les infoboxes bourrées de mots-clés écrasent les paragraphes pertinents dans 55,2 % des cas, et les 8,2 % restants sont perdus lors de la lecture finale à cause d'une mise en forme aplatie. PixelRAG contourne ces trois problèmes d'un coup en conservant la hiérarchie visuelle, les tableaux, le gras et la mise en page, que les parseurs textuels éliminent irrémédiablement. Le système réduit également les coûts en tokens des agents IA d'un facteur 10, puisque les tuiles images sont bien plus compactes que les longues chaînes de texte nettoyé qu'un parseur produit habituellement. L'architecture repose sur quatre étapes entièrement visuelles : le rendu des pages via Playwright à une largeur fixe de 875 pixels, leur découpage en tuiles stockées localement hors ligne, leur encodage en vecteurs de 2 048 dimensions grâce au modèle Qwen3-VL-Embedding-2B dans un index FAISS d'environ 120 Go, et enfin la lecture par un modèle vision-langage capable d'interpréter simultanément contenu et mise en page. Le choix de cette approche reflète une conviction plus large des auteurs : améliorer les parseurs est une course sans fin, chaque site web exigeant un traitement sur mesure, alors que les modèles de vision récents permettent désormais de traiter directement la page rendue comme le ferait un humain. Yichuan Wang, doctorant à UC Berkeley et auteur principal, résume l'ambition : construire un système de récupération universel, sans ingénierie spécifique par site, en s'appuyant sur les progrès rapides des modèles multimodaux.

UELa participation de l'EPFL à cette recherche représente une contribution européenne ; les entreprises du continent déployant des agents IA sur des bases documentaires pourront bénéficier d'une réduction de coûts en tokens si l'approche est adoptée.

💬 Arrêter d'améliorer les parseurs et passer aux screenshots directement, c'est le genre de pivot qu'on n'ose pas faire parce que ça remet tout en question. Là, Berkeley, Princeton et l'EPFL montrent que ça marche vraiment, avec 18% de gain en précision et un facteur 10 sur les tokens. Reste à voir ce que ça donne à l'échelle d'une base documentaire d'entreprise, mais sur le principe, c'est du solide.

RecherchePaper

1 source

4VentureBeat AI

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU, un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes, dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL), sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons, historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles, jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique, des systèmes capables de raisonner sur de très longues séquences, devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic