
DeLM de Stanford réduit de 50 % les coûts des tâches multi-agents, sans orchestrateur central
Des chercheurs de Stanford ont publié un article de recherche présentant DeLM (Decentralized Language Model), un nouveau cadre pour les systèmes multi-agents qui abandonne le modèle centralisé dominant dans les frameworks d'IA actuels. Développé par Yuzhen Mao et Azalia Mirhoseini, DeLM remplace l'agent orchestrateur central par une architecture décentralisée reposant sur une base de connaissances partagée et une file d'attente de tâches. Concrètement, les agents travaillent en parallèle, lisent directement les résultats vérifiés de leurs pairs sous forme de "gists" (résumés compacts), et sélectionnent eux-mêmes les sous-tâches disponibles dans la file. Aucun agent principal ne collecte, filtre ou redistribue les informations. Selon les auteurs, cette approche réduit les coûts d'inférence de 50 % par rapport aux architectures centralisées classiques.
Cette réduction de coût n'est pas un simple gain marginal : elle remet en question un postulat fondamental sur lequel reposent la plupart des frameworks multi-agents existants comme LangChain, AutoGen ou CrewAI. Dans les systèmes traditionnels, l'orchestrateur central devient rapidement un goulot d'étranglement lorsque le nombre de sous-tâches augmente. Il doit recevoir tous les rapports des sous-agents, décider quoi fusionner, quoi ignorer, puis redistribuer le contexte filtré, risquant à chaque étape de "diluer, omettre ou déformer" des informations utiles. Ce va-et-vient ralentit la coordination et contraint l'ensemble du système aux capacités d'un seul agent surchargé. DeLM contourne ce problème en permettant aux agents de construire directement sur le travail vérifié de leurs pairs, d'éviter les échecs déjà documentés et de ne récupérer les preuves détaillées que lorsqu'ils en ont besoin.
L'essor des systèmes multi-agents en IA reflète une tendance de fond : face aux limites des modèles de langage individuels sur des tâches complexes et longues, l'industrie mise sur la décomposition parallèle du travail. Mais cette parallélisation a un coût en latence et en tokens que les équipes d'ingénierie peinent à contenir. Les travaux de Mao et Mirhoseini s'inscrivent dans une réflexion plus large sur l'architecture optimale pour des raisonnements à longue portée, notamment dans des scénarios de recherche d'information ou de résolution de problèmes multi-étapes. DeLM introduit également un mécanisme de vérification des gists avant leur partage : seuls les résultats validés entrent dans le contexte commun, limitant la propagation d'erreurs. Si ces résultats se confirment dans des benchmarks plus larges et des environnements de production, DeLM pourrait influencer la prochaine génération de frameworks agentiques, à un moment où les coûts d'inférence restent l'un des principaux freins au déploiement à grande échelle des systèmes d'IA autonomes.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




