Aller au contenu principal
Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified
LLMsMarkTechPost7sem· 2 min de lecture

Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified

Source originale ↗·

Poolside AI a dévoilé mardi les deux premiers modèles de sa famille Laguna : Laguna M.1 et Laguna XS.2, accompagnés d'un agent de codage en ligne de commande baptisé "pool". Laguna M.1 est un modèle de type Mixture-of-Experts (MoE) totalisant 225 milliards de paramètres, dont seulement 23 milliards activés à chaque inférence, entraîné sur 30 000 milliards de tokens à l'aide de 6 144 GPU NVIDIA Hopper interconnectés. Il atteint 72,5 % sur le benchmark SWE-bench Verified, référence du secteur pour évaluer la résolution autonome de bugs réels. Laguna XS.2, le premier modèle en accès ouvert de Poolside, est beaucoup plus compact : 33 milliards de paramètres au total, seulement 3 milliards activés par token. Il score 68,2 % sur SWE-bench Verified et peut tourner en local sur un Mac équipé de 36 Go de RAM via Ollama, ce qui est rare pour ce niveau de performance. Une version de base pour le fine-tuning, XS.2-base, sera publiée prochainement.

Ces résultats positionnent Poolside parmi les acteurs sérieux du codage agentique, un segment en pleine effervescence où l'objectif est de faire résoudre des tâches de développement complexes et longues par des modèles de manière autonome. La capacité de XS.2 à fonctionner en local change la donne pour les développeurs soucieux de confidentialité ou travaillant sans accès cloud stable : avec une fenêtre de contexte de 131 072 tokens et un support natif du raisonnement intercalé entre les appels d'outils, le modèle est conçu pour des workflows réels de programmation sur plusieurs heures. Le fait que Laguna XS.2 soit open-weight le rend aussi accessible aux équipes qui souhaitent l'adapter à leurs propres bases de code, sans dépendre d'une API propriétaire.

Poolside AI, fondée en 2023 par des vétérans de DeepMind et du monde de la recherche, a levé plus de 500 millions de dollars avec la conviction que l'IA spécialisée dans le code nécessite une infrastructure d'entraînement entièrement repensée. Pour Laguna, l'entreprise a développé en interne son pipeline de données, son framework d'entraînement (Titan) et une infrastructure de reinforcement learning agentique. L'une des innovations les plus notables est "AutoMixer", un système qui entraîne simultanément environ 60 modèles-proxy sur des mélanges de données différents pour optimiser automatiquement la composition du jeu d'entraînement, plutôt que de s'appuyer sur des heuristiques manuelles. Cette approche, inspirée de travaux comme RegMix ou OLMix, aurait permis de doubler la diversité effective des données tout en préservant l'équilibre entre code, mathématiques et raisonnement général. La prochaine étape pour Poolside sera probablement d'élargir la famille Laguna et d'affiner son agent "pool" pour concurrencer directement des outils comme Claude Code ou Cursor sur le marché des assistants de développement autonomes.

Impact France/UE

Laguna XS.2 étant open-weight et exécutable en local via Ollama, les équipes européennes soucieuses de souveraineté des données peuvent l'adopter sans dépendre d'une API cloud américaine.

💬 L'analyse de Mathieu

68,2 % sur SWE-bench avec un modèle qui tourne sur Mac, c'est pas rien. Ce qui change vraiment la donne, c'est le côté open-weight : on peut l'adapter à sa propre base de code, sans dépendre d'une API tierce, et ça c'est rare pour ce niveau de performance. Reste à voir si l'agent "pool" suit.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents
1VentureBeat AI 

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

La startup américaine Poolside, fondée à San Francisco en 2023, a lancé ce 28 avril 2026 deux nouveaux modèles de langage sous la marque Laguna, conçus spécifiquement pour les tâches de codage agentique. Le premier, Laguna M.1, est un modèle propriétaire de 225 milliards de paramètres au format Mixture of Experts (MoE), avec 23 milliards de paramètres actifs, destiné aux environnements d'entreprise et gouvernementaux à hautes exigences de sécurité. Le second, Laguna XS.2, est un modèle open source sous licence Apache 2.0 de 33 milliards de paramètres (3 milliards actifs), téléchargeable et exécutable localement sur un simple GPU de bureau ou d'ordinateur portable, sans connexion internet. Poolside accompagne ces deux modèles d'un agent de codage en ligne de commande baptisé "pool" et d'un environnement de développement web mobile appelé "shimmer". Temporairement, même le plus grand modèle M.1 est accessible gratuitement via l'API Poolside et des partenaires comme OpenRouter, Ollama et Baseten. L'arrivée de Laguna XS.2 en open source représente un signal fort dans un secteur dominé soit par des modèles propriétaires coûteux comme Claude d'Anthropic ou GPT-5.5 d'OpenAI, soit par des modèles chinois à licence ouverte comme ceux de DeepSeek. Poolside offre ici une alternative américaine, exécutable entièrement hors ligne, ce qui répond à un besoin critique pour les agences gouvernementales et les entreprises opérant dans des environnements ultra-sécurisés. L'ingénieur post-entraînement George Grigorev a précisé que Poolside peut "livrer des poids dans des environnements totalement isolés on-premises, sans connexion réseau", un avantage décisif face aux solutions cloud d'Anthropic ou Google. Par ailleurs, les deux modèles Laguna ont été entraînés intégralement from scratch, contrairement à plusieurs laboratoires américains qui s'appuient sur les modèles de base Qwen d'Alibaba, ce qui leur confère une indépendance technique notable. Poolside s'est jusqu'ici concentrée sur des contrats gouvernementaux et de défense, construisant ses modèles dans un environnement interne appelé "Model Factory", dont le moteur central est un logiciel maison nommé Titan. L'entreprise utilise également un optimiseur d'entraînement appelé Muon, qui accélère l'apprentissage d'environ 15% par rapport aux méthodes standards, un avantage compétitif non négligeable en termes de coûts et de délais. En s'ouvrant maintenant à la communauté des développeurs et à la recherche publique, Poolside change de stratégie et entre de plein pied dans la bataille de l'open source agentique, à un moment où les entreprises tech cherchent à réduire leur dépendance aux API propriétaires pour des raisons de coût, de confidentialité et de souveraineté technologique.

UELes organisations européennes en environnement isolé (défense, administration) peuvent déployer localement un modèle de codage agentique open source américain sans dépendance cloud, renforçant leur autonomie technologique.

LLMsActu
1 source
Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified
2MarkTechPost 

Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified

Mistral AI vient d'annoncer deux avancées majeures : le lancement des agents distants dans Vibe, sa plateforme d'agents de codage, et la mise en préversion publique de Mistral Medium 3.5, un nouveau modèle dense de 128 milliards de paramètres. Ce modèle devient immédiatement le modèle par défaut dans Vibe et dans Le Chat, l'assistant grand public de Mistral. Sur le benchmark SWE-Bench Verified, référence du secteur pour évaluer la capacité d'un modèle à résoudre des problèmes réels tirés de dépôts GitHub open source, Medium 3.5 obtient un score de 77,6%, devançant Devstral 2 ainsi que Qwen3.5 397B A17B. Le modèle dispose d'une fenêtre de contexte de 256 000 tokens, soit environ 200 000 mots traités en une seule passe, suffisant pour raisonner sur l'intégralité d'une grande base de code. Il est également multimodal, avec un encodeur visuel développé intégralement par Mistral plutôt que réutilisé depuis des modèles comme CLIP, ce qui lui confère davantage de flexibilité face aux images de tailles et formats variés. La bascule vers les agents distants représente un changement fondamental dans la façon dont les développeurs interagissent avec Vibe. Jusqu'ici, les sessions Vibe s'exécutaient localement, liant l'agent au terminal de l'utilisateur. Désormais, plusieurs sessions peuvent tourner en parallèle dans le cloud pendant que le développeur fait autre chose. Il est même possible de "téléporter" une session locale en cours vers le cloud sans perdre l'historique, l'état de la tâche ni les validations en attente. Chaque session s'exécute dans un environnement isolé, et lorsqu'une tâche est terminée, l'agent peut ouvrir directement une pull request sur GitHub et notifier le développeur. Les intégrations couvrent également Linear, Jira pour la gestion des tickets, Sentry pour les incidents, et Slack ou Teams pour les notifications. Le Chat de Mistral bénéficie de la même infrastructure via les Workflows de Mistral Studio, la même couche d'orchestration développée en interne avant d'être ouverte aux entreprises puis au grand public. Cette annonce s'inscrit dans une compétition de plus en plus dense sur le segment des agents de codage, où Mistral affronte notamment GitHub Copilot Workspace, Cursor et des offres d'OpenAI ou d'Anthropic. En positionnant Vibe comme une alternative accessible depuis la ligne de commande ou directement depuis Le Chat, Mistral mise sur la praticité et l'intégration native à la chaîne de développement existante. Le choix de construire son propre encodeur visuel plutôt que de s'appuyer sur des composants standard témoigne d'une volonté de maîtrise technique complète sur la pile. Avec Medium 3.5, Mistral qualifie ce modèle de premier "flagship merged model", suggérant une évolution de sa stratégie produit vers des modèles unifiés capables de couvrir instruction, raisonnement et code sans multiplication des variantes spécialisées.

UEMistral AI, entreprise française, consolide sa position de champion européen de l'IA avec un modèle de pointe et une plateforme d'agents de codage qui concurrencent directement les offres américaines sur le marché du développement logiciel.

LLMsOpinion
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
3MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source
MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents
4VentureBeat AI 

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Xiaomi a mis en ligne le 27 avril 2026 deux nouveaux modèles de langage open source, MiMo-V2.5 et MiMo-V2.5-Pro, publiés sous licence MIT et téléchargeables directement depuis Hugging Face. Le premier est un modèle multimodal généraliste, tandis que le second est conçu spécifiquement pour les tâches agentiques complexes. Selon les benchmarks internes de Xiaomi, MiMo-V2.5-Pro atteint un taux de réussite de 63,8 % sur le ClawEval, l'évaluation standard pour les agents autonomes de type "claw" comme OpenClaw, NanoClaw ou Hermes Agent, tout en ne consommant qu'environ 70 000 tokens par trajectoire. Ce chiffre représente 40 à 60 % de tokens en moins par rapport à Claude Opus 4.6 d'Anthropic, Gemini 3.1 Pro de Google et GPT-5.4 d'OpenAI pour des résultats comparables. L'architecture repose sur 310 milliards de paramètres et intègre une fenêtre de contexte native d'un million de tokens, avec un score de 1 581 sur le benchmark GDPVal-AA (Elo), devançant des concurrents comme Kimi K2.6 et GLM 5.1. L'efficacité en tokens n'est pas qu'une métrique abstraite : dans un secteur où des services comme GitHub Copilot de Microsoft basculent vers une facturation à l'usage, chaque token économisé se traduit directement en dollars pour les entreprises et les développeurs indépendants qui déploient des agents en production. MiMo-V2.5-Pro peut piloter des systèmes agentiques capables de créer du contenu marketing, gérer des emails, organiser des agendas ou gérer des comptes en autonomie, le tout via des applications de messagerie tierces. Que le modèle soit exécuté localement ou sur un cloud privé virtuel, la licence MIT permet une intégration commerciale sans restriction, ce qui le place directement en concurrence avec les modèles propriétaires de Google et OpenAI sur le segment entreprise. Pour étayer ses affirmations, Xiaomi a publié plusieurs démonstrations en conditions réelles : MiMo-V2.5-Pro a implémenté un compilateur complet en Rust, incluant lexer, parser et backend RISC-V, en 4,3 heures via 672 appels d'outils, obtenant un score parfait de 233 sur 233 sur des suites de tests cachés, une tâche qui prend habituellement plusieurs semaines à un étudiant en informatique. Il a également produit un éditeur vidéo de bureau de 8 192 lignes en 11,5 heures et 1 868 appels d'outils, puis optimisé un régulateur analogique en technologie TSMC 180 nm, améliorant la régulation de ligne d'un facteur 22 par rapport à sa tentative initiale. Ces résultats illustrent ce que Xiaomi appelle la "harness awareness" du modèle, sa capacité à gérer activement sa propre mémoire pour maintenir la cohérence sur des milliers d'appels séquentiels. Cette publication s'inscrit dans la stratégie agressive de Xiaomi pour s'imposer dans l'IA, un secteur où la firme, surtout connue pour ses smartphones et véhicules électriques, entend désormais rivaliser directement avec les grands laboratoires américains.

UELa licence MIT et la disponibilité sur HuggingFace permettent aux entreprises et développeurs européens d'intégrer ces modèles en production sans restriction, réduisant potentiellement les coûts liés à la facturation à l'usage des services d'agents IA.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic