Aller au contenu principal
LLMsMarkTechPost9h· 2 min de lecture

Mistral AI publie Leanstral 1.5 : un modèle agent de code Lean 4 sous licence Apache 2.0, qui résout 587 des 672 problèmes du PutnamBench

Source originale ↗·

Mistral AI a dévoilé Leanstral 1.5, un modèle de type "code agent" spécialisé dans la démonstration automatique de théorèmes avec l'assistant de preuve Lean 4. Ce modèle met à jour la précédente version Leanstral-2603 et appartient à la famille Mistral Small 4. Les poids sont publiés en licence ouverte Apache 2.0, et un point d'accès API gratuit, baptisé leanstral-1-5, est désormais disponible. Sur le plan technique, Leanstral 1.5 repose sur une architecture de mélange d'experts (MoE) comptant 128 experts dont 4 activés par token, pour un total de 119 milliards de paramètres dont 6,5 milliards effectivement mobilisés à chaque inférence. Le modèle gère un contexte de 256 000 tokens, accepte du texte et des images en entrée, et ne produit que du texte en sortie. Son entraînement s'est déroulé en trois phases : pré-entraînement intermédiaire, ajustement supervisé, puis apprentissage par renforcement via la méthode CISPO, appuyé sur deux environnements distincts simulant des tâches de preuve multi-tours et de manipulation directe de fichiers via un agent de code.

Les résultats annoncés par Mistral sont marquants pour le petit monde des mathématiques formelles et de la vérification de code. Le modèle atteint 100% sur les jeux de validation et de test de miniF2F, résout 587 des 672 problèmes de PutnamBench, et établit de nouveaux records sur les benchmarks d'algèbre FATE-H (87%) et FATE-X (34%). Sur FLTEval, un test bâti à partir de véritables demandes de fusion soumises au dépôt du théorème de Fermat, le score pass@1 grimpe de 21,9 à 28,9 et le pass@8 de 31,9 à 43,2, dépassant ainsi Opus 4.6 (39,6) pour un coût sept fois moindre. Sur PutnamBench, Leanstral devance de sept problèmes Seed-Prover 1.5 en configuration haute, pour un coût d'environ 4 dollars par problème contre près de 300 dollars, voire davantage, pour son concurrent. Cette efficacité économique change la donne pour les chercheurs et ingénieurs qui souhaitent automatiser la vérification formelle sans mobiliser des budgets de calcul colossaux.

Ce lancement s'inscrit dans une compétition croissante entre laboratoires d'IA pour dominer le terrain de la démonstration mathématique automatisée, où Mistral se positionne désormais face à des acteurs comme Seed-Prover, Goedel-Architect ou Aleph Prover, ce dernier facturant entre 54 et 68 dollars par problème résolu. Le comportement le plus caractéristique du modèle reste sa capacité de mise à l'échelle au moment de l'inférence : augmenter le budget de tokens alloué à chaque tentative améliore mécaniquement les performances, passant de 44 problèmes résolus avec 50 000 tokens à 587 avec 4 millions. Mistral illustre aussi des usages concrets au-delà des mathématiques pures, comme la preuve formelle de la complexité en O(log n) d'une implémentation réelle d'arbre AVL, ou encore la détection de bugs authentiques dans du code open source, ouvrant la voie à des applications de vérification logicielle à grande échelle.

Impact France/UE

Mistral AI, entreprise française, renforce sa position dans l'IA de pointe avec un modèle open-source performant sur des benchmarks de mathématiques formelles, démontrant la compétitivité de l'écosystème européen face aux acteurs américains.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks
1VentureBeat AI 

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

Google DeepMind a publié Gemma 4, sa nouvelle famille de modèles ouverts, sous licence Apache 2.0, un changement qui pourrait s'avérer plus décisif que n'importe quel score sur les benchmarks. Jusqu'ici, les versions précédentes de Gemma utilisaient une licence propriétaire avec des restrictions d'usage et des clauses modifiables unilatéralement par Google, ce qui poussait de nombreuses équipes entreprises à lui préférer Mistral ou Qwen d'Alibaba. Avec Gemma 4, Google adopte les mêmes termes permissifs que l'essentiel de l'écosystème open-weight : aucune restriction commerciale, aucune clause d'usage "nuisible" à interpréter juridiquement, redistribution libre. La famille se compose de quatre modèles répartis en deux niveaux. Le niveau "workstation" comprend un modèle dense à 31 milliards de paramètres et un modèle Mixture-of-Experts (MoE) de 26B A4B, tous deux capables de traiter texte et images avec une fenêtre de contexte de 256 000 tokens. Le niveau "edge" propose les modèles E2B et E4B, conçus pour smartphones, appareils embarqués et ordinateurs portables, supportant texte, image et audio avec 128 000 tokens de contexte. Ce changement de licence lève un frein majeur à l'adoption en entreprise. Les équipes juridiques et conformité qui bloquaient le déploiement de Gemma 3 n'auront plus de raison de le faire avec Gemma 4. Sur le plan architectural, le modèle MoE 26B A4B est particulièrement intéressant pour les décideurs IT : ses 25,2 milliards de paramètres totaux n'en activent que 3,8 milliards par inférence, ce qui lui permet de délivrer des performances comparables à un modèle dense de 27 à 31 milliards de paramètres, mais à la vitesse et au coût de calcul d'un modèle de 4 milliards. Pour les organisations qui opèrent des assistants de code, des pipelines de traitement documentaire ou des workflows agentiques multi-tours, cela se traduit directement par moins de GPU nécessaires, une latence réduite et un coût par token inférieur. Google propose également des checkpoints QAT (Quantization-Aware Training) pour maintenir la qualité à précision réduite, et les deux modèles "workstation" sont déjà disponibles en configuration serverless sur Google Cloud via Cloud Run avec des GPU NVIDIA RTX Pro 6000. Ce lancement s'inscrit dans une dynamique de marché significative. Alors que certains laboratoires chinois, dont Alibaba avec ses derniers modèles Qwen 3.5 Omni et Qwen 3.6 Plus, commencent à restreindre l'accès à leurs modèles les plus récents, Google fait le mouvement inverse en ouvrant pleinement son modèle le plus capable à ce jour, dont l'architecture s'inspire directement de la recherche derrière Gemini 3, son modèle commercial phare. Le choix des 128 petits experts dans le MoE plutôt qu'une poignée de grands experts reflète une optimisation délibérée pour les coûts d'inférence en production, un signal que Google cible désormais sérieusement les déploiements à grande échelle hors de ses propres infrastructures. Gemma 4 devrait apparaître rapidement dans des outils comme Ollama et LM Studio, ce qui accélérera encore son adoption.

UELa licence Apache 2.0 lève les blocages juridiques qui freinaient l'adoption de Gemma dans les entreprises européennes soumises à des obligations de conformité strictes.

💬 La licence Apache 2.0, c'est ce qui va faire la différence, pas les scores. Les équipes juridiques qui bloquaient Gemma 3 n'ont plus d'argument valable, et le MoE 26B qui n'active que 4B de paramètres à l'inférence, c'est du GPU économisé pour de vrai, pas du marketing. Reste à voir si Google tient la promesse de qualité à precision réduite sur des pipelines en production, mais l'angle est le bon.

LLMsOpinion
1 source
Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils
2MarkTechPost 

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Arcee AI a publié Trinity Large Thinking, un modèle de raisonnement en open-weight distribué sous licence Apache 2.0. Architecturalement, il s'agit d'un modèle Mixture-of-Experts (MoE) sparse totalisant 400 milliards de paramètres, mais qui n'en active que 13 milliards par token grâce à une stratégie de routage 4-sur-256. Cette conception permet d'atteindre la densité de connaissance d'un modèle massif tout en conservant des latences comparables à des architectures bien plus légères. Le modèle a été pré-entraîné sur 17 000 milliards de tokens avec l'optimiseur Muon, plus efficace que l'AdamW standard, et intègre un mécanisme d'attention hybride local/global avec attention gating pour mieux gérer les longs contextes. Il supporte une fenêtre de contexte de 262 144 tokens sur OpenRouter. Sur le benchmark PinchBench, dédié aux agents autonomes, Trinity Large Thinking occupe actuellement la deuxième place, derrière Claude Opus 4.6. Ce lancement est significatif pour les développeurs qui construisent des agents IA autonomes : Trinity Large Thinking est conçu spécifiquement pour les tâches longues et complexes, les appels d'outils multi-tours et le suivi d'instructions précises sur des workflows étendus. Contrairement aux modèles de chat généralistes, il intègre une phase de "réflexion" interne avant chaque réponse, ce qui lui permet de planifier des tâches en plusieurs étapes et de vérifier sa logique avant de générer une sortie. Cette combinaison de raisonnement structuré, de fiabilité multi-tours et de fenêtre de contexte étendue répond directement aux exigences des environnements d'automatisation logicielle, où les erreurs cumulatives sur de longues séquences d'actions sont le principal point de défaillance. L'émergence de ce modèle s'inscrit dans une tendance de fond : le déplacement du centre de gravité de l'IA générative vers des systèmes capables de raisonnement multi-étapes, jusqu'ici dominé par des acteurs propriétaires comme OpenAI avec o3 ou Anthropic avec Claude. Arcee AI, spécialisé dans les LLM d'entreprise et les modèles compacts à haute performance, propose ici une alternative ouverte et auditables pour les organisations qui ne peuvent ou ne souhaitent pas dépendre d'API fermées. Deux innovations techniques internes méritent attention : SMEBU (Soft-clamped Momentum Expert Bias Updates), une stratégie d'équilibrage de charge qui prévient l'effondrement des experts dans les architectures MoE, et l'utilisation du Muon optimizer pour améliorer l'efficacité d'entraînement. La suite logique sera de voir si la communauté open-source s'empare du modèle pour des déploiements auto-hébergés, et si Arcee maintient ce niveau de performance dans des évaluations tierces indépendantes au-delà de PinchBench.

UELa licence Apache 2.0 permet aux organisations européennes de déployer un modèle de raisonnement compétitif en auto-hébergement, réduisant leur dépendance aux API fermées américaines et s'alignant sur les objectifs de souveraineté numérique européenne.

LLMsOpinion
1 source
Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents
3MarkTechPost 

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

L'équipe Qwen d'Alibaba a publié Qwen3.6-27B, un modèle dense en open-weight de 27 milliards de paramètres disponible sous licence Apache 2.0 sur Hugging Face, en deux variantes : BF16 et FP8. Ce modèle se distingue notamment sur les benchmarks de codage agentique, où il surpasse des modèles bien plus imposants : il atteint 1 487 points sur QwenWebBench (génération de code frontend) contre 1 068 pour son prédécesseur Qwen3.5-27B, et 36,2 sur NL2Repo (génération de code à l'échelle d'un dépôt) contre 27,3. Sur SWE-bench Verified, référence du secteur pour les agents logiciels autonomes, il atteint 77,2, se rapprochant des 80,9 de Claude 4.5 Opus. Fait notable : ces performances dépassent celles du Qwen3.5-397B-A17B, un modèle Mixture-of-Experts quatorze fois plus grand. L'intérêt de cette publication tient à deux innovations concrètes. La première concerne le codage agentique : le modèle a été spécifiquement optimisé pour naviguer dans de larges bases de code, modifier plusieurs fichiers simultanément et produire du code exécutable cohérent, couvrant sept catégories allant du design web à la 3D. La seconde innovation, baptisée Thinking Preservation, répond à une limite structurelle des LLM actuels : par défaut, le raisonnement intermédiaire (chain-of-thought) n'est conservé que pour le message en cours et disparaît au tour suivant. Qwen3.6-27B propose une option pour conserver et réutiliser ces traces de raisonnement sur l'ensemble d'une conversation, ce qui réduit les tokens redondants et améliore l'utilisation du cache KV dans les workflows d'agents itératifs. Cette sortie s'inscrit dans une stratégie accélérée d'Alibaba sur les modèles ouverts : Qwen3.6-27B est le deuxième modèle de la famille Qwen3.6, après le Qwen3.6-35B-A3B (MoE à 3B paramètres actifs) lancé quelques semaines plus tôt, lui-même héritier de la série Qwen3.5. Sur le plan architectural, le modèle adopte une structure hybride originale répartie sur 64 couches : trois sublayers sur quatre utilisent Gated DeltaNet, une attention linéaire en O(n) bien plus efficace que l'attention classique quadratique O(n²), tandis qu'une couche sur quatre conserve l'attention standard. Cette conception permet de traiter de longs contextes avec un coût mémoire réduit, tout en maintenant la précision sur les tâches complexes. Compatible avec SGLang, vLLM et Hugging Face Transformers, le modèle vise directement les développeurs qui construisent des agents de codage, dans un segment où Anthropic et OpenAI restent pour l'instant en tête.

LLMsOpinion
1 source
DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement
4MarkTechPost 

DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement

DeepReinforce a publié Ornith-1.0, une famille de modèles open source conçue pour les agents de programmation autonomes. La gamme comprend quatre variantes : 9B dense, 31B dense, 35B en architecture mixture-of-experts (MoE), et un modèle flagship à 397B de paramètres, dont le 35B n'active qu'environ 3 milliards de paramètres par token en pratique. Tous les checkpoints sont publiés sous licence MIT sur Hugging Face et s'appuient sur un post-entraînement des modèles Gemma 4 de Google et Qwen 3.5 d'Alibaba. Le modèle 9B pèse environ 19 Go en bf16 et tourne sur un seul GPU de 80 Go, tandis que des versions FP8 et GGUF sont disponibles pour un déploiement local plus rapide. Les modèles exposent une interface compatible OpenAI, ce qui les rend compatibles sans modification avec les frameworks d'agents existants comme vLLM ou SGLang. Ce qui distingue Ornith-1.0 des autres modèles de codage, c'est son architecture d'apprentissage : au lieu d'être couplés à un harnais fixe et conçu à la main par des ingénieurs, ces modèles apprennent à écrire leur propre scaffold pendant la phase d'entraînement par renforcement, optimisant simultanément la logique d'orchestration et la solution au problème. DeepReinforce revendique des résultats à l'état de l'art parmi les modèles open source de taille comparable. Le flagship 397B surpasse Claude Opus 4.7 d'Anthropic sur les deux principaux benchmarks de codage, bien qu'il reste en retrait face à Claude Opus 4.8 et au GLM-5.2-744B de Zhipu AI. Pour les équipes qui cherchent une alternative open source aux modèles propriétaires sur des tâches d'agents complexes, Ornith-1.0 représente un saut qualitatif notable, avec une chaîne de déploiement suffisamment simple pour une adoption rapide. L'approche soulève néanmoins des questions sur la sécurité du système : un modèle capable de modifier son propre harnais pourrait théoriquement tenter de contourner les mécanismes de vérification pour maximiser sa récompense, phénomène connu sous le nom de reward hacking. DeepReinforce décrit trois couches de défense : une frontière de confiance fixe qui rend l'environnement et les tests inaccessibles au modèle, un moniteur déterministe basé sur des règles qui attribue un reward nul à tout comportement non sanctionné, et un juge LLM gelé qui agit comme veto sur le vérificateur principal. Cette publication s'inscrit dans une tendance plus large où les laboratoires de recherche indépendants, souvent bien moins dotés qu'OpenAI ou Google, misent sur l'open source et l'innovation architecturale pour se différencier. La compatibilité MIT et la disponibilité immédiate sur Hugging Face pourraient accélérer l'adoption dans les environnements d'entreprise où la souveraineté des données prime.

UELes entreprises européennes soucieuses de souveraineté des données peuvent auto-héberger Ornith-1.0 sous licence MIT comme alternative aux modèles propriétaires américains, sans dépendance à une API tierce.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic