Aller au contenu principal
LLMsAhead of AI4sem

Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)

1 source couvre ce sujet·Source originale ↗·

Entre janvier et février 2026, une vague exceptionnelle de modèles de langage open-weight a déferlé sur la communauté IA, avec dix architectures majeures publiées en l'espace de trois semaines. Parmi les sorties les plus remarquées : Trinity Large d'Arcee AI (27 janvier), Kimi K2.5 de Moonshot AI (27 janvier), Step 3.5 Flash de StepFun (1er février), Qwen3-Coder-Next (3 février), GLM-5 de z.AI et MiniMax M2.5 (12 février), Nanbeige 4.1 3B (13 février), Qwen 3.5 (15 février), les modèles Ling 2.5 et Ring 2.5 à 1 000 milliards de paramètres d'Ant Group (16 février), et enfin Tiny Aya de Cohere (17 février). Le modèle phare de cette période reste Trinity Large d'Arcee AI : un Mixture-of-Experts de 400 milliards de paramètres, dont seulement 13 milliards sont activés à chaque inférence, accompagné de deux variantes plus légères — Trinity Mini (26B/3B actifs) et Trinity Nano (6B/1B actifs). Arcee AI a publié les poids du modèle ainsi qu'un rapport technique détaillé, d'abord sur GitHub puis sur arXiv à partir du 18 février.

Cette effervescence illustre une démocratisation accélérée des modèles de grande taille : des entreprises jusqu'ici discrètes, comme Arcee AI, publient désormais des architectures compétitives avec les géants comme z.AI et son GLM-4.5 (355 milliards de paramètres). Sur le plan technique, Trinity Large rivalise avec GLM-4.5 en performances sur les modèles de base — une parité remarquable pour une start-up américaine encore peu connue. Ces modèles open-weight permettent à des équipes de recherche, des entreprises et des développeurs indépendants de déployer des LLMs puissants sans dépendre des API commerciales fermées, ce qui réduit les coûts et augmente la souveraineté technologique.

Sur le plan architectural, cette génération de modèles converge vers plusieurs innovations communes. L'attention à fenêtre glissante (sliding window attention, SWA) — qui réduit le coût computationnel de O(n²) à O(n·t) en limitant chaque token à une fenêtre locale fixe — est adoptée par Trinity, Gemma 3, OLMo 3 ou encore Xiaomi MiMo. Trinity opte pour un ratio local:global de 3:1 avec une fenêtre de 4 096 tokens. L'architecture intègre également le QK-Norm (normalisation des clés et requêtes pour stabiliser l'entraînement), l'absence d'encodage positionnel dans les couches d'attention globale (NoPE), et un mécanisme de gating sur l'attention qui réduit les "attention sinks" et améliore la généralisation sur les longues séquences. Ces choix architecturaux convergents signalent une forme de consensus émergeant dans la communauté open-weight sur les meilleures pratiques pour les modèles à très long contexte — une tendance qui devrait s'accentuer avec les prochaines sorties, dont DeepSeek V4, attendu prochainement.

Impact France/UE

Les équipes de recherche et entreprises européennes peuvent déployer ces modèles open-weight puissants sans dépendre des API commerciales fermées, réduisant les coûts et renforçant leur souveraineté technologique.

À lire aussi

1The Decoder 

Une fuite révèle Claude Mythos, le nouveau modèle Anthropic aux scores nettement supérieurs à tous ses prédécesseurs

Anthropic a involontairement exposé l'existence de son modèle d'intelligence artificielle le plus puissant à ce jour à cause d'une faille de sécurité élémentaire. Le modèle, baptisé Claude Mythos, afficherait des scores « nettement supérieurs » à tous les modèles précédents de la société sur les benchmarks d'évaluation standards. La fuite, survenue début 2026, n'était pas une annonce planifiée mais bien une erreur technique — un accès non sécurisé ayant laissé filtrer des informations internes sur la prochaine génération de modèles Anthropic. Cet incident intervient à un moment particulièrement sensible pour l'entreprise : OpenAI prépare également le lancement de sa propre génération suivante de modèles. Pour les deux sociétés, qui cherchent à consolider leur position sur un marché de plus en plus compétitif, la capacité à démontrer une supériorité technique avant une éventuelle introduction en bourse représente un enjeu considérable. La fuite involontaire d'Anthropic pourrait ainsi accélérer la communication officielle autour de Claude Mythos, sous peine de laisser le narratif se construire sans contrôle. Anthropic, fondée en 2021 par d'anciens membres d'OpenAI dont Dario et Daniela Amodei, a levé plusieurs milliards de dollars ces dernières années auprès d'Amazon et Google notamment. La société a bâti sa réputation sur une approche centrée sur la sécurité des systèmes d'IA avec sa méthodologie « Constitutional AI ». Une annonce officielle autour de Claude Mythos est désormais attendue prochainement, la fuite ayant de facto brûlé l'effet de surprise que l'entreprise réservait probablement pour un événement marketing soigneusement orchestré.

UEL'arrivée prochaine d'un modèle potentiellement de référence influencera les choix technologiques des développeurs et entreprises européens adoptant des solutions d'IA générative.

LLMsActu
1 source
2Presse-citron 

Claude Mythos : la nouvelle IA d’Anthropic va faire trembler la concurrence et pourrait bouleverser tout internet

Anthropic prépare une nouvelle génération de modèle d'intelligence artificielle baptisée « Claude Mythos », qui représenterait un bond technologique significatif par rapport aux versions actuelles Claude Opus et Claude Sonnet. Selon les informations disponibles, ce modèle serait nettement plus puissant que ses prédécesseurs, positionnant Anthropic dans une course directe avec OpenAI, Google DeepMind et Meta pour la domination du marché des grands modèles de langage. L'enjeu est considérable : un modèle de cette envergure pourrait redéfinir les standards de l'industrie et accélérer l'adoption de l'IA dans des secteurs critiques — droit, médecine, ingénierie logicielle. Mais Anthropic elle-même s'inquiète des risques que ce lancement ferait peser sur la cybersécurité, notamment la capacité du modèle à faciliter des attaques informatiques sophistiquées ou à automatiser des opérations malveillantes à grande échelle. Cette tension entre puissance et sécurité est au cœur de la philosophie d'Anthropic, fondée en 2021 par d'anciens cadres d'OpenAI précisément pour développer une IA « constitutionnelle » et alignée sur les valeurs humaines. Avec Claude Mythos, la startup — valorisée à plus de 60 milliards de dollars après ses dernières levées de fonds — devra arbitrer entre impératif commercial et responsabilité, dans un contexte réglementaire international de plus en plus scrutateur.

UEUn modèle aussi puissant sera soumis à l'AI Act européen, notamment aux obligations de transparence et d'évaluation des risques pour les systèmes à haut risque.

LLMsOpinion
1 source
3The Decoder 

Anthropic confirme que le modèle divulgué représente un saut qualitatif en raisonnement, après une fuite de données

Anthropic a involontairement révélé l'existence de son modèle d'intelligence artificielle le plus puissant à ce jour à la suite d'une faille de sécurité basique. La fuite de données a exposé un modèle que la société n'avait pas encore annoncé officiellement, et qu'Anthropic a depuis confirmé représenter un « changement d'étape » significatif dans les capacités de raisonnement par rapport à ses versions précédentes. L'incident s'est produit alors que la startup californienne préparait discrètement ce qui s'annonce comme sa prochaine grande sortie publique. La confirmation par Anthropic que ce modèle constitue une avancée majeure en matière de raisonnement donne un aperçu de la direction que prend la course aux grands modèles de langage. Pour les développeurs et les entreprises qui s'appuient sur les API d'Anthropic, cela signifie qu'une nouvelle génération de capacités — vraisemblablement plus performantes sur les tâches complexes et multi-étapes — est imminente. La fuite force également Anthropic à communiquer plus tôt que prévu sur sa feuille de route technique. Cet épisode s'inscrit dans un contexte de compétition intense entre Anthropic et OpenAI, qui prépare simultanément ses propres modèles de nouvelle génération. Les deux sociétés semblent engagées dans une course pour démontrer leur supériorité technique avant d'éventuelles introductions en bourse ou levées de fonds majeures. Pour Anthropic, fondée en 2021 par d'anciens cadres d'OpenAI et valorisée à plusieurs dizaines de milliards de dollars, chaque annonce produit constitue un signal fort pour investisseurs et partenaires commerciaux.

UELes développeurs et entreprises européennes utilisant l'API Claude d'Anthropic bénéficieront prochainement de capacités de raisonnement améliorées, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

💬 En tant que développeur, je constate à quel point chaque nouveau modèle représente un bond qualitatif majeur. La facilité avec laquelle les nouveaux modèles identifient les limites de leurs prédécesseurs est stupéfiante — et témoigne d'une accélération qui ne montre aucun signe de ralentissement. L'amélioration récursive complète est-elle vraiment si loin ?

LLMsActu
1 source
4Les Numériques IA 

Actualité : “Un seuil a été franchi” : le nouveau modèle de Claude a fuité par erreur, Anthropic évoque des capacités sans précédent

Anthropic a involontairement dévoilé l'existence de son prochain modèle phare, baptisé Claude Mythos, à la suite d'une erreur de configuration dans son système de gestion de contenu. Un brouillon de page interne est brièvement devenu accessible au public, révélant le nom du modèle ainsi que plusieurs formulations suggérant des capacités inédites. La société a rapidement retiré le document, mais des captures d'écran avaient déjà circulé sur les réseaux sociaux et les forums spécialisés. Ce type de fuite est rare chez Anthropic, réputé pour sa discrétion opérationnelle, et l'incident soulève l'attention de l'ensemble du secteur. Le fait que l'entreprise elle-même qualifie les capacités de Mythos de "sans précédent" et évoque un "seuil franchi" laisse entendre un bond qualitatif significatif par rapport à Claude 3.5 et à la série actuelle Claude 4. Pour les développeurs, entreprises et concurrents qui suivent la course aux modèles de fondation, ce signal — même involontaire — pèse lourd dans l'évaluation des dynamiques compétitives. Anthropic se positionne depuis plusieurs années comme l'alternative "safety-first" face à OpenAI et Google DeepMind, avec une communication volontairement mesurée. La fuite de Mythos intervient dans un contexte d'accélération brutale du secteur : GPT-5, Gemini Ultra 2 et plusieurs modèles open-source ont rehaussé les attentes du marché en quelques mois. Si Mythos tient ses promesses implicites, il pourrait redéfinir le positionnement d'Anthropic — et forcer ses rivaux à accélérer leurs propres calendriers de lancement.

UELes acteurs européens qui évaluent ou déploient des modèles de fondation pourraient devoir réévaluer leurs choix technologiques si les capacités annoncées se confirment lors du lancement officiel.

LLMsActu
1 source