Cohere lance North Mini Code, un modèle MoE open-weight de 30B paramètres (3B actifs) pour le codage par agents autonomes
Cohere a lancé cette semaine North Mini Code, son premier modèle de code destiné aux développeurs. Il s'agit d'un modèle à mixture d'experts (MoE) de 30 milliards de paramètres totaux, dont seulement 3 milliards s'activent à chaque passage, ce qui le rend à la fois compact et performant. Le modèle supporte une fenêtre de contexte de 256 000 tokens avec une génération maximale de 64 000 tokens, et tourne sur un minimum d'un GPU H100 en FP8. Les poids sont publiés sous licence Apache 2.0 sur Hugging Face, et le modèle est également accessible via l'API Cohere, le Model Vault et OpenRouter. Sur les benchmarks, il obtient un score de 33,4 sur l'Artificial Analysis Coding Index, et a été évalué sur SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench v2, SciCode et LiveCodeBench v6, avec trois passes par benchmark pour fiabiliser les résultats.
L'intérêt principal de North Mini Code réside dans son efficacité opérationnelle : en tests internes, il atteint un débit de sortie jusqu'à 2,8 fois supérieur à celui de Devstral Small 2, à matériel et concurrence identiques, avec une latence inter-token améliorée de 30 %. Ce profil permet aux équipes de l'héberger elles-mêmes sans infrastructure GPU massive, ce que Cohere appelle l'IA "souveraine". Concrètement, il couvre trois usages principaux : la génération de code, l'ingénierie logicielle agentique (où un agent principal délègue des sous-tâches à des assistants spécialisés), et les tâches terminal comme lancer des builds ou parser des sorties. Il prend également en charge le "thinking" intercalé et l'utilisation native d'outils, ce qui l'inscrit directement dans les architectures multi-agents modernes.
Ce lancement s'inscrit dans une tendance de fond : la prolifération des petits modèles spécialisés capables de rivaliser avec des systèmes bien plus lourds sur des tâches précises. L'architecture choisie, un transformer décodeur avec couches MoE parcimonieuses, 128 experts par bloc feed-forward dont 8 activés par token, et une attention mixant sliding-window et globale dans un ratio 3:1, est typique des designs qui optimisent le ratio capacité/coût de calcul. Cohere concurrence directement Mistral (Devstral) et d'autres acteurs du codage agentique open-weight, dans un marché où les entreprises cherchent à conserver la maîtrise de leur infrastructure IA sans sacrifier la puissance. Le fait que North Mini Code soit entraîné en deux phases, fine-tuning supervisé en cascade puis apprentissage par renforcement à récompenses vérifiables (RLVR), reflète la maturité croissante des pipelines post-entraînement pour les tâches d'ingénierie logicielle autonome.
Les entreprises et développeurs européens peuvent adopter ce modèle open-weight sous licence Apache 2.0 en auto-hébergement sur un seul GPU H100, en cohérence avec les objectifs de souveraineté numérique défendus par l'UE.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



