
Cohere publie en open source un agent de code fonctionnant sur un seul H100
Cohere a lancé mardi North Mini Code, un modèle de codage agentique open source de 30 milliards de paramètres au format mixture-of-experts (MoE), avec seulement 3 milliards de paramètres actifs par token. Disponible sur Hugging Face sous licence Apache 2.0, il supporte une fenêtre de contexte de 256 000 tokens et une génération maximale de 64 000 tokens. Sa particularité technique : il tourne sur un seul GPU H100, et Nick Frosst, cofondateur de Cohere, l'a même démontré en fonctionnement sur un Mac Studio via MLX avec 20 Go de RAM. Le modèle a été entraîné via deux phases de fine-tuning supervisé suivies d'apprentissage par renforcement sur plus de 70 000 tâches vérifiables issues d'environ 5 000 dépôts, dédupliqués par rapport à SWE-Bench. Cohere revendique des performances supérieures aux modèles open source jusqu'à quatre fois plus grands, dont des modèles à 120 milliards de paramètres.
North Mini Code représente une alternative concrète aux modèles propriétaires pour les équipes d'ingénierie qui veulent déployer des pipelines de codage agentique en interne, sans dépendre d'API externes. Le modèle gère l'orchestration de sous-agents, la cartographie d'architecture, la revue de code sur de larges bases de code multi-fichiers et le travail en environnement terminal. Selon les mesures indépendantes d'Artificial Analysis, il atteint 210 tokens par seconde avec un temps au premier token de 0,25 seconde, contre une médiane de 1,95 seconde pour sa catégorie. Face à Mistral Devstral Small 2 (24 milliards de paramètres dense), Cohere revendique un débit de sortie 2,8 fois supérieur et une latence inter-token réduite de 30 % dans des conditions matérielles identiques. Ces chiffres positionnent le modèle comme une option sérieuse pour des charges de production à volume élevé.
Il existe néanmoins un point de vigilance notable : lors des tests de l'Intelligence Index d'Artificial Analysis, North Mini Code a généré 75 millions de tokens en sortie pour compléter l'évaluation, contre une médiane de 25 millions pour les modèles comparables. Cette verbosité excessive peut tripler les coûts d'inférence dans des pipelines agentiques intensifs, là où chaque appel enchaîne plusieurs étapes. Cohere a par ailleurs entraîné le modèle sur trois scaffolds d'agents distincts (SWE-Agent, Mini-SWE-Agent et OpenCode) plutôt qu'un seul, gagnant 10 points de pourcentage sur l'évaluation OpenCode tout en maintenant les performances sur SWE-Agent. Le modèle s'inscrit dans un marché en rapide consolidation face à GitHub Copilot, Cursor et les derniers modèles Mistral, où la capacité à s'auto-héberger sur du matériel standard devient un avantage différenciant majeur pour les entreprises soucieuses de contrôle et de coût.
Le modèle open source sous licence Apache 2.0 offre aux équipes d'ingénierie européennes une option concrète d'auto-hébergement pour des pipelines de codage agentique, réduisant la dépendance aux API propriétaires américaines dans un contexte de sensibilité croissante à la souveraineté des données.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




