Aller au contenu principal
Cohere publie en open source un agent de code fonctionnant sur un seul H100
LLMsVentureBeat AI13h

Cohere publie en open source un agent de code fonctionnant sur un seul H100

Résumé IASource uniqueImpact UE
Source originale ↗·

Cohere a lancé mardi North Mini Code, un modèle de codage agentique open source de 30 milliards de paramètres au format mixture-of-experts (MoE), avec seulement 3 milliards de paramètres actifs par token. Disponible sur Hugging Face sous licence Apache 2.0, il supporte une fenêtre de contexte de 256 000 tokens et une génération maximale de 64 000 tokens. Sa particularité technique : il tourne sur un seul GPU H100, et Nick Frosst, cofondateur de Cohere, l'a même démontré en fonctionnement sur un Mac Studio via MLX avec 20 Go de RAM. Le modèle a été entraîné via deux phases de fine-tuning supervisé suivies d'apprentissage par renforcement sur plus de 70 000 tâches vérifiables issues d'environ 5 000 dépôts, dédupliqués par rapport à SWE-Bench. Cohere revendique des performances supérieures aux modèles open source jusqu'à quatre fois plus grands, dont des modèles à 120 milliards de paramètres.

North Mini Code représente une alternative concrète aux modèles propriétaires pour les équipes d'ingénierie qui veulent déployer des pipelines de codage agentique en interne, sans dépendre d'API externes. Le modèle gère l'orchestration de sous-agents, la cartographie d'architecture, la revue de code sur de larges bases de code multi-fichiers et le travail en environnement terminal. Selon les mesures indépendantes d'Artificial Analysis, il atteint 210 tokens par seconde avec un temps au premier token de 0,25 seconde, contre une médiane de 1,95 seconde pour sa catégorie. Face à Mistral Devstral Small 2 (24 milliards de paramètres dense), Cohere revendique un débit de sortie 2,8 fois supérieur et une latence inter-token réduite de 30 % dans des conditions matérielles identiques. Ces chiffres positionnent le modèle comme une option sérieuse pour des charges de production à volume élevé.

Il existe néanmoins un point de vigilance notable : lors des tests de l'Intelligence Index d'Artificial Analysis, North Mini Code a généré 75 millions de tokens en sortie pour compléter l'évaluation, contre une médiane de 25 millions pour les modèles comparables. Cette verbosité excessive peut tripler les coûts d'inférence dans des pipelines agentiques intensifs, là où chaque appel enchaîne plusieurs étapes. Cohere a par ailleurs entraîné le modèle sur trois scaffolds d'agents distincts (SWE-Agent, Mini-SWE-Agent et OpenCode) plutôt qu'un seul, gagnant 10 points de pourcentage sur l'évaluation OpenCode tout en maintenant les performances sur SWE-Agent. Le modèle s'inscrit dans un marché en rapide consolidation face à GitHub Copilot, Cursor et les derniers modèles Mistral, où la capacité à s'auto-héberger sur du matériel standard devient un avantage différenciant majeur pour les entreprises soucieuses de contrôle et de coût.

Impact France/UE

Le modèle open source sous licence Apache 2.0 offre aux équipes d'ingénierie européennes une option concrète d'auto-hébergement pour des pipelines de codage agentique, réduisant la dépendance aux API propriétaires américaines dans un contexte de sensibilité croissante à la souveraineté des données.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
1VentureBeat AI 

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go

Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement. Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité. Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.

UELe traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.

💬 C'est le genre de truc qu'on attendait depuis 2 ans : un modèle multimodal qui tourne sur ta machine sans envoyer tes données chez Google. Supprimer les encodeurs séparés pour projeter audio et vidéo directement dans l'espace d'embedding, c'est pas du cosmétique, ça réduit la mémoire nécessaire à quelque chose d'atteignable sur du matériel grand public. Pour les boîtes en santé ou finance qui se battent avec le RGPD, t'as enfin une base sérieuse.

LLMsActu
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
2MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2
3MarkTechPost 

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

MiniMax a rendu public les poids de son modèle MiniMax M2.7 sur Hugging Face, officiellement annoncé le 18 mars 2026. Il s'agit du modèle open source le plus performant de l'entreprise à ce jour, construit sur une architecture Mixture-of-Experts (MoE) qui n'active qu'une fraction des paramètres à chaque inférence, rendant le modèle nettement plus rapide et moins coûteux à faire tourner qu'un modèle dense de qualité comparable. M2.7 est conçu autour de trois axes : l'ingénierie logicielle professionnelle, la productivité bureautique avancée, et ce que MiniMax appelle les "Agent Teams", une capacité native de collaboration multi-agents. Sur le benchmark SWE-Pro, qui évalue la maîtrise de plusieurs langages de programmation à travers des tâches d'analyse de logs, débogage, revue de sécurité et workflows machine learning, M2.7 atteint 56,22 %, à égalité avec GPT-5.3-Codex. Il obtient également 57,0 % sur Terminal Bench 2, 39,8 % sur NL2Repo, et 55,6 % sur VIBE-Pro, benchmark de génération de code à l'échelle d'un dépôt, plaçant le modèle au niveau de Claude Opus 4.6 sur des tâches couvrant Web, Android, iOS et simulation. Ce qui distingue M2.7, c'est sa capacité à intervenir sur des systèmes en production réels. Face à une alerte critique, le modèle peut corréler des métriques de monitoring avec des timelines de déploiement, conduire une analyse statistique sur des traces d'échantillonnage, se connecter proactivement à des bases de données pour vérifier la cause racine, identifier des fichiers de migration d'index manquants dans un dépôt, puis appliquer une création d'index non bloquante avant de soumettre une merge request, le tout en moins de trois minutes selon les équipes MiniMax. Ce positionnement dépasse largement la génération de code : il s'agit d'un modèle capable de raisonnement causal de niveau SRE (Site Reliability Engineering), un profil rare parmi les modèles disponibles en open source. Le détail le plus frappant de M2.7 est son architecture d'auto-évolution. Le modèle a été chargé d'optimiser lui-même ses propres performances sur un scaffold interne, sans intervention humaine. Il a conduit plus de 100 itérations autonomes selon une boucle : analyser les trajectoires d'échec, planifier des modifications, toucher au code du scaffold, relancer des évaluations, comparer les résultats, décider de conserver ou annuler les changements. Au fil de ce processus, M2.7 a découvert seul des optimisations efficaces, notamment la recherche systématique de la combinaison optimale de paramètres d'échantillonnage (température, frequency penalty, presence penalty), la conception de guidelines de workflow plus précises, et l'ajout d'une détection de boucles infinies dans l'agent loop. Résultat : une amélioration de 30 % sur les ensembles d'évaluation internes. Au sein des équipes de reinforcement learning de MiniMax, M2.7 gère désormais 30 à 50 % des workflows de bout en bout, les chercheurs humains n'intervenant que pour les décisions critiques, un signal fort que la frontière entre outil et collaborateur est en train de se déplacer.

UELes développeurs et entreprises européens peuvent déployer librement les poids de ce modèle open source pour des tâches d'ingénierie logicielle avancée, réduisant leur dépendance aux API propriétaires.

💬 Un modèle open source qui a passé 100 itérations à modifier son propre scaffold et s'est amélioré de 30 % tout seul, c'est le truc qu'on lisait dans les papiers de recherche il y a 18 mois. Là c'est sorti sur Hugging Face, avec les poids, et des benchmarks qui le placent au niveau de Claude Opus 4.6 sur du code à l'échelle d'un dépôt réel. Reste à voir si ça tient hors du contexte lab, mais pour une fois l'architecture MoE n'est pas juste un argument marketing pour réduire les coûts d'inférence : ça donne un modèle qu'on peut faire tourner sans louer un datacenter.

LLMsActu
1 source
Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100
4MarkTechPost 

Cohere lance Command A+, un modèle MoE sparse de 218 milliards de paramètres pour agents autonomes, utilisable sur seulement deux GPU H100

Cohere a publié Command A+, un modèle open source sous licence Apache 2.0 conçu pour les workflows agentiques en entreprise. Architecturé comme un Transformer sparse Mixture-of-Experts (MoE) décodeur uniquement, le modèle totalise 218 milliards de paramètres mais n'en active que 25 milliards par inférence, grâce à un mécanisme de routage vers 8 experts parmi 128 disponibles. Cette architecture permet de faire tourner Command A+ sur seulement deux GPU H100 en quantification W4A4 4 bits, ou sur quatre H100 en FP8, rendant le déploiement on-premise accessible sans infrastructure exorbitante. Le modèle prend en charge une fenêtre de contexte de 128 000 tokens, génère jusqu'à 64 000 tokens, traite texte, images et appels d'outils, et couvre désormais 48 langues contre 23 pour ses prédécesseurs. Il fusionne en un seul modèle les capacités de quatre modèles précédents : Command A, Command A Reasoning, Command A Vision et Command A Translate. Les gains de performance sont substantiels. Sur le benchmark tau²-Bench Telecom, Command A+ passe de 37 % à 85 % par rapport à Command A Reasoning. Sur Terminal-Bench Hard, référence pour le codage agentique difficile, le score bondit de 3 % à 25 %. En interne, Cohere mesure une amélioration de 20 % en question-réponse agentique, de 32 % en analyse de tableurs, et la capacité à exploiter la mémoire de sessions précédentes atteint 54 % contre 39 %. Sur le plan multimodal, MathVista progresse de 73,5 % à 80,6 % et Command A+ décroche 37 points sur l'Artificial Analysis Intelligence Index, devançant les principaux modèles open source concurrents. La quantification W4A4, appliquée uniquement aux couches MoE tout en conservant les projections d'attention en pleine précision, n'entraîne aucune dégradation mesurable sur les benchmarks et améliore le débit de sortie de 63 % tout en réduisant le temps avant premier token de 17 % par rapport à Command A Reasoning. Command A+ s'inscrit dans une tendance de fond qui voit les grands laboratoires chercher à réduire drastiquement le coût d'inférence sans sacrifier la qualité. Cohere, positionné historiquement sur le segment entreprise face à OpenAI, Anthropic et Google, mise sur la portabilité et la souveraineté des déploiements : la licence Apache 2.0 permet un usage commercial libre, un argument de poids pour les organisations qui refusent de dépendre de fournisseurs cloud. La technique de distillation avec prise en compte de la quantification (Quantization-Aware Distillation) utilisée en post-entraînement illustre la maturité croissante des méthodes de compression, qui commencent à rivaliser avec les modèles denses pleine précision sur des tâches complexes. La prochaine question sera de savoir si des performances agentiques aussi élevées sur deux H100 suffiront à convaincre les DSI d'internaliser leurs inférences plutôt que de passer par les API managées.

UELa licence Apache 2.0 et la possibilité de déployer Command A+ sur seulement deux GPU H100 ouvrent aux entreprises européennes une option d'inférence on-premise souveraine, réduisant leur dépendance aux APIs cloud américaines.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour