Zyphra lance Zamba2-VL : modèles vision-langage…

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

50

1MarkTechPost

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion

1 source

Le consortium Soofi publie Soofi S 30B-A3B, un modèle hybride Mamba-Transformer MoE ouvert pour l'allemand et l'anglais

46

2MarkTechPost

Le consortium Soofi publie Soofi S 30B-A3B, un modèle hybride Mamba-Transformer MoE ouvert pour l'allemand et l'anglais

Souveraineté numérique allemande et européenne en IA : un consortium mené par la fédération professionnelle KI Bundesverband, avec le soutien du ministère fédéral allemand de l'Économie et de l'Énergie, vient de publier le rapport de pré-entraînement de Soofi S 30B-A3B, un nouveau modèle de fondation ouvert bilingue allemand-anglais. Développé avec Fraunhofer IAIS, le DFKI, l'université technique de Darmstadt, ellamind et Merantix Momentum, l'entraînement s'est déroulé intégralement sur l'Industrial AI Cloud de Deutsche Telekom à Munich, entre le 24 mars et le 13 mai 2026, mobilisant jusqu'à 512 GPU NVIDIA B200 pour un total d'environ 253 000 heures de calcul. Les poids en préversion sont disponibles sur Hugging Face. Techniquement, il s'agit d'un modèle hybride Mamba-Transformer à mélange d'experts (MoE), totalisant 31,6 milliards de paramètres dont seulement 3,2 milliards activés par token. Son architecture reprend sans modification le design de référence Nemotron 3 Nano de Nvidia : 52 couches réparties entre 23 couches Mamba-2, 23 couches MoE et seulement 6 couches d'attention GQA, ces dernières étant les seules à conserver un cache clé-valeur. Chaque couche MoE dispose de 128 experts routés, dont 6 sont activés par token, complétés par 2 experts partagés. Le modèle a ingéré environ 26 680 milliards de tokens en trois phases, avec une part de l'allemand passant de 7,2% à 15,32% des tokens entre les deux premières phases, contre à peine 5% pour toutes les langues non anglaises réunies dans la référence Nemotron, notamment grâce à Genios, qui fournit 193 millions d'articles issus de 916 archives de presse et de titres spécialisés sous licence commerciale. Cette approche paie sur les benchmarks : testé face à 16 autres modèles de base ouverts avec le même protocole d'évaluation, Soofi S affiche les meilleurs scores agrégés en anglais (70,1%) et en allemand (79,1%) parmi les modèles entièrement ouverts, devançant Olmo 3 32B, Apertus 70B, EuroLLM 22B et Alia 40B, avec des écarts particulièrement marqués en programmation, en mathématiques et en compréhension de texte allemand. Comparé à une version Nemotron 3 Nano entraînée sur les données de référence habituelles, le gain net attribuable uniquement à la recette de données allemande est de 1,8 point en anglais, 4,2 points en allemand et 6,7 points sur les tâches inédites en anglais, ce qui démontre que la performance vient bien du corpus et non de l'architecture. Pour l'industrie européenne de l'IA, ce résultat est significatif : il prouve qu'un modèle entraîné avec des ressources publiques et une gouvernance souveraine peut rivaliser avec des modèles bien plus gros comme Apertus 70B ou Alia 40B, tout en restant totalement ouvert et reproductible. Soofi S s'inscrit dans une dynamique plus large de modèles de fondation souverains, portée en réaction à la dépendance de l'Europe envers les modèles américains et chinois. Face aux meilleurs modèles ouverts toutes tailles confondues, il reste toutefois derrière Qwen3.5 35B-A3B, et se situe au coude à coude avec Gemma 3 27B et Ministral 3 14B en anglais, tout en les dépassant en allemand. S'agissant d'un modèle de base sans alignement ni réglage d'instructions, son usage direct reste réservé aux équipes techniques : les poids sont distribués en accès restreint avec un code de modélisation personnalisé, pensé pour être déployé sur des infrastructures comme vLLM. Les prochaines étapes attendues incluent probablement des versions instruites et alignées, ainsi qu'une adoption par des acteurs industriels allemands soucieux de disposer d'une alternative locale aux grands modèles propriétaires.

UECe modèle souverain germano-européen, développé avec le soutien d'institutions publiques allemandes et de Deutsche Telekom, illustre une alternative crédible à la dépendance de l'UE envers les modèles américains et chinois, sans concerner directement une entreprise ou institution française.

💬 Ce qui est intéressant ici, c'est que le gain vient à 100% de la recette de données allemande, pas de l'architecture (ils ont juste repris Nemotron 3 Nano tel quel). Autrement dit : la souveraineté en IA, ça se joue sur le corpus et les accords de licence presse, pas sur un exploit d'ingénierie exotique. Reste que c'est un modèle de base sans instruction, en accès restreint, donc pour l'instant c'est une preuve de concept pour labos et industriels allemands, pas un outil qu'on branche demain.

LLMsActu

1 source

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

44

3MarkTechPost

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion

1 source

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille

43

4MarkTechPost

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille

Zyphra AI a publié ZAYA1-8B, un petit modèle de langage de type Mixture of Experts (MoE) comptant 760 millions de paramètres actifs pour 8,4 milliards de paramètres au total. Entraîné intégralement sur des processeurs AMD, un cluster de 1 024 cartes AMD Instinct MI300x interconnectées via AMD Pensando Pollara, construit en partenariat avec IBM, le modèle est désormais disponible sous licence Apache 2.0 sur Hugging Face et en endpoint serverless sur Zyphra Cloud. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives avec des modèles bien plus grands sur les benchmarks de mathématiques et de code : il surpasse Claude 4.5 Sonnet et GPT-5-High sur le HMMT'25, une compétition de mathématiques avancées (89,6 points contre 88,3), et se rapproche des meilleurs modèles open-weight comme DeepSeek-V3.2. Cette efficacité repose sur une méthode inédite de calcul à l'inférence baptisée Markovian RSA, ainsi que sur une architecture MoE++ combinant trois innovations techniques : une attention convolutive compressée réduisant le KV-cache d'un facteur 8, un routeur basé sur un réseau de neurones MLP avec équilibrage de charge par contrôleur PID, et un mécanisme de mise à l'échelle résiduelle apprise pour stabiliser l'entraînement en profondeur. La distinction entre paramètres actifs et paramètres totaux est au coeur de l'intérêt du modèle. Dans un modèle classique, tous les paramètres s'activent à chaque token traité ; dans un MoE, seule une fraction des experts est sollicitée à chaque inférence. Avec seulement 760 millions de paramètres actifs par passe, ZAYA1-8B peut tourner en local sur des appareils grand public, s'intégrer dans des pipelines à calcul augmenté et servir des requêtes avec une latence réduite, tout en maintenant des performances proches de modèles dix fois plus grands. Pour les développeurs et entreprises qui cherchent à déployer des capacités de raisonnement avancées sans infrastructure lourde, ce rapport coût-performance représente une avancée concrète. ZAYA1-8B s'inscrit dans une tendance de fond qui voit plusieurs laboratoires challenger, DeepSeek en tête depuis début 2025, démontrer que l'architecture et la méthode d'entraînement comptent autant que la taille brute des modèles. Zyphra, encore peu connu du grand public, affirme avoir bâti un pipeline d'entraînement en cinq étapes post-préentraînement, intégrant notamment un échauffement au raisonnement, du reinforcement learning en cascade, et des étapes spécifiques de calcul augmenté à l'inférence. L'entraînement entièrement réalisé sur AMD est également un signal politique : dans un secteur dominé par Nvidia, valider une chaîne de production complète sur hardware concurrent ouvre la voie à une diversification des infrastructures IA. Les prochains modèles de Zyphra, selon ses propres communications, viseront des tailles supérieures avec la même philosophie d'efficacité par paramètre.

LLMsOpinion

1 source

Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10

À lire aussi

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

Le consortium Soofi publie Soofi S 30B-A3B, un modèle hybride Mamba-Transformer MoE ouvert pour l'allemand et l'anglais

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille