Aller au contenu principal
LLMsMarkTechPost3sem

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

Résumé IASource uniqueImpact UE
Source originale ↗·

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai.

Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6).

Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

Impact France/UE

La disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)
1MarkTechPost 

AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)

Une équipe de chercheurs chinois a publié AntAngelMed, un modèle de langage médical open-source présenté comme le plus grand et le plus performant de sa catégorie. Avec 103 milliards de paramètres au total, il repose sur une architecture Mixture-of-Experts (MoE) avec un ratio d'activation de 1/32 : seuls 6,1 milliards de paramètres sont effectivement mobilisés lors du traitement d'une requête. Construit à partir de Ling-flash-2.0, un modèle de base développé par inclusionAI, AntAngelMed intègre plusieurs optimisations techniques, notamment un routage sigmoïde sans perte auxiliaire, une couche de prédiction multi-token (MTP) et un positionnement rotatif partiel (Partial-RoPE). Son entraînement se déroule en trois phases : une pré-entraînement continu sur de vastes corpus médicaux (encyclopédies, publications académiques, textes web), un affinage supervisé sur un jeu de données mêlant raisonnement général et scénarios cliniques (dialogues médecin-patient, diagnostics, cas éthiques), puis un renforcement par apprentissage via l'algorithme GRPO (Group Relative Policy Optimization), issu des travaux de DeepSeekMath. Sur GPU H20, le modèle dépasse 200 tokens par seconde, avec un contexte supporté de 128 000 tokens grâce à l'extrapolation YaRN. La performance revendiquée est frappante : avec seulement 6,1 milliards de paramètres activés, AntAngelMed rivalise selon ses créateurs avec des modèles denses d'environ 40 milliards de paramètres, soit un facteur d'efficacité de 7x. Sa vitesse d'inférence est environ 3 fois supérieure à celle d'un modèle dense de 36 milliards de paramètres. Une version quantifiée en FP8 combinée au décodage spéculatif EAGLE3 améliore encore le débit à concurrence de 32 requêtes simultanées : +71% sur le benchmark HumanEval et +45% sur GSM8K. Ces gains sont particulièrement significatifs pour des déploiements médicaux, où la rapidité de réponse et la fiabilité des informations ont un impact direct sur les décisions cliniques, et où le coût de calcul conditionne l'accessibilité des outils dans les systèmes de santé sous-dotés. Le développement d'AntAngelMed s'inscrit dans une dynamique plus large de démocratisation des IA médicales spécialisées. Jusqu'ici, les modèles de santé performants tendaient à être propriétaires ou trop gourmands en ressources pour un déploiement hospitalier étendu. L'architecture MoE, popularisée notamment par Mistral et DeepSeek, permet de contourner cette contrainte en dissociant capacité totale et coût d'inférence. La publication en open-source sur ModelScope ouvre la voie à des adaptations locales dans des contextes aux infrastructures limitées. Le recours au GRPO pour aligner le modèle sur des critères d'empathie, de sécurité et de raisonnement fondé sur les preuves reflète la maturité croissante des approches d'alignement dans le domaine médical, secteur où les hallucinations peuvent avoir des conséquences concrètes et graves.

UELes établissements de santé européens, notamment ceux aux infrastructures limitées, pourraient déployer ce modèle open-source pour des applications cliniques, sous réserve de conformité avec l'AI Act qui classe l'IA médicale en catégorie à haut risque.

LLMsOpinion
1 source
IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise
2MarkTechPost 

IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise

IBM a lancé Granite 4.0 3B Vision, un modèle de langage visuel (VLM) conçu spécifiquement pour l'extraction de données documentaires en entreprise. Contrairement aux grands modèles multimodaux monolithiques, ce modèle adopte une architecture modulaire : il se présente sous forme d'adaptateur LoRA d'environ 0,5 milliard de paramètres, conçu pour se greffer sur le modèle de base Granite 4.0 Micro (3,5 milliards de paramètres). Cette configuration permet un déploiement en « double mode » — le modèle texte fonctionne de manière autonome, et le composant visuel n'est activé qu'en cas de besoin. Pour traiter les images haute résolution, le modèle découpe les documents en tuiles de 384×384 pixels via l'encodeur visuel SigLIP2 de Google, tout en conservant une vue globale réduite de l'image. Les tokens visuels sont ensuite injectés dans le modèle de langage en 8 points d'ancrage distincts grâce à l'architecture DeepStack, assurant un alignement précis entre contenu sémantique et mise en page spatiale. En matière de performances, le modèle atteint 85,5 % de correspondance exacte en extraction de paires clé-valeur sur le benchmark VAREX (zéro-shot), et se classe troisième parmi les modèles de 2 à 4 milliards de paramètres sur ce leaderboard en mars 2026. L'enjeu principal de cette sortie est de permettre aux entreprises d'automatiser l'extraction structurée de données à partir de documents complexes — tableaux financiers, graphiques analytiques, formulaires — avec un modèle compact et déployable localement. Là où les grands modèles généralistes sacrifient la précision structurelle au profit de la polyvalence, Granite 4.0 3B Vision est entraîné spécifiquement sur la conversion de graphiques en CSV ou JSON, la reconnaissance de structures de tableaux en HTML, et l'extraction de paires clé-valeur. IBM a notamment utilisé ChartNet, un dataset multimodal à l'échelle du million d'exemples, ainsi qu'une pipeline d'entraînement « guidée par le code » qui aligne le code de génération d'un graphique, son rendu visuel et la table de données sous-jacente. Cette approche permet au modèle de comprendre la relation structurelle entre une représentation visuelle et sa source, plutôt que de simplement décrire une image. Ce lancement s'inscrit dans la stratégie d'IBM de positionner sa gamme Granite comme une alternative open-source et souveraine aux solutions propriétaires de Microsoft, Google ou Anthropic pour les usages entreprise. La tendance à l'architecture modulaire — un socle texte augmenté d'adaptateurs spécialisés — reflète une évolution plus large du secteur vers des modèles efficaces en ressources, déployables sur des infrastructures maîtrisées plutôt que dans le cloud public. Avec la prolifération des obligations réglementaires autour de la traçabilité des données (RGPD, AI Act européen), des modèles capables de traiter des documents sensibles en local représentent un avantage concurrentiel significatif. La prochaine étape pour IBM sera d'intégrer ce composant dans ses pipelines documentaires Watson et de le rendre accessible via watsonx, sa plateforme d'IA d'entreprise.

UELe déploiement local de Granite 4.0 3B Vision facilite la conformité RGPD et AI Act pour les entreprises européennes traitant des documents sensibles, en évitant tout transfert vers le cloud américain.

LLMsOpinion
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
3MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
4MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour