Alibaba lance Qwen3.7-Plus : texte, vidéo et…

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

42

1MarkTechPost

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu

1 source

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

46

2MarkTechPost

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

L'équipe Qwen d'Alibaba a lancé le 2 juin 2026 le modèle Qwen3.7-Plus, désormais disponible via API sur la plateforme Bailian d'Alibaba Cloud, accessible aux développeurs internationaux sous le nom Model Studio. Ce modèle multimodal comprend les images et les vidéos en plus du texte, ce qui le distingue de son frère jumeau Qwen3.7-Max, exclusivement textuel. Il s'agit d'une capacité de lecture visuelle, non de génération : Qwen3.7-Plus analyse des médias, il ne les crée pas. Au-delà de la vision, le modèle intègre cinq capacités agentiques : raisonnement approfondi, autoprogrammation (il écrit et révise son propre code), invocation d'outils externes et d'API, vérification et test des résultats, et itération autonome jusqu'à l'accomplissement complet d'une tâche. La préversion du modèle s'est classée 16e au classement Vision Arena de LM Arena, plaçant Alibaba au 5e rang mondial des laboratoires en compréhension visuelle. Le modèle texte Max, de son côté, avait obtenu 56,6 points sur l'Artificial Analysis Intelligence Index, meilleur score d'un modèle chinois à sa sortie. Cette sortie marque un tournant dans la stratégie d'Alibaba : le groupe ne cherche plus seulement à rivaliser sur les benchmarks de raisonnement, mais à proposer des modèles capables d'exécuter des tâches longues et complexes de façon autonome. Pour les développeurs et les entreprises, cela ouvre des cas d'usage concrets comme l'analyse OCR à grande échelle, la lecture automatique de graphiques, l'analyse de séquences vidéo, ou encore l'automatisation de workflows techniques complets. La plateforme Bailian embarque deux mécanismes complémentaires : un système d'apprentissage par renforcement agentique (Agentic RL) qui affine la précision du modèle grâce aux retours d'exécution réels, et des garde-fous de sécurité intégrés pour maintenir les outils autonomes dans des limites opérationnelles prédéfinies, un détail crucial lorsqu'un agent exécute des commandes ou modifie des fichiers en production. Ce lancement s'inscrit dans la vague de modèles agentiques qui déferle sur l'industrie depuis début 2026, face à des acteurs comme OpenAI, Google DeepMind et Anthropic. Alibaba avait déjà dévoilé la génération Qwen3.7 en mai 2026, et la sortie de la variante multimodale complète maintenant l'offre de la famille. Le positionnement au 5e rang mondial en vision, malgré un retard encore visible sur les premiers laboratoires américains, confirme que les équipes chinoises se rapprochent du front technologique à un rythme soutenu. L'enjeu pour Alibaba est de transformer Bailian en plateforme de référence pour les entreprises cherchant à déployer des agents IA capables d'agir dans des environnements réels, pas seulement de répondre à des questions, une bataille qui s'annonce centrale dans les prochains mois.

UELes développeurs et entreprises françaises peuvent accéder dès maintenant à Qwen3.7-Plus via l'API internationale Model Studio, offrant une alternative compétitive aux modèles américains pour des cas d'usage agentiques et d'analyse visuelle.

LLMsOpinion

1 source

Meituan lance LongCat-2.0 : un modele MoE open source de 1 600 milliards de parametres avec contexte natif de 1 million de tokens

47

3MarkTechPost

Meituan lance LongCat-2.0 : un modele MoE open source de 1 600 milliards de parametres avec contexte natif de 1 million de tokens

Meituan a dévoilé LongCat-2.0, un modèle de langage à mélange d'experts (MoE) doté de 1 600 milliards de paramètres au total, dont environ 48 milliards sont activés par token. Ce successeur de LongCat-Flash, un modèle de 560 milliards de paramètres sorti en 2025, cible spécifiquement le codage agentique : compréhension, génération et exécution de code au sein de workflows autonomes. Le modèle se distingue par une fenêtre de contexte native d'un million de tokens et par le fait que son entraînement comme son déploiement ont été réalisés entièrement sur des superpods ASIC domestiques, sans recourir au matériel Nvidia. L'entraînement a mobilisé plus de 35 000 milliards de tokens sur des millions d'heures-accélérateur, et Meituan affirme n'avoir subi aucun retour arrière ni pic de perte irrécupérable durant tout le processus. Sur le plan des performances, l'entreprise revendique un score de 59,5 sur SWE-bench Pro, devançant légèrement GPT-5.5 (58,6), ainsi que 70,8 sur Terminal-Bench 2.1 et 77,3 sur SWE-bench Multilingual. Meituan situe également LongCat-2.0 au niveau de Gemini 3.1 Pro de Google en performance globale, tout en reconnaissant qu'il reste en retrait des systèmes de pointe sur des benchmarks d'agents plus généraux comme FORTE et BrowseComp. Ces chiffres proviennent uniquement des tests internes de Meituan et n'ont pas encore été confirmés par des classements indépendants. Cette annonce est importante car elle illustre la capacité croissante des entreprises chinoises à entraîner et servir des modèles de très grande taille sans dépendre des puces Nvidia, un enjeu stratégique majeur dans un contexte de restrictions à l'export américaines. Pour les développeurs et les équipes d'ingénierie, un contexte natif d'un million de tokens change concrètement l'usage possible d'un assistant de code : il devient possible d'analyser des dépôts entiers ou de longues sessions d'agent sans fragmentation artificielle. La stabilité revendiquée pendant l'entraînement sur du matériel non-Nvidia est aussi un signal fort, car l'écosystème logiciel autour des ASIC domestiques est réputé moins mature que celui de Nvidia, ce qui rend ce genre de résultat plus difficile à obtenir. Si les performances en codage agentique se confirment de façon indépendante, LongCat-2.0 pourrait s'imposer comme une alternative crédible aux modèles occidentaux pour les tâches d'ingénierie logicielle automatisée, un segment de plus en plus disputé entre laboratoires. L'architecture de LongCat-2.0 repose sur quatre innovations pensées pour maîtriser le coût d'un modèle de cette taille. Les experts à calcul nul laissent les tokens simples, comme la ponctuation, traverser le modèle sans traitement lourd, tandis qu'un contrôleur PID ajuste dynamiquement l'activation entre 33 et 56 milliards de paramètres selon la complexité du texte. La LongCat Sparse Attention, présentée comme une évolution du DeepSeek Sparse Attention, combine trois méthodes d'indexation, streaming, inter-couches et hiérarchique, pour éviter l'explosion quadratique du coût de calcul liée aux longs contextes. S'y ajoute un module d'embedding par n-grammes de 135 milliards de paramètres, censé mieux capturer les relations locales entre tokens, ainsi qu'un pipeline de post-entraînement baptisé MOPD qui fusionne trois groupes d'experts spécialisés en agents, raisonnement et interaction. Publié sous licence MIT le 30 juin 2026, LongCat-2.0 s'inscrit dans une compétition mondiale où chaque laboratoire cherche à repousser simultanément la taille des modèles, la longueur de contexte et l'efficacité matérielle.

💬 Ce qui compte vraiment ici, c'est pas le score SWE-bench, c'est le "sans Nvidia". Meituan entraîne 1600 milliards de paramètres sur des puces maison sans un seul pic de perte irrécupérable, et ça, ça vaut plus cher que battre GPT-5.5 de quelques points. La vraie question, c'est si le score tient sous un classement indépendant, parce que les benchmarks internes des labos chinois, on sait ce que ça vaut. Reste que la Chine vient de démontrer qu'elle peut scaler sans dépendre de Jensen Huang, et ça, les gens à Washington devraient s'en inquiéter plus que d'un simple leaderboard.

LLMsActu

1 source

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

49

4MarkTechPost

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion

1 source

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

À lire aussi

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

Meituan lance LongCat-2.0 : un modele MoE open source de 1 600 milliards de parametres avec contexte natif de 1 million de tokens

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel