Aller au contenu principal
Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière
LLMsThe Decoder1h

Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière

Résumé IASource uniqueImpact UE
Source originale ↗·

Alibaba a lancé Qwen3.7-Plus, un nouveau modèle d'IA multimodal conçu pour fonctionner comme un agent autonome à part entière. Lors d'une démonstration publiée par l'équipe Qwen, un agent construit sur ce modèle a développé de manière entièrement autonome une application d'apprentissage de vocabulaire, générant plus de 10 000 lignes de code à travers 1 000 appels successifs sur une durée de onze heures. Le modèle intègre dans une seule boucle agentique la perception visuelle, la manipulation d'interfaces graphiques et la génération de code.

Ce qui distingue Qwen3.7-Plus est sa capacité à combiner ces trois dimensions sans intervention humaine, ce qui représente un pas concret vers des agents capables de mener des projets logiciels complets de bout en bout. Sur les benchmarks de compréhension d'écran publiés par Alibaba, le modèle arrive en tête, même si ses performances globales restent inégales selon les tâches. Pour les entreprises et développeurs qui cherchent à automatiser des workflows complexes, il offre une alternative crédible aux modèles occidentaux, à un tarif nettement inférieur à ceux de OpenAI ou Anthropic.

Qwen3.7-Plus s'inscrit dans la stratégie agressive d'Alibaba pour s'imposer dans la course mondiale aux modèles frontier, une compétition qui oppose désormais directement les laboratoires chinois aux américains. Contrairement à de nombreux modèles Qwen précédents publiés en open source, celui-ci est propriétaire, sans poids disponibles publiquement, ce qui marque un tournant commercial dans l'approche du groupe. La capacité à enchaîner perception, raisonnement et action sur de longues séquences restera un critère clé pour départager les acteurs de ce marché en 2026.

Impact France/UE

Les développeurs et entreprises européens disposent d'une alternative significativement moins coûteuse pour automatiser des workflows complexes impliquant perception visuelle et génération de code.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian
1MarkTechPost 

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

L'équipe Qwen d'Alibaba a lancé le 2 juin 2026 le modèle Qwen3.7-Plus, désormais disponible via API sur la plateforme Bailian d'Alibaba Cloud, accessible aux développeurs internationaux sous le nom Model Studio. Ce modèle multimodal comprend les images et les vidéos en plus du texte, ce qui le distingue de son frère jumeau Qwen3.7-Max, exclusivement textuel. Il s'agit d'une capacité de lecture visuelle, non de génération : Qwen3.7-Plus analyse des médias, il ne les crée pas. Au-delà de la vision, le modèle intègre cinq capacités agentiques : raisonnement approfondi, autoprogrammation (il écrit et révise son propre code), invocation d'outils externes et d'API, vérification et test des résultats, et itération autonome jusqu'à l'accomplissement complet d'une tâche. La préversion du modèle s'est classée 16e au classement Vision Arena de LM Arena, plaçant Alibaba au 5e rang mondial des laboratoires en compréhension visuelle. Le modèle texte Max, de son côté, avait obtenu 56,6 points sur l'Artificial Analysis Intelligence Index, meilleur score d'un modèle chinois à sa sortie. Cette sortie marque un tournant dans la stratégie d'Alibaba : le groupe ne cherche plus seulement à rivaliser sur les benchmarks de raisonnement, mais à proposer des modèles capables d'exécuter des tâches longues et complexes de façon autonome. Pour les développeurs et les entreprises, cela ouvre des cas d'usage concrets comme l'analyse OCR à grande échelle, la lecture automatique de graphiques, l'analyse de séquences vidéo, ou encore l'automatisation de workflows techniques complets. La plateforme Bailian embarque deux mécanismes complémentaires : un système d'apprentissage par renforcement agentique (Agentic RL) qui affine la précision du modèle grâce aux retours d'exécution réels, et des garde-fous de sécurité intégrés pour maintenir les outils autonomes dans des limites opérationnelles prédéfinies, un détail crucial lorsqu'un agent exécute des commandes ou modifie des fichiers en production. Ce lancement s'inscrit dans la vague de modèles agentiques qui déferle sur l'industrie depuis début 2026, face à des acteurs comme OpenAI, Google DeepMind et Anthropic. Alibaba avait déjà dévoilé la génération Qwen3.7 en mai 2026, et la sortie de la variante multimodale complète maintenant l'offre de la famille. Le positionnement au 5e rang mondial en vision, malgré un retard encore visible sur les premiers laboratoires américains, confirme que les équipes chinoises se rapprochent du front technologique à un rythme soutenu. L'enjeu pour Alibaba est de transformer Bailian en plateforme de référence pour les entreprises cherchant à déployer des agents IA capables d'agir dans des environnements réels, pas seulement de répondre à des questions, une bataille qui s'annonce centrale dans les prochains mois.

UELes développeurs et entreprises françaises peuvent accéder dès maintenant à Qwen3.7-Plus via l'API internationale Model Studio, offrant une alternative compétitive aux modèles américains pour des cas d'usage agentiques et d'analyse visuelle.

LLMsOpinion
1 source
Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée
2VentureBeat AI 

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Alibaba a lancé cette semaine Qwen3.7-Plus, son dernier grand modèle de langage multimodal, capable de traiter simultanément du texte, des vidéos et des images. Le modèle est proposé à 0,40 dollar par million de tokens en entrée et 1,60 dollar en sortie, soit 60 % moins cher que son prédécesseur Qwen3.7-Max, sorti quelques semaines plus tôt mais limité au texte seul. Avec une fenêtre de contexte d'un million de tokens et jusqu'à 256 000 tokens dédiés au raisonnement interne, Qwen3.7-Plus cible explicitement les usages agentiques complexes, comme la migration de bases de code ou l'analyse automatisée de documents visuels. Le modèle intègre aussi un paramètre API baptisé "preservethinking", qui conserve les blocs de raisonnement internes entre les tours de conversation, évitant à l'agent de perdre le fil de sa logique au milieu d'une tâche longue. La rupture la plus notable n'est pas technique : Qwen3.7-Plus est distribué sous licence commerciale fermée, uniquement via l'API Alibaba Cloud et le service Qwen Chat. C'est un virage stratégique majeur pour un groupe qui avait construit sa réputation internationale sur la publication de modèles open source puissants, proches de l'état de l'art. Des entreprises comme Airbnb s'appuyaient justement sur ces modèles en accès libre. Pour les développeurs et organisations qui avaient intégré l'open source Qwen dans leurs infrastructures, ce changement de cap impose soit de migrer vers l'API payante d'Alibaba, soit de se tourner vers un concurrent. Sur le plan tarifaire, Qwen3.7-Plus reste compétitif face à des modèles comme MiniMax-M3 (0,30/1,20 dollar) ou Gemini 3.1 Flash-Lite de Google (0,25/1,50 dollar), mais il est dépassé en prix bas par DeepSeek-V4-Flash (0,14/0,28 dollar). Ce lancement s'inscrit dans une dynamique de consolidation des stratégies de monétisation chez les grands labos chinois. Après avoir inondé le marché de modèles open source pour gagner en adoption et en réputation, Alibaba suit une trajectoire similaire à celle d'OpenAI ou Anthropic : garder les modèles les plus capables derrière un accès payant. La fonctionnalité "preservethinking" avait déjà été introduite avec la génération Qwen 3.6, sur les modèles open weight Qwen3.6-27B et le Max propriétaire, signe que la stratégie de différenciation entre open et closed s'élabore depuis plusieurs mois. Avec la course aux modèles multimodaux et agentiques qui s'accélère, l'enjeu pour Alibaba est de ne pas perdre les développeurs séduits par l'ouverture, tout en capturant les revenus que seule une offre cloud fermée peut générer à grande échelle.

UELes développeurs et organisations européennes ayant intégré les modèles Qwen open source dans leurs infrastructures devront migrer vers l'API payante d'Alibaba Cloud ou se tourner vers des alternatives, représentant une contrainte opérationnelle et potentiellement financière concrète.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
3MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Qwen3.7-Max d'Alibaba peut fonctionner de manière autonome pendant 35 heures et prend en charge des frameworks externes comme Claude Code d'Anthropic
4VentureBeat AI 

Qwen3.7-Max d'Alibaba peut fonctionner de manière autonome pendant 35 heures et prend en charge des frameworks externes comme Claude Code d'Anthropic

Alibaba a publié Qwen3.7-Max, un modèle d'intelligence artificielle conçu pour opérer de façon entièrement autonome pendant des dizaines d'heures d'affilée. La démonstration la plus frappante fournie par l'équipe Qwen : le modèle a été connecté à un serveur isolé équipé d'un processeur T-Head ZW-M890 PPU, une architecture matérielle qu'il n'avait jamais rencontrée lors de son entraînement. Sa mission consistait à optimiser un noyau de calcul d'attention. En 35 heures consécutives, Qwen3.7-Max a exécuté 1 158 appels d'outils distincts, réalisé 432 évaluations du noyau, diagnostiqué des erreurs de compilation et amélioré le code de façon itérative jusqu'à atteindre une accélération de 10x en moyenne géométrique. Ses concurrents chinois directs, GLM-5.1 de z.ai et Kimi K2.6 de Moonshot, n'ont atteint respectivement que 7,3x et 5,0x, avant d'interrompre leurs sessions faute de progression. Autre signe de rupture avec les pratiques antérieures de l'équipe Qwen : ce modèle est propriétaire et accessible uniquement via API payante, contrairement aux versions précédentes publiées en open source. Ce virage stratégique a des implications concrètes pour l'ensemble du secteur. En choisissant un modèle fermé, Alibaba s'aligne sur OpenAI et Google, qui réservent leurs modèles les plus puissants à leurs offres commerciales. Cela change la donne pour les entreprises et développeurs qui comptaient sur les modèles Qwen ouverts pour des déploiements locaux ou des usages sensibles. Par ailleurs, le fait que le modèle soit uniquement accessible depuis des points d'accès basés en Chine soulève des questions de conformité réglementaire pour les entreprises américaines et européennes soumises à des obligations de souveraineté des données, notamment dans le cadre de contrats gouvernementaux. Le modèle supporte néanmoins des environnements d'exécution externes comme Claude Code d'Anthropic, ce qui lui ouvre un spectre d'utilisation plus large dans les workflows d'ingénierie logicielle. La performance de Qwen3.7-Max repose sur ce qu'Alibaba appelle l'« environment scaling » : plutôt que d'entraîner le modèle uniquement sur du texte, il a été exposé à un vaste éventail d'environnements agentiques dynamiques, lui permettant de développer un raisonnement à long horizon sans perdre le fil de ses instructions. Le modèle intègre également un mécanisme de détection du reward hacking, qui lui permet d'identifier lorsqu'il tente de contourner ses propres règles d'évaluation et de s'autocorriger. Dans le benchmark YC-Bench, qui simule un an de cycle de vie d'une startup, Qwen3.7-Max a généré l'équivalent de 2,08 millions de dollars de revenus virtuels, soit près du double de son prédécesseur Qwen3.6-Plus. La sortie de ce modèle intervient quelques mois après le départ de plusieurs responsables clés de l'équipe Qwen, une transition qui explique en partie l'abandon de l'open source au profit d'une monétisation directe.

UEL'accessibilité exclusive via des points d'accès basés en Chine contraint les entreprises et administrations européennes soumises aux obligations de souveraineté des données à exclure ce modèle de leurs workflows malgré ses performances agentiques exceptionnelles.

💬 Le vrai sujet, c'est pas les 35 heures de run autonome (impressionnant, certes, mais on s'y attendait). C'est qu'Alibaba tourne la page de l'open source et passe tout fermé, avec des endpoints uniquement basés en Chine, ce qui met Qwen3.7-Max hors jeu pour toute équipe européenne sous contraintes de souveraineté. Ceux qui avaient construit leurs workflows sur les modèles Qwen ouverts vont devoir se retourner.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour