Aller au contenu principal
Qwen3.7-Max d'Alibaba peut fonctionner de manière autonome pendant 35 heures et prend en charge des frameworks externes comme Claude Code d'Anthropic
LLMsVentureBeat AI5j

Qwen3.7-Max d'Alibaba peut fonctionner de manière autonome pendant 35 heures et prend en charge des frameworks externes comme Claude Code d'Anthropic

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Alibaba a publié Qwen3.7-Max, un modèle d'intelligence artificielle conçu pour opérer de façon entièrement autonome pendant des dizaines d'heures d'affilée. La démonstration la plus frappante fournie par l'équipe Qwen : le modèle a été connecté à un serveur isolé équipé d'un processeur T-Head ZW-M890 PPU, une architecture matérielle qu'il n'avait jamais rencontrée lors de son entraînement. Sa mission consistait à optimiser un noyau de calcul d'attention. En 35 heures consécutives, Qwen3.7-Max a exécuté 1 158 appels d'outils distincts, réalisé 432 évaluations du noyau, diagnostiqué des erreurs de compilation et amélioré le code de façon itérative jusqu'à atteindre une accélération de 10x en moyenne géométrique. Ses concurrents chinois directs, GLM-5.1 de z.ai et Kimi K2.6 de Moonshot, n'ont atteint respectivement que 7,3x et 5,0x, avant d'interrompre leurs sessions faute de progression. Autre signe de rupture avec les pratiques antérieures de l'équipe Qwen : ce modèle est propriétaire et accessible uniquement via API payante, contrairement aux versions précédentes publiées en open source.

Ce virage stratégique a des implications concrètes pour l'ensemble du secteur. En choisissant un modèle fermé, Alibaba s'aligne sur OpenAI et Google, qui réservent leurs modèles les plus puissants à leurs offres commerciales. Cela change la donne pour les entreprises et développeurs qui comptaient sur les modèles Qwen ouverts pour des déploiements locaux ou des usages sensibles. Par ailleurs, le fait que le modèle soit uniquement accessible depuis des points d'accès basés en Chine soulève des questions de conformité réglementaire pour les entreprises américaines et européennes soumises à des obligations de souveraineté des données, notamment dans le cadre de contrats gouvernementaux. Le modèle supporte néanmoins des environnements d'exécution externes comme Claude Code d'Anthropic, ce qui lui ouvre un spectre d'utilisation plus large dans les workflows d'ingénierie logicielle.

La performance de Qwen3.7-Max repose sur ce qu'Alibaba appelle l'« environment scaling » : plutôt que d'entraîner le modèle uniquement sur du texte, il a été exposé à un vaste éventail d'environnements agentiques dynamiques, lui permettant de développer un raisonnement à long horizon sans perdre le fil de ses instructions. Le modèle intègre également un mécanisme de détection du reward hacking, qui lui permet d'identifier lorsqu'il tente de contourner ses propres règles d'évaluation et de s'autocorriger. Dans le benchmark YC-Bench, qui simule un an de cycle de vie d'une startup, Qwen3.7-Max a généré l'équivalent de 2,08 millions de dollars de revenus virtuels, soit près du double de son prédécesseur Qwen3.6-Plus. La sortie de ce modèle intervient quelques mois après le départ de plusieurs responsables clés de l'équipe Qwen, une transition qui explique en partie l'abandon de l'open source au profit d'une monétisation directe.

Impact France/UE

L'accessibilité exclusive via des points d'accès basés en Chine contraint les entreprises et administrations européennes soumises aux obligations de souveraineté des données à exclure ce modèle de leurs workflows malgré ses performances agentiques exceptionnelles.

💬 Le point de vue du dev

Le vrai sujet, c'est pas les 35 heures de run autonome (impressionnant, certes, mais on s'y attendait). C'est qu'Alibaba tourne la page de l'open source et passe tout fermé, avec des endpoints uniquement basés en Chine, ce qui met Qwen3.7-Max hors jeu pour toute équipe européenne sous contraintes de souveraineté. Ceux qui avaient construit leurs workflows sur les modèles Qwen ouverts vont devoir se retourner.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le dernier modèle IA d'Alibaba a optimisé de façon autonome le code de sa puce personnalisée pendant 35 heures
1The Decoder 

Le dernier modèle IA d'Alibaba a optimisé de façon autonome le code de sa puce personnalisée pendant 35 heures

L'équipe Qwen d'Alibaba a publié Qwen3.7-Max, un nouveau modèle propriétaire conçu spécifiquement pour les tâches d'agents autonomes de longue durée. Pour démontrer ses capacités, le modèle a opéré en continu pendant 35 heures afin d'optimiser du code destiné à la puce personnalisée d'Alibaba, sans intervention humaine. Sur les benchmarks de référence, Qwen3.7-Max atteint les performances de Claude Opus 4.6 d'Anthropic et surpasse ses concurrents chinois directs, notamment DeepSeek V4 Pro et Kimi K2.6. L'équipe a également présenté une démonstration du modèle pilotant un robot quadrupède. Cette annonce marque un cap concret dans la course aux agents IA capables de mener des missions complexes sur de longues durées. Une exécution autonome de 35 heures représente un saut qualitatif par rapport aux interactions ponctuelles des LLM classiques : le modèle doit planifier, corriger ses erreurs et maintenir une cohérence sur des milliers d'étapes. Pour l'industrie des semi-conducteurs, cela ouvre la voie à une automatisation partielle du cycle de développement des puces, un domaine où la Chine cherche activement à réduire sa dépendance aux technologies occidentales. Alibaba s'inscrit dans une dynamique intense au sein de l'écosystème IA chinois, où DeepSeek, Moonshot (Kimi) et ByteDance se livrent une concurrence acharnée sur les modèles de pointe. Le développement de puces maison par Alibaba, dans un contexte de restrictions américaines à l'exportation de semi-conducteurs, donne à ce type d'outil une dimension stratégique évidente. La démonstration robotique suggère par ailleurs qu'Alibaba vise des applications bien au-delà du code, vers l'IA embarquée dans des systèmes physiques autonomes.

UELes entreprises européennes disposent d'un nouveau modèle agentique de niveau SOTA hors de l'écosystème américain, élargissant concrètement les options pour la souveraineté numérique de l'UE.

💬 35 heures en autonomie sur du code de puce, sans intervention humaine, c'est le genre de truc qui change vraiment la donne pour les équipes hardware. Bon, sur le papier ça reste une démo maîtrisée par Alibaba, mais tenir la cohérence sur des milliers d'étapes c'est pas rien. Ce qui m'intéresse surtout, c'est le contexte : ils optimisent leur propre silicium avec leur propre modèle, sous embargo américain, et ça fonctionne.

LLMsOpinion
1 source
2MarkTechPost 

Anthropic lance Claude Opus 4.7 : une mise à jour majeure pour le codage par agents, la vision haute résolution et les tâches autonomes longues

Anthropic a lancé Claude Opus 4.7, successeur direct d'Opus 4.6, en le positionnant comme une amélioration ciblée plutôt qu'un saut générationnel complet. Le modèle se place au sommet de la gamme Anthropic, au-dessus de Haiku et Sonnet, juste en dessous du mystérieux Claude Mythos, encore en accès restreint. Sur un benchmark de 93 tâches de programmation, Opus 4.7 améliore le taux de résolution de 13 % par rapport à Opus 4.6, dont quatre tâches qu'aucun modèle précédent ne parvenait à résoudre. Sur CursorBench, référence populaire chez les développeurs, il atteint 70 % contre 58 % pour son prédécesseur. Les gains sont encore plus nets sur les workflows complexes : un testeur rapporte une amélioration de 14 % sur des tâches multi-étapes, avec moins de tokens consommés et un tiers des erreurs d'outils, et Opus 4.7 est le premier modèle à réussir leurs tests de "besoins implicites", continuant à exécuter même quand des outils échouent en cours de route. Ce qui rend cette version particulièrement significative pour les équipes engineering, c'est la capacité du modèle à vérifier ses propres sorties avant de rendre la main. Les versions précédentes produisaient des résultats sans validation interne ; Opus 4.7 intègre cette boucle de contrôle de façon autonome, ce qui a des implications directes pour les pipelines CI/CD et les workflows agentiques longue durée. En parallèle, la résolution des images passe à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la capacité des modèles Claude précédents. L'impact en production est immédiat : un testeur travaillant sur des workflows "computer-use" rapporte un score de 98,5 % sur leur benchmark de précision visuelle, contre 54,5 % pour Opus 4.6. Les agents qui lisent des captures d'écran denses, extraient des données de diagrammes complexes ou travaillent sur des interfaces pixel-perfect bénéficient directement de cette amélioration, sans modifier leur code, les images sont simplement traitées avec une meilleure fidélité. Du côté de l'API, Anthropic introduit deux nouveaux leviers. Un niveau d'effort "xhigh" (extra high) s'intercale entre "high" et "max", offrant un contrôle plus fin sur le compromis entre qualité de raisonnement et latence. Claude Code passe d'ailleurs à xhigh par défaut pour tous les abonnements. Ces annonces s'inscrivent dans une course à l'agent autonome où Anthropic se positionne clairement : après les améliorations de Sonnet 4.6 sur les tâches longues durée, Opus 4.7 cible les cas les plus difficiles, ceux qui nécessitaient jusqu'ici une supervision humaine rapprochée. Avec Claude Mythos en coulisses et une gamme qui s'étoffe à tous les niveaux, Anthropic consolide son avance sur le segment des développeurs professionnels et des applications d'IA en production.

LLMsOpinion
1 source
Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude
3VentureBeat AI 

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude

Pendant plusieurs semaines, des développeurs et utilisateurs avancés d'Anthropic ont signalé une dégradation notable des performances de Claude, le modèle phare de la startup. Le 24 avril 2026, Anthropic a publié un post-mortem technique détaillé reconnaissant que trois modifications distinctes apportées à l'environnement d'exécution du modèle, et non aux poids du modèle lui-même, étaient responsables des problèmes signalés. Premier changement : le 4 mars, le niveau d'effort de raisonnement par défaut dans Claude Code a été abaissé de "élevé" à "moyen" pour réduire la latence d'interface. Deuxième changement : le 26 mars, un bug dans une optimisation de cache supprimait l'historique de raisonnement du modèle à chaque tour de conversation après une heure d'inactivité, plutôt qu'une seule fois, privant le modèle de sa mémoire à court terme. Troisième changement : le 16 avril, des instructions limitant les réponses à 25 mots entre les appels d'outils et 100 mots pour les réponses finales ont provoqué une baisse de 3 % sur les évaluations de qualité de code. Anthropic affirme avoir résolu les trois problèmes dans la version v2.1.116. Ces dysfonctionnements ont eu des conséquences concrètes et mesurables. Stella Laurenzo, directrice senior dans le groupe IA d'AMD, a publié sur GitHub une analyse de 6 852 fichiers de session Claude Code et plus de 234 000 appels d'outils, montrant une chute significative de la profondeur de raisonnement et une tendance du modèle à privilégier "la correction la plus simple" plutôt que la bonne. Le cabinet BridgeMind a quant à lui documenté une chute du taux de précision de Claude Opus 4.6 de 83,3 % à 68,3 %, faisant chuter son classement de la 2e à la 10e place dans leurs tests. Les effets ne se sont pas limités à l'interface CLI Claude Code : le Claude Agent SDK et Claude Cowork ont également été touchés, bien que l'API Claude directe soit restée indemne. La confiance des développeurs, particulièrement des équipes d'ingénierie qui s'appuyaient sur Claude pour des tâches complexes, a subi un coup sérieux. La controverse avait commencé à prendre de l'ampleur début avril 2026, alimentée par des analyses techniques détaillées circulant sur GitHub, X et Reddit sous le terme "AI shrinkflation". Anthropic avait d'abord repoussé les accusations de dégradation volontaire du modèle, notamment les soupçons de bridage délibéré pour gérer une demande en forte hausse. Le post-mortem publié marque un changement de posture : l'entreprise reconnaît explicitement que ces modifications ont donné l'impression que le modèle était "moins intelligent". Pour l'avenir, Anthropic annonce la mise en place de garde-fous supplémentaires pour détecter ce type de régressions avant déploiement, et s'engage à communiquer plus rapidement en cas de problèmes similaires. L'épisode soulève une question structurelle pour l'industrie : à mesure que les modèles d'IA s'intègrent dans des workflows critiques, la frontière entre modèle et infrastructure d'exécution devient un vecteur de dégradation silencieuse difficile à diagnostiquer de l'extérieur.

UELes développeurs européens utilisant Claude Code ou le Claude Agent SDK ont subi la même dégradation de performances documentée, affectant leurs workflows critiques jusqu'au correctif publié dans la version v2.1.116.

LLMsOpinion
1 source
Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures
4The Decoder 

Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures

Xiaomi a publié MiMo-V2.5-Pro, un modèle open-weight orienté vers le codage autonome qui rivalise avec Claude Opus 4.6 d'Anthropic sur les principaux benchmarks de programmation. Selon le fabricant chinois, le modèle consomme entre 40 et 60 % de tokens en moins que son concurrent d'Anthropic pour des performances comparables, ce qui représente une économie substantielle à l'échelle. Le modèle est conçu pour fonctionner de façon autonome sur des tâches longues, pouvant s'étendre sur plusieurs heures sans intervention humaine. Cet écart d'efficacité change la donne pour les entreprises qui souhaitent intégrer des agents de codage dans leurs flux de travail. Moins de tokens signifient des coûts d'inférence réduits et des sessions plus longues sans interruption, deux contraintes qui freinent encore l'adoption des agents autonomes en production. Pour les équipes d'ingénierie, c'est un argument concret : un modèle open-weight aussi capable mais nettement moins gourmand rend l'automatisation du code accessible à davantage d'organisations. MiMo-V2.5-Pro s'inscrit dans une dynamique plus large qui oppose les fournisseurs chinois de modèles open-weight aux acteurs américains. Deepseek avait ouvert la voie en début d'année en démontrant qu'un entraînement efficace pouvait produire des résultats proches de ceux d'OpenAI à une fraction du coût. Xiaomi poursuit cette logique en déplaçant le terrain de compétition : il ne s'agit plus seulement de scores sur les benchmarks, mais de savoir quel modèle peut exécuter le plus longtemps et le plus économiquement une tâche complexe en conditions réelles.

UELes équipes d'ingénierie européennes peuvent adopter ce modèle open-weight pour réduire leurs coûts d'inférence de 40 à 60 % sur les agents de codage autonomes, sans dépendre d'un fournisseur américain.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour