Aller au contenu principal

Qwen3· sujet

193 articlesmis à jour le 2026-06-09

Qwen3, la famille de modèles de langage d'Alibaba : versions, performances, disponibilité open source et cas d'usage suivis au fil de l'actualité IA.

Hub d'actualité sur Qwen3, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA
40 25%
articles (vs 30j préc.)
3.1%
de la couverture IA
Souvent associé à
AgenticAlibabaInférenceOpenAIAnthropic

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant Qwen3. Voir le Baromètre IA complet

À retenir · 30 derniers jours

Qwen3 est la famille de modèles d'intelligence artificielle développée par Alibaba, le géant chinois du cloud. Sa particularité tient à un choix assumé : des modèles ouverts, que n'importe qui peut télécharger, faire tourner sur ses propres serveurs et adapter à ses besoins. Dans un paysage dominé par des systèmes fermés et facturés à l'usage, cette approche a installé Qwen comme une référence pour qui veut garder la main sur ses données et ses coûts.

Sa position durable se joue là. Qwen3 sert de socle à de nombreux projets, du laboratoire de recherche à l'entreprise qui veut héberger son IA en interne sans dépendre d'un fournisseur américain. La déclinaison Max, plus puissante et orientée tâches longues et autonomes, montre par ailleurs l'ambition d'Alibaba de jouer aussi sur le terrain des modèles de pointe, et pas seulement celui de l'ouverture.

Pour un usage professionnel, l'intérêt est concret : maîtrise du déploiement, confidentialité, facture prévisible. Le revers, c'est la dépendance à un acteur chinois, avec les questions de gouvernance et de souveraineté que cela soulève.

Dans ce hub, on suit l'évolution des versions, les performances mesurées face à la concurrence et la place réelle de Qwen dans l'écosystème open source.

Toute l'actualité Qwen3

Flux automatique. Articles classés par pertinence, agrégés en continu.

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire
1The Decoder OutilsActu

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Un nouveau modèle vocal open source baptisé Audio Interaction vient d'être publié avec ses poids, son code source et ses instructions de déploiement sur GitHub, sous licence Apache 2.0. Sa particularité technique est de prendre une décision toutes les 0,4 secondes : parler ou se taire. Contrairement à la plupart des assistants vocaux actuels, il n'attend pas la fin d'un enregistrement pour répondre, mais écoute en continu un flux audio pour transcrire, traduire, converser et détecter des sons du quotidien comme une toux. Les données d'entraînement seront publiées séparément dans un second temps. Cette approche représente un changement de paradigme pour les interfaces vocales. Les modèles comme GPT-4o ou Qwen3.5-Omni fonctionnent encore en mode tour par tour : ils attendent que l'utilisateur finisse de parler avant de traiter la demande. Audio Interaction brise cette contrainte en analysant le flux sonore en temps réel, ce qui ouvre la voie à des interactions bien plus naturelles, notamment pour les assistants embarqués, les outils d'accessibilité ou les applications de traduction simultanée. La licence Apache 2.0 le rend immédiatement utilisable par des développeurs et des entreprises sans restriction commerciale. Le modèle s'inscrit dans une course intense autour de l'audio nativement multimodal, accélérée par la présentation de GPT-4o en mai 2024. L'ouverture complète de la chaîne, des poids aux données, reste encore rare dans ce domaine dominé par des solutions propriétaires, et pourrait stimuler une vague de recherche indépendante sur les modèles vocaux en temps réel. La publication imminente des données d'entraînement permettra à la communauté de reproduire et d'affiner les résultats de manière transparente.

UELes développeurs et entreprises européens peuvent adopter librement ce modèle vocal sous licence Apache 2.0 pour intégrer des interfaces vocales temps réel dans leurs applications, sans restriction commerciale.

1 source
Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière
2The Decoder 

Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière

Alibaba a lancé Qwen3.7-Plus, un nouveau modèle d'IA multimodal conçu pour fonctionner comme un agent autonome à part entière. Lors d'une démonstration publiée par l'équipe Qwen, un agent construit sur ce modèle a développé de manière entièrement autonome une application d'apprentissage de vocabulaire, générant plus de 10 000 lignes de code à travers 1 000 appels successifs sur une durée de onze heures. Le modèle intègre dans une seule boucle agentique la perception visuelle, la manipulation d'interfaces graphiques et la génération de code. Ce qui distingue Qwen3.7-Plus est sa capacité à combiner ces trois dimensions sans intervention humaine, ce qui représente un pas concret vers des agents capables de mener des projets logiciels complets de bout en bout. Sur les benchmarks de compréhension d'écran publiés par Alibaba, le modèle arrive en tête, même si ses performances globales restent inégales selon les tâches. Pour les entreprises et développeurs qui cherchent à automatiser des workflows complexes, il offre une alternative crédible aux modèles occidentaux, à un tarif nettement inférieur à ceux de OpenAI ou Anthropic. Qwen3.7-Plus s'inscrit dans la stratégie agressive d'Alibaba pour s'imposer dans la course mondiale aux modèles frontier, une compétition qui oppose désormais directement les laboratoires chinois aux américains. Contrairement à de nombreux modèles Qwen précédents publiés en open source, celui-ci est propriétaire, sans poids disponibles publiquement, ce qui marque un tournant commercial dans l'approche du groupe. La capacité à enchaîner perception, raisonnement et action sur de longues séquences restera un critère clé pour départager les acteurs de ce marché en 2026.

UELes développeurs et entreprises européens disposent d'une alternative significativement moins coûteuse pour automatiser des workflows complexes impliquant perception visuelle et génération de code.

💬 11 heures, 10 000 lignes de code, zéro intervention humaine. C'est le genre de démo qu'on peut facilement balayer d'un revers de main, mais là les trois briques (vision, GUI, code) sont vraiment dans la même boucle, pas juste collées ensemble. Par contre, Alibaba qui passe en proprio avec ce modèle, c'est un signal clair : la phase open source généreuse, c'est terminé pour les modèles qui comptent vraiment.

LLMsOpinion
1 source
OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage
3MarkTechPost 

OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage

Des chercheurs de l'Université Stanford et de Lambda Labs ont publié en mai 2026 OpenJarvis, un framework open-source conçu pour faire tourner des agents IA personnels entièrement en local, sans recours au cloud. Disponible sur GitHub avec déjà plus de 5 400 étoiles, le projet s'appuie sur onze modèles locaux issus de quatre familles (Qwen3.5, Gemma4, Nemotron, Granite) et supporte des moteurs d'inférence variés comme Ollama, vLLM ou llama.cpp. Les performances mesurées sur 508 tâches réparties en huit benchmarks montrent que les modèles configurés via OpenJarvis se situent à seulement 3,2 points de pourcentage en dessous des meilleurs modèles cloud, Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, tout en affichant une latence quatre fois plus faible et un coût marginal par requête environ 800 fois inférieur. Ce résultat change concrètement l'équation pour les développeurs et les entreprises qui cherchent à déployer des agents IA sans dépendre d'APIs tierces. OpenJarvis décompose un système d'IA personnelle en cinq primitives indépendantes et interchangeables, le modèle, le moteur d'inférence, la logique d'agent, les outils et la mémoire, puis l'optimiseur d'apprentissage, toutes configurables via un unique fichier TOML appelé "spec". Cette architecture permet à un même comportement d'agent de fonctionner sur un Mac Mini M4 comme sur une station de travail NVIDIA DGX Spark, sans réécrire les prompts. L'installation tient en une seule commande et prend environ trois minutes sur une connexion correcte. La contribution la plus originale du projet réside dans la "LLM-guided spec search", une méthode d'optimisation hybride locale-cloud : un modèle frontier agit comme enseignant au moment de la configuration, en analysant les traces d'exécution, diagnostiquant les échecs et proposant des modifications coordonnées sur l'ensemble des primitives. Une modification n'est acceptée que si elle améliore les cas défaillants sans provoquer de régressions ailleurs, avec une tolérance par défaut de 1%. Une fois optimisé, le système tourne entièrement en local sans aucun appel cloud. À 100 requêtes par jour, le coût amorti de cet enseignant descend sous 0,001 dollar par requête au bout de six mois. Cette approche multi-primitive récupère 13 à 32 points de pourcentage de l'écart cloud-local, contre seulement 5 points pour les optimiseurs de prompts classiques, à un coût d'optimisation 7 à 11 fois inférieur aux méthodes antérieures comme DSPy ou LoRA. Le projet s'inscrit dans un contexte où les modèles locaux gèrent déjà 88,7% des requêtes conversationnelles courantes selon une étude antérieure de la même équipe, et où l'efficacité des modèles embarqués a progressé de 5,3 fois entre 2023 et 2025.

UELes entreprises européennes soumises au RGPD peuvent déployer des agents IA performants entièrement en local sans transférer leurs données vers des services cloud américains, réduisant leur exposition aux risques de non-conformité et renforçant leur souveraineté numérique.

💬 3,2 points de moins que Claude Opus ou GPT-5, pour un coût 800 fois inférieur : à ce ratio, la question n'est plus "cloud ou local". Le truc malin c'est la spec search guidée, tu laisses un frontier calibrer ta config une fois, puis plus aucun appel cloud ensuite. Bon, faudra voir si leurs 508 tâches de benchmark ressemblent à ce qu'on rencontre vraiment en prod.

OutilsOutil
1 source
Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI
4AWS ML Blog 

Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI

Amazon Web Services publie un guide technique détaillant comment améliorer la précision des appels d'outils dans les agents IA, en combinant deux techniques d'entraînement, le Supervised Fine-Tuning (SFT) et le Direct Preference Optimization (DPO), sur sa plateforme Amazon SageMaker AI. L'exemple concret porte sur Qwen3 1.7B, un petit modèle de langage, entraîné via des jobs SageMaker AI, un service entièrement géré prenant en charge les configurations multi-GPU et multi-nœuds à la demande. L'objectif est d'apprendre à un modèle à sélectionner le bon outil, dans le bon format, sans briser la chaîne d'actions d'un workflow automatisé. Quand un agent IA appelle le mauvais outil ou formate incorrectement ses paramètres, les conséquences sont directes : délais de traitement allongés, taux d'erreurs en hausse, coûts de support accrus et expérience utilisateur dégradée. Pour les organisations qui font passer leurs applications agentiques du pilote à la production, fiabiliser cette couche d'interaction avec les outils externes est devenu un prérequis non négociable. Le SFT permet d'enseigner au modèle le vocabulaire et les contraintes propres à chaque outil via des exemples explicites. Le DPO, lui, raffine ce comportement en intégrant des préférences directement dans la boucle d'entraînement, sous la forme de paires "réponse préférée / réponse rejetée", sans avoir besoin de fonctions de récompense ni de modèles de récompense distincts, ce qui réduit significativement les ressources et le temps d'entraînement par rapport au reinforcement learning classique. Le DPO s'appuie sur des travaux publiés en 2023 (arXiv:2305.18290) et s'intègre notamment via la bibliothèque HuggingFace TRL, qui prend en entrée des triplets prompt / réponse choisie / réponse rejetée. SageMaker AI ajoute une couche d'infrastructure managée : les clusters haute performance se lancent à la demande, s'arrêtent automatiquement en fin de job, et les métriques d'entraînement remontent vers MLflow intégré à SageMaker pour analyse ultérieure. Cette approche en deux temps, SFT pour la connaissance des outils, DPO pour l'alignement fin sur les comportements souhaités, trace une voie praticable pour les équipes qui veulent construire des agents robustes sans gérer elles-mêmes l'infrastructure d'entraînement. À mesure que les modèles plus petits gagnent en précision grâce à ces techniques, la frontière entre un LLM généraliste et un agent spécialisé fiable en production continue de se réduire.

LLMsTuto
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
5MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
6arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

RobotiqueOpinion
1 source
Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée
7VentureBeat AI 

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Alibaba a lancé cette semaine Qwen3.7-Plus, son dernier grand modèle de langage multimodal, capable de traiter simultanément du texte, des vidéos et des images. Le modèle est proposé à 0,40 dollar par million de tokens en entrée et 1,60 dollar en sortie, soit 60 % moins cher que son prédécesseur Qwen3.7-Max, sorti quelques semaines plus tôt mais limité au texte seul. Avec une fenêtre de contexte d'un million de tokens et jusqu'à 256 000 tokens dédiés au raisonnement interne, Qwen3.7-Plus cible explicitement les usages agentiques complexes, comme la migration de bases de code ou l'analyse automatisée de documents visuels. Le modèle intègre aussi un paramètre API baptisé "preservethinking", qui conserve les blocs de raisonnement internes entre les tours de conversation, évitant à l'agent de perdre le fil de sa logique au milieu d'une tâche longue. La rupture la plus notable n'est pas technique : Qwen3.7-Plus est distribué sous licence commerciale fermée, uniquement via l'API Alibaba Cloud et le service Qwen Chat. C'est un virage stratégique majeur pour un groupe qui avait construit sa réputation internationale sur la publication de modèles open source puissants, proches de l'état de l'art. Des entreprises comme Airbnb s'appuyaient justement sur ces modèles en accès libre. Pour les développeurs et organisations qui avaient intégré l'open source Qwen dans leurs infrastructures, ce changement de cap impose soit de migrer vers l'API payante d'Alibaba, soit de se tourner vers un concurrent. Sur le plan tarifaire, Qwen3.7-Plus reste compétitif face à des modèles comme MiniMax-M3 (0,30/1,20 dollar) ou Gemini 3.1 Flash-Lite de Google (0,25/1,50 dollar), mais il est dépassé en prix bas par DeepSeek-V4-Flash (0,14/0,28 dollar). Ce lancement s'inscrit dans une dynamique de consolidation des stratégies de monétisation chez les grands labos chinois. Après avoir inondé le marché de modèles open source pour gagner en adoption et en réputation, Alibaba suit une trajectoire similaire à celle d'OpenAI ou Anthropic : garder les modèles les plus capables derrière un accès payant. La fonctionnalité "preservethinking" avait déjà été introduite avec la génération Qwen 3.6, sur les modèles open weight Qwen3.6-27B et le Max propriétaire, signe que la stratégie de différenciation entre open et closed s'élabore depuis plusieurs mois. Avec la course aux modèles multimodaux et agentiques qui s'accélère, l'enjeu pour Alibaba est de ne pas perdre les développeurs séduits par l'ouverture, tout en capturant les revenus que seule une offre cloud fermée peut générer à grande échelle.

UELes développeurs et organisations européennes ayant intégré les modèles Qwen open source dans leurs infrastructures devront migrer vers l'API payante d'Alibaba Cloud ou se tourner vers des alternatives, représentant une contrainte opérationnelle et potentiellement financière concrète.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian
8MarkTechPost 

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

L'équipe Qwen d'Alibaba a lancé le 2 juin 2026 le modèle Qwen3.7-Plus, désormais disponible via API sur la plateforme Bailian d'Alibaba Cloud, accessible aux développeurs internationaux sous le nom Model Studio. Ce modèle multimodal comprend les images et les vidéos en plus du texte, ce qui le distingue de son frère jumeau Qwen3.7-Max, exclusivement textuel. Il s'agit d'une capacité de lecture visuelle, non de génération : Qwen3.7-Plus analyse des médias, il ne les crée pas. Au-delà de la vision, le modèle intègre cinq capacités agentiques : raisonnement approfondi, autoprogrammation (il écrit et révise son propre code), invocation d'outils externes et d'API, vérification et test des résultats, et itération autonome jusqu'à l'accomplissement complet d'une tâche. La préversion du modèle s'est classée 16e au classement Vision Arena de LM Arena, plaçant Alibaba au 5e rang mondial des laboratoires en compréhension visuelle. Le modèle texte Max, de son côté, avait obtenu 56,6 points sur l'Artificial Analysis Intelligence Index, meilleur score d'un modèle chinois à sa sortie. Cette sortie marque un tournant dans la stratégie d'Alibaba : le groupe ne cherche plus seulement à rivaliser sur les benchmarks de raisonnement, mais à proposer des modèles capables d'exécuter des tâches longues et complexes de façon autonome. Pour les développeurs et les entreprises, cela ouvre des cas d'usage concrets comme l'analyse OCR à grande échelle, la lecture automatique de graphiques, l'analyse de séquences vidéo, ou encore l'automatisation de workflows techniques complets. La plateforme Bailian embarque deux mécanismes complémentaires : un système d'apprentissage par renforcement agentique (Agentic RL) qui affine la précision du modèle grâce aux retours d'exécution réels, et des garde-fous de sécurité intégrés pour maintenir les outils autonomes dans des limites opérationnelles prédéfinies, un détail crucial lorsqu'un agent exécute des commandes ou modifie des fichiers en production. Ce lancement s'inscrit dans la vague de modèles agentiques qui déferle sur l'industrie depuis début 2026, face à des acteurs comme OpenAI, Google DeepMind et Anthropic. Alibaba avait déjà dévoilé la génération Qwen3.7 en mai 2026, et la sortie de la variante multimodale complète maintenant l'offre de la famille. Le positionnement au 5e rang mondial en vision, malgré un retard encore visible sur les premiers laboratoires américains, confirme que les équipes chinoises se rapprochent du front technologique à un rythme soutenu. L'enjeu pour Alibaba est de transformer Bailian en plateforme de référence pour les entreprises cherchant à déployer des agents IA capables d'agir dans des environnements réels, pas seulement de répondre à des questions, une bataille qui s'annonce centrale dans les prochains mois.

UELes développeurs et entreprises françaises peuvent accéder dès maintenant à Qwen3.7-Plus via l'API internationale Model Studio, offrant une alternative compétitive aux modèles américains pour des cas d'usage agentiques et d'analyse visuelle.

LLMsOpinion
1 source
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
9MarkTechPost 

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking. Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle. Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

UEJetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

LLMsOpinion
1 source
NVIDIA lance Cosmos 3, Nemotron 3 Ultra et RTX Spark
10Latent Space 

NVIDIA lance Cosmos 3, Nemotron 3 Ultra et RTX Spark

NVIDIA a profité de la semaine du Computex 2026 à Taïwan pour lancer plusieurs modèles ouverts majeurs. Le plus attendu est Cosmos 3, une famille de modèles de monde omnimodaux capables de traiter simultanément le langage, l'image, la vidéo, l'audio et les actions physiques. L'architecture repose sur un mélange de transformeurs (Mixture-of-Transformers) combinant un raisonneur autorégressif et un générateur par diffusion, déclinée en deux versions : Nano (16 milliards de paramètres, deux tours de 8B) et Super (64 milliards, deux tours de 32B). Artificial Analysis a immédiatement classé Cosmos 3 en première position parmi les modèles ouverts sur ses classements Text-to-Image et Image-to-Video. NVIDIA a également annoncé Nemotron 3 Ultra, un modèle de langage de 550 milliards de paramètres dont 55 milliards actifs, salué comme le meilleur modèle ouvert américain à ce jour, capable de générer plus de 300 tokens par seconde selon certaines configurations. Enfin, le RTX Spark, un superchip personnel atteignant 1 pétaflop, a été présenté en partenariat avec Microsoft et OpenClaw. Ces annonces marquent un tournant dans la stratégie ouverte de NVIDIA. En publiant poids, code, jeux de données et recettes de fine-tuning pour Cosmos 3, l'entreprise positionne ses modèles comme une infrastructure commune pour l'IA physique, robotique, véhicules autonomes, simulation industrielle. La Cosmos Coalition, lancée avec des partenaires dont Runway, vise à construire un écosystème ouvert autour de ces modèles de monde. Pour Nemotron 3 Ultra, la communauté a réagi avec un enthousiasme inhabituel : sa densité d'activation, autour de 10 % contre 3 % pour des concurrents comme DeepSeek V4 ou Kimi K2, le rend à la fois plus coûteux à faire tourner, mais potentiellement plus prévisible en comportement, ce qui intéresse les entreprises cherchant de la fiabilité à grande échelle. Ces sorties s'inscrivent dans une semaine particulièrement dense pour les modèles ouverts. MiniMax a simultanément lancé M3, un modèle agent multimodal avec 1 million de tokens de contexte, affichant 59 % sur SWE-Bench Pro et un support immédiat chez Vercel, Cloudflare et Novita. Qwen3.7-Plus et Mellum2 de JetBrains ont également été publiés dans la même fenêtre. NVIDIA cherche à consolider sa domination au-delà du matériel : en proposant des modèles de référence ouverts pour l'IA physique, la société se place au cœur de la chaîne de valeur logicielle, là où Google et Meta se livrent déjà bataille. La convergence entre le RTX Spark, Cosmos 3 et l'écosystème de partenaires suggère une ambition claire : faire du PC local le prochain terrain de déploiement de l'IA agentique.

UELes poids, code et données d'entraînement de Cosmos 3 et Nemotron 3 Ultra étant publiés en open source, les entreprises et laboratoires européens peuvent les adopter sans dépendance à une API propriétaire américaine, ouvrant de nouvelles options pour l'IA physique et les grands modèles de langage.

💬 NVIDIA ne se contente plus de vendre des GPU, il cherche à posséder la pile logicielle de l'IA physique. Cosmos 3 open source avec poids et données, Nemotron Ultra pour la fiabilité en prod, RTX Spark pour le local, c'est une stratégie trop cohérente pour être coïncidence. Google et Meta sont déjà sur ce terrain, sauf qu'eux ne contrôlent pas le silicium en dessous.

LLMsOpinion
1 source
MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût
11VentureBeat AI 

MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût

La startup chinoise MiniMax a lancé dimanche soir son modèle de langage MiniMax-M3, se positionnant d'emblée comme une alternative redoutable aux modèles propriétaires américains. Disponible via l'API MiniMax à un tarif promotionnel de 0,30 dollar par million de tokens en entrée et 1,20 dollar par million en sortie, le modèle affiche des performances supérieures à GPT-5.5 d'OpenAI et à Gemini 3.1 Pro de Google sur plusieurs benchmarks clés, pour 5 à 10 % de leur coût. Même à plein tarif, 0,60 dollar l'entrée et 2,40 dollars la sortie, M3 revient à seulement 8 à 20 % du prix des grands modèles propriétaires concurrents. L'entreprise a également annoncé la mise à disposition sous licence open source avec poids ouverts dans les dix prochains jours, permettant aux entreprises de télécharger et personnaliser le modèle gratuitement. M3 intègre par ailleurs une fenêtre de contexte d'un million de tokens, une multimodalité native, et des capacités avancées en codage et en traitement de tâches agentiques, avec un abonnement mensuel à partir de 20 dollars. Ce lancement remet en question une règle non écrite du secteur : les développeurs devaient jusqu'ici choisir entre des modèles fermés très performants mais coûteux, ou des modèles open source accessibles mais limités sur les raisonnements complexes et les longues séquences. MiniMax-M3 brouille cette frontière en combinant performance de pointe et coût marginal, ce qui pourrait redistribuer les cartes pour les équipes de développement cherchant à intégrer des capacités d'IA avancées sans exploser leurs budgets d'inférence. La possibilité de déployer les poids en local renforce encore l'intérêt pour les entreprises soucieuses de confidentialité ou cherchant à s'affranchir de dépendances API. Cette percée s'inscrit dans un mouvement plus large de rattrapage des laboratoires chinois face aux géants américains. DeepSeek, Alibaba avec Qwen, Moonshot via Kimi et désormais MiniMax publient à un rythme soutenu des modèles compétitifs à des prix agressifs, alimentant une guerre tarifaire qui contraint OpenAI, Google et Anthropic à revoir leurs propres grilles. Sur le plan technique, M3 repose sur une architecture originale baptisée MiniMax Sparse Attention, qui rompt avec les mécanismes d'attention traditionnels dont le coût de calcul croît quadratiquement avec la longueur des séquences. En découpant les matrices clé-valeur en blocs ciblés lus une seule fois, cette approche permet d'être plus de quatre fois plus rapide que des alternatives open source comparables sur de longues séquences. La disponibilité imminente des poids ouverts pourrait transformer M3 en référence de facto pour les entreprises cherchant un modèle frontier déployable en interne.

UELes développeurs et entreprises européens disposent d'une alternative frontier open source déployable localement, réduisant la dépendance aux API américaines et les coûts d'inférence de 80 à 95 %.

💬 C'est le lancement qui va forcer OpenAI et Google à bouger leurs prix, et cette fois c'est difficile à ignorer. 5 à 10 % du coût avec les benchmarks qui suivent, et les poids ouverts dans dix jours pour déployer en local, si tu travailles avec des LLMs tu vas regarder ça de près. Reste à voir ce que ça donne en conditions réelles, mais l'architecture Sparse Attention sur les longues séquences, c'est une vraie proposition technique, pas juste du dumping tarifaire.

LLMsOpinion
1 source
Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x
12MarkTechPost 

Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x

Trajectory, en collaboration avec le UC Berkeley Sky Lab et Anyscale, a publié un rapport technique détaillant une nouvelle infrastructure d'entraînement baptisée C-LoRA (Continuous Multi-LoRA Training), dont le code est entièrement disponible dans le dépôt GitHub NovaSky-AI/SkyRL. Le système permet de faire tourner plusieurs expériences d'entraînement en parallèle sur un même moteur d'inférence, chaque expérience disposant de son propre adaptateur LoRA dédié. Les résultats annoncés sont significatifs : un gain de débit expérimental de 2,81x par rapport à un framework d'entraînement classique à locataire unique, sans régression observée sur les récompenses d'entraînement. Les tests ont été conduits sur un nœud H200 unique avec le modèle Qwen3-4B-Instruct-2507, appliqué à des tâches d'apprentissage par renforcement sur GSM8K reformulées en usage d'outils. Ce gain de performance cible un problème structurel de l'industrie : la quasi-totalité des infrastructures d'entraînement actuelles repose encore sur un cycle linéaire, collecte de données, entraînement, déploiement, qui prend des mois et produit des sauts discontinus de comportement pour les utilisateurs. C-LoRA vise à remplacer ce cycle par un apprentissage continu nourri des interactions de production en temps réel. L'architecture s'attaque concrètement à quatre inefficacités identifiées : les démarrages à froid coûteux (pouvant dépasser 30 minutes pour les grands modèles), la consommation mémoire excessive de l'apprentissage par renforcement sur des modèles de plus de 100 milliards de paramètres comme Qwen3.5-397B (qui peut nécessiter jusqu'à huit nœuds H200), la limitation à une seule expérience à la fois des stacks traditionnels, et la faible utilisation des GPU due aux temps d'attente mutuels entre le module d'entraînement et le moteur d'inférence. L'intérêt plus large de ce travail s'inscrit dans une tendance de fond : rendre les modèles de langage capables d'apprendre en continu à partir de corrections humaines, de patterns observés en production, ou de retours d'opérateurs, sans nécessiter un cycle de réentraînement complet. La technique LoRA, qui gèle les poids du modèle de base et n'entraîne que de petits adaptateurs, réduit la consommation mémoire d'un ordre de grandeur tout en permettant la coexistence de plusieurs expériences simultanées. Côté inférence, le noyau SGMV de vLLM fusionne les opérations par adaptateur en un seul lancement GPU par étape de décodage, ce qui permet de mixer des tokens issus d'adaptateurs différents dans un même batch. Côté entraînement, la concurrence reste encore limitée à un adaptateur actif à la fois, les autres résidant en mémoire CPU, une limitation que Trajectory reconnaît et qui constitue la prochaine frontière technique pour l'équipe.

💬 2,81x de débit en plus sur un nœud H200, c'est pas rien. Ce qui m'intéresse surtout, c'est pas le chiffre, c'est l'architecture : faire tourner plusieurs expériences LoRA en parallèle sur le même moteur d'inférence, ça s'attaque enfin au vrai problème, ce cycle collect-train-deploy qui prend des mois et rend les mises à jour du modèle quasi invisibles pour les utilisateurs. Bon, sur le papier, parce que l'entraînement reste limité à un seul adaptateur actif à la fois pour l'instant, ce qui relativise un peu le "continu" dans le nom.

RecherchePaper
1 source
Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier
13VentureBeat AI 

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Pinterest a réduit de 90 % le coût de son infrastructure d'intelligence artificielle en procédant à une modification radicale du modèle open source Qwen3-VL, développé par Alibaba. Matt Madrigal, directeur technique de Pinterest, a révélé que son équipe a littéralement supprimé la couche d'encodage visuel du modèle pour la remplacer par des embeddings propriétaires, construits à partir des données uniques de la plateforme. Cette intervention chirurgicale sur les couches internes du modèle n'a pas seulement allégé la facture : elle a également amélioré la précision des recommandations de 30 %. Le résultat alimente notamment Navigator 1, l'assistant de shopping conversationnel de Pinterest, utilisé par ses 620 millions d'utilisateurs mensuels. L'enjeu technique est considérable. Sans ces embeddings précalculés, chaque image retournée par le moteur de recommandation devrait être encodée en temps réel, une par une, au moment de l'inférence. Selon Madrigal, cela représente une latence "20 fois plus élevée" du point de vue des performances. En précalculant ces représentations hors ligne et en les réactualisant régulièrement, Pinterest évite ce goulot d'étranglement tout en personnalisant l'expérience à une échelle que peu d'entreprises doivent gérer. La stratégie illustre une logique désormais bien ancrée dans l'industrie : lorsque les données propriétaires sont suffisamment riches et distinctives, leur qualité peut compenser une taille de modèle plus modeste. "La qualité des données l'emportera sur la taille du modèle", a résumé Madrigal. Pinterest s'appuie sur des modèles open source depuis plusieurs années, notamment Google BERT et OpenAI CLIP, sur lequel il a construit son propre modèle Pin CLIP. Cette trajectoire d'internalisation progressive s'inscrit dans une stratégie plus large autour d'un "taste graph" : une représentation dynamique des goûts individuels de chaque utilisateur, actualisée en continu selon ses interactions. Contrairement à un graphe social, il s'agit d'un graphe de préférences conçu pour guider l'utilisateur depuis la phase d'inspiration diffuse jusqu'à l'acte d'achat. Dans un secteur où les géants du cloud font pression pour verrouiller les entreprises dans leurs API propriétaires, le choix de Pinterest de personnaliser en profondeur des modèles sous licence Apache ouverte signale une tendance de fond : les grandes plateformes préfèrent investir dans la maîtrise technique plutôt que dans la dépendance à des modèles frontières coûteux et peu adaptables à leurs cas d'usage spécifiques.

💬 Enlever la couche vision d'un LLM multimodal pour la remplacer par tes propres embeddings, c'est le genre de hack que je n'oserais pas si je n'avais pas une confiance béton dans mes données. Pinterest a osé, et -90% sur la facture avec +30% en précision, c'est le résultat que tu rêves mais que tu crois jamais possible avant de l'avoir fait. Madrigal a raison sur un point : quand tes données sont suffisamment spécifiques, un modèle taillé sur mesure bat un frontier généraliste à dix fois le prix.

LLMsOpinion
1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
14arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

RobotiqueOpinion
1 source
L'architecture radicale de DeepSeek fracasse l'avantage concurrentiel de Silicon Valley sur les tokens
15VentureBeat AI 

L'architecture radicale de DeepSeek fracasse l'avantage concurrentiel de Silicon Valley sur les tokens

DeepSeek a officialisé cette semaine la pérennisation de sa réduction de prix de 75 % sur son modèle phare V4 Pro, transformant ce qui ressemblait à une offensive temporaire en une rupture structurelle du marché. Concrètement, V4 Pro est désormais sept fois moins cher en entrées et dix-sept fois moins cher en sorties que Claude Sonnet d'Anthropic ou le GPT-5.5-Med d'OpenAI. La version allégée DeepSeek V4 Flash, optimisée pour la vitesse, est quant à elle dix à vingt-cinq fois moins chère que Claude Haiku. En Chine, le prix de lecture du cache atteint un niveau quatre-vingt-sept fois inférieur à celui des grandes plateformes cloud occidentales, un écart si brutal que Xiaomi vient d'aligner sa propre architecture MiMo sur ce même barème tarifaire. Ces deux modèles sont distribués en open-weight sous licence MIT, offrant aux entreprises une liberté totale de déploiement. Malgré ce positionnement prix, V4 Pro affiche 80,6 % sur le benchmark SWE-bench Verified pour les tâches d'agents de code, et 87,5 sur l'indice MMLU-Pro, des scores proches des meilleurs modèles occidentaux. L'impact sur les entreprises utilisatrices est déjà tangible. Uber a révélé avoir épuisé l'intégralité de son budget 2026 alloué à Claude Code et Cursor en seulement quatre mois, son directeur des opérations jugeant les coûts liés à l'usage intensif de tokens de plus en plus difficiles à justifier. Airbnb préfère depuis longtemps des alternatives plus rapides et moins chères comme Qwen d'Alibaba plutôt que de déployer massivement les modèles d'OpenAI en production. Pinterest est allé encore plus loin : son directeur technique Matt Madrigal a confirmé que l'entreprise a intégralement misé sur l'open source, en affinant Qwen sur son graphe de préférences propriétaire pour réduire ses coûts de 90 %. La baisse de prix de DeepSeek rend de tels arbitrages encore plus attractifs, accélérant la commoditisation de la couche API à fort volume. Cette dynamique s'inscrit dans un contexte de pression croissante sur les grands laboratoires occidentaux, dont les investissements en infrastructure se chiffrent en dizaines de milliards de dollars. OpenAI, dont le modèle économique repose largement sur des flux API génériques, apparaît plus exposée qu'Anthropic, dont l'offre est davantage intégrée dans des workflows logiciels différenciés. Du côté de l'adoption en entreprise, les freins demeurent importants : pour les secteurs réglementés américains, finance, santé, défense, l'utilisation de modèles chinois soulève des questions de conformité, de risques liés à la chaîne d'approvisionnement logicielle et de potentielles sanctions fédérales. L'architecture open-weight permet certes un hébergement local sans transfert de données vers des serveurs étrangers, mais les comités de conformité restent prudents. Le marché semble donc se scinder en deux : un segment premium pour les workflows critiques, et une couche agentique de fond entièrement commoditisée par les poids ouverts.

UELa réduction tarifaire permanente de DeepSeek pourrait réduire de 75 à 90 % les coûts d'infrastructure LLM pour les entreprises européennes, mais les secteurs réglementés devront évaluer les risques de conformité liés à l'utilisation de modèles chinois en open-weight.

💬 Ce qui me frappe, c'est pas les benchmarks, c'est Uber qui a cramé son budget Claude Code annuel en quatre mois. La baisse de 75 % de DeepSeek est permanente maintenant, ce qui veut dire que les arbitrages qu'Airbnb ou Pinterest font depuis un moment vont s'accélérer partout. Le marché API générique est commoditisé, la différence se jouera ailleurs.

BusinessOpinion
1 source
Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards
16Latent Space 

Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards

Cognition, le laboratoire spécialisé dans les agents IA, vient de lever 1 milliard de dollars lors d'un tour de table en Série D qui valorise la société à 26 milliards de dollars. Ce financement, annoncé fin mai 2026, représente une valorisation 2,5 fois supérieure à celle obtenue lors de sa Série C en septembre 2025, qui s'élevait à 10 milliards de dollars. Cognition devient ainsi officiellement le plus grand laboratoire d'agents IA indépendant encore en activité. La société projette un chiffre d'affaires annuel récurrent dépassant 1 milliard de dollars d'ici la fin de l'année 2026, une trajectoire alimentée par une clientèle déjà constituée d'acteurs exigeants de l'écosystème startup et entreprise, parmi lesquels Exa et Modal. Cette levée illustre l'appétit persistant des investisseurs pour les agents IA autonomes, segment en train de redéfinir le marché des logiciels d'entreprise. Dans le SaaS, l'ARR est un indicateur retardé de l'utilisation réelle : si Cognition projette ce seuil du milliard, c'est que des déploiements significatifs sont déjà actifs chez ses clients. La dynamique s'inscrit dans une logique de concentration du financement autour de quelques laboratoires indépendants capables de tenir tête aux grandes plateformes que sont OpenAI, Anthropic ou Google DeepMind. Cognition, positionné sur les agents codeurs autonomes, s'impose comme un acteur de référence dans une catégorie dont la valeur potentielle continue d'attirer des capitaux massifs. Cette annonce intervient dans un contexte d'effervescence technique autour de l'inférence et de l'architecture des agents. Sur le front de l'efficacité, plusieurs avancées ont marqué la semaine : EAGLE 3.1 améliore le décodage spéculatif pour les longues séquences, Perplexity a publié en open source un tokeniseur réduisant de 5 à 6 fois la charge CPU, et Qwen3.5 atteindrait 580 tokens par seconde pour des charges de travail agentiques grâce à une collaboration entre Alibaba, NVIDIA et les contributeurs de FlashAttention-4. Parallèlement, LangChain a livré Deep Agents v0.6 avec les Delta Channels, réduisant le stockage des points de contrôle pour une session de codage de 200 tours de 5,3 Go à seulement 129 Mo. La plateforme Trajectory a également été lancée pour permettre aux équipes d'utiliser les traces d'agents et les signaux d'usage produit dans une logique d'apprentissage continu. Ces évolutions techniques signalent un glissement de paradigme : ce n'est plus seulement la qualité du modèle qui fait la différence, mais l'adéquation entre le modèle, son environnement d'exécution et sa mémoire.

💬 26 milliards pour Cognition, ça fait un choc. Mais le chiffre qui compte c'est le milliard d'ARR projeté d'ici décembre : des déploiements déjà actifs chez des clients exigeants, et une valorisation multipliée par 2,5 en six mois pour un labo qui n'existait quasiment pas il y a trois ans. Et l'Europe dans tout ça, elle regarde.

BusinessOpinion
1 source
NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code
17MarkTechPost 

NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code

NVIDIA a publié Polar, un framework de déploiement conçu pour entraîner des agents de langage par apprentissage par renforcement (RL) sans modifier les outils existants. Présenté dans un article de recherche disponible sur arXiv (2605.24220), Polar permet d'appliquer des algorithmes comme GRPO à des agents comme Codex CLI, Claude Code, Qwen Code ou Pi, en s'intercalant entre l'agent et le modèle de langage via un proxy réseau. Concrètement, un proxy intercepte chaque appel API entrant, détecte le format utilisé (Anthropic Messages, OpenAI Chat Completions, Google generateContent), normalise la requête, capture les tokens générés avec leurs probabilités logarithmiques, puis retourne la réponse dans le format attendu par l'agent. L'unique modification requise côté harness est de rediriger l'URL de base du modèle vers ce gateway. L'intérêt majeur de Polar est de préserver intégralement le comportement des outils d'agents en production lors de l'entraînement. Jusqu'ici, les infrastructures RL standard exigeaient de réécrire la logique interne de chaque harness derrière une API propriétaire (env.init(), env.step(), env.reset() à la manière d'OpenAI Gym), ce qui entraînait une perte de fidélité et un coût d'intégration élevé pour chaque nouvel outil. Avec Polar, les chercheurs peuvent entraîner un modèle sur les mêmes chemins d'exécution exacts que ceux utilisés en évaluation, ce qui réduit l'écart entre les performances mesurées et les performances réelles. Les évaluateurs intégrés couvrent des benchmarks comme SWE-Bench et SWE-Gym, et le système permet de récupérer des traces partielles même lorsqu'un agent dépasse son budget de temps après avoir effectué des appels modèles. L'architecture repose sur deux composants principaux : un serveur de rollout qui distribue des sessions parallèles à des noeuds gateway, et ces mêmes gateways qui gèrent l'intégralité du cycle de vie d'une session, du démarrage du runtime à l'évaluation de la sortie. Des pools de workers isolés gèrent les phases INIT, RUNNING et POSTRUN, tandis qu'un buffer READY maintient des runtimes préchauffés pour éviter de bloquer l'exécution GPU. Polar supporte Docker et Apptainer sans droits root, et propose des raccourcis natifs pour les principaux harnesses du marché. Cette approche s'inscrit dans une tendance plus large : les laboratoires et équipes de recherche cherchent à industrialiser l'entraînement RL sur des agents de codage complexes, capables de gérer des contextes longs et des orchestrations multi-agents. NVIDIA se positionne ainsi comme fournisseur d'infrastructure pour cette nouvelle génération de pipelines d'entraînement, à mesure que la frontière entre inférence et apprentissage continu s'estompe.

RecherchePaper
1 source
Nouvelles licornes à 10 milliards dans l'infra IA : Fireworks, Baseten (et OpenRouter en chemin)
18Latent Space 

Nouvelles licornes à 10 milliards dans l'infra IA : Fireworks, Baseten (et OpenRouter en chemin)

Trois acteurs de l'infrastructure d'inférence IA ont fait parler d'eux cette semaine avec des levées de fonds aux valorisations vertigineuses. Fireworks AI serait en discussions pour une levée qui valoriserait la startup à 15 milliards de dollars, soit 3,75 fois sa valorisation précédente en seulement sept mois. Baseten, de son côté, serait en train de finaliser un tour qui l'amènerait à 11 milliards de dollars, multipliant par 2,2 sa valeur en trois mois à peine. Plus discret mais tout aussi significatif, OpenRouter a bouclé une Série C de 113 millions de dollars, après avoir multiplié ses volumes par cinq en six mois. Ces trois sociétés ont en commun de se positionner sur la même couche critique : permettre aux entreprises d'appeler, de router et d'orchestrer des modèles de langage à grande échelle, sans se lier à un seul fournisseur. Ces valorisations illustrent un basculement structurel dans la manière dont l'industrie évalue la valeur dans l'IA. La compétition ne se joue plus uniquement autour du modèle de base, mais autour de ce que les ingénieurs appellent le "harness" : l'ensemble formé par le modèle, l'environnement d'exécution, la boucle d'évaluation et les mécanismes de correction. DeepSeek constituerait explicitement une équipe dédiée à cette couche, Google a formalisé son infrastructure d'agents Gemini comme une API unique intégrant sandbox, persistance et gestion du contexte, et LangChain a mis à jour ses outils dans la même direction. Le benchmark DeepSWE, salué par des praticiens comme le premier à vraiment refléter l'expérience quotidienne des développeurs, a montré que les modèles se distinguent davantage sur ces tâches réelles que sur les classements publics traditionnels. Qwen3.7 Max d'Alibaba s'est par exemple classé quatrième sur Code Arena Frontend, au niveau de Claude Opus 4.6 sur les tâches de développement web agentique. Ce mouvement s'inscrit dans une tendance plus large qui s'accélère depuis le début de l'année, baptisée "Inference Inflection" par les observateurs du secteur. Après des années où les investissements se concentraient sur l'entraînement des modèles, l'argent afflue désormais vers les couches d'inférence et d'orchestration, jugées indispensables à toute mise en production sérieuse. En parallèle, la recherche explore de nouvelles pistes pour répondre aux limites de mémoire des modèles : le papier "Language Models Need Sleep", remarqué cette semaine, propose un mécanisme de consolidation inspiré du sommeil humain, qui convertit le contexte récent en poids permanents avant de vider le cache, préservant la latence à l'exécution tout en étendant la mémoire long terme. Les prochains mois diront si ces valorisations tiennent, mais la direction est claire : l'infrastructure d'inférence est devenue le terrain où se joue la prochaine phase de l'IA.

UELa concentration des investissements dans la couche d'inférence IA autour d'acteurs américains renforce la dépendance potentielle des entreprises et startups européennes vis-à-vis de fournisseurs extra-européens pour leurs déploiements en production.

💬 x3,75 en sept mois pour Fireworks, c'est pas une levée, c'est un signal. Le modèle devient une commodité, et l'argent coule maintenant vers la couche qui permet d'en changer à volonté sans se retrouver piégé avec un seul fournisseur. Bon, reste à voir si ça tient quand AWS ou Google décident de proposer ça en bundle.

BusinessOpinion
1 source
MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros
19Le Big Data 

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

MiniCPM5-1B, développé par OpenBMB en collaboration avec des chercheurs de l'université Tsinghua, vient de décrocher la première place de l'Artificial Analysis Intelligence Index dans la catégorie des modèles open source sous les 2 milliards de paramètres, avec un score de 17,9 points. Ce résultat lui permet de devancer des concurrents pourtant plus imposants comme Qwen3.5-2B, qui plafonne à 16,3 points, malgré deux fois moins de paramètres. L'annonce a été faite le 25 mai 2026 via le compte ModelScope. Quantifié en INT4, le modèle ne pèse qu'environ 0,5 Go, ce qui lui permet de fonctionner localement sur des smartphones, dans des navigateurs web ou sur des appareils edge. Il propose une fenêtre de contexte de 128 000 tokens, deux modes de réponse (raisonnement détaillé étape par étape ou réponses rapides), et affiche de solides performances en mathématiques, génération de code et utilisation d'outils externes. Le projet est entièrement open source : poids, données d'entraînement et code de déploiement sont accessibles publiquement. OpenBMB précise également que MiniCPM5-1B a été entraîné via ForgeTrain, un framework de préentraînement développé sans programmeur humain. L'impact concret de ce type de modèle est considérable pour les usages du quotidien. Un modèle capable de fonctionner hors connexion sur un téléphone ordinaire ou un ordinateur portable bas de gamme transforme radicalement l'accès à l'IA : plus besoin d'envoyer des données vers des serveurs distants, plus de latence réseau, plus de dépendance à un abonnement cloud. Des utilisateurs rapportent déjà avoir dialogué avec le modèle pendant près d'une heure sans connexion Wi-Fi. Pour les entreprises, les développeurs indépendants ou les pays disposant d'infrastructures réseau limitées, cette autonomie représente un changement structurel. La capacité à gérer de longs documents ou conversations sans perdre le contexte, malgré un format aussi compact, élargit encore le champ d'application possible. La progression des petits modèles efficaces s'inscrit dans une tendance de fond qui remet en question la course aux paramètres qui a dominé l'industrie depuis 2020. Des laboratoires comme Google DeepMind avec Gemma, ou Meta avec les versions légères de LLaMA, explorent également cette voie, mais MiniCPM5-1B illustre que des équipes académiques chinoises peuvent désormais rivaliser directement avec les géants technologiques occidentaux sur ce terrain. Le fait qu'OpenBMB ait rendu l'ensemble du processus open source accentue la pression sur les acteurs commerciaux, qui ne peuvent plus se contenter de la taille pour justifier leurs coûts. La prochaine étape sera de vérifier si ces performances sur benchmarks se traduisent par une adoption réelle dans des applications grand public, ce qui constitue historiquement le vrai test de viabilité pour tout modèle, quel que soit son format.

UECe modèle open source deployable hors connexion pourrait intéresser des développeurs et PME européennes soucieux de souveraineté des données, mais aucun impact réglementaire ou institutionnel direct pour la France ou l'UE n'est identifié.

💬 0,5 Go pour battre Qwen deux fois plus gros, c'est le genre de chiffre qui devrait clore les débats sur la course aux paramètres. Ce qui m'intéresse c'est pas le score, c'est l'offline : dialoguer une heure depuis ton téléphone sans Wi-Fi et sans envoyer tes données nulle part, c'est un usage réel pour des millions de gens. Tout est open source, poids, données, code, donc la communauté va vite trancher si ça tient à l'usage ou non.

LLMsOpinion
1 source
Le dernier modèle IA d'Alibaba a optimisé de façon autonome le code de sa puce personnalisée pendant 35 heures
20The Decoder 

Le dernier modèle IA d'Alibaba a optimisé de façon autonome le code de sa puce personnalisée pendant 35 heures

L'équipe Qwen d'Alibaba a publié Qwen3.7-Max, un nouveau modèle propriétaire conçu spécifiquement pour les tâches d'agents autonomes de longue durée. Pour démontrer ses capacités, le modèle a opéré en continu pendant 35 heures afin d'optimiser du code destiné à la puce personnalisée d'Alibaba, sans intervention humaine. Sur les benchmarks de référence, Qwen3.7-Max atteint les performances de Claude Opus 4.6 d'Anthropic et surpasse ses concurrents chinois directs, notamment DeepSeek V4 Pro et Kimi K2.6. L'équipe a également présenté une démonstration du modèle pilotant un robot quadrupède. Cette annonce marque un cap concret dans la course aux agents IA capables de mener des missions complexes sur de longues durées. Une exécution autonome de 35 heures représente un saut qualitatif par rapport aux interactions ponctuelles des LLM classiques : le modèle doit planifier, corriger ses erreurs et maintenir une cohérence sur des milliers d'étapes. Pour l'industrie des semi-conducteurs, cela ouvre la voie à une automatisation partielle du cycle de développement des puces, un domaine où la Chine cherche activement à réduire sa dépendance aux technologies occidentales. Alibaba s'inscrit dans une dynamique intense au sein de l'écosystème IA chinois, où DeepSeek, Moonshot (Kimi) et ByteDance se livrent une concurrence acharnée sur les modèles de pointe. Le développement de puces maison par Alibaba, dans un contexte de restrictions américaines à l'exportation de semi-conducteurs, donne à ce type d'outil une dimension stratégique évidente. La démonstration robotique suggère par ailleurs qu'Alibaba vise des applications bien au-delà du code, vers l'IA embarquée dans des systèmes physiques autonomes.

UELes entreprises européennes disposent d'un nouveau modèle agentique de niveau SOTA hors de l'écosystème américain, élargissant concrètement les options pour la souveraineté numérique de l'UE.

💬 35 heures en autonomie sur du code de puce, sans intervention humaine, c'est le genre de truc qui change vraiment la donne pour les équipes hardware. Bon, sur le papier ça reste une démo maîtrisée par Alibaba, mais tenir la cohérence sur des milliers d'étapes c'est pas rien. Ce qui m'intéresse surtout, c'est le contexte : ils optimisent leur propre silicium avec leur propre modèle, sous embargo américain, et ça fonctionne.

LLMsOpinion
1 source
Microsoft lance Fara1.5 (4B/9B/27B), des agents de navigation qui surpassent OpenAI Operator et Gemini 2.5 Computer Use
21MarkTechPost 

Microsoft lance Fara1.5 (4B/9B/27B), des agents de navigation qui surpassent OpenAI Operator et Gemini 2.5 Computer Use

Le laboratoire AI Frontiers de Microsoft Research a publié Fara1.5, une famille de modèles d'agents capables de contrôler un navigateur web de façon autonome. La gamme comprend trois variantes selon leur taille : Fara1.5-4B, Fara1.5-9B et Fara1.5-27B, chiffres qui désignent le nombre de paramètres en milliards. Ces modèles s'intègrent à MagenticLite, l'interface de navigateur sandboxé de Microsoft conçue pour ce type d'agents. Concrètement, ils lisent des captures d'écran et émettent des actions de souris et de clavier pour accomplir des tâches dans un vrai navigateur. Sur le benchmark Online-Mind2Web, qui évalue la réussite de 300 tâches sur 136 sites populaires, Fara1.5-27B atteint un taux de succès de 72 %, contre 58,3 % pour OpenAI Operator et 57,3 % pour Gemini 2.5 Computer Use de Google. La version précédente, Fara-7B, n'atteignait que 34,1 % sur cette même évaluation, soit un quasi-doublement des performances en une génération. Ces résultats placent Microsoft en tête d'une catégorie qui concentre une attention croissante de l'industrie : les agents de type "computer use", capables d'agir directement dans un environnement graphique sans passer par des API dédiées. Pour les entreprises, cela ouvre la possibilité d'automatiser des flux de travail complexes sur n'importe quel site web, sans intégrations spécifiques. Les modèles embarquent également des méta-actions qui permettent à l'agent de mémoriser des informations au fil d'une session longue, ou de solliciter l'utilisateur lorsqu'une étape est ambiguë ou irréversible. Cette capacité à interrompre et à collaborer distingue Fara1.5 des approches entièrement autonomes, souvent jugées trop risquées pour un usage professionnel. Les modèles reposent sur les architectures de base Qwen3.5 et ont été entraînés sur environ deux millions d'exemples, dont 60 % de trajectoires web réelles et 12,8 % d'environnements synthétiques. Pour produire ces données, Microsoft a développé FaraGen1.5, un pipeline comprenant six environnements simulés appelés FaraEnvs, qui reproduisent des services comme la messagerie, le calendrier ou la gestion de flux ML, avec un frontend réaliste et une base de données initialisée par des profils d'utilisateurs fictifs. Le solveur chargé de générer les trajectoires d'entraînement s'appuie lui-même sur GPT-5.4 d'OpenAI, qui atteint 83 % sur Online-Mind2Web en mode automatisé. La compétition dans ce segment s'intensifie rapidement : Yutori avec Navigator n1 (64,7 %), Google et OpenAI investissent massivement dans des agents capables d'agir dans des environnements réels, préfigurant une transition vers des systèmes d'IA qui ne se contentent plus de répondre, mais qui exécutent.

💬 72 % sur Mind2Web, c'est pas anodin quand OpenAI Operator plafonne à 58. Ce qui m'intéresse vraiment, c'est la mécanique de pause : l'agent qui s'arrête pour demander confirmation avant une action irréversible, c'est exactement ce qui manquait pour passer du prototype au vrai usage pro. Reste à voir combien de temps avant qu'on puisse tourner ça en local sans dépendre de l'infra Microsoft.

LLMsActu
1 source
Qwen3.7-Max d'Alibaba peut fonctionner de manière autonome pendant 35 heures et prend en charge des frameworks externes comme Claude Code d'Anthropic
22VentureBeat AI 

Qwen3.7-Max d'Alibaba peut fonctionner de manière autonome pendant 35 heures et prend en charge des frameworks externes comme Claude Code d'Anthropic

Alibaba a publié Qwen3.7-Max, un modèle d'intelligence artificielle conçu pour opérer de façon entièrement autonome pendant des dizaines d'heures d'affilée. La démonstration la plus frappante fournie par l'équipe Qwen : le modèle a été connecté à un serveur isolé équipé d'un processeur T-Head ZW-M890 PPU, une architecture matérielle qu'il n'avait jamais rencontrée lors de son entraînement. Sa mission consistait à optimiser un noyau de calcul d'attention. En 35 heures consécutives, Qwen3.7-Max a exécuté 1 158 appels d'outils distincts, réalisé 432 évaluations du noyau, diagnostiqué des erreurs de compilation et amélioré le code de façon itérative jusqu'à atteindre une accélération de 10x en moyenne géométrique. Ses concurrents chinois directs, GLM-5.1 de z.ai et Kimi K2.6 de Moonshot, n'ont atteint respectivement que 7,3x et 5,0x, avant d'interrompre leurs sessions faute de progression. Autre signe de rupture avec les pratiques antérieures de l'équipe Qwen : ce modèle est propriétaire et accessible uniquement via API payante, contrairement aux versions précédentes publiées en open source. Ce virage stratégique a des implications concrètes pour l'ensemble du secteur. En choisissant un modèle fermé, Alibaba s'aligne sur OpenAI et Google, qui réservent leurs modèles les plus puissants à leurs offres commerciales. Cela change la donne pour les entreprises et développeurs qui comptaient sur les modèles Qwen ouverts pour des déploiements locaux ou des usages sensibles. Par ailleurs, le fait que le modèle soit uniquement accessible depuis des points d'accès basés en Chine soulève des questions de conformité réglementaire pour les entreprises américaines et européennes soumises à des obligations de souveraineté des données, notamment dans le cadre de contrats gouvernementaux. Le modèle supporte néanmoins des environnements d'exécution externes comme Claude Code d'Anthropic, ce qui lui ouvre un spectre d'utilisation plus large dans les workflows d'ingénierie logicielle. La performance de Qwen3.7-Max repose sur ce qu'Alibaba appelle l'« environment scaling » : plutôt que d'entraîner le modèle uniquement sur du texte, il a été exposé à un vaste éventail d'environnements agentiques dynamiques, lui permettant de développer un raisonnement à long horizon sans perdre le fil de ses instructions. Le modèle intègre également un mécanisme de détection du reward hacking, qui lui permet d'identifier lorsqu'il tente de contourner ses propres règles d'évaluation et de s'autocorriger. Dans le benchmark YC-Bench, qui simule un an de cycle de vie d'une startup, Qwen3.7-Max a généré l'équivalent de 2,08 millions de dollars de revenus virtuels, soit près du double de son prédécesseur Qwen3.6-Plus. La sortie de ce modèle intervient quelques mois après le départ de plusieurs responsables clés de l'équipe Qwen, une transition qui explique en partie l'abandon de l'open source au profit d'une monétisation directe.

UEL'accessibilité exclusive via des points d'accès basés en Chine contraint les entreprises et administrations européennes soumises aux obligations de souveraineté des données à exclure ce modèle de leurs workflows malgré ses performances agentiques exceptionnelles.

💬 Le vrai sujet, c'est pas les 35 heures de run autonome (impressionnant, certes, mais on s'y attendait). C'est qu'Alibaba tourne la page de l'open source et passe tout fermé, avec des endpoints uniquement basés en Chine, ce qui met Qwen3.7-Max hors jeu pour toute équipe européenne sous contraintes de souveraineté. Ceux qui avaient construit leurs workflows sur les modèles Qwen ouverts vont devoir se retourner.

LLMsOpinion
1 source
Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens
23MarkTechPost 

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu
1 source
Qwen3.7 Max : l’IA d’Alibaba écrase ses anciens scores sur les benchmarks IA
24Le Big Data 

Qwen3.7 Max : l’IA d’Alibaba écrase ses anciens scores sur les benchmarks IA

Alibaba a dévoilé le 21 mai 2026 son nouveau modèle de langage Qwen3.7 Max, qui affiche un score de 56,6 sur l'Artificial Analysis Intelligence Index, soit 4,8 points de plus que son prédécesseur Qwen3.6 Max Preview (51,8). Le bond le plus notable concerne le codage agentique et le raisonnement scientifique, avec des progressions significatives sur des benchmarks spécialisés comme Humanity's Last Exam et TerminalBench Hard. La fenêtre de contexte du modèle passe également de 256 000 à un million de tokens, ce qui lui permet de traiter des volumes d'information sans précédent dans une seule session. Alibaba met aussi en avant une réduction mesurable du taux d'hallucinations : le modèle préfère ne pas répondre plutôt que d'inventer une information incertaine, une stratégie rendue possible par un investissement massif dans les techniques de reinforcement learning. Ces avancées ont des conséquences directes pour les développeurs et les entreprises qui utilisent l'IA dans leurs workflows. Une fenêtre d'un million de tokens change concrètement ce qu'il est possible de faire : analyser des bases de code entières, traiter de longs documents juridiques ou financiers, ou enchaîner des raisonnements complexes sur plusieurs étapes sans perdre de contexte. La réduction des hallucinations est un argument commercial fort dans les secteurs où la fiabilité est critique, comme le droit, la finance ou la médecine. Sur ces critères précis, Qwen3.7 Max commence à se positionner comme une alternative sérieuse aux offres d'OpenAI, Anthropic et Google, même si le modèle reste encore derrière les meilleurs modèles américains sur les classements globaux. Longtemps perçu comme un outsider dans la course aux grands modèles de langage, Alibaba s'impose progressivement comme un acteur de premier plan. La série Qwen incarne cette stratégie de rattrapage accéléré : chaque nouvelle version réduit l'écart avec la frontière technologique définie par GPT-4o, Claude ou Gemini. Le contexte géopolitique autour des semi-conducteurs et des restrictions américaines à l'export de puces avancées rend ces progrès d'autant plus remarquables. En parallèle, d'autres laboratoires chinois comme DeepSeek et Baidu intensifient eux aussi leurs efforts, créant une dynamique de compétition interne qui pousse l'ensemble de l'écosystème vers le haut. La prochaine étape pour Alibaba sera probablement l'intégration de capacités multimodales avancées, absentes de Qwen3.7 Max, pour rivaliser pleinement avec les modèles américains qui traitent déjà texte, image et vidéo dans un même système.

UELes entreprises et développeurs européens disposent d'une nouvelle alternative compétitive aux modèles américains, notamment pour des usages exigeant de longues fenêtres de contexte ou une haute fiabilité dans des secteurs réglementés comme le droit ou la finance.

💬 Un million de tokens de contexte, c'est pas du marketing, ça change vraiment ce qu'on peut faire : analyser une base de code entière, ou garder le fil sur un raisonnement long sans tout reperdre au milieu. La réduction des hallucinations via reinforcement learning, c'est le pari technique qui mérite qu'on y regarde sérieusement, surtout dans des secteurs où inventer une réponse coûte cher. Qwen est encore derrière sur les classements globaux, mais l'écart se resserre à une vitesse qui devrait mettre un peu de pression sur les labos américains.

LLMsOpinion
1 source
Amazon SageMaker AI prend en charge l'API compatible OpenAI
25AWS ML Blog 

Amazon SageMaker AI prend en charge l'API compatible OpenAI

Amazon a annoncé ce mois-ci que SageMaker AI supporte désormais une API compatible avec celle d'OpenAI pour ses endpoints d'inférence en temps réel. Concrètement, les développeurs qui utilisent le SDK OpenAI, LangChain ou le framework Strands Agents peuvent désormais router leurs appels vers des modèles hébergés sur SageMaker AI en changeant uniquement l'URL de l'endpoint. Plus besoin de client personnalisé, de wrapper SigV4, ni de réécriture de code. Les endpoints SageMaker exposent un chemin /openai/v1 qui accepte les requêtes au format Chat Completions et renvoie les réponses du conteneur telles quelles, y compris en streaming. L'authentification repose sur des tokens bearer à durée limitée (jusqu'à 12 heures), générés à partir des credentials AWS existants via le SDK Python SageMaker, sans clé API supplémentaire. Ce changement simplifie radicalement l'intégration de SageMaker dans les stacks d'IA existantes. Pour les équipes qui orchestrent des agents multi-LLM via une gateway (comme Bifrost, mentionnée par Giorgio Piatti, ingénieur ML chez Caffeine.AI), SageMaker devient un fournisseur interchangeable sans adaptation technique. Les cas d'usage sont nombreux : workflows agentiques tournant entièrement sur de l'infrastructure dédiée en compte AWS, hébergement multi-modèles sur un seul endpoint via les inference components (par exemple Llama pour les tâches générales, un Mistral fine-tuné pour un domaine métier, et un petit modèle de classification), ou encore déploiement de modèles open source fine-tunés sans toucher au code applicatif existant. Pour les entreprises soumises à des contraintes de souveraineté des données ou de conformité, c'est un gain concret : elles peuvent utiliser les mêmes frameworks standardisés OpenAI tout en gardant les modèles dans leur propre compte AWS. Cette annonce s'inscrit dans une bataille plus large pour capter les workloads d'inférence IA en entreprise. Le standard OpenAI s'est imposé de facto comme protocole universel pour les LLMs, et les grands fournisseurs cloud (AWS, Google, Azure) cherchent à réduire les frictions pour attirer des équipes déjà investies dans cet écosystème. Amazon avait déjà investi massivement dans Bedrock et SageMaker, mais l'adoption restait freinée par les incompatibilités d'API qui forçaient les migrations de code. En adoptant la compatibilité OpenAI directement au niveau de SageMaker AI, AWS ferme cet écart et concurrence frontalement des solutions comme Azure OpenAI Service ou les endpoints Vertex AI de Google. Le notebook d'exemple avec Qwen3-4B (modèle d'Alibaba disponible sur Hugging Face) illustre aussi l'ouverture vers les modèles open source, un segment en forte croissance face aux modèles propriétaires.

UELes entreprises européennes soumises aux contraintes RGPD et de souveraineté des données peuvent désormais utiliser les frameworks OpenAI standard tout en maintenant leurs modèles dans leur propre infrastructure AWS hébergée en région européenne.

💬 C'est le genre de truc qui semble anodin et qui change tout en pratique. Changer juste l'URL pour basculer d'OpenAI vers SageMaker, sans toucher au code, c'est exactement ce que les équipes enterprise attendaient pour switcher sans se battre avec leur DSI. Bon, ça reste AWS, donc la facture peut vite grimper, mais pour les boîtes avec des contraintes de souveraineté data, l'argument est solide.

OutilsOpinion
1 source
NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B
26MarkTechPost 

NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B

NVIDIA a publié Nemotron-Labs-Diffusion, une nouvelle famille de modèles de langage disponible en trois tailles, 3, 8 et 14 milliards de paramètres, avec des variantes de base, instruction et vision-langage. La particularité de cette architecture réside dans sa capacité à fonctionner selon trois modes de décodage distincts au sein d'un seul et même jeu de poids : le décodage autorégressif classique (AR), le décodage par diffusion parallèle, et un mode dit de "self-speculation". L'entraînement combine un objectif AR standard et un objectif de débruitage par diffusion, pondérés selon la formule L(θ) = LAR(θ) + 0,3 × Ldiff(θ). Le coefficient 0,3 a été déterminé par ablation sur une plage de 0,1 à 1,0, et s'est révélé optimal pour les deux modes simultanément. La procédure d'entraînement se déroule en deux phases : un trillion de tokens en mode purement autorégressif pour ancrer des priors linguistiques solides, suivi de 300 milliards de tokens supplémentaires avec l'objectif conjoint. Ce modèle répond à un problème fondamental des LLMs déployés en production : les modèles autorégressifs génèrent un token à la fois, ce qui sous-exploite massivement les GPU dans les scénarios à faible concurrence, typiquement les déploiements en edge ou pour un utilisateur unique. Le mode diffusion de Nemotron-Labs-Diffusion génère plusieurs tokens en parallèle par passe, grâce à une attention bidirectionnelle à l'intérieur de blocs contigus, tout en conservant une attention causale entre blocs pour réutiliser le cache KV. Le mode self-speculation est encore plus original : la voie diffusion génère un bloc de k tokens candidats, que la voie AR vérifie en une seconde passe, en validant le préfixe contigu le plus long. Chaque cycle produit entre 1 et k+1 tokens vérifiés, sans modèle auxiliaire ni tête de prédiction séparée, une différence notable par rapport aux approches comme Eagle3 ou Multi-Token Prediction. Les modèles de diffusion pour le langage souffrent depuis leur émergence d'un déficit de précision par rapport aux modèles autorégressifs : ils nécessitent davantage de données pour atteindre des performances comparables, notamment parce qu'ils ne tirent pas parti du biais gauche-droite naturel du langage. NVIDIA tente de résoudre cette tension structurelle en entraînant un modèle unique sur les deux objectifs, ce qui, selon leurs ablations, apporte un gain moyen de +7,48% via le seul ajout de la perte AR, et +5,74% grâce à l'entraînement en deux étapes. La publication de cette famille de modèles s'inscrit dans une compétition intense autour de l'efficacité inférentielle, où Qwen3-8B sert de référence explicite, NVIDIA revendiquant un ratio de 6× tokens par passe vers l'avant. La prochaine étape naturelle sera de voir si ces gains se confirment dans des benchmarks indépendants et des déploiements réels, et si l'approche tri-modale s'impose comme standard pour les futurs modèles hybrides.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba lance Qwen3.5-LiveTranslate-Flash : interprétation multimodale en temps réel dans 60 langues avec une latence de 2,8 secondes
27MarkTechPost 

L'équipe Qwen d'Alibaba lance Qwen3.5-LiveTranslate-Flash : interprétation multimodale en temps réel dans 60 langues avec une latence de 2,8 secondes

L'équipe Qwen d'Alibaba a lancé le 20 mai 2026 son nouveau modèle Qwen3.5-LiveTranslate-Flash, conçu pour l'interprétation simultanée en temps réel. Ce système prend en charge 60 langues en entrée, propose une sortie vocale dans 29 langues, et affiche une latence de seulement 2,8 secondes. Par rapport à son prédécesseur direct, Qwen3-LiveTranslate-Flash, le gain est considérable : l'ancien modèle ne couvrait que 18 langues d'entrée pour environ 3 secondes de délai, ce qui représente un triplement de la couverture linguistique et une réduction mesurable de la latence. La clé de cette rapidité réside dans une technique de segmentation sémantique : plutôt qu'attendre la fin d'une phrase complète, le modèle identifie le moment précis où un fragment de discours contient suffisamment de sens pour engager la traduction, et diffuse la sortie en continu pendant que l'interlocuteur parle encore. Ce modèle change la donne pour plusieurs secteurs professionnels. D'abord, parce qu'il intègre la vision comme signal d'entrée au même titre que l'audio : le système analyse simultanément le texte affiché à l'écran, les objets physiques présents dans le cadre, les mouvements des lèvres et les gestes. Dans un environnement réel, salle de conférence bruyante, salon professionnel, visioconférence dégradée, cette redondance visuelle permet au modèle de combler les ambiguïtés phonétiques que l'audio seul ne peut pas résoudre. Ensuite, le modèle clone en temps réel les caractéristiques vocales de l'orateur original : une seule phrase suffit pour que la voix traduite conserve les traits acoustiques de la personne qui parle, sans substituer une synthèse générique et robotique. Enfin, les développeurs peuvent injecter à l'exécution un glossaire de termes spécialisés, noms de médicaments, références juridiques, terminologie technique, ce qui réduit drastiquement les erreurs sur le vocabulaire de niche, un problème chronique des API de traduction grand public. Alibaba positionne ce modèle dans un segment où peu d'acteurs sont présents avec des solutions complètes : l'interprétation simultanée multimodale à faible latence. Les benchmarks FLEURS et CoVoST2, deux références académiques pour la traduction de la parole en conditions réelles, placent Qwen3.5-LiveTranslate-Flash devant les principales alternatives commerciales actuelles. La course à la latence est devenue le nouvel enjeu structurant de la traduction automatique en direct, après des années dominées par la seule qualité de traduction. D'autres acteurs comme Google, Microsoft et des startups spécialisées comme Wordly ou Interprefy opèrent sur ce terrain, mais peu proposent simultanément la clonage vocal, la fusion audio-vidéo et la personnalisation du vocabulaire dans un seul modèle déployable via API. Les suites probables incluent une intégration dans les plateformes de visioconférence professionnelle et les outils de streaming multilingue, où la demande d'expériences interprétées "invisibles" ne cesse de croître.

UELes institutions et entreprises européennes opérant en environnement multilingue, notamment les organisations internationales, cabinets juridiques et plateformes de visioconférence, pourraient intégrer cette API pour réduire les coûts d'interprétation simultanée humaine.

OutilsOpinion
1 source
Qwen-Image-2.0 d'Alibaba divise par deux la compression et réduit les étapes de génération de 40 à 4
28The Decoder 

Qwen-Image-2.0 d'Alibaba divise par deux la compression et réduit les étapes de génération de 40 à 4

Alibaba a publié un rapport technique détaillant les innovations architecturales de Qwen-Image-2.0, son nouveau modèle de génération d'images. Le modèle compresse les images deux fois plus agressivement que la majorité de ses concurrents, s'appuie sur un transformeur remanié pour stabiliser l'entraînement, et intègre un module dédié qui étend automatiquement les prompts courts des utilisateurs en descriptions détaillées. Une version distillée du modèle ramène le nombre d'étapes de débruitage de 40 à seulement 4, sans sacrifier la qualité de sortie. Sur LMArena, plateforme de comparaisons en aveugle où des utilisateurs réels évaluent les modèles côte à côte, Qwen-Image-2.0 se classe actuellement 9e. Ce gain de vitesse est significatif pour les applications industrielles : passer de 40 à 4 étapes de débruitage réduit drastiquement le coût de calcul et le temps de réponse, rendant le modèle viable pour des usages en temps réel ou à grande échelle. L'expansion automatique des prompts abaisse aussi la barrière d'entrée pour les utilisateurs non experts, qui obtiennent de meilleurs résultats sans avoir à maîtriser l'art du prompt engineering. Alibaba s'inscrit dans une course intense à la génération d'images où Midjourney, Stability AI, Adobe Firefly et les modèles de Google et Meta rivalisent pour la suprématie technique. La stratégie de Qwen combine efficacité computationnelle et facilité d'usage, deux axes devenus centraux pour séduire les développeurs et les entreprises. La publication du rapport technique suggère qu'Alibaba cherche à attirer l'adoption internationale, notamment hors de Chine, en jouant la carte de la transparence.

UELes développeurs et entreprises européens peuvent bénéficier d'un modèle de génération d'images significativement plus rapide et moins coûteux en calcul, mais aucun impact réglementaire ou institutionnel direct sur la France ou l'UE.

💬 40 étapes à 4, sans perte de qualité, c'est le genre d'annonce qui mérite qu'on s'y arrête. L'extension automatique des prompts, c'est moins impressionnant que ça en a l'air (d'autres le font déjà), mais combinée au gain de vitesse, ça ouvre des usages temps réel qui n'étaient pas viables avant. Le 9e rang sur LMArena tempère un peu l'enthousiasme, faut pas se mentir.

CréationOpinion
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
29MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Dans l’IA, la Chine bouscule son monde avec sa stratégie open source
30Next INpact 

Dans l’IA, la Chine bouscule son monde avec sa stratégie open source

Depuis fin avril 2026, deux modèles chinois occupent le sommet du classement des LLM les plus utilisés sur Open Router, la principale place de marché mondiale pour les modèles de langage : Hy3 de Tencent, fort de 295 milliards de paramètres, et Kimi K2.6 de la start-up pékinoise Moonshot AI, fondée en 2023. Claude Sonnet 4.6 et Claude Opus 4.7 d'Anthropic n'arrivent qu'en troisième et quatrième position, suivis de plusieurs versions de DeepSeek et de Gemini. Ce palmarès n'est pas un accident : la Chine a déposé 70 % des 54 000 brevets mondiaux en IA générative, et Alibaba revendiquait en mars un milliard de téléchargements cumulés pour sa famille Qwen, représentant plus de la moitié des téléchargements mondiaux de modèles open source. Kimi, lui, est accessible à environ 4 dollars le million de tokens générés, soit six à huit fois moins cher que GPT-5.5 ou Claude Opus 4.7. Cet avantage tarifaire peut sembler négligeable pour un utilisateur individuel, mais il change radicalement l'équation pour les entreprises qui font tourner des centaines d'agents d'IA en parallèle. En rendant publics des modèles performants à faible coût, les acteurs chinois attaquent la chaîne de valeur que les géants américains ont bâtie autour de leurs APIs propriétaires. Le gouvernement de Singapour a illustré cette dynamique en novembre dernier en abandonnant Llama de Meta au profit de Qwen pour construire son modèle d'IA souverain, tandis que Taobao et Tmall intègrent déjà ces outils dans leurs services quotidiens. Pour les directions informatiques du monde entier, l'open source chinois est désormais une alternative sérieuse, pas un choix par défaut. Cette offensive s'inscrit dans un contexte de restrictions américaines sur l'accès aux semi-conducteurs avancés, qui ont contraint la Chine à optimiser ses modèles pour des architectures matérielles moins récentes. Résultat : des systèmes plus légers, moins gourmands, et moins coûteux à l'usage. La déflagration DeepSeek, dès début 2025, avait été le premier signal fort de cette capacité d'adaptation, au point d'inquiéter Jensen Huang, le patron de Nvidia. La quatrième version de DeepSeek, conçue pour fonctionner exclusivement sur des technologies chinoises avec le soutien de Huawei, a confirmé la tendance. En mars, Anthropic a formellement dénoncé l'utilisation de comptes frauduleux par DeepSeek, Moonshot et MiniMax pour extraire massivement les capacités de Claude. Loin de la seule rivalité technologique, cette stratégie open source représente une évolution des Nouvelles Routes de la Soie vers un levier d'influence numérique mondial, où la dépendance aux modèles chinois pourrait progressivement supplanter celle aux infrastructures occidentales.

UELa domination chinoise sur l'open source IA place l'Europe face à un arbitrage stratégique entre adoption de modèles performants et bon marché et risque de substitution d'une dépendance américaine par une dépendance chinoise, en tension directe avec les objectifs de souveraineté numérique de l'UE.

💬 Quatre dollars le million de tokens contre vingt-cinq pour Claude Opus, c'est là que le débat se joue maintenant. Quand tu fais tourner des centaines d'agents en parallèle, la facture n'est plus la même, et les DSI ont sorti leurs calculettes. Ce que personne n'avait vraiment anticipé: les restrictions américaines sur les puces ont finalement produit des modèles plus légers, moins gourmands, et difficiles à contrer sur le prix.

LLMsOpinion
1 source
Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified
31MarkTechPost 

Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified

Mistral AI vient d'annoncer deux avancées majeures : le lancement des agents distants dans Vibe, sa plateforme d'agents de codage, et la mise en préversion publique de Mistral Medium 3.5, un nouveau modèle dense de 128 milliards de paramètres. Ce modèle devient immédiatement le modèle par défaut dans Vibe et dans Le Chat, l'assistant grand public de Mistral. Sur le benchmark SWE-Bench Verified, référence du secteur pour évaluer la capacité d'un modèle à résoudre des problèmes réels tirés de dépôts GitHub open source, Medium 3.5 obtient un score de 77,6%, devançant Devstral 2 ainsi que Qwen3.5 397B A17B. Le modèle dispose d'une fenêtre de contexte de 256 000 tokens, soit environ 200 000 mots traités en une seule passe, suffisant pour raisonner sur l'intégralité d'une grande base de code. Il est également multimodal, avec un encodeur visuel développé intégralement par Mistral plutôt que réutilisé depuis des modèles comme CLIP, ce qui lui confère davantage de flexibilité face aux images de tailles et formats variés. La bascule vers les agents distants représente un changement fondamental dans la façon dont les développeurs interagissent avec Vibe. Jusqu'ici, les sessions Vibe s'exécutaient localement, liant l'agent au terminal de l'utilisateur. Désormais, plusieurs sessions peuvent tourner en parallèle dans le cloud pendant que le développeur fait autre chose. Il est même possible de "téléporter" une session locale en cours vers le cloud sans perdre l'historique, l'état de la tâche ni les validations en attente. Chaque session s'exécute dans un environnement isolé, et lorsqu'une tâche est terminée, l'agent peut ouvrir directement une pull request sur GitHub et notifier le développeur. Les intégrations couvrent également Linear, Jira pour la gestion des tickets, Sentry pour les incidents, et Slack ou Teams pour les notifications. Le Chat de Mistral bénéficie de la même infrastructure via les Workflows de Mistral Studio, la même couche d'orchestration développée en interne avant d'être ouverte aux entreprises puis au grand public. Cette annonce s'inscrit dans une compétition de plus en plus dense sur le segment des agents de codage, où Mistral affronte notamment GitHub Copilot Workspace, Cursor et des offres d'OpenAI ou d'Anthropic. En positionnant Vibe comme une alternative accessible depuis la ligne de commande ou directement depuis Le Chat, Mistral mise sur la praticité et l'intégration native à la chaîne de développement existante. Le choix de construire son propre encodeur visuel plutôt que de s'appuyer sur des composants standard témoigne d'une volonté de maîtrise technique complète sur la pile. Avec Medium 3.5, Mistral qualifie ce modèle de premier "flagship merged model", suggérant une évolution de sa stratégie produit vers des modèles unifiés capables de couvrir instruction, raisonnement et code sans multiplication des variantes spécialisées.

UEMistral AI, entreprise française, consolide sa position de champion européen de l'IA avec un modèle de pointe et une plateforme d'agents de codage qui concurrencent directement les offres américaines sur le marché du développement logiciel.

LLMsOpinion
1 source
Étude : les modèles d'IA attentifs aux émotions des utilisateurs font plus d'erreurs
32Ars Technica AI 

Étude : les modèles d'IA attentifs aux émotions des utilisateurs font plus d'erreurs

Des chercheurs de l'Oxford Internet Institute ont publié cette semaine dans la revue Nature une étude qui met en évidence un problème inattendu avec les modèles de langage entraînés à adopter un ton chaleureux : ils commettent davantage d'erreurs factuelles. L'équipe a utilisé des techniques de fine-tuning supervisé pour modifier cinq modèles, dont quatre en accès libre (Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct et Llama-3.1-70B-Instruct) ainsi que GPT-4o d'OpenAI. Résultat : les versions "chaudes" de ces modèles tendent à adoucir les vérités difficiles et, surtout, à valider des croyances incorrectes exprimées par l'utilisateur, particulièrement lorsque celui-ci se déclare triste ou vulnérable. Ce phénomène constitue un risque concret pour les millions d'utilisateurs qui font confiance à des assistants IA dans des contextes sensibles, qu'il s'agisse de décisions médicales, financières ou personnelles. Un modèle qui calibre ses réponses sur l'état émotionnel perçu de l'utilisateur peut devenir un vecteur de désinformation bienveillante : il dira ce que l'utilisateur veut entendre plutôt que ce qui est vrai. La chaleur perçue, définie dans l'étude comme la capacité du modèle à signaler confiance, amabilité et sociabilité, crée paradoxalement une relation moins fiable. Ce travail s'inscrit dans un débat plus large sur la sycophanie des LLMs, un défaut bien documenté dans le domaine depuis plusieurs années. Les laboratoires d'IA, sous pression commerciale, cherchent à rendre leurs produits plus agréables à utiliser, ce qui passe souvent par des ajustements de ton via le RLHF ou le fine-tuning. Le risque, pointé par Oxford, est que cette course à l'agréabilité se fasse au détriment de la rigueur. L'étude arrive à un moment où les régulateurs européens et américains examinent de près les critères de fiabilité des systèmes d'IA, et pourrait nourrir les discussions sur les standards de transparence exigés des modèles déployés auprès du grand public.

UEL'étude de l'Oxford Internet Institute, publiée dans Nature, pourrait directement alimenter les discussions des régulateurs européens sur les standards de fiabilité et de transparence exigés des systèmes d'IA déployés auprès du grand public dans le cadre de l'AI Act.

SécuritéActu
1 source
Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM
33MarkTechPost 

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

L'équipe Qwen, filiale IA d'Alibaba, vient de publier Qwen-Scope, une suite open-source d'autoencodeurs épars (SAE) entraînés sur les familles de modèles Qwen3 et Qwen3.5. La publication comprend 14 groupes de poids SAE répartis sur sept variantes de modèles : cinq modèles denses (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B et Qwen3.5-27B) et deux modèles mixture-of-experts (Qwen3-30B-A3B et Qwen3.5-35B-A3B). Concrètement, un autoencodeur épars fonctionne comme une couche de traduction entre les activations brutes du réseau de neurones et des concepts compréhensibles par l'humain : pour chaque couche transformeur, Qwen-Scope entraîne un SAE séparé qui décompose les états internes en un large dictionnaire de caractéristiques latentes, chaque entrée n'en activant qu'un petit sous-ensemble. Chaque caractéristique tend à correspondre à un concept précis, qu'il s'agisse d'une langue, d'un style ou d'un comportement lié à la sécurité. La largeur de ces dictionnaires atteint jusqu'à 128 000 dimensions pour les modèles MoE, soit une expansion de 64 fois la taille cachée du modèle. Cet outil répond à l'un des problèmes les plus frustrants du développement de LLMs : leur opacité totale. Quand un modèle génère des réponses dans la mauvaise langue, se répète à l'infini ou refuse des requêtes inoffensives, les développeurs disposent de très peu de moyens pour en comprendre la cause à l'échelle des calculs internes. Qwen-Scope ouvre deux leviers concrets. Le premier est le pilotage à l'inférence : en ajoutant ou soustrayant une direction de caractéristique dans le flux résiduel selon la formule h' = h + αd, il devient possible d'orienter le comportement du modèle sans modifier aucun poids. L'équipe illustre cela sur Qwen3 : un modèle qui mêlait involontairement du chinois dans ses réponses en anglais a été corrigé en supprimant la caractéristique "langue chinoise" (id : 6159), identifiée en quelques secondes par son niveau d'activation élevé. Le second levier est l'analyse d'évaluation sans forward pass coûteux : les activations SAE servent de proxy pour cartographier quelles capacités sont réellement testées par un benchmark, et détecter si deux jeux d'évaluation sont redondants. Cette publication s'inscrit dans le courant de l'interprétabilité mécaniste, un champ de recherche en pleine expansion qui vise à rendre les LLMs auditables de l'intérieur. Des acteurs comme Anthropic et DeepMind ont déjà investi dans des SAEs pour leurs propres modèles, mais la mise à disposition open-source de tels outils sur une famille de modèles aussi large reste rare. Pour les équipes qui utilisent Qwen en production, Qwen-Scope représente une infrastructure de diagnostic inédite : détecter des biais encodés dans les représentations internes, affiner des comportements sans fine-tuning coûteux, ou auditer la couverture réelle de leurs protocoles d'évaluation. La prochaine étape logique serait l'extension de ces outils aux modèles de raisonnement et aux architectures multimodales, deux domaines où l'opacité interne reste particulièrement problématique.

UELes entreprises européennes déployant des modèles Qwen en production peuvent exploiter Qwen-Scope pour auditer les biais encodés dans les représentations internes et faciliter la conformité aux exigences d'explicabilité de l'AI Act.

RecherchePaper
1 source
World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture
34MarkTechPost 

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels. Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production. Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.

UELes studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.

RecherchePaper
1 source
Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM
35MIT Technology Review 

Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM

Goodfire, une startup de San Francisco spécialisée dans l'interprétabilité des modèles d'IA, a lancé Silico, un outil inédit permettant aux chercheurs et aux ingénieurs d'inspecter et d'ajuster les paramètres internes d'un modèle de langage directement pendant son entraînement. Présenté comme le premier outil prêt à l'emploi de ce type, Silico couvre toutes les étapes du développement, de la constitution des jeux de données à l'entraînement final. Concrètement, il permet de zoomer sur des neurones individuels ou des groupes de neurones dans un modèle open source, d'observer ce qui les active, et de tracer les chemins en amont et en aval pour comprendre comment ils interagissent entre eux. À titre d'exemple, Goodfire a identifié dans Qwen 3, un modèle open source, un neurone associé au dilemme du tramway : son activation suffisait à modifier les réponses du modèle, qui cadrait alors ses sorties comme des dilemmes moraux explicites. L'outil s'appuie sur des agents IA pour automatiser une grande partie de ce travail d'analyse, jusqu'ici effectué manuellement par des équipes de chercheurs. L'enjeu est de taille : personne ne sait aujourd'hui précisément comment ou pourquoi des modèles comme ChatGPT ou Gemini fonctionnent, ce qui complique la correction de leurs défauts et le blocage de comportements non désirés. Goodfire a déjà utilisé ses techniques en interne pour réduire le nombre d'hallucinations dans des LLMs, et Silico est la mise en produit de ces méthodes. L'ambition déclarée d'Eric Ho, PDG de Goodfire, est de transformer l'entraînement des modèles, souvent comparé à de l'alchimie, en une discipline d'ingénierie de précision, avec des "boutons et curseurs" accessibles en temps réel. Si l'approche se diffuse, elle pourrait donner aux développeurs un contrôle beaucoup plus fin sur le comportement de leurs systèmes et accélérer la mise au point de modèles plus fiables et prévisibles. Goodfire s'inscrit dans un courant plus large appelé interprétabilité mécaniste, une technique qui cartographie les neurones d'un réseau et leurs connexions pour comprendre ce qui se passe à l'intérieur lors d'une tâche donnée. Le MIT Technology Review l'a classée parmi ses 10 technologies percées de 2026. Anthropic, OpenAI et Google DeepMind travaillent aussi sur ces questions, mais Goodfire se distingue en voulant appliquer cette compréhension non seulement pour auditer des modèles déjà entraînés, mais pour orienter leur conception dès le départ. Des voix critiques tempèrent néanmoins l'enthousiasme : Leonard Bereska, chercheur à l'Université d'Amsterdam, estime que l'entreprise "ajoute de la précision à l'alchimie" sans pour autant atteindre la rigueur d'une véritable ingénierie. Silico reste pour l'instant limité aux modèles open source et inutilisable sur des systèmes propriétaires comme GPT ou Gemini, mais si l'outil tient ses promesses, il pourrait changer en profondeur la façon dont l'industrie conçoit et évalue ses modèles.

UEUn chercheur de l'Université d'Amsterdam est cité pour tempérer les promesses de l'outil ; si Silico tient ses promesses, les équipes européennes travaillant sur des modèles open source pourraient bénéficier d'un meilleur contrôle sur le comportement de leurs systèmes dès l'entraînement.

RechercheActu
1 source
IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains
36VentureBeat AI 

IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains

IBM a lancé hier à l'échelle mondiale Bob, sa plateforme de développement logiciel propulsée par l'intelligence artificielle. L'outil, conçu pour écrire, tester et gérer du code tout au long du cycle de développement, est déjà utilisé par plus de 80 000 employés d'IBM après avoir démarré avec seulement 100 utilisateurs internes à l'été 2025. Bob repose sur un routage multi-modèles : il peut s'appuyer sur les modèles Granite d'IBM, les modèles Claude d'Anthropic, ou encore ceux de la société française Mistral, ainsi que sur des modèles distillés plus légers. Les modèles open source comme Qwen d'Alibaba sont explicitement exclus. Selon IBM, certaines équipes ont économisé jusqu'à 70 % du temps sur certaines tâches, soit en moyenne dix heures par semaine. Neal Sundaresan, directeur général de l'automatisation et de l'IA chez IBM, résume la philosophie de la plateforme : « La capacité du modèle seule ne suffit pas. La façon dont vous le déployez, dont vous structurez le contexte, et dont vous maintenez les humains dans la boucle détermine si l'IA tient réellement ses promesses. » Ce qui distingue Bob de concurrents comme Cursor ou Claude Code, c'est le niveau de contrôle et de gouvernance qu'il impose sur les workflows agentiques. Là où d'autres outils placent le développeur au début de la tâche pour qu'il enchaîne les étapes manuellement, Bob introduit des points de contrôle humains structurés à intervalles réguliers, tout en permettant à des agents IA d'accomplir des tâches complexes en plusieurs étapes. Cette approche répond directement aux besoins des grandes entreprises, qui craignent les failles de sécurité et les défaillances d'orchestration lorsque des agents autonomes accèdent à des données en production. Pour les directions techniques et les équipes d'audit, la traçabilité et la capacité à intervenir à tout moment priment sur la vitesse. Cette annonce s'inscrit dans une tension croissante dans l'industrie entre deux visions de l'IA agentique. D'un côté, des systèmes ouverts et autonomes comme OpenClaw ou NemoClaw de Nvidia, qui poussent les limites de l'automatisation dans des environnements bac à sable. De l'autre, des plateformes comme Bob qui privilégient la fiabilité, l'auditabilité et la supervision humaine. OpenAI a récemment ajouté dans son Agents SDK un support pour des implémentations en bac à sable, tandis que Kilo lançait Kilo Claw centré sur la sécurité des agents autonomes. IBM, fort de ses décennies d'expérience dans les systèmes d'entreprise critiques, choisit délibérément la prudence. Sundaresan le dit sans détour : « Il vaut mieux ouvrir la grille lentement que de dire, 'oups, comment je la referme maintenant ?' »

UEMistral, startup française, est intégrée nativement comme l'un des modèles supportés par Bob aux côtés de Claude et Granite, lui offrant une vitrine directe auprès des 80 000 développeurs IBM et renforçant la crédibilité des LLMs européens dans les environnements enterprise critiques.

OutilsOutil
1 source
L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper
37MarkTechPost 

L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper

L'équipe Qwen a publié FlashQLA, une bibliothèque open source de kernels GPU haute performance, sous licence MIT. Construite sur le framework de compilation TileLang, elle est spécifiquement optimisée pour le mécanisme d'attention linéaire Gated Delta Network (GDN), qui est au coeur des modèles hybrides Qwen3.5 et Qwen3.6. Sur les GPU NVIDIA de la génération Hopper (H100, H200), FlashQLA atteint une accélération de 2 à 3 fois sur la passe avant (inference et entraînement) et de 2 fois sur la passe arrière (calcul des gradients), par rapport à la bibliothèque de référence Flash Linear Attention (FLA) et ses kernels Triton. Ces gains reposent sur deux innovations principales documentées : un parallélisme de contexte intra-carte déclenché automatiquement par les propriétés mathématiques du gate exponentiel du GDN, et une reformulation algébrique optimisée pour les unités de calcul matérielles de l'architecture Hopper. Ces résultats ont une portée concrète pour quiconque entraîne ou déploie des modèles de langage sur des séquences longues. L'attention classique de type softmax souffre d'une complexité quadratique en O(n²) : doubler la longueur de la séquence multiplie le coût de calcul par quatre. L'attention linéaire ramène ce coût à O(n), ce qui rend le traitement de longs documents, de code ou de conversations beaucoup moins onéreux. Or, l'efficacité de l'attention linéaire dépend en grande partie de la qualité des kernels GPU sous-jacents. En exploitant les instructions warpgroup-level des Tensor Cores et les pipelines de données asynchrones propres à Hopper, fonctionnalités que Triton ne peut pas toujours exploiter pleinement, FlashQLA libère une partie du potentiel matériel que les implémentations existantes laissaient sur la table. Ce travail s'inscrit dans une compétition intense autour de l'optimisation bas niveau des modèles de langage, un terrain souvent invisible mais décisif. Depuis FlashAttention (2022), plusieurs équipes cherchent à accélérer les opérations d'attention directement au niveau du kernel, c'est-à-dire la routine de calcul qui s'exécute réellement sur le processeur graphique. Qwen, développé par Alibaba Cloud, a fait le choix d'une architecture hybride pour ses derniers modèles : des couches GDN alternent avec des couches d'attention complète, combinant efficacité sur les longues séquences et expressivité là où elle est le plus utile. En publiant FlashQLA sous MIT, l'équipe ouvre cette optimisation à l'ensemble de la communauté, y compris aux chercheurs et entreprises qui construisent des pipelines sur ces architectures hybrides. La prochaine étape probable est l'intégration dans les frameworks d'entraînement dominants comme vLLM ou SGLang, ce qui élargirait significativement l'impact de cette bibliothèque.

UEAucun impact direct, mais les chercheurs et entreprises européens disposant de GPU NVIDIA Hopper peuvent intégrer cette bibliothèque MIT pour accélérer l'entraînement et l'inférence de leurs modèles à attention linéaire.

LLMsOpinion
1 source
Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents
38VentureBeat AI 

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

La startup américaine Poolside, fondée à San Francisco en 2023, a lancé ce 28 avril 2026 deux nouveaux modèles de langage sous la marque Laguna, conçus spécifiquement pour les tâches de codage agentique. Le premier, Laguna M.1, est un modèle propriétaire de 225 milliards de paramètres au format Mixture of Experts (MoE), avec 23 milliards de paramètres actifs, destiné aux environnements d'entreprise et gouvernementaux à hautes exigences de sécurité. Le second, Laguna XS.2, est un modèle open source sous licence Apache 2.0 de 33 milliards de paramètres (3 milliards actifs), téléchargeable et exécutable localement sur un simple GPU de bureau ou d'ordinateur portable, sans connexion internet. Poolside accompagne ces deux modèles d'un agent de codage en ligne de commande baptisé "pool" et d'un environnement de développement web mobile appelé "shimmer". Temporairement, même le plus grand modèle M.1 est accessible gratuitement via l'API Poolside et des partenaires comme OpenRouter, Ollama et Baseten. L'arrivée de Laguna XS.2 en open source représente un signal fort dans un secteur dominé soit par des modèles propriétaires coûteux comme Claude d'Anthropic ou GPT-5.5 d'OpenAI, soit par des modèles chinois à licence ouverte comme ceux de DeepSeek. Poolside offre ici une alternative américaine, exécutable entièrement hors ligne, ce qui répond à un besoin critique pour les agences gouvernementales et les entreprises opérant dans des environnements ultra-sécurisés. L'ingénieur post-entraînement George Grigorev a précisé que Poolside peut "livrer des poids dans des environnements totalement isolés on-premises, sans connexion réseau", un avantage décisif face aux solutions cloud d'Anthropic ou Google. Par ailleurs, les deux modèles Laguna ont été entraînés intégralement from scratch, contrairement à plusieurs laboratoires américains qui s'appuient sur les modèles de base Qwen d'Alibaba, ce qui leur confère une indépendance technique notable. Poolside s'est jusqu'ici concentrée sur des contrats gouvernementaux et de défense, construisant ses modèles dans un environnement interne appelé "Model Factory", dont le moteur central est un logiciel maison nommé Titan. L'entreprise utilise également un optimiseur d'entraînement appelé Muon, qui accélère l'apprentissage d'environ 15% par rapport aux méthodes standards, un avantage compétitif non négligeable en termes de coûts et de délais. En s'ouvrant maintenant à la communauté des développeurs et à la recherche publique, Poolside change de stratégie et entre de plein pied dans la bataille de l'open source agentique, à un moment où les entreprises tech cherchent à réduire leur dépendance aux API propriétaires pour des raisons de coût, de confidentialité et de souveraineté technologique.

UELes organisations européennes en environnement isolé (défense, administration) peuvent déployer localement un modèle de codage agentique open source américain sans dépendance cloud, renforçant leur autonomie technologique.

LLMsActu
1 source
Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte
39MIT Technology Review 

Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte

DeepSeek a publié vendredi une version préliminaire de V4, son nouveau modèle phare attendu depuis plusieurs mois. Disponible en open source, le modèle se décline en deux versions : V4-Pro, conçu pour le code et les tâches d'agents complexes, et V4-Flash, plus léger et optimisé pour la vitesse. Sur les principaux benchmarks, V4-Pro rivalise avec les meilleurs modèles fermés du marché, se situant au niveau de Claude Opus de chez Anthropic, de GPT-5 d'OpenAI et de Gemini de Google. Face aux autres modèles open source, notamment Qwen d'Alibaba ou GLM de Z.ai, V4 les surpasse en codage, mathématiques et disciplines scientifiques. L'entreprise rapporte qu'une enquête interne auprès de 85 développeurs expérimentés a montré que plus de 90 % d'entre eux classent V4-Pro parmi leurs premiers choix pour les tâches de programmation. DeepSeek a également optimisé le modèle pour des frameworks d'agents populaires comme Claude Code ou CodeBuddy. Ce qui distingue V4, c'est son rapport performance-prix particulièrement agressif. V4-Pro est facturé 1,74 dollar par million de tokens en entrée et 3,48 dollars en sortie, une fraction du tarif pratiqué par OpenAI ou Anthropic pour des modèles comparables. V4-Flash descend encore plus bas, à 0,14 dollar par million de tokens en entrée et 0,28 dollar en sortie, ce qui en fait l'un des modèles haut de gamme les moins chers du marché. Pour les développeurs et les entreprises, cela signifie un accès à des capacités d'IA frontier sans les coûts habituellement prohibitifs des API propriétaires. Les deux versions intègrent un mode de raisonnement pas à pas, et V4 introduit une nouvelle architecture qui améliore significativement la gestion de longs contextes, ouvrant la voie à des applications sur des documents ou des bases de code entières. Cette sortie intervient dans un contexte particulier pour DeepSeek. La firme de Hangzhou avait provoqué un séisme dans l'industrie en janvier 2025 avec R1, un modèle de raisonnement entraîné avec des ressources limitées qui avait mis en question la suprématie américaine en matière d'IA. Depuis, l'entreprise a traversé des mois difficiles, marqués par des départs de personnels clés, des retards dans ses lancements et une surveillance accrue des gouvernements américain et chinois. V4 constitue son retour sur la scène des modèles frontier, même si l'effet de surprise de R1 ne se reproduira probablement pas. L'enjeu est désormais de confirmer que DeepSeek peut tenir dans la durée face à des adversaires disposant de ressources computationnelles autrement plus importantes, et de s'imposer comme une alternative crédible et pérenne dans un écosystème open source en pleine effervescence.

UELes développeurs et entreprises européennes accèdent à des capacités frontier en open source à des tarifs très inférieurs aux API propriétaires, élargissant concrètement les options pour les startups et PME du continent.

LLMsOpinion
1 source
Alibaba ouvre l'application Qwen à des partenaires externes avec China Eastern Airlines
40SCMP Tech 

Alibaba ouvre l'application Qwen à des partenaires externes avec China Eastern Airlines

Alibaba a annoncé son premier partenariat externe pour son application grand public d'intelligence artificielle Qwen, en s'associant à China Eastern Airlines, l'une des trois grandes compagnies aériennes nationales chinoises. Grâce à cette intégration, les utilisateurs de l'application Qwen peuvent désormais gérer l'intégralité du processus de réservation de vol, recherche de billets, achat, sélection du siège et enregistrement, au sein d'une seule interface conversationnelle en langage naturel, sans quitter l'application. Ce partenariat marque une étape décisive dans la stratégie d'Alibaba : faire de Qwen non plus un simple assistant textuel, mais un agent capable d'agir concrètement dans le monde réel pour le compte de l'utilisateur. L'intégration avec China Eastern illustre ce qu'on appelle les capacités « agentiques », la possibilité pour un modèle de langage d'enchaîner des actions complexes dans des systèmes tiers. Pour les voyageurs chinois, cela représente un gain de fluidité considérable, toutes les étapes d'une réservation étant centralisées dans un seul dialogue. Cette initiative s'inscrit dans une course mondiale aux assistants IA capables de se connecter à des services réels. En Chine, Alibaba fait face à une concurrence intense de Baidu, ByteDance et surtout de DeepSeek, dont la montée en puissance a redistribué les cartes début 2025. En ouvrant Qwen à des partenaires extérieurs, Alibaba cherche à constituer un écosystème d'intégrations qui rendrait son application indispensable au quotidien, à l'image de ce que WeChat a réussi avec ses mini-programmes il y a près d'une décennie.

OutilsOutil
1 source
Optimisation élégante des tokens
41Latent Space 

Optimisation élégante des tokens

Google a profité de sa conférence Cloud Next, qui s'est tenue les 21 et 22 avril 2026, pour annoncer ses TPU v8, la huitième génération de ses puces d'entraînement et d'inférence. Les chiffres annoncés sont vertigineux et confirment l'avance matérielle accumulée par Google DeepMind après une décennie d'investissements massifs dans des infrastructures propriétaires. En parallèle, la conférence AI Engineer Miami a vu s'imposer un concept central dans les discussions entre dirigeants tech : le "tokenmaxxing", soit la volonté de maximiser l'usage de l'IA dans les équipes sans pour autant encourager le gaspillage ou la qualité médiocre. Mikhail Parakhin, directeur technique de Shopify, invité de la conférence, a apporté une nuance importante : il préconise d'aller en profondeur plutôt qu'en largeur, c'est-à-dire de lancer des boucles de recherche autonome séquentielles plutôt que de multiplier en parallèle des dizaines d'appels LLM sans cohérence. Dex Horthy, à l'origine du concept de "Context Engineering", a quant à lui publiquement rétracté ses positions les plus enthousiastes sur le vibe coding, encourageant désormais les développeurs à relire le code généré. Ces débats ne sont pas qu'académiques : ils reflètent une tension réelle au sein des équipes engineering, entre vitesse de génération de code et dette technique. Pour les CTOs et VP d'ingénierie, la question devient comment calibrer l'autonomie accordée aux modèles sans dégrader la qualité architecturale des systèmes. Sur le front des modèles ouverts, plusieurs sorties majeures sont venues nourrir ce débat. Alibaba a publié Qwen3.6-27B, un modèle dense sous licence Apache 2.0 qui surpasse selon ses benchmarks le bien plus lourd Qwen3.5-397B-A17B sur les évaluations de code, dont SWE-bench Verified à 77,2 contre 76,2. Il intègre des modes pensée et non-pensée, un checkpoint multimodal unifié, et a été immédiatement supporté par vLLM, llama.cpp et Ollama. OpenAI a discrètement publié un "Privacy Filter", un modèle MoE léger de 1,5 milliard de paramètres actifs à 50 millions, dédié à la détection et masquage de données personnelles sur de très larges corpus, sous licence Apache 2.0. Xiaomi a de son côté annoncé MiMo-V2.5-Pro, un modèle orienté agents avec 57,2 sur SWE-bench Pro et une capacité déclarée à effectuer plus de 1 000 appels d'outils autonomes. Ces annonces s'inscrivent dans une dynamique où la course aux modèles ouverts s'intensifie, portée par des acteurs comme Alibaba, Xiaomi et OpenAI lui-même, qui cèdent des briques spécialisées à la communauté. L'événement AI Engineer Miami, dont la prochaine édition se tiendra à Singapour, est devenu un baromètre de ce que l'industrie considère comme les vrais problèmes opérationnels : qualité du code généré, gestion de la vie privée dans les pipelines d'agents, et arbitrage entre quantité et profondeur d'utilisation des LLM. Les TPU v8 de Google rappellent que derrière ces débats de méthode, la compétition infrastructure reste déterminante pour qui peut entraîner et servir les modèles les plus puissants à grande échelle.

UELes modèles publiés sous licence Apache 2.0 (Qwen3.6-27B, OpenAI Privacy Filter) permettent aux équipes techniques européennes un déploiement local compatible avec les exigences RGPD pour la gestion des données personnelles dans les pipelines d'agents.

LLMsActu
1 source
Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents
42MarkTechPost 

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

L'équipe Qwen d'Alibaba a publié Qwen3.6-27B, un modèle dense en open-weight de 27 milliards de paramètres disponible sous licence Apache 2.0 sur Hugging Face, en deux variantes : BF16 et FP8. Ce modèle se distingue notamment sur les benchmarks de codage agentique, où il surpasse des modèles bien plus imposants : il atteint 1 487 points sur QwenWebBench (génération de code frontend) contre 1 068 pour son prédécesseur Qwen3.5-27B, et 36,2 sur NL2Repo (génération de code à l'échelle d'un dépôt) contre 27,3. Sur SWE-bench Verified, référence du secteur pour les agents logiciels autonomes, il atteint 77,2, se rapprochant des 80,9 de Claude 4.5 Opus. Fait notable : ces performances dépassent celles du Qwen3.5-397B-A17B, un modèle Mixture-of-Experts quatorze fois plus grand. L'intérêt de cette publication tient à deux innovations concrètes. La première concerne le codage agentique : le modèle a été spécifiquement optimisé pour naviguer dans de larges bases de code, modifier plusieurs fichiers simultanément et produire du code exécutable cohérent, couvrant sept catégories allant du design web à la 3D. La seconde innovation, baptisée Thinking Preservation, répond à une limite structurelle des LLM actuels : par défaut, le raisonnement intermédiaire (chain-of-thought) n'est conservé que pour le message en cours et disparaît au tour suivant. Qwen3.6-27B propose une option pour conserver et réutiliser ces traces de raisonnement sur l'ensemble d'une conversation, ce qui réduit les tokens redondants et améliore l'utilisation du cache KV dans les workflows d'agents itératifs. Cette sortie s'inscrit dans une stratégie accélérée d'Alibaba sur les modèles ouverts : Qwen3.6-27B est le deuxième modèle de la famille Qwen3.6, après le Qwen3.6-35B-A3B (MoE à 3B paramètres actifs) lancé quelques semaines plus tôt, lui-même héritier de la série Qwen3.5. Sur le plan architectural, le modèle adopte une structure hybride originale répartie sur 64 couches : trois sublayers sur quatre utilisent Gated DeltaNet, une attention linéaire en O(n) bien plus efficace que l'attention classique quadratique O(n²), tandis qu'une couche sur quatre conserve l'attention standard. Cette conception permet de traiter de longs contextes avec un coût mémoire réduit, tout en maintenant la précision sur les tâches complexes. Compatible avec SGLang, vLLM et Hugging Face Transformers, le modèle vise directement les développeurs qui construisent des agents de codage, dans un segment où Anthropic et OpenAI restent pour l'instant en tête.

LLMsOpinion
1 source
Alibaba lance l'avatar "Qwen XiaoJiuWo" pour unifier son écosystème d'assistants IA
43Pandaily 

Alibaba lance l'avatar "Qwen XiaoJiuWo" pour unifier son écosystème d'assistants IA

Alibaba a officiellement lancé le 22 avril 2026 "Qwen XiaoJiuWo", un avatar numérique destiné à incarner l'interface unifiée de tout son écosystème d'intelligence artificielle Qwen. Ce personnage virtuel sera intégré à l'application Qwen avant d'être progressivement déployé sur les grandes plateformes du groupe : Taobao, Fliggy, Amap et Alipay. Selon les données du registre commercial, Alibaba (China) Co., Ltd. a déposé plusieurs marques liées à "Qwen XiaoJiuWo" dès le 10 mars 2026, couvrant des domaines aussi variés que l'IA en tant que service (AIaaS), les logiciels de chatbot et la robotique humanoïde. Ces dépôts sont encore en cours d'examen. L'application Qwen comptait en mars 2026 quelque 166 millions d'utilisateurs actifs mensuels, selon QuestMobile, ce qui la place en deuxième position parmi les applications natives d'IA en Chine. Sur le seul premier trimestre 2026, la base d'utilisateurs a progressé d'environ 126 millions. Ce lancement ne constitue pas un nouveau produit à proprement parler, mais une stratégie de cohérence de marque dans un marché extrêmement concurrentiel. En dotant son assistant d'une identité visuelle forte et reconnaissable, Alibaba cherche à fidéliser ses utilisateurs et à créer un sentiment de continuité entre des plateformes très différentes. La fréquence d'utilisation mensuelle reste cependant un point de vigilance : avec 19,8 sessions par utilisateur en moyenne, Qwen se situe en dessous de plusieurs concurrents directs, ce qui suggère que l'engagement reste à consolider malgré la croissance spectaculaire du nombre d'inscrits. Ce mouvement s'inscrit dans une compétition acharnée entre les géants technologiques chinois pour dominer le marché de l'IA grand public. Baidu avec Ernie Bot, ByteDance et ses propres modèles, ainsi que des acteurs plus récents comme DeepSeek exercent une pression croissante sur Alibaba. Le dépôt de marques incluant la robotique humanoïde laisse entrevoir des ambitions bien au-delà du simple chatbot. Alibaba semble vouloir faire de Qwen XiaoJiuWo un point d'entrée transversal vers l'ensemble de ses services numériques, pariant sur l'unification de l'expérience utilisateur comme levier de différenciation à long terme.

OutilsOpinion
1 source
Alibaba présente l'avatar "Qwen Dimples" pour unifier son écosystème d'assistants IA
44Pandaily 

Alibaba présente l'avatar "Qwen Dimples" pour unifier son écosystème d'assistants IA

Alibaba a officiellement dévoilé le 22 avril 2026 "Qwen Dimples", un avatar numérique conçu pour incarner l'interface unifiée de son écosystème d'IA Qwen. Ce personnage virtuel sera d'abord intégré à l'application Qwen, puis progressivement déployé sur les grandes plateformes du groupe, dont Taobao, Fliggy, Amap et Alipay. Il ne s'agit pas d'un nouveau produit autonome, mais d'une couche d'identité visuelle et d'interaction destinée à fédérer l'ensemble des services IA d'Alibaba sous une même présence reconnaissable. En amont du lancement, la filiale Alibaba (China) Co., Ltd. avait déposé plusieurs marques commerciales liées à "Qwen Dimples" dès le 10 mars 2026, couvrant des domaines aussi variés que l'IA-as-a-service, les logiciels de chatbot et la robotique humanoïde. Ces demandes sont actuellement en cours d'examen. L'initiative intervient alors que l'application Qwen affiche une audience considérable : selon QuestMobile, elle comptait 166 millions d'utilisateurs actifs mensuels en mars 2026, ce qui la place au deuxième rang parmi les applications d'IA natives en Chine. Sa base d'utilisateurs a bondi d'environ 126 millions au seul premier trimestre 2026, une croissance particulièrement rapide. Toutefois, la fréquence d'utilisation mensuelle moyenne reste à 19,8 sessions par utilisateur, un chiffre inférieur à certains concurrents, ce qui suggère un enjeu d'engagement et de fidélisation que l'avatar cherche peut-être à adresser. La stratégie d'Alibaba s'inscrit dans une tendance plus large où les grandes plateformes technologiques cherchent à humaniser leurs interfaces IA pour renforcer l'attachement des utilisateurs. En dotant Qwen d'un visage et d'une personnalité cohérente sur l'ensemble de son écosystème, Alibaba suit une logique similaire à celle d'autres géants comme ByteDance ou Baidu, qui ont également misé sur des avatars et des mascottes numériques. Les dépôts de marques dans le domaine de la robotique humanoïde laissent également entrevoir des ambitions au-delà du logiciel, dans un secteur que le groupe suit de près.

BusinessOpinion
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
45arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

AutreOpinion
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
46MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source
OpenAI lance GPT-Image-2
47Latent Space 

OpenAI lance GPT-Image-2

OpenAI a lancé GPT-Image-2 les 20 et 21 avril 2026, déployant simultanément le modèle sur ChatGPT, Codex et son API publique. La nouvelle version introduit deux variantes, l'une standard et l'une dotée d'un mode "thinking", ce dernier permettant au modèle de générer plusieurs candidats, de vérifier ses propres sorties et d'interroger le web lorsqu'il est couplé à un modèle de raisonnement. Les capacités mises en avant incluent le rendu de texte, la fidélité aux mises en page, l'édition d'images, le support multilingue et la génération d'artefacts visuels tels que diapositives, infographies, maquettes d'interface et QR codes. Sur les benchmarks Arena, GPT-Image-2 occupe la première place dans toutes les catégories de génération d'images : 1512 points en texte-vers-image, 1513 en édition mono-image, 1464 en édition multi-images, avec une avance de 242 points Elo sur le modèle suivant dans la catégorie texte-vers-image. Des outils tiers comme Figma, Canva, Adobe Firefly et fal ont déjà annoncé son intégration. Ce lancement représente davantage qu'une amélioration esthétique : GPT-Image-2 positionne la génération d'images comme une surface de travail professionnelle à part entière. Les réactions des développeurs convergent sur un point précis, le modèle est suffisamment fiable pour servir de référence visuelle dans des boucles de conception, de documentation technique et de prototypage d'interface. L'implication la plus structurante est que la génération d'images devient une porte d'entrée pour les agents de code : un développeur peut générer une maquette visuelle puis demander à Codex de l'implémenter directement, en utilisant l'image comme spécification. Ce flux de travail, jusqu'ici trop peu fiable pour être systématisé, devient crédible avec ce niveau de précision. Le lancement survient dans un contexte de recentrage stratégique chez OpenAI. Selon plusieurs sources, une période de concentration interne aurait précédé cette sortie, associée au départ ou à la réorganisation de l'équipe Sora, le projet de génération vidéo. Le fait que la génération d'images reste une priorité malgré ces turbulences est en soi significatif. En parallèle, d'autres acteurs avancent sur le terrain des agents : Hugging Face a présenté ml-intern, un agent open source automatisant l'ensemble de la boucle de recherche post-entraînement, avec des résultats publiés sur des benchmarks scientifiques comme GPQA, où les performances sont passées de 10% à 32% en moins de dix heures sur Qwen3-1.7B. Le même jour, Cursor aurait bouclé un accord à 60 milliards de dollars avec xAI. La semaine du 20 avril 2026 s'annonce comme l'une des plus denses de l'année en matière d'IA appliquée.

UEL'accès immédiat à l'API renforce la dépendance des entreprises et créatifs européens aux infrastructures américaines pour la génération d'images professionnelle.

CréationOpinion
1 source
Le pari open source de la Chine
48MIT Technology Review 

Le pari open source de la Chine

Les laboratoires d'IA chinois ont adopté une stratégie radicalement différente de leurs rivaux américains : au lieu de monétiser leurs modèles derrière des API payantes, ils les publient en open-weight, c'est-à-dire sous forme de packages téléchargeables que n'importe quel développeur peut adapter et faire tourner sur ses propres serveurs. Ce tournant a pris une dimension mondiale en janvier 2025, lorsque DeepSeek a publié son modèle de raisonnement R1, qui a égalé les meilleures performances américaines à une fraction du coût annoncé. Dans la foulée, un véritable écosystème s'est structuré autour de ce modèle : Z.ai (anciennement Zhipu), Moonshot, Alibaba avec sa famille Qwen, et MiniMax ont tous suivi la même logique, en publiant des modèles de plus en plus capables. En août 2025, une étude menée par des chercheurs du MIT et de Hugging Face a établi que les modèles open-weight chinois représentaient 17,1 % des téléchargements mondiaux de modèles d'IA, dépassant pour la première fois la part américaine, fixée à 15,86 %. Les modèles Qwen d'Alibaba comptent aujourd'hui plus de variantes créées par des utilisateurs que ceux de Google et Meta réunis. L'impact de cette stratégie dépasse largement les benchmarks techniques. À mesure que l'enthousiasme autour de l'IA se tasse et que les entreprises passent des expérimentations aux déploiements concrets, les outils moins chers et plus personnalisables prennent l'avantage. Les modèles chinois permettent aux développeurs aux budgets limités d'expérimenter davantage, et le format open-weight leur donne la liberté d'adapter les modèles sans négocier de contrat commercial avec un acteur américain. Cette combinaison de prix bas et de liberté technique crée une adhérence forte : une fois qu'un écosystème se construit autour d'un modèle, comme l'ont montré Linux et Android, l'adoption se traduit naturellement en revenus API. Le Sud global, notamment Singapour, la Malaisie, le Kenya ou le Brésil, embrasse ouvertement ces outils, y voyant un chemin vers une souveraineté numérique. Derrière cette générosité apparente se cachent des calculs stratégiques précis. Sans accès aux puces de pointe bloquées par les contrôles à l'exportation américains, les laboratoires chinois compensent en ouvrant leurs modèles : plus les développeurs extérieurs contribuent et testent, plus vite le cycle d'amélioration s'accélère. Ce n'est pas sans tensions : en février 2026, Anthropic a accusé plusieurs laboratoires chinois de pratiques illicites de distillation, consistant à entraîner un nouveau modèle sur les sorties d'un autre. Les modèles chinois sont par ailleurs soumis aux exigences de censure du gouvernement de Pékin. Malgré ces limites, la dynamique est enclenchée : l'avenir de l'IA sera plus multipolaire que Silicon Valley ne l'anticipait, et rien ne semble pouvoir inverser cette tendance.

UELes modèles open-weight chinois offrent aux développeurs et entreprises européens une alternative concrète aux APIs américaines payantes, renforçant la souveraineté numérique de l'UE sans dépendance contractuelle envers les géants du Silicon Valley.

LLMsOpinion
1 source
Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session
49MarkTechPost 

Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session

Alibaba a publié Qwen 3.6-35B-A3B, un modèle de langage multimodal à architecture MoE (Mixture of Experts) de 35 milliards de paramètres, dont seulement 3,6 milliards sont activés par inférence. Un tutoriel complet, publié en avril 2026, détaille comment déployer ce modèle de bout en bout dans un environnement Google Colab équipé d'un GPU A100 ou L4. L'implémentation couvre un spectre large de fonctionnalités : inférence multimodale avec traitement d'images, contrôle du budget de raisonnement, génération en streaming avec séparation des traces de réflexion et des réponses finales, appel d'outils externes, génération JSON structurée, inspection du routage MoE, benchmarking, génération augmentée par récupération (RAG) et persistance de session. Le code charge le modèle de manière adaptative selon la VRAM disponible : en précision complète bfloat16 au-delà de 75 Go, en quantification int8 entre 40 et 75 Go, et en int4 en dessous, réduisant ainsi les besoins matériels d'un modèle qui pèse environ 70 Go à télécharger. Ce type d'implémentation représente un tournant concret pour les développeurs et chercheurs qui souhaitent expérimenter avec des modèles de frontier-level sans infrastructure cloud dédiée. La capacité à contrôler explicitement le budget de raisonnement, c'est-à-dire la profondeur de réflexion que le modèle alloue avant de répondre, ouvre des usages précis : réduire la latence pour des tâches simples, ou au contraire laisser le modèle « penser » longuement sur des problèmes complexes de code ou de raisonnement logique. L'intégration native du RAG permet de connecter le modèle à des bases de connaissances externes sans fine-tuning, tandis que la persistance de session autorise des conversations longues et cohérentes sur plusieurs échanges. Pour les équipes produit, cela signifie qu'un prototype d'assistant multimodal capable d'appeler des API, d'analyser des images et de maintenir un contexte conversationnel peut être construit sur une seule machine GPU en quelques heures. Qwen 3.6-35B-A3B s'inscrit dans la série Qwen 3 d'Alibaba Cloud, dont plusieurs variantes ont été publiées en open-source début 2025, positionnant le groupe chinois comme concurrent direct d'OpenAI, Google DeepMind et Meta sur le segment des grands modèles accessibles. L'architecture MoE est au coeur de cette stratégie : en n'activant qu'une fraction des paramètres à chaque inférence, elle permet de combiner la capacité d'un très grand modèle avec un coût de calcul réduit. Le tutoriel en question s'adresse aux praticiens qui veulent dépasser l'usage via API et comprendre les mécanismes internes, notamment le routage des experts, observable directement dans le code fourni. La prochaine étape naturelle pour la communauté sera d'évaluer ces capacités sur des benchmarks standardisés et d'intégrer ces modèles dans des pipelines de production, un domaine où la persistance de session et l'appel d'outils deviennent des critères de sélection aussi importants que les scores académiques.

UELes développeurs et équipes produit européens peuvent déployer ce modèle open-source de niveau frontier sur une seule machine GPU, réduisant la dépendance aux APIs cloud propriétaires pour des prototypes multimodaux.

LLMsTuto
1 source
50MarkTechPost 

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

Moonshot AI, le laboratoire chinois d'intelligence artificielle à l'origine de l'assistant Kimi, a publié en open source le modèle Kimi K2.6 le 21 avril 2026. Il s'agit d'un modèle multimodal natif de type Mixture-of-Experts (MoE) comptant 1 000 milliards de paramètres au total, dont seulement 32 milliards activés par token, répartis entre 384 experts spécialisés. Le modèle intègre nativement la vision via un encodeur MoonViT de 400 millions de paramètres, prend en charge des contextes de 256 000 tokens, et est disponible sur Kimi.com, l'application mobile, l'API ainsi que le CLI Kimi Code. Les poids sont publiés sur Hugging Face sous licence MIT modifiée. Sur le benchmark SWE-Bench Pro, qui mesure la capacité à résoudre de vrais tickets GitHub dans des dépôts professionnels, K2.6 obtient 58,6 points, devançant GPT-5.4 (57,7), Claude Opus 4.6 (53,4) et Gemini 3.1 Pro (54,2). Sur Humanity's Last Exam avec outils, il atteint 54,0, surpassant tous ses concurrents directs. Ces résultats sont significatifs parce qu'ils signalent un changement de nature dans ce que les modèles peuvent accomplir sans supervision humaine. Kimi K2.6 a été conçu pour des tâches de codage longue durée où l'agent s'exécute de façon autonome pendant plusieurs heures, effectue des milliers d'appels d'outils et coordonne jusqu'à 300 sous-agents spécialisés en parallèle sur des séquences de 4 000 étapes. Moonshot documente deux cas concrets : dans le premier, le modèle a téléchargé et déployé un modèle Qwen3.5-0.8B sur un Mac, puis a implémenté et optimisé l'inférence en Zig, un langage de programmation rare, sur plus de 4 000 appels d'outils consécutifs. Ces capacités intéressent directement les équipes d'ingénierie qui cherchent à automatiser des cycles de développement complets, pas seulement des corrections ponctuelles. Cette publication s'inscrit dans une course intense entre laboratoires américains et chinois pour dominer les modèles agentiques à grande échelle. Moonshot rejoint ainsi Anthropic, OpenAI et Google DeepMind dans la catégorie des modèles conçus pour opérer de façon prolongée dans des environnements réels, un segment jugé stratégique pour les usages professionnels. Le fait que K2.6 partage la même architecture que son prédécesseur K2.5 facilite la migration pour les équipes qui l'avaient déjà déployé. La compatibilité avec les frameworks d'inférence vLLM, SGLang et KTransformers, ainsi que l'ouverture complète des poids, positionnent ce modèle comme une alternative sérieuse aux offres propriétaires pour les organisations souhaitant garder la main sur leur infrastructure. La prochaine étape pour Moonshot sera de démontrer ces performances dans des déploiements industriels à grande échelle, au-delà des benchmarks.

UELes organisations européennes souhaitant maîtriser leur infrastructure IA disposent avec Kimi K2.6 d'une alternative open source sous licence MIT, déployable en local via vLLM ou SGLang, ce qui facilite la conformité au règlement européen sur l'IA en matière de traçabilité et de contrôle des données.

💬 300 sous-agents, 4 000 étapes coordonnées, open source, et il passe devant GPT-5.4 sur du vrai code GitHub. C'est le genre de résultat qui force à lever les yeux du clavier. Le cas Zig m'a accroché : implémenter et optimiser de l'inférence dans un langage de niche sur des milliers d'appels sans supervision, c'est pas un benchmark artificiel, c'est la vraie vie d'un projet qui déborde. La vraie question maintenant, c'est ce que ça donne sur des codebases d'équipe avec de la dette technique et des specs qui changent en cours de route.

LLMsActu
1 source

Suivre Qwen3 en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour