Aller au contenu principal

Dossier Alibaba — page 2

124 articles · page 2 sur 3

Suivi de l'actualité IA d'Alibaba : modèles Qwen, services cloud, recherche et déploiements en Chine et à l'international.

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
51arXiv cs.RO RobotiqueOpinion

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

1 source
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
52MarkTechPost 

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking. Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle. Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

UEJetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

LLMsOpinion
1 source
Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier
53VentureBeat AI 

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Pinterest a réduit de 90 % le coût de son infrastructure d'intelligence artificielle en procédant à une modification radicale du modèle open source Qwen3-VL, développé par Alibaba. Matt Madrigal, directeur technique de Pinterest, a révélé que son équipe a littéralement supprimé la couche d'encodage visuel du modèle pour la remplacer par des embeddings propriétaires, construits à partir des données uniques de la plateforme. Cette intervention chirurgicale sur les couches internes du modèle n'a pas seulement allégé la facture : elle a également amélioré la précision des recommandations de 30 %. Le résultat alimente notamment Navigator 1, l'assistant de shopping conversationnel de Pinterest, utilisé par ses 620 millions d'utilisateurs mensuels. L'enjeu technique est considérable. Sans ces embeddings précalculés, chaque image retournée par le moteur de recommandation devrait être encodée en temps réel, une par une, au moment de l'inférence. Selon Madrigal, cela représente une latence "20 fois plus élevée" du point de vue des performances. En précalculant ces représentations hors ligne et en les réactualisant régulièrement, Pinterest évite ce goulot d'étranglement tout en personnalisant l'expérience à une échelle que peu d'entreprises doivent gérer. La stratégie illustre une logique désormais bien ancrée dans l'industrie : lorsque les données propriétaires sont suffisamment riches et distinctives, leur qualité peut compenser une taille de modèle plus modeste. "La qualité des données l'emportera sur la taille du modèle", a résumé Madrigal. Pinterest s'appuie sur des modèles open source depuis plusieurs années, notamment Google BERT et OpenAI CLIP, sur lequel il a construit son propre modèle Pin CLIP. Cette trajectoire d'internalisation progressive s'inscrit dans une stratégie plus large autour d'un "taste graph" : une représentation dynamique des goûts individuels de chaque utilisateur, actualisée en continu selon ses interactions. Contrairement à un graphe social, il s'agit d'un graphe de préférences conçu pour guider l'utilisateur depuis la phase d'inspiration diffuse jusqu'à l'acte d'achat. Dans un secteur où les géants du cloud font pression pour verrouiller les entreprises dans leurs API propriétaires, le choix de Pinterest de personnaliser en profondeur des modèles sous licence Apache ouverte signale une tendance de fond : les grandes plateformes préfèrent investir dans la maîtrise technique plutôt que dans la dépendance à des modèles frontières coûteux et peu adaptables à leurs cas d'usage spécifiques.

💬 Enlever la couche vision d'un LLM multimodal pour la remplacer par tes propres embeddings, c'est le genre de hack que je n'oserais pas si je n'avais pas une confiance béton dans mes données. Pinterest a osé, et -90% sur la facture avec +30% en précision, c'est le résultat que tu rêves mais que tu crois jamais possible avant de l'avoir fait. Madrigal a raison sur un point : quand tes données sont suffisamment spécifiques, un modèle taillé sur mesure bat un frontier généraliste à dix fois le prix.

LLMsOpinion
1 source
ByteDance conçoit ses puces IA façon Groq
54The Information AI 

ByteDance conçoit ses puces IA façon Groq

ByteDance, la maison mère de TikTok, développe une nouvelle puce destinée à faire tourner des modèles d'intelligence artificielle. Selon trois sources proches du dossier, cette puce s'inspirerait de l'architecture des "language processing units" (LPU) conçus par Groq, une entreprise américaine partenaire de Nvidia, réputée pour exécuter les modèles d'IA à moindre coût. ByteDance travaille également en étroite collaboration avec InnoStar Semiconductor, une startup chinoise spécialisée dans la mémoire, pour intégrer sa technologie dans cette nouvelle puce. Ce développement illustre la volonté de ByteDance de bâtir une infrastructure IA entièrement maîtrisée en interne, en s'affranchissant progressivement de la dépendance aux fournisseurs étrangers. Alors que les restrictions américaines à l'exportation de puces Nvidia vers la Chine se durcissent, cette initiative stratégique permettrait à l'entreprise de sécuriser ses capacités de calcul pour ses produits d'IA, notamment son assistant Doubao, qui compte des centaines de millions d'utilisateurs. Pour l'industrie technologique chinoise, c'est un signal fort : les géants locaux accélèrent leur montée en puissance dans le semi-conducteur. Ce projet s'inscrit dans une course plus large engagée par les entreprises technologiques chinoises pour développer des alternatives nationales aux puces américaines, dans un contexte de tensions géopolitiques croissantes entre Washington et Pékin. Huawei, avec ses puces Ascend, et Alibaba figurent parmi les acteurs déjà engagés sur cette voie. ByteDance, classé parmi les leaders de l'IA en Chine, cherche ainsi à consolider sa position tout en anticipant d'éventuelles nouvelles restrictions qui pourraient menacer son accès aux technologies occidentales.

UEL'accélération de l'autonomie technologique chinoise dans les semi-conducteurs accentue la fragmentation géopolitique des chaînes d'approvisionnement en puces IA, renforçant indirectement la pression sur l'Europe pour développer sa propre filière.

💬 S'inspirer de l'archi LPU de Groq, c'est pas anodin. Groq a bâti toute sa réputation sur l'inférence rapide et pas chère, exactement ce dont ByteDance a besoin pour faire tourner Doubao à des centaines de millions d'utilisateurs sans exploser les coûts. Les restrictions Nvidia accélèrent clairement cette montée en puissance, et je suis pas convaincu que c'était le résultat que Washington espérait.

InfrastructureActu
1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
55arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

RobotiqueOpinion
1 source
Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs
56MarkTechPost 

Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs

Liquid AI a lancé LFM2.5-8B-A1B, un modèle de langage de type Mixture-of-Experts (MoE) conçu pour fonctionner directement sur des appareils grand public. Le modèle embarque 8,3 milliards de paramètres au total, mais n'en active que 1,5 milliard par token généré, ce qui réduit considérablement la charge de calcul à chaque inférence. Son architecture hybride combine 24 couches : 18 blocs de convolution LIV à double porte et 6 couches GQA. La fenêtre de contexte atteint 131 072 tokens, soit quatre fois plus que son prédécesseur LFM2-8B-A1B (32 768 tokens). Le modèle couvre neuf langues dont l'arabe, le chinois et le japonais. Par rapport à la version précédente, le volume de pré-entraînement est passé de 12 000 à 38 000 milliards de tokens, et le vocabulaire a doublé de 65 536 à 128 000 entrées, améliorant la tokenisation des scripts non-latins comme le hindi, le thaï ou l'arabe. LFM2.5-8B-A1B est également un modèle raisonnant : il produit une chaîne de pensée explicite avant chaque réponse. Les gains sur les benchmarks sont substantiels : le taux de non-hallucination AA-Omniscience bondit de 7,46 à 63,47, le score IFEval passe de 79,44 à 91,84, et MATH500 grimpe de 74,80 à 88,76. Ce modèle ouvre concrètement la voie à des agents IA autonomes capables de tourner sans cloud, directement sur un téléphone, un laptop ou une puce dédiée. Sur un CPU Apple M5 Max, il atteint 253 tokens par seconde en restant sous 6 Go de mémoire ; sur smartphone, le débit tient autour de 30 tokens par seconde. Sur un seul GPU NVIDIA H100, le débit monte à 18 500 tokens par seconde. Pour les développeurs, le modèle est compatible dès le premier jour avec llama.cpp, MLX, vLLM, SGLang et ONNX, ainsi qu'avec la plateforme edge LEAP de Liquid AI. Cette accessibilité technique signifie que des applications d'entreprise ou grand public peuvent intégrer un raisonnement structuré et une exécution d'outils sans dépendre d'une infrastructure cloud coûteuse, ce qui réduit la latence, les coûts et les risques de confidentialité. Liquid AI est une startup fondée par des chercheurs du MIT, connue pour ses architectures alternatives aux transformers classiques. LFM2.5 s'inscrit dans une série de modèles hybrides pensés pour l'inférence en périphérie du réseau (edge). Pour réduire les hallucinations, l'équipe a introduit deux étapes de reinforcement learning : une pour éliminer les boucles de raisonnement infinies via une pénalisation des mots déclencheurs comme "Wait…", une autre basée sur une récompense avg@k pour entraîner le modèle à s'abstenir plutôt qu'à inventer. Dans un secteur où Gemma de Google ou les modèles Qwen d'Alibaba dominent la course aux petits modèles performants, Liquid AI positionne LFM2.5-8B-A1B comme une alternative architecturalement différente, capable de rivaliser avec des modèles bien plus lourds sur les tâches agentiques et l'instruction following.

LLMsActu
1 source
Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards
57Latent Space 

Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards

Cognition, le laboratoire spécialisé dans les agents IA, vient de lever 1 milliard de dollars lors d'un tour de table en Série D qui valorise la société à 26 milliards de dollars. Ce financement, annoncé fin mai 2026, représente une valorisation 2,5 fois supérieure à celle obtenue lors de sa Série C en septembre 2025, qui s'élevait à 10 milliards de dollars. Cognition devient ainsi officiellement le plus grand laboratoire d'agents IA indépendant encore en activité. La société projette un chiffre d'affaires annuel récurrent dépassant 1 milliard de dollars d'ici la fin de l'année 2026, une trajectoire alimentée par une clientèle déjà constituée d'acteurs exigeants de l'écosystème startup et entreprise, parmi lesquels Exa et Modal. Cette levée illustre l'appétit persistant des investisseurs pour les agents IA autonomes, segment en train de redéfinir le marché des logiciels d'entreprise. Dans le SaaS, l'ARR est un indicateur retardé de l'utilisation réelle : si Cognition projette ce seuil du milliard, c'est que des déploiements significatifs sont déjà actifs chez ses clients. La dynamique s'inscrit dans une logique de concentration du financement autour de quelques laboratoires indépendants capables de tenir tête aux grandes plateformes que sont OpenAI, Anthropic ou Google DeepMind. Cognition, positionné sur les agents codeurs autonomes, s'impose comme un acteur de référence dans une catégorie dont la valeur potentielle continue d'attirer des capitaux massifs. Cette annonce intervient dans un contexte d'effervescence technique autour de l'inférence et de l'architecture des agents. Sur le front de l'efficacité, plusieurs avancées ont marqué la semaine : EAGLE 3.1 améliore le décodage spéculatif pour les longues séquences, Perplexity a publié en open source un tokeniseur réduisant de 5 à 6 fois la charge CPU, et Qwen3.5 atteindrait 580 tokens par seconde pour des charges de travail agentiques grâce à une collaboration entre Alibaba, NVIDIA et les contributeurs de FlashAttention-4. Parallèlement, LangChain a livré Deep Agents v0.6 avec les Delta Channels, réduisant le stockage des points de contrôle pour une session de codage de 200 tours de 5,3 Go à seulement 129 Mo. La plateforme Trajectory a également été lancée pour permettre aux équipes d'utiliser les traces d'agents et les signaux d'usage produit dans une logique d'apprentissage continu. Ces évolutions techniques signalent un glissement de paradigme : ce n'est plus seulement la qualité du modèle qui fait la différence, mais l'adéquation entre le modèle, son environnement d'exécution et sa mémoire.

💬 26 milliards pour Cognition, ça fait un choc. Mais le chiffre qui compte c'est le milliard d'ARR projeté d'ici décembre : des déploiements déjà actifs chez des clients exigeants, et une valorisation multipliée par 2,5 en six mois pour un labo qui n'existait quasiment pas il y a trois ans. Et l'Europe dans tout ça, elle regarde.

BusinessOpinion
1 source
Nouvelles licornes à 10 milliards dans l'infra IA : Fireworks, Baseten (et OpenRouter en chemin)
58Latent Space 

Nouvelles licornes à 10 milliards dans l'infra IA : Fireworks, Baseten (et OpenRouter en chemin)

Trois acteurs de l'infrastructure d'inférence IA ont fait parler d'eux cette semaine avec des levées de fonds aux valorisations vertigineuses. Fireworks AI serait en discussions pour une levée qui valoriserait la startup à 15 milliards de dollars, soit 3,75 fois sa valorisation précédente en seulement sept mois. Baseten, de son côté, serait en train de finaliser un tour qui l'amènerait à 11 milliards de dollars, multipliant par 2,2 sa valeur en trois mois à peine. Plus discret mais tout aussi significatif, OpenRouter a bouclé une Série C de 113 millions de dollars, après avoir multiplié ses volumes par cinq en six mois. Ces trois sociétés ont en commun de se positionner sur la même couche critique : permettre aux entreprises d'appeler, de router et d'orchestrer des modèles de langage à grande échelle, sans se lier à un seul fournisseur. Ces valorisations illustrent un basculement structurel dans la manière dont l'industrie évalue la valeur dans l'IA. La compétition ne se joue plus uniquement autour du modèle de base, mais autour de ce que les ingénieurs appellent le "harness" : l'ensemble formé par le modèle, l'environnement d'exécution, la boucle d'évaluation et les mécanismes de correction. DeepSeek constituerait explicitement une équipe dédiée à cette couche, Google a formalisé son infrastructure d'agents Gemini comme une API unique intégrant sandbox, persistance et gestion du contexte, et LangChain a mis à jour ses outils dans la même direction. Le benchmark DeepSWE, salué par des praticiens comme le premier à vraiment refléter l'expérience quotidienne des développeurs, a montré que les modèles se distinguent davantage sur ces tâches réelles que sur les classements publics traditionnels. Qwen3.7 Max d'Alibaba s'est par exemple classé quatrième sur Code Arena Frontend, au niveau de Claude Opus 4.6 sur les tâches de développement web agentique. Ce mouvement s'inscrit dans une tendance plus large qui s'accélère depuis le début de l'année, baptisée "Inference Inflection" par les observateurs du secteur. Après des années où les investissements se concentraient sur l'entraînement des modèles, l'argent afflue désormais vers les couches d'inférence et d'orchestration, jugées indispensables à toute mise en production sérieuse. En parallèle, la recherche explore de nouvelles pistes pour répondre aux limites de mémoire des modèles : le papier "Language Models Need Sleep", remarqué cette semaine, propose un mécanisme de consolidation inspiré du sommeil humain, qui convertit le contexte récent en poids permanents avant de vider le cache, préservant la latence à l'exécution tout en étendant la mémoire long terme. Les prochains mois diront si ces valorisations tiennent, mais la direction est claire : l'infrastructure d'inférence est devenue le terrain où se joue la prochaine phase de l'IA.

UELa concentration des investissements dans la couche d'inférence IA autour d'acteurs américains renforce la dépendance potentielle des entreprises et startups européennes vis-à-vis de fournisseurs extra-européens pour leurs déploiements en production.

💬 x3,75 en sept mois pour Fireworks, c'est pas une levée, c'est un signal. Le modèle devient une commodité, et l'argent coule maintenant vers la couche qui permet d'en changer à volonté sans se retrouver piégé avec un seul fournisseur. Bon, reste à voir si ça tient quand AWS ou Google décident de proposer ça en bundle.

BusinessOpinion
1 source
Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens
59MarkTechPost 

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu
1 source
Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos
60MarkTechPost 

Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos

L'équipe de recherche de ByteDance a publié Lance, un modèle d'intelligence artificielle capable de comprendre, générer et modifier des images et des vidéos au sein d'une seule et même architecture. Présenté dans un article de recherche disponible sur arXiv, Lance organise ses capacités autour de trois familles de sorties : texte, images et vidéos. Côté compréhension, il prend en charge la description d'images et de vidéos, les questions-réponses visuelles, la reconnaissance optique de caractères et le raisonnement visuel. Côté génération, il couvre la création d'images et de vidéos à partir de texte, la conversion image-vers-vidéo, la génération guidée par un sujet, et l'édition cohérente multi-tours sur les deux modalités. Le modèle repose sur une architecture de 3 milliards de paramètres initialisée depuis Qwen2.5-VL 3B de Alibaba, et intègre le codec vidéo 3D causal VAE de Wan2.2, également développé par ByteDance. Réunir compréhension et génération dans un seul modèle représente un défi technique de premier ordre, car les deux tâches tirent dans des directions opposées : la compréhension requiert des représentations sémantiques compactes alignées sur le langage, tandis que la génération exige des représentations continues à bas niveau pour préserver textures, géométrie et dynamiques temporelles. La plupart des systèmes existants contournent cette tension en séparant les deux blocs puis en les connectant après coup. Lance est l'un des rares modèles à les unifier nativement dès l'entraînement, grâce à une architecture à double flux de type mixture-of-experts : un expert dédié à la compréhension (LLMUND) et un expert dédié à la génération (LLMGEN), partageant le même contexte d'entrée sans se concurrencer sur les mêmes paramètres. Pour les professionnels du multimédia, des plateformes de contenu ou des développeurs d'outils créatifs, cette convergence ouvre la voie à des pipelines considérablement simplifiés. Le principal obstacle architectural résidait dans la coexistence de types de tokens hétérogènes au sein d'une même séquence : tokens textuels, tokens visuels sémantiques produits par le encodeur ViT de Qwen2.5-VL, et tokens latents continus issus du VAE avec un sous-échantillonnage spatial de 16× et temporel de 4×. Le positionnement rotatif standard en 3D (3D-RoPE) ne permettait pas de distinguer ces groupes, créant des ambiguïtés de frontières préjudiciables à l'alignement entre tâches. ByteDance a introduit MaPE (Modality-Aware Rotary Positional Encoding), qui applique un décalage temporel fixe à chaque groupe de modalité selon son ordre dans la séquence, tout en laissant les coordonnées spatiales intactes. Lance s'inscrit dans une course plus large entre les grands laboratoires asiatiques et occidentaux pour produire des modèles visuels unifiés : des approches similaires ont été explorées par Google avec Gemini et par des équipes académiques, mais peu ont démontré une couverture aussi complète du cycle image-vidéo dans un seul modèle entraîné conjointement.

RecherchePaper
1 source
Amazon SageMaker AI prend en charge l'API compatible OpenAI
61AWS ML Blog 

Amazon SageMaker AI prend en charge l'API compatible OpenAI

Amazon a annoncé ce mois-ci que SageMaker AI supporte désormais une API compatible avec celle d'OpenAI pour ses endpoints d'inférence en temps réel. Concrètement, les développeurs qui utilisent le SDK OpenAI, LangChain ou le framework Strands Agents peuvent désormais router leurs appels vers des modèles hébergés sur SageMaker AI en changeant uniquement l'URL de l'endpoint. Plus besoin de client personnalisé, de wrapper SigV4, ni de réécriture de code. Les endpoints SageMaker exposent un chemin /openai/v1 qui accepte les requêtes au format Chat Completions et renvoie les réponses du conteneur telles quelles, y compris en streaming. L'authentification repose sur des tokens bearer à durée limitée (jusqu'à 12 heures), générés à partir des credentials AWS existants via le SDK Python SageMaker, sans clé API supplémentaire. Ce changement simplifie radicalement l'intégration de SageMaker dans les stacks d'IA existantes. Pour les équipes qui orchestrent des agents multi-LLM via une gateway (comme Bifrost, mentionnée par Giorgio Piatti, ingénieur ML chez Caffeine.AI), SageMaker devient un fournisseur interchangeable sans adaptation technique. Les cas d'usage sont nombreux : workflows agentiques tournant entièrement sur de l'infrastructure dédiée en compte AWS, hébergement multi-modèles sur un seul endpoint via les inference components (par exemple Llama pour les tâches générales, un Mistral fine-tuné pour un domaine métier, et un petit modèle de classification), ou encore déploiement de modèles open source fine-tunés sans toucher au code applicatif existant. Pour les entreprises soumises à des contraintes de souveraineté des données ou de conformité, c'est un gain concret : elles peuvent utiliser les mêmes frameworks standardisés OpenAI tout en gardant les modèles dans leur propre compte AWS. Cette annonce s'inscrit dans une bataille plus large pour capter les workloads d'inférence IA en entreprise. Le standard OpenAI s'est imposé de facto comme protocole universel pour les LLMs, et les grands fournisseurs cloud (AWS, Google, Azure) cherchent à réduire les frictions pour attirer des équipes déjà investies dans cet écosystème. Amazon avait déjà investi massivement dans Bedrock et SageMaker, mais l'adoption restait freinée par les incompatibilités d'API qui forçaient les migrations de code. En adoptant la compatibilité OpenAI directement au niveau de SageMaker AI, AWS ferme cet écart et concurrence frontalement des solutions comme Azure OpenAI Service ou les endpoints Vertex AI de Google. Le notebook d'exemple avec Qwen3-4B (modèle d'Alibaba disponible sur Hugging Face) illustre aussi l'ouverture vers les modèles open source, un segment en forte croissance face aux modèles propriétaires.

UELes entreprises européennes soumises aux contraintes RGPD et de souveraineté des données peuvent désormais utiliser les frameworks OpenAI standard tout en maintenant leurs modèles dans leur propre infrastructure AWS hébergée en région européenne.

💬 C'est le genre de truc qui semble anodin et qui change tout en pratique. Changer juste l'URL pour basculer d'OpenAI vers SageMaker, sans toucher au code, c'est exactement ce que les équipes enterprise attendaient pour switcher sans se battre avec leur DSI. Bon, ça reste AWS, donc la facture peut vite grimper, mais pour les boîtes avec des contraintes de souveraineté data, l'argument est solide.

OutilsOpinion
1 source
Gemini 3.5 Flash veut réduire les coûts IA des entreprises
62Le Big Data 

Gemini 3.5 Flash veut réduire les coûts IA des entreprises

Google a lancé Gemini 3.5 Flash lors de sa conférence I/O 2026, le 19 mai 2026, en le positionnant comme son modèle propriétaire le plus économique à ce jour. Le tarif annoncé est de 1,50 dollar par million de jetons, une réduction significative pensée pour les entreprises qui déploient des agents IA à grande échelle. En parallèle, Google a dévoilé plusieurs nouveaux produits : Gemini Spark, un agent personnel capable d'agir en arrière-plan dans Gmail, Docs, Sheets et Slides pour compiler des informations, organiser des événements ou mettre à jour des tableaux en temps réel ; Omni Flash ; et AntiGravity 2.0, une nouvelle version de sa plateforme multi-agents. Sundar Pichai, PDG de Google, a déclaré que certaines organisations ont déjà consommé leur budget annuel de jetons alors que l'année est à peine entamée, soulignant l'urgence du problème. L'enjeu est directement financier pour les directions IT. À mesure que les agents IA s'intègrent dans les outils métiers, les volumes de jetons consommés explosent et les coûts dépassent les budgets prévus. Gemini 3.5 Flash cible précisément ces usages quotidiens à grande échelle, là où des économies de quelques centimes par million de jetons peuvent représenter des millions de dollars pour un grand groupe. L'intégration native avec Google Workspace est présentée comme un levier supplémentaire : en limitant le recours aux API externes, elle réduit mécaniquement la facture. Le modèle économique devient ainsi aussi déterminant que les performances techniques, notamment pour convaincre les entreprises de franchir le pas de l'industrialisation de l'IA au-delà des preuves de concept. Cette offensive tarifaire de Google s'inscrit dans une dynamique de marché plus large. Anthropic a récemment baissé les tarifs de Claude Opus 4.6, et la montée en puissance des modèles open source comme Qwen d'Alibaba accentue la pression sur les grands acteurs. Les performances des modèles propriétaires commençant à converger, le prix s'impose comme un facteur différenciant majeur pour fidéliser les clients entreprises. Google cherche ainsi à tenir tête à OpenAI et Anthropic sur le segment de l'IA agentielle, un marché où la viabilité économique conditionne désormais l'adoption massive. La prochaine étape sera de voir si cette baisse tarifaire suffit à convaincre les grandes organisations de standardiser leurs workflows autour de l'écosystème Google, ou si la concurrence répondra rapidement avec des ajustements similaires.

UELes entreprises européennes déployant des agents IA à grande échelle sur Google Workspace pourraient réduire significativement leurs coûts de jetons grâce à ce nouveau tarif.

LLMsOpinion
1 source
Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor
63MarkTechPost 

Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor

Un tutoriel technique publié récemment propose une implémentation complète pour compresser et évaluer des modèles de langage ajustés par instruction, en comparant trois méthodes de quantification post-entraînement : FP8 dynamique, GPTQ W4A16, et SmoothQuant combiné à GPTQ W8A8. Le point de départ est le modèle Qwen2.5-0.5B-Instruct de l'entreprise chinoise Alibaba, utilisé en baseline FP16. L'ensemble du pipeline repose sur la bibliothèque open source llmcompressor, associée à compressed-tensors et à l'écosystème HuggingFace Transformers. Chaque variante compressée est évaluée selon cinq critères mesurables : taille sur disque, latence de génération, débit en tokens par seconde, perplexité sur WikiText-2, et qualité subjective des réponses générées. La valeur concrète de ce travail réside dans la mise en évidence des compromis réels entre performance et efficacité pour le déploiement en production. La quantification réduit la mémoire GPU nécessaire et accélère l'inférence, deux contraintes centrales pour toute équipe souhaitant servir un LLM à moindre coût. En passant de FP16 à FP8 ou à W4A16, on peut diviser la taille du modèle par deux ou plus, avec un impact variable sur la perplexité selon la méthode choisie. SmoothQuant, qui lisse les distributions d'activation avant de quantifier, permet d'appliquer une quantification 8 bits sur les poids et les activations simultanément, ce qui se traduit par un meilleur rapport qualité-compression que la quantification naïve. Pour les équipes qui doivent faire tourner des modèles sur du matériel contraint, comme un GPU T4 de Google Colab, ces différences ne sont pas théoriques mais directement opérationnelles. La quantification post-entraînement s'est imposée comme l'une des réponses pratiques à l'explosion de la taille des modèles de langage depuis 2022. Là où le fine-tuning quantifié (QAT) nécessite de réentraîner le modèle, le PTQ agit après coup sur les poids déjà entraînés, ce qui le rend bien plus accessible. Des outils comme llmcompressor, développé par la startup Neural Magic (rachetée par Red Hat en 2024), ou AWQ et GGUF popularisés par llama.cpp, ont démocratisé ces techniques. Le choix de Qwen2.5 comme modèle de référence est révélateur : avec 0,5 milliard de paramètres, il reste assez léger pour tourner sur un GPU grand public tout en étant représentatif des architectures modernes. Les prochaines étapes naturelles de ce type de travail incluent l'extension à des modèles plus grands, l'intégration de frameworks de serving comme vLLM ou TGI, et la comparaison avec des approches de pruning structuré ou de distillation.

UELes techniques de quantification présentées permettent aux équipes européennes de servir des LLMs sur du matériel contraint sans dépendre d'infrastructures cloud coûteuses, s'appuyant sur l'écosystème HuggingFace Transformers, dont la startup est à forte présence en France.

LLMsTuto
1 source
Dix entreprises chinoises dont ByteDance auraient obtenu un accord américain pour des puces IA qui leur sont interdites
64The Decoder 

Dix entreprises chinoises dont ByteDance auraient obtenu un accord américain pour des puces IA qui leur sont interdites

Une dizaine d'entreprises chinoises, dont Alibaba, Tencent et ByteDance, ont reçu l'autorisation du gouvernement américain d'acquérir jusqu'à 75 000 puces Nvidia H200 chacune. Ces autorisations, révélées par le secrétaire au Commerce Howard Lutnick, représentent un assouplissement notable des restrictions américaines sur les exportations de semi-conducteurs avancés vers la Chine. Pourtant, pas une seule puce n'a encore été livrée. La raison de ce blocage ne vient pas de Washington, mais de Pékin. Selon Lutnick, c'est le gouvernement chinois lui-même qui empêche ces achats, dans le but de protéger son industrie nationale de semi-conducteurs. Cette situation crée un paradoxe inédit : des entreprises chinoises de premier plan se voient refuser par leur propre gouvernement l'accès à des composants que les États-Unis ont accepté de leur vendre. Pour ces géants technologiques, l'impossibilité d'acquérir du matériel de pointe freine directement le développement de leurs modèles d'IA. Cet épisode s'inscrit dans une guerre technologique plus large entre les deux premières puissances mondiales. Depuis 2022, Washington a progressivement renforcé ses contrôles à l'exportation de puces avancées vers la Chine, poussant Pékin à accélérer ses investissements dans des acteurs comme Huawei et SMIC pour atteindre l'autonomie technologique. En bloquant ces achats, la Chine envoie un signal fort : elle préfère consolider sa filière domestique plutôt que de rester dépendante de fournisseurs américains, même lorsque la porte est temporairement ouverte.

UECe bras de fer sino-américain renforce la prise de conscience européenne sur la nécessité d'une souveraineté dans les semi-conducteurs avancés, thème central de l'European Chips Act, sans impact opérationnel direct immédiat sur les entreprises ou institutions françaises.

InfrastructureOpinion
1 source
Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark
65NVIDIA AI Blog 

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

Hermes Agent, le nouveau framework d'agents IA développé par Nous Research, a franchi les 140 000 étoiles sur GitHub en moins de trois mois et s'est imposé la semaine dernière comme l'agent le plus utilisé au monde selon OpenRouter. Conçu pour fonctionner en local et en continu, il est optimisé pour tourner sur les GPU NVIDIA RTX, les stations de travail RTX PRO et les machines DGX Spark. Sa particularité principale est sa capacité d'auto-amélioration : à chaque tâche complexe ou retour utilisateur, Hermes enregistre ses apprentissages sous forme de compétences réutilisables, ce qui lui permet de s'améliorer au fil du temps sans intervention humaine. Il intègre également une architecture de sous-agents isolés, chacun dédié à une sous-tâche précise, ce qui réduit la confusion, minimise la taille des fenêtres de contexte nécessaires et rend le système plus fiable sur des modèles de 30 milliards de paramètres. Nous Research teste et valide chaque outil embarqué, ce qui distingue Hermes de la plupart des frameworks concurrents qui exigent un débogage constant. En parallèle, Alibaba a lancé la série Qwen 3.6, dont les modèles de 27 et 35 milliards de paramètres surpassent les versions précédentes de 120 et 400 milliards de paramètres, tout en nécessitant respectivement environ 20 Go de mémoire au lieu de 70 Go ou plus. L'enjeu est considérable : pour la première fois, des agents IA capables de s'auto-améliorer, de planifier des tâches multi-étapes et d'agir de façon autonome en continu deviennent accessibles sur du matériel grand public ou de gamme professionnelle. Un développeur ou une PME peut désormais faire tourner un agent équivalent à ce qui nécessitait autrefois un datacenter, grâce à des GPU comme le RTX 5090 ou une machine compacte comme le DGX Spark, qui offre 128 Go de mémoire unifiée et 1 pétaflop de performance IA. Les Tensor Cores NVIDIA réduisent le temps d'inférence de minutes à secondes, rendant les workflows autonomes viables à l'échelle d'une journée de travail complète. Cette convergence entre frameworks open source matures et modèles locaux ultra-compressés marque une rupture dans la démocratisation de l'IA agentique. Jusqu'ici, les agents performants dependaient de l'API d'OpenAI ou d'Anthropic, avec les coûts et les questions de confidentialité que cela implique. La montée en puissance de modèles open weight comme Qwen 3.6, combinée à des frameworks comme Hermes qui rivalisent avec les solutions propriétaires sur des benchmarks identiques, repositionne le matériel local comme infrastructure stratégique. NVIDIA profite directement de cette tendance en poussant le DGX Spark comme poste de travail dédié à l'IA agentique permanente, un segment encore embryonnaire mais en croissance rapide à mesure que les entreprises cherchent à internaliser leurs pipelines d'IA.

OutilsOutil
1 source
VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action
66arXiv cs.RO 

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RobotiqueOpinion
1 source
Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles
67The Decoder 

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion
1 source
Kuaishou envisage de scinder sa filiale Kling AI à une valorisation de 20 milliards de dollars
68The Information AI 

Kuaishou envisage de scinder sa filiale Kling AI à une valorisation de 20 milliards de dollars

Kuaishou Technology, le géant chinois des réseaux sociaux, prépare la scission de sa division d'IA vidéo Kling en vue d'une introduction en bourse prévue pour l'année prochaine. Selon deux sources proches du dossier, l'entreprise a déjà engagé des discussions avec des investisseurs potentiels pour un tour de financement pré-IPO qui valoriserait Kling à 20 milliards de dollars. Kling développe des modèles de génération vidéo par intelligence artificielle qui se positionnent directement face aux solutions de ByteDance, Google et Alibaba. Cette opération illustre la volonté de Kuaishou de monétiser séparément ses actifs d'IA, dans un contexte où les investisseurs internationaux affichent un appétit marqué pour les entreprises du secteur. En isolant Kling dans une entité indépendante, Kuaishou cherche à lui attribuer une valorisation autonome, distincte de celle du groupe parent, et à attirer des capitaux dédiés à la course mondiale aux outils de création vidéo générative. Kling s'est imposé ces derniers mois comme l'un des acteurs les plus sérieux dans la génération vidéo par IA, un segment en pleine explosion depuis le lancement de Sora par OpenAI début 2024. La compétition est intense : ByteDance, Alibaba, Google et de nombreuses startups occidentales comme Runway ou Pika investissent massivement dans ces technologies. Une IPO réussie de Kling pourrait faire de cette division un acteur coté majeur dans la course à l'IA générative, et renforcer l'ambition de Kuaishou à l'international.

BusinessActu
1 source
Le point : malaise autour de l'IA et technologies de procréation
69MIT Technology Review 

Le point : malaise autour de l'IA et technologies de procréation

Dans sa dernière édition, le MIT Technology Review publie un numéro dense qui dresse un panorama de l'intelligence artificielle aujourd'hui: un essai de fond sur le "malaise de l'IA", signé par le rédacteur en chef Mat Honan, accompagne une liste intitulée "10 choses qui comptent en IA en ce moment". Parallèlement, plusieurs informations illustrent les tensions concrètes autour du secteur: l'agence américaine ICE développerait des lunettes connectées, baptisées "ICE Glasses", capables d'identifier des personnes en temps réel grâce à la reconnaissance faciale; une cyberattaque contre la plateforme éducative Canvas a compromis les données de 275 millions de personnes aux États-Unis; des puces Nvidia auraient été acheminées illégalement vers le groupe chinois Alibaba via des serveurs Super Micro transitant par la Thaïlande, selon Bloomberg; et les modèles d'IA chinois, moins chers et plus adaptables que leurs concurrents américains, inquiètent de plus en plus la Silicon Valley. Ce tableau illustre une période de transition inconfortable. L'IA s'infiltre dans tous les secteurs, de l'éducation à la santé en passant par la sécurité, sans que les sociétés aient encore défini de boussole claire pour en mesurer les effets réels. Le "malaise" décrit par Honan n'est pas un simple pessimisme: c'est l'incertitude face à une technologie susceptible de supprimer des emplois, de perturber des équilibres économiques, ou au contraire d'ouvrir de nouvelles opportunités, sans que personne ne sache encore laquelle de ces directions prévaudra. La fuite présumée de puces Nvidia vers la Chine, transitant par une entreprise liée à l'initiative nationale d'IA de la Thaïlande, illustre la difficulté persistante à faire respecter les restrictions américaines à l'exportation de semi-conducteurs. La violation des données de Canvas, l'une des plus graves jamais enregistrées dans l'éducation américaine, souligne quant à elle la vulnérabilité croissante des infrastructures numériques scolaires. Ce moment correspond à une accélération simultanée sur plusieurs fronts. La robotique apprend désormais par essai-erreur et simulation plutôt que par des règles rigides, ce qui relance les ambitions des ingénieurs de la Silicon Valley en matière de robots autonomes. L'IA s'apprête également à transformer la médecine reproductive: les cliniques de FIV intègrent déjà des analyses génétiques multiples sur les embryons, et les robots pourraient bientôt automatiser des étapes clés du processus. En toile de fond, la rivalité technologique sino-américaine s'intensifie: la Chine mise sur des modèles open source moins coûteux pour contourner les barrières commerciales et conquérir des marchés. Ces dynamiques convergentes, entre prolifération de l'IA, tensions géopolitiques, questions de surveillance et incertitudes économiques, dessinent un paysage où les décisions prises aujourd'hui par les entreprises, les gouvernements et les régulateurs conditionneront profondément la trajectoire de la décennie.

UELes tensions géopolitiques sino-américaines sur les semi-conducteurs et la montée des modèles chinois bon marché menacent indirectement la compétitivité des acteurs européens de l'IA et soulignent l'urgence d'une politique industrielle européenne cohérente.

💬 Honan met des mots dessus avec "malaise", mais le tableau est encore plus lourd. Reconnaissance faciale en temps réel pour l'ICE, 275 millions de données éducatives compromises, des puces Nvidia qui s'évaporent vers la Chine via des montages opaques, tout ça dans la même semaine. C'est pas de l'incertitude diffuse, c'est une accumulation de signaux qu'on devrait pas trouver normaux.

SociétéActu
1 source
DeepSeek lève plus de 7 milliards de dollars pour accélérer sa monétisation
70The Information AI 

DeepSeek lève plus de 7 milliards de dollars pour accélérer sa monétisation

DeepSeek, le laboratoire d'intelligence artificielle chinois qui a ébranlé l'industrie mondiale début 2025 avec ses modèles performants à faible coût, s'apprête à lever jusqu'à 50 milliards de yuans, soit environ 7,35 milliards de dollars, dans ce qui constituerait son tout premier tour de financement externe. Liang Wenfeng, fondateur et PDG milliardaire de la société, prévoit lui-même d'apporter la plus grande part de cette levée. Si elle se concrétise à ce montant, il s'agirait du tour de financement le plus important jamais réalisé par une entreprise d'intelligence artificielle chinoise. Cette levée de fonds marque un tournant stratégique majeur pour DeepSeek, qui a jusqu'ici fonctionné sans capital externe. La perspective de cette entrée d'argent frais pousse le laboratoire à accélérer ses plans de monétisation afin de devenir commercialement viable. DeepSeek aurait également indiqué à certains investisseurs qu'il compte désormais publier ses modèles à un rythme plus rapproché, aligné sur les standards du secteur, abandonant ainsi la cadence irrégulière qui était jusque-là sa marque de fabrique. DeepSeek s'était distingué en janvier 2025 en publiant des modèles rivaux de ceux d'OpenAI ou Google, mais développés à une fraction du coût déclaré, provoquant une onde de choc sur les marchés boursiers américains et alimentant les débats sur la suprématie technologique entre les États-Unis et la Chine. Cette levée signale que le laboratoire entend désormais transformer sa notoriété technique en position commerciale durable, dans un écosystème IA chinois de plus en plus compétitif face à Baidu, Alibaba et ByteDance.

UELa montée en puissance commerciale de DeepSeek intensifie la concurrence mondiale dans l'IA et pourrait influencer les choix d'adoption des entreprises européennes, qui devront peser les questions de conformité liées à l'utilisation de modèles issus de laboratoires chinois.

💬 7 milliards pour un labo qui s'est construit sans un centime externe, c'est un vrai changement de posture. Ce qui m'intéresse plus que le montant, c'est l'abandon de leur cadence de publication chaotique pour quelque chose de plus régulier, parce que c'est ça qui bloquait l'adoption sérieuse. Transformer la notoriété technique en machine commerciale face à Baidu et ByteDance, c'est pas le même sport.

BusinessActu
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
71MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
xAI lance Grok 4.3 à prix cassé et une nouvelle suite de clonage vocal rapide et puissante
72VentureBeat AI 

xAI lance Grok 4.3 à prix cassé et une nouvelle suite de clonage vocal rapide et puissante

xAI, la société d'intelligence artificielle fondée par Elon Musk, a lancé mercredi Grok 4.3, son nouveau grand modèle de langage propriétaire, accompagné d'une suite de clonage vocal. Le modèle est désormais accessible à tous via l'API xAI et la plateforme OpenRouter, après une phase de test en avril réservée aux abonnés SuperGrok (30 dollars par mois) et X Premium+ (40 dollars par mois, avec 50 % de réduction les deux premiers mois). Le coup de force commercial tient à sa tarification : 1,25 dollar par million de tokens en entrée et 2,50 dollars par million en sortie, soit deux à deux fois et demie moins cher que son prédécesseur Grok 4.2, facturé 2 et 6 dollars respectivement. Techniquement, Grok 4.3 intègre un raisonnement permanent et non désactivable, une fenêtre de contexte d'un million de tokens, et des capacités agentiques inédites : le modèle peut désormais utiliser des outils professionnels de façon autonome, générer des fichiers Excel multi-onglets avec calculs automatiques ou produire des rapports PDF de douze pages avec mise en page complète, logos et tableaux structurés. Ce positionnement tarifaire agressif constitue l'atout central de xAI face à ses concurrents. En proposant des performances en progression significative sur les benchmarks tiers par rapport à Grok 4.2, tout en maintenant un coût nettement inférieur aux modèles d'OpenAI et d'Anthropic, xAI vise clairement les développeurs et les entreprises sensibles au prix. Les capacités agentiques représentent une rupture qualitative : le modèle ne se contente plus de répondre à des questions, il exécute des tâches complexes en plusieurs étapes de façon autonome. Un exemple documenté montre Grok 4.3 consacrer six minutes et vingt-deux secondes à construire un analyseur DPS sous forme de tableur multi-feuilles, un niveau d'exécution qui dépasse largement la génération de texte classique. Ce lancement intervient dans un contexte tendu pour xAI : les dix cofondateurs originaux et des dizaines de chercheurs ont quitté la société ces derniers mois, tandis que Grok se retrouvait distancé par les modèles de OpenAI, Anthropic, Google, DeepSeek, Kimi (Moonshot) et Qwen (Alibaba). Malgré la progression enregistrée, la firme d'évaluation indépendante Artificial Analysis place toujours Grok 4.3 en dessous du niveau de l'état de l'art fixé par OpenAI et Anthropic. Elon Musk est par ailleurs actuellement en procès contre son ancien associé Sam Altman, cofondateur d'OpenAI. Dans cette bataille frontale pour le marché des LLM, xAI semble avoir choisi une stratégie de volume par les prix plutôt que la course aux benchmarks, pariant que l'accessibilité économique et les nouvelles fonctionnalités agentiques suffiront à conquérir une base d'utilisateurs fidèle face à des concurrents aux modèles plus puissants mais plus coûteux.

LLMsOpinion
1 source
Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM
73MarkTechPost 

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

L'équipe Qwen, filiale IA d'Alibaba, vient de publier Qwen-Scope, une suite open-source d'autoencodeurs épars (SAE) entraînés sur les familles de modèles Qwen3 et Qwen3.5. La publication comprend 14 groupes de poids SAE répartis sur sept variantes de modèles : cinq modèles denses (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B et Qwen3.5-27B) et deux modèles mixture-of-experts (Qwen3-30B-A3B et Qwen3.5-35B-A3B). Concrètement, un autoencodeur épars fonctionne comme une couche de traduction entre les activations brutes du réseau de neurones et des concepts compréhensibles par l'humain : pour chaque couche transformeur, Qwen-Scope entraîne un SAE séparé qui décompose les états internes en un large dictionnaire de caractéristiques latentes, chaque entrée n'en activant qu'un petit sous-ensemble. Chaque caractéristique tend à correspondre à un concept précis, qu'il s'agisse d'une langue, d'un style ou d'un comportement lié à la sécurité. La largeur de ces dictionnaires atteint jusqu'à 128 000 dimensions pour les modèles MoE, soit une expansion de 64 fois la taille cachée du modèle. Cet outil répond à l'un des problèmes les plus frustrants du développement de LLMs : leur opacité totale. Quand un modèle génère des réponses dans la mauvaise langue, se répète à l'infini ou refuse des requêtes inoffensives, les développeurs disposent de très peu de moyens pour en comprendre la cause à l'échelle des calculs internes. Qwen-Scope ouvre deux leviers concrets. Le premier est le pilotage à l'inférence : en ajoutant ou soustrayant une direction de caractéristique dans le flux résiduel selon la formule h' = h + αd, il devient possible d'orienter le comportement du modèle sans modifier aucun poids. L'équipe illustre cela sur Qwen3 : un modèle qui mêlait involontairement du chinois dans ses réponses en anglais a été corrigé en supprimant la caractéristique "langue chinoise" (id : 6159), identifiée en quelques secondes par son niveau d'activation élevé. Le second levier est l'analyse d'évaluation sans forward pass coûteux : les activations SAE servent de proxy pour cartographier quelles capacités sont réellement testées par un benchmark, et détecter si deux jeux d'évaluation sont redondants. Cette publication s'inscrit dans le courant de l'interprétabilité mécaniste, un champ de recherche en pleine expansion qui vise à rendre les LLMs auditables de l'intérieur. Des acteurs comme Anthropic et DeepMind ont déjà investi dans des SAEs pour leurs propres modèles, mais la mise à disposition open-source de tels outils sur une famille de modèles aussi large reste rare. Pour les équipes qui utilisent Qwen en production, Qwen-Scope représente une infrastructure de diagnostic inédite : détecter des biais encodés dans les représentations internes, affiner des comportements sans fine-tuning coûteux, ou auditer la couverture réelle de leurs protocoles d'évaluation. La prochaine étape logique serait l'extension de ces outils aux modèles de raisonnement et aux architectures multimodales, deux domaines où l'opacité interne reste particulièrement problématique.

UELes entreprises européennes déployant des modèles Qwen en production peuvent exploiter Qwen-Scope pour auditer les biais encodés dans les représentations internes et faciliter la conformité aux exigences d'explicabilité de l'AI Act.

RecherchePaper
1 source
Groupe SoftBank lance une pépite robotique déjà valorisée 100 milliards
74Le Big Data 

Groupe SoftBank lance une pépite robotique déjà valorisée 100 milliards

SoftBank prépare le lancement d'une nouvelle entité baptisée Roze AI, dédiée à l'automatisation de la construction de centres de données, avec une introduction en bourse envisagée dès le second semestre 2026 aux États-Unis. Selon le Financial Times et le Wall Street Journal, le groupe japonais vise une valorisation de 100 milliards de dollars pour cette structure encore embryonnaire. L'idée centrale : déployer des robots autonomes pour accélérer, standardiser et réduire les coûts de construction des data centers, infrastructures devenues critiques pour alimenter la demande explosive en puissance de calcul liée à l'IA générative. L'enjeu est colossal. Construire un centre de données reste aujourd'hui un processus long, coûteux et très dépendant de la main-d'œuvre humaine. En automatisant cette chaîne, Roze AI pourrait réduire significativement les délais de mise en service au moment précis où hyperscalers, gouvernements et entreprises technologiques se disputent la capacité de calcul disponible. Si la formule fonctionne, SoftBank ne se contenterait plus d'être un investisseur dans l'écosystème IA : il deviendrait un acteur industriel direct, capturant une part de la chaîne de valeur physique de l'intelligence artificielle, au même titre qu'un grand fournisseur cloud comme AWS ou Microsoft Azure. SoftBank évolue depuis des années dans une logique de paris technologiques massifs, parfois triomphants comme avec Alibaba, parfois catastrophiques comme avec Zume, la startup de livraison de pizzas robotisées qui a tourné court. Cette fois, la stratégie change de nature : il ne s'agit plus de financer des startups prometteuses depuis l'extérieur, mais de créer de toutes pièces une entité industrielle intégrée. SoftBank n'est pas seul sur ce terrain : Jeff Bezos a cofondé Project Prometheus, initiative visant à racheter des entreprises industrielles pour les moderniser par l'IA, signalant une convergence plus large entre capital technologique et transformation des infrastructures physiques. En interne, le projet Roze AI suscite néanmoins des interrogations : selon le Financial Times, plusieurs employés du groupe doutent de la pertinence d'une valorisation à 100 milliards pour une entité qui n'a pas encore prouvé son modèle à grande échelle, et le calendrier d'IPO pour fin 2026 est jugé très ambitieux. La question reste entière : Roze AI deviendra-t-elle un standard de l'infrastructure IA mondiale, ou un nouveau pari à haut risque dans la longue histoire des investissements de SoftBank ?

RobotiqueOpinion
1 source
Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision
75Pandaily 

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

Ant Group, la filiale fintech d'Alibaba, a officiellement mis en open source son modèle Ling-2.6-Flash le 29 avril 2026, via l'équipe BaiLing spécialisée en grands modèles de langage. Le modèle compte 104 milliards de paramètres au total, dont 7,4 milliards activés à l'inférence, et est proposé en plusieurs formats de précision, BF16, FP8 et INT4, pour s'adapter à différents environnements matériels et contraintes de déploiement. Fait notable : deux semaines avant cette annonce officielle, le modèle avait été discrètement mis en ligne sur la plateforme OpenRouter sous le nom anonyme "Elephant Alpha", permettant à Ant Group de collecter des retours développeurs et d'effectuer plusieurs cycles d'optimisation, notamment sur la commutation bilingue chinois-anglais et la compatibilité avec les principaux frameworks de développement. Les performances techniques de Ling-2.6-Flash le positionnent comme un concurrent sérieux dans le segment des modèles efficaces à grande échelle. Son architecture linéaire hybride lui permet d'atteindre 340 tokens par seconde sur une configuration 4x GPU H20, avec un débit de prefill 2,2 fois supérieur à celui du Nemotron-3-Super de NVIDIA. Sur les benchmarks Artificial Analysis, il n'a consommé que 15 millions de tokens pour accomplir ses tâches, soit environ un dixième de ce que nécessite Nemotron-3-Super, un ratio coût-performance particulièrement attractif pour les équipes cherchant à déployer des agents IA à l'échelle. Sur des benchmarks spécialisés comme BFCL-V4, TAU2-bench ou SWE-bench Verified, ses résultats rivalisent avec des modèles aux paramètres actifs bien plus importants. Cette publication s'inscrit dans une stratégie d'open source agressive que mènent plusieurs grandes entreprises technologiques chinoises face à la domination américaine dans le domaine des LLM. Ant Group rejoint ainsi DeepSeek, Alibaba (Qwen) et ByteDance (Doubao) dans une course à la transparence et à l'adoption communautaire. Le choix de tester le modèle anonymement avant de le revendiquer reflète une approche plus pragmatique du lancement : valider en conditions réelles avant de s'exposer publiquement. La focalisation sur les cas d'usage agents, planification multi-étapes, utilisation d'outils, exécution de tâches complexes, indique que les prochaines batailles de l'IA ne se joueront pas sur les chatbots grand public, mais sur l'automatisation des workflows professionnels.

LLMsOpinion
1 source
La Chine sanctionne des plateformes IA pour absence de marquage des contenus générés par IA
76TechNode 

La Chine sanctionne des plateformes IA pour absence de marquage des contenus générés par IA

La Cyberspace Administration of China (CAC), le régulateur national de l'internet, a annoncé mardi avoir sanctionné trois plateformes numériques pour manquement à l'obligation d'identifier clairement les contenus générés par intelligence artificielle. Les applications visées sont CapCut, l'éditeur de vidéo populaire détenu par ByteDance, Maoxiang (aussi connue sous le nom Cat Box) et Dreamina AI. Selon le CAC, ces plateformes ont enfreint plusieurs textes législatifs, dont la loi sur la cybersécurité, les mesures provisoires sur l'administration des services d'IA générative, et les dispositions spécifiques sur l'identification des contenus synthétiques générés par IA. Les mesures imposées comprennent des entretiens de mise en conformité avec les régulateurs locaux, des ordres de rectification, des avertissements formels et un renforcement de la responsabilité des personnels concernés. Ces sanctions envoient un signal clair sur la volonté de Pékin d'imposer la transparence algorithmique à grande échelle. L'obligation d'étiquetage des contenus IA vise directement les utilisateurs finaux : elle leur permet de distinguer ce qui est authentique de ce qui est généré ou manipulé numériquement, une distinction devenue critique à l'heure où les deepfakes et les images synthétiques prolifèrent sur les réseaux sociaux. Pour des plateformes comme CapCut, dont l'audience mondiale dépasse des centaines de millions d'utilisateurs, la mise en conformité représente un défi technique et opérationnel considérable. Un responsable du CAC a déclaré qu'il n'existe "aucune marge de compromis ni de contournement" aux règles en vigueur. Cette action s'inscrit dans un cadre réglementaire que la Chine a construit méthodiquement depuis 2022, anticipant de plusieurs années les efforts législatifs occidentaux comparables. Les mesures provisoires sur l'IA générative, entrées en vigueur en août 2023, font partie d'un dispositif progressif qui couvre désormais aussi bien la recommandation algorithmique que la génération de texte et d'images. Avec des acteurs comme ByteDance, Baidu ou Alibaba qui déploient des fonctionnalités IA à un rythme soutenu, le régulateur cherche à prévenir les dérives avant qu'elles ne s'installent, tout en consolidant son rôle de référence mondiale dans la gouvernance de l'IA.

UEL'AI Act européen impose des obligations similaires d'étiquetage des contenus IA dès 2025-2026 ; les sanctions chinoises illustrent concrètement ce qu'une mise en conformité forcée implique pour des plateformes comme CapCut, massivement utilisées en France.

RégulationReglementation
1 source
Lightelligence bondit de 400% en bourse, pari sur l'interconnexion optique comme prochain goulot d'étranglement de l'IA
77AI News 

Lightelligence bondit de 400% en bourse, pari sur l'interconnexion optique comme prochain goulot d'étranglement de l'IA

Lightelligence, fabricant chinois de puces photoniques basé à Shanghai, a fait une entrée fracassante à la Bourse de Hong Kong mardi, avec un cours qui a bondi de près de 400% dès le premier jour de cotation. L'action a ouvert à 882 HK$ contre un prix d'introduction de 183,2 HK$, le haut de la fourchette initiale. L'entreprise a levé 2,4 milliards HK$ (environ 310 millions de dollars) lors de son IPO, dont la tranche grand public a été sursouscrite près de 5 785 fois. Première entreprise de photonique continentale à s'introduire à Hong Kong, Lightelligence affiche 106 millions de RMB (15,5 millions de dollars) de chiffre d'affaires annuel en 2025, pour une capitalisation boursière qui a brièvement atteint 10 milliards de dollars. Son produit phare, LightSphere X, est présenté comme la première solution de commutation optique distribuée pour les interconnexions de supernœuds GPU, capable d'augmenter l'utilisation des FLOPS de plus de 50% tout en réduisant le coût total d'exploitation. Au 31 mars 2026, la société détenait 410 brevets et revendiquait 88,3% de parts de marché parmi les fournisseurs indépendants en Chine pour les interconnexions optiques à l'échelle des nœuds de calcul haute performance. L'engouement des investisseurs repose sur une conviction croissante : le câblage en cuivre entre les puces d'intelligence artificielle est en train de devenir le prochain goulet d'étranglement des infrastructures d'IA. Les grands clusters de GPU, nécessaires pour entraîner et faire tourner les grands modèles de langage, transfèrent des volumes de données colossaux entre les puces. Le cuivre génère de la chaleur, consomme beaucoup d'énergie et atteint ses limites en termes de débit sur de courtes distances. L'interconnexion optique, qui remplace les signaux électriques par de la lumière, offre une latence réduite, une bande passante plus élevée et une meilleure efficacité énergétique. Pour les opérateurs de datacenters et les fournisseurs cloud qui cherchent à optimiser leurs coûts à mesure que les clusters d'IA grossissent, cette technologie représente une rupture potentiellement structurelle. Lightelligence évolue néanmoins dans un contexte financier tendu. Ses pertes nettes ont atteint 1,34 milliard de RMB en 2025, et son ratio actif-passif s'établit à 473%, ce qui signifie que ses dettes dépassent largement ses actifs. Un seul client représente 40,6% de son chiffre d'affaires. Dans le marché global chinois, Huawei reste dominant avec 98,4% de parts, Lightelligence n'en détenant que 8,3% en tant que premier fournisseur tiers indépendant. Malgré ces signaux d'alerte, le tour de table des investisseurs cornerstone est impressionnant : Alibaba, GIC, Temasek, BlackRock, Fidelity, Schroders, Hillhouse Capital, Lenovo et ZTE ont tous participé. La croissance annuelle composée du chiffre d'affaires atteint 66,9% sur deux ans, et le secteur de l'informatique photonique, encore largement peuplé de startups pré-revenus, laisse une fenêtre d'opportunité à qui peut prouver une commercialisation à grande échelle.

InfrastructureActu
1 source
Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens
78Pandaily 

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Ant Group, la filiale fintech du géant chinois Alibaba, a lancé Ling-2.6-Flash, un nouveau grand modèle de langage appartenant à sa série Ling. Le modèle repose sur une architecture à 104 milliards de paramètres au total, dont seulement 7,4 milliards sont activés lors de l'inférence, une approche dite MoE (Mixture of Experts) qui réduit considérablement la puissance de calcul nécessaire. Conçu comme un modèle optimisé pour les instructions, Ling-2.6-Flash mise sur ce qu'Ant Group appelle la "Token Efficiency" : délivrer des performances compétitives tout en étant plus rapide et moins coûteux que ses concurrents. Avant même son lancement officiel, une version anonyme du modèle, baptisée en interne "Elephant Alpha", avait été mise en ligne sur la plateforme OpenRouter. En quelques jours, elle s'est hissée en tête des modèles les plus utilisés, avec une consommation quotidienne d'environ 100 milliards de tokens et une croissance hebdomadaire dépassant les 5 000 %. L'adoption aussi rapide et aussi massive d'un modèle avant même son annonce officielle illustre l'appétit du marché pour des alternatives économiques aux LLMs dominants. Avec un tarif d'entrée fixé à 0,10 dollar par million de tokens en entrée et 0,30 dollar par million en sortie, Ling-2.6-Flash se positionne parmi les options les plus abordables du marché, directement en concurrence avec des modèles comme Gemini Flash de Google ou GPT-4o Mini d'OpenAI. L'API est désormais accessible publiquement, accompagnée d'une période d'essai gratuite d'une semaine. Pour les développeurs et les entreprises qui font tourner des applications à grande échelle, une telle structure tarifaire peut représenter des économies substantielles. Ce lancement s'inscrit dans une offensive plus large des acteurs technologiques chinois sur le marché mondial des LLMs. Après DeepSeek, qui avait créé la surprise début 2025 avec des modèles très compétitifs à bas coût, Ant Group entre à son tour dans la course avec une stratégie similaire : maximiser l'efficacité par dollar dépensé. La série Ling illustre la volonté du groupe de rivaliser au niveau international, au moment où la compétition entre fournisseurs de modèles s'intensifie et où la guerre des prix devient un argument commercial aussi décisif que les benchmarks de performance.

UELes développeurs et entreprises européens peuvent accéder dès maintenant à l'API Ling-2.6-Flash à 0,10 $/M tokens en entrée, une alternative économique potentiellement significative pour les applications à fort volume.

LLMsActu
1 source
Optimisation élégante des tokens
79Latent Space 

Optimisation élégante des tokens

Google a profité de sa conférence Cloud Next, qui s'est tenue les 21 et 22 avril 2026, pour annoncer ses TPU v8, la huitième génération de ses puces d'entraînement et d'inférence. Les chiffres annoncés sont vertigineux et confirment l'avance matérielle accumulée par Google DeepMind après une décennie d'investissements massifs dans des infrastructures propriétaires. En parallèle, la conférence AI Engineer Miami a vu s'imposer un concept central dans les discussions entre dirigeants tech : le "tokenmaxxing", soit la volonté de maximiser l'usage de l'IA dans les équipes sans pour autant encourager le gaspillage ou la qualité médiocre. Mikhail Parakhin, directeur technique de Shopify, invité de la conférence, a apporté une nuance importante : il préconise d'aller en profondeur plutôt qu'en largeur, c'est-à-dire de lancer des boucles de recherche autonome séquentielles plutôt que de multiplier en parallèle des dizaines d'appels LLM sans cohérence. Dex Horthy, à l'origine du concept de "Context Engineering", a quant à lui publiquement rétracté ses positions les plus enthousiastes sur le vibe coding, encourageant désormais les développeurs à relire le code généré. Ces débats ne sont pas qu'académiques : ils reflètent une tension réelle au sein des équipes engineering, entre vitesse de génération de code et dette technique. Pour les CTOs et VP d'ingénierie, la question devient comment calibrer l'autonomie accordée aux modèles sans dégrader la qualité architecturale des systèmes. Sur le front des modèles ouverts, plusieurs sorties majeures sont venues nourrir ce débat. Alibaba a publié Qwen3.6-27B, un modèle dense sous licence Apache 2.0 qui surpasse selon ses benchmarks le bien plus lourd Qwen3.5-397B-A17B sur les évaluations de code, dont SWE-bench Verified à 77,2 contre 76,2. Il intègre des modes pensée et non-pensée, un checkpoint multimodal unifié, et a été immédiatement supporté par vLLM, llama.cpp et Ollama. OpenAI a discrètement publié un "Privacy Filter", un modèle MoE léger de 1,5 milliard de paramètres actifs à 50 millions, dédié à la détection et masquage de données personnelles sur de très larges corpus, sous licence Apache 2.0. Xiaomi a de son côté annoncé MiMo-V2.5-Pro, un modèle orienté agents avec 57,2 sur SWE-bench Pro et une capacité déclarée à effectuer plus de 1 000 appels d'outils autonomes. Ces annonces s'inscrivent dans une dynamique où la course aux modèles ouverts s'intensifie, portée par des acteurs comme Alibaba, Xiaomi et OpenAI lui-même, qui cèdent des briques spécialisées à la communauté. L'événement AI Engineer Miami, dont la prochaine édition se tiendra à Singapour, est devenu un baromètre de ce que l'industrie considère comme les vrais problèmes opérationnels : qualité du code généré, gestion de la vie privée dans les pipelines d'agents, et arbitrage entre quantité et profondeur d'utilisation des LLM. Les TPU v8 de Google rappellent que derrière ces débats de méthode, la compétition infrastructure reste déterminante pour qui peut entraîner et servir les modèles les plus puissants à grande échelle.

UELes modèles publiés sous licence Apache 2.0 (Qwen3.6-27B, OpenAI Privacy Filter) permettent aux équipes techniques européennes un déploiement local compatible avec les exigences RGPD pour la gestion des données personnelles dans les pipelines d'agents.

LLMsActu
1 source
☕️ La vérification d’identité d’Anthropic limite l’accès de Claude en Chine
80Next INpact 

☕️ La vérification d’identité d’Anthropic limite l’accès de Claude en Chine

Depuis la semaine dernière, Anthropic exige de certains de ses abonnés une vérification d'identité avec pièce officielle avec photo avant de continuer à utiliser Claude. Sans détailler publiquement les critères exacts, la société américaine confirme au site The Information que la mesure vise à bloquer l'accès commercial depuis des pays considérés comme adversaires des États-Unis, notamment la Chine, la Russie et la Corée du Nord. Anthropic invoque des raisons de sécurité nationale et indique que son équipe chargée des garde-fous « applique activement ces règles » et « prend des mesures contre les comptes en infraction ». Pour l'instant, la vérification ne touche pas l'ensemble des utilisateurs chinois, mais ses effets se font déjà sentir chez les startups qui ont bâti leur activité sur l'API Claude. Sur Idle Fish, la marketplace entre particuliers du groupe Alibaba, des vendeurs proposent déjà des contournements : comptes Claude Code préenregistrés, accès à des comptes existants, ou vente de pièces d'identité étrangères. Cette décision illustre la montée en puissance des considérations géopolitiques dans l'industrie de l'IA. Anthropic rejoint ainsi OpenAI, qui restreint déjà l'accès à ChatGPT dans plusieurs pays et exclut officiellement la Chine, la Russie et la Corée du Nord de sa liste de territoires autorisés, sans toutefois avoir mis en place à ce jour de vérification d'identité formelle. Pour les entreprises technologiques chinoises qui s'appuyaient sur Claude, cette coupure représente une rupture opérationnelle réelle, les forçant soit à migrer vers d'autres modèles, soit à adopter des pratiques de contournement risquées. Plus largement, ce type de restriction tend à accélérer la fragmentation du paysage mondial de l'IA entre blocs technologiques distincts. Ce blocage s'inscrit dans un contexte de tensions croissantes entre Washington et Pékin autour des technologies d'intelligence artificielle, qui fait suite aux restrictions déjà en vigueur sur l'exportation de semi-conducteurs américains avancés vers la Chine. Ces limitations ont poussé des acteurs comme Huawei et Baidu à intensifier le développement de leurs propres puces dédiées à l'IA. La même logique s'applique aux modèles de langage : coupée des outils américains les plus performants, la Chine a accéléré la construction de ses propres alternatives, dont la plus spectaculaire reste l'émergence de DeepSeek début 2025, qui a surpris l'ensemble de l'industrie par ses capacités. Si les restrictions d'Anthropic venaient à se généraliser ou à se durcir, elles pourraient paradoxalement renforcer l'écosystème IA chinois en lui donnant une raison supplémentaire de ne plus dépendre des modèles occidentaux.

RégulationReglementation
1 source
Tencent lance une bêta internationale de sa plateforme d'agents IA QClaw
81Pandaily 

Tencent lance une bêta internationale de sa plateforme d'agents IA QClaw

Tencent Cloud a lancé le 21 avril 2026 la version bêta internationale de QClaw, sa plateforme d'agents IA destinée au grand public. Développé par l'équipe Tencent PC Manager et construit sur le framework open-source OpenClaw, le produit avait d'abord été lancé sur le marché chinois en mars 2026. La version internationale intègre plus de 80 mises à jour fonctionnelles et a été développée en à peine cinq jours, la majorité du code ayant été générée par intelligence artificielle. QClaw est actuellement disponible en accès anticipé aux États-Unis, au Canada, à Singapour et en Corée du Sud, avec une prise en charge multilingue. Durant cette phase bêta, les utilisateurs reçoivent une allocation quotidienne de tokens et l'accès anticipé reste limité en nombre de places. La proposition centrale de QClaw est de rendre les agents IA accessibles sans installation ni compétences techniques particulières. La plateforme propose un "Agent Playground" rassemblant des rôles variés comme des coachs fitness ou des tuteurs en langues, et s'intègre avec les principaux modèles du marché, notamment GPT et Claude. Un mécanisme de sécurité intégré surveille et valide les actions exécutées par les agents, répondant directement aux inquiétudes croissantes autour de l'autonomie des IA. Ce positionnement "plug-and-play" cible un segment de marché encore peu saturé : les utilisateurs non-développeurs qui souhaitent bénéficier de l'automatisation sans friction technique. Cette sortie internationale s'inscrit dans la stratégie d'expansion mondiale accélérée des géants technologiques chinois, qui cherchent à exporter leurs outils IA à mesure que le marché intérieur arrive à maturité. Tencent rejoint ainsi Alibaba, ByteDance et d'autres acteurs dans la course à l'adoption internationale de leurs plateformes IA. La vitesse de développement revendiquée, cinq jours pour une mise à jour majeure, illustre comment les entreprises utilisent désormais l'IA pour accélérer leur propre cycle de production logicielle. La compatibilité avec des modèles concurrents comme Claude signale une approche ouverte visant à maximiser l'adoption, plutôt qu'un écosystème fermé. Les prochains mois diront si QClaw peut s'imposer face à des concurrents comme Manus ou les offres d'agents d'OpenAI sur ces marchés anglophones.

OutilsOutil
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
82arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

AutreOpinion
1 source
83SCMP Tech 

Moonshot AI publie son modèle phare en open source

La start-up chinoise Moonshot AI a publié lundi son nouveau modèle phare en open source, Kimi K2.6, une version améliorée de sa précédente génération axée notamment sur le codage longue portée et les tâches complexes nécessitant une planification étendue. Cette sortie intervient alors qu'Alibaba, ByteDance et Tencent ont conjointement signé un engagement pour promouvoir l'open source dans l'intelligence artificielle en Chine, un signal fort de la part de trois des géants technologiques les plus influents du pays. Ce mouvement vers l'ouverture des modèles traduit une tendance de fond dans l'industrie chinoise de l'IA : rendre les modèles accessibles permet d'accélérer l'adoption, d'attirer les développeurs et de construire un écosystème autour de sa technologie, sans pour autant sacrifier la rentabilité sur d'autres segments. Pour les entreprises et développeurs qui cherchent des alternatives aux modèles occidentaux fermés comme GPT-4o ou Claude, Kimi K2.6 représente une option sérieuse, particulièrement pour des usages intensifs en programmation. La décision de Moonshot AI s'inscrit dans une dynamique plus large de compétition entre stratégies ouvertes et fermées en Chine. Alors que des acteurs comme DeepSeek ont démontré qu'un modèle open source pouvait rivaliser avec les meilleurs systèmes propriétaires, les entreprises chinoises naviguent entre impératifs commerciaux et pression à la transparence. La coexistence de l'engagement collectif à l'open source et des investissements parallèles dans des systèmes fermés révèle que la stratégie optimale reste encore à définir dans un secteur en mutation rapide.

UELes développeurs et entreprises européens disposent d'une nouvelle alternative open source sérieuse pour les tâches de codage intensif, sans dépendance aux modèles propriétaires occidentaux.

LLMsOpinion
1 source
Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session
84MarkTechPost 

Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session

Alibaba a publié Qwen 3.6-35B-A3B, un modèle de langage multimodal à architecture MoE (Mixture of Experts) de 35 milliards de paramètres, dont seulement 3,6 milliards sont activés par inférence. Un tutoriel complet, publié en avril 2026, détaille comment déployer ce modèle de bout en bout dans un environnement Google Colab équipé d'un GPU A100 ou L4. L'implémentation couvre un spectre large de fonctionnalités : inférence multimodale avec traitement d'images, contrôle du budget de raisonnement, génération en streaming avec séparation des traces de réflexion et des réponses finales, appel d'outils externes, génération JSON structurée, inspection du routage MoE, benchmarking, génération augmentée par récupération (RAG) et persistance de session. Le code charge le modèle de manière adaptative selon la VRAM disponible : en précision complète bfloat16 au-delà de 75 Go, en quantification int8 entre 40 et 75 Go, et en int4 en dessous, réduisant ainsi les besoins matériels d'un modèle qui pèse environ 70 Go à télécharger. Ce type d'implémentation représente un tournant concret pour les développeurs et chercheurs qui souhaitent expérimenter avec des modèles de frontier-level sans infrastructure cloud dédiée. La capacité à contrôler explicitement le budget de raisonnement, c'est-à-dire la profondeur de réflexion que le modèle alloue avant de répondre, ouvre des usages précis : réduire la latence pour des tâches simples, ou au contraire laisser le modèle « penser » longuement sur des problèmes complexes de code ou de raisonnement logique. L'intégration native du RAG permet de connecter le modèle à des bases de connaissances externes sans fine-tuning, tandis que la persistance de session autorise des conversations longues et cohérentes sur plusieurs échanges. Pour les équipes produit, cela signifie qu'un prototype d'assistant multimodal capable d'appeler des API, d'analyser des images et de maintenir un contexte conversationnel peut être construit sur une seule machine GPU en quelques heures. Qwen 3.6-35B-A3B s'inscrit dans la série Qwen 3 d'Alibaba Cloud, dont plusieurs variantes ont été publiées en open-source début 2025, positionnant le groupe chinois comme concurrent direct d'OpenAI, Google DeepMind et Meta sur le segment des grands modèles accessibles. L'architecture MoE est au coeur de cette stratégie : en n'activant qu'une fraction des paramètres à chaque inférence, elle permet de combiner la capacité d'un très grand modèle avec un coût de calcul réduit. Le tutoriel en question s'adresse aux praticiens qui veulent dépasser l'usage via API et comprendre les mécanismes internes, notamment le routage des experts, observable directement dans le code fourni. La prochaine étape naturelle pour la communauté sera d'évaluer ces capacités sur des benchmarks standardisés et d'intégrer ces modèles dans des pipelines de production, un domaine où la persistance de session et l'appel d'outils deviennent des critères de sélection aussi importants que les scores académiques.

UELes développeurs et équipes produit européens peuvent déployer ce modèle open-source de niveau frontier sur une seule machine GPU, réduisant la dépendance aux APIs cloud propriétaires pour des prototypes multimodaux.

LLMsTuto
1 source
85Latent Space 

[AINews] Moonshot Kimi K2.6 : le meilleur modèle open source du monde se met à jour pour rivaliser avec Opus 4.6 (avant DeepSeek v4 ?)

Moonshot AI a lancé Kimi K2.6 le 18 avril 2026, une mise à jour majeure de son modèle de langage open-weight qui consolide la position du laboratoire chinois en tête des modèles ouverts mondiaux. Ce modèle de type Mixture-of-Experts (MoE) totalise 1 000 milliards de paramètres, avec 32 milliards actifs à la fois, 384 experts, une fenêtre de contexte de 256 000 tokens, la multimodalité native et une quantification INT4. Disponible dès le jour de lancement sur vLLM, OpenRouter, Cloudflare Workers AI, Baseten et MLX, il revendique des records open source sur plusieurs benchmarks de référence : 54,0 sur HLE with tools, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual et 83,2 sur BrowseComp. Moonshot revendique également des capacités d'exécution longue durée inédites : plus de 4 000 appels d'outils enchaînés, des sessions continues de plus de 12 heures, et jusqu'à 300 sous-agents parallèles via un système baptisé "Claw Groups". Simultanément, Alibaba a publié Qwen3.6-Max-Preview, un avant-goût de son prochain modèle phare, qui a atteint la 7e place dans le classement Code Arena, propulsant Alibaba au 3e rang des laboratoires dans cette catégorie. Ces sorties illustrent une accélération concrète des modèles ouverts chinois dans les domaines du code et des agents autonomes, deux terrains jusqu'ici dominés par des acteurs américains comme Anthropic, OpenAI et Google. La communauté des développeurs a rapidement adopté K2.6 comme alternative crédible à Claude ou GPT-4 pour des tâches d'infrastructure : des utilisateurs rapportent une exécution autonome sur cinq jours, des réécritures de noyaux système, et un moteur d'inférence en Zig surpassant LM Studio de 20 % en débit. K2.6 tient également tête à Gemini 3.1 Pro sur les tâches de design frontend avec un taux de victoire et d'égalité de 68,6 %, un terrain considéré comme le point fort de Google. Le contexte est celui d'une course ouverte et intense entre laboratoires. Depuis le lancement de K2.5 en janvier 2026, Moonshot occupe la première place parmi les labs chinois open source, dans un silence relatif de DeepSeek depuis la version v3.2, dont une v4 reste attendue. Moonshot est par ailleurs l'un des trois laboratoires chinois que l'équipe d'Anthropic a cités en février pour avoir potentiellement utilisé ses données d'entraînement sans autorisation. En parallèle, Hermes Agent, la pile d'agents open source la plus en vue du moment, a dépassé 100 000 étoiles sur GitHub en moins de deux mois, détrônant OpenClaw en croissance hebdomadaire. L'ensemble du tableau suggère que les modèles ouverts, portés par des labs asiatiques bien dotés, ne jouent plus dans une catégorie inférieure aux modèles propriétaires occidentaux.

UELes développeurs européens peuvent désormais déployer localement un modèle open-weight de niveau frontier, réduisant leur dépendance aux API propriétaires américaines soumises au Cloud Act.

LLMsActu
1 source
86MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
Vous avez aimé HappyHorse ? Happy Oyster prépare quelque chose d’encore plus fou
87Le Big Data 

Vous avez aimé HappyHorse ? Happy Oyster prépare quelque chose d’encore plus fou

Alibaba Group a officialisé ce jeudi 16 avril 2026 le lancement de Happy Oyster, son nouveau modèle d'intelligence artificielle dédié à la création de mondes 3D interactifs en temps réel. Ce système, développé par Alibaba ATH, succède directement à HappyHorse, le modèle vidéo du groupe qui avait attiré l'attention ces dernières semaines pour ses capacités de génération vidéo à partir de texte et d'images. Contrairement à son prédécesseur, Happy Oyster ne produit pas de simples séquences vidéo linéaires : il construit des environnements tridimensionnels navigables que l'utilisateur peut explorer librement, comme s'il se déplaçait dans un décor numérique. L'API de HappyHorse-1.0, qui a servi de fondation technique à ce nouveau système, doit quant à elle être rendue publique dès le 30 avril prochain. L'impact de cette annonce dépasse le cadre d'une simple mise à jour technologique. Happy Oyster cible explicitement les industries du cinéma, des séries et du jeu vidéo, en proposant aux créateurs un outil capable de générer des environnements complets et dynamiques sans passer par les pipelines de production 3D traditionnels. La frontière entre vidéo générée, moteur de jeu et expérience immersive s'efface : les contenus ne se regardent plus passivement, ils se parcourent. Pour les studios indépendants ou les développeurs solo, cela représente un saut de productivité potentiellement considérable, en réduisant le temps et le coût nécessaires à la création de scènes complexes. Cette sortie s'inscrit dans une bataille technologique intense entre les géants technologiques chinois sur le terrain de la vidéo générative. Le même jour, Tencent dévoilait HY-World 2.0, un système lui aussi orienté vers la création interactive, mais avec une philosophie différente : là où Alibaba mise sur une génération vidéo bout en bout fluide et directement exploitable, Tencent privilégie la production d'éléments 3D modulaires, modifiables de manière isolée. Ces deux approches opposées illustrent la maturité croissante d'un marché chinois de l'IA vidéo qui cherche désormais à dépasser la simple génération de clips pour s'imposer dans la création de mondes numériques entiers. Alibaba, en annonçant simultanément l'ouverture prochaine de son API, signale clairement sa volonté de construire un écosystème de développeurs autour de ses modèles, accélérant ainsi leur adoption industrielle.

UEImpact indirect pour les studios de cinéma et développeurs de jeux vidéo européens, qui pourraient adopter ces outils génératifs 3D dès l'ouverture de l'API HappyHorse-1.0 le 30 avril.

CréationActu
1 source
88Numerama 

On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?

Apple a lancé début 2025 son MacBook Pro équipé de la puce M5 Pro, disponible à partir de 3 199 euros dans sa configuration 48 Go de RAM unifée. La version haut de gamme, le M5 Max avec 128 Go de mémoire, monte jusqu'à 6 429 euros sans augmentation du stockage. Des journalistes tech ont soumis cette machine à des tests intensifs de LLM locaux, faisant tourner des modèles open source tels que Mistral, DeepSeek, les modèles Alibaba Qwen et plusieurs variantes Google Gemma directement sur le matériel, sans connexion cloud. Ce type de configuration intéresse de plus en plus les développeurs, chercheurs et professionnels qui veulent exécuter des modèles de langage en local pour des raisons de confidentialité, de latence ou de coût. La mémoire unifiée des puces Apple Silicon est une architecture particulièrement adaptée à ce cas d'usage : contrairement aux PC classiques où la RAM et la VRAM sont séparées, le CPU et le GPU partagent le même pool mémoire, ce qui permet de charger entièrement des modèles de 30 à 70 milliards de paramètres sans swap. Les résultats des tests montrent des vitesses d'inférence utilisables au quotidien, loin derrière un GPU NVIDIA haut de gamme mais suffisantes pour un workflow professionnel autonome. Cette tendance s'inscrit dans un mouvement plus large de démocratisation de l'IA locale, accéléré par la sortie de modèles open source performants et compacts. Des acteurs comme Mistral AI, DeepSeek ou Alibaba proposent désormais des versions quantisées de leurs modèles optimisées pour ce type de matériel. Face aux interrogations croissantes sur la souveraineté des données et la dépendance aux API cloud, le couple Apple Silicon + ollama ou LM Studio s'impose comme une alternative crédible pour les professionnels prêts à investir plusieurs milliers d'euros dans une machine autonome.

UELa tendance à l'IA locale répond aux préoccupations européennes de souveraineté des données, et Mistral AI figure parmi les modèles open source testés sur ce type de matériel.

💬 Le M5 Pro 48 Go, c'est le premier Mac où je me dis que l'IA locale est devenue praticable sans compromis majeur. Tu charges un modèle de 30 à 70 milliards de paramètres, ça tourne sur la même mémoire que le reste, pas de swap, pas de GPU externe à brancher. 3 200 euros de base, c'est cher, et la vitesse d'inférence reste loin d'un bon GPU NVIDIA, mais pour du travail autonome sur des données confidentielles, j'ai du mal à voir mieux dans ce format.

InfrastructureActu
1 source
89Latent Space 

AI Engineer Europe 2026

La conférence AI Engineer Europe 2026 vient de s'achever après trois jours intenses qui ont réuni des centaines de professionnels de l'IA entre sessions en ligne, ateliers et plus d'une centaine de conférences en présentiel. L'événement a notamment inclus des visites au 10 Downing Street et des tables rondes en podcast avec des programmes comme ThursdAI et ETN. Sur le plan technique, la principale avancée annoncée est le modèle GLM-5.1 de Z.ai, qui a atteint la 3e place sur le classement Code Arena, dépassant apparemment Gemini 3.1 et GPT-5.4, et se positionnant au niveau de Claude Sonnet 4.6. Z.ai occupe désormais la première place parmi les modèles open source, à seulement 20 points du sommet du classement général. Alibaba a également profité de la dynamique de l'événement pour livrer Qwen Code v0.14.x, intégrant des canaux de contrôle à distance via Telegram, DingTalk et WeChat, des tâches récurrentes par cron, un contexte de 1 million de tokens avec 1 000 requêtes gratuites par jour, et un mode de planification. Ces annonces reflètent une tendance de fond qui s'impose comme nouveau paradigme d'architecture : le modèle "exécuteur léger + conseiller puissant". L'idée, formalisée conjointement par Anthropic au niveau de son API et par des chercheurs de Berkeley, consiste à utiliser un modèle rapide pour la majorité des tâches, en escaladant vers un modèle plus coûteux uniquement aux points de décision difficiles. Les résultats mesurés sont significatifs : associer Haiku à Opus doublerait le score sur BrowseComp par rapport à Haiku seul, tandis que Sonnet combiné à Opus améliorerait les performances sur SWE-bench Multilingual tout en réduisant le coût par tâche. Ce pattern a été immédiatement implémenté en open source via un middleware advisor pour LangChain DeepAgents, signe d'une adoption communautaire très rapide. Cette convergence s'inscrit dans une frustration opérationnelle croissante chez les praticiens : les grands modèles sont devenus spécialisés et instables selon les domaines. Yuchen Jin souligne par exemple qu'Opus excelle sur le frontend et les flux agentiques, pendant que GPT-5.4 est plus performant sur les systèmes backend et distribués, mais que les outils comme Claude Code ou Codex restent trop liés à un seul fournisseur. La demande se déplace donc vers des workflows capables de partager le contexte, de router automatiquement vers le bon modèle et de faire collaborer plusieurs LLM dans une seule session. Dans cet écosystème en mouvement, le framework Hermes Agent s'est distingué comme la plateforme avec le plus fort momentum, avec la sortie de sa version 0.8.0, le lancement de Hermes Workspace Mobile intégrant exécution d'outils en direct, navigateur de mémoire et catalogue de compétences, et l'annonce d'un mode FAST pour GPT-5.4.

UELa conférence s'est tenue en Europe et rassemble directement des praticiens européens ; les nouveaux patterns architecturaux (exécuteur léger + conseiller) et frameworks annoncés sont immédiatement applicables par les développeurs et entreprises IA en France et dans l'UE.

LLMsActu
1 source
90Numerama 

LM Studio rachète Locally AI, l’application française pour installer un LLM local sur son iPhone

LM Studio, logiciel américain spécialisé dans l'exécution de modèles de langage en local sur Mac, a annoncé l'acquisition de Locally AI, une application française dédiée à l'iPhone. Locally AI permettait aux utilisateurs d'installer et de faire tourner directement sur leur appareil des modèles open source tels que Qwen d'Alibaba ou Gemma de Google, sans passer par le cloud. L'application se distinguait également par l'un des rares accès publics au modèle Apple Foundation, que la firme de Cupertino réserve normalement en exclusivité à ses propres fonctions Apple Intelligence. Cette acquisition marque une étape importante dans la démocratisation de l'IA locale sur mobile. En intégrant Locally AI à son écosystème, LM Studio étend son périmètre au-delà du Mac et s'impose comme un acteur transversal sur les plateformes Apple, couvrant désormais à la fois ordinateurs et smartphones. Pour les utilisateurs, cela représente une garantie de confidentialité renforcée : les données restent sur l'appareil, sans transmission à des serveurs tiers, ce qui intéresse particulièrement les professionnels soucieux de la souveraineté de leurs données. Le rachat s'inscrit dans une tendance de fond : la course aux modèles légers et efficaces capables de tourner sur du matériel grand public. Apple Silicon a ouvert la voie en offrant des puces suffisamment performantes pour inférer des modèles de plusieurs milliards de paramètres directement sur iPhone ou Mac. LM Studio, en consolidant l'offre iOS et macOS sous une même bannière, se positionne comme la référence de l'IA on-device dans l'univers Apple, face à des concurrents comme Ollama ou GPT4All qui restent cantonnés au desktop.

UEL'acquisition de Locally AI, startup française, par LM Studio illustre la consolidation du marché de l'IA on-device au profit d'acteurs américains, soulevant des questions de souveraineté numérique pour les professionnels français qui misaient sur cette solution indépendante.

BusinessOpinion
1 source
L'IA transforme les décisions de production des petits vendeurs en ligne
91MIT Technology Review 

L'IA transforme les décisions de production des petits vendeurs en ligne

Mike McClary, entrepreneur de 51 ans basé dans le salon de sa maison en Illinois, a relancé en 2025 une lampe torche qu'il commercialisait sous la marque Guardian LTE, un produit robuste qu'il avait arrêté de vendre en 2017 mais pour lequel les clients continuaient de le solliciter par e-mail. Plutôt que de parcourir des catalogues fournisseurs pendant des semaines, il a ouvert Accio, un outil d'approvisionnement alimenté par l'IA intégré à Alibaba.com. Il a décrit à l'outil le design original, le coût de fabrication et la marge de la lampe. Accio a alors proposé plusieurs modifications, réduire la taille, baisser légèrement la luminosité, passer aux piles, et a identifié un fabricant à Ningbo, en Chine, capable de ramener le coût unitaire de 17 dollars à environ 2,50 dollars. En moins d'un mois, la nouvelle version du Guardian était en vente sur Amazon et sur le site de sa marque. Accio, lancé en 2024, a dépassé les 10 millions d'utilisateurs actifs mensuels en mars 2026, soit environ un utilisateur d'Alibaba sur cinq. Pour les petits vendeurs en ligne américains, trouver quoi vendre et où le faire fabriquer était jusqu'ici un processus lent et laborieux, pouvant s'étendre sur plusieurs mois : parcourir des annonces, comparer les capacités des fournisseurs, demander des échantillons, négocier les délais et les quantités minimales de commande. Des outils comme Accio compressent cette phase en quelques heures. L'interface ressemble à celle de ChatGPT ou Claude, une zone de texte, des modes "rapide" et "réflexion", mais les réponses intègrent des graphiques, des liens vers des fournisseurs et des questions de clarification pour affiner le besoin. L'outil ne remplace pas entièrement la négociation humaine : les vendeurs doivent toujours contacter les fournisseurs eux-mêmes, mais ils arrivent à cette étape avec une sélection déjà qualifiée. Pour des tâches comme l'analyse de sourcing, l'outil "écrase" les assistants généralistes comme ChatGPT, selon Richard Kostick, PDG de la marque beauté 10to1. Alibaba.com, le site historique du groupe listant les usines chinoises ouvertes aux commandes en gros, a bâti Accio sur plusieurs modèles frontière dont sa propre série Qwen, une famille de modèles open source populaire, et l'a entraîné sur 26 ans de données transactionnelles propriétaires et des millions de profils fournisseurs, selon Zhang Kuo, président d'Alibaba.com. Cette initiative s'inscrit dans une concurrence plus large pour capter les PME occidentales cherchant à diversifier leurs chaînes d'approvisionnement, notamment depuis la montée des tensions commerciales entre les États-Unis et la Chine. En automatisant la phase de recherche produit et de sourcing, Alibaba positionne l'IA comme infrastructure centrale du commerce transfrontalier de détail, réduisant la barrière d'entrée pour des entrepreneurs individuels qui n'avaient jusqu'ici ni le temps ni les ressources pour accéder efficacement à la manufacture asiatique.

UELes vendeurs en ligne et PME françaises qui s'approvisionnent via Alibaba.com peuvent potentiellement utiliser Accio, mais l'article ne documente aucune adoption européenne.

OutilsOutil
1 source
Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX
92MarkTechPost 

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Netflix a publié VOID (Video Object Inpainting and Detection), un modèle d'intelligence artificielle capable de supprimer des objets d'une vidéo et de reconstituer le fond de manière réaliste. Le pipeline repose sur CogVideoX-Fun-V1.5-5b-InP, un modèle d'inpainting vidéo développé par Alibaba PAI et distribué via Hugging Face. Le code source est accessible publiquement sur GitHub à l'adresse netflix/void-model, et le checkpoint officiel void_pass1.safetensors est téléchargeable depuis le dépôt netflix/void-model sur Hugging Face. Pour faire tourner le système, il faut au minimum 40 Go de VRAM, un GPU A100 étant recommandé par les ingénieurs de Netflix eux-mêmes. Le workflow comprend plusieurs étapes : cloner le dépôt, télécharger les modèles de base, préparer des séquences vidéo d'entrée avec leurs masques, puis lancer l'inférence pour obtenir une vidéo où l'objet ciblé a été effacé et remplacé par un fond cohérent. Une intégration optionnelle avec l'API d'OpenAI permet de générer automatiquement un prompt décrivant le fond souhaité, ce qui améliore la qualité du résultat final. Ce type d'outil représente une avancée significative pour la production audiovisuelle. Supprimer un objet indésirable d'une scène vidéo, un câble visible, un accessoire oublié en arrière-plan ou un logo non autorisé, est une opération courante en post-production qui nécessite aujourd'hui des heures de travail manuel dans des logiciels spécialisés comme Adobe After Effects ou DaVinci Resolve. Avec VOID, Netflix propose une approche automatisée basée sur la génération vidéo, où le modèle ne se contente pas de masquer une zone mais reconstitue activement ce qui se trouverait derrière l'objet supprimé, en tenant compte du mouvement de la caméra et de la cohérence temporelle entre les frames. Pour les studios de production et les équipes VFX, cela pourrait réduire drastiquement les coûts et délais associés aux corrections de plans en post-production. Netflix n'est pas le premier acteur à s'aventurer sur ce terrain. Des outils comme RunwayML Gen-3 ou Adobe Firefly Video proposent déjà des fonctionnalités similaires en mode SaaS, mais rares sont les modèles publiés en open source avec un pipeline complet et reproductible. En rendant VOID accessible, Netflix s'inscrit dans une tendance récente de grandes entreprises tech qui publient des modèles de recherche appliquée, à l'image de Meta avec SAM 2 pour la segmentation vidéo ou de Google avec ses travaux sur l'édition de scènes. L'architecture choisie, basée sur CogVideoX et les transformers de diffusion vidéo, reflète l'état de l'art actuel dans le domaine. La prochaine étape probable sera l'intégration de passes multiples et le traitement de vidéos longue durée, l'infrastructure actuelle étant limitée à des clips courts en raison des contraintes mémoire des GPU disponibles.

UELes studios de production et équipes VFX français et européens pourraient réduire leurs coûts de post-production grâce à ce pipeline open source de suppression d'objets vidéo, accessible sur GitHub et Hugging Face.

CréationOpinion
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
93MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
Google dévoile 4 IA qui peuvent tourner sur votre smartphone ou votre ordinateur, sans Internet
9401net 

Google dévoile 4 IA qui peuvent tourner sur votre smartphone ou votre ordinateur, sans Internet

Google a présenté Gemma 4, sa nouvelle famille de quatre modèles d'intelligence artificielle en open source, conçus pour fonctionner directement sur des appareils grand public, smartphones et ordinateurs, sans nécessiter de connexion internet. Ces quatre variantes, pensées pour des usages et des capacités de calcul différents, sont accessibles librement aux développeurs et aux entreprises souhaitant les intégrer dans leurs propres applications. L'enjeu est considérable pour les utilisateurs : faire tourner une IA en local signifie que les données ne quittent plus l'appareil, ce qui renforce la confidentialité et supprime la dépendance aux serveurs distants. Pour les développeurs, c'est aussi la possibilité de déployer des applications IA fonctionnelles dans des environnements sans connectivité stable, ce qui ouvre des marchés entiers, du secteur médical aux zones rurales. Google entre ainsi en compétition directe sur le segment des modèles légers et open source, un terrain jusqu'ici dominé par des acteurs comme DeepSeek, le laboratoire chinois qui avait surpris l'industrie début 2025 avec des modèles très performants à faible coût, et Qwen d'Alibaba. La course aux modèles embarqués s'intensifie, chaque acteur cherchant à s'imposer comme standard dans les écosystèmes locaux avant que le marché ne se cristallise.

UELes développeurs et entreprises européennes peuvent intégrer Gemma 4 en local, facilitant la conformité RGPD en évitant tout transfert de données vers des serveurs tiers.

💬 Gemma 4, c'est Google qui arrive enfin sur un terrain où DeepSeek et Qwen s'installaient tranquillement depuis un an. Quatre modèles open source qui tournent en local, donc tes données restent sur ta machine, ce qui change vraiment la donne pour tout ce qui touche à la santé ou à la conformité RGPD. La question maintenant, c'est qui va s'imposer comme standard avant que le marché se fige, et là Google part avec un avantage de distribution qu'aucun labo chinois n'a.

LLMsActu
1 source
Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks
95VentureBeat AI 

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

Google DeepMind a publié Gemma 4, sa nouvelle famille de modèles ouverts, sous licence Apache 2.0, un changement qui pourrait s'avérer plus décisif que n'importe quel score sur les benchmarks. Jusqu'ici, les versions précédentes de Gemma utilisaient une licence propriétaire avec des restrictions d'usage et des clauses modifiables unilatéralement par Google, ce qui poussait de nombreuses équipes entreprises à lui préférer Mistral ou Qwen d'Alibaba. Avec Gemma 4, Google adopte les mêmes termes permissifs que l'essentiel de l'écosystème open-weight : aucune restriction commerciale, aucune clause d'usage "nuisible" à interpréter juridiquement, redistribution libre. La famille se compose de quatre modèles répartis en deux niveaux. Le niveau "workstation" comprend un modèle dense à 31 milliards de paramètres et un modèle Mixture-of-Experts (MoE) de 26B A4B, tous deux capables de traiter texte et images avec une fenêtre de contexte de 256 000 tokens. Le niveau "edge" propose les modèles E2B et E4B, conçus pour smartphones, appareils embarqués et ordinateurs portables, supportant texte, image et audio avec 128 000 tokens de contexte. Ce changement de licence lève un frein majeur à l'adoption en entreprise. Les équipes juridiques et conformité qui bloquaient le déploiement de Gemma 3 n'auront plus de raison de le faire avec Gemma 4. Sur le plan architectural, le modèle MoE 26B A4B est particulièrement intéressant pour les décideurs IT : ses 25,2 milliards de paramètres totaux n'en activent que 3,8 milliards par inférence, ce qui lui permet de délivrer des performances comparables à un modèle dense de 27 à 31 milliards de paramètres, mais à la vitesse et au coût de calcul d'un modèle de 4 milliards. Pour les organisations qui opèrent des assistants de code, des pipelines de traitement documentaire ou des workflows agentiques multi-tours, cela se traduit directement par moins de GPU nécessaires, une latence réduite et un coût par token inférieur. Google propose également des checkpoints QAT (Quantization-Aware Training) pour maintenir la qualité à précision réduite, et les deux modèles "workstation" sont déjà disponibles en configuration serverless sur Google Cloud via Cloud Run avec des GPU NVIDIA RTX Pro 6000. Ce lancement s'inscrit dans une dynamique de marché significative. Alors que certains laboratoires chinois, dont Alibaba avec ses derniers modèles Qwen 3.5 Omni et Qwen 3.6 Plus, commencent à restreindre l'accès à leurs modèles les plus récents, Google fait le mouvement inverse en ouvrant pleinement son modèle le plus capable à ce jour, dont l'architecture s'inspire directement de la recherche derrière Gemini 3, son modèle commercial phare. Le choix des 128 petits experts dans le MoE plutôt qu'une poignée de grands experts reflète une optimisation délibérée pour les coûts d'inférence en production, un signal que Google cible désormais sérieusement les déploiements à grande échelle hors de ses propres infrastructures. Gemma 4 devrait apparaître rapidement dans des outils comme Ollama et LM Studio, ce qui accélérera encore son adoption.

UELa licence Apache 2.0 lève les blocages juridiques qui freinaient l'adoption de Gemma dans les entreprises européennes soumises à des obligations de conformité strictes.

💬 La licence Apache 2.0, c'est ce qui va faire la différence, pas les scores. Les équipes juridiques qui bloquaient Gemma 3 n'ont plus d'argument valable, et le MoE 26B qui n'active que 4B de paramètres à l'inférence, c'est du GPU économisé pour de vrai, pas du marketing. Reste à voir si Google tient la promesse de qualité à precision réduite sur des pipelines en production, mais l'angle est le bon.

LLMsOpinion
1 source
Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné
96The Decoder 

Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné

Alibaba a publié Qwen3.5-Omni, un nouveau modèle d'intelligence artificielle omnimodal capable de traiter simultanément du texte, des images, de l'audio et de la vidéo. Selon l'entreprise, le modèle surpasse Gemini 2.5 Pro sur les tâches de compréhension audio. Mais c'est une capacité émergente, non prévue lors de l'entraînement, qui a le plus retenu l'attention : Qwen3.5-Omni est capable d'écrire du code à partir d'instructions orales combinées à des entrées vidéo, une compétence que personne ne lui a explicitement enseignée. Ce phénomène d'émergence spontanée illustre une tendance de fond dans les grands modèles multimodaux : en apprenant à connecter plusieurs modalités sensorielles, ces systèmes développent des compétences transversales imprévues qui dépassent leurs objectifs d'entraînement initiaux. Pour les développeurs, cela ouvre des perspectives concrètes — imaginer un assistant capable de regarder un écran, d'écouter une demande vocale et de produire directement le code correspondant, sans interaction textuelle intermédiaire. Alibaba positionne Qwen3.5-Omni dans une course multimodale qui oppose désormais directement les acteurs chinois aux laboratoires américains. La série Qwen a déjà produit plusieurs modèles qui ont surpris par leurs performances, notamment sur des benchmarks de code et de raisonnement. Face à Google avec Gemini, OpenAI avec GPT-4o et ses variantes vocales, et Meta avec ses modèles ouverts, Alibaba cherche à s'imposer comme un acteur de référence sur le segment des modèles capables de percevoir et d'agir sur l'ensemble des modalités humaines. La publication de Qwen3.5-Omni renforce cette ambition.

LLMsOpinion
1 source
Tencent mise sur OpenClaw pour rattraper son retard dans la course à l'IA en Chine
97The Information AI 

Tencent mise sur OpenClaw pour rattraper son retard dans la course à l'IA en Chine

Tencent a lancé ce mois-ci pas moins de huit applications et services basés sur OpenClaw, le framework open source de création d'agents IA devenu viral en janvier 2026. Parmi eux, QClaw — imaginé par Shuyu Zhang, un chef de produit récemment embauché — permet d'installer un agent IA en un clic et de le piloter directement depuis WeChat, l'application de messagerie dominante en Chine. Dimanche dernier, Tencent a également lancé Weixin ClawBot, un outil qui intègre OpenClaw nativement dans Weixin, le nom chinois de WeChat. Cette offensive illustre l'urgence ressentie au sein du géant technologique de Shenzhen : après des années perçu comme un suiveur dans la course à l'IA en Chine, Tencent tente de rattraper son retard en s'appuyant sur l'engouement mondial pour OpenClaw. L'intégration dans WeChat est stratégique — avec plus d'un milliard d'utilisateurs actifs, la plateforme offre une rampe de distribution sans équivalent pour déployer des agents IA à grande échelle auprès du grand public chinois. OpenClaw a déclenché une vague d'adoption frénétique dans l'industrie technologique mondiale depuis son émergence en janvier, et la Chine ne fait pas exception. Tencent affronte sur ce terrain des rivaux comme Alibaba, ByteDance et Baidu, tous engagés dans une course effrénée aux agents IA. La capacité de Tencent à tirer parti de l'écosystème WeChat pourrait lui donner un avantage décisif, mais la vitesse de déploiement et la qualité des agents restent des variables critiques dans une compétition qui s'intensifie semaine après semaine.

OutilsOutil
1 source
L'approche open-source d'OpenSeeker vise à briser le monopole des données pour les agents de recherche IA
98The Decoder 

L'approche open-source d'OpenSeeker vise à briser le monopole des données pour les agents de recherche IA

OpenSeeker est un agent de recherche IA open-source qui atteint des performances comparables aux solutions d'Alibaba et d'autres acteurs majeurs, en n'utilisant que 11 700 points d'entraînement et un seul cycle d'entraînement. Le projet rend publiquement accessibles ses données, son code et son modèle, avec l'ambition de briser le monopole des données dans le domaine des agents de recherche IA.

OutilsPaper
1 source
99Le Big Data 

L’entreprise chinoise Moonshot AI vise 18 milliards de valorisation

Moonshot AI, la startup chinoise derrière le chatbot Kimi, cherche à lever 1 milliard de dollars pour atteindre une valorisation de 18 milliards de dollars — soit plus de quatre fois sa valeur de fin 2025, portée par des investisseurs comme Alibaba et Tencent. Cette explosion reflète l'engouement mondial pour l'IA, notamment en Chine où des acteurs comme MiniMax et Zhipu rivalisent avec OpenAI et Anthropic. Le modèle Kimi K2.5, basé sur une architecture MoE de 1 000 milliards de paramètres et capable de traiter jusqu'à 256 000 tokens, affiche des benchmarks impressionnants : 50,2 % sur Humanity's Last Exam (contre 41,7 % pour GPT-5) et 60,2 % sur BrowseComp (contre 54,9 % pour GPT-5.1).

BusinessActu
1 source
Tencent prépare en secret un agent IA pour WeChat, que faut-il savoir ?
100Le Big Data 

Tencent prépare en secret un agent IA pour WeChat, que faut-il savoir ?

Tencent travaille en secret sur un agent d'intelligence artificielle intégré directement à WeChat, son application phare utilisée par 1,4 milliard d'utilisateurs actifs chaque mois. Selon The Information, qui cite plusieurs sources proches du dossier, ce projet aurait été lancé dès le premier semestre 2025 et est classé priorité stratégique confidentielle au sein du groupe. Les tests en boîte grise sont prévus pour le milieu de 2026, avec un déploiement général visé au troisième trimestre — calendrier susceptible de glisser si certaines fonctionnalités ne sont pas suffisamment matures. Côté modèle, aucune décision définitive n'a encore été prise : le modèle maison Hunyuan serait jugé insuffisamment compétitif face aux meilleurs du marché, et plusieurs alternatives chinoises ont été évaluées, dont celles de Zhipu, Alibaba et DeepSeek. L'infrastructure resterait centralisée sur les serveurs cloud de Tencent, les mini-programmes ne disposant pas des ressources locales nécessaires. L'enjeu est considérable : intégrer un agent IA dans WeChat, c'est potentiellement donner accès à un orchestrateur capable d'agir de façon autonome sur des millions de mini-programmes déjà en place — covoiturage, livraison de repas, paiement, services publics. Là où une application IA indépendante doit se battre pour attirer des utilisateurs, WeChat bénéficie d'une audience captive et d'un écosystème construit depuis 2017. La difficulté est symétrique : toute défaillance sur une plateforme aussi critique serait immédiatement visible par des centaines de millions de personnes. C'est précisément pourquoi Tencent avance prudemment, ayant tiré les leçons du lancement tiède de son appli IA autonome Yuanbao en mai 2024, qui n'a pas réussi à s'imposer face à la concurrence. Ce projet s'inscrit dans une bataille plus large pour le contrôle de la couche agent en Chine. Alibaba et ByteDance poursuivent des initiatives similaires, et Tencent ne peut pas rester spectateur dans cette course sans risquer de voir son écosystème WeChat contourné par des assistants tiers. En mars 2026, l'entreprise a déjà présenté trois nouveaux produits reposant sur des agents intelligents — QClaw pour les particuliers, Enterprise WeChat Robot pour les équipes et WorkBuddy pour les environnements professionnels — signalant une accélération de sa stratégie IA tous azimuts. L'agent WeChat représenterait la pièce maîtresse de ce dispositif : la vitrine grand public d'une infrastructure IA que Tencent construit en profondeur, et potentiellement le premier superagent intégré à une messagerie de cette échelle au monde.

OutilsOutil
1 source