Aller au contenu principal
Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision
LLMsPandaily7sem· 2 min de lecture

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

Source originale ↗·

Ant Group, la filiale fintech d'Alibaba, a officiellement mis en open source son modèle Ling-2.6-Flash le 29 avril 2026, via l'équipe BaiLing spécialisée en grands modèles de langage. Le modèle compte 104 milliards de paramètres au total, dont 7,4 milliards activés à l'inférence, et est proposé en plusieurs formats de précision, BF16, FP8 et INT4, pour s'adapter à différents environnements matériels et contraintes de déploiement. Fait notable : deux semaines avant cette annonce officielle, le modèle avait été discrètement mis en ligne sur la plateforme OpenRouter sous le nom anonyme "Elephant Alpha", permettant à Ant Group de collecter des retours développeurs et d'effectuer plusieurs cycles d'optimisation, notamment sur la commutation bilingue chinois-anglais et la compatibilité avec les principaux frameworks de développement.

Les performances techniques de Ling-2.6-Flash le positionnent comme un concurrent sérieux dans le segment des modèles efficaces à grande échelle. Son architecture linéaire hybride lui permet d'atteindre 340 tokens par seconde sur une configuration 4x GPU H20, avec un débit de prefill 2,2 fois supérieur à celui du Nemotron-3-Super de NVIDIA. Sur les benchmarks Artificial Analysis, il n'a consommé que 15 millions de tokens pour accomplir ses tâches, soit environ un dixième de ce que nécessite Nemotron-3-Super, un ratio coût-performance particulièrement attractif pour les équipes cherchant à déployer des agents IA à l'échelle. Sur des benchmarks spécialisés comme BFCL-V4, TAU2-bench ou SWE-bench Verified, ses résultats rivalisent avec des modèles aux paramètres actifs bien plus importants.

Cette publication s'inscrit dans une stratégie d'open source agressive que mènent plusieurs grandes entreprises technologiques chinoises face à la domination américaine dans le domaine des LLM. Ant Group rejoint ainsi DeepSeek, Alibaba (Qwen) et ByteDance (Doubao) dans une course à la transparence et à l'adoption communautaire. Le choix de tester le modèle anonymement avant de le revendiquer reflète une approche plus pragmatique du lancement : valider en conditions réelles avant de s'exposer publiquement. La focalisation sur les cas d'usage agents, planification multi-étapes, utilisation d'outils, exécution de tâches complexes, indique que les prochaines batailles de l'IA ne se joueront pas sur les chatbots grand public, mais sur l'automatisation des workflows professionnels.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens
1Pandaily 

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Ant Group, la filiale fintech du géant chinois Alibaba, a lancé Ling-2.6-Flash, un nouveau grand modèle de langage appartenant à sa série Ling. Le modèle repose sur une architecture à 104 milliards de paramètres au total, dont seulement 7,4 milliards sont activés lors de l'inférence, une approche dite MoE (Mixture of Experts) qui réduit considérablement la puissance de calcul nécessaire. Conçu comme un modèle optimisé pour les instructions, Ling-2.6-Flash mise sur ce qu'Ant Group appelle la "Token Efficiency" : délivrer des performances compétitives tout en étant plus rapide et moins coûteux que ses concurrents. Avant même son lancement officiel, une version anonyme du modèle, baptisée en interne "Elephant Alpha", avait été mise en ligne sur la plateforme OpenRouter. En quelques jours, elle s'est hissée en tête des modèles les plus utilisés, avec une consommation quotidienne d'environ 100 milliards de tokens et une croissance hebdomadaire dépassant les 5 000 %. L'adoption aussi rapide et aussi massive d'un modèle avant même son annonce officielle illustre l'appétit du marché pour des alternatives économiques aux LLMs dominants. Avec un tarif d'entrée fixé à 0,10 dollar par million de tokens en entrée et 0,30 dollar par million en sortie, Ling-2.6-Flash se positionne parmi les options les plus abordables du marché, directement en concurrence avec des modèles comme Gemini Flash de Google ou GPT-4o Mini d'OpenAI. L'API est désormais accessible publiquement, accompagnée d'une période d'essai gratuite d'une semaine. Pour les développeurs et les entreprises qui font tourner des applications à grande échelle, une telle structure tarifaire peut représenter des économies substantielles. Ce lancement s'inscrit dans une offensive plus large des acteurs technologiques chinois sur le marché mondial des LLMs. Après DeepSeek, qui avait créé la surprise début 2025 avec des modèles très compétitifs à bas coût, Ant Group entre à son tour dans la course avec une stratégie similaire : maximiser l'efficacité par dollar dépensé. La série Ling illustre la volonté du groupe de rivaliser au niveau international, au moment où la compétition entre fournisseurs de modèles s'intensifie et où la guerre des prix devient un argument commercial aussi décisif que les benchmarks de performance.

UELes développeurs et entreprises européens peuvent accéder dès maintenant à l'API Ling-2.6-Flash à 0,10 $/M tokens en entrée, une alternative économique potentiellement significative pour les applications à fort volume.

LLMsActu
1 source
2SCMP Tech 

Moonshot AI publie son modèle phare en open source

La start-up chinoise Moonshot AI a publié lundi son nouveau modèle phare en open source, Kimi K2.6, une version améliorée de sa précédente génération axée notamment sur le codage longue portée et les tâches complexes nécessitant une planification étendue. Cette sortie intervient alors qu'Alibaba, ByteDance et Tencent ont conjointement signé un engagement pour promouvoir l'open source dans l'intelligence artificielle en Chine, un signal fort de la part de trois des géants technologiques les plus influents du pays. Ce mouvement vers l'ouverture des modèles traduit une tendance de fond dans l'industrie chinoise de l'IA : rendre les modèles accessibles permet d'accélérer l'adoption, d'attirer les développeurs et de construire un écosystème autour de sa technologie, sans pour autant sacrifier la rentabilité sur d'autres segments. Pour les entreprises et développeurs qui cherchent des alternatives aux modèles occidentaux fermés comme GPT-4o ou Claude, Kimi K2.6 représente une option sérieuse, particulièrement pour des usages intensifs en programmation. La décision de Moonshot AI s'inscrit dans une dynamique plus large de compétition entre stratégies ouvertes et fermées en Chine. Alors que des acteurs comme DeepSeek ont démontré qu'un modèle open source pouvait rivaliser avec les meilleurs systèmes propriétaires, les entreprises chinoises naviguent entre impératifs commerciaux et pression à la transparence. La coexistence de l'engagement collectif à l'open source et des investissements parallèles dans des systèmes fermés révèle que la stratégie optimale reste encore à définir dans un secteur en mutation rapide.

UELes développeurs et entreprises européens disposent d'une nouvelle alternative open source sérieuse pour les tâches de codage intensif, sans dépendance aux modèles propriétaires occidentaux.

LLMsOpinion
1 source
Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils
3MarkTechPost 

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Arcee AI a publié Trinity Large Thinking, un modèle de raisonnement en open-weight distribué sous licence Apache 2.0. Architecturalement, il s'agit d'un modèle Mixture-of-Experts (MoE) sparse totalisant 400 milliards de paramètres, mais qui n'en active que 13 milliards par token grâce à une stratégie de routage 4-sur-256. Cette conception permet d'atteindre la densité de connaissance d'un modèle massif tout en conservant des latences comparables à des architectures bien plus légères. Le modèle a été pré-entraîné sur 17 000 milliards de tokens avec l'optimiseur Muon, plus efficace que l'AdamW standard, et intègre un mécanisme d'attention hybride local/global avec attention gating pour mieux gérer les longs contextes. Il supporte une fenêtre de contexte de 262 144 tokens sur OpenRouter. Sur le benchmark PinchBench, dédié aux agents autonomes, Trinity Large Thinking occupe actuellement la deuxième place, derrière Claude Opus 4.6. Ce lancement est significatif pour les développeurs qui construisent des agents IA autonomes : Trinity Large Thinking est conçu spécifiquement pour les tâches longues et complexes, les appels d'outils multi-tours et le suivi d'instructions précises sur des workflows étendus. Contrairement aux modèles de chat généralistes, il intègre une phase de "réflexion" interne avant chaque réponse, ce qui lui permet de planifier des tâches en plusieurs étapes et de vérifier sa logique avant de générer une sortie. Cette combinaison de raisonnement structuré, de fiabilité multi-tours et de fenêtre de contexte étendue répond directement aux exigences des environnements d'automatisation logicielle, où les erreurs cumulatives sur de longues séquences d'actions sont le principal point de défaillance. L'émergence de ce modèle s'inscrit dans une tendance de fond : le déplacement du centre de gravité de l'IA générative vers des systèmes capables de raisonnement multi-étapes, jusqu'ici dominé par des acteurs propriétaires comme OpenAI avec o3 ou Anthropic avec Claude. Arcee AI, spécialisé dans les LLM d'entreprise et les modèles compacts à haute performance, propose ici une alternative ouverte et auditables pour les organisations qui ne peuvent ou ne souhaitent pas dépendre d'API fermées. Deux innovations techniques internes méritent attention : SMEBU (Soft-clamped Momentum Expert Bias Updates), une stratégie d'équilibrage de charge qui prévient l'effondrement des experts dans les architectures MoE, et l'utilisation du Muon optimizer pour améliorer l'efficacité d'entraînement. La suite logique sera de voir si la communauté open-source s'empare du modèle pour des déploiements auto-hébergés, et si Arcee maintient ce niveau de performance dans des évaluations tierces indépendantes au-delà de PinchBench.

UELa licence Apache 2.0 permet aux organisations européennes de déployer un modèle de raisonnement compétitif en auto-hébergement, réduisant leur dépendance aux API fermées américaines et s'alignant sur les objectifs de souveraineté numérique européenne.

LLMsOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
4Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic