Aller au contenu principal

LLMs — page 5

495 articles · page 5 sur 10

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

[AINews] Rien de notable aujourd'hui
201Latent Space LLMsActu

[AINews] Rien de notable aujourd'hui

La journée du 27-28 avril 2026 n'a pas produit de séisme dans l'industrie de l'IA, mais plusieurs sorties de modèles méritent attention. NVIDIA a lancé Nemotron 3 Nano Omni, un modèle multimodal open-source de 30 milliards de paramètres actifs (3B actifs, architecture MoE) capable de traiter texte, images, vidéo, audio et documents, avec une fenêtre de contexte de 256 000 tokens orientée vers les usages agentiques. Sa distribution a été immédiate : OpenRouter, LM Studio, Ollama, Fireworks, Together et une dizaine d'autres plateformes ont annoncé sa disponibilité le jour même. Le modèle intègre un encodeur audio Parakeet, fonctionne pour l'instant uniquement en anglais, et affiche un taux d'erreur de 5,95 % sur le benchmark Open ASR, avec un débit annoncé neuf fois supérieur à des modèles omni comparables. Du côté de Poolside, la startup a publié son premier modèle public, Laguna XS.2, un modèle de code MoE de 33 milliards de paramètres totaux (3B actifs) entraîné intégralement en interne, distribué sous licence Apache 2.0, et conçu pour tourner sur un seul GPU. Microsoft, de son côté, a sorti TRELLIS.2, un modèle open-source de 4 milliards de paramètres pour la génération de scènes 3D texturées à partir d'images, avec une résolution allant jusqu'à 1536 cubes et une compression spatiale 16x. Ces sorties illustrent une tendance de fond : la compétition sur l'efficacité d'inférence s'intensifie, et les acteurs cherchent à démocratiser des capacités avancées sur du matériel accessible. Que Poolside publie un modèle de code haute performance tournant sur un seul GPU, ou que NVIDIA intègre audio et vidéo dans un modèle ouvert, le message est clair : les capacités multimodales et agentiques descendent rapidement vers des configurations matérielles grand public. Pour les développeurs et les entreprises, cela signifie des coûts d'infrastructure moindres pour déployer des agents capables de comprendre des documents complexes ou de générer des assets 3D. En parallèle, l'infrastructure d'inférence connaît sa propre effervescence. La version 0.20.0 de vLLM, framework open-source de référence pour servir les grands modèles, embarque un cache KV 2 bits (TurboQuant) offrant quatre fois plus de capacité, ainsi qu'une amélioration de latence de 2,1 % grâce à une fusion d'opérations. Les benchmarks publiés par SemiAnalysis sur les puces B300 de NVIDIA indiquent un débit jusqu'à huit fois supérieur à celui des H200 pour des charges DeepSeek V4 Pro. Dans ce contexte, des voix techniques soulignent que DeepSeek s'éloigne progressivement de la dépendance exclusive à CUDA via ses TileKernels, ouvrant la voie à des déploiements sur accélérateurs hétérogènes, y compris des puces non-NVIDIA. Les prochaines semaines devraient confirmer si GPT-6, dont le buzz commence à monter, reconfigurera à nouveau les priorités de l'écosystème.

UELes modèles open-source publiés ce jour (Nemotron 3 Nano Omni, Laguna XS.2, TRELLIS.2) sont immédiatement accessibles aux développeurs et entreprises européennes via Ollama, Hugging Face et autres plateformes, réduisant les coûts d'infrastructure pour déployer des agents multimodaux sur du matériel grand public.

1 source
Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents
202VentureBeat AI 

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

La startup américaine Poolside, fondée à San Francisco en 2023, a lancé ce 28 avril 2026 deux nouveaux modèles de langage sous la marque Laguna, conçus spécifiquement pour les tâches de codage agentique. Le premier, Laguna M.1, est un modèle propriétaire de 225 milliards de paramètres au format Mixture of Experts (MoE), avec 23 milliards de paramètres actifs, destiné aux environnements d'entreprise et gouvernementaux à hautes exigences de sécurité. Le second, Laguna XS.2, est un modèle open source sous licence Apache 2.0 de 33 milliards de paramètres (3 milliards actifs), téléchargeable et exécutable localement sur un simple GPU de bureau ou d'ordinateur portable, sans connexion internet. Poolside accompagne ces deux modèles d'un agent de codage en ligne de commande baptisé "pool" et d'un environnement de développement web mobile appelé "shimmer". Temporairement, même le plus grand modèle M.1 est accessible gratuitement via l'API Poolside et des partenaires comme OpenRouter, Ollama et Baseten. L'arrivée de Laguna XS.2 en open source représente un signal fort dans un secteur dominé soit par des modèles propriétaires coûteux comme Claude d'Anthropic ou GPT-5.5 d'OpenAI, soit par des modèles chinois à licence ouverte comme ceux de DeepSeek. Poolside offre ici une alternative américaine, exécutable entièrement hors ligne, ce qui répond à un besoin critique pour les agences gouvernementales et les entreprises opérant dans des environnements ultra-sécurisés. L'ingénieur post-entraînement George Grigorev a précisé que Poolside peut "livrer des poids dans des environnements totalement isolés on-premises, sans connexion réseau", un avantage décisif face aux solutions cloud d'Anthropic ou Google. Par ailleurs, les deux modèles Laguna ont été entraînés intégralement from scratch, contrairement à plusieurs laboratoires américains qui s'appuient sur les modèles de base Qwen d'Alibaba, ce qui leur confère une indépendance technique notable. Poolside s'est jusqu'ici concentrée sur des contrats gouvernementaux et de défense, construisant ses modèles dans un environnement interne appelé "Model Factory", dont le moteur central est un logiciel maison nommé Titan. L'entreprise utilise également un optimiseur d'entraînement appelé Muon, qui accélère l'apprentissage d'environ 15% par rapport aux méthodes standards, un avantage compétitif non négligeable en termes de coûts et de délais. En s'ouvrant maintenant à la communauté des développeurs et à la recherche publique, Poolside change de stratégie et entre de plein pied dans la bataille de l'open source agentique, à un moment où les entreprises tech cherchent à réduire leur dépendance aux API propriétaires pour des raisons de coût, de confidentialité et de souveraineté technologique.

UELes organisations européennes en environnement isolé (défense, administration) peuvent déployer localement un modèle de codage agentique open source américain sans dépendance cloud, renforçant leur autonomie technologique.

LLMsActu
1 source
Comprendre la fenêtre de contexte : limites et solutions techniques des LLM
203Le Big Data 

Comprendre la fenêtre de contexte : limites et solutions techniques des LLM

La fenêtre de contexte est la limite fondamentale qui détermine ce qu'un modèle d'intelligence artificielle peut "garder en tête" lors d'une conversation ou d'une analyse de document. Concrètement, tout ce que le modèle traite en une seule fois, qu'il s'agisse de la question posée, de l'historique des échanges, des instructions système et de la réponse en cours de génération, doit tenir dans cet espace mesuré en tokens, des unités linguistiques représentant en moyenne trois quarts de mot. Sur une fenêtre de 2 000 tokens, un texte de 900 mots consomme déjà environ 1 200 tokens en entrée, ne laissant que 800 tokens pour la réponse avant que le modèle ne s'arrête net. Les premiers modèles géraient environ 2 000 tokens, soit 1 500 mots. Aujourd'hui, certains systèmes atteignent 1 million de tokens, l'équivalent d'un roman entier, mais chaque gain décuple les besoins matériels. Cette contrainte a des conséquences directes et mesurables sur la qualité des réponses. L'architecture Transformer, utilisée par tous les grands modèles actuels, calcule les relations entre chaque paire de tokens selon une complexité quadratique O(n²) : 1 000 tokens génèrent un million de connexions, et la mémoire GPU explose rapidement. Résultat : au-delà d'un certain seuil, le modèle perd les informations placées en début de contexte, répète des idées ou invente des faits, phénomène connu sous le nom d'hallucination. Le test "needle-in-haystack", qui consiste à vérifier si un modèle retrouve une information précise noyée dans un long texte, révèle 30 % d'échecs au-delà de 500 000 tokens. Les coûts ne sont pas négligeables non plus : traiter 1 million de tokens coûte environ dix centimes, sans compter les risques de sécurité, car un prompt malveillant placé en début de contexte peut manipuler le comportement du modèle sur toute la durée d'un long document. Pour contourner ces limites, plusieurs approches techniques ont émergé. Le KV-cache, qui mémorise les calculs d'attention déjà effectués plutôt que de les recalculer à chaque nouveau token généré, peut représenter jusqu'à 100 Go de mémoire temporaire mais accélère considérablement la génération. D'autres architectures cherchent à remplacer ou compléter l'attention quadratique par des mécanismes linéaires ou par de la mémoire externe, permettant de traiter des documents bien au-delà des capacités actuelles sans explosion des coûts. L'enjeu est industriel et stratégique : les cas d'usage les plus lucratifs, analyse juridique, recherche médicale, assistance sur des bases de code entières, nécessitent précisément de maintenir la cohérence sur de très longues séquences. La course aux grandes fenêtres de contexte est donc moins une question de prouesse technique que de viabilité économique pour des applications professionnelles à grande échelle.

LLMsTuto
1 source
NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart
204AWS ML Blog 

NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA vient de rendre disponible son modèle Nemotron 3 Nano Omni sur Amazon SageMaker JumpStart, avec une mise en ligne dite "day zero", soit le jour même du lancement officiel. Ce modèle de langage multimodal open source repose sur une architecture hybride Mamba2 Transformer avec Mixture of Experts (MoE), affichant 30 milliards de paramètres au total dont seulement 3 milliards actifs (architecture dite 30B A3B). Il intègre trois composants spécialisés : Nemotron 3 Nano LLM comme colonne vertébrale linguistique, CRADIO v4-H pour l'encodage visuel (images et vidéos), et Parakeet pour la transcription et la compréhension audio. Le modèle accepte des vidéos jusqu'à 2 minutes (256 images maximum), des fichiers audio jusqu'à 1 heure, des images JPEG et PNG, ainsi que du texte sur une fenêtre de contexte de 131 000 tokens. Il prend en charge le raisonnement en chaîne de pensée, les appels d'outils, la sortie JSON et les horodatages au niveau du mot pour la transcription. Disponible en précision FP8 sur SageMaker JumpStart, il est commercialisé sous la licence NVIDIA Open Model Agreement. L'apport concret de Nemotron 3 Nano Omni réside dans sa capacité à traiter vidéo, audio, images et texte en une seule passe d'inférence, là où les architectures actuelles empilent plusieurs modèles distincts pour chaque modalité. Cette fragmentation classique multiplie les allers-retours d'inférence, complique l'orchestration des pipelines, fragmente le contexte entre modalités et fait croître les coûts et les points de défaillance. En fonctionnant comme un sous-agent de perception unifié au sein d'un système d'agents, le modèle offre simultanément vision, ouïe et compréhension textuelle dans une même boucle de raisonnement. Les cas d'usage ciblés incluent les agents de contrôle d'interfaces graphiques, l'analyse documentaire, contrats, états financiers, rapports scientifiques, ainsi que la surveillance audio et vidéo pour le service client ou la recherche. Ce lancement s'inscrit dans une dynamique plus large de convergence des architectures multimodales, où les grands fournisseurs cherchent à réduire la complexité des systèmes agentiques d'entreprise. NVIDIA, historiquement dominant sur le matériel GPU, renforce ici sa présence sur la couche modèle avec une offre ouverte et commercialement exploitable, accessible directement via SageMaker JumpStart, la plateforme de déploiement géré d'Amazon Web Services. Cette disponibilité immédiate dans l'écosystème AWS facilite l'adoption pour les entreprises sans nécessiter de configuration d'infrastructure propre. La tendance vers des modèles unifiés capables de percevoir et raisonner sur plusieurs modalités simultanément devrait s'accélérer, à mesure que les architectures agentiques complexes cherchent à réduire latence, coûts et friction opérationnelle.

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace
205NVIDIA Developer Blog 

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace

NVIDIA a dévoilé Nemotron-N-Nano-3B-Omni, un modèle multimodal compact capable de traiter simultanément du texte, des images, des vidéos et de l'audio au sein d'une seule architecture unifiée. Conçu pour l'inférence efficace, ce modèle de 3 milliards de paramètres est publié en open weights, ce qui permet à n'importe quel développeur de le télécharger, le modifier et le déployer sans dépendre des serveurs NVIDIA. Il prend en charge le raisonnement agentique, c'est-à-dire la capacité à enchaîner des perceptions et des actions dans une boucle autonome, couvrant aussi bien l'analyse de documents que l'interprétation d'écrans ou la compréhension vocale. L'intérêt principal de ce modèle réside dans sa conception monolithique : là où les systèmes agentiques actuels assemblent des chaînes de modèles spécialisés distincts pour la vision, l'audio et le texte, Nemotron Nano Omni gère l'ensemble dans un seul passage d'inférence. Cela réduit significativement la latence, la complexité d'orchestration et le coût de calcul, tout en maintenant une cohérence contextuelle entre les modalités. Pour les entreprises qui déploient des agents IA en production, c'est une réduction directe de la facture cloud et des points de défaillance. Ce lancement s'inscrit dans la stratégie plus large de NVIDIA de dominer non seulement le matériel GPU, mais aussi la couche logicielle et les modèles fondamentaux pour l'IA d'entreprise. La série Nemotron, qui comprend également des modèles plus grands comme Nemotron-4, vise à offrir des alternatives performantes aux modèles propriétaires d'OpenAI ou d'Anthropic. Avec la montée en puissance des agents autonomes capables d'interagir avec des interfaces graphiques, des fichiers et des flux audio, un modèle omnimodal efficace et ouvert représente une brique stratégique pour la prochaine génération d'assistants et d'automatisations.

UELes développeurs et entreprises européennes peuvent déployer cet agent IA multimodal open weights directement sur leur propre infrastructure, réduisant la dépendance aux API cloud américaines et renforçant la souveraineté numérique.

L'évolution des encodeurs : des modèles simples à l'IA multimodale
206AI News 

L'évolution des encodeurs : des modèles simples à l'IA multimodale

Les systèmes d'intelligence artificielle que nous utilisons chaque jour, des moteurs de recherche aux chatbots en passant par la détection de fraude bancaire, reposent tous sur une technologie rarement évoquée : les encodeurs. Ces composants agissent comme des traducteurs, convertissant l'information brute du monde réel (texte, images, sons) en représentations mathématiques que les machines peuvent traiter. Dans les années 1990 et 2000, cette conversion était entièrement manuelle : les développeurs décidaient eux-mêmes comment représenter chaque donnée. Un système de recommandation e-commerce pouvait catégoriser des chaussures de running comme "sport", mais ne pouvait établir de lui-même le lien avec les montres connectées ou les gourdes, sauf si ce lien avait été explicitement programmé. Les machines traitaient des chiffres, pas du sens. Tout a changé avec l'avènement des réseaux de neurones, qui ont permis aux encodeurs d'apprendre à partir des données plutôt que de suivre des règles fixes. Entraîné sur des milliers d'images de chats, un système identifie progressivement les oreilles, les moustaches, la queue, sans qu'aucun ingénieur ne lui ait décrit ces caractéristiques. Appliqué au langage, ce principe a conduit à la représentation des mots sous forme de vecteurs mathématiques capturant leur signification : c'est pourquoi Google comprend aujourd'hui que "vols pas chers" et "billets d'avion économiques" renvoient au même besoin. Une étape supplémentaire a été franchie avec les autoencodeurs, conçus pour comprimer l'information puis la reconstruire, forçant le modèle à identifier l'essentiel. Cette approche est désormais au cœur des systèmes anti-fraude des banques : un encodeur apprend ce qu'est une transaction "normale" et signale automatiquement toute anomalie, comme un achat à l'étranger inhabituellement élevé, sans avoir été programmé pour ce cas précis. La véritable rupture est venue avec les modèles Transformer, apparus à partir de 2017. Contrairement à leurs prédécesseurs qui traitaient l'information séquentiellement, ces architectures analysent la totalité d'une phrase ou d'une image en une seule passe, en pondérant dynamiquement quels éléments sont les plus pertinents. Face à l'ambiguïté de "Elle a vu l'homme avec le télescope", un encodeur Transformer analyse l'ensemble du contexte pour proposer l'interprétation la plus cohérente, là où les anciens modèles échouaient. Ces encodeurs alimentent aujourd'hui les assistants vocaux, les outils de traduction en ligne, les systèmes de recommandation de Netflix ou Spotify. L'étape suivante, déjà engagée dans des modèles comme CLIP ou Gemini, consiste à unifier texte, image, audio et vidéo dans un même espace de représentation : les encodeurs multimodaux, qui permettent à une IA de relier une photo, une description et un son comme le ferait un être humain.

LLMsPaper
1 source
Bilan IA Avril 2026 : Le Basculement Définitif vers l’IA Agentique et Physique
207Le Big Data 

Bilan IA Avril 2026 : Le Basculement Définitif vers l’IA Agentique et Physique

Avril 2026 restera comme le mois où l'industrie de l'intelligence artificielle a définitivement tourné la page des chatbots. Le 23 avril, OpenAI a lancé GPT-5.5 (nom de code "Spud"), un modèle conçu pour l'ingénierie logicielle en totale autonomie, intégrant une fonction "Thinking" qui optimise ses raisonnements internes pour réduire la consommation de tokens et domine les nouveaux benchmarks agentiques Terminal-Bench 2.0. Le lendemain, DeepSeek a publié les poids de son modèle V4 (1,6 trillion de paramètres) sous licence MIT, compatible avec les puces Huawei Ascend pour contourner les embargos américains, déclenchant une guerre des prix mondiale avec une fenêtre de contexte d'un million de tokens. Meta, rattrapée par un scandale de manipulation de benchmarks sur Llama 4, a abandonné l'open-source et créé les Meta Superintelligence Labs avant de dévoiler Muse Spark, un modèle propriétaire doté d'un mode d'orchestration multi-agents baptisé "Contemplating". Microsoft a lancé sa gamme MAI pour réduire sa dépendance à OpenAI, tandis que des robots humanoïdes ont été déployés pour la première fois dans les usines BMW et Boston Dynamics. Le premier trimestre 2026 affichait 242 milliards de dollars investis dans le secteur, dont 80 % captés par OpenAI, Anthropic, xAI et Waymo. Ce basculement vers l'IA agentique et physique redessine concrètement les modes de production industrielle et de développement logiciel. L'IA consomme désormais 10 % de l'électricité américaine, forçant l'industrie à se tourner vers le nucléaire, les algorithmes neuro-symboliques cent fois moins énergivores, et même des centres de données spatiaux. Sur le front de la cybersécurité, le modèle Claude Mythos d'Anthropic a démontré sa capacité à identifier seul des failles "Zero-Day" critiques ; jugé trop dangereux pour une diffusion publique, il a été intégré au Project Glasswing, une alliance de géants technologiques chargée de corriger les vulnérabilités du web mondial en temps réel. Ces développements imposent à tous les acteurs une course contre la montre entre puissance de déploiement et maîtrise des risques systémiques. Ce mois sous tension s'inscrit dans une bataille géopolitique et judiciaire qui dépasse largement les laboratoires. En Europe, l'EU AI Act entrera en application stricte en août 2026, contraignant les entreprises à documenter et auditer leurs systèmes d'IA. La Chine bloque tout rachat de ses pépites technologiques par des capitaux américains, tandis que DeepSeek V4, en s'appuyant sur les puces Huawei, illustre la résilience de l'écosystème chinois face aux embargos. Aux États-Unis, Elon Musk a engagé ce que les médias spécialisés surnomment déjà "le procès du siècle" contre OpenAI, au coeur duquel se pose une question fondamentale : à qui appartiendra l'intelligence artificielle générale une fois atteinte ? La réponse conditionnera l'architecture de pouvoir du secteur pour la décennie à venir.

UEL'entrée en application stricte de l'EU AI Act en août 2026 contraint les entreprises opérant en Europe à documenter et auditer leurs systèmes d'IA sous peine de sanctions, à un moment où la compétition mondiale s'intensifie brutalement.

💬 Ce qui me retient le plus ce mois, c'est pas les robots dans les usines BMW ni la guerre des prix DeepSeek, c'est Anthropic qui planque Claude Mythos parce qu'il repère des zero-days tout seul et que c'est jugé trop risqué pour une sortie publique. On arrive à un stade où les labos n'ont plus confiance dans leurs propres créations, et ça, c'est pas banal. Le procès Musk contre OpenAI, au fond, c'est juste la même question posée autrement : à qui appartient le truc une fois qu'on l'a construit ?

LLMsActu
1 source
Classements Arena AI : GPT-5.5 explose les scores avec +50 points en code
208Le Big Data 

Classements Arena AI : GPT-5.5 explose les scores avec +50 points en code

GPT-5.5, le dernier modèle d'OpenAI, vient de faire son entrée dans les classements d'Arena AI avec des résultats qui confirment les promesses de la firme. Publié le 27 avril 2026, le modèle s'est immédiatement positionné sur quatre arènes de benchmark: code, texte, analyse de documents longs et recherche. Sur le terrain du code, GPT-5.5 High décroche la 9e place avec un score d'environ 1 500 points, soit un bond de plus de 50 points par rapport à son prédécesseur GPT-5.4 High. En texte, la version High atteint la 7e place à 1 489 points, tandis que la version standard se place 14e. En analyse documentaire, les deux variantes s'installent aux 6e et 7e rangs. C'est sur la Search Arena que le modèle brille le plus, grimpant à la 2e place mondiale avec un score autour de 1 237 points, devançant notamment d'autres modèles GPT et des versions de Gemini. Cette progression est significative parce qu'elle n'est pas sectorielle: GPT-5.5 avance simultanément sur tous les fronts, ce qui est rare dans un domaine où les modèles tendent à exceller dans une niche au détriment des autres. Le bond de 50 points en code est particulièrement révélateur, car Arena AI mesure des performances réelles sur du développement web agentique, pas de simples QCM. Pour les développeurs et les entreprises qui s'appuient sur des LLM dans leurs pipelines, cette progression mesurable signifie que GPT-5.5 devient une option crédible là où les modèles Claude d'Anthropic dominaient jusqu'ici sans partage. Sur la recherche d'information, sa 2e place mondiale lui confère un avantage concurrentiel direct sur les cas d'usage RAG et les agents autonomes. Arena AI est devenu l'un des benchmarks de référence les plus suivis de l'industrie parce qu'il repose sur des évaluations humaines comparatives plutôt que sur des tests automatisés, ce qui le rend difficile à truquer. Anthropic y conserve sa domination avec Claude Opus 4.7 Thinking en tête des classements code, suivi de plusieurs variantes Claude. Mais l'écart se resserre. OpenAI, après une période où GPT-4o semblait marquer le pas face aux modèles rivaux, reprend l'initiative avec une série de sorties rapprochées. La montée de GPT-5.5 intervient dans un contexte de compétition intense entre les principaux laboratoires américains, où Google avec Gemini et xAI avec Grok maintiennent également une pression constante. Si GPT-5.5 continue cette trajectoire sur les prochaines semaines de votes humains, un basculement dans le classement global devient plausible.

UELes équipes techniques européennes intégrant des LLM dans leurs pipelines pourraient reconsidérer leurs choix de modèle à la lumière de ces progressions mesurées sur tous les fronts simultanément.

LLMsOpinion
1 source
De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?
209Le Big Data 

De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?

Google Research a présenté TurboQuant lors de la conférence ICLR 2026, un algorithme de quantification conçu pour résoudre le principal goulot d'étranglement des grands modèles de langage : le KV Cache. Sur des serveurs équipés de GPU NVIDIA H100, les tests montrent que TurboQuant accélère le calcul de l'attention par un facteur huit tout en divisant par six l'empreinte mémoire, grâce à une quantification à 3 bits par valeur. Techniquement, l'algorithme abandonne la compression statique au profit d'une architecture hybride combinant PolarQuant, qui normalise les données sur une hypersphère, et le codage QJL, qui projette les vecteurs en autorisant une quantification à 1 bit basée sur le signe. Contrairement à des approches concurrentes comme GPTQ ou AWQ, TurboQuant ne nécessite aucune calibration préalable et s'adapte en temps réel au flux de données entrant. L'impact concret est significatif pour les équipes qui déploient des modèles en production. Un modèle de 8 milliards de paramètres traitant 32 000 tokens sature rapidement la VRAM disponible, forçant jusqu'ici les opérateurs à empiler de la mémoire coûteuse sur des serveurs haut de gamme. TurboQuant casse cette logique d'escalade matérielle : des tâches jusqu'alors réservées à des supercalculateurs deviennent accessibles sur des infrastructures classiques. Les benchmarks "needle-in-a-haystack" confirment que la précision logique reste quasi intacte sous forte compression, et des documents de plusieurs centaines de pages peuvent désormais être analysés en une seule requête. Les grands fournisseurs de cloud commencent à adopter ce protocole pour remplacer leurs méthodes de quantification statique, attirés par un débit de tokens supérieur même sous charge élevée. Ce développement s'inscrit dans une tension structurelle qui traverse l'industrie de l'IA depuis deux ans : la demande de modèles toujours plus grands se heurte aux limites physiques du silicium, et l'infrastructure représente désormais le coût dominant avant même la valeur du service rendu. Les approches précédentes comme QLoRA ciblaient les couches linéaires du modèle, sans s'attaquer au KV Cache lui-même, là où la consommation mémoire est la plus critique lors de l'inférence. TurboQuant change de cible. La question qui fait encore débat dans la communauté concerne son intégration aux pipelines de production actuels, standardisés autour d'outils comme vLLM ou TensorRT-LLM, et la robustesse de l'approche sur des architectures de modèles différentes de celles testées par Google Research.

UELes équipes ML et fournisseurs cloud européens pourraient réduire leurs coûts d'infrastructure GPU en adoptant TurboQuant pour l'inférence de grands modèles, mais l'intégration aux pipelines de production reste à valider.

LLMsPaper
1 source
MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents
210VentureBeat AI 

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Xiaomi a mis en ligne le 27 avril 2026 deux nouveaux modèles de langage open source, MiMo-V2.5 et MiMo-V2.5-Pro, publiés sous licence MIT et téléchargeables directement depuis Hugging Face. Le premier est un modèle multimodal généraliste, tandis que le second est conçu spécifiquement pour les tâches agentiques complexes. Selon les benchmarks internes de Xiaomi, MiMo-V2.5-Pro atteint un taux de réussite de 63,8 % sur le ClawEval, l'évaluation standard pour les agents autonomes de type "claw" comme OpenClaw, NanoClaw ou Hermes Agent, tout en ne consommant qu'environ 70 000 tokens par trajectoire. Ce chiffre représente 40 à 60 % de tokens en moins par rapport à Claude Opus 4.6 d'Anthropic, Gemini 3.1 Pro de Google et GPT-5.4 d'OpenAI pour des résultats comparables. L'architecture repose sur 310 milliards de paramètres et intègre une fenêtre de contexte native d'un million de tokens, avec un score de 1 581 sur le benchmark GDPVal-AA (Elo), devançant des concurrents comme Kimi K2.6 et GLM 5.1. L'efficacité en tokens n'est pas qu'une métrique abstraite : dans un secteur où des services comme GitHub Copilot de Microsoft basculent vers une facturation à l'usage, chaque token économisé se traduit directement en dollars pour les entreprises et les développeurs indépendants qui déploient des agents en production. MiMo-V2.5-Pro peut piloter des systèmes agentiques capables de créer du contenu marketing, gérer des emails, organiser des agendas ou gérer des comptes en autonomie, le tout via des applications de messagerie tierces. Que le modèle soit exécuté localement ou sur un cloud privé virtuel, la licence MIT permet une intégration commerciale sans restriction, ce qui le place directement en concurrence avec les modèles propriétaires de Google et OpenAI sur le segment entreprise. Pour étayer ses affirmations, Xiaomi a publié plusieurs démonstrations en conditions réelles : MiMo-V2.5-Pro a implémenté un compilateur complet en Rust, incluant lexer, parser et backend RISC-V, en 4,3 heures via 672 appels d'outils, obtenant un score parfait de 233 sur 233 sur des suites de tests cachés, une tâche qui prend habituellement plusieurs semaines à un étudiant en informatique. Il a également produit un éditeur vidéo de bureau de 8 192 lignes en 11,5 heures et 1 868 appels d'outils, puis optimisé un régulateur analogique en technologie TSMC 180 nm, améliorant la régulation de ligne d'un facteur 22 par rapport à sa tentative initiale. Ces résultats illustrent ce que Xiaomi appelle la "harness awareness" du modèle, sa capacité à gérer activement sa propre mémoire pour maintenir la cohérence sur des milliers d'appels séquentiels. Cette publication s'inscrit dans la stratégie agressive de Xiaomi pour s'imposer dans l'IA, un secteur où la firme, surtout connue pour ses smartphones et véhicules électriques, entend désormais rivaliser directement avec les grands laboratoires américains.

UELa licence MIT et la disponibilité sur HuggingFace permettent aux entreprises et développeurs européens d'intégrer ces modèles en production sans restriction, réduisant potentiellement les coûts liés à la facturation à l'usage des services d'agents IA.

LLMsActu
1 source
OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel
211MarkTechPost 

OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel

L'équipe OpenMOSS, en collaboration avec MOSI.AI et le Shanghai Innovation Institute, a publié MOSS-Audio, un modèle de fondation open source conçu pour unifier dans un seul système toutes les tâches de compréhension audio. Disponible en quatre variantes, MOSS-Audio-4B-Instruct, 4B-Thinking, 8B-Instruct et 8B-Thinking, il repose sur les modèles de langage Qwen3-4B et Qwen3-8B, atteignant respectivement environ 4,6 et 8,6 milliards de paramètres. Le modèle est capable de transcrire de la parole avec alignement temporel au niveau du mot, d'identifier les caractéristiques d'un locuteur, d'analyser ses émotions, de détecter des événements acoustiques, d'interpréter des sons d'ambiance, d'analyser des contenus musicaux et de répondre à des questions précisément ancrées dans le temps, du type "qu'a dit l'intervenant à la deuxième minute". Les variantes Instruct sont optimisées pour des sorties structurées en production, tandis que les variantes Thinking sont conçues pour le raisonnement en plusieurs étapes, grâce à un entraînement par chaîne de pensée et par apprentissage par renforcement. Jusqu'ici, accomplir l'ensemble de ces tâches nécessitait d'assembler plusieurs systèmes spécialisés distincts, chacun dédié à une modalité précise. MOSS-Audio supprime ce besoin d'orchestration en offrant un seul modèle polyvalent utilisable sans commutation. Pour les développeurs et les entreprises qui traitent des flux audio complexes, des réunions enregistrées ou des podcasts, cela représente un gain d'infrastructure significatif. Les capacités de raisonnement temporel, c'est-à-dire la possibilité de répondre à des questions référencées dans le temps sur un enregistrement, ouvrent aussi des cas d'usage qui n'étaient pas accessibles avec des architectures séparées, notamment l'analyse automatisée de contenus longs. L'architecture de MOSS-Audio repose sur trois composants : un encodeur audio, un adaptateur de modalité et un grand modèle de langage. L'encodeur, entraîné de zéro plutôt qu'emprunté à une solution existante, produit des représentations temporelles continues à 12,5 Hz. Une innovation clé baptisée DeepStack permet d'injecter des caractéristiques issues des couches intermédiaires de l'encodeur directement dans le modèle de langage, en plus de la couche finale, ce qui préserve les informations acoustiques de bas niveau comme la prosodie ou les événements transitoires. Le modèle s'inscrit dans une dynamique d'open source audio qui s'accélère depuis 2024, portée par des acteurs chinois cherchant à combler l'écart avec les laboratoires occidentaux dans le domaine du traitement multimodal. Le code source est disponible sur GitHub sous licence publique.

LLMsActu
1 source
DeepSeek : dernière avancée en IA et la course aux modèles du monde
212MIT Technology Review 

DeepSeek : dernière avancée en IA et la course aux modèles du monde

La firme chinoise DeepSeek a publié vendredi un aperçu de son nouveau modèle phare, V4, suscitant immédiatement l'attention de l'industrie. Cette version se distingue par sa capacité à traiter des contextes bien plus longs que la génération précédente, grâce à une architecture repensée pour gérer de grands volumes de texte avec une meilleure efficacité. Malgré son statut open source, ses performances se mesurent à celles des modèles propriétaires d'Anthropic, d'OpenAI et de Google. Point stratégique notable : V4 est la première release de DeepSeek optimisée pour les puces Ascend de Huawei, signalant un test grandeur nature de la capacité de la Chine à réduire sa dépendance aux GPU Nvidia. Dans le même temps, Google a annoncé un investissement pouvant atteindre 40 milliards de dollars dans Anthropic, dans une opération valorisant la startup à 350 milliards de dollars, signe que la course au calcul et aux modèles de pointe s'accélère des deux côtés du Pacifique. Ces annonces s'inscrivent dans une semaine marquée par des enjeux géopolitiques et industriels majeurs. La Chine a bloqué le projet de rachat par Meta du studio d'IA Manus pour 2 milliards de dollars, invoquant des raisons de sécurité nationale et qualifiant l'opération de tentative "conspiratrice" de vider la base technologique chinoise. Washington réplique en maintenant ses contrôles à l'exportation sur les puces avancées, tandis que le président Trump a licencié l'ensemble du National Science Board, suscitant des craintes sur l'interférence politique dans la recherche fondamentale américaine. Sur le plan économique, la pression sur les capacités de calcul commence à peser sur des secteurs entiers : emplois, prix de l'électricité et marchés de composants sont tous affectés par l'explosion de la demande en infrastructure IA. En parallèle, un autre front s'ouvre dans la recherche fondamentale : celui des "world models", ces systèmes capables de modéliser le monde physique plutôt que le seul domaine textuel. Des figures comme la professeure de Stanford Fei-Fei Li et Yann LeCun, fondateur d'AMI Labs, défendent l'idée que ces modèles sont indispensables pour dépasser les limites connues des grands modèles de langage et permettre de véritables avancées en robotique. Composer un roman ou générer du code reste infiniment plus simple pour une machine que de plier du linge ou naviguer dans une rue bondée ; les world models ambitionnent de combler cet écart. Ce sujet figure en tête de la liste des dix technologies prioritaires établie par le MIT Technology Review, signe que l'industrie considère désormais cette direction comme l'un des prochains fronts décisifs de l'intelligence artificielle.

UEL'optimisation de DeepSeek V4 sur les puces Huawei Ascend offre aux entreprises européennes une alternative open source aux modèles propriétaires américains, tandis que l'escalade de la guerre technologique sino-américaine sur les puces et les contrôles à l'exportation contraint l'Europe à clarifier son positionnement stratégique dans la course mondiale à l'IA.

LLMsActu
1 source
GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA
213Le Big Data 

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

OpenAI et NVIDIA ont officialisé en avril 2026 un partenariat approfondi autour de GPT-5.5, le dernier grand modèle d'OpenAI déployé sur les infrastructures GB200 NVL72 de NVIDIA. Dès le lancement, plus de 10 000 employés de NVIDIA utilisent GPT-5.5 au quotidien, notamment via Codex, l'agent de développement logiciel d'OpenAI capable de transformer des instructions en langage naturel en actions concrètes sur des bases de code complexes. Les chiffres avancés sont frappants : un gain de débit multiplié par 50 et une réduction des coûts par jeton de l'ordre de 35 fois par rapport aux configurations précédentes. Chez NVIDIA, les cycles de débogage qui prenaient plusieurs jours se ramènent désormais à quelques heures, et des expérimentations autrefois longues de plusieurs semaines aboutissent maintenant en une seule nuit. Ces résultats illustrent un tournant dans l'adoption de l'IA générative en entreprise : la question n'est plus uniquement celle des capacités du modèle, mais de sa viabilité économique et opérationnelle à grande échelle. La réduction drastique des coûts d'inférence rend envisageable le déploiement d'agents IA sur l'ensemble des équipes techniques, et non plus seulement dans des projets pilotes isolés. L'impact dépasse le seul développement logiciel : les agents pilotés par GPT-5.5 interviennent désormais dans l'analyse, la résolution de problèmes et la génération d'idées, touchant le travail intellectuel dans sa globalité. Pour les directions techniques comme pour les décideurs métiers, c'est le signe que ces outils ont franchi le seuil de la maturité industrielle. Ce partenariat s'inscrit dans une relation qui remonte à 2016, lorsque NVIDIA avait livré à OpenAI l'un de ses premiers supercalculateurs DGX-1. Depuis dix ans, les deux entreprises co-construisent une partie essentielle de la chaîne de valeur de l'IA, OpenAI apportant les modèles et NVIDIA l'infrastructure d'inférence. Sur la question de la sécurité, longtemps présentée comme le principal frein à l'adoption en entreprise, le déploiement de Codex intègre des réponses architecturales concrètes : chaque agent opère dans un environnement isolé via des machines virtuelles sécurisées, les accès aux systèmes critiques sont limités en lecture seule, et une politique stricte de non-rétention des données est appliquée. Jensen Huang, PDG de NVIDIA, résume l'ambition commune en affirmant qu'on entre « pleinement dans l'ère de l'IA », une formulation qui traduit moins un effet d'annonce qu'un constat opérationnel : pour des milliers d'ingénieurs, l'IA agentique est déjà une réalité quotidienne.

UELa réduction des coûts d'inférence liée aux nouvelles générations de hardware IA pourrait faciliter l'adoption d'agents IA à grande échelle dans les entreprises européennes, sans impact réglementaire ou institutionnel direct.

LLMsActu
1 source
DeepSeek réduit ses prix d'API et établit un nouveau plancher pour les grands modèles
214Pandaily 

DeepSeek réduit ses prix d'API et établit un nouveau plancher pour les grands modèles

DeepSeek a annoncé le 26 avril une réduction massive des tarifs de son API, établissant de nouveaux planchers mondiaux pour les grands modèles de langage. Sur l'ensemble de la gamme V4, les prix des requêtes en cache d'entrée ont été divisés par dix par rapport aux tarifs initiaux. Le modèle phare V4-Pro bénéficie en outre d'une promotion temporaire de 75 % valable jusqu'au 5 mai 2026, portant le coût du cache d'entrée à seulement 0,025 yuan par million de tokens (environ 0,0035 dollar), un niveau sans précédent dans l'industrie. Pour V4-Flash, le tarif passe de 0,2 yuan à 0,02 yuan par million de tokens (0,0028 dollar). Sur V4-Pro, les entrées non mises en cache tombent de 12 à 3 yuans (0,41 dollar) et les sorties de 24 à 6 yuans (0,83 dollar). Ces baisses surviennent deux jours après la mise en open source de DeepSeek-V4, disponible en versions Pro et Flash, avec un support de contextes allant jusqu'à un million de tokens. Ces tarifs redéfinissent ce qui est économiquement viable pour les développeurs et les entreprises qui intègrent des modèles de langage dans leurs produits. À moins de 0,004 dollar par million de tokens en cache, des usages autrefois coûteux deviennent accessibles : agents autonomes, traitement massif de documents, pipelines de code avancés. L'argument économique est renforcé par des performances solides : en interne chez DeepSeek, V4 est jugé supérieur à Claude Sonnet 4.5 sur les tâches de programmation, avec une qualité approchant celle de Claude Opus 4.6 en mode non-raisonné. Dans les benchmarks généraux, V4-Pro surpasse tous les modèles open source et ne cède qu'aux meilleurs modèles propriétaires comme Gemini Pro 3.1 ; en mathématiques, STEM et coding compétitif, il égale ou dépasse les leaders du marché. Ces baisses de prix reposent sur des avancées architecturales concrètes. V4-Pro n'active que 49 milliards de paramètres sur 33 000 milliards de tokens d'entraînement, mais son coût de calcul par token est réduit à 27 % de celui de son prédécesseur V3.2, et l'utilisation du cache KV chute de 90 %. Le nouveau mécanisme d'attention creuse développé en interne (DSA) compresse les dimensions des tokens pour offrir de hautes performances sur les longs contextes avec des besoins en mémoire réduits. Stratégiquement, la série V4 est entièrement compatible avec les supernœuds Huawei Ascend, marquant un ancrage renforcé dans l'infrastructure de calcul domestique chinoise. Goldman Sachs a récemment souligné l'importance stratégique de DeepSeek-V4, et la mise en production massive des supernœuds Ascend prévue d'ici fin 2026 laisse entrevoir de nouvelles baisses tarifaires. Dans un secteur où OpenAI, Google et Anthropic s'affrontent déjà sur les prix, cette annonce amplifie la pression sur l'ensemble de l'écosystème mondial de l'IA.

UELa réduction massive des prix de l'API DeepSeek V4 offre aux développeurs et entreprises européens un accès à des modèles de pointe à des coûts jusqu'à dix fois inférieurs, rendant économiquement viables des usages IA auparavant réservés aux grandes structures.

💬 0,004 dollar par million de tokens, c'est le prix où les agents continus et le traitement massif de docs deviennent des trucs normaux, pas des projets de grande entreprise. Et que V4 passe devant Sonnet sur le code, ça commence à faire mal pour les modèles US sur le segment développeurs. Reste à voir si ça tient à l'échelle, mais le rapport de force change.

LLMsOpinion
1 source
90 % moins cher : DeepSeek V4 déclare la guerre totale à OpenAI
215Le Big Data 

90 % moins cher : DeepSeek V4 déclare la guerre totale à OpenAI

DeepSeek a lancé le 24 avril 2026 la version préliminaire de son modèle V4, disponible en deux déclinaisons, Pro et Flash, toutes deux open source. Deux jours à peine après ce lancement, l'entreprise chinoise a enchaîné les annonces tarifaires : le 25 avril, une promotion de 75 % sur l'API V4-Pro, valable jusqu'au 5 mai 2026 à 15h59 UTC, ramenant le prix des entrées en cache de 0,145 dollar à 0,036 dollar, et les sorties de 3,48 à 0,87 dollar. Puis le 26 avril, DeepSeek a généralisé la baisse en réduisant à un dixième du tarif initial le coût d'accès au cache d'entrée pour l'ensemble de sa gamme d'API, effective immédiatement. Ces chiffres prennent tout leur sens face aux tarifs des concurrents américains : Claude Opus 4.7 facture 5 dollars l'entrée et 25 dollars la sortie, GPT-5.5 affiche 5 dollars en entrée et 30 dollars en sortie, et jusqu'à 180 dollars pour la version Pro, tandis que Gemini 3.1 Pro démarre à 2 dollars en entrée et 12 dollars en sortie, avec un doublement des prix au-delà de 200 000 tokens. Pour les développeurs et entreprises qui consomment des volumes importants de tokens, l'écart devient structurellement décisif : utiliser DeepSeek V4-Pro peut coûter dix à cinquante fois moins cher que les alternatives propriétaires comparables en termes de performances. Cela repositionne la question du choix du modèle moins comme un arbitrage qualité-prix que comme un choix purement économique, et met une pression réelle sur les marges des fournisseurs occidentaux. La capacité de DeepSeek à pratiquer ces prix sans sacrifier les performances repose sur une architecture repensée en profondeur. L'entreprise a développé un système hybride baptisé CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), qui compresse les données à chaque étape du traitement au lieu de les manipuler en totalité. Sur un contexte d'un million de tokens, V4-Pro ne mobilise que 27 % des ressources de calcul de son prédécesseur V3.2 et seulement 10 % de sa mémoire cache. DeepSeek a également remplacé l'optimiseur d'entraînement AdamW par Muon, ce qui accélère la convergence du modèle et améliore sa stabilité. Cette combinaison d'innovations architecturales explique comment une entreprise opérant sous contraintes, notamment les restrictions américaines sur l'export de puces haut de gamme vers la Chine, parvient à proposer des modèles qui rivalisent selon ses propres benchmarks avec Gemini 3.1 Pro et GPT-5.4, tout en cassant les prix du marché de façon spectaculaire.

UELes développeurs et entreprises européens consommant des volumes importants de tokens peuvent réduire leurs coûts d'inférence d'un facteur 10 à 50, mais s'exposent à une dépendance stratégique envers un fournisseur chinois soumis à la juridiction de Pékin.

💬 50x moins cher sur le même niveau de perf, c'est pas une promo, c'est une bombe sur les business models occidentaux. Ce qui me frappe, c'est que DeepSeek y arrive sous embargo de puces, en réinventant l'archi au lieu de balancer du compute. Si tu gères des volumes, t'as plus vraiment le luxe d'ignorer ça.

LLMsOpinion
1 source
L'hypothèse de LoRA qui ne tient pas en production
216MarkTechPost 

L'hypothèse de LoRA qui ne tient pas en production

LoRA (Low-Rank Adaptation) est devenu la méthode de référence pour adapter les grands modèles de langage à moindre coût : plutôt que de modifier l'intégralité des paramètres d'un modèle, la technique n'entraîne que de petites matrices de rang réduit, ce qui diminue considérablement la mémoire et le temps de calcul nécessaires. Mais LoRA repose sur une hypothèse silencieuse : toutes les mises à jour d'un modèle se ressemblent structurellement. En réalité, ce n'est pas le cas. Quand on fine-tune un modèle pour modifier son style (ton, format, persona), les changements sont concentrés dans quelques dimensions seulement, et LoRA les gère parfaitement avec un rang faible comme rank-8. En revanche, quand on cherche à lui enseigner de nouvelles connaissances factuelles (données médicales, statistiques sportives, informations juridiques), l'information est distribuée sur de nombreuses dimensions simultanément, et un rang faible ne peut en capturer qu'une fraction : le modèle paraît sûr de lui mais produit des réponses incomplètes ou incorrectes. Augmenter le rang pour compenser déclenche un autre problème : la formule de mise à l'échelle standard de LoRA, qui divise par r, affaiblit le signal d'apprentissage à mesure que le rang grandit. RS-LoRA (Rank-Stabilized LoRA) corrige cela en remplaçant la division par r par une division par √r, un changement d'un seul caractère dans le code qui stabilise l'apprentissage même à des rangs élevés comme rank-32. Les conséquences pratiques sont significatives pour toutes les équipes qui déploient des LLMs dans des domaines à forte densité factuelle : médecine, droit, finance. Utiliser un LoRA standard pour injecter des connaissances spécialisées crée une illusion de performance, le modèle répond avec fluidité et apparente confiance, mais ses réponses peuvent être partiellement fausses. Le problème est d'autant plus dangereux qu'il reste invisible : sans tests rigoureux sur les faits précis que l'on cherchait à enseigner, le modèle passe tous les benchmarks généraux et échoue silencieusement sur les cas critiques en production. Cette limitation de LoRA n'est pas nouvelle dans la littérature académique, mais elle reste sous-estimée dans les pratiques industrielles. LoRA a été introduit en 2021 par des chercheurs de Microsoft comme alternative efficace au fine-tuning complet, et il s'est imposé comme méthode dominante grâce à sa facilité d'implémentation dans des bibliothèques comme Hugging Face PEFT. RS-LoRA représente l'une des améliorations formalisées de cette approche, aux côtés d'autres variantes comme DoRA ou AdaLoRA, qui cherchent toutes à mieux adapter la technique selon les régimes d'apprentissage. À mesure que les LLMs s'imposent dans des secteurs critiques, savoir quelle technique choisir selon le type de connaissance à injecter devient une compétence essentielle pour les équipes ML, bien au-delà du sujet de recherche théorique.

LLMsPaper
1 source
500 banquiers d'investissement ont évalué les résultats de l'IA : aucun n'est prêt pour les clients
217The Decoder 

500 banquiers d'investissement ont évalué les résultats de l'IA : aucun n'est prêt pour les clients

Un nouveau benchmark a soumis les modèles d'IA les plus puissants du marché, dont GPT-5.4 et Claude Opus 4.6, à des tâches quotidiennes d'analystes juniors en banque d'investissement. Le verdict de 500 professionnels du secteur est sans appel : aucun résultat produit par ces modèles n'a été jugé prêt à être transmis à un client. Les sorties étaient systématiquement trop imprécises, voire franchement incorrectes. Malgré tout, plus de la moitié des banquiers interrogés ont indiqué qu'ils exploiteraient ces productions comme base de travail. Ce constat illustre l'écart persistant entre les promesses marketing des grands modèles de langage et les exigences concrètes des métiers à hauts enjeux. En banque d'investissement, une erreur dans une note d'analyse ou un modèle financier peut engager la responsabilité juridique de l'établissement et nuire à des transactions portant sur des centaines de millions d'euros. L'IA peut donc accélérer certaines tâches de débroussaillage, mais elle ne remplace pas encore le jugement et la rigueur d'un analyste humain pour la livraison finale. Ce test s'inscrit dans une vague d'évaluations sectorielles cherchant à dépasser les benchmarks académiques génériques, souvent décorrélés des usages professionnels réels. La finance, comme le droit ou la médecine, soumet l'IA à des critères de précision et de fiabilité que les tableaux de classement habituels ne mesurent pas. Les éditeurs de modèles, OpenAI et Anthropic en tête, devront probablement affiner leurs offres pour les environnements réglementés si ils veulent s'imposer au-delà du rôle d'assistant de brouillon.

UELes grandes banques françaises et européennes, soumises aux exigences de conformité MiFID II et aux contrôles des régulateurs financiers, sont directement concernées par ces limitations qui conditionnent toute adoption de l'IA dans la production de documents transmissibles aux clients.

💬 Zéro résultat jugé prêt pour un client, mais plus de la moitié dit s'en servir quand même comme base de travail. C'est exactement ça, l'IA en finance : utile pour défricher, inutilisable pour livrer. Reste à voir si OpenAI et Anthropic vont vraiment affiner leurs modèles pour les environnements réglementés, ou si on va continuer à entendre parler de révolution pendant que les analystes corrigent les sorties à la main.

LLMsPaper
1 source
Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM
218MarkTechPost 

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper
1 source
xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime
219MarkTechPost 

xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime

xAI a lancé grok-voice-think-fast-1.0, son nouveau modèle de voix phare, disponible via l'API xAI. Ce modèle s'impose en tête du classement τ-voice Bench avec un score de 67,3 %, devançant largement ses concurrents directs : Gemini 3.1 Flash Live atteint 43,8 %, GPT Realtime 1.5 de OpenAI 35,3 %, et même la précédente version maison, Grok Voice Fast 1.0, ne dépasse pas 38,3 %. Les écarts sont encore plus marqués par secteur : en télécom, domaine couvrant les litiges de facturation et le support technique, grok-voice-think-fast-1.0 atteint 73,7 % contre 21,9 % pour Gemini et 21,1 % pour GPT Realtime 1.5, soit plus de 33 points d'avance. Dans le commerce de détail, il score 62,3 %, contre 44,7 % pour Gemini. Dans le secteur aérien, il atteint 66 %, contre 40 % pour Gemini. Le modèle est déjà déployé en production chez Starlink pour alimenter ses opérations téléphoniques en direct. Ces chiffres sont significatifs parce que le τ-voice Bench évalue les agents vocaux dans des conditions réalistes : bruit de fond, accents, interruptions et prises de parole naturelles, là où la plupart des benchmarks historiques utilisent de l'audio propre et non représentatif des usages réels. Ce qui distingue fondamentalement le modèle est sa nature full-duplex : il traite la parole entrante et génère ses réponses simultanément, comme le font les humains, sans attendre que l'interlocuteur ait fini sa phrase. Cette capacité rend la gestion des interruptions techniquement très complexe : le modèle doit décider en temps réel si une intervention à mi-phrase est une correction, une précision ou simplement un mot de remplissage. Autre avancée majeure : le raisonnement s'effectue en arrière-plan, ce qui permet au modèle de traiter des requêtes complexes sans allonger le temps de réponse perçu par l'utilisateur, un problème structurel des modèles de raisonnement classiques. La course aux agents vocaux de production s'est intensifiée depuis que Google a lancé Gemini Live et qu'OpenAI a déployé son API Realtime, deux systèmes qui avaient eux-mêmes marqué un saut par rapport aux architectures pipeline en cascade traditionnelles. xAI, fondé par Elon Musk en 2023, entre dans ce segment avec une approche explicitement orientée entreprise, ciblant le support client, la vente et les workflows en plusieurs étapes où les erreurs coûtent cher. Le déploiement chez Starlink constitue un test grandeur nature à grande échelle, ce qui renforce la crédibilité des benchmarks publiés. La disponibilité via API ouvre la voie à une intégration rapide dans des centres d'appel et des plateformes SaaS, un marché évalué à plusieurs dizaines de milliards de dollars et encore dominé par des solutions reposant sur des pipelines STT/LLM/TTS fragmentés.

UELes centres d'appel et plateformes SaaS européens peuvent intégrer ce modèle via API pour moderniser leurs pipelines vocaux fragmentés, mais aucune entreprise ou réglementation française ou européenne n'est directement impliquée.

LLMsActu
1 source
DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend
220Latent Space 

DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend

DeepSeek a publié les 23 et 24 avril 2026 deux nouveaux modèles d'intelligence artificielle, DeepSeek V4 Pro et DeepSeek V4 Flash, marquant la première mise à jour majeure de l'architecture depuis DeepSeek V3 en décembre 2024 et DeepSeek R1 en janvier 2025. Le modèle phare, V4 Pro, embarque 1 600 milliards de paramètres au total dont 49 milliards actifs simultanément via une architecture de type Mixture of Experts (MoE), tandis que V4 Flash reste plus compact avec 284 milliards de paramètres et 13 milliards actifs. Les deux modèles ont été entraînés sur 32 à 33 000 milliards de tokens en précision FP4 et atteignent une fenêtre contextuelle d'un million de tokens, contre 128 000 pour V3.2. DeepSeek a publié sous licence MIT à la fois les versions Base et Instruct, et livre un rapport technique de 58 pages salué par de nombreux chercheurs comme l'un des mieux documentés de l'année. Cette publication représente une avancée significative pour l'écosystème des modèles open-weights. V4 Pro se classe autour de la deuxième position parmi les modèles à poids ouverts, dans une fourchette comparable à Kimi K2.6 et GLM-5.1, et rivalise selon les benchmarks avec des modèles fermés de la gamme Claude Sonnet à Opus. La fenêtre d'un million de tokens, rendue possible par deux nouvelles techniques maison nommées Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), est l'élément le plus commenté : à cette longueur, le modèle ne consomme que 27 % des opérations flottantes et 10 % de la mémoire KV cache comparé à DeepSeek V3.2. Les performances en codage agentique et en traitement de documents longs sont particulièrement relevées. La licence MIT et la publication des poids de base ouvrent par ailleurs la voie à des variantes spécialisées et, potentiellement, à un futur DeepSeek R2 orienté raisonnement. La sortie intervient dans un contexte géopolitique tendu autour des semi-conducteurs. DeepSeek a conçu V4 pour fonctionner sur les puces Huawei Ascend via la pile CANN, réduisant explicitement sa dépendance aux GPU Nvidia soumis aux restrictions américaines à l'export. Une étape symbolique forte : les Ascend représentent encore environ un quart des volumes d'H100, mais leur compatibilité avec un modèle de cette envergure signale une trajectoire vers une autonomie technologique chinoise complète. Sur le plan technique, le rapport documente aussi l'intégration de Muon, l'optimiseur développé par Moonshot, ainsi que des hyper-connexions contraintes par variété (mHC), publiées en janvier 2025. La complexité architecturale du modèle suscite un débat dans la communauté : certains chercheurs estiment que peu de laboratoires ouverts disposent des moyens pour reproduire ou affiner une telle infrastructure, relativisant ainsi la portée réelle de la "démocratisation" annoncée.

UELa compatibilité avec les puces Huawei Ascend illustre la trajectoire vers l'autonomie technologique chinoise, renforçant indirectement les débats européens sur la souveraineté numérique et la dépendance aux semi-conducteurs américains.

💬 Le million de tokens à 10% du cache de V3.2, ça c'est de l'ingénierie sérieuse. Mais le signal fort, c'est la compatibilité Huawei Ascend : DeepSeek documente explicitement sa sortie des GPU Nvidia, et un modèle de cette taille qui tourne sur CANN, c'est pas symbolique, c'est structurel. La licence MIT fait briller les yeux, mais reproduire 1,6T de paramètres, c'est une autre conversation.

LLMsActu
1 source
Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte
221MIT Technology Review 

Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte

DeepSeek a publié vendredi une version préliminaire de V4, son nouveau modèle phare attendu depuis plusieurs mois. Disponible en open source, le modèle se décline en deux versions : V4-Pro, conçu pour le code et les tâches d'agents complexes, et V4-Flash, plus léger et optimisé pour la vitesse. Sur les principaux benchmarks, V4-Pro rivalise avec les meilleurs modèles fermés du marché, se situant au niveau de Claude Opus de chez Anthropic, de GPT-5 d'OpenAI et de Gemini de Google. Face aux autres modèles open source, notamment Qwen d'Alibaba ou GLM de Z.ai, V4 les surpasse en codage, mathématiques et disciplines scientifiques. L'entreprise rapporte qu'une enquête interne auprès de 85 développeurs expérimentés a montré que plus de 90 % d'entre eux classent V4-Pro parmi leurs premiers choix pour les tâches de programmation. DeepSeek a également optimisé le modèle pour des frameworks d'agents populaires comme Claude Code ou CodeBuddy. Ce qui distingue V4, c'est son rapport performance-prix particulièrement agressif. V4-Pro est facturé 1,74 dollar par million de tokens en entrée et 3,48 dollars en sortie, une fraction du tarif pratiqué par OpenAI ou Anthropic pour des modèles comparables. V4-Flash descend encore plus bas, à 0,14 dollar par million de tokens en entrée et 0,28 dollar en sortie, ce qui en fait l'un des modèles haut de gamme les moins chers du marché. Pour les développeurs et les entreprises, cela signifie un accès à des capacités d'IA frontier sans les coûts habituellement prohibitifs des API propriétaires. Les deux versions intègrent un mode de raisonnement pas à pas, et V4 introduit une nouvelle architecture qui améliore significativement la gestion de longs contextes, ouvrant la voie à des applications sur des documents ou des bases de code entières. Cette sortie intervient dans un contexte particulier pour DeepSeek. La firme de Hangzhou avait provoqué un séisme dans l'industrie en janvier 2025 avec R1, un modèle de raisonnement entraîné avec des ressources limitées qui avait mis en question la suprématie américaine en matière d'IA. Depuis, l'entreprise a traversé des mois difficiles, marqués par des départs de personnels clés, des retards dans ses lancements et une surveillance accrue des gouvernements américain et chinois. V4 constitue son retour sur la scène des modèles frontier, même si l'effet de surprise de R1 ne se reproduira probablement pas. L'enjeu est désormais de confirmer que DeepSeek peut tenir dans la durée face à des adversaires disposant de ressources computationnelles autrement plus importantes, et de s'imposer comme une alternative crédible et pérenne dans un écosystème open source en pleine effervescence.

UELes développeurs et entreprises européennes accèdent à des capacités frontier en open source à des tarifs très inférieurs aux API propriétaires, élargissant concrètement les options pour les startups et PME du continent.

LLMsOpinion
1 source
GPT-5.5 vs DeepSeek V4 : quelle IA va dominer la prochaine révolution tech ?
222Le Big Data 

GPT-5.5 vs DeepSeek V4 : quelle IA va dominer la prochaine révolution tech ?

Le 24 avril 2026, OpenAI a lancé GPT-5.5 tandis que DeepSeek publiait son modèle V4 le lendemain, créant une confrontation directe entre les deux architectures les plus attendues de l'année. GPT-5.5 positionne OpenAI dans une logique d'agent autonome : le modèle peut gérer des tâches multi-étapes, planifier ses actions, utiliser des outils externes et avancer sans supervision constante. Ses quatre domaines de prédilection sont le codage agentique, l'interaction avec les systèmes informatiques, les tâches de bureau et la recherche scientifique. Sur le benchmark du codage agentique, il atteint 82,7 % de précision. De son côté, DeepSeek V4 se décline en deux versions : la Pro, avec 49 milliards de paramètres actifs et 1,6 billion de paramètres au total, et la Flash, plus légère à 13 milliards de paramètres actifs sur 284 milliards au total. Le modèle est open-source, intègre une fenêtre de contexte d'un million de tokens, et s'interface nativement avec des environnements comme Claude Code d'Anthropic. La confrontation entre ces deux modèles dessine une séparation nette selon les usages. GPT-5.5 domine sur les tâches qui exigent enchaînement logique, planification et autonomie prolongée, notamment dans les workflows en ligne de commande multi-étapes. DeepSeek V4, avec un score autour de 67,9 % sur le même benchmark, marque un écart de près de 15 points mais compense par une efficience économique et énergétique nettement supérieure. Pour les développeurs et entreprises qui cherchent à déployer des agents à grande échelle sans coûts prohibitifs, DeepSeek V4 Flash représente une option sérieuse. Cette bifurcation change concrètement les décisions d'architecture pour les équipes d'ingénierie : choisir entre puissance brute et rapport performance/coût devient un arbitrage stratégique, pas seulement technique. Ce duel s'inscrit dans une course à l'autonomie qui redéfinit le marché des LLM depuis mi-2025, quand OpenAI a commencé à pivoter vers les agents avec GPT-5 puis GPT-5.4. DeepSeek, laboratoire chinois soutenu par High-Flyer Capital, a déjà démontré sa capacité à bousculer les références du secteur début 2025 avec DeepSeek R1, qui avait provoqué une chute temporaire des valeurs tech américaines. Avec V4, il franchit une nouvelle étape en s'ancrant dans les outils des développeurs occidentaux, brouillant la frontière géopolitique que certains tentaient de tracer entre IA américaine et IA chinoise. Les prochaines semaines de benchmark indépendant seront déterminantes : si DeepSeek V4 Pro confirme ses performances sur les tâches d'inférence complexe, OpenAI pourrait se retrouver contraint d'accélérer la sortie de GPT-6 pour maintenir sa position de référence incontestée.

UELes équipes d'ingénierie européennes font face à un arbitrage stratégique immédiat entre puissance brute et rapport performance/coût pour leurs déploiements d'agents IA autonomes à grande échelle.

💬 15 points d'écart sur le benchmark agentique, GPT-5.5 gagne cette manche sans discussion. Mais DeepSeek V4 qui s'intègre nativement à Claude Code en restant open-source, c'est le genre de posture maligne qu'on n'attendait pas aussi vite : ils viennent chercher les devs occidentaux sur leur propre terrain. La frontière géopolitique que certains voulaient tracer, elle fond à vue d'oeil.

LLMsOpinion
1 source
DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens
223MarkTechPost 

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-AI a publié en version préliminaire la série DeepSeek-V4, composée de deux modèles de langage à architecture Mixture-of-Experts (MoE) conçus pour rendre practicables les fenêtres contextuelles d'un million de tokens. Le premier modèle, DeepSeek-V4-Pro, totalise 1 600 milliards de paramètres dont 49 milliards activés par token, et a été pré-entraîné sur 33 000 milliards de tokens. Le second, DeepSeek-V4-Flash, compte 284 milliards de paramètres au total avec 13 milliards activés, entraîné sur 32 000 milliards de tokens. Les quatre variantes de la série -- Pro, Pro-Base, Flash et Flash-Base -- sont disponibles librement sur Hugging Face. Pour atteindre cette capacité d'un million de tokens, les ingénieurs ont combiné quatre innovations architecturales majeures : un mécanisme d'attention hybride inédit, un nouveau design de connexions résiduelles, un optimiseur alternatif et un entraînement avec quantification FP4. L'enjeu central est l'efficacité à l'inférence, un problème longtemps considéré comme rédhibitoire pour les très longs contextes. Dans un Transformer standard, la complexité de l'attention est quadratique par rapport à la longueur de la séquence : doubler le contexte quadruple la mémoire et le calcul requis. DeepSeek-V4 résout cela via deux mécanismes d'attention compressée, CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention), intercalés entre les couches du modèle. CSA compresse le cache clé-valeur de m tokens en une seule entrée, puis sélectionne de façon sparse les entrées les plus pertinentes pour chaque requête. HCA est encore plus agressif : il consolide un bloc encore plus large de tokens en une unique entrée dense. Résultat : DeepSeek-V4-Pro ne consomme que 27 % des opérations flottantes et 10 % de la taille de cache KV de son prédécesseur DeepSeek-V3.2 pour un contexte d'un million de tokens. DeepSeek-V4-Flash descend à 10 % des FLOPs et 7 % du cache. Ces chiffres s'inscrivent dans une course technologique où la longueur de contexte est devenue un axe de différenciation majeur entre les grands laboratoires. Google, Anthropic et OpenAI ont tous étendu leurs fenêtres contextuelles ces derniers mois, mais le coût d'inférence à grande échelle reste un frein commercial décisif. DeepSeek, laboratoire chinois financé par le hedge fund High-Flyer, s'est imposé depuis début 2025 comme un concurrent sérieux avec ses modèles open-weights performants et économes. L'introduction des connexions résiduelles contraintes par polytope de Birkhoff (mHC) et de l'optimiseur Muon -- qui orthogonalise les mises à jour de gradients avant application -- témoigne d'une recherche fondamentale poussée, au-delà de la simple course aux paramètres. La version préliminaire suggère que des annonces plus complètes, avec benchmarks détaillés, sont à prévoir prochainement.

UELes quatre variantes open-weights DeepSeek-V4 disponibles sur Hugging Face permettent aux développeurs et chercheurs européens d'exploiter des contextes d'un million de tokens à coût d'inférence fortement réduit, sans dépendance à une API propriétaire.

LLMsOpinion
1 source
DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5
224VentureBeat AI 

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

DeepSeek, la startup chinoise d'intelligence artificielle issue du fonds de trading quantitatif High-Flyer Capital Management, a publié DeepSeek-V4, un modèle de langage aux capacités proches des meilleurs systèmes mondiaux. Avec 1 600 milliards de paramètres organisés selon une architecture Mixture-of-Experts (MoE), ce modèle est disponible gratuitement sous licence MIT commercialement permissive, sur la plateforme Hugging Face et via l'API de DeepSeek. Son tarif d'accès : 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie, soit environ 5,22 dollars pour une utilisation combinée standard. Avec les entrées mises en cache, ce coût descend à 3,63 dollars. À titre de comparaison, GPT-5.5 d'OpenAI coûte 35 dollars pour la même transaction, et Claude Opus 4.7 d'Anthropic 30 dollars. Une version allégée, DeepSeek-V4-Flash, est proposée à seulement 0,42 dollar combiné, au prix d'une baisse de performance. Deli Chen, chercheur chez DeepSeek, a décrit cette sortie sur X comme "un travail d'amour", réalisé 484 jours après le lancement du V3, avec cette formule : "L'AGI appartient à tout le monde." L'impact économique est immédiat et brutal pour les acteurs américains du secteur. DeepSeek-V4-Pro coûte environ six fois moins cher que Claude Opus 4.7 et sept fois moins que GPT-5.5 en conditions normales, et jusqu'à dix fois moins avec les entrées en cache. La version Flash, elle, revient à moins de 1 % du tarif des modèles premium américains. Pour les entreprises traitant de gros volumes de requêtes, cette différence de coûts transforme radicalement le calcul de rentabilité : des tâches d'automatisation jugées trop onéreuses avec les modèles fermés américains deviennent soudainement viables. Développeurs et directions techniques sont contraints de réévaluer leurs choix d'infrastructure, et les fournisseurs positionnés sur le haut de gamme voient leur argument tarifaire sérieusement fragilisé. Ce lancement s'inscrit dans la continuité du "moment DeepSeek" de janvier 2025, quand le modèle R1 avait stupéfait la communauté internationale en rivalisant avec les meilleurs systèmes propriétaires américains à une fraction de leur coût de développement. Depuis, la startup avait publié plusieurs mises à jour de ses séries R1 et V3, mais la communauté attendait un successeur de grande envergure. Ce DeepSeek-V4 est d'ores et déjà qualifié de "deuxième moment DeepSeek", et il ravive les débats sur la pérennité commerciale des modèles fermés face aux alternatives open source chinoises. Il soulève également des questions sur la capacité de DeepSeek à maintenir cette trajectoire malgré les restrictions américaines sur l'exportation de puces haut de gamme, contraintes que l'entreprise semble contourner avec une efficacité croissante grâce à des optimisations architecturales poussées.

UEL'écart de prix, jusqu'à six fois inférieur aux modèles premium américains, permet aux entreprises européennes de rentabiliser des projets d'automatisation IA jusqu'ici jugés trop coûteux.

💬 Six fois moins cher qu'Opus 4.7, performances comparables, licence MIT. C'est exactement le scénario que les équipes produit chez OpenAI et Anthropic essayaient de ne pas avoir à gérer, et il arrive quand même. "L'AGI appartient à tout le monde", dit DeepSeek, bon, sur le papier c'est beau, mais le vrai truc c'est que des automatisations qu'on refusait de budgéter il y a six mois deviennent rentables dès ce soir.

LLMsOpinion
1 source
GPT-5.5 vs Claude Opus 4.7 : quelle est vraiment l’IA la plus puissante ?
225Le Big Data 

GPT-5.5 vs Claude Opus 4.7 : quelle est vraiment l’IA la plus puissante ?

OpenAI et Anthropic ont tous deux lancé leurs nouveaux modèles phares à quelques semaines d'intervalle : GPT-5.5 et Claude Opus 4.7. Sur l'Artificial Analysis Intelligence Index, qui agrège les performances sur un large éventail de tâches, GPT-5.5 s'impose avec un score de 60 contre 57 pour Claude Opus 4.7, le plaçant en tête du classement mondial toutes catégories confondues. Mais les benchmarks spécialisés racontent une histoire différente : sur le GPQA Diamond, un test composé de questions de niveau doctorat en sciences dures, Claude Opus 4.7 obtient 94,2 % contre 93,6 % pour GPT-5.5. Sur l'Humanity's Last Exam, conçu pour résister à la mémorisation et testant le raisonnement interdisciplinaire pointu, l'avantage d'Anthropic se creuse davantage : 46,9 % pour Opus 4.7 contre 41,4 % pour GPT-5.5 sans outils. Les deux modèles s'appuient sur des tokens de raisonnement invisibles qui améliorent leurs capacités mais les rendent plus lents et sensiblement plus chers à l'usage. L'écart entre les deux modèles révèle deux profils d'excellence distincts qui auront des conséquences concrètes sur les choix des développeurs et des entreprises. GPT-5.5 domine sur les capacités agentiques, utilisation d'un terminal, navigation web autonome, cybersécurité offensive, ce qui en fait l'outil de référence pour l'automatisation et les workflows qui nécessitent qu'une IA "fasse des choses" de façon autonome. Claude Opus 4.7 s'impose en revanche sur les tâches qui exigent un raisonnement profond, la résolution de problèmes complexes sans réponse évidente, et la stratégie à long terme. Pour les équipes qui construisent des agents autonomes, le choix penchera vers OpenAI ; pour celles qui ont besoin d'analyse, de synthèse ou de conseil de haut niveau, Anthropic prend l'avantage. Cette confrontation s'inscrit dans une phase d'accélération sans précédent de la course aux modèles de base. OpenAI et Anthropic se disputent la position de référence auprès des entreprises, des développeurs et des plateformes tierces, sachant que le modèle adopté en infrastructure devient difficile à déloger. L'émergence des tokens de raisonnement comme standard, une technique issue des travaux sur les "chain-of-thought" et popularisée par o1 d'OpenAI fin 2024, marque un tournant : les deux acteurs ont convergé vers la même architecture de base, rendant les différenciations de plus en plus fines et contextuelles. La prochaine étape sera probablement de voir qui parvient à maintenir ce niveau de performance tout en réduisant les coûts d'inférence, condition sine qua non pour une adoption à grande échelle.

UELes développeurs et entreprises en France et en UE devront arbitrer entre GPT-5.5 pour les workflows agentiques et Claude Opus 4.7 pour l'analyse approfondie lors de leurs décisions d'infrastructure IA.

💬 Ce que je retiens, c'est pas le score global, c'est la ligne de partage qui s'impose : GPT-5.5 pour orchestrer des agents autonomes, Opus 4.7 pour les tâches où tu as besoin que le modèle réfléchisse vraiment. C'est utile pour choisir son stack, mais le sous-texte de tout ça, c'est que les deux convergent sur les tokens de raisonnement, et ça coûte cher. Reste à voir qui réussit à tenir ce niveau de performance tout en faisant baisser l'addition.

LLMsOpinion
1 source
DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains
226The Verge AI 

DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains

DeepSeek, la startup chinoise d'intelligence artificielle, a dévoilé vendredi une préversion de son prochain modèle phare, baptisé V4. La société affirme que ce modèle open source rivalise avec les systèmes propriétaires des grands acteurs américains, notamment Anthropic, Google et OpenAI. DeepSeek met en avant des progrès significatifs par rapport aux versions précédentes, en particulier dans les capacités de génération de code, un domaine devenu central pour les agents IA et qui a propulsé le succès d'outils comme ChatGPT Codex ou Claude Code. La sortie s'accompagne d'une annonce notable pour l'industrie chinoise des semi-conducteurs : DeepSeek souligne explicitement la compatibilité de V4 avec les puces Huawei fabriquées en Chine. Ce lancement est stratégiquement important à plusieurs titres. Sur le plan technologique, une IA open source capable de tenir tête aux meilleurs modèles fermés du monde redistribue les cartes en matière d'accès et d'adoption. Pour les entreprises et développeurs, cela signifie potentiellement des alternatives performantes sans dépendance aux API américaines. Côté hardware, valider des puces Huawei comme substrat de développement IA de pointe est un signal fort dans un contexte de restrictions américaines à l'exportation de semi-conducteurs vers la Chine. Cette annonce intervient environ un an après que DeepSeek avait secoué la Silicon Valley avec la sortie de ses modèles R1 et V3, provoquant une chute en bourse de plusieurs acteurs du secteur et relançant le débat sur l'efficacité des restrictions technologiques imposées à Pékin. La course entre les États-Unis et la Chine pour la suprématie en IA s'accélère, et DeepSeek s'impose comme l'un des rares laboratoires non américains capable de fixer le rythme du secteur.

UELa disponibilité d'un modèle open source compétitif offre aux entreprises et développeurs européens une alternative crédible aux API américaines, renforçant les ambitions de souveraineté numérique de l'UE.

💬 Ce n'est pas le modèle en lui-même qui m'intéresse, c'est la puce Huawei en dessous. DeepSeek vient de montrer qu'on peut entraîner un concurrent sérieux aux meilleurs modèles du monde sans NVIDIA, ce qui rend les restrictions américaines à l'export beaucoup moins rassurantes pour Washington. Reste à voir si ça tient sur des benchmarks indépendants, mais en un an ils ont forcé la Silicon Valley à revoir ses calculs deux fois.

LLMsOpinion
1 source
7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis
227Numerama 

7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis

DeepSeek vient de publier DeepSeek-V4-Preview, une famille de deux modèles open weight conçus pour rivaliser avec les meilleurs systèmes d'IA propriétaires américains. Le laboratoire chinois annonce un coût d'utilisation sept fois inférieur à celui de Claude Opus 4.7 d'Anthropic, ce qui en fait l'un des modèles les plus compétitifs du marché en termes de rapport performance-prix. Les poids sont accessibles librement, permettant à n'importe quelle entreprise ou développeur de les déployer sans dépendre des API américaines. L'impact est immédiat pour les équipes techniques et les entreprises qui cherchent à réduire leurs coûts d'inférence. Un modèle open weight de ce niveau de performance signifie qu'on peut l'héberger soi-même, adapter les poids, et s'affranchir des conditions d'utilisation imposées par OpenAI, Anthropic ou Google. Pour les marchés émergents et les entreprises européennes soucieuses de souveraineté numérique, c'est une alternative concrète aux géants américains. Ce lancement s'inscrit dans la continuité directe du coup de tonnerre de janvier 2025, lorsque DeepSeek-R1 avait provoqué un effondrement boursier des valeurs tech américaines en démontrant qu'on pouvait former des modèles de pointe à moindre coût. La Maison-Blanche surveille désormais de près les pratiques des laboratoires chinois, notamment sur les questions d'accès aux puces et de transfert technologique. Avec V4, DeepSeek confirme une stratégie délibérée : rendre l'open source suffisamment attractif pour décrocher les utilisateurs mondiaux des écosystèmes américains.

UELes entreprises européennes soucieuses de souveraineté numérique disposent d'une alternative open weight auto-hébergeable aux API américaines, réduisant leur dépendance aux conditions d'utilisation imposées par OpenAI, Anthropic ou Google.

💬 Sept fois moins cher que Claude Opus 4.7, open weight, que tu peux héberger toi-même sans dépendre d'une API américaine : on est loin du coup de com'. DeepSeek ne construit pas juste un modèle compétitif, ils construisent une porte de sortie pour toutes les boîtes qui en ont marre des conditions d'utilisation qui changent et des prix qui grimpent. Reste à tester si ça tient en prod.

LLMsOpinion
1 source
L'IA à base d'agents pousse les prix à la hausse, Deepseek sort un modèle compétitif pour presque rien
228The Decoder 

L'IA à base d'agents pousse les prix à la hausse, Deepseek sort un modèle compétitif pour presque rien

Le laboratoire chinois Deepseek a lancé deux nouveaux modèles, V4-Pro et V4-Flash, dotés d'une architecture pouvant atteindre 1 600 milliards de paramètres et d'une fenêtre de contexte d'un million de tokens. La sortie s'accompagne d'un article technique détaillant les choix d'entraînement, les techniques de distillation et le matériel utilisé. Les tarifs annoncés se situent très nettement en dessous de ceux pratiqués par OpenAI, Google et Anthropic, confirmant la stratégie agressive de Deepseek sur le marché des API. Cette annonce intervient dans un contexte où les grands acteurs occidentaux font l'inverse : face à l'explosion des usages agentiques, OpenAI et Anthropic ont récemment revu leurs prix à la hausse et imposé des plafonds de consommation sur certains modèles. Deepseek propose une alternative performante à une fraction du coût, ce qui représente une pression directe sur les marges et les modèles économiques des leaders du secteur. Pour les développeurs et les entreprises qui cherchent à déployer des agents autonomes à grande échelle, l'équation coût-performance devient difficile à ignorer. Deepseek s'est imposé depuis début 2025 comme l'un des acteurs les plus disruptifs du marché mondial des LLM, en montrant qu'il est possible d'obtenir des résultats compétitifs avec des budgets d'entraînement bien inférieurs à ceux de ses concurrents américains. La publication du papier technique accompagnant V4-Pro et V4-Flash s'inscrit dans cette logique de transparence qui renforce la crédibilité du laboratoire et alimente le débat sur l'avantage réel des géants du cloud face à une concurrence ouverte et low-cost.

UELes développeurs et entreprises européens déployant des agents autonomes peuvent réduire significativement leurs coûts d'API en adoptant DeepSeek V4-Pro/V4-Flash, remettant en question l'équation coût-performance avec leurs fournisseurs actuels.

LLMsOpinion
1 source
Oubliez GPT-5.5 : DeepSeek-V4 est là et il est terrifiant
229Le Big Data 

Oubliez GPT-5.5 : DeepSeek-V4 est là et il est terrifiant

DeepSeek, la startup chinoise fondée en 2023, a lancé ce 24 avril 2026 une version préliminaire de son nouveau grand modèle de langage, baptisé DeepSeek-V4. Comme ses prédécesseurs, ce modèle est open source et librement téléchargeable. Il se décline en deux variantes : V4-Pro, avec 1,6 billion de paramètres totaux et 49 milliards de paramètres actifs, et V4-Flash, plus léger avec 284 milliards de paramètres totaux et 13 milliards actifs. Selon DeepSeek, la version Pro rivalise avec les meilleurs modèles propriétaires mondiaux en mathématiques et en programmation, et n'est dépassée que par Gemini 3.1-Pro de Google sur les connaissances générales. Les deux versions supportent une fenêtre de contexte d'un million de tokens et ont été optimisées pour fonctionner avec des outils comme Claude Code d'Anthropic. La version Flash, moins puissante, se distingue par sa rapidité et son coût d'API réduit. Ce lancement confirme la capacité de DeepSeek à maintenir une cadence de développement rapide face aux géants américains, tout en restant dans la sphère open source. Pour les développeurs et les entreprises, l'accès à un modèle de cette envergure, modifiable et exécutable localement, représente une alternative crédible aux solutions fermées d'OpenAI ou Google, généralement plus coûteuses. La compétitivité annoncée sur les tâches d'agents intelligents et d'inférence est particulièrement stratégique : ce sont précisément les cas d'usage qui alimentent les déploiements en production dans les entreprises technologiques. Si les benchmarks se confirment dans des conditions réelles, V4 pourrait accélérer l'adoption de modèles open source dans des environnements où la confidentialité des données ou la maîtrise des coûts sont prioritaires. DeepSeek avait fait irruption sur la scène internationale en janvier 2025 avec son modèle de raisonnement R1, développé en moins de deux mois pour un coût revendiqué inférieur à six millions de dollars, un chiffre qui avait ébranlé les certitudes de la Silicon Valley sur la nécessité d'investissements massifs. Ce coup d'éclat avait déclenché des interrogations profondes sur la domination américaine dans l'IA, mais aussi des doutes de la part d'analystes sceptiques quant aux ressources réellement mobilisées. Parallèlement, plusieurs pays avaient ouvert des enquêtes sur le traitement des données personnelles par les services de DeepSeek. Avec V4, la startup s'inscrit dans une continuité stratégique claire : publier rapidement, rester open source, et afficher des performances comparables aux modèles fermés les plus avancés. La prochaine étape sera de voir si ces performances tiennent à l'épreuve d'évaluations indépendantes, notamment face à GPT-5.5 qu'OpenAI vient de déployer.

UELa nature open source de DeepSeek-V4 offre aux entreprises et institutions européennes une alternative déployable localement, réduisant la dépendance aux modèles fermés américains et facilitant la conformité RGPD grâce au traitement des données en interne.

LLMsOpinion
1 source
GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois
230Next INpact 

GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois

OpenAI a lancé cette nuit GPT-5.5, nouvelle version de son grand modèle de langage, moins de deux mois après GPT-5.4 sorti le 5 mars. Le modèle cible explicitement les tâches complexes et mal structurées : OpenAI promet qu'on peut lui confier une requête à plusieurs volets, sans organisation précise, et lui faire confiance pour planifier, utiliser des outils, vérifier son propre travail et aller jusqu'au bout. Les progrès les plus marqués concernent le code agentique, l'utilisation de l'ordinateur et les premières étapes de la recherche scientifique. Sur Terminal-Bench, benchmark mesurant la capacité à enchaîner des actions et corriger des erreurs, GPT-5.5 creuse nettement l'écart avec son prédécesseur et ses concurrents. Les gains restent plus modérés sur GDPval et OSWorld. Côté prix, GPT-5.5 double les tarifs de GPT-5.4 en atteignant environ 5 dollars en entrée et 30 dollars en sortie par million de tokens, mais OpenAI avance que le modèle compense en utilisant moins de tokens pour des tâches équivalentes. Il est déjà disponible pour les abonnés payants Plus, Pro, Business et Enterprise, ainsi que dans Codex, avec l'accès API annoncé prochainement. Cette cadence de sortie illustre la pression concurrentielle extrême dans laquelle évolue OpenAI. Chaque mise à jour vise à maintenir un écart de performance sur Anthropic, Google et les modèles open source, dans un segment où les entreprises comparent désormais les coûts à la tâche accomplie plutôt qu'au token brut. L'argument d'efficacité de GPT-5.5, s'il se confirme en production, peut justifier la hausse tarifaire pour les usages professionnels intensifs, notamment le développement logiciel assisté et l'automatisation de workflows complexes. En parallèle, OpenAI a présenté Privacy Filter, un modèle inédit conçu pour détecter et supprimer des données personnelles dans du texte. Sa particularité : il peut tourner entièrement en local, sans envoyer les données vers un serveur, ce qui le rend utilisable sur des documents sensibles. Avec seulement 1,5 milliard de paramètres dont 50 millions actifs, il reste léger tout en traitant des contextes jusqu'à 128 000 tokens. Il couvre huit catégories : personnes privées, adresses, emails, téléphones, URL, dates privées, numéros de compte et secrets comme les mots de passe ou clés API. OpenAI est transparent sur ses limites : Privacy Filter n'est pas un outil d'anonymisation complet et exige une validation humaine dans les cas sensibles. Cette annonce s'inscrit dans un contexte réglementaire croissant autour de la protection des données, notamment en Europe, où le RGPD impose des contraintes strictes sur le traitement des informations personnelles par des systèmes d'IA.

UELe Privacy Filter, conçu pour fonctionner en local sans transfert de données, constitue une réponse directe aux exigences du RGPD et intéresse particulièrement les entreprises européennes traitant des données personnelles sensibles.

LLMsOpinion
1 source
GPT-5.5 pulvérise les benchmarks : une vraie boucherie pour la concurrence !
231Le Big Data 

GPT-5.5 pulvérise les benchmarks : une vraie boucherie pour la concurrence !

OpenAI a lancé GPT-5.5 le 23 mars 2026, soit à peine six semaines après GPT-5.4, confirmant un rythme de déploiement qui tient en haleine toute l'industrie. Le nouveau modèle se distingue sur plusieurs fronts : écriture et correction de code, recherche en ligne, analyse de données, création de documents et de feuilles de calcul, mais aussi interaction directe avec les logiciels et enchaînement d'outils pour mener une tâche à son terme. En développement front-end, il repère et corrige bugs visuels et incohérences d'interface avec une fluidité remarquée. Sur les benchmarks, les chiffres sont nets : GPT-5.5 atteint 82,7 % sur Terminal-Bench 2.0, qui mesure la capacité à exécuter des tâches réelles dans un terminal comme le ferait un développeur, dépassant notamment Claude Opus 4.7 d'Anthropic. Il affiche 58,6 % sur SWE-Bench Pro, dédié à l'ingénierie logicielle, et enregistre un gain de 3,7 points sur HealthBench Professional par rapport à son prédécesseur. En matière de vitesse, les tâches complexes de programmation s'exécutent jusqu'à 40 % plus rapidement qu'avec GPT-5.4. Au total, le modèle domine 14 benchmarks commerciaux, avec des scores particulièrement élevés en économie via GDPval à 84,9 % et en cybersécurité via CyberGym à 81,8 %. Ces résultats positionnent GPT-5.5 comme le modèle de référence actuel pour les usages professionnels intensifs, notamment en développement logiciel et en automatisation de tâches complexes. Un gain de vitesse de 40 % sur la programmation n'est pas anodin : pour les équipes qui utilisent ces modèles en production, cela se traduit directement en économies de temps et en réduction des coûts d'inférence. La domination sur Terminal-Bench 2.0 est particulièrement significative, ce test étant conçu pour simuler des conditions proches du travail réel d'un ingénieur, là où d'autres benchmarks restent plus académiques. Le léger retard sur SWE-Bench Pro face à certains concurrents sur le raisonnement pur nuance néanmoins le tableau et rappelle qu'aucun modèle ne rafle encore tous les usages. Cette sortie s'inscrit dans une période de compétition intense entre OpenAI, Anthropic et Google, où les cycles de mise à jour se sont drastiquement raccourcis. Six semaines entre deux versions majeures illustre une course à l'armement qui ne laisse plus de répit aux équipes concurrentes. OpenAI consolide ainsi sa position dominante en ciblant précisément les cas d'usage professionnels et les pipelines d'automatisation, là où la vitesse et la fiabilité d'exécution comptent autant que le raisonnement pur. La concurrence dispose toutefois de modèles plus spécialisés qui conservent l'avantage sur certains segments, et les prochaines réponses d'Anthropic et Google sont attendues dans les semaines à venir.

UELes équipes tech européennes utilisant ces modèles pour le développement logiciel et l'automatisation bénéficieront d'un gain de vitesse de 40 % sur les tâches complexes de programmation.

LLMsOpinion
1 source
GPT-5.5 et la super-application OpenAI Codex
232Latent Space 

GPT-5.5 et la super-application OpenAI Codex

OpenAI a lancé GPT-5.5 le 22 avril 2026, une semaine après la sortie de Claude Opus 4.7 par Anthropic. Le modèle est présenté comme "une nouvelle classe d'intelligence pour le travail réel" et déployé progressivement sur ChatGPT et Codex, l'accès API étant temporairement limité en attendant des vérifications de sécurité supplémentaires. Les benchmarks publiés sont impressionnants : 82,7% sur Terminal-Bench 2.0, 58,6% sur SWE-Bench Pro, 84,9% sur GDPval, 78,7% sur OSWorld-Verified et 84,4% sur BrowseComp. Le tarif API est fixé à 5$/30$ par million de tokens en entrée/sortie pour la version standard, et 30$/180$ pour la version Pro. Selon Artificial Analysis, GPT-5.5 en configuration medium atteint le même niveau que Claude Opus 4.7 au maximum sur leur Intelligence Index, mais à un quart du coût : environ 1 200 dollars contre 4 800. La fenêtre de contexte atteint 1 million de tokens en API, et Sam Altman souligne que le modèle consomme moins de tokens par tâche que son prédécesseur GPT-5.4. Ce lancement ne se résume pas à une simple mise à jour de modèle. GPT-5.5 marque un pivot stratégique d'OpenAI vers l'inférence agentique longue durée et l'efficacité économique, deux dimensions qui comptent davantage pour les entreprises que les scores bruts sur benchmarks académiques. La capacité à exécuter des tâches complexes avec moins d'interventions humaines change concrètement la proposition de valeur pour les développeurs et les équipes techniques. En parallèle, OpenAI a profondément étendu Codex : contrôle du navigateur, intégration avec Google Sheets, Slides, Docs et PDFs, dictée à l'échelle du système d'exploitation, et un mode de revue automatique reposant sur un agent secondaire dit "gardien" qui réduit le nombre de validations nécessaires sur les tâches longues. Codex n'est plus un outil de coding assisté : il devient un agent capable de naviguer dans des interfaces web, capturer des captures d'écran, itérer jusqu'à complétion, et traiter des flux de travail qui couvrent l'assurance qualité, la bureautique et la construction d'applications. Ce lancement s'inscrit dans une course frontale entre OpenAI, Anthropic et Google, dont Gemini 3.1 Pro Preview atteint un niveau comparable à GPT-5.5 à environ 900 dollars selon Artificial Analysis. OpenAI a co-conçu le modèle avec les systèmes NVIDIA GB200/300, et affirme que GPT-5.5 a contribué à améliorer sa propre infrastructure d'inférence, une affirmation qui illustre la direction que prend la compagnie. Sam Altman positionne désormais explicitement OpenAI comme une "entreprise d'inférence IA", signalant que la compétition ne se joue plus seulement sur la qualité des modèles mais sur leur coût d'exploitation à l'échelle. La décision d'absorber Prism et de faire de Codex la base d'une stratégie de superapp unifiée suggère qu'OpenAI cherche à verrouiller les workflows professionnels dans son écosystème, bien au-delà du simple chat.

UELes développeurs et entreprises européens bénéficient d'un modèle agentique de niveau SOTA à coût sensiblement réduit, ce qui modifie concrètement les arbitrages de déploiement IA à grande échelle sur le marché européen.

💬 Le ratio coût/perf, c'est là que ça se joue. GPT-5.5 medium au niveau d'Opus 4.7 max pour un quart du prix, les équipes qui hésitaient vont trancher vite. Et ce pivot vers une superapp avec Codex en moteur, c'est plus ambitieux qu'il n'y paraît : si l'agent gardien tient vraiment sur des tâches longues, OpenAI verrouille les workflows pro bien plus efficacement qu'avec n'importe quel score sur un benchmark.

LLMsOpinion
1 source
OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval
233MarkTechPost 

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval

OpenAI a lancé GPT-5.5, son modèle le plus puissant à ce jour et le premier modèle de base entièrement réentraîné depuis GPT-4.5. Le déploiement a commencé ce jeudi pour les abonnés Plus, Pro, Business et Enterprise, aussi bien sur ChatGPT que sur Codex. Contrairement à ses prédécesseurs, GPT-5.5 est conçu dès le départ pour l'usage agentique : il ne répond pas à une simple invite, il enchaîne des actions autonomes, utilise des outils (navigation web, écriture et exécution de code, manipulation de fichiers), vérifie son propre travail et poursuit jusqu'à la fin d'une tâche sans intervention humaine à chaque étape. Les gains se concentrent sur quatre domaines : le développement logiciel, l'utilisation autonome d'un ordinateur, le travail de connaissance généraliste, et la recherche scientifique précoce. Sur SWE-Bench Pro, qui évalue la résolution de vraies issues GitHub dans quatre langages de programmation, GPT-5.5 résout 58,6 % des tâches en un seul passage. Sur Terminal-Bench 2.0, qui teste des flux de travail complexes en ligne de commande, il atteint 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro. Sur GDPval, un benchmark couvrant 44 métiers du travail de connaissance, il score 84,9 %. Sur OSWorld-Verified, qui mesure la capacité à opérer un vrai environnement informatique de manière autonome, il atteint 78,7 %. Une version Pro du modèle, dédiée aux tâches les plus exigeantes, score 90,1 % sur BrowseComp, devant Gemini 3.1 Pro à 85,9 %. Ces résultats signalent un changement qualitatif dans ce que les outils d'IA peuvent accomplir sans supervision humaine. Jusqu'ici, les modèles agentiques buttaient sur les points de transition entre les étapes d'une tâche, obligeant l'utilisateur à recadrer ou corriger. GPT-5.5 réduit ces interruptions de manière significative. Pour les ingénieurs logiciels, cela se traduit concrètement par un outil capable de comprendre l'architecture globale d'un projet, de diagnostiquer la cause profonde d'un bug et d'évaluer l'impact d'un correctif sur le reste du code, sans qu'on lui dicte chaque geste. OpenAI indique également que le modèle tient la parité de latence avec GPT-5.4 tout en utilisant moins de tokens pour accomplir les mêmes tâches, ce qui atténue la crainte habituelle que puissance rime avec lenteur et coût. GPT-5.5 s'inscrit dans une course à l'agentique où les trois grands labs américains, OpenAI, Anthropic et Google DeepMind, cherchent à transformer leurs modèles en collaborateurs capables de conduire des projets de plusieurs heures, voire plusieurs jours. Claude Opus 4.7 d'Anthropic devance GPT-5.5 sur SWE-Bench Pro avec 64,3 %, mais OpenAI conteste la comparaison en signalant des signes de mémorisation dans les évaluations d'Anthropic. Le benchmark interne Expert-SWE, qui mesure des tâches dont le temps médian de réalisation humaine est estimé à 20 heures, refactoring massif, construction de fonctionnalité, débogage en profondeur de codebase, positionne GPT-5.5 au-dessus de GPT-5.4. Le modèle est également classé premier sur l'Artificial Analysis Intelligence Index. L'enjeu n'est plus de savoir quel modèle répond le mieux à une question, mais lequel peut conduire un projet de bout en bout.

UELes équipes tech et entreprises européennes peuvent intégrer dès maintenant un modèle agentique capable de conduire des projets complexes sans supervision continue, avec un impact potentiel sur les pratiques de développement logiciel et les métiers du travail de connaissance dans l'UE.

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude
234VentureBeat AI 

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude

Pendant plusieurs semaines, des développeurs et utilisateurs avancés d'Anthropic ont signalé une dégradation notable des performances de Claude, le modèle phare de la startup. Le 24 avril 2026, Anthropic a publié un post-mortem technique détaillé reconnaissant que trois modifications distinctes apportées à l'environnement d'exécution du modèle, et non aux poids du modèle lui-même, étaient responsables des problèmes signalés. Premier changement : le 4 mars, le niveau d'effort de raisonnement par défaut dans Claude Code a été abaissé de "élevé" à "moyen" pour réduire la latence d'interface. Deuxième changement : le 26 mars, un bug dans une optimisation de cache supprimait l'historique de raisonnement du modèle à chaque tour de conversation après une heure d'inactivité, plutôt qu'une seule fois, privant le modèle de sa mémoire à court terme. Troisième changement : le 16 avril, des instructions limitant les réponses à 25 mots entre les appels d'outils et 100 mots pour les réponses finales ont provoqué une baisse de 3 % sur les évaluations de qualité de code. Anthropic affirme avoir résolu les trois problèmes dans la version v2.1.116. Ces dysfonctionnements ont eu des conséquences concrètes et mesurables. Stella Laurenzo, directrice senior dans le groupe IA d'AMD, a publié sur GitHub une analyse de 6 852 fichiers de session Claude Code et plus de 234 000 appels d'outils, montrant une chute significative de la profondeur de raisonnement et une tendance du modèle à privilégier "la correction la plus simple" plutôt que la bonne. Le cabinet BridgeMind a quant à lui documenté une chute du taux de précision de Claude Opus 4.6 de 83,3 % à 68,3 %, faisant chuter son classement de la 2e à la 10e place dans leurs tests. Les effets ne se sont pas limités à l'interface CLI Claude Code : le Claude Agent SDK et Claude Cowork ont également été touchés, bien que l'API Claude directe soit restée indemne. La confiance des développeurs, particulièrement des équipes d'ingénierie qui s'appuyaient sur Claude pour des tâches complexes, a subi un coup sérieux. La controverse avait commencé à prendre de l'ampleur début avril 2026, alimentée par des analyses techniques détaillées circulant sur GitHub, X et Reddit sous le terme "AI shrinkflation". Anthropic avait d'abord repoussé les accusations de dégradation volontaire du modèle, notamment les soupçons de bridage délibéré pour gérer une demande en forte hausse. Le post-mortem publié marque un changement de posture : l'entreprise reconnaît explicitement que ces modifications ont donné l'impression que le modèle était "moins intelligent". Pour l'avenir, Anthropic annonce la mise en place de garde-fous supplémentaires pour détecter ce type de régressions avant déploiement, et s'engage à communiquer plus rapidement en cas de problèmes similaires. L'épisode soulève une question structurelle pour l'industrie : à mesure que les modèles d'IA s'intègrent dans des workflows critiques, la frontière entre modèle et infrastructure d'exécution devient un vecteur de dégradation silencieuse difficile à diagnostiquer de l'extérieur.

UELes développeurs européens utilisant Claude Code ou le Claude Agent SDK ont subi la même dégradation de performances documentée, affectant leurs workflows critiques jusqu'au correctif publié dans la version v2.1.116.

LLMsOpinion
1 source
GPT-5.5, un signal pour l'avenir
235One Useful Thing 

GPT-5.5, un signal pour l'avenir

OpenAI a déployé GPT-5.5, une nouvelle famille de modèles dont la version la plus puissante, GPT-5.5 Pro, n'est accessible que via le site chatgpt.com. Le chercheur Ethan Mollick, qui a eu un accès anticipé au modèle, a soumis une épreuve de programmation à plusieurs IA concurrentes : construire une simulation 3D à génération procédurale montrant l'évolution d'une ville portuaire de 3000 avant J.-C. jusqu'à 3000 après J.-C., avec contrôle utilisateur et rendu visuel soigné. Les modèles testés allaient de o3 d'OpenAI, lancé il y a un an, jusqu'au meilleur modèle open weights actuel, Kimi K2.6. GPT-5.5 Pro est le seul à avoir modélisé une véritable évolution urbaine au lieu de simplement remplacer des bâtiments au fil du temps. Le gain de vitesse est aussi notable : là où GPT-5.4 Pro avait mis 33 minutes pour accomplir la tâche, GPT-5.5 Pro n'en a requis que 20. Au-delà des performances brutes, cette version marque un cap dans la capacité des IA à produire des résultats complexes et cohérents sur des tâches ambitieuses de développement. Pour les développeurs et les professionnels qui utilisent l'IA comme outil de travail, la différence n'est plus seulement quantitative mais qualitative : GPT-5.5 Pro ne se contente pas de générer du code fonctionnel, il comprend l'intention derrière la demande et produit un système structuré et évolutif. OpenAI progresse également sur son application desktop Codex, qui s'aligne désormais sur la popularité de Claude Code. Enfin, le nouveau modèle d'image maison, parfois désigné GPT-imagegen-2, franchit une limite longtemps problématique : il génère du texte lisible et de haute qualité intégré aux images, ce qui ouvre des usages nouveaux en visualisation, communication et création de contenu. Cette sortie s'inscrit dans une course à l'amélioration continue qui, contrairement aux prédictions de plateau, ne montre aucun signe de ralentissement. Mollick utilise une grille d'analyse en trois dimensions, modèles, applications, outils, pour illustrer que la compétition entre OpenAI, Anthropic et Google ne se joue plus uniquement sur les benchmarks des modèles eux-mêmes, mais aussi sur l'écosystème qui les entoure. Les applications desktop comme Claude Code ou Codex deviennent le vrai terrain de bataille pour les usages professionnels. La frontière des capacités reste cependant "en dents de scie" selon l'expression de Mollick : certaines tâches longtemps difficiles sont aujourd'hui triviales, tandis que d'autres restent inégalement maîtrisées selon les modèles et les contextes.

UELes développeurs et professionnels européens ont accès direct à cette nouvelle génération de modèles, avec des gains qualitatifs significatifs pour les tâches complexes de développement logiciel.

LLMsOpinion
1 source
Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne
236NVIDIA AI Blog 

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne

OpenAI a déployé GPT-5.5, son dernier modèle frontier, au coeur de Codex, son application de codage agentique. Ce modèle tourne sur les systèmes rack-scale NVIDIA GB200 NVL72, capables de délivrer un coût 35 fois inférieur par million de tokens et un débit 50 fois supérieur par seconde et par mégawatt par rapport à la génération précédente. Plus de 10 000 employés de NVIDIA, répartis dans tous les départements, ingénierie, juridique, marketing, finance, RH, ventes et opérations, utilisent déjà Codex propulsé par GPT-5.5 depuis quelques semaines. Les résultats sont concrets et mesurables : des cycles de débogage qui prenaient des jours se bouclent désormais en quelques heures, et des expérimentations qui nécessitaient des semaines aboutissent en une nuit sur des bases de code complexes et multi-fichiers. Des équipes livrent des fonctionnalités complètes à partir de simples instructions en langage naturel. L'impact dépasse le simple gain de productivité individuel. En rendant l'inférence de modèles frontier économiquement viable à l'échelle de l'entreprise, cette infrastructure change la donne pour toute organisation souhaitant intégrer des agents IA dans ses processus métier. Pour sécuriser ce déploiement, NVIDIA a doté chaque employé d'une machine virtuelle cloud dédiée connectée via SSH, dans laquelle l'agent Codex opère en sandbox avec une politique de rétention zéro donnée. Les agents n'accèdent aux systèmes de production qu'en lecture seule, garantissant auditabilité complète sans exposition des données internes. Jensen Huang, PDG et fondateur de NVIDIA, a incité l'ensemble de ses équipes à adopter l'outil dans un email interne : "Passons à la vitesse de la lumière. Bienvenue dans l'ère de l'IA." Ce lancement s'inscrit dans plus de dix ans de collaboration entre NVIDIA et OpenAI, une relation qui remonte à 2016 lorsque Jensen Huang avait livré en mains propres le premier supercalculateur DGX-1 au siège d'OpenAI à San Francisco. Depuis, les deux entreprises co-développent l'ensemble de la pile IA : NVIDIA était partenaire dès le premier jour pour le lancement du modèle open-weight gpt-oss d'OpenAI, en optimisant les poids du modèle pour TensorRT-LLM et des frameworks comme vLLM et Ollama. OpenAI s'est engagé à déployer plus de 10 gigawatts de systèmes NVIDIA pour sa prochaine infrastructure, mobilisant des millions de GPU pour l'entraînement et l'inférence dans les années à venir. Les deux sociétés sont également partenaires en co-conception matérielle, OpenAI contribuant au roadmap hardware de NVIDIA en échange d'un accès anticipé aux nouvelles architectures, ce qui a abouti à la mise en service commune du premier cluster de 100 000 GPU GB200 NVL72.

LLMsActu
1 source
Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
237Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source
GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0
238VentureBeat AI 

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

OpenAI a dévoilé GPT-5.5 ce 23 avril 2026, le modèle le plus puissant de l'entreprise à ce jour, connu en interne sous le nom de code "Spud". Présenté lors d'un appel avec des journalistes, le modèle a été décrit par Amelia Glaese, vice-présidente de la recherche chez OpenAI, comme "le modèle le plus solide que nous ayons jamais produit sur le codage, à la fois selon les benchmarks et selon les retours de nos partenaires de confiance". Greg Brockman, cofondateur et président d'OpenAI, a insisté sur sa capacité à travailler de manière autonome : "C'est bien plus intuitif à utiliser. Il peut regarder un problème peu défini et déterminer lui-même ce qui doit se passer ensuite." Sur le plan technique, GPT-5.5 tourne sur les systèmes NVIDIA GB200 et GB300 NVL72, avec des algorithmes heuristiques personnalisés rédigés par l'IA elle-même pour optimiser la répartition des calculs sur les cœurs GPU, ce qui a augmenté la vitesse de génération de tokens de plus de 20%. Le modèle égale la latence par token de son prédécesseur GPT-5.4, tout en offrant un niveau d'intelligence supérieur. GPT-5.4 reste disponible pour les utilisateurs et entreprises à la moitié du coût API du nouveau modèle. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son orientation vers la performance dite "agentique" : le modèle est conçu pour gérer des tâches complexes et fragmentées de façon autonome, sans besoin d'instructions pas à pas. Il excelle en codage, en recherche scientifique et en "computer use", c'est-à-dire l'interaction directe avec des systèmes d'exploitation et des logiciels professionnels. Un mode "GPT-5.5 Thinking" a également été introduit dans ChatGPT pour les raisonnements à forts enjeux : il laisse au modèle davantage de temps de calcul interne pour vérifier ses hypothèses avant de répondre. Sur le benchmark interne "Expert-SWE", mesurant des tâches de codage longues dont le temps de complétion médian est de 20 heures pour un humain, GPT-5.5 surpasse GPT-5.4 tout en utilisant significativement moins de tokens. La course aux grands modèles de langage entre OpenAI, Anthropic et Google n'a jamais été aussi serrée. Il y a exactement une semaine, Anthropic avait lancé Claude Opus 4.7, qui avait temporairement pris la tête du classement sur le plus grand nombre de benchmarks tiers. GPT-5.5 reprend aujourd'hui cet avantage sur les modèles publiquement disponibles, et dépasse même Opus 4.7 sur la quasi-totalité des tests de référence. Seul le modèle Claude Mythos Preview d'Anthropic, non disponible au grand public et fortement restreint, résiste encore sur Terminal-Bench 2.0, où il devance GPT-5.5 dans une marge si étroite qu'elle s'apparente à une égalité statistique. Cette dynamique illustre à quel point la frontière technologique entre les trois acteurs dominants s'est réduite, chaque nouveau modèle détrônant le précédent en l'espace de quelques semaines.

UELes développeurs et entreprises français et européens utilisant les API OpenAI pourront évaluer GPT-5.5 pour leurs usages en codage et tâches agentiques, sans impact réglementaire ou institutionnel spécifique à la France ou à l'UE.

💬 Une semaine après Opus 4.7, OpenAI reprend la tête. Le seul modèle qui résiste encore à GPT-5.5, c'est Mythos Preview d'Anthropic, sauf qu'il n'est pas disponible au grand public, donc dans la vraie vie des développeurs, OpenAI est devant. C'est le genre de course où chaque sortie rend la précédente obsolète avant qu'on ait fini de l'évaluer.

LLMsActu
1 source
OpenAI annonce que GPT-5.5 est plus efficace et plus performant en programmation
239The Verge AI 

OpenAI annonce que GPT-5.5 est plus efficace et plus performant en programmation

OpenAI a annoncé GPT-5.5, son nouveau modèle de langage, présenté comme "le plus intelligent et le plus intuitif à utiliser" jamais développé par la société. Ce lancement intervient à peine un mois après la sortie de GPT-5.4, illustrant un rythme de publication particulièrement soutenu. Selon OpenAI, GPT-5.5 se distingue par ses capacités améliorées en écriture et débogage de code, en recherche en ligne, en création de documents et de feuilles de calcul, ainsi que par sa capacité à opérer de manière coordonnée à travers différents outils. L'entreprise décrit ce modèle comme "la prochaine étape vers une nouvelle façon de travailler sur ordinateur". La principale avancée de GPT-5.5 réside dans sa capacité à prendre en charge des tâches complexes et multidimensionnelles de manière autonome. L'utilisateur peut confier une mission floue ou fragmentée au modèle, qui planifie lui-même les étapes, utilise les outils appropriés, vérifie son propre travail et gère les ambiguïtés sans supervision constante. Ce changement de paradigme vise directement les professionnels qui passent aujourd'hui un temps considérable à orchestrer manuellement leurs workflows numériques. Cette annonce s'inscrit dans la course effrénée aux modèles dits "agentiques", capables d'agir de façon autonome plutôt que de simplement répondre à des questions. OpenAI fait face à une concurrence croissante d'Anthropic avec Claude, de Google avec Gemini, et de plusieurs acteurs open source. La cadence de publication accélérée, avec deux versions majeures en un mois, suggère une pression concurrentielle intense et une volonté de maintenir la position dominante d'OpenAI sur le marché des assistants IA professionnels.

UELes entreprises et professionnels européens pourront exploiter les nouvelles capacités agentiques de GPT-5.5, mais aucun impact réglementaire ou institutionnel spécifique à la France ou à l'UE n'est mentionné.

💬 GPT-5.4 avait même pas eu le temps de refroidir. Ce qui m'intéresse dans ce 5.5, c'est l'angle autonomie : confier une tâche floue et pas avoir à orchestrer chaque étape à la main. Bon, sur le papier c'est très bien, mais les démos OpenAI sont toujours plus convaincantes que la prod.

LLMsOpinion
1 source
Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI
240SCMP Tech 

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Tencent Holdings a dévoilé jeudi son nouveau modèle d'intelligence artificielle phare, baptisé HY3-Preview, marquant une étape importante dans la stratégie IA du groupe de Shenzhen. C'est le premier grand modèle lancé depuis que Yao Shunyu, ancien chercheur chez OpenAI, a rejoint l'entreprise pour diriger ses efforts en IA fondamentale. Fermé et non accessible au public en open source, HY3-Preview se distingue par une architecture relativement compacte de 295 milliards de paramètres, une taille modeste pour un modèle de cette ambition. Tencent positionne HY3-Preview comme son modèle le plus puissant à ce jour, comparable aux meilleures solutions chinoises disponibles, mais encore en retrait face aux leaders américains comme OpenAI et Google DeepMind. L'arrivée de Yao Shunyu, figure reconnue de la recherche en IA, signale la volonté du groupe de monter en gamme sur les fondations mêmes de ses systèmes, au-delà de ses applications existantes comme Weixin ou Tencent Cloud. Ce lancement s'inscrit dans une intense course technologique entre les géants technologiques chinois, qui cherchent à réduire l'écart avec les États-Unis dans un contexte de restrictions à l'export de puces Nvidia. Alibaba, Baidu, et ByteDance ont chacun intensifié leurs investissements en modèles fondationnels ces derniers mois. Que Tencent, longtemps perçu comme plus discret sur ce terrain, franchisse ce cap avec un recrutement aussi symbolique qu'un ex-OpenAI, témoigne d'une accélération générale de la compétition IA en Asie.

LLMsActu
1 source
Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur
241MarkTechPost 

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion
1 source
Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5
242Pandaily 

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

Xiaomi a lancé la bêta publique de sa nouvelle série de modèles de langage MiMo-V2.5, avec une mise à disposition en open source de MiMo-V2.5 et MiMo-V2.5-Pro annoncée pour très prochainement. La famille MiMo-V2.5 comprend quatre modèles distincts : MiMo-V2.5, V2.5-Pro, V2.5-TTS et V2.5-ASR, chacun conçu pour améliorer le raisonnement, la gestion de contextes longs, le suivi d'instructions complexes ou ambiguës, et la compréhension multimodale. Xiaomi a également annoncé des ajustements tarifaires sur son offre Token Plan. Le fleuron de la gamme, MiMo-V2.5-Pro, est présenté comme le modèle le plus puissant jamais développé par l'entreprise. Les performances revendiquées sont ambitieuses : en tests internes, MiMo-V2.5-Pro se montre compétitif face à Claude Opus 4.6 et GPT-5.4 sur des tâches d'agent général, d'ingénierie logicielle complexe et d'exécution de tâches longues. Associé au bon environnement d'exécution, le modèle peut enchaîner de manière fiable des séquences impliquant près de 1 000 appels d'outils au cours d'une même session. Sa capacité à suivre des instructions implicites tout en maintenant une cohérence logique sur de longues interactions représente une avancée notable par rapport à la génération précédente, et le positionne comme un outil crédible pour des charges de travail professionnelles exigeantes. Cette annonce s'inscrit dans une stratégie d'accélération claire de Xiaomi dans la course mondiale aux grands modèles de langage. Longtemps perçu avant tout comme fabricant de smartphones et d'électronique grand public, le groupe chinois investit massivement dans l'IA depuis plusieurs trimestres, cherchant à s'imposer face à des acteurs comme Alibaba, Baidu ou DeepSeek sur le marché domestique, tout en visant une reconnaissance internationale grâce à l'open source. La publication prochaine des poids du modèle devrait permettre à la communauté de valider les performances annoncées et d'évaluer la place réelle de Xiaomi dans l'écosystème mondial de l'IA.

UELa mise en open source prochaine des poids du modèle pourrait intéresser les développeurs et entreprises européennes cherchant des alternatives open source compétitives, sans impact réglementaire direct sur la France ou l'UE.

LLMsActu
1 source
Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens
243Pandaily 

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Ant Group, la filiale fintech du géant chinois Alibaba, a lancé Ling-2.6-Flash, un nouveau grand modèle de langage appartenant à sa série Ling. Le modèle repose sur une architecture à 104 milliards de paramètres au total, dont seulement 7,4 milliards sont activés lors de l'inférence, une approche dite MoE (Mixture of Experts) qui réduit considérablement la puissance de calcul nécessaire. Conçu comme un modèle optimisé pour les instructions, Ling-2.6-Flash mise sur ce qu'Ant Group appelle la "Token Efficiency" : délivrer des performances compétitives tout en étant plus rapide et moins coûteux que ses concurrents. Avant même son lancement officiel, une version anonyme du modèle, baptisée en interne "Elephant Alpha", avait été mise en ligne sur la plateforme OpenRouter. En quelques jours, elle s'est hissée en tête des modèles les plus utilisés, avec une consommation quotidienne d'environ 100 milliards de tokens et une croissance hebdomadaire dépassant les 5 000 %. L'adoption aussi rapide et aussi massive d'un modèle avant même son annonce officielle illustre l'appétit du marché pour des alternatives économiques aux LLMs dominants. Avec un tarif d'entrée fixé à 0,10 dollar par million de tokens en entrée et 0,30 dollar par million en sortie, Ling-2.6-Flash se positionne parmi les options les plus abordables du marché, directement en concurrence avec des modèles comme Gemini Flash de Google ou GPT-4o Mini d'OpenAI. L'API est désormais accessible publiquement, accompagnée d'une période d'essai gratuite d'une semaine. Pour les développeurs et les entreprises qui font tourner des applications à grande échelle, une telle structure tarifaire peut représenter des économies substantielles. Ce lancement s'inscrit dans une offensive plus large des acteurs technologiques chinois sur le marché mondial des LLMs. Après DeepSeek, qui avait créé la surprise début 2025 avec des modèles très compétitifs à bas coût, Ant Group entre à son tour dans la course avec une stratégie similaire : maximiser l'efficacité par dollar dépensé. La série Ling illustre la volonté du groupe de rivaliser au niveau international, au moment où la compétition entre fournisseurs de modèles s'intensifie et où la guerre des prix devient un argument commercial aussi décisif que les benchmarks de performance.

UELes développeurs et entreprises européens peuvent accéder dès maintenant à l'API Ling-2.6-Flash à 0,10 $/M tokens en entrée, une alternative économique potentiellement significative pour les applications à fort volume.

LLMsActu
1 source
Optimisation élégante des tokens
244Latent Space 

Optimisation élégante des tokens

Google a profité de sa conférence Cloud Next, qui s'est tenue les 21 et 22 avril 2026, pour annoncer ses TPU v8, la huitième génération de ses puces d'entraînement et d'inférence. Les chiffres annoncés sont vertigineux et confirment l'avance matérielle accumulée par Google DeepMind après une décennie d'investissements massifs dans des infrastructures propriétaires. En parallèle, la conférence AI Engineer Miami a vu s'imposer un concept central dans les discussions entre dirigeants tech : le "tokenmaxxing", soit la volonté de maximiser l'usage de l'IA dans les équipes sans pour autant encourager le gaspillage ou la qualité médiocre. Mikhail Parakhin, directeur technique de Shopify, invité de la conférence, a apporté une nuance importante : il préconise d'aller en profondeur plutôt qu'en largeur, c'est-à-dire de lancer des boucles de recherche autonome séquentielles plutôt que de multiplier en parallèle des dizaines d'appels LLM sans cohérence. Dex Horthy, à l'origine du concept de "Context Engineering", a quant à lui publiquement rétracté ses positions les plus enthousiastes sur le vibe coding, encourageant désormais les développeurs à relire le code généré. Ces débats ne sont pas qu'académiques : ils reflètent une tension réelle au sein des équipes engineering, entre vitesse de génération de code et dette technique. Pour les CTOs et VP d'ingénierie, la question devient comment calibrer l'autonomie accordée aux modèles sans dégrader la qualité architecturale des systèmes. Sur le front des modèles ouverts, plusieurs sorties majeures sont venues nourrir ce débat. Alibaba a publié Qwen3.6-27B, un modèle dense sous licence Apache 2.0 qui surpasse selon ses benchmarks le bien plus lourd Qwen3.5-397B-A17B sur les évaluations de code, dont SWE-bench Verified à 77,2 contre 76,2. Il intègre des modes pensée et non-pensée, un checkpoint multimodal unifié, et a été immédiatement supporté par vLLM, llama.cpp et Ollama. OpenAI a discrètement publié un "Privacy Filter", un modèle MoE léger de 1,5 milliard de paramètres actifs à 50 millions, dédié à la détection et masquage de données personnelles sur de très larges corpus, sous licence Apache 2.0. Xiaomi a de son côté annoncé MiMo-V2.5-Pro, un modèle orienté agents avec 57,2 sur SWE-bench Pro et une capacité déclarée à effectuer plus de 1 000 appels d'outils autonomes. Ces annonces s'inscrivent dans une dynamique où la course aux modèles ouverts s'intensifie, portée par des acteurs comme Alibaba, Xiaomi et OpenAI lui-même, qui cèdent des briques spécialisées à la communauté. L'événement AI Engineer Miami, dont la prochaine édition se tiendra à Singapour, est devenu un baromètre de ce que l'industrie considère comme les vrais problèmes opérationnels : qualité du code généré, gestion de la vie privée dans les pipelines d'agents, et arbitrage entre quantité et profondeur d'utilisation des LLM. Les TPU v8 de Google rappellent que derrière ces débats de méthode, la compétition infrastructure reste déterminante pour qui peut entraîner et servir les modèles les plus puissants à grande échelle.

UELes modèles publiés sous licence Apache 2.0 (Qwen3.6-27B, OpenAI Privacy Filter) permettent aux équipes techniques européennes un déploiement local compatible avec les exigences RGPD pour la gestion des données personnelles dans les pipelines d'agents.

LLMsActu
1 source
Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents
245MarkTechPost 

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

L'équipe Qwen d'Alibaba a publié Qwen3.6-27B, un modèle dense en open-weight de 27 milliards de paramètres disponible sous licence Apache 2.0 sur Hugging Face, en deux variantes : BF16 et FP8. Ce modèle se distingue notamment sur les benchmarks de codage agentique, où il surpasse des modèles bien plus imposants : il atteint 1 487 points sur QwenWebBench (génération de code frontend) contre 1 068 pour son prédécesseur Qwen3.5-27B, et 36,2 sur NL2Repo (génération de code à l'échelle d'un dépôt) contre 27,3. Sur SWE-bench Verified, référence du secteur pour les agents logiciels autonomes, il atteint 77,2, se rapprochant des 80,9 de Claude 4.5 Opus. Fait notable : ces performances dépassent celles du Qwen3.5-397B-A17B, un modèle Mixture-of-Experts quatorze fois plus grand. L'intérêt de cette publication tient à deux innovations concrètes. La première concerne le codage agentique : le modèle a été spécifiquement optimisé pour naviguer dans de larges bases de code, modifier plusieurs fichiers simultanément et produire du code exécutable cohérent, couvrant sept catégories allant du design web à la 3D. La seconde innovation, baptisée Thinking Preservation, répond à une limite structurelle des LLM actuels : par défaut, le raisonnement intermédiaire (chain-of-thought) n'est conservé que pour le message en cours et disparaît au tour suivant. Qwen3.6-27B propose une option pour conserver et réutiliser ces traces de raisonnement sur l'ensemble d'une conversation, ce qui réduit les tokens redondants et améliore l'utilisation du cache KV dans les workflows d'agents itératifs. Cette sortie s'inscrit dans une stratégie accélérée d'Alibaba sur les modèles ouverts : Qwen3.6-27B est le deuxième modèle de la famille Qwen3.6, après le Qwen3.6-35B-A3B (MoE à 3B paramètres actifs) lancé quelques semaines plus tôt, lui-même héritier de la série Qwen3.5. Sur le plan architectural, le modèle adopte une structure hybride originale répartie sur 64 couches : trois sublayers sur quatre utilisent Gated DeltaNet, une attention linéaire en O(n) bien plus efficace que l'attention classique quadratique O(n²), tandis qu'une couche sur quatre conserve l'attention standard. Cette conception permet de traiter de longs contextes avec un coût mémoire réduit, tout en maintenant la précision sur les tâches complexes. Compatible avec SGLang, vLLM et Hugging Face Transformers, le modèle vise directement les développeurs qui construisent des agents de codage, dans un segment où Anthropic et OpenAI restent pour l'instant en tête.

LLMsOpinion
1 source
OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute
246Le Big Data 

OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute

Le 22 avril 2026, des utilisateurs de Codex, l'environnement de développement assisté d'OpenAI, ont brièvement aperçu dans un sélecteur de modèles interne des noms inconnus : GPT-5.5, oai-2.1, et plusieurs variantes expérimentales non annoncées. L'accès a disparu en quelques minutes, mais les captures d'écran avaient déjà circulé sur X et dans les forums de développeurs. La fuite s'est produite dans un contexte particulier : OpenAI menait simultanément un test élargi dans Codex, confirmé par Rohan Varma, ingénieur de l'entreprise, touchant environ 100 % des utilisateurs, tous abonnements confondus, gratuits et payants. Sam Altman, PDG d'OpenAI, n'a pas démenti les spéculations autour d'un lancement imminent. Interrogé par un utilisateur évoquant une sortie possible dès le jeudi suivant, il a répondu par un simple emoji, sans démentir ni confirmer. Au-delà de l'anecdote, les retours techniques des développeurs ayant eu accès au modèle pendant ce court intervalle sont frappants. Plusieurs signalent une résolution de bugs front-end en quelques minutes là où GPT-4o nécessitait plusieurs heures. D'autres notent une meilleure cohérence dans la génération de code HTML et Tailwind CSS. Si ces observations restent parcellaires et non vérifiables à grande échelle, elles alimentent l'idée qu'OpenAI prépare un saut qualitatif significatif, pas seulement une mise à jour incrémentale. Pour l'industrie du développement logiciel assisté par IA, un modèle nettement plus rapide et fiable sur les tâches de code changerait concrètement les flux de travail quotidiens de millions de développeurs. La mise à disposition sur tous les plans tarifaires, si elle se confirme, représenterait également un changement de stratégie commerciale notable par rapport à la segmentation actuelle. Cette fuite s'inscrit dans une séquence d'annonces très dense côté OpenAI : ChatGPT Images 2.0 venait tout juste d'être déployé, renforçant la génération d'images précises directement dans le chat. Le rythme de publication soutenu d'OpenAI répond à une pression concurrentielle extrême. Anthropic a simultanément modifié son offre Claude Code en limitant l'accès pour certains abonnés Pro, tandis que Google, Meta et Mistral multiplient eux aussi les sorties. Dans ce contexte de course aux annonces, la communication ambiguë d'Altman, entre silence et émoji, est devenue une méthode rodée pour entretenir l'attention sans s'engager officiellement. GPT-5.5 pourrait être un modèle intermédiaire entre GPT-5 et une future version majeure, ou simplement un nom de test interne jamais destiné au public. La réponse pourrait venir dans les jours suivants, si OpenAI tient le calendrier informel que son PDG semble avoir laissé entrevoir.

UELa cadence de sorties accélérée d'OpenAI accentue la pression concurrentielle sur les acteurs européens, en particulier Mistral, cité dans l'article comme rival direct dans la course aux annonces de modèles.

LLMsOpinion
1 source
Le pari open source de la Chine
247MIT Technology Review 

Le pari open source de la Chine

Les laboratoires d'IA chinois ont adopté une stratégie radicalement différente de leurs rivaux américains : au lieu de monétiser leurs modèles derrière des API payantes, ils les publient en open-weight, c'est-à-dire sous forme de packages téléchargeables que n'importe quel développeur peut adapter et faire tourner sur ses propres serveurs. Ce tournant a pris une dimension mondiale en janvier 2025, lorsque DeepSeek a publié son modèle de raisonnement R1, qui a égalé les meilleures performances américaines à une fraction du coût annoncé. Dans la foulée, un véritable écosystème s'est structuré autour de ce modèle : Z.ai (anciennement Zhipu), Moonshot, Alibaba avec sa famille Qwen, et MiniMax ont tous suivi la même logique, en publiant des modèles de plus en plus capables. En août 2025, une étude menée par des chercheurs du MIT et de Hugging Face a établi que les modèles open-weight chinois représentaient 17,1 % des téléchargements mondiaux de modèles d'IA, dépassant pour la première fois la part américaine, fixée à 15,86 %. Les modèles Qwen d'Alibaba comptent aujourd'hui plus de variantes créées par des utilisateurs que ceux de Google et Meta réunis. L'impact de cette stratégie dépasse largement les benchmarks techniques. À mesure que l'enthousiasme autour de l'IA se tasse et que les entreprises passent des expérimentations aux déploiements concrets, les outils moins chers et plus personnalisables prennent l'avantage. Les modèles chinois permettent aux développeurs aux budgets limités d'expérimenter davantage, et le format open-weight leur donne la liberté d'adapter les modèles sans négocier de contrat commercial avec un acteur américain. Cette combinaison de prix bas et de liberté technique crée une adhérence forte : une fois qu'un écosystème se construit autour d'un modèle, comme l'ont montré Linux et Android, l'adoption se traduit naturellement en revenus API. Le Sud global, notamment Singapour, la Malaisie, le Kenya ou le Brésil, embrasse ouvertement ces outils, y voyant un chemin vers une souveraineté numérique. Derrière cette générosité apparente se cachent des calculs stratégiques précis. Sans accès aux puces de pointe bloquées par les contrôles à l'exportation américains, les laboratoires chinois compensent en ouvrant leurs modèles : plus les développeurs extérieurs contribuent et testent, plus vite le cycle d'amélioration s'accélère. Ce n'est pas sans tensions : en février 2026, Anthropic a accusé plusieurs laboratoires chinois de pratiques illicites de distillation, consistant à entraîner un nouveau modèle sur les sorties d'un autre. Les modèles chinois sont par ailleurs soumis aux exigences de censure du gouvernement de Pékin. Malgré ces limites, la dynamique est enclenchée : l'avenir de l'IA sera plus multipolaire que Silicon Valley ne l'anticipait, et rien ne semble pouvoir inverser cette tendance.

UELes modèles open-weight chinois offrent aux développeurs et entreprises européens une alternative concrète aux APIs américaines payantes, renforçant la souveraineté numérique de l'UE sans dépendance contractuelle envers les géants du Silicon Valley.

LLMsOpinion
1 source
LLMs+
248MIT Technology Review 

LLMs+

Depuis le lancement de ChatGPT fin 2022, les grands modèles de langage (LLM) ont envahi le quotidien de centaines de millions d'utilisateurs et provoqué une course effrénée dans toute l'industrie technologique. Aujourd'hui, la prochaine grande rupture se dessine déjà, et elle ne remplace pas les LLM : elle les prolonge. Ces nouveaux modèles, que l'on pourrait appeler les LLM+, sont conçus pour résoudre des problèmes complexes et multi-étapes qui prendraient des jours ou des semaines à un humain, en opérant de manière autonome sur des durées prolongées. Deux axes de progrès dominent la recherche actuelle : rendre les modèles plus efficaces et moins coûteux à faire tourner, et étendre leur capacité à traiter de grandes quantités d'information sans perdre le fil. Sur le plan de l'efficacité, plusieurs approches prometteuses émergent. Le "mixture-of-experts" consiste à fragmenter un LLM en sous-modules spécialisés, dont seule une partie est activée selon la tâche en cours, réduisant ainsi massivement la charge de calcul. D'autres chercheurs envisagent d'abandonner les transformeurs, l'architecture neuronale dominante depuis plusieurs années, au profit des modèles de diffusion, habituellement réservés à la génération d'images et de vidéos. En 2025, la startup chinoise DeepSeek a présenté une méthode d'encodage du texte dans des images pour comprimer les coûts de traitement. Ces innovations pourraient rendre les LLM accessibles à une gamme beaucoup plus large d'applications industrielles et académiques, en abaissant significativement les barrières financières à leur déploiement. L'autre défi central est celui de la fenêtre de contexte, soit la quantité d'information qu'un modèle peut traiter en une seule fois. Il y a deux ans, cette limite se situait à quelques milliers de tokens, soit une trentaine de pages. Les modèles actuels atteignent désormais le million de tokens, l'équivalent d'une pile entière de livres. Mais plus la fenêtre s'allonge, plus les modèles tendent à dériver ou à perdre leur cohérence sur des tâches longues. Une publication récente de chercheurs du MIT CSAIL propose une réponse architecturale : les LLM récursifs. Au lieu d'ingérer un contexte géant d'un seul bloc, ces modèles découpent leur entrée en fragments, les transmettent à des copies d'eux-mêmes qui peuvent elles-mêmes subdiviser et redistribuer le travail. Cette approche distribuée se révèle nettement plus fiable sur des tâches complexes et prolongées, et pourrait constituer le socle des futurs systèmes d'IA capable de travailler en autonomie sur des défis scientifiques ou organisationnels de grande envergure.

LLMsPaper
1 source
249VentureBeat AI 

Kimi K2.6 exécute des agents pendant plusieurs jours et révèle les limites de l'orchestration d'entreprise

Moonshot AI, le laboratoire chinois à l'origine de la famille de modèles Kimi, a lancé Kimi K2.6, un modèle conçu spécifiquement pour les agents à exécution continue. Contrairement aux systèmes concurrents, Moonshot revendique des cas d'usage internes où des agents ont fonctionné en autonomie pendant plusieurs heures, et dans un cas documenté, cinq jours d'affilée, pour gérer de la surveillance d'infrastructure et de la réponse à des incidents. Le modèle est désormais disponible sur Hugging Face, via l'API Kimi, Kimi Code et l'application Kimi. Sa principale nouveauté technique réside dans une version améliorée des "Agent Swarms", capables de coordonner jusqu'à 300 sous-agents exécutant simultanément 4 000 étapes parallèles. À la différence de Claude Code d'Anthropic ou de Codex d'OpenAI, qui s'appuient sur des rôles prédéfinis pour orchestrer leurs agents, K2.6 laisse le modèle lui-même décider de l'orchestration en temps réel. Cette évolution met en lumière une fragilité structurelle dans l'écosystème des agents IA : les frameworks d'orchestration existants ont été conçus pour des agents qui s'exécutent en quelques secondes ou minutes, pas pour des processus qui durent des jours. Maintenir l'état d'un agent sur une longue durée pose des problèmes inédits, car l'environnement dans lequel il opère ne cesse d'évoluer pendant son exécution. L'agent doit appeler des outils, des API et des bases de données différents tout au long de sa vie, ce qu'aucun framework actuel n'a été conçu pour gérer proprement. Mark Lambert, directeur produit chez ArmorCode, souligne que le déficit de gouvernance dépasse déjà le rythme de déploiement : ces systèmes génèrent du code et des changements système plus vite que la plupart des organisations ne peuvent les examiner, corriger ou auditer. La course aux agents longue durée s'inscrit dans une compétition plus large entre fournisseurs de modèles, où la capacité d'orchestration est devenue un avantage concurrentiel à part entière. Anthropic, OpenAI et désormais Moonshot AI expérimentent tous des architectures multi-sessions et d'exécution en arrière-plan, mais aucun n'a encore résolu le problème fondamental : sans mécanisme de rollback clair, un agent autonome qui échoue après plusieurs heures d'exécution peut laisser des systèmes dans un état incohérent. Kunal Anand, directeur produit chez F5, résume le défi : l'industrie est passée des scripts aux services, puis aux agents, mais le saut architectural que représentent les agents à long horizon était loin d'être anticipé par la plupart des entreprises. Le praticien Maxim Saplin l'énonce clairement : l'orchestration reste fragile, et ce n'est pas en affinant les prompts qu'on réglera le problème, mais en repensant à la fois les produits et l'entraînement des modèles.

LLMsOpinion
1 source
250SCMP Tech 

Moonshot AI publie son modèle phare en open source

La start-up chinoise Moonshot AI a publié lundi son nouveau modèle phare en open source, Kimi K2.6, une version améliorée de sa précédente génération axée notamment sur le codage longue portée et les tâches complexes nécessitant une planification étendue. Cette sortie intervient alors qu'Alibaba, ByteDance et Tencent ont conjointement signé un engagement pour promouvoir l'open source dans l'intelligence artificielle en Chine, un signal fort de la part de trois des géants technologiques les plus influents du pays. Ce mouvement vers l'ouverture des modèles traduit une tendance de fond dans l'industrie chinoise de l'IA : rendre les modèles accessibles permet d'accélérer l'adoption, d'attirer les développeurs et de construire un écosystème autour de sa technologie, sans pour autant sacrifier la rentabilité sur d'autres segments. Pour les entreprises et développeurs qui cherchent des alternatives aux modèles occidentaux fermés comme GPT-4o ou Claude, Kimi K2.6 représente une option sérieuse, particulièrement pour des usages intensifs en programmation. La décision de Moonshot AI s'inscrit dans une dynamique plus large de compétition entre stratégies ouvertes et fermées en Chine. Alors que des acteurs comme DeepSeek ont démontré qu'un modèle open source pouvait rivaliser avec les meilleurs systèmes propriétaires, les entreprises chinoises naviguent entre impératifs commerciaux et pression à la transparence. La coexistence de l'engagement collectif à l'open source et des investissements parallèles dans des systèmes fermés révèle que la stratégie optimale reste encore à définir dans un secteur en mutation rapide.

UELes développeurs et entreprises européens disposent d'une nouvelle alternative open source sérieuse pour les tâches de codage intensif, sans dépendance aux modèles propriétaires occidentaux.

LLMsOpinion
1 source