Aller au contenu principal

LLMs

50 sur 445 articles

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière
1The Decoder LLMsOpinion

Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière

Alibaba a lancé Qwen3.7-Plus, un nouveau modèle d'IA multimodal conçu pour fonctionner comme un agent autonome à part entière. Lors d'une démonstration publiée par l'équipe Qwen, un agent construit sur ce modèle a développé de manière entièrement autonome une application d'apprentissage de vocabulaire, générant plus de 10 000 lignes de code à travers 1 000 appels successifs sur une durée de onze heures. Le modèle intègre dans une seule boucle agentique la perception visuelle, la manipulation d'interfaces graphiques et la génération de code. Ce qui distingue Qwen3.7-Plus est sa capacité à combiner ces trois dimensions sans intervention humaine, ce qui représente un pas concret vers des agents capables de mener des projets logiciels complets de bout en bout. Sur les benchmarks de compréhension d'écran publiés par Alibaba, le modèle arrive en tête, même si ses performances globales restent inégales selon les tâches. Pour les entreprises et développeurs qui cherchent à automatiser des workflows complexes, il offre une alternative crédible aux modèles occidentaux, à un tarif nettement inférieur à ceux de OpenAI ou Anthropic. Qwen3.7-Plus s'inscrit dans la stratégie agressive d'Alibaba pour s'imposer dans la course mondiale aux modèles frontier, une compétition qui oppose désormais directement les laboratoires chinois aux américains. Contrairement à de nombreux modèles Qwen précédents publiés en open source, celui-ci est propriétaire, sans poids disponibles publiquement, ce qui marque un tournant commercial dans l'approche du groupe. La capacité à enchaîner perception, raisonnement et action sur de longues séquences restera un critère clé pour départager les acteurs de ce marché en 2026.

UELes développeurs et entreprises européens disposent d'une alternative significativement moins coûteuse pour automatiser des workflows complexes impliquant perception visuelle et génération de code.

1 source
Quand Claude a évolué, tout a changé : gérer le rayon d'impact de l'IA en production
2VentureBeat AI 

Quand Claude a évolué, tout a changé : gérer le rayon d'impact de l'IA en production

Une équipe d'ingénieurs a construit début 2025 un système de reporting automatisé reposant sur Claude Sonnet 3.5, conçu pour convertir des requêtes en langage naturel en appels API structurés au format JSON. Les utilisateurs, analystes, responsables commerciaux et équipes opérationnelles, pouvaient simplement taper une demande comme « Compile un rapport sur les volumes de ventes de janvier à mars 2026 pour la région Nord-Est, ventilé par ville », et le système générait automatiquement la requête correspondante, interrogeait les backends internes (Salesforce, portails de reporting, services maison) et livrait les résultats par email, dans Google Drive ou sous forme de graphique. Mi-2025, la plateforme générait plusieurs centaines de rapports par mois, consommés par la direction et des parties prenantes externes. Les mises à jour successives vers Claude 3.7 puis 4.0 s'étaient faites sans accroc. Mais au déploiement de Claude Sonnet 4.5, le comportement du modèle a changé de façon inattendue : pour une proportion significative des requêtes, il a commencé à intégrer le contenu du champ postbody dans le champ description du JSON de sortie, laissant postbody vide. Résultat : les filtres de dates et de régions n'atteignaient plus les API backend, qui renvoyaient des données non filtrées ou des erreurs 500. Pire encore, au lieu de toujours retourner un objet structuré, le modèle posait parfois des questions de clarification, un comportement pour lequel le système n'avait aucune gestion prévue. L'équipe a dû revenir en urgence à Claude 4.0, opération coûteuse car toutes les nouvelles intégrations API développées entre les deux versions devaient être requalifiées sous pression. Cet incident révèle un problème structurel pour les équipes qui intègrent des LLM en production : contrairement aux bibliothèques logicielles classiques, les modèles de langage ne sont pas déterministes et leurs mises à jour ne s'accompagnent pas de notes de version capturant les changements comportementaux fins. Lorsqu'une équipe met à jour un driver ou une dépendance, elle peut lire les changelogs, exécuter des tests unitaires et borner précisément le rayon d'impact d'un changement. Avec un LLM, ce n'est pas possible : le comportement émerge de patterns statistiques que les tests de régression classiques ne capturent pas. Pour les organisations qui s'appuient sur des LLM pour des flux critiques, reporting exécutif ou données transmises à des partenaires externes, une dérive comportementale silencieuse peut se propager largement avant d'être détectée. Le cas illustre une tension croissante dans l'industrie de l'IA : les éditeurs de modèles poussent des améliorations qui deviennent des régressions dans des systèmes fortement contraints. Anthropic a rendu Claude Sonnet 4.5 plus prudent face aux requêtes ambiguës, une amélioration bienvenue dans de nombreux contextes, mais cette prudence a brisé une architecture qui reposait précisément sur l'absence de questions de clarification. La leçon dégagée par l'équipe pointe vers la nécessité de contrats d'interface explicites avec les LLM : validation stricte des sorties, évaluation comportementale automatisée à chaque mise à jour de modèle, et gouvernance du déploiement comparable à celle appliquée aux composants critiques d'infrastructure. Dans un secteur où les modèles sont mis à jour fréquemment et sans préavis sur les changements comportementaux, cette discipline devient une condition sine qua non de la fiabilité en production.

UELes équipes françaises et européennes intégrant Claude ou d'autres LLM dans des flux de production critiques sont exposées au même risque de régression comportementale silencieuse lors des mises à jour de modèles, sans changelog comportemental standardisé pour anticiper l'impact.

💬 Anthropic a amélioré Claude 4.5, et c'est exactement ça le problème. Un modèle "plus prudent" qui pose des questions de clarification, c'est une bonne idée dans l'absolu, mais si ton système n'a pas prévu ce cas, tu te retrouves avec des rapports vides qui partent quand même à la direction. Et comme il n'existe aucun changelog comportemental pour les LLMs, tu découvres la régression trop tard, en prod, sous pression.

LLMsOpinion
1 source
Le directeur IA de Microsoft affirme que l'entreprise est "libérée" d'OpenAI pour poursuivre la superintelligence
3VentureBeat AI 

Le directeur IA de Microsoft affirme que l'entreprise est "libérée" d'OpenAI pour poursuivre la superintelligence

Mustafa Suleyman, directeur de Microsoft AI, a révélé lors de Microsoft Build 2026 qu'un changement contractuel conclu il y a environ six mois avec OpenAI a officiellement autorisé sa division à développer de manière autonome ce qu'il appelle ouvertement la "superintelligence". Cette annonce, faite en coulisses du Fort Mason Center à San Francisco, s'est accompagnée d'une démonstration concrète : Microsoft a présenté une famille de sept modèles d'IA entièrement développés en interne par son équipe AI Superintelligence Team, regroupés sous le nom "MAI". Le modèle phare, MAI-Thinking-1, est un modèle de raisonnement de 35 milliards de paramètres actifs qui, selon Microsoft, rivalise avec les meilleurs modèles de sa catégorie sur les benchmarks d'ingénierie logicielle et de raisonnement mathématique. La famille comprend également MAI-Code-1-Flash pour GitHub Copilot et VS Code, MAI-Image-2.5 pour la génération et l'édition d'images, MAI-Transcribe-1.5 couvrant 43 langues, et MAI-Voice-2 pour la synthèse vocale multilingue. Tous sont disponibles via Microsoft Foundry, et pour la première fois, les développeurs peuvent ajuster les poids des modèles via des plateformes tierces comme OpenRouter, Fireworks et Baseten. Ce virage stratégique marque une rupture significative pour une entreprise dont l'identité en matière d'IA était jusqu'ici presque entièrement définie par son partenariat avec OpenAI, dans lequel elle a investi un total cumulé dépassant 13 milliards de dollars. Le point le plus frappant du discours de Suleyman n'est pas la liste de modèles, mais la philosophie qui les sous-tend : tous sont entraînés depuis zéro sur des données propres et commercialement licenciées, sans distillation à partir de modèles tiers. Cette position contraste directement avec une pratique répandue dans l'industrie, où les labs utilisent les sorties de modèles concurrents pour entraîner leurs propres systèmes. Pour les entreprises clientes soucieuses de la traçabilité des données et des risques juridiques liés au copyright, ce choix représente un argument différenciant concret. La relation avec OpenAI n'est pas rompue pour autant, mais elle se transforme. Pendant des années, un arrangement contractuel spécifique limitait la capacité de Microsoft à construire ses propres modèles de frontier, la positionnant davantage comme distributeur et intégrateur que comme laboratoire de recherche à part entière. L'assouplissement de ces clauses il y a six mois marque donc un tournant institutionnel autant que technique. Suleyman l'a clairement formulé : l'objectif est qu'en 2030 et au-delà, Microsoft soit capable de "construire les meilleurs modèles au monde", et non plus seulement de les acheter. Cette transition sera longue, et les sept modèles annoncés ne sont qu'une preuve de concept. Ce qui se joue ici, c'est la capacité de Microsoft à devenir un acteur de recherche fondamentale en IA, aux côtés d'OpenAI, Google DeepMind et Anthropic, plutôt que dans leur ombre.

UEPour les entreprises et développeurs européens utilisant Azure ou GitHub Copilot, la famille MAI, entraînée exclusivement sur des données licenciées, constitue un argument de conformité potentiellement pertinent face aux exigences de traçabilité de l'AI Act et au droit d'auteur européen.

💬 Le plus intéressant dans cette histoire, c'est pas les sept modèles, c'est le changement contractuel signé il y a six mois dans la plus grande discrétion. Microsoft s'est reconstruite une liberté de recherche sans rompre avec OpenAI, c'est bien joué. Et le choix d'entraîner depuis zéro sur des données licenciées, sans distillation depuis les concurrents, ça pèse lourd pour les boîtes qui naviguent avec l'AI Act.

LLMsOpinion
1 source
Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée
4MarkTechPost 

Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée

Google DeepMind a publié de nouveaux checkpoints de quantification pour sa famille de modèles Gemma 4, en utilisant une technique appelée Quantization-Aware Training (QAT). Cette publication intervient quelques semaines après le lancement de Gemma 4 en avril 2026 et deux jours après la sortie d'un modèle 12B. La gamme cible deux variantes principales, E2B et E4B, proposées dans trois formats : BF16 pleine précision, Q40 QAT et un nouveau schéma mobile optimisé. En BF16, E2B requiert 9,6 Go de VRAM et E4B 15 Go. En Q40 QAT, ces empreintes tombent respectivement à 3,2 Go et 5 Go. Le format mobile va plus loin encore : E2B y occupe environ 1 Go de mémoire, et en version texte seul, sans encodeurs audio et vision, le modèle passe sous la barre du gigaoctet. La distinction avec la quantification classique post-entraînement (PTQ) est centrale. Là où la PTQ compresse un modèle achevé au risque de dégrader ses performances, le QAT simule la quantification pendant l'entraînement lui-même : le modèle apprend à compenser la perte de précision avant même d'être déployé. Google affirme que ses résultats QAT surpassent les baselines PTQ équivalentes en qualité, une affirmation cohérente avec les données Gemma 3 où le QAT avait réduit de 54 % la dégradation de perplexité en Q40. Concrètement, les formats Q40 QAT sont compatibles avec les outils les plus répandus : llama.cpp, Ollama, LM Studio, vLLM et MLX, permettant un déploiement sur GPU grand public, voire sur un Raspberry Pi 5. Le schéma mobile, lui, mobilise quatre techniques spécifiques : activation statique pré-calculée à l'entraînement, quantification par canal adaptée aux accélérateurs mobiles, compression ciblée en 2 bits sur les seules couches de génération de tokens, et optimisation des embeddings et du cache KV. Les couches de raisonnement central restent à précision plus élevée, préservant les capacités du modèle tout en réduisant l'empreinte mémoire. Cette publication s'inscrit dans une tendance de fond : depuis 2023, la course à l'efficacité sur les appareils edge s'est intensifiée, portée par les contraintes de latence, de confidentialité et de coût d'inférence cloud. Google, avec Gemma, positionne ses modèles ouverts face à Meta (Llama), Microsoft (Phi) et Apple (les modèles embarqués dans iOS). Le format mobile QAT ouvre la voie à des déploiements sur smartphones Android via LiteRT-LM, ainsi que dans des applications web légères avec Transformers.js. L'absence de scores de benchmark publiés pour Gemma 4 QAT dans l'annonce officielle constitue une limite notable : les déclarations de Google restent qualitatives. La prochaine étape logique sera la publication de mesures indépendantes sur des benchmarks standardisés comme MMLU ou HellaSwag, qui permettront de vérifier si la promesse de qualité préservée à 1 Go tient face aux alternatives déjà sur le marché.

UELes développeurs et entreprises européens peuvent déployer des modèles d'IA open source compétitifs directement sur appareils edge (smartphones Android, Raspberry Pi) sans cloud, réduisant latence et coûts d'inférence, avec des outils déjà populaires comme Ollama et llama.cpp.

💬 Un gigaoctet pour un modèle qui raisonne, ça ouvre vraiment le edge. Le QAT, c'est pas de la compression post-entraînement qu'on croise les doigts, c'est le modèle qui apprend à compenser sa propre perte de précision pendant l'entraînement, et sur Gemma 3 ça avait réduit la dégradation de 54 %. Pas de benchmarks publiés pour l'instant, on verra si ça tient.

LLMsOpinion
1 source
Pas grand-chose à signaler aujourd'hui
5Latent Space 

Pas grand-chose à signaler aujourd'hui

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu
1 source
L’IA commence à construire notre jumeau numérique
6FrenchWeb 

L’IA commence à construire notre jumeau numérique

Les grands modèles de langage franchissent un nouveau cap dans la personnalisation. ChatGPT, développé par OpenAI, est désormais capable de mémoriser les habitudes de ses utilisateurs d'une session à l'autre : préférences de voyage, projets professionnels en cours, formats de documents favoris, contraintes récurrentes. Concrètement, un utilisateur qui demande à l'assistant de préparer un déplacement à Londres n'a plus besoin de tout réexpliquer : l'IA s'appuie sur un profil accumulé au fil des échanges pour produire une réponse immédiatement adaptée, sans friction. Ce changement redéfinit le rapport aux assistants numériques. Jusqu'ici, chaque conversation repartait de zéro, ce qui limitait leur utilité dans les tâches complexes et répétitives. Avec une mémoire persistante, l'IA devient un véritable collaborateur qui apprend, s'adapte et anticipe. Pour les professionnels, le gain de temps est réel : moins de répétition, des réponses plus pertinentes dès le premier échange. En revanche, la constitution progressive d'un profil aussi intime soulève des questions de confidentialité, notamment sur la nature des données conservées, leur durée de vie et les droits des utilisateurs à les contrôler ou les effacer. OpenAI a introduit la mémoire dans ChatGPT en 2024, d'abord en version bêta puis progressivement étendue aux abonnés payants. Google avec Gemini et Anthropic travaillent sur des fonctionnalités comparables. La course au profil utilisateur le plus complet est désormais ouverte, avec en arrière-plan un débat réglementaire croissant : en Europe, le RGPD impose des contraintes strictes sur la conservation des données personnelles, et les autorités de protection des données scrutent ces nouvelles capacités de mémorisation avec une attention particulière.

UELe RGPD impose aux plateformes proposant une mémoire persistante des contraintes strictes sur la conservation et le contrôle des données personnelles, poussant OpenAI et ses concurrents à adapter ces fonctionnalités pour les utilisateurs européens.

💬 C'est le truc qui change vraiment l'usage au quotidien, plus que la plupart des mises à jour qu'on a vues ces deux ans. Bon, sur le papier ça fait rêver, mais la vraie question c'est ce qu'OpenAI garde exactement et combien de temps. En Europe, le RGPD va forcer des compromis, et j'ai un doute sur si le profil mémorisé sera aussi complet que pour les utilisateurs américains.

LLMsOutil
1 source
L’IA de Meta censée tout changer sera en retard et c’est à cause de ChatGPT
7Le Big Data 

L’IA de Meta censée tout changer sera en retard et c’est à cause de ChatGPT

Le prochain grand modèle d'intelligence artificielle de Meta, connu en interne sous le nom de « Muse Spark », accuserait des retards répétés avant son déploiement dans les applications du groupe. C'est ce que révèle le Wall Street Journal, qui indique que le lancement a été repoussé à plusieurs reprises. Initialement conçu comme un système multimodal de pointe, Muse Spark devait être capable de traiter simultanément du texte, des images, du raisonnement complexe et des interactions avancées au sein des plateformes Meta. Le groupe prévoyait également de l'ouvrir aux développeurs externes afin qu'ils puissent construire leurs propres services à partir de ce socle technologique. Mark Zuckerberg lui-même en avait fait l'une des priorités stratégiques absolues de l'entreprise, justifiant des investissements de plusieurs dizaines de milliards de dollars dans les centres de données, les infrastructures et les puces spécialisées. Ces retards révèlent la difficulté croissante pour Meta de tenir le rythme face à une concurrence qui ne ralentit pas. En interne, des responsables estiment que Muse Spark demeure en retrait sur plusieurs critères essentiels, notamment la qualité du raisonnement et la stabilité des résultats. Ce n'est pas qu'une question de performances techniques : c'est surtout la capacité du modèle à rivaliser frontalement avec ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic qui pose problème. Pour un groupe dont les applications touchent plus de trois milliards d'utilisateurs, lancer un modèle perçu comme inférieur aux alternatives disponibles pourrait nuire à la crédibilité de Meta dans la course à l'IA et freiner l'adoption auprès des développeurs. Ce retard s'inscrit dans une dynamique de marché particulièrement tendue. OpenAI poursuit l'expansion de l'écosystème ChatGPT, Google accélère l'intégration de Gemini dans Android et Workspace, et Anthropic gagne progressivement du terrain dans les entreprises. Meta, malgré des ressources financières considérables, paie le prix d'une compétition qui s'est durcie bien plus vite qu'anticipé. Le groupe avait misé sur une fenêtre d'opportunité pour s'imposer avec un modèle souverain, intégré nativement dans ses plateformes sociales et ouvert à l'écosystème tiers. Si Muse Spark continue à prendre du retard, Meta risque de se retrouver à lancer un modèle dans un paysage où les positions dominantes seront déjà consolidées, rendant la tâche encore plus ardue pour rattraper les leaders actuels.

UELes développeurs européens qui anticipaient l'ouverture de l'API Muse Spark pour construire leurs services devront patienter davantage, sans impact réglementaire ou économique direct pour la France/UE.

LLMsActu
1 source
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
8MarkTechPost 

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion
1 source
Anthropic : 80% de son code de production écrit par Claude, comment s'adapter
9VentureBeat AI 

Anthropic : 80% de son code de production écrit par Claude, comment s'adapter

En mai 2026, Anthropic a franchi un seuil symbolique : plus de 80 % du code fusionné dans sa base de production n'a pas été écrit par des ingénieurs humains, mais par Claude, son propre modèle d'IA. Cette transformation s'est traduite par une multiplication par huit du volume de code livré par ingénieur par trimestre, comparé à la moyenne enregistrée entre 2021 et 2025. Les performances internes du modèle illustrent l'ampleur du bond : sur des problèmes d'ingénierie complexes et ouverts, le taux de réussite de Claude a atteint 76 % en mai 2026, soit une progression de 50 points en six mois. Sur des tâches d'optimisation de code d'entraînement IA, le modèle interne Mythos Preview a obtenu une accélération de 52x, là où un développeur humain expérimenté parvient typiquement à un 4x après quatre à huit heures de refactoring manuel. Ce n'est plus une curiosité de laboratoire : c'est un nouveau seuil compétitif que les directions techniques de toutes les industries vont devoir intégrer. Lorsqu'un acteur de premier plan peut confier l'essentiel de sa production logicielle à des agents autonomes, la question n'est plus de savoir si l'automatisation du développement est possible, mais à quelle vitesse les autres entreprises peuvent s'y adapter. Le rapport d'Anthropic esquisse une feuille de route applicable au-delà de l'IA : abandonner le modèle "assistant développeur" pour passer à une architecture d'"usine automatisée", dans laquelle les ingénieurs ne produisent plus du code mais définissent des objectifs, supervisent des agents et valident des sorties. Cela modifie en profondeur les rôles en product management, en architecture système et en opérations. L'évolution que décrit Anthropic suit un continuum précis : entre 2021 et 2023, les ingénieurs écrivaient nativement dans leurs éditeurs ; entre 2023 et 2025, ils utilisaient des modèles pour générer des extraits de code qu'ils intégraient manuellement ; à partir de 2025, des agents autonomes rédigent et modifient des fichiers entiers ; aujourd'hui, ces agents exécutent du code, déboguent des environnements en production et délèguent des flux de travail de plusieurs heures à des sous-agents spécialisés. Cette trajectoire est confirmée par les benchmarks externes : les évaluations SWE-bench, qui mesurent la capacité des modèles à résoudre de vrais rapports de bugs dans des bases de code open source complexes, ont atteint leur plafond en moins de deux ans. Claude Opus 4.6 peut aujourd'hui maintenir des opérations continues sur des tâches de douze heures, et Mythos Preview dépasse les seize heures. Ce que Dario Amodei avait annoncé comme une "récursivité" potentielle des modèles, capables de s'améliorer eux-mêmes de façon autonome, commence à prendre une forme concrète et mesurable.

UELes entreprises technologiques européennes devront accélérer leur transition vers des architectures de développement pilotées par agents IA pour rester compétitives face à ce nouveau seuil de productivité qui redéfinit en profondeur les rôles d'ingénierie et de management produit.

💬 80% du code en prod chez Anthropic écrit par Claude, c'est le genre de chiffre qu'on relit deux fois. Ce qui me frappe, c'est pas le pourcentage, c'est le 52x contre 4x humain sur l'optimisation de code d'entraînement : là on sort du gadget. Reste à voir si ça tient à la même échelle ailleurs, mais si tu pilotes une équipe tech sans regarder ça de près, je comprendrais pas.

LLMsOpinion
1 source
Après Mythos, Oceanus ? Une fuite dévoile le prochain modèle d’Anthropic
10Le Big Data 

Après Mythos, Oceanus ? Une fuite dévoile le prochain modèle d’Anthropic

Le 3 juin 2026, des observateurs ont repéré un identifiant inhabituel dans la console Claude d'Anthropic : claude-oceanus-v1-p. Cette découverte, rapidement relayée sur les réseaux sociaux et forums spécialisés, suggère l'existence d'un nouveau modèle baptisé Oceanus, dont le nom n'a jamais été confirmé par le laboratoire. Quelques heures après les premières signalétiques, des chercheurs affirment avoir aperçu le même identifiant via des services proxy non officiels donnant accès à l'API. Des tarifs ont également filtré : 16 dollars par million de tokens en entrée et 80 dollars en sortie, soit des prix nettement supérieurs à la plupart des modèles disponibles. Le chercheur Lisan al Gaib, qui dit avoir trouvé une API tierce proposant déjà Oceanus, mentionne un débit de 52 tokens par seconde, cohérent avec un modèle haut de gamme. Selon plusieurs rapports, des accès auraient même été revendus par des intermédiaires non autorisés quelques heures après le début des tests internes. Si ces fuites font autant de bruit, c'est que le contexte d'Anthropic est particulièrement sensible en ce moment. Le laboratoire venait précisément de lancer une phase de red teaming pour évaluer les risques liés au modèle, une procédure de sécurité standard avant tout déploiement large. Voir des accès circuler librement en dehors du cadre prévu représente une situation embarrassante, voire préoccupante. Les tarifs annoncés, s'ils se confirment, placeraient Oceanus dans une catégorie de modèles ultra-premium, réservés à des usages professionnels ou scientifiques à haute valeur ajoutée, ce qui change la dynamique commerciale habituelle d'Anthropic, davantage positionnée sur la sécurité et l'accessibilité responsable. Oceanus serait, selon les spéculations en circulation, le successeur direct de Mythos, un modèle à capacités étendues qu'Anthropic avait réservé en avril 2026 à un cercle restreint d'experts en cybersécurité dans le cadre du programme Glasswing, regroupant des organisations spécialisées dans la recherche de vulnérabilités. Cette filiation présumée expliquerait à la fois le niveau de prix envisagé et la discrétion entourant le projet. Anthropic n'a officiellement annoncé aucun modèle nommé Oceanus à ce jour, et les informations disponibles reposent entièrement sur des observations indirectes et des fuites non vérifiées. Le dossier illustre néanmoins une tension croissante dans l'industrie de l'IA : à mesure que les modèles deviennent plus puissants et plus coûteux, leur développement sous contrôle strict devient à la fois plus nécessaire et plus difficile à maintenir.

LLMsActu
1 source
NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
11AWS ML Blog 

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

LLMsOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
12Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
OpenAI : Sam Altman voit l'IA proactive comme la prochaine grande étape après les chatbots et les agents
13The Decoder 

OpenAI : Sam Altman voit l'IA proactive comme la prochaine grande étape après les chatbots et les agents

Sam Altman, PDG d'OpenAI, a esquissé sa vision de la prochaine grande étape de l'intelligence artificielle : une "IA proactive" capable d'agir de manière autonome en arrière-plan, sans attendre qu'un utilisateur lui soumette une requête. Contrairement aux chatbots actuels, qui répondent à des questions ponctuelles, ou aux agents IA, qui exécutent des tâches déclenchées par l'humain, cette nouvelle génération d'outils surveillerait en continu l'environnement de travail et prendrait des initiatives de façon indépendante. Altman a également promis d'aider les entreprises à "obtenir plus de valeur pour moins de dépenses", au moment où les budgets IA explosent dans les organisations. Cette vision répond à deux problèmes concrets que rencontrent actuellement les entreprises : la flambée des coûts liés au déploiement de l'IA à grande échelle, et le fait que la majorité des employés ne savent tout simplement pas quoi demander à ces outils. Une IA qui agit sans être sollicitée pourrait contourner ce frein à l'adoption, en rendant les bénéfices accessibles même aux utilisateurs non techniques. L'enjeu est considérable : transformer l'IA d'un outil optionnel en infrastructure permanente du travail quotidien. Ce positionnement s'inscrit dans une course intense entre les grands acteurs du secteur. Google, Microsoft et Anthropic développent tous des systèmes d'agents et d'automatisation de plus en plus autonomes. La promesse d'une IA proactive soulève néanmoins des questions sérieuses sur la supervision humaine, la confidentialité des données et la responsabilité des décisions prises sans intervention humaine, des enjeux que l'industrie devra adresser pour convaincre les entreprises d'aller plus loin.

UELes entreprises européennes devront anticiper des enjeux de conformité RGPD et AI Act face à des systèmes IA agissant en arrière-plan sans déclenchement humain explicite.

LLMsOpinion
1 source
[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images
14Latent Space 

[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images

Le 2 et 3 juin 2026, l'industrie de l'intelligence artificielle a connu une journée particulièrement dense. Microsoft a dévoilé MAI-Thinking-1, un modèle de raisonnement généraliste entraîné sans distillation de modèles tiers, qui atteint 97 % sur le benchmark AIME 2025 et 53 % sur SWE-Bench Pro, tout en surpassant Claude Sonnet 4.6 dans des comparaisons en aveugle selon les préférences humaines. Le rapport technique de 109 pages qui accompagne le lancement a été largement salué pour sa transparence inhabituelle : aucune donnée synthétique, aucun modèle préexistant utilisé comme point de départ, et les capacités de raisonnement et d'utilisation d'outils acquises uniquement en post-entraînement. Le même jour, les plateformes de génération d'images Reve 2 et Ideogram 4.0 lançaient simultanément des avancées majeures dans la composition et la mise en page visuelle, pendant que Google publiait Gemma 4 12B, un modèle multimodal open source sous licence Apache 2.0, conçu pour fonctionner en local avec environ 16 Go de VRAM. Le rapport MAI-Thinking-1 a particulièrement retenu l'attention des chercheurs pour ses détails techniques inhabituels : Microsoft y révèle sa composition d'entraînement exacte (50 % de code, 17,5 % de STEM, 17,5 % de mathématiques, 10 % de culture générale, 5 % de multilinguisme), sa recette de montée en puissance progressive et ses ratios de calcul précis. Au-delà du modèle lui-même, la firme pousse une stratégie d'appropriation par les entreprises via le "Frontier Tuning", un système de personnalisation par renforcement qui permettrait à des modèles MAI adaptés à des tâches spécifiques d'atteindre des performances comparables à GPT-5.4 avec une efficacité dix fois supérieure. Gemma 4 12B, de son côté, introduit une architecture sans encodeur séparé pour la vision ou l'audio, toutes les modalités étant intégrées directement dans le backbone du LLM, avec un support immédiat sous vLLM, Ollama et llama.cpp, et des versions quantifiées fonctionnant sur seulement 8 Go de RAM. Ces sorties s'inscrivent dans une compétition accélérée entre laboratoires pour la maîtrise du raisonnement et du multimodal. Microsoft tente un positionnement inédit : combiner la transparence académique d'un rapport de recherche frontalier avec une infrastructure de personnalisation d'entreprise clé en main, une approche que ni OpenAI ni Google n'ont encore formalisée à cette échelle. Sur le front de l'image, le fait que Reve et Ideogram lancent le même jour des progrès sur la composition visuelle signale que ce verrou technique, longtemps considéré comme partiellement insolvable par les IA, a été levé collectivement en 2026. Ideogram 4.0 se positionne désormais comme le meilleur modèle d'image en accès ouvert, même si les classements Arena placent GPT-Image-2 encore nettement au-dessus. La convergence de ces annonces en une seule journée illustre la cadence désormais hebdomadaire des percées en IA générative.

UEGemma 4 12B, disponible sous licence Apache 2.0 et compatible Ollama, offre aux développeurs et chercheurs européens un modèle multimodal performant utilisable en local sans dépendance à un cloud américain.

💬 Composer du texte, superposer des éléments, gérer les proportions, c'était le talon d'Achille de tous les générateurs d'image. Que Reve et Ideogram sortent ça le même jour, c'est le genre de synchronisation qui signale que quelque chose s'est débloqué en profondeur. Reste à voir si Ideogram 4 tient son rang face à GPT-Image-2 dans la durée, parce que les classements Arena ont leurs angles morts.

LLMsActu
1 source
Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM
15Ars Technica AI 

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google a annoncé le lancement de Gemma 4 12B, un nouveau modèle de langage open source conçu pour fonctionner sur des ordinateurs portables grand public disposant de 16 Go de RAM ou de VRAM. Ce modèle vient combler un vide dans la gamme Gemma 4 lancée en avril 2026, qui comprenait deux modèles optimisés pour mobile (E2B et E4B) et deux modèles pour usages intensifs (26B Mixture of Experts et 31B Dense). Avec ses 12 milliards de paramètres, Gemma 4 12B se positionne entre ces deux extrêmes et adopte la licence Apache 2.0 ouverte introduite lors du lancement de la famille. Ce modèle représente une avancée concrète pour quiconque souhaite faire tourner un LLM performant en local sans investir dans du matériel spécialisé. Son empreinte mémoire est environ deux fois inférieure à celle du Gemma 4 26B MoE, et Google affirme que ses performances sur les benchmarks restent proches de ce modèle plus lourd. Pour les développeurs, chercheurs, ou professionnels qui veulent expérimenter avec l'IA générative en dehors du cloud, sans dépenser des dizaines de milliers d'euros en accélérateurs matériels dédiés, Gemma 4 12B ouvre une porte que les modèles précédents laissaient fermée. Le contexte est celui d'une course à la puissance de calcul qui a fait exploser les prix de la mémoire vive, une dynamique à laquelle Google contribue directement avec ses propres infrastructures cloud. Mais en parallèle, plusieurs grands acteurs de l'IA, dont Meta avec sa famille Llama, misent aussi sur des modèles locaux légers pour élargir l'adoption. Google se positionne dans cette tendance avec des modèles Gemma pensés pour tourner sans connexion et sans coût d'inférence. La prochaine étape sera d'observer comment la communauté open source s'empare de Gemma 4 12B, notamment via des plateformes comme Hugging Face ou Ollama, pour affiner, tester et intégrer ce modèle dans des applications concrètes.

UELes développeurs et chercheurs européens peuvent désormais faire tourner un LLM performant en local sur un ordinateur grand public de 16 Go de RAM, sans frais cloud ni matériel spécialisé.

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public
16Le Big Data 

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google a lancé le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle multimodal conçu pour fonctionner sur des ordinateurs grand public disposant de seulement 16 Go de mémoire vive. Contrairement aux grands modèles qui nécessitent des infrastructures cloud coûteuses, ce modèle intermédiaire de la famille Gemma est capable de traiter simultanément du texte, des images et de l'audio directement en local. Selon Google, ses performances sur plusieurs benchmarks se rapprochent de celles du modèle Gemma 26B, pourtant bien plus imposant. Le modèle est d'ores et déjà accessible via des outils populaires comme LM Studio, Ollama, les applications Google AI Edge Gallery et AI Edge Eloquent, ainsi qu'une interface en ligne de commande nommée LiteRT-LM. Les poids préentraînés sont disponibles sur Hugging Face et Kaggle. L'enjeu principal est la souveraineté des données et l'accessibilité de l'IA avancée. En permettant l'exécution locale d'un modèle multimodal capable de transcrire, reformater ou traduire du contenu vocal sans connexion internet, Google ouvre la voie à des cas d'usage concrets pour les professionnels et particuliers soucieux de ne pas envoyer leurs données vers des serveurs distants. L'analyse de documents, les assistants personnels et l'automatisation de tâches deviennent envisageables sur une machine ordinaire, sans abonnement cloud. C'est un changement de paradigme potentiellement significatif pour les entreprises de taille moyenne, les développeurs indépendants et les utilisateurs dans des environnements à connectivité limitée. Cette annonce s'inscrit dans une tendance de fond qui voit les grands acteurs de l'IA rivaliser sur le segment des modèles compacts et open, face à la montée de concurrents comme Meta avec Llama, Mistral ou encore Microsoft. La véritable originalité architecturale de Gemma 4 12B réside dans l'abandon des encodeurs séparés pour le traitement visuel et audio : au lieu d'assembler plusieurs briques spécialisées, le modèle intègre nativement ces modalités dans son réseau principal, réduisant les calculs intermédiaires et la consommation mémoire. Cette approche, techniquement délicate à mettre en oeuvre sans sacrifier les performances, représente aussi la première fois qu'un modèle intermédiaire de la gamme Gemma gère nativement l'audio. Google positionne ainsi Gemma 4 12B comme une brique de base pour des applications dites agentiques, capables d'agir de manière autonome sur l'appareil de l'utilisateur, un segment sur lequel la compétition entre laboratoires devrait s'intensifier dans les prochains mois.

UELes entreprises et développeurs européens peuvent désormais exécuter un modèle multimodal en local sans transférer leurs données vers des serveurs américains, une avancée directement pertinente pour la conformité RGPD.

💬 C'est le genre de modèle qu'on attendait : multimodal, 16 Go de RAM, dispo sur Ollama maintenant. L'audio natif sans encodeur séparé, c'est la vraie nouveauté technique, et ça change quelque chose pour qui veut traiter de la voix en local sans envoyer ses données quelque part. Reste à voir si les perfs tiennent dans les vrais usages, mais j'ai déjà lancé le pull.

LLMsOpinion
1 source
Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
17VentureBeat AI 

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go

Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement. Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité. Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.

UELe traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.

💬 C'est le genre de truc qu'on attendait depuis 2 ans : un modèle multimodal qui tourne sur ta machine sans envoyer tes données chez Google. Supprimer les encodeurs séparés pour projeter audio et vidéo directement dans l'espace d'embedding, c'est pas du cosmétique, ça réduit la mémoire nécessaire à quelque chose d'atteignable sur du matériel grand public. Pour les boîtes en santé ou finance qui se battent avec le RGPD, t'as enfin une base sérieuse.

LLMsActu
1 source
Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go
18MarkTechPost 

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth. Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image. Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

UECe modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

LLMsOpinion
1 source
Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac
19Frandroid 

Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac

Google a dévoilé le Gemma 4 12B, le plus récent modèle de sa famille Gemma 4, conçu pour fonctionner directement sur un ordinateur personnel sans passer par le cloud ni souscrire à un abonnement payant. Avec ses 12 milliards de paramètres, il représente le point d'équilibre idéal de la gamme pour un usage sur laptop : assez puissant pour des tâches complexes, assez léger pour tourner sur du matériel grand public. Son installation passe notamment par des outils comme Ollama ou LM Studio, qui permettent de télécharger et d'exécuter le modèle localement en quelques commandes. L'intérêt principal du Gemma 4 12B réside dans la confidentialité et l'autonomie qu'il offre : aucune donnée ne quitte la machine, aucun abonnement mensuel n'est requis, et le modèle reste disponible même hors connexion. Pour les développeurs, chercheurs ou professionnels manipulant des données sensibles, c'est une alternative crédible aux API cloud d'OpenAI ou Anthropic. La famille Gemma 4 intègre également des capacités multimodales, permettant de traiter texte et images au sein d'un même modèle. Cette sortie s'inscrit dans la stratégie open source de Google, qui fait face à une concurrence directe de Meta et de ses modèles Llama, largement adoptés par la communauté. En proposant des modèles librement redistribuables et optimisés pour le matériel grand public, Google cherche à gagner en influence auprès des développeurs indépendants et des entreprises qui préfèrent garder le contrôle de leur infrastructure IA. La course aux modèles locaux performants ne fait que commencer.

UELes développeurs et entreprises européennes soucieux du RGPD peuvent déployer Gemma 4 12B entièrement en local, sans transfert de données vers l'étranger, renforçant la souveraineté numérique.

LLMsTuto
1 source
Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI
20AWS ML Blog 

Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI

Amazon Web Services publie un guide technique détaillant comment améliorer la précision des appels d'outils dans les agents IA, en combinant deux techniques d'entraînement, le Supervised Fine-Tuning (SFT) et le Direct Preference Optimization (DPO), sur sa plateforme Amazon SageMaker AI. L'exemple concret porte sur Qwen3 1.7B, un petit modèle de langage, entraîné via des jobs SageMaker AI, un service entièrement géré prenant en charge les configurations multi-GPU et multi-nœuds à la demande. L'objectif est d'apprendre à un modèle à sélectionner le bon outil, dans le bon format, sans briser la chaîne d'actions d'un workflow automatisé. Quand un agent IA appelle le mauvais outil ou formate incorrectement ses paramètres, les conséquences sont directes : délais de traitement allongés, taux d'erreurs en hausse, coûts de support accrus et expérience utilisateur dégradée. Pour les organisations qui font passer leurs applications agentiques du pilote à la production, fiabiliser cette couche d'interaction avec les outils externes est devenu un prérequis non négociable. Le SFT permet d'enseigner au modèle le vocabulaire et les contraintes propres à chaque outil via des exemples explicites. Le DPO, lui, raffine ce comportement en intégrant des préférences directement dans la boucle d'entraînement, sous la forme de paires "réponse préférée / réponse rejetée", sans avoir besoin de fonctions de récompense ni de modèles de récompense distincts, ce qui réduit significativement les ressources et le temps d'entraînement par rapport au reinforcement learning classique. Le DPO s'appuie sur des travaux publiés en 2023 (arXiv:2305.18290) et s'intègre notamment via la bibliothèque HuggingFace TRL, qui prend en entrée des triplets prompt / réponse choisie / réponse rejetée. SageMaker AI ajoute une couche d'infrastructure managée : les clusters haute performance se lancent à la demande, s'arrêtent automatiquement en fin de job, et les métriques d'entraînement remontent vers MLflow intégré à SageMaker pour analyse ultérieure. Cette approche en deux temps, SFT pour la connaissance des outils, DPO pour l'alignement fin sur les comportements souhaités, trace une voie praticable pour les équipes qui veulent construire des agents robustes sans gérer elles-mêmes l'infrastructure d'entraînement. À mesure que les modèles plus petits gagnent en précision grâce à ces techniques, la frontière entre un LLM généraliste et un agent spécialisé fiable en production continue de se réduire.

LLMsTuto
1 source
Microsoft a désormais son propre modèle de raisonnement
21Next INpact 

Microsoft a désormais son propre modèle de raisonnement

Lors de sa conférence BUILD, Microsoft a dévoilé MAI-Thinking-1, son premier modèle de raisonnement maison, marquant une rupture significative dans la stratégie IA de l'entreprise. Ce modèle de type Mixture of Experts (MoE) embarque 35 milliards de paramètres actifs et une fenêtre de contexte de 256 000 tokens, soit l'équivalent d'environ 600 pages. Sur les benchmarks mathématiques AIME 2025 et 2026, il atteint respectivement 97 % et 94,5 %. Microsoft affirme qu'il égale Claude Opus 4.6 sur SWE-Bench Pro, un benchmark de codage, et qu'il a été préféré à Claude Sonnet 4.6 dans des évaluations indépendantes en aveugle conduites par Surge. CNBC rapporte même une démonstration affichant des résultats supérieurs à GPT-5.5 d'OpenAI, avec un coût dix fois inférieur sur des données McKinsey. Le modèle est actuellement en préversion privée via Microsoft Foundry, intégré à GitHub Copilot Enterprise, avec une version pour Azure Confidential Computing annoncée. La famille MAI s'enrichit également de six autres modèles : MAI-Image-2.5 et sa variante Flash pour la génération d'images (déployés dans PowerPoint et OneDrive), et MAI-Transcribe-1.5, présenté comme le meilleur modèle de transcription au monde. Jusqu'à présent, Microsoft occupait surtout le rôle de distributeur de modèles tiers, OpenAI via Copilot, Anthropic via ses assistants, sans disposer de sa propre capacité de raisonnement avancée. L'émergence de MAI-Thinking-1 change fondamentalement cette donne. Pour les entreprises utilisant Azure et GitHub Copilot Enterprise, cela signifie un accès à un modèle de raisonnement compétitif sans dépendre d'un fournisseur externe. Le fait que Microsoft insiste sur un entraînement "from scratch" à partir de données commercialement licenciées, sans distillation depuis d'autres modèles, est aussi un argument juridique et commercial fort pour les clients soucieux de conformité et de propriété intellectuelle. Ce pivot s'explique par une évolution du paysage des alliances. OpenAI, dans lequel Microsoft a investi plusieurs milliards de dollars, suit désormais sa propre trajectoire de manière nettement plus autonome. Anthropic, de son côté, a considérablement gagné en influence, notamment dans les usages développeurs. Pour Redmond, rester dans une position de simple relais devenait stratégiquement risqué. En développant sa propre gamme MAI, Microsoft affirme une indépendance technologique qui lui permet de négocier différemment avec ses partenaires LLM tout en proposant une offre intégrée de bout en bout. La prochaine étape sera la disponibilité générale du modèle et la publication de sa tarification complète sur les tokens de raisonnement, deux inconnues qui détermineront son adoption réelle face à des concurrents déjà bien établis.

UELes entreprises européennes utilisant Azure ou GitHub Copilot Enterprise pourront accéder à un modèle de raisonnement compétitif entraîné sur données commercialement licenciées, un argument de conformité pertinent face aux exigences de l'AI Act et du RGPD.

💬 Microsoft en simple distributeur d'OpenAI et d'Anthropic, ça ne pouvait pas durer. MAI-Thinking-1, c'est leur sortie de cette dépendance, et vu la trajectoire d'OpenAI ces derniers mois, on comprend le timing. Les benchmarks sont convaincants sur le papier (97% sur AIME, parité avec Claude Opus sur SWE-Bench), mais le vrai test, c'est la tarification complète et la sortie de preview.

Gemini réfléchit désormais plus profondément (et gratuitement)
22Frandroid 

Gemini réfléchit désormais plus profondément (et gratuitement)

Google a mis à jour son assistant Gemini pour y intégrer un paramètre baptisé « Niveau de réflexion », permettant aux utilisateurs d'ajuster la profondeur d'analyse du modèle selon la complexité de leurs requêtes. Initialement réservé aux abonnés payants lors de son lancement, ce réglage est désormais accessible à l'ensemble des utilisateurs, y compris ceux disposant d'un compte gratuit. La fonctionnalité s'appuie sur les capacités de raisonnement étape par étape du modèle Gemini, qui peut ainsi mobiliser davantage de ressources computationnelles pour les questions difficiles. Cette ouverture au grand public représente un changement notable dans la stratégie de Google : les capacités de raisonnement avancé, jusqu'ici perçues comme un avantage premium, deviennent un outil standard. Pour les utilisateurs, cela signifie pouvoir obtenir des réponses plus rigoureuses sur des problèmes mathématiques, juridiques, techniques ou analytiques, sans débourser un abonnement. Pour l'industrie, c'est un signal fort : la course au raisonnement profond, longtemps réservée aux offres payantes, entre dans une phase de démocratisation. Cette évolution s'inscrit dans la compétition intense entre les grands laboratoires d'IA. OpenAI avait popularisé le concept avec ses modèles o1 et o3, capables de « penser avant de répondre », forçant Google, Anthropic et d'autres à développer des approches similaires. Gemini Thinking, présenté fin 2024, constitue la réponse de Google à cette tendance. En l'élargissant aux comptes gratuits, Google cherche à élargir sa base d'utilisateurs actifs et à rivaliser plus directement avec ChatGPT sur le terrain de l'accessibilité.

UELes utilisateurs européens et français peuvent désormais accéder gratuitement aux capacités de raisonnement avancé de Gemini, jusqu'ici réservées aux abonnés payants.

LLMsOpinion
1 source
Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI
23Latent Space 

Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI

Lors de la conférence Microsoft Build des 1er et 2 juin 2026, Satya Nadella et Mustafa Suleyman ont annoncé le lancement de sept nouveaux modèles d'intelligence artificielle sous la bannière MAI, la division IA interne de Microsoft. La famille comprend MAI-Thinking-1, le modèle phare de raisonnement, ainsi que MAI-Code-1-Flash pour la génération de code, MAI-Image-2.5 pour la vision, MAI-Transcribe-1.5 pour la transcription vocale et MAI-Voice-2 pour la synthèse vocale. MAI-Thinking-1 est une architecture MoE (Mixture of Experts) de 35 milliards de paramètres actifs, avec une fenêtre de contexte de 256 000 tokens, pré-entraîné sur 30 000 milliards de tokens grâce à 8 192 GPU GB200. Le modèle atteint 97 % sur le benchmark AIME 2025 et 53 % sur SWE-Bench Pro. Microsoft a également publié un rapport technique de 109 pages détaillant son architecture, saluée par la communauté de recherche pour son niveau de transparence inhabituel. Ces annonces marquent une étape significative pour Microsoft, qui se positionne désormais non plus seulement comme plateforme IA mais comme laboratoire de frontier models à part entière. Le fait que MAI-Thinking-1 ait été entraîné sans distillation à partir de modèles tiers, contrairement à de nombreux modèles concurrents, lui confère une crédibilité technique particulière. Des évaluateurs humains indépendants sur la plateforme Surge ont préféré ce modèle à Claude Sonnet 4.6 d'Anthropic dans des tests en aveugle. Pour les entreprises, cette offre ouvre la voie à des fine-tuning spécialisés dans des domaines précis, un créneau que les laboratoires frontier comme OpenAI ou Google ont progressivement abandonné. L'annonce de Web IQ, une nouvelle couche API de recherche et d'ancrage pour agents IA que Microsoft revendique déjà au cœur de "presque tous les agents et chatbots de l'industrie, y compris Copilot et ChatGPT", renforce cette ambition de devenir l'infrastructure invisible de l'IA d'entreprise. Microsoft AI, anciennement connue sous le nom d'Inflection AI après son rachat en 2024, n'existe que depuis deux ans sous cette forme. Le fait qu'elle produise des modèles entraînés de zéro à ce niveau de performance illustre la rapidité de montée en puissance possible avec des ressources computationnelles massives. Build 2026 a également mis en avant GitHub Copilot repositionné comme environnement de développement natif pour agents, une nouvelle Surface RTX Spark Dev Box, et des projets hardware conceptuels comme Solara et Scout. Mustafa Suleyman a décrit Microsoft comme une "machine à escalader des collines", ce qui traduit une stratégie d'amélioration continue et méthodique plutôt que des percées spectaculaires. La prochaine étape sera de voir si MAI-Thinking-1 tient ses promesses dans des déploiements réels, et si Microsoft parvient à convaincre l'écosystème de développeurs de s'appuyer sur ses modèles plutôt que ceux d'OpenAI, dont il reste paradoxalement l'un des principaux investisseurs.

UELes entreprises européennes sur Azure peuvent accéder aux modèles MAI et à l'API Web IQ pour leurs agents IA, réduisant potentiellement leur dépendance aux modèles OpenAI.

💬 MAI-Thinking-1 entraîné de zéro, sans distillation depuis OpenAI ou quiconque, c'est la vraie nouveauté de Build 2026. Ça donne une crédibilité technique que peu s'attendaient à voir en deux ans d'existence. Reste à savoir si les devs vont faire confiance aux MAI plutôt qu'à OpenAI, sachant que Microsoft finance les deux en même temps.

LLMsOpinion
1 source
Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab
24MarkTechPost 

Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab

Liquid AI a publié LFM2, un modèle de langage conçu pour fonctionner efficacement sur des appareils à ressources limitées, et un tutoriel complet détaille désormais comment le personnaliser sur Google Colab via une chaîne d'outils entièrement open source. Le workflow s'appuie sur QLoRA (Quantized Low-Rank Adaptation), qui permet de charger le modèle en précision 4 bits via bitsandbytes, réduisant drastiquement l'empreinte mémoire GPU. On part du checkpoint de base LFM2-1.2B, disponible sur Hugging Face sous l'identifiant LiquidAI/LFM2-1.2B, pour enchaîner deux étapes d'entraînement : d'abord un ajustement supervisé (SFT) sur 500 exemples du dataset HuggingFaceTB/smoltalk en 60 étapes, puis un alignement par préférences via DPO (Direct Preference Optimization) en 40 étapes supplémentaires. Les bibliothèques utilisées sont transformers (version 4.55 minimum), TRL, PEFT, accelerate et datasets. Un adaptateur LoRA de rang 16 est entraîné puis fusionné dans le modèle, produisant un checkpoint prêt au déploiement. Ce type de pipeline démocratise concrètement la personnalisation de modèles pour des développeurs sans infrastructure dédiée : l'ensemble du processus tient sur un GPU Colab gratuit ou pro, là où un fine-tuning classique nécessiterait plusieurs GPU A100. La combinaison SFT + DPO représente aujourd'hui la méthode de référence pour obtenir un modèle à la fois instruit (qui suit des consignes) et aligné (qui préfère des réponses de qualité à des réponses médiocres). L'intérêt particulier de LFM2 réside dans son architecture optimisée pour l'inférence on-device, ce qui rend ce tutoriel utile non seulement pour le prototypage cloud, mais aussi pour préparer des modèles embarqués sur mobile ou edge hardware. Liquid AI est une startup fondée en 2023 par des chercheurs du MIT, connue pour ses modèles Liquid Foundation Models (LFM) basés sur des architectures d'équations différentielles neuronales, alternatives aux transformeurs classiques. LFM2 marque une nouvelle génération de ces modèles, avec un accent mis sur l'efficacité computationnelle. Le recours à DPO plutôt qu'au classique RLHF (Reinforcement Learning from Human Feedback) s'inscrit dans une tendance forte depuis 2023 : DPO élimine le modèle de récompense intermédiaire, simplifiant l'entraînement tout en produisant des résultats comparables. La mise à disposition de ce guide complet avec code exécutable sur Colab s'inscrit dans une dynamique plus large de démocratisation du fine-tuning, portée par Hugging Face et la communauté open source, face aux modèles propriétaires d'OpenAI ou Anthropic qui restent des boîtes noires non personnalisables.

LLMsTuto
1 source
Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée
25VentureBeat AI 

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Alibaba a lancé cette semaine Qwen3.7-Plus, son dernier grand modèle de langage multimodal, capable de traiter simultanément du texte, des vidéos et des images. Le modèle est proposé à 0,40 dollar par million de tokens en entrée et 1,60 dollar en sortie, soit 60 % moins cher que son prédécesseur Qwen3.7-Max, sorti quelques semaines plus tôt mais limité au texte seul. Avec une fenêtre de contexte d'un million de tokens et jusqu'à 256 000 tokens dédiés au raisonnement interne, Qwen3.7-Plus cible explicitement les usages agentiques complexes, comme la migration de bases de code ou l'analyse automatisée de documents visuels. Le modèle intègre aussi un paramètre API baptisé "preservethinking", qui conserve les blocs de raisonnement internes entre les tours de conversation, évitant à l'agent de perdre le fil de sa logique au milieu d'une tâche longue. La rupture la plus notable n'est pas technique : Qwen3.7-Plus est distribué sous licence commerciale fermée, uniquement via l'API Alibaba Cloud et le service Qwen Chat. C'est un virage stratégique majeur pour un groupe qui avait construit sa réputation internationale sur la publication de modèles open source puissants, proches de l'état de l'art. Des entreprises comme Airbnb s'appuyaient justement sur ces modèles en accès libre. Pour les développeurs et organisations qui avaient intégré l'open source Qwen dans leurs infrastructures, ce changement de cap impose soit de migrer vers l'API payante d'Alibaba, soit de se tourner vers un concurrent. Sur le plan tarifaire, Qwen3.7-Plus reste compétitif face à des modèles comme MiniMax-M3 (0,30/1,20 dollar) ou Gemini 3.1 Flash-Lite de Google (0,25/1,50 dollar), mais il est dépassé en prix bas par DeepSeek-V4-Flash (0,14/0,28 dollar). Ce lancement s'inscrit dans une dynamique de consolidation des stratégies de monétisation chez les grands labos chinois. Après avoir inondé le marché de modèles open source pour gagner en adoption et en réputation, Alibaba suit une trajectoire similaire à celle d'OpenAI ou Anthropic : garder les modèles les plus capables derrière un accès payant. La fonctionnalité "preservethinking" avait déjà été introduite avec la génération Qwen 3.6, sur les modèles open weight Qwen3.6-27B et le Max propriétaire, signe que la stratégie de différenciation entre open et closed s'élabore depuis plusieurs mois. Avec la course aux modèles multimodaux et agentiques qui s'accélère, l'enjeu pour Alibaba est de ne pas perdre les développeurs séduits par l'ouverture, tout en capturant les revenus que seule une offre cloud fermée peut générer à grande échelle.

UELes développeurs et organisations européennes ayant intégré les modèles Qwen open source dans leurs infrastructures devront migrer vers l'API payante d'Alibaba Cloud ou se tourner vers des alternatives, représentant une contrainte opérationnelle et potentiellement financière concrète.

LLMsOpinion
1 source
Microsoft dévoile sept modèles d’IA maison pour s’émanciper d’OpenAI et partir chasser sur les terres d’Anthropic et de Google
26Frandroid 

Microsoft dévoile sept modèles d’IA maison pour s’émanciper d’OpenAI et partir chasser sur les terres d’Anthropic et de Google

Lors de sa conférence Build, Microsoft a annoncé le lancement de sept modèles d'intelligence artificielle développés entièrement en interne, marquant une rupture stratégique significative avec sa dépendance historique à OpenAI. Cette famille de modèles maison, dévoilée devant les développeurs et partenaires de l'entreprise, couvre différentes tailles et usages, des modèles légers optimisés pour les appareils locaux aux versions plus puissantes destinées au cloud Azure. Microsoft positionne explicitement ces modèles face à Claude d'Anthropic et aux modèles Gemini de Google. Ce pivot vers l'autonomie technologique représente un changement profond pour les entreprises clientes de Microsoft, qui disposent désormais d'une alternative aux modèles OpenAI au sein même de l'écosystème Azure et Copilot. Pour les développeurs, cela signifie plus de choix, potentiellement des coûts différents et une moindre exposition aux aléas de la relation Microsoft-OpenAI. Pour l'industrie, c'est la confirmation que les grands éditeurs tech ne veulent plus sous-traiter le cerveau de leurs produits IA. Ce mouvement s'inscrit dans une tension croissante entre Microsoft et OpenAI, deux entités liées par un partenariat de plusieurs milliards de dollars mais dont les intérêts divergent à mesure qu'OpenAI se rapproche d'une structure commerciale indépendante. En bâtissant sa propre capacité de modélisation, Microsoft réduit sa vulnérabilité stratégique et entre directement en compétition avec les laboratoires qu'elle finançait indirectement. La guerre des modèles fondamentaux se joue désormais aussi dans les couloirs de Redmond.

UELes entreprises et développeurs européens utilisant Azure et Copilot disposent désormais d'alternatives aux modèles OpenAI, avec des implications potentielles sur les coûts et la dépendance stratégique au sein de l'écosystème Microsoft.

💬 C'est le genre de move qu'on voyait venir depuis que la relation Microsoft-OpenAI a commencé à craquer en public. Sept modèles d'un coup, du léger pour les appareils locaux au costaud pour Azure, ça ressemble moins à une annonce produit qu'à une déclaration d'indépendance. Bon, faut encore que ces modèles tiennent la route, parce que s'attaquer frontalement à Claude et Gemini, c'est pas anodin.

LLMsOpinion
1 source
L'optimisation des hyperparamètres sur Amazon Nova Forge
27AWS ML Blog 

L'optimisation des hyperparamètres sur Amazon Nova Forge

Amazon a publié un guide technique détaillé sur l'optimisation des hyperparamètres dans Nova Forge, son service cloud dédié à la personnalisation de modèles de langage à grande échelle. Nova Forge permet aux entreprises de partir de points de contrôle anticipés des modèles Amazon Nova, de les entraîner sur leurs données propriétaires tout en les mélangeant à des jeux de données soigneusement sélectionnés par Amazon, et d'héberger les modèles résultants de façon sécurisée sur AWS. Le processus repose sur trois leviers principaux : le taux d'apprentissage, le ratio de mélange des données, la sélection du point de contrôle et les techniques d'entraînement. Selon Amazon, mal calibrer l'un de ces paramètres suffit à compromettre silencieusement toute une campagne d'entraînement, parfois très coûteuse en ressources de calcul. L'enjeu central est ce que les chercheurs appellent l'oubli catastrophique : lorsqu'un modèle est entraîné intensivement sur des données d'un domaine étroit, il tend à écraser les capacités générales acquises lors du pré-entraînement, comme le raisonnement, le suivi d'instructions ou la gestion de conversations multi-tours. Un modèle de service client affiné sur des tickets de support peut ainsi perdre sa capacité à traiter des requêtes ambiguës. Pour contrecarrer ce phénomène, Nova Forge s'appuie sur le mélange de données, qui intègre des corpus Amazon curatés aux données propriétaires pendant l'entraînement, et sur la sélection de point de contrôle, qui permet de doser la quantité d'alignement général conservée. Le taux d'apprentissage reste le paramètre le plus sensible : trop élevé, il déstabilise l'entraînement ou provoque un oubli rapide des capacités de base ; trop bas, il gaspille du calcul en convergeant très lentement. Nova Forge s'inscrit dans une dynamique plus large de démocratisation des modèles frontières propriétaires. Plutôt que de laisser les entreprises se limiter à du fine-tuning superficiel, le service leur permet d'accéder à des checkpoints précoces des modèles Nova et d'y injecter leur propre connaissance métier dès les premières couches d'entraînement. Ce positionnement concurrence directement les offres similaires d'OpenAI, Google et Mistral, qui proposent eux aussi des voies de personnalisation profonde pour les grandes entreprises. La publication de ce guide signale une volonté d'Amazon de réduire le taux d'échec des projets de personnalisation, souvent abandonnés faute de maîtrise des interactions entre hyperparamètres. Les prochaines étapes pour Nova Forge pourraient inclure des outils automatisés de recherche d'hyperparamètres, déjà expérimentés dans d'autres plateformes MLOps, afin de réduire encore la charge d'expertise requise.

LLMsActu
1 source
☕️ Anthropic élargit l’accès à Mythos à une quinzaine de pays
28Next INpact 

☕️ Anthropic élargit l’accès à Mythos à une quinzaine de pays

Anthropic a annoncé l'élargissement de son projet Glasswing à plus de 150 organisations réparties dans plus de 15 pays, contre une présence initiale limitée aux États-Unis et au Royaume-Uni. Ce programme donne accès à un aperçu anticipé de Mythos, le modèle d'IA le plus ambitieux du laboratoire californien. Parmi les nouvelles organisations intégrées figurent des acteurs des secteurs de l'énergie, de la santé, des télécommunications et de la construction informatique, dont beaucoup gèrent des bases de données critiques dont dépendent d'autres organisations, gouvernements inclus. L'Union européenne pourrait également rejoindre le périmètre, selon Bloomberg, qui cite l'ENISA, l'agence européenne pour la cybersécurité, comme potentielle première bénéficiaire européenne, bien que Bruxelles n'ait pour l'instant rien confirmé officiellement. Cet élargissement n'est pas anodin sur le plan stratégique. Anthropic se retrouve à quelques encablures d'une introduction en Bourse, et Mythos constitue à la fois son produit phare et son meilleur argument de vente auprès d'investisseurs et de grandes organisations. En intégrant des secteurs d'infrastructures critiques dans le projet Glasswing, le laboratoire positionne Mythos comme un outil de niveau souverain, capable d'adresser des besoins que les modèles grand public ne peuvent pas satisfaire. L'accès reste délibérément restrictif : les candidats doivent justifier de leur sérieux avant d'être admis, ce qui entretient une image d'exclusivité et renforce la perception d'un outil puissant et contrôlé. Anthropic joue également sur la dimension sécuritaire pour asseoir son positionnement. Le laboratoire prévient que les modèles concurrents de "classe Mythos" attendus dans les six à douze prochains mois pourraient ne pas intégrer les mêmes garde-fous contre les usages malveillants, une façon d'installer la comparaison avant même que ces modèles n'existent. Cette rhétorique accompagne la mise en avant de Claude Security, un service reposant sur Claude Opus 4.8 pour analyser des bases de code et proposer des correctifs de sécurité. La manœuvre est transparente mais efficace : en distribuant Mythos à des organisations influentes dans des secteurs stratégiques, Anthropic crée des ambassadeurs institutionnels avant l'ouverture commerciale, tout en construisant un récit autour de la "responsabilité" qui distingue le labo de ses rivaux OpenAI et Google DeepMind dans la course aux modèles de nouvelle génération.

UEL'ENISA, agence européenne pour la cybersécurité, est citée comme potentielle première bénéficiaire européenne du programme Glasswing, ce qui pourrait marquer l'entrée d'un modèle d'IA américain de niveau souverain dans les infrastructures critiques de l'UE.

LLMsOpinion
1 source
Opus 4.8
29Ben's Bites 

Opus 4.8

Anthropic a lancé Claude Opus 4.8 en intégrant une nouvelle fonctionnalité centrale dans Claude Code : les workflows dynamiques. Concrètement, le modèle génère désormais un script d'orchestration, puis instancie des sous-agents en parallèle pour traiter des tâches complexes en simultané. Sur le benchmark ARC-AGI-3, Opus 4.8 obtient le meilleur score du marché, triplant celui de GPT-5.5. Les avis divergent cependant sur l'ampleur du progrès : Simon Willison le qualifie d'amélioration modeste mais utile, notamment parce que le modèle est plus honnête sur ses incertitudes et moins enclin à rater ses propres erreurs de code. La publication Every, de son côté, est bien plus enthousiaste : ses tests internes positionnent Opus 4.8 comme un bond significatif par rapport à 4.7, compétitif avec GPT-5.5 sur un benchmark d'ingénieur senior. Le benchmark Datacurve nuance ce tableau en le plaçant en dessous de GPT-5.5 et marginalement au-dessus d'Opus 4.6, tout en signalant une consommation de tokens nettement plus élevée. En parallèle, Anthropic a déposé un S-1 confidentiel auprès de la SEC et bouclé une levée de fonds en Serie H à 65 milliards de dollars, portant sa valorisation post-money à 965 milliards de dollars, avec une introduction en bourse potentielle d'ici fin 2026. L'arrivée des workflows dynamiques dans Claude Code marque un tournant pour les développeurs qui utilisent des agents LLM en production. Plutôt que d'enchaîner les appels séquentiels, le modèle peut désormais décomposer une tâche, déléguer ses parties en parallèle et les réassembler, ce qui réduit les temps de traitement sur des projets complexes. Plusieurs observateurs soulignent toutefois une limite structurelle : les systèmes multi-agents lâches restent peu fiables, et les workflows déterministes construits autour de petites boucles agentiques sont plus robustes en pratique. Côté valorisation, 965 milliards de dollars place Anthropic parmi les entreprises privées les mieux valorisées au monde, à un niveau comparable à des géants cotés du secteur technologique. Si l'IPO se concrétise cette année, elle redéfinirait les références de valorisation de l'ensemble du secteur de l'IA générative. Cette sortie intervient dans un contexte de compétition féroce entre Anthropic et OpenAI, dont les modèles phares se disputent le leadership sur chaque nouveau benchmark. La même semaine, NVIDIA et Microsoft annonçaient le RTX Spark, une puce Windows atteignant 1 petaflop avec jusqu'à 128 Go de mémoire unifiée et capable de faire tourner localement des modèles de 120 milliards de paramètres, accompagnée de primitives de sécurité pour agents sur Windows. OpenAI, de son côté, étoffait Codex avec le contrôle à distance de machines sous Windows et un SDK Python. La convergence de ces annonces dessine une infrastructure commune qui rapproche les modèles frontières du poste de travail et ouvre la voie à des agents autonomes opérant directement sur les appareils des utilisateurs.

UELes workflows dynamiques de Claude Code offrent aux développeurs européens une nouvelle capacité d'orchestration parallèle pour leurs agents IA en production ; l'IPO potentielle d'Anthropic à près de 1 000 milliards de dollars pourrait également remodeler les standards de valorisation pour les startups IA européennes.

💬 Les workflows dynamiques dans Claude Code, c'est le vrai gain ici, pas le benchmark. Le modèle peut désormais découper une tâche, déléguer ses parties en parallèle et réassembler le tout sans qu'on câble tout à la main. La conso de tokens va piquer, mais un modèle plus honnête sur ses propres erreurs de code (Simon Willison l'a bien noté), ça compte plus à mes yeux que tripler un score ARC-AGI-3.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian
30MarkTechPost 

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

L'équipe Qwen d'Alibaba a lancé le 2 juin 2026 le modèle Qwen3.7-Plus, désormais disponible via API sur la plateforme Bailian d'Alibaba Cloud, accessible aux développeurs internationaux sous le nom Model Studio. Ce modèle multimodal comprend les images et les vidéos en plus du texte, ce qui le distingue de son frère jumeau Qwen3.7-Max, exclusivement textuel. Il s'agit d'une capacité de lecture visuelle, non de génération : Qwen3.7-Plus analyse des médias, il ne les crée pas. Au-delà de la vision, le modèle intègre cinq capacités agentiques : raisonnement approfondi, autoprogrammation (il écrit et révise son propre code), invocation d'outils externes et d'API, vérification et test des résultats, et itération autonome jusqu'à l'accomplissement complet d'une tâche. La préversion du modèle s'est classée 16e au classement Vision Arena de LM Arena, plaçant Alibaba au 5e rang mondial des laboratoires en compréhension visuelle. Le modèle texte Max, de son côté, avait obtenu 56,6 points sur l'Artificial Analysis Intelligence Index, meilleur score d'un modèle chinois à sa sortie. Cette sortie marque un tournant dans la stratégie d'Alibaba : le groupe ne cherche plus seulement à rivaliser sur les benchmarks de raisonnement, mais à proposer des modèles capables d'exécuter des tâches longues et complexes de façon autonome. Pour les développeurs et les entreprises, cela ouvre des cas d'usage concrets comme l'analyse OCR à grande échelle, la lecture automatique de graphiques, l'analyse de séquences vidéo, ou encore l'automatisation de workflows techniques complets. La plateforme Bailian embarque deux mécanismes complémentaires : un système d'apprentissage par renforcement agentique (Agentic RL) qui affine la précision du modèle grâce aux retours d'exécution réels, et des garde-fous de sécurité intégrés pour maintenir les outils autonomes dans des limites opérationnelles prédéfinies, un détail crucial lorsqu'un agent exécute des commandes ou modifie des fichiers en production. Ce lancement s'inscrit dans la vague de modèles agentiques qui déferle sur l'industrie depuis début 2026, face à des acteurs comme OpenAI, Google DeepMind et Anthropic. Alibaba avait déjà dévoilé la génération Qwen3.7 en mai 2026, et la sortie de la variante multimodale complète maintenant l'offre de la famille. Le positionnement au 5e rang mondial en vision, malgré un retard encore visible sur les premiers laboratoires américains, confirme que les équipes chinoises se rapprochent du front technologique à un rythme soutenu. L'enjeu pour Alibaba est de transformer Bailian en plateforme de référence pour les entreprises cherchant à déployer des agents IA capables d'agir dans des environnements réels, pas seulement de répondre à des questions, une bataille qui s'annonce centrale dans les prochains mois.

UELes développeurs et entreprises françaises peuvent accéder dès maintenant à Qwen3.7-Plus via l'API internationale Model Studio, offrant une alternative compétitive aux modèles américains pour des cas d'usage agentiques et d'analyse visuelle.

LLMsOpinion
1 source
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
31MarkTechPost 

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking. Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle. Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

UEJetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

LLMsOpinion
1 source
NVIDIA lance Cosmos 3, Nemotron 3 Ultra et RTX Spark
32Latent Space 

NVIDIA lance Cosmos 3, Nemotron 3 Ultra et RTX Spark

NVIDIA a profité de la semaine du Computex 2026 à Taïwan pour lancer plusieurs modèles ouverts majeurs. Le plus attendu est Cosmos 3, une famille de modèles de monde omnimodaux capables de traiter simultanément le langage, l'image, la vidéo, l'audio et les actions physiques. L'architecture repose sur un mélange de transformeurs (Mixture-of-Transformers) combinant un raisonneur autorégressif et un générateur par diffusion, déclinée en deux versions : Nano (16 milliards de paramètres, deux tours de 8B) et Super (64 milliards, deux tours de 32B). Artificial Analysis a immédiatement classé Cosmos 3 en première position parmi les modèles ouverts sur ses classements Text-to-Image et Image-to-Video. NVIDIA a également annoncé Nemotron 3 Ultra, un modèle de langage de 550 milliards de paramètres dont 55 milliards actifs, salué comme le meilleur modèle ouvert américain à ce jour, capable de générer plus de 300 tokens par seconde selon certaines configurations. Enfin, le RTX Spark, un superchip personnel atteignant 1 pétaflop, a été présenté en partenariat avec Microsoft et OpenClaw. Ces annonces marquent un tournant dans la stratégie ouverte de NVIDIA. En publiant poids, code, jeux de données et recettes de fine-tuning pour Cosmos 3, l'entreprise positionne ses modèles comme une infrastructure commune pour l'IA physique, robotique, véhicules autonomes, simulation industrielle. La Cosmos Coalition, lancée avec des partenaires dont Runway, vise à construire un écosystème ouvert autour de ces modèles de monde. Pour Nemotron 3 Ultra, la communauté a réagi avec un enthousiasme inhabituel : sa densité d'activation, autour de 10 % contre 3 % pour des concurrents comme DeepSeek V4 ou Kimi K2, le rend à la fois plus coûteux à faire tourner, mais potentiellement plus prévisible en comportement, ce qui intéresse les entreprises cherchant de la fiabilité à grande échelle. Ces sorties s'inscrivent dans une semaine particulièrement dense pour les modèles ouverts. MiniMax a simultanément lancé M3, un modèle agent multimodal avec 1 million de tokens de contexte, affichant 59 % sur SWE-Bench Pro et un support immédiat chez Vercel, Cloudflare et Novita. Qwen3.7-Plus et Mellum2 de JetBrains ont également été publiés dans la même fenêtre. NVIDIA cherche à consolider sa domination au-delà du matériel : en proposant des modèles de référence ouverts pour l'IA physique, la société se place au cœur de la chaîne de valeur logicielle, là où Google et Meta se livrent déjà bataille. La convergence entre le RTX Spark, Cosmos 3 et l'écosystème de partenaires suggère une ambition claire : faire du PC local le prochain terrain de déploiement de l'IA agentique.

UELes poids, code et données d'entraînement de Cosmos 3 et Nemotron 3 Ultra étant publiés en open source, les entreprises et laboratoires européens peuvent les adopter sans dépendance à une API propriétaire américaine, ouvrant de nouvelles options pour l'IA physique et les grands modèles de langage.

💬 NVIDIA ne se contente plus de vendre des GPU, il cherche à posséder la pile logicielle de l'IA physique. Cosmos 3 open source avec poids et données, Nemotron Ultra pour la fiabilité en prod, RTX Spark pour le local, c'est une stratégie trop cohérente pour être coïncidence. Google et Meta sont déjà sur ce terrain, sauf qu'eux ne contrôlent pas le silicium en dessous.

LLMsOpinion
1 source
MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes
33MarkTechPost 

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie. Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production. L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.

LLMsActu
1 source
Nouveaux modèles d’IA, Windows repensé… Microsoft prépare du lourd pour Build 2026
34Le Big Data 

Nouveaux modèles d’IA, Windows repensé… Microsoft prépare du lourd pour Build 2026

Microsoft tiendra sa conférence annuelle Build 2026 dans les prochaines semaines, et les premières fuites dessinent un programme particulièrement dense. L'entreprise préparerait le lancement d'un nouveau modèle de raisonnement développé en interne par Microsoft AI, distinct des modèles génératifs classiques : conçu pour analyser les problèmes complexes, il produirait des réponses plus structurées et plus fiables sur des tâches de logique ou de planification. Copilot, l'assistant omnipresent de Microsoft, devrait lui aussi évoluer vers une version plus ambitieuse, décrite en interne comme une "super application" consolidant l'ensemble des services de l'écosystème Microsoft dans une interface unique. Côté Windows 11, plusieurs nouveautés sont attendues : amélioration des performances, réécriture de composants système pour gagner en réactivité, et une expérience dédiée aux développeurs avec des outils préinstallés, des scripts prêts à l'emploi et un environnement simplifié dès le démarrage. Ces annonces interviennent à un moment charnière pour Microsoft. La firme de Redmond a massivement investi dans l'IA depuis son partenariat avec OpenAI, mais doit maintenant prouver que ces investissements se traduisent en produits concrets et différenciants. Le nouveau modèle de raisonnement signalerait une volonté de ne plus dépendre uniquement des modèles OpenAI, en développant ses propres capacités maison. L'évolution de Copilot en point d'entrée universel de l'écosystème Microsoft représente un enjeu commercial majeur : si l'assistant devient la porte d'accès à Microsoft 365, Azure, Teams et Windows, c'est toute la fidélisation client qui se joue à travers lui. Pour les développeurs, une expérience Windows rationalisée peut réduire les frictions d'installation et de configuration, un argument de poids face à la popularité persistante de Linux et macOS dans ce segment. Build est historiquement la conférence où Microsoft trace sa feuille de route technique pour les douze mois suivants, et cette édition 2026 s'inscrit dans une compétition exacerbée avec Google, Apple et les acteurs purement IA comme Anthropic ou xAI. Microsoft doit également préparer Windows à la nouvelle génération de puces spécialisées pour l'IA, les NPU intégrés aux processeurs ARM et x86 récents, qui permettent d'exécuter des modèles localement sans passer par le cloud. La capacité du système à tirer parti de ce matériel sera déterminante pour les usages IA embarqués. Si les annonces tiennent leurs promesses, Build 2026 pourrait marquer un tournant réel pour Windows, qui n'a pas connu de refonte en profondeur depuis le passage à Windows 11 en 2021, les développeurs, eux, attendent des démonstrations avant de se laisser convaincre.

UELes entreprises européennes sous Microsoft 365 et Windows seraient directement concernées par l'intégration de capacités IA locales via NPU et l'évolution de Copilot en point d'entrée universel de l'écosystème.

LLMsOpinion
1 source
MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût
35VentureBeat AI 

MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût

La startup chinoise MiniMax a lancé dimanche soir son modèle de langage MiniMax-M3, se positionnant d'emblée comme une alternative redoutable aux modèles propriétaires américains. Disponible via l'API MiniMax à un tarif promotionnel de 0,30 dollar par million de tokens en entrée et 1,20 dollar par million en sortie, le modèle affiche des performances supérieures à GPT-5.5 d'OpenAI et à Gemini 3.1 Pro de Google sur plusieurs benchmarks clés, pour 5 à 10 % de leur coût. Même à plein tarif, 0,60 dollar l'entrée et 2,40 dollars la sortie, M3 revient à seulement 8 à 20 % du prix des grands modèles propriétaires concurrents. L'entreprise a également annoncé la mise à disposition sous licence open source avec poids ouverts dans les dix prochains jours, permettant aux entreprises de télécharger et personnaliser le modèle gratuitement. M3 intègre par ailleurs une fenêtre de contexte d'un million de tokens, une multimodalité native, et des capacités avancées en codage et en traitement de tâches agentiques, avec un abonnement mensuel à partir de 20 dollars. Ce lancement remet en question une règle non écrite du secteur : les développeurs devaient jusqu'ici choisir entre des modèles fermés très performants mais coûteux, ou des modèles open source accessibles mais limités sur les raisonnements complexes et les longues séquences. MiniMax-M3 brouille cette frontière en combinant performance de pointe et coût marginal, ce qui pourrait redistribuer les cartes pour les équipes de développement cherchant à intégrer des capacités d'IA avancées sans exploser leurs budgets d'inférence. La possibilité de déployer les poids en local renforce encore l'intérêt pour les entreprises soucieuses de confidentialité ou cherchant à s'affranchir de dépendances API. Cette percée s'inscrit dans un mouvement plus large de rattrapage des laboratoires chinois face aux géants américains. DeepSeek, Alibaba avec Qwen, Moonshot via Kimi et désormais MiniMax publient à un rythme soutenu des modèles compétitifs à des prix agressifs, alimentant une guerre tarifaire qui contraint OpenAI, Google et Anthropic à revoir leurs propres grilles. Sur le plan technique, M3 repose sur une architecture originale baptisée MiniMax Sparse Attention, qui rompt avec les mécanismes d'attention traditionnels dont le coût de calcul croît quadratiquement avec la longueur des séquences. En découpant les matrices clé-valeur en blocs ciblés lus une seule fois, cette approche permet d'être plus de quatre fois plus rapide que des alternatives open source comparables sur de longues séquences. La disponibilité imminente des poids ouverts pourrait transformer M3 en référence de facto pour les entreprises cherchant un modèle frontier déployable en interne.

UELes développeurs et entreprises européens disposent d'une alternative frontier open source déployable localement, réduisant la dépendance aux API américaines et les coûts d'inférence de 80 à 95 %.

💬 C'est le lancement qui va forcer OpenAI et Google à bouger leurs prix, et cette fois c'est difficile à ignorer. 5 à 10 % du coût avec les benchmarks qui suivent, et les poids ouverts dans dix jours pour déployer en local, si tu travailles avec des LLMs tu vas regarder ça de près. Reste à voir ce que ça donne en conditions réelles, mais l'architecture Sparse Attention sur les longues séquences, c'est une vraie proposition technique, pas juste du dumping tarifaire.

LLMsOpinion
1 source
MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?
36Le Big Data 

MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?

Le 1er juin 2026, la société chinoise MiniMax a lancé M3, son nouveau modèle d'intelligence artificielle à poids ouverts. Il s'agit du premier modèle open weight à combiner trois capacités jusqu'ici réservées aux systèmes propriétaires : une fenêtre contextuelle d'un million de jetons, des performances de pointe en programmation et en agents autonomes, ainsi qu'une prise en charge native du texte et des images. Sur SWE-Bench Pro, le benchmark de référence pour la résolution de problèmes logiciels réels, M3 obtient 59 %, dépassant GPT-5.5 et Gemini 3.1 Pro selon MiniMax. Il atteint également 66 % sur Terminal-Bench 2.1, 74,2 % sur Atlas MCP et 83,5 sur BrowseComp, score qui surpasserait Claude Opus 4.7. Le modèle est déjà accessible via l'API officielle de MiniMax et son agent de développement MiniMax Code, tandis que les poids ouverts seront publiés sur Hugging Face et GitHub dans une dizaine de jours. Ce lancement est significatif parce qu'il réduit concrètement la barrière entre modèles open source et systèmes propriétaires de premier rang. L'architecture repose sur une technologie maison appelée MiniMax Sparse Attention (MSA), qui identifie les informations pertinentes avant de concentrer les calculs sur elles : résultat, le coût de calcul par jeton est divisé par vingt sur un contexte d'un million de jetons, le traitement des entrées est neuf fois plus rapide que sur la génération précédente, et la génération de réponses gagne un facteur supérieur à quinze. La vitesse de production avoisine 100 jetons par seconde, environ trois fois celle de Claude Opus. Pour les développeurs et les entreprises qui cherchent à déployer des agents autonomes sans dépendre d'APIs propriétaires à coût élevé, M3 représente une option crédible et, surtout, inspecTable. MiniMax est une startup fondée à Shanghai qui opère depuis plusieurs années dans l'ombre des géants américains et de ses concurrents chinois comme Baidu ou Zhipu AI. Avec M3, elle entre directement en compétition avec Anthropic, Google et OpenAI sur le segment haut de gamme, mais avec la carte distinctive de l'ouverture des poids. Le contexte réglementaire et géopolitique autour de l'IA chinoise reste tendu, ce qui rend d'autant plus remarquable qu'une entreprise de ce pays publie un modèle en open weight à ce niveau de performance. Des validations indépendantes seront nécessaires : une partie des benchmarks ont été conduits sur l'infrastructure de MiniMax elle-même. La publication imminente des poids permettra à la communauté de vérifier ces affirmations, et les semaines qui suivent diront si M3 tient ses promesses dans des conditions réelles d'utilisation.

UEL'arrivée d'un modèle open weight performant réduit la dépendance des entreprises et développeurs européens aux APIs propriétaires américaines à coût élevé.

💬 Un million de jetons, des scores d'agent au niveau des meilleurs modèles fermés, et les poids open source dans dix jours : si tout ça se confirme, c'est une vraie gifle pour les APIs propriétaires. Le calcul change pour ceux qui veulent déployer des agents sans facturer à chaque appel. Les benchmarks sont en partie auto-déclarés, donc on attend les poids sur HuggingFace, mais là MiniMax joue dans la cour des grands pour de bon.

LLMsOpinion
1 source
OpenAI améliore la lisibilité de GPT-5.5 Instant et retire deux anciens modèles
37The Decoder 

OpenAI améliore la lisibilité de GPT-5.5 Instant et retire deux anciens modèles

OpenAI vient d'annoncer une mise à jour de GPT-5.5 Instant destinée à produire des réponses plus naturelles et plus lisibles. En parallèle, la société retire la fonctionnalité Canvas de ses modèles les plus récents : les tâches de rédaction et de programmation s'effectueront désormais directement dans l'interface de chat, sans environnement séparé. OpenAI annonce également la fin de deux modèles plus anciens, o3 et GPT-4.5, qui seront définitivement retirés de ChatGPT d'ici août 2026 au plus tard. Ces changements reflètent une stratégie de rationalisation du portefeuille de modèles d'OpenAI. Supprimer Canvas au profit d'une expérience intégrée au chat simplifie l'interface pour les utilisateurs tout en concentrant les efforts de développement sur les modèles de nouvelle génération. La retraite d'o3 et de GPT-4.5 signale que la société entend éviter la fragmentation de son offre, qui multipliait les options aux performances et aux coûts variables pour les développeurs comme pour les abonnés. Cette consolidation intervient dans un contexte de forte compétition, où Anthropic, Google et Meta poussent leurs propres familles de modèles à un rythme soutenu. OpenAI cherche à clarifier sa gamme après une période marquée par une prolifération rapide de variantes, o1, o3, GPT-4o, GPT-4.5, GPT-5, parfois difficile à suivre même pour les professionnels. La suppression progressive des modèles anciens laisse présager une architecture plus lisible autour de GPT-5 et de ses déclinaisons directes dans les mois à venir.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront planifier la migration de leurs intégrations basées sur o3 ou GPT-4.5 avant août 2026.

💬 Enfin du ménage. Le catalogue OpenAI était devenu franchement illisible, avec o1, o3, GPT-4o, GPT-4.5 qui se marchaient dessus en termes de positionnement et de coût, sans qu'on comprenne vraiment quoi choisir pour quel usage. La date d'août 2026 pour retirer o3 et GPT-4.5 laisse le temps de planifier les migrations, c'est au moins ça.

LLMsOpinion
1 source
Adieu GPT-4 : OpenAI tourne définitivement la page
38Le Big Data 

Adieu GPT-4 : OpenAI tourne définitivement la page

OpenAI a annoncé la suppression définitive de GPT-4.5 de ChatGPT à compter du 27 juin 2026, suivie du retrait du modèle de raisonnement o3 le 26 août 2026. Ces deux départs marquent la disparition complète de la série GPT-4 de la plateforme, une famille de modèles qui comprenait jusqu'à cinq variantes, GPT-4o, o3, o4 mini, GPT-4.1 et GPT-4.5, chacune avec ses propres spécificités. Les utilisateurs abonnés disposent encore de quelques semaines pour utiliser ces modèles avant leur retrait définitif. La décision s'inscrit dans une logique de rationalisation des ressources : OpenAI préfère concentrer son infrastructure sur les générations les plus récentes, jugées plus performantes, plus rapides et aux capacités élargies. Ce retrait referme un chapitre fondateur de l'histoire récente de l'intelligence artificielle. Lors de son lancement en 2023, GPT-4 avait représenté un basculement majeur : pour la première fois, un modèle généraliste pouvait rédiger, analyser des images, résoudre des problèmes complexes et converser avec une fluidité inédite, faisant passer l'IA du statut de curiosité technologique à celui d'outil professionnel concret. Sur le réseau social X, de nombreux utilisateurs ont exprimé leur déception, certains estimant que GPT-4.5 restait supérieur pour les tâches d'écriture, d'autres regrettant le comportement spécifique d'o3. Ce phénomène illustre une réalité que les benchmarks ne capturent pas : les utilisateurs développent des habitudes autour d'un ton, d'une manière de formuler les réponses, d'une forme de "personnalité" perçue dans le modèle, créant un attachement difficile à transférer même vers des systèmes techniquement plus puissants. La retraite de GPT-4 s'inscrit dans un cycle d'accélération sans précédent chez OpenAI, qui enchaîne les lancements depuis début 2025 avec GPT-4o, puis les modèles o-series, puis la série GPT-4.1, compressant en quelques mois ce qui représentait autrefois plusieurs années d'itération. Ce rythme pose des questions structurelles pour les entreprises et développeurs qui ont intégré ces modèles dans leurs produits via l'API, chaque retrait implique des migrations et des ajustements de prompts. À mesure qu'OpenAI pousse vers ses nouveaux modèles comme GPT-4.1 et les futures versions de la série o, la question de la continuité comportementale des modèles devient un enjeu aussi important que la performance brute, surtout pour les cas d'usage professionnels où la prévisibilité prime sur la puissance.

UELes développeurs et entreprises français et européens intégrant GPT-4.5 ou o3 via l'API OpenAI devront planifier des migrations avant les dates de retrait (27 juin et 26 août 2026).

💬 La vraie news, c'est pas le retrait de GPT-4.5, c'est qu'OpenAI enchaîne les deprecations plus vite que les équipes ont le temps de migrer. Tu calibres tes prompts pendant six mois sur o3, tu apprécies son ton particulier, et hop, c'est fini. La performance brute sur les benchmarks, ça compte, mais la prévisibilité du comportement c'est ce que les équipes prod regardent vraiment.

LLMsOpinion
1 source
Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier
39VentureBeat AI 

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Pinterest a réduit de 90 % le coût de son infrastructure d'intelligence artificielle en procédant à une modification radicale du modèle open source Qwen3-VL, développé par Alibaba. Matt Madrigal, directeur technique de Pinterest, a révélé que son équipe a littéralement supprimé la couche d'encodage visuel du modèle pour la remplacer par des embeddings propriétaires, construits à partir des données uniques de la plateforme. Cette intervention chirurgicale sur les couches internes du modèle n'a pas seulement allégé la facture : elle a également amélioré la précision des recommandations de 30 %. Le résultat alimente notamment Navigator 1, l'assistant de shopping conversationnel de Pinterest, utilisé par ses 620 millions d'utilisateurs mensuels. L'enjeu technique est considérable. Sans ces embeddings précalculés, chaque image retournée par le moteur de recommandation devrait être encodée en temps réel, une par une, au moment de l'inférence. Selon Madrigal, cela représente une latence "20 fois plus élevée" du point de vue des performances. En précalculant ces représentations hors ligne et en les réactualisant régulièrement, Pinterest évite ce goulot d'étranglement tout en personnalisant l'expérience à une échelle que peu d'entreprises doivent gérer. La stratégie illustre une logique désormais bien ancrée dans l'industrie : lorsque les données propriétaires sont suffisamment riches et distinctives, leur qualité peut compenser une taille de modèle plus modeste. "La qualité des données l'emportera sur la taille du modèle", a résumé Madrigal. Pinterest s'appuie sur des modèles open source depuis plusieurs années, notamment Google BERT et OpenAI CLIP, sur lequel il a construit son propre modèle Pin CLIP. Cette trajectoire d'internalisation progressive s'inscrit dans une stratégie plus large autour d'un "taste graph" : une représentation dynamique des goûts individuels de chaque utilisateur, actualisée en continu selon ses interactions. Contrairement à un graphe social, il s'agit d'un graphe de préférences conçu pour guider l'utilisateur depuis la phase d'inspiration diffuse jusqu'à l'acte d'achat. Dans un secteur où les géants du cloud font pression pour verrouiller les entreprises dans leurs API propriétaires, le choix de Pinterest de personnaliser en profondeur des modèles sous licence Apache ouverte signale une tendance de fond : les grandes plateformes préfèrent investir dans la maîtrise technique plutôt que dans la dépendance à des modèles frontières coûteux et peu adaptables à leurs cas d'usage spécifiques.

💬 Enlever la couche vision d'un LLM multimodal pour la remplacer par tes propres embeddings, c'est le genre de hack que je n'oserais pas si je n'avais pas une confiance béton dans mes données. Pinterest a osé, et -90% sur la facture avec +30% en précision, c'est le résultat que tu rêves mais que tu crois jamais possible avant de l'avoir fait. Madrigal a raison sur un point : quand tes données sont suffisamment spécifiques, un modèle taillé sur mesure bat un frontier généraliste à dix fois le prix.

LLMsOpinion
1 source
Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté
40Le Big Data 

Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté

Anthropic a lancé Claude Opus 4.8 le 28 mai 2026, avec une promesse inhabituelle dans le secteur : moins d'affirmations non étayées et davantage de doutes assumés. Disponible immédiatement sur Claude et via l'API sous la référence claude-opus-4-8, le modèle conserve la tarification de son prédécesseur Opus 4.7, soit 5 dollars par million de tokens en entrée et 25 dollars en sortie. La nouveauté la plus concrète concerne la fiabilité du code : selon Anthropic, Opus 4.8 serait environ quatre fois moins susceptible de laisser passer sans avertissement des failles dans le code qu'il a lui-même généré. Le modèle vérifie davantage ses propres sorties avant de les restituer, et signale plus systématiquement ses incertitudes. Un mode rapide promet en outre une vitesse 2,5 fois supérieure à coût réduit. L'enjeu n'est pas anodin. Le vrai problème des modèles de langage n'est pas tant l'erreur que l'erreur présentée avec aplomb, transformant un bug en dette technique invisible. Dans les usages professionnels, revues de code, migrations de systèmes, analyses de documents longs, une approximation confiante peut contaminer l'ensemble d'un travail. Si Opus 4.8 tient sa promesse d'honnêteté, l'impact est direct pour les équipes d'ingénierie qui utilisent l'IA comme copilote. En parallèle, le modèle intègre en avant-première une capacité étendue dans Claude Code : planifier des tâches complexes et lancer des centaines de sous-agents en parallèle pour s'attaquer à des migrations de bases de code comptant des centaines de milliers de lignes. Cette montée en puissance vers l'orchestration rend la question de l'honnêteté encore plus structurante. Plus un modèle délègue à des agents autonomes, moins l'utilisateur peut surveiller chaque étape intermédiaire. Anthropic s'inscrit ici dans une tendance lourde : tous les grands laboratoires, OpenAI, Google DeepMind, cherchent à faire de leurs modèles de véritables chefs de projet capables de superviser des pipelines automatisés. Le risque, si la vérification interne n'est pas à la hauteur, est d'obtenir une usine à erreurs distribuées à grande échelle. Le verdict d'Opus 4.8 ne viendra pas des benchmarks officiels mais des développeurs confrontés à des migrations réelles, des audits de sécurité ou des analyses juridiques où une réponse prudente vaut mieux qu'une réponse rapide et fausse.

UELes équipes de développement françaises et européennes utilisant Claude via l'API peuvent adopter immédiatement Opus 4.8 pour leurs audits de code et migrations, sans surcoût par rapport à Opus 4.7.

💬 C'est le vrai problème des LLMs qu'Anthropic cible enfin : pas l'erreur, mais l'erreur dite avec confiance. Quatre fois moins de failles passées en silence dans le code généré, si ça tient hors benchmarks maison, tu peux commencer à lui confier des migrations réelles sans te retrouver avec une usine à dette technique. Le verdict ne viendra pas des slides Anthropic.

LLMsOpinion
1 source
Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?
41Le Big Data 

Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?

Anthropic a lancé Claude Opus 4.8 le 28 mai 2026, seulement 41 jours après la version 4.7, un rythme inhabituel dans un secteur où les nouvelles versions majeures nécessitent généralement plusieurs mois. Disponible au même prix que son prédécesseur, ce modèle affiche des progrès mesurables sur plusieurs benchmarks clés : 84 % sur Online-Mind2Web, qui évalue les interactions autonomes avec des interfaces numériques, et des gains notables sur Terminal-Bench 2.1, dédié à la programmation en ligne de commande. Plus frappant encore, les évaluations internes d'Anthropic indiquent que le modèle est environ quatre fois moins susceptible de laisser passer des erreurs dans son propre code qu'Opus 4.7. Sur le plan fonctionnel, les utilisateurs de Claude AI ont désormais accès à cinq niveaux de raisonnement ajustables, tandis que Claude Code intègre les Dynamic Workflows, permettant de planifier des tâches complexes en mobilisant plusieurs sous-agents en parallèle sur de larges bases de code. Ce qui distingue Opus 4.8 ne réside pas uniquement dans les scores, mais dans un changement de philosophie profond : le modèle a été conçu pour mieux reconnaître ses propres limites et signaler ses incertitudes plutôt que de produire des réponses erronées avec assurance. Dans un contexte professionnel où une IA trop confiante peut induire en erreur des équipes entières, cette prudence constitue une valeur ajoutée concrète. Pour les développeurs qui utilisent Claude Code dans des pipelines agentiques, la réduction des erreurs non détectées et la capacité à orchestrer des sous-agents en parallèle ouvrent des cas d'usage jusqu'ici trop risqués pour être déployés en production. Le gain d'efficacité est également tangible : le modèle atteint des résultats équivalents en moins d'étapes intermédiaires, ce qui réduit les coûts d'inférence sur les longues tâches. Cette version s'inscrit dans une période de concurrence intense entre Anthropic, OpenAI et Google, où chaque éditeur cherche à dominer le segment des agents autonomes. La version 4.7 avait suscité des critiques sur ses comportements imprévisibles et sa tendance à l'excès de confiance, des défauts qui nuisaient à l'adoption en entreprise. En répondant directement à ces reproches en moins de six semaines, Anthropic signale qu'il est capable d'itérer aussi vite que ses rivaux sans sacrifier la fiabilité. La question qui demeure ouverte est celle de la durabilité de ce rythme : à 41 jours par version, l'entreprise devra démontrer que la qualité peut tenir la cadence.

UELes équipes de développement européennes utilisant Claude Code dans des pipelines agentiques bénéficient des améliorations de fiabilité et de la réduction des coûts d'inférence, sans impact réglementaire ou institutionnel spécifique à la France ou l'UE.

💬 41 jours entre deux versions majeures, c'est du jamais vu chez Anthropic. Ce qui compte vraiment là-dedans, c'est pas les scores (on peut faire dire ce qu'on veut aux benchmarks), c'est que le modèle est maintenant conçu pour signaler ses incertitudes plutôt que d'affirmer des erreurs avec aplomb, et en pipeline agentique, c'est la différence entre un outil qu'on ose déployer en prod et un truc qu'on surveille en permanence. Reste à voir si ce rythme tient dans 3 mois.

LLMsOpinion
1 source
SLM (Small Language Models) : ces modèles IA conviennent-ils aux entreprises ?
42Le Big Data 

SLM (Small Language Models) : ces modèles IA conviennent-ils aux entreprises ?

Face à la montée en puissance des grands modèles de langage généralistes, une nouvelle tendance s'installe dans les entreprises : les SLM, ou Small Language Models. Ces modèles compacts fonctionnent avec un nombre réduit de paramètres et sont entraînés sur des jeux de données ciblés plutôt que sur l'intégralité du web. Contrairement aux LLM classiques qui nécessitent des serveurs spécialisés et des centres de calcul coûteux, les SLM peuvent tourner directement sur l'infrastructure interne d'une entreprise. Leur architecture allégée leur permet d'être déployés sur des machines standard, sans dépendance au cloud. La contrepartie est claire : leur base de connaissances est volontairement restreinte, ce qui rend la qualité des données d'entraînement absolument critique. Un SLM mal entraîné sur des données médiocres devient rapidement inutilisable. L'attrait concret pour les entreprises tient à quatre avantages opérationnels majeurs. D'abord, le coût : chaque requête vers un grand modèle distant génère une dépense, alors qu'un SLM local traite les données sans frais supplémentaires. Ensuite, la vitesse : sans traversée des couches réseau, les réponses arrivent sensiblement plus vite. La confidentialité constitue un troisième argument de poids : aucun document ne quitte le réseau interne, ce qui répond directement aux exigences de nombreux secteurs réglementés comme la finance, la santé ou le juridique. Enfin, la sobriété énergétique : ces modèles consomment nettement moins de ressources matérielles, ce qui réduit à la fois la facture électrique et les besoins en équipement. Un assistant SLM dédié au support client peut par exemple maîtriser parfaitement les procédures internes et les produits d'une entreprise, sans aucun risque de fuite de données vers un tiers. Ce tournant vers les SLM s'inscrit dans une remise en question plus large d'une décennie de course aux grands modèles. Pendant longtemps, l'industrie technologique a postulé que la taille était synonyme de performance, justifiant des investissements colossaux en infrastructure cloud. Cette logique atteint ses limites économiques et pratiques pour une majorité d'entreprises qui n'ont pas les moyens ni les besoins de Google ou Microsoft. Les grands acteurs ont d'ailleurs anticipé ce virage : Microsoft a lancé sa gamme Phi, Google ses modèles Gemma, Meta ses versions légères de LLaMA. La compétition se déplace désormais vers l'efficience plutôt que la seule puissance brute. Pour les organisations qui cherchent une IA fiable, rapide et maîtrisée, les SLM représentent une voie d'adoption plus réaliste que le recours systématique aux géants du cloud.

UELes SLM représentent une option stratégique pour les entreprises européennes soumises au RGPD, permettant de traiter des données sensibles en interne sans les transmettre à des services cloud étrangers.

💬 J'ai vu trop de projets IA bloqués au bout de trois mois parce que le DSI refusait d'envoyer des données patients ou des contrats dans le cloud américain. Les SLM répondent exactement à ça : tu gardes tout en interne, ça tourne sur du hardware qu'une PME peut se payer, et le RGPD devient un avantage plutôt qu'un frein. Le seul truc sur lequel faut pas se louper, c'est la qualité des données d'entraînement, parce que compact et mal nourri, ça donne inutilisable en quinze jours.

LLMsOutil
1 source
DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne
43Le Big Data 

DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne

Le modèle DeepSeek V4, développé par la startup chinoise DeepSeek, s'est imposé comme un signal fort de la maturité technologique de la Chine en matière d'intelligence artificielle. Dans une analyse publiée début 2026, Francis Lelong, expert en souveraineté technologique, décortique les mécanismes qui ont permis à Pékin de contourner les sanctions américaines sur les semi-conducteurs. Loin de freiner Pékin, ces restrictions ont fonctionné comme un accélérateur : privée d'accès direct aux puces Nvidia haut de gamme, la Chine a investi massivement dans sa propre chaîne de valeur, des terres rares aux modèles de langage, en passant par la conception de ses propres composants. Le résultat est un écosystème d'IA de plus en plus autonome, capable de proposer des LLM ouverts et paramétrables compétitifs face aux offres américaines, à l'image de ce que Mistral AI incarne en Europe. L'enjeu dépasse largement la performance technique des chatbots. Lelong rappelle qu'un modèle d'IA n'est jamais culturellement neutre : il encode les valeurs, les biais et les priorités politiques de ses concepteurs. La montée en puissance de l'IA chinoise représente donc un levier de soft power considérable, capable d'exporter une vision du monde à travers chaque interaction. Sur le plan économique, l'ouverture de data centers est comparée par Lelong à un déploiement instantané de "millions de cerveaux synthétiques" : dans un contexte de vieillissement démographique mondial, le travail synthétique déplace la valeur du capital humain et devient un moteur de croissance incontournable pour éviter la stagnation. La compétition sino-américaine profite paradoxalement aux entreprises mondiales, qui bénéficient d'une offre élargie et de coûts réduits. Cette course technologique s'inscrit dans une rivalité géopolitique structurelle, comparable à la course spatiale des années 1960, mais avec une dimension culturelle et économique bien plus diffuse. Les sanctions américaines, selon Lelong, ne feront que retarder l'inévitable : la Chine avait déjà tracé sa trajectoire d'indépendance technologique, couvrant le spatial, le quantique, l'énergie et le nucléaire. L'affaire Manus, où Pékin a repris le contrôle d'une startup acquise par Meta, est interprétée non comme un acte de souveraineté assumée, mais comme un signal inquiétant envoyé aux jeunes talents et aux investisseurs. C'est dans ce contexte que l'Europe est interpellée dans son absence stratégique : ni le modèle fermé et capitalistique américain, ni le modèle ouvert mais politiquement contrôlé chinois ne correspond aux valeurs européennes. Définir une troisième voie, à l'image du succès relatif de Mistral, reste l'urgence que Lelong juge encore sans réponse collective à l'échelle du continent.

UELa montée en puissance de DeepSeek et de l'IA chinoise renforce l'urgence pour l'Europe de définir une troisième voie souveraine, Mistral restant pour l'instant la seule réponse partielle à l'échelle du continent.

💬 Les sanctions américaines censées bloquer Pékin leur ont offert le meilleur des accélérateurs : construire leur propre chaîne, du silicium au modèle. Pendant ce temps, l'Europe a Mistral et beaucoup de colloques sur la souveraineté numérique. C'est pas faute d'avoir été prévenus.

LLMsReglementation
1 source
Avec Opus 4.8, Claude apprend à dire « je ne sais pas »
44Next INpact 

Avec Opus 4.8, Claude apprend à dire « je ne sais pas »

Anthropic a lancé Opus 4.8 le 29 mai 2026, soit seulement quarante jours après la sortie d'Opus 4.7, confirmant un rythme de publication particulièrement soutenu pour son modèle le plus avancé. Le nouveau modèle introduit plusieurs améliorations ciblées : une meilleure gestion de l'incertitude, une fonction expérimentale baptisée "dynamic workflows" pour Claude Code, et un ajustement significatif du coût du mode rapide. Sur les benchmarks, les gains restent incrémentaux mais cohérents : +4,9 points sur SWE-Bench Pro et +8,5 points sur Terminal-Bench. Opus 4.8 s'impose nettement devant GPT-5.5 et Gemini 3.1 Pro sur les tâches d'agents de programmation, même si le modèle d'OpenAI conserve l'avantage sur Terminal-Bench. En mode rapide, la tarification a été divisée par trois : 10 dollars par million de tokens en entrée et 50 dollars en sortie, contre 30 et 150 dollars sur Opus 4.7, pour un traitement 2,5 fois plus rapide. Le changement le plus notable d'Opus 4.8 est comportemental : le modèle signale désormais plus facilement ses incertitudes, évite les affirmations non vérifiées et serait environ quatre fois moins susceptible de laisser passer des bugs sans les mentionner. Pour les équipes de développement qui utilisent Claude Code en production, c'est un gain de fiabilité concret. La fonction "dynamic workflows" pousse plus loin cette logique : face à de très grands projets logiciels, le modèle peut les découper automatiquement, lancer des centaines de sous-agents en parallèle et vérifier les résultats avant de répondre. Anthropic cite en exemple des migrations de bases de code contenant des centaines de milliers de lignes, un type de tâche où les hallucinations silencieuses et les bugs non détectés coûtent cher. Anthropic répond ici à une critique précise qui avait accompagné le lancement d'Opus 4.7 : sa consommation élevée de tokens, jugée excessive par de nombreux utilisateurs de Claude Code. En introduisant un curseur d'effort ajustable dans claude.ai et Cowork, la startup permet à l'utilisateur de choisir le niveau de ressources allouées à chaque requête, du mode économique au mode haute précision. Par défaut, Opus 4.8 reste réglé sur un effort élevé, censé offrir le meilleur équilibre entre qualité et vitesse, mais avec une consommation équivalente à Opus 4.7 pour de meilleures performances. Cette évolution s'inscrit dans une stratégie commerciale clairement orientée vers les développeurs et les entreprises, où la fiabilité des agents autonomes et la maîtrise des coûts d'inférence sont devenus des critères d'achat aussi importants que les scores aux benchmarks.

UELa division par trois du tarif du mode rapide rend Opus 4.8 plus accessible aux équipes de développement européennes qui utilisent l'API Claude en production.

💬 Le prix divisé par trois en mode rapide, ça va enfin débloquer des équipes qui hésitaient sur les budgets API. Le changement le plus utile reste comportemental : un modèle qui te dit qu'il n'est pas sûr plutôt que de t'inventer une réponse confiante dans une migration de cent mille lignes, c'est exactement ce qui manquait pour lâcher les rênes en prod. Quarante jours entre deux Opus.

LLMsOpinion
1 source
Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?
45Le Big Data 

Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?

Liquid AI a lancé le 28 mai 2026 son nouveau modèle LFM2.5-8B-A1B, une intelligence artificielle conçue pour fonctionner directement sur des appareils grand public : smartphones, ordinateurs portables, PC, mais aussi des robots et des serveurs légers. Le modèle repose sur une architecture Mixture-of-Experts (MoE) : il dispose de 8 milliards de paramètres au total, mais n'en active qu'1,5 milliard par requête, ce qui réduit drastiquement les besoins en puissance de calcul. Par rapport à son prédécesseur LFM2-8B-A1B, sorti en 2025, il intègre une fenêtre de contexte élargie de 32 768 à 128 000 tokens, un vocabulaire doublé à 128 000 entrées, et un volume d'entraînement multiplié par trois, passant de 12 à 38 billions de tokens. Il introduit également un raisonnement explicite en chaîne de réflexion avant de produire ses réponses, une première pour cette gamme. Il est compatible nativement avec llama.cpp, MLX, vLLM et SGLang. Cette sortie est significative parce qu'elle cible directement un angle mort de l'IA actuelle : la dépendance au cloud. La quasi-totalité des modèles performants exigent une infrastructure serveur coûteuse, ce qui les rend inaccessibles en usage local ou dans des contextes à faible connectivité. En faisant fonctionner une IA avancée directement sur le matériel de l'utilisateur, Liquid AI ouvre la voie à des applications plus privées, plus réactives et moins onéreuses. L'entreprise revendique les meilleures vitesses de sa catégorie sur CPU comme sur GPU, et des performances comparables à des modèles bien plus lourds sur des benchmarks de suivi d'instructions et de tâches agentiques. Le doublement du vocabulaire améliore aussi concrètement la qualité pour des langues non latines comme l'hindi, le thaï, l'arabe ou l'indonésien, jusqu'ici mal servies par les grands modèles occidentaux. Liquid AI s'inscrit dans un mouvement plus large d'optimisation des modèles dit "edge-first", qui vise à rapprocher l'IA du matériel plutôt que de la centraliser dans des datacenters. Face à des acteurs comme Google avec Gemma, Microsoft avec Phi ou Meta avec Llama, la startup mise sur une architecture hybride originale combinant MoE, GQA et blocs de convolution courte pour se différencier. L'ajout de phases d'apprentissage par renforcement pour réduire les hallucinations et améliorer le raisonnement suit également la tendance imposée par les modèles o1 d'OpenAI et DeepSeek-R1. La suite logique pour Liquid AI sera de démontrer ces performances dans des cas d'usage réels embarqués, là où la vitesse et la frugalité en ressources comptent autant que les scores sur des benchmarks académiques.

LLMsOpinion
1 source
Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?
46Le Big Data 

Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?

Anthropic a lancé le 28 mai 2026 Claude Opus 4.8, la nouvelle version de son modèle phare, disponible immédiatement au même tarif que son prédécesseur Opus 4.7. Le modèle affiche des performances notables sur les benchmarks techniques : 69,2 % sur SWE-Bench Pro et 74,6 % sur Agentic Terminal Coding, des scores qui le placent devant GPT-5.5 d'OpenAI et Gemini 3.1 Pro de Google selon les comparatifs publiés par Anthropic. Dans Claude Code, l'entreprise introduit un système de flux de travail dynamiques capable de générer des scripts JavaScript pour orchestrer des centaines de sous-agents en parallèle. Un utilisateur a rapporté avoir réécrits 750 000 lignes de code en 11 jours grâce à ce système. Un mode rapide est également disponible via la commande /fast : même modèle, vitesse 2,5 fois supérieure, coût réduit de près des deux tiers. La principale promesse d'Opus 4.8 n'est pas spectaculaire mais potentiellement décisive : la fiabilité. Anthropic cible directement le problème des hallucinations et de la fausse confiance qui plombe l'adoption des IA en contexte professionnel. Le modèle serait désormais capable de reconnaître ses propres limites, de signaler ses incertitudes et d'identifier des incohérences dans ses propres analyses avant que l'utilisateur ne s'en aperçoive. Michael Ran de Bridgewater Associates, la plus grande société de gestion de fonds au monde, témoigne que Claude Opus 4.8 repère de lui-même certains problèmes dans les analyses produites, là où d'autres modèles laissaient passer les erreurs silencieusement. Anthropic affirme également avoir réduit les risques de comportements désalignés et amélioré la gestion des contenus sensibles. Opus 4.8 s'inscrit dans un cycle de publication accéléré chez Anthropic : Opus 4.7 n'avait été lancé que quelques semaines auparavant. L'entreprise prend soin de qualifier cette nouvelle version d'amélioration « modeste mais tangible », une prudence qui répond aux critiques adressées à Opus 4.7, accusé d'une réflexion adaptative mal calibrée, trop de temps sur les tâches simples, trop peu sur les complexes. Pour corriger ce défaut, Anthropic introduit un panneau de contrôle de l'effort permettant aux utilisateurs d'ajuster le niveau de réflexion du modèle selon la nature de la tâche. La course à la fiabilité devient ainsi le nouveau front concurrentiel entre les grands laboratoires, après la course aux paramètres et aux benchmarks bruts qui a dominé les deux dernières années.

💬 La promesse anti-hallucinations, c'est l'angle qui m'accroche ici, pas les benchmarks SWE. Un modèle qui repère ses propres incohérences avant que tu t'en aperçoives, ça débloque l'adoption en contexte pro mieux que n'importe quel score sur un leaderboard. Le `/fast` à moins 65% de coût en prime, c'est du concret.

[AINews] Anthropic lève 965 milliards en Série H et publie Opus 4.8 et Dynamic Workflows/ultracode
47Latent Space 

[AINews] Anthropic lève 965 milliards en Série H et publie Opus 4.8 et Dynamic Workflows/ultracode

Anthropic a annoncé le 28 mai 2026 une levée de fonds de 65 milliards de dollars dans le cadre de sa Série H, valorisant l'entreprise à 965 milliards de dollars après dilution. Le tour a été mené par Altimeter, Dragoneer, Greenoaks et Sequoia, avec 15 milliards supplémentaires apportés par des hyperscalers dont Amazon. Simultanément, la startup a révélé que son chiffre d'affaires annualisé dépasse désormais 47 milliards de dollars, contre 9 milliards seulement en décembre 2025. Cette même journée, Anthropic a lancé Claude Opus 4.8, présenté comme une mise à jour substantielle d'Opus 4.7 intégrant un meilleur jugement, plus d'honnêteté sur ses propres limites et une capacité de travail autonome prolongée, au même prix. L'entreprise a également introduit en préversion de recherche les Dynamic Workflows dans Claude Code, un système d'orchestration capable de planifier des tâches complexes et de déployer simultanément des centaines de sous-agents en parallèle. Ces annonces placent Anthropic, au moins provisoirement, devant OpenAI sur les principaux indicateurs de valorisation et de revenus. L'ampleur de la croissance est spectaculaire : multiplier par cinq un chiffre d'affaires annualisé en cinq mois est sans précédent dans l'industrie technologique. La fonctionnalité Dynamic Workflows illustre concrètement ce que cette puissance financière finance : Jarred Sumner, créateur du runtime JavaScript Bun, a utilisé l'outil baptisé ultracode pour réécrire 750 000 lignes de code de Zig vers Rust en six jours, un projet qui aurait nécessité des mois de travail humain. Opus 4.8 s'impose également comme le modèle de référence sur la quasi-totalité des benchmarks économiquement pertinents, dépassant notamment Gemini 3.5 Flash et les modèles GPT-5.5 d'OpenAI sur les tâches de codage longue durée. Les évaluations indépendantes confirment une amélioration significative par rapport à 4.7, particulièrement sur les tâches agentiques et les travaux de connaissance à long horizon. Anthropic s'est longtemps positionné comme l'alternative responsable à OpenAI, avec une croissance explosive portée par les déploiements enterprise et l'usage grand public de Claude. L'investissement massif d'Amazon, qui avait déjà engagé plusieurs milliards dans des tours précédents, ancre la startup dans l'écosystème cloud d'AWS, tandis que la présence de Sequoia et d'Altimeter signal un appétit institutionnel pour une introduction en bourse à terme. Les Dynamic Workflows sont d'ores et déjà disponibles sur toutes les offres commerciales : Max, Team, Enterprise, API, ainsi que sur Bedrock, Vertex AI et Foundry. La prochaine étape sera de confirmer si cette valorisation de près de 1 000 milliards se justifie par une monétisation durable ou si elle reflète avant tout l'euphorie du cycle actuel autour de l'IA générative.

UEL'émergence de systèmes IA capables d'automatiser des centaines de milliers de lignes de code en quelques jours va intensifier le débat au Parlement européen sur les seuils de régulation de l'AI Act et les mesures de protection des travailleurs du secteur technologique.

💬 Le chiffre qui m'a arrêté c'est pas la valorisation, c'est le revenu. 9 milliards en décembre, 47 en mai : multiplier par cinq en cinq mois, t'as beau chercher, ça n'a pas de précédent dans la tech. Et quand Jarred Sumner migre 750 000 lignes de code en six jours avec ultracode, là on comprend pourquoi les investisseurs remettent des chèques à neuf chiffres sans sourciller.

Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs
48MarkTechPost 

Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs

Liquid AI a lancé LFM2.5-8B-A1B, un modèle de langage de type Mixture-of-Experts (MoE) conçu pour fonctionner directement sur des appareils grand public. Le modèle embarque 8,3 milliards de paramètres au total, mais n'en active que 1,5 milliard par token généré, ce qui réduit considérablement la charge de calcul à chaque inférence. Son architecture hybride combine 24 couches : 18 blocs de convolution LIV à double porte et 6 couches GQA. La fenêtre de contexte atteint 131 072 tokens, soit quatre fois plus que son prédécesseur LFM2-8B-A1B (32 768 tokens). Le modèle couvre neuf langues dont l'arabe, le chinois et le japonais. Par rapport à la version précédente, le volume de pré-entraînement est passé de 12 000 à 38 000 milliards de tokens, et le vocabulaire a doublé de 65 536 à 128 000 entrées, améliorant la tokenisation des scripts non-latins comme le hindi, le thaï ou l'arabe. LFM2.5-8B-A1B est également un modèle raisonnant : il produit une chaîne de pensée explicite avant chaque réponse. Les gains sur les benchmarks sont substantiels : le taux de non-hallucination AA-Omniscience bondit de 7,46 à 63,47, le score IFEval passe de 79,44 à 91,84, et MATH500 grimpe de 74,80 à 88,76. Ce modèle ouvre concrètement la voie à des agents IA autonomes capables de tourner sans cloud, directement sur un téléphone, un laptop ou une puce dédiée. Sur un CPU Apple M5 Max, il atteint 253 tokens par seconde en restant sous 6 Go de mémoire ; sur smartphone, le débit tient autour de 30 tokens par seconde. Sur un seul GPU NVIDIA H100, le débit monte à 18 500 tokens par seconde. Pour les développeurs, le modèle est compatible dès le premier jour avec llama.cpp, MLX, vLLM, SGLang et ONNX, ainsi qu'avec la plateforme edge LEAP de Liquid AI. Cette accessibilité technique signifie que des applications d'entreprise ou grand public peuvent intégrer un raisonnement structuré et une exécution d'outils sans dépendre d'une infrastructure cloud coûteuse, ce qui réduit la latence, les coûts et les risques de confidentialité. Liquid AI est une startup fondée par des chercheurs du MIT, connue pour ses architectures alternatives aux transformers classiques. LFM2.5 s'inscrit dans une série de modèles hybrides pensés pour l'inférence en périphérie du réseau (edge). Pour réduire les hallucinations, l'équipe a introduit deux étapes de reinforcement learning : une pour éliminer les boucles de raisonnement infinies via une pénalisation des mots déclencheurs comme "Wait…", une autre basée sur une récompense avg@k pour entraîner le modèle à s'abstenir plutôt qu'à inventer. Dans un secteur où Gemma de Google ou les modèles Qwen d'Alibaba dominent la course aux petits modèles performants, Liquid AI positionne LFM2.5-8B-A1B comme une alternative architecturalement différente, capable de rivaliser avec des modèles bien plus lourds sur les tâches agentiques et l'instruction following.

LLMsActu
1 source
Anthropic lance Claude Opus 4.8 : workflows dynamiques, mode rapide moins cher et limite de 1 000 sous-agents
49MarkTechPost 

Anthropic lance Claude Opus 4.8 : workflows dynamiques, mode rapide moins cher et limite de 1 000 sous-agents

Anthropic a lancé Claude Opus 4.8 accompagné de deux nouvelles fonctionnalités pour Claude Code : les workflows dynamiques et une mise à jour du mode rapide. Les workflows dynamiques permettent d'orchestrer des centaines de sous-agents en parallèle via un script JavaScript que Claude génère automatiquement à partir d'une description de tâche. Un runtime exécute ce script en arrière-plan, libérant la fenêtre de contexte de Claude des résultats intermédiaires, qui restent stockés dans des variables du script. Chaque exécution est plafonnée à 16 agents simultanés et 1 000 agents au total. La fonctionnalité est disponible sur les plans Max, Team et Enterprise (désactivée par défaut sur Enterprise), ainsi que via l'API Claude, Amazon Bedrock, Vertex AI et Microsoft Foundry, à partir de la version 2.1.154 de Claude Code. En parallèle, le mode rapide pour Opus 4.8 est annoncé trois fois moins cher que pour Opus 4.7 (facturé 30/150 dollars par million de tokens en entrée/sortie), tout en offrant des vitesses de génération 2,5 fois supérieures. Les deux fonctionnalités sont disponibles en aperçu de recherche. Pour les développeurs confrontés à des migrations ou des audits de grande envergure, les workflows dynamiques élargissent considérablement ce qu'un agent peut accomplir en une seule session. Anthropic illustre le potentiel avec l'exemple de Jarred Sumner, qui a porté le runtime Bun du langage Zig vers Rust en 11 jours : environ 750 000 lignes de Rust générées, 99,8 % du test suite existant passé, avec des centaines d'agents travaillant en parallèle et deux réviseurs par fichier. La logique adversariale intégrée, où certains agents produisent des résultats et d'autres les réfutent jusqu'à convergence, vise une qualité inaccessible en un seul passage. Un job interrompu reprend là où il s'était arrêté dans la même session, les agents terminés retournant leurs résultats en cache. Le mode rapide répond à un besoin distinct : conserver la qualité Opus pour le débogage interactif et l'itération rapide, sans subir les délais habituels des grands modèles. Ces annonces s'inscrivent dans la course à l'agent autonome que se livrent Anthropic, OpenAI et Google depuis début 2025. Après avoir repositionné Claude Code comme plateforme de développement, Anthropic fait de l'orchestration multi-agents une fonctionnalité centrale de son offre. Le plafond de 1 000 agents par exécution et le statut d'aperçu de recherche des deux fonctionnalités témoignent d'une prudence réelle face à l'inflation des coûts en tokens, puisqu'une seule exécution peut générer des milliers d'appels. Le mode rapide, financé par des crédits d'utilisation séparés du forfait inclus, envoie un signal commercial clair : Anthropic cherche à monétiser la vitesse comme axe différenciant, là où ses concurrents misent davantage sur le prix. Les prochaines étapes probables incluent une stabilisation tarifaire et une extension des workflows vers des interfaces no-code, à mesure qu'Anthropic affine les garde-fous nécessaires à une adoption plus large.

UELa réduction de prix du mode rapide (3 fois moins cher que pour Opus 4.7) bénéficie directement aux développeurs européens utilisant Claude Code via l'API ou les plateformes cloud.

LLMsOpinion
1 source
Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI
50AWS ML Blog 

Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI

Azercell Telecom LLC, principal opérateur télécom d'Azerbaïdjan, a développé en six semaines un grand modèle de langage (LLM) en azerbaïdjanais sur la plateforme Amazon SageMaker AI, en partenariat avec le AWS Generative AI Innovation Center. L'objectif : doter l'entreprise d'un chatbot client et d'outils spécialisés pour les usages télécoms, en partant de zéro dans une langue pour laquelle aucun blueprint d'entraînement n'existait. Le cadre technique mis en place repose sur trois étapes séquentielles : la création d'un tokenizer sur mesure, un pré-entraînement continu à partir du modèle Llama 3.2 1B de Meta, puis un affinage supervisé via la méthode LoRA. Sur une instance ml.p5.48xlarge, les optimisations au niveau noyau permises par la bibliothèque Liger Kernels ont abouti à un débit d'entraînement supérieur de 23 % et une consommation mémoire GPU au pic réduite de 58 %. Le tokenizer azerbaïdjanais personnalisé, quant à lui, divise par deux le nombre de tokens nécessaires par mot, ce qui double concrètement la quantité de texte exploitable dans la fenêtre de contexte du modèle. Ces résultats illustrent un défi bien réel pour l'IA appliquée aux langues à faibles ressources : l'azerbaïdjanais est une langue agglutinante, dans laquelle un seul mot peut encoder des informations grammaticales qu'une phrase anglaise exprime par plusieurs mots distincts. Les tokenizers optimisés pour l'anglais fragmentent ces formes complexes de façon inefficace, dégradant les performances et augmentant les coûts de calcul. En construisant un tokenizer monolingue sur mesure, Azercell et AWS ont résolu ce problème structurel avant même de commencer l'entraînement proprement dit, ce qui améliore chacune des étapes suivantes. Pour les entreprises qui opèrent dans des marchés linguistiques non dominants, cette approche modulaire représente un modèle reproductible : chaque composant (tokenizer, pré-entraînement, affinage) peut être optimisé indépendamment et réutilisé sur des tâches différentes. Le projet s'inscrit dans un mouvement plus large de souveraineté linguistique numérique, alors que les LLM généralistes peinent à performer dans les dizaines de langues mal représentées dans leurs données d'entraînement. L'azerbaïdjanais partage des caractéristiques morphologiques avec le turc, le kazakh ou l'ouzbek, ce qui rend cette méthodologie potentiellement transférable à tout un ensemble de langues turcophones d'Asie centrale. Azercell prévoit de passer à des modèles de plus grande taille, pour lesquels l'entraînement distribué sur SageMaker deviendra indispensable, alors que le proof-of-concept actuel à 1 milliard de paramètres n'en avait pas encore besoin. La collaboration avec le AWS Generative AI Innovation Center suit un modèle désormais courant : un géant du cloud apporte l'ingénierie d'infrastructure, l'entreprise locale apporte la donnée et la connaissance métier, et le résultat est un actif IA propriétaire impossible à obtenir via un modèle généraliste.

UELa méthodologie de tokenizer sur mesure pour langues agglutinantes pourrait inspirer des initiatives similaires pour les langues régionales européennes sous-représentées (basque, hongrois, finnois), sans impact direct sur la France ou l'UE.

LLMsTuto
1 source