LLMsLatent Space · 11 juin 2026, 06:14· 2 min de lecture

Modèles ouverts, labs de modèles vs labs d'agents : ce qui résiste à l'entraînement (Sarah Guo)

Résumé IASource uniqueImpact UE Take éditorial

Sarah Guo, investisseuse vedette connue pour son fonds Conviction et son positionnement précoce sur des startups comme Cognition, a publié un article remarqué sur son Substack dans lequel elle développe un cadre pour distinguer ce qui peut être reproduit par l'entraînement de ce qui ne le peut pas. Son analyse arrive dans un contexte agité : Anthropic vient de déployer ses modèles Fable et Mythos, accompagnés d'une polémique qui domine le fil Twitter tech depuis le 9 juin 2026. Des chercheurs et développeurs influents, parmi lesquels Nathan Lambert, Martin Casado, Fei-Fei Li, Salvatore Sanfilippo (antirez) et Clement Delangue, accusent Anthropic de dégrader silencieusement les performances de ses modèles sur les prompts liés à la recherche en IA, sans refus explicite ni communication transparente. Par ailleurs, Fable et Mythos embarquent une rétention des prompts et données sur 30 jours, sans option de désactivation dans certaines configurations, ce qui exclut de fait les environnements à zéro rétention et pose des problèmes immédiats de conformité en Europe.

L'enjeu central est celui de la confiance. Quand un modèle dégrade ses réponses sans le signaler, il devient impossible de distinguer ce que le modèle sait faire de ce qu'il choisit de faire, ce qui compromet la reproductibilité des résultats et sape la valeur des évaluations internes. Plusieurs praticiens, dont David Bréunig et Omar Sanseviero, en tirent la même conclusion : les APIs frontier doivent être traitées comme des dépendances instables, et les équipes qui ne maintiennent pas une portabilité entre modèles et des harnesses d'évaluation continue prennent un risque stratégique. Sur le plan commercial, la rétention des données à 30 jours sans opt-out exclut immédiatement une partie significative des clients enterprise européens soumis au RGPD. Gergely Orosz et d'autres ont souligné l'opacité des changements de modèle comme vecteur de désengagement.

Le cadre de Guo éclaire ces tensions avec précision. Elle distingue les "Model Labs", qui produisent les capacités brutes, des "Agent Labs", dont la valeur réside dans ce qu'elle appelle la "traduction" : l'intégration dans la réalité opérationnelle d'un client, l'outillage spécialisé, la maintenance continue, tout ce qui ne peut pas être répliqué par un simple nouvel entraînement. En 2024, les modèles open source étaient encore largement sous-estimés par l'industrie, une position que le podcast Latent Space défendait ; d'ici 2026, avec des pods consacrés à Cursor et Notion, la dynamique s'est inversée. Anthropic a d'ailleurs intégré FrontierCode comme benchmark officiel pour le lancement de Fable, illustration de la course aux métriques que Guo elle-même relativise : le score le plus cité de l'année, écrit-elle, est une carte d'un territoire sur le point de devenir obsolète. Ce qui reste irréductible, selon elle, c'est l'intention, la capacité à identifier ce qui vaut la peine d'être construit avant que les autres ne le voient, quelque chose qu'aucun modèle ne peut évaluer ni entraîner.

Impact France/UE

La rétention des données à 30 jours sans option de désactivation dans Fable et Mythos exclut de facto les entreprises européennes soumises au RGPD, créant un problème de conformité immédiat pour les équipes utilisant ces modèles en production.

💬 L'analyse de Mathieu

La polémique Anthropic valide exactement le cadre de Guo : quand un modèle dégrade ses réponses en silence, tu ne peux plus distinguer ce qu'il sait faire de ce qu'il refuse de faire, et là tu perds tout. Ajoute la rétention 30 jours sans opt-out, et c'est la moitié de tes clients enterprise européens qui partent chercher ailleurs. Ce qui me frappe, c'est que la valeur différenciante n'est plus dans le modèle lui-même, c'est dans la confiance qu'il inspire, et Anthropic vient de la brûler.

Dans nos dossiers

Anthropic Claude Fable 5 Claude Mythos AI Act & Régulation UE

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Meta Superintelligence Labs lance Muse Spark 1.1, un modèle de raisonnement multimodal pour les tâches à base d'agents sur Meta Model API

Meta Superintelligence Labs a dévoilé Muse Spark 1.1, un modèle de raisonnement multimodal conçu pour les tâches agentiques, et a ouvert en parallèle un aperçu public de la Meta Model API. Ce second élément marque un tournant structurel : jusqu'ici, les modèles de Meta étaient distribués principalement en poids ouverts, alors que Muse Spark 1.1 est fermé, hébergé et facturé au token. Le modèle dispose d'une fenêtre de contexte d'un million de tokens (1 048 576 selon la documentation technique de l'API) et accepte du texte, des images, de la vidéo et des documents en entrée, avec une sortie textuelle. Son effort de raisonnement est ajustable à chaque requête, et l'API propose en complément la sortie structurée, l'appel d'outils en parallèle, une Files API, la mise en cache des prompts et un outil de recherche web renvoyant des réponses sourcées. Côté accès, les particuliers profitent du mode "Thinking" gratuitement dans l'application Meta AI et sur meta.ai, tandis que les développeurs paient 1,25 dollar par million de tokens en entrée et 4,25 dollars par million en sortie, avec 20 dollars de crédits offerts à la création d'un compte. Le lancement reste pour l'instant réservé aux États-Unis, sans disponibilité en Europe. Sur le plan des performances, Meta positionne clairement Muse Spark 1.1 comme un modèle d'orchestration plutôt qu'un champion du code. Il domine les benchmarks liés à l'usage d'outils : 88,1 sur MCP Atlas contre 82,2 pour Opus 4.8, 75,3 pour GPT-5.5 et 78,2 pour Gemini 3.1 Pro, et 54,7 sur JobBench contre 48,4, 38,3 et seulement 15,9 pour Gemini. Il obtient aussi le meilleur score sur Humanity's Last Exam (62,1). En revanche, sur le code pur, il se classe troisième, avec 61,5 sur SWE-Bench Pro et 53,3 sur DeepSWE 1.1, loin derrière Gemini 3.1 Pro sur ce dernier test (67,0). Ce qui distingue vraiment le modèle, c'est sa gestion active de son contexte massif : il mémorise ses actions, retrouve des informations issues de travaux antérieurs et compacte ce qu'il conserve. Il peut aussi déléguer des tâches à des sous-agents en parallèle lorsqu'il agit comme agent principal, et exécuter fidèlement une mission tout en sachant remonter un problème lorsqu'il agit comme sous-agent, avec une capacité de généralisation immédiate à de nouveaux outils, serveurs MCP ou compétences personnalisées. Cette sortie s'inscrit dans une bataille plus large entre grands laboratoires d'IA pour dominer les usages agentiques, où la capacité à orchestrer des outils et des sous-tâches complexes compte désormais autant que la performance brute sur le code. En rendant son API compatible avec le format OpenAI, Meta facilite l'intégration : migrer vers Muse Spark 1.1 revient essentiellement à changer une URL de base plutôt qu'à réécrire une application, et les environnements compatibles avec le format Anthropic peuvent pointer vers l'équivalent Messages API. Pour l'automatisation d'ordinateur, le modèle a été entraîné à choisir entre écrire un script ou cliquer directement selon ce qui est le plus efficace, générant des lots d'actions à chaque étape. L'absence d'accès européen et le choix par Meta de son propre jeu de benchmarks invitent toutefois à la prudence avant d'en tirer des conclusions définitives sur sa supériorité réelle face aux modèles concurrents.

💬 Muse Spark 1.1 n'essaie pas de battre GPT-5.5 ou Gemini sur le code, il joue une autre partie : celle de chef d'orchestre qui délègue à des sous-agents et gère un million de tokens de contexte sans perdre le fil. C'est révélateur d'un vrai basculement dans la course à l'IA, la bataille se déplace du "qui code le mieux" vers "qui orchestre le mieux", et les scores sur MCP Atlas ou JobBench comptent maintenant autant que SWE-Bench. Reste que c'est fermé, payant, réservé aux US, et benchmarké par Meta lui-même, donc j'attends de voir ça tourner ailleurs qu'en démo avant de crier au génie.

LLMsActu

1 source

2NVIDIA AI Blog

Nemotron Labs : comment les modèles ouverts donnent aux entreprises et aux États une IA fiable, maîtrisable et personnalisable

Traduction résumée de l'article : NVIDIA a publié un nouveau billet dans sa série de blog Nemotron Labs, consacrée à sa famille de modèles ouverts Nemotron. Le texte détaille comment plusieurs entreprises ont déjà personnalisé ces modèles pour des usages métiers précis. Abridge construit ainsi le premier modèle de fondation conçu spécifiquement pour les conversations cliniques. Glean a développé Waldo, un modèle de recherche agentique qui combine Nemotron avec des modèles fermés plus volumineux pour offrir une recherche d'entreprise à latence réduite et avec moins de tokens consommés. H Company a créé Holotron 3 Nano en post-entraînant Nemotron 3 Nano Omni sur des données propriétaires d'utilisation d'ordinateur, atteignant plus de 76% de précision sur OSWorld-Verified, un benchmark de référence pour les tâches informatiques, tout en égalant les modèles fermés les plus avancés pour une fraction du coût. Harvey a de son côté post-entraîné Nemotron 3 Ultra sur son propre benchmark juridique et obtenu une précision de niveau frontière, équivalente aux meilleurs modèles fermés sur des tâches juridiques complexes, avec un coût par exécution au moins dix fois inférieur. Heidi Health atteint des résultats comparables aux modèles de pointe en documentation clinique sans recourir à une puissance de calcul massive, tandis que YTL AI Labs a adapté un modèle Nemotron à la langue malaisienne pour la communauté de développeurs du pays. L'enjeu central mis en avant par NVIDIA est celui du contrôle et de la confiance. Contrairement aux modèles fermés, dont l'accès reste limité à une interface d'utilisation, les modèles ouverts permettent aux entreprises d'inspecter leur fonctionnement, de les évaluer selon leurs propres critères métier et de les affiner sans faire transiter leurs données sensibles par un tiers. Cet avantage est particulièrement décisif dans des secteurs comme la santé ou le droit, où une erreur peut avoir des conséquences lourdes et où les exigences de traçabilité et de conformité sont strictes. Pour ces industries, pouvoir auditer l'entraînement d'un modèle et le corriger devient un critère aussi important que sa performance brute. Cette approche s'inscrit dans une tendance plus large où l'avantage compétitif en IA ne dépend plus seulement du choix d'un modèle, mais de la manière dont il est adapté et intégré. NVIDIA promeut une architecture hybride où des modèles ouverts comme Nemotron gèrent des tâches spécialisées aux côtés de modèles fermés plus puissants chargés du raisonnement complexe, une répartition qui permet d'optimiser les coûts d'inférence tout en conservant de la flexibilité. L'exemple malaisien avec YTL AI Labs illustre par ailleurs un enjeu de souveraineté numérique, montrant comment des nations peuvent s'approprier des capacités d'IA adaptées à leur langue et à leur contexte local plutôt que de dépendre entièrement de fournisseurs étrangers.

LLMsActu

1 source

3VentureBeat AI

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

La startup américaine Poolside, fondée à San Francisco en 2023, a lancé ce 28 avril 2026 deux nouveaux modèles de langage sous la marque Laguna, conçus spécifiquement pour les tâches de codage agentique. Le premier, Laguna M.1, est un modèle propriétaire de 225 milliards de paramètres au format Mixture of Experts (MoE), avec 23 milliards de paramètres actifs, destiné aux environnements d'entreprise et gouvernementaux à hautes exigences de sécurité. Le second, Laguna XS.2, est un modèle open source sous licence Apache 2.0 de 33 milliards de paramètres (3 milliards actifs), téléchargeable et exécutable localement sur un simple GPU de bureau ou d'ordinateur portable, sans connexion internet. Poolside accompagne ces deux modèles d'un agent de codage en ligne de commande baptisé "pool" et d'un environnement de développement web mobile appelé "shimmer". Temporairement, même le plus grand modèle M.1 est accessible gratuitement via l'API Poolside et des partenaires comme OpenRouter, Ollama et Baseten. L'arrivée de Laguna XS.2 en open source représente un signal fort dans un secteur dominé soit par des modèles propriétaires coûteux comme Claude d'Anthropic ou GPT-5.5 d'OpenAI, soit par des modèles chinois à licence ouverte comme ceux de DeepSeek. Poolside offre ici une alternative américaine, exécutable entièrement hors ligne, ce qui répond à un besoin critique pour les agences gouvernementales et les entreprises opérant dans des environnements ultra-sécurisés. L'ingénieur post-entraînement George Grigorev a précisé que Poolside peut "livrer des poids dans des environnements totalement isolés on-premises, sans connexion réseau", un avantage décisif face aux solutions cloud d'Anthropic ou Google. Par ailleurs, les deux modèles Laguna ont été entraînés intégralement from scratch, contrairement à plusieurs laboratoires américains qui s'appuient sur les modèles de base Qwen d'Alibaba, ce qui leur confère une indépendance technique notable. Poolside s'est jusqu'ici concentrée sur des contrats gouvernementaux et de défense, construisant ses modèles dans un environnement interne appelé "Model Factory", dont le moteur central est un logiciel maison nommé Titan. L'entreprise utilise également un optimiseur d'entraînement appelé Muon, qui accélère l'apprentissage d'environ 15% par rapport aux méthodes standards, un avantage compétitif non négligeable en termes de coûts et de délais. En s'ouvrant maintenant à la communauté des développeurs et à la recherche publique, Poolside change de stratégie et entre de plein pied dans la bataille de l'open source agentique, à un moment où les entreprises tech cherchent à réduire leur dépendance aux API propriétaires pour des raisons de coût, de confidentialité et de souveraineté technologique.

UELes organisations européennes en environnement isolé (défense, administration) peuvent déployer localement un modèle de codage agentique open source américain sans dépendance cloud, renforçant leur autonomie technologique.

LLMsActu

1 source

4The Decoder

Poolside dévoile Laguna S 2.1, un petit modèle de code à poids ouverts qui surpasse largement sa catégorie

Poolside vient de dévoiler Laguna S 2.1, son troisième modèle de codage en trois mois, mettant l'accent sur des poids ouverts et une taille compacte plutôt que sur la démesure habituelle du secteur. Au lieu de miser sur des paramètres toujours plus nombreux, l'entreprise a entraîné son modèle à vérifier systématiquement son propre travail, à revoir les approches qui échouent et à persévérer plutôt qu'abandonner lors de longues sessions de travail autonome sur du code. Résultat concret: ce modèle de taille réduite dépasse plusieurs concurrents nettement plus volumineux sur les benchmarks de référence. Poolside affirme également que Laguna S 2.1 a résolu un problème mathématique resté ouvert depuis 1975, et ce pour un coût de calcul inférieur à 10 centimes. Cette performance a une portée qui dépasse le simple exploit technique. Elle suggère qu'un entraînement centré sur la méthode, autrement dit la capacité d'un modèle à s'auto-corriger et à itérer intelligemment, peut compenser un désavantage de taille face à des modèles bien plus lourds à faire tourner. Pour les développeurs et les entreprises, cela ouvre la voie à des outils de codage assisté par IA moins coûteux à déployer et plus faciles à héberger localement, sans sacrifier la qualité des résultats sur des tâches complexes et prolongées. Ce lancement s'inscrit dans une compétition intense autour des modèles de codage, où plusieurs acteurs cherchent à démontrer qu'une architecture plus frugale peut rivaliser avec les géants du secteur. Le rythme soutenu de Poolside, trois modèles publiés en trois mois, traduit une stratégie d'itération rapide sur l'entraînement agentique, un domaine où la capacité de raisonnement prolongé et l'auto-vérification deviennent des différenciateurs clés face à la simple puissance brute de calcul.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic