Aller au contenu principal
Modèles ouverts, labs de modèles vs labs d'agents : ce qui résiste à l'entraînement (Sarah Guo)
LLMsLatent Space2h· 2 min de lecture

Modèles ouverts, labs de modèles vs labs d'agents : ce qui résiste à l'entraînement (Sarah Guo)

Source originale ↗·
Modèles ouverts, labs de modèles vs labs d'agents : ce qui résiste à l'entraînement (Sarah Guo)
▶ Voir sur YouTube

Sarah Guo, investisseuse vedette connue pour son fonds Conviction et son positionnement précoce sur des startups comme Cognition, a publié un article remarqué sur son Substack dans lequel elle développe un cadre pour distinguer ce qui peut être reproduit par l'entraînement de ce qui ne le peut pas. Son analyse arrive dans un contexte agité : Anthropic vient de déployer ses modèles Fable et Mythos, accompagnés d'une polémique qui domine le fil Twitter tech depuis le 9 juin 2026. Des chercheurs et développeurs influents, parmi lesquels Nathan Lambert, Martin Casado, Fei-Fei Li, Salvatore Sanfilippo (antirez) et Clement Delangue, accusent Anthropic de dégrader silencieusement les performances de ses modèles sur les prompts liés à la recherche en IA, sans refus explicite ni communication transparente. Par ailleurs, Fable et Mythos embarquent une rétention des prompts et données sur 30 jours, sans option de désactivation dans certaines configurations, ce qui exclut de fait les environnements à zéro rétention et pose des problèmes immédiats de conformité en Europe.

L'enjeu central est celui de la confiance. Quand un modèle dégrade ses réponses sans le signaler, il devient impossible de distinguer ce que le modèle sait faire de ce qu'il choisit de faire, ce qui compromet la reproductibilité des résultats et sape la valeur des évaluations internes. Plusieurs praticiens, dont David Bréunig et Omar Sanseviero, en tirent la même conclusion : les APIs frontier doivent être traitées comme des dépendances instables, et les équipes qui ne maintiennent pas une portabilité entre modèles et des harnesses d'évaluation continue prennent un risque stratégique. Sur le plan commercial, la rétention des données à 30 jours sans opt-out exclut immédiatement une partie significative des clients enterprise européens soumis au RGPD. Gergely Orosz et d'autres ont souligné l'opacité des changements de modèle comme vecteur de désengagement.

Le cadre de Guo éclaire ces tensions avec précision. Elle distingue les "Model Labs", qui produisent les capacités brutes, des "Agent Labs", dont la valeur réside dans ce qu'elle appelle la "traduction" : l'intégration dans la réalité opérationnelle d'un client, l'outillage spécialisé, la maintenance continue, tout ce qui ne peut pas être répliqué par un simple nouvel entraînement. En 2024, les modèles open source étaient encore largement sous-estimés par l'industrie, une position que le podcast Latent Space défendait ; d'ici 2026, avec des pods consacrés à Cursor et Notion, la dynamique s'est inversée. Anthropic a d'ailleurs intégré FrontierCode comme benchmark officiel pour le lancement de Fable, illustration de la course aux métriques que Guo elle-même relativise : le score le plus cité de l'année, écrit-elle, est une carte d'un territoire sur le point de devenir obsolète. Ce qui reste irréductible, selon elle, c'est l'intention, la capacité à identifier ce qui vaut la peine d'être construit avant que les autres ne le voient, quelque chose qu'aucun modèle ne peut évaluer ni entraîner.

Impact France/UE

La rétention des données à 30 jours sans option de désactivation dans Fable et Mythos exclut de facto les entreprises européennes soumises au RGPD, créant un problème de conformité immédiat pour les équipes utilisant ces modèles en production.

💬 L'analyse de Mathieu

La polémique Anthropic valide exactement le cadre de Guo : quand un modèle dégrade ses réponses en silence, tu ne peux plus distinguer ce qu'il sait faire de ce qu'il refuse de faire, et là tu perds tout. Ajoute la rétention 30 jours sans opt-out, et c'est la moitié de tes clients enterprise européens qui partent chercher ailleurs. Ce qui me frappe, c'est que la valeur différenciante n'est plus dans le modèle lui-même, c'est dans la confiance qu'il inspire, et Anthropic vient de la brûler.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents
1VentureBeat AI 

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

La startup américaine Poolside, fondée à San Francisco en 2023, a lancé ce 28 avril 2026 deux nouveaux modèles de langage sous la marque Laguna, conçus spécifiquement pour les tâches de codage agentique. Le premier, Laguna M.1, est un modèle propriétaire de 225 milliards de paramètres au format Mixture of Experts (MoE), avec 23 milliards de paramètres actifs, destiné aux environnements d'entreprise et gouvernementaux à hautes exigences de sécurité. Le second, Laguna XS.2, est un modèle open source sous licence Apache 2.0 de 33 milliards de paramètres (3 milliards actifs), téléchargeable et exécutable localement sur un simple GPU de bureau ou d'ordinateur portable, sans connexion internet. Poolside accompagne ces deux modèles d'un agent de codage en ligne de commande baptisé "pool" et d'un environnement de développement web mobile appelé "shimmer". Temporairement, même le plus grand modèle M.1 est accessible gratuitement via l'API Poolside et des partenaires comme OpenRouter, Ollama et Baseten. L'arrivée de Laguna XS.2 en open source représente un signal fort dans un secteur dominé soit par des modèles propriétaires coûteux comme Claude d'Anthropic ou GPT-5.5 d'OpenAI, soit par des modèles chinois à licence ouverte comme ceux de DeepSeek. Poolside offre ici une alternative américaine, exécutable entièrement hors ligne, ce qui répond à un besoin critique pour les agences gouvernementales et les entreprises opérant dans des environnements ultra-sécurisés. L'ingénieur post-entraînement George Grigorev a précisé que Poolside peut "livrer des poids dans des environnements totalement isolés on-premises, sans connexion réseau", un avantage décisif face aux solutions cloud d'Anthropic ou Google. Par ailleurs, les deux modèles Laguna ont été entraînés intégralement from scratch, contrairement à plusieurs laboratoires américains qui s'appuient sur les modèles de base Qwen d'Alibaba, ce qui leur confère une indépendance technique notable. Poolside s'est jusqu'ici concentrée sur des contrats gouvernementaux et de défense, construisant ses modèles dans un environnement interne appelé "Model Factory", dont le moteur central est un logiciel maison nommé Titan. L'entreprise utilise également un optimiseur d'entraînement appelé Muon, qui accélère l'apprentissage d'environ 15% par rapport aux méthodes standards, un avantage compétitif non négligeable en termes de coûts et de délais. En s'ouvrant maintenant à la communauté des développeurs et à la recherche publique, Poolside change de stratégie et entre de plein pied dans la bataille de l'open source agentique, à un moment où les entreprises tech cherchent à réduire leur dépendance aux API propriétaires pour des raisons de coût, de confidentialité et de souveraineté technologique.

UELes organisations européennes en environnement isolé (défense, administration) peuvent déployer localement un modèle de codage agentique open source américain sans dépendance cloud, renforçant leur autonomie technologique.

LLMsActu
1 source
Google lance la famille de modèles ouverts Gemma 4
2AI Business 

Google lance la famille de modèles ouverts Gemma 4

Google a lancé Gemma 4, une nouvelle famille de modèles d'IA open source conçue pour le raisonnement avancé et les capacités multimodales. Héritière de la série Gemma, cette offre s'inscrit dans la stratégie de Google DeepMind de proposer des modèles accessibles aux développeurs et chercheurs, utilisables localement ou dans le cloud. La famille comprend plusieurs variantes de tailles différentes, adaptées à des usages allant des appareils mobiles aux serveurs de production. L'arrivée de Gemma 4 renforce l'arsenal open source disponible pour les équipes techniques qui ne veulent pas dépendre exclusivement de modèles propriétaires via API. Les capacités multimodales — traitement combiné de texte et d'images — ouvrent la voie à des applications concrètes dans l'analyse documentaire, la vision par ordinateur et les assistants enrichis. Pour les entreprises soucieuses de confidentialité ou de coûts d'inférence, un modèle performant déployable en local représente un avantage opérationnel direct. Google s'inscrit ainsi dans une compétition ouverte avec Meta (LLaMA), Mistral et d'autres acteurs qui misent sur l'open source pour gagner l'adhésion des développeurs. La série Gemma, lancée début 2024, avait déjà rencontré un accueil favorable grâce à ses performances compétitives à taille réduite. Avec Gemma 4, Google cherche à consolider sa position dans cet écosystème, alors que le débat entre modèles ouverts et fermés reste central dans l'industrie de l'IA.

UELes équipes techniques et entreprises européennes disposent d'une nouvelle famille open source déployable en local, réduisant la dépendance aux APIs propriétaires et facilitant la conformité RGPD.

LLMsOpinion
1 source
Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)
3Latent Space 

Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)

Vlad Feinberg, ingénieur spécialisé dans l'infrastructure TPU chez Google, a publié mi-mai 2026 un guide destiné aux développeurs souhaitant intégrer les grands laboratoires d'IA de pointe. Son conseil central : maîtriser le travail au niveau du noyau (kernel) des modèles de langage. Il s'appuie sur le Scaling Handbook publié l'an dernier par DeepMind, un document qui cartographie les pratiques de préentraînement à grande échelle. Selon Feinberg, le principal goulot d'étranglement de tout projet LLM réside dans la capacité à rendre concrètement exécutables des modifications logiques abstraites, c'est-à-dire à optimiser les calculs au plus bas niveau du code. Il souligne aussi l'importance croissante des langages dédiés (DSL) pour le développement de kernels, et mentionne de façon inattendue les agents autonomes comme AlphaEvolve parmi les compétences désormais valorisées. Son exercice pratique est sans ambiguïté : dériver les lois de Chinchilla, les implémenter depuis zéro en JAX pour des architectures dense et MoE, puis écrire un kernel Pallas capable de surpasser jax.lax.ragged_dot pour les projections MoE en fusionnant les couches up et down, et identifier un contexte où l'accélération du forward pass est mesurable et explicable. Ce type de guide est rare dans un domaine qui recrute souvent via des réseaux opaques. En pointant vers des compétences précises et vérifiables plutôt que vers des diplômes ou des expériences académiques, Feinberg ouvre potentiellement l'accès aux laboratoires de pointe à des profils autodidactes ou venant d'industries connexes. Le travail au niveau kernel, qui consiste à optimiser les calculs matriciels sur GPU ou TPU pour réduire la latence et améliorer l'utilisation de la mémoire, est au coeur de la compétitivité des modèles. C'est aussi une compétence objectivement mesurable : soit le kernel bat le benchmark de référence, soit il ne le bat pas. Feinberg propose même d'inviter ceux qui réussissent l'exercice complet à intervenir comme speakers lors d'ateliers communautaires, signal clair que la démonstration pratique vaut plus qu'un CV. Cette publication intervient dans un contexte d'accélération générale de l'écosystème IA. Anthropic a diffusé la même semaine des bonnes pratiques pour déployer Claude Code sur des monorepos de plusieurs millions de lignes, avec diagnostics de cache de prompts et activation par défaut du mode Fast sur Opus 4.7 pour des workflows à plus faible latence. Cognition a lancé Devin Auto-Triage, un agent "premier répondant" pour les bugs et incidents en production, doté d'une mémoire long terme et capable de générer des pull requests automatiquement. LangChain a présenté LangSmith Engine comme une boucle CI/CD pour agents, détectant automatiquement les défaillances en production. À la veille de Google I/O, moment attendu pour les annonces Gemini, le secteur converge vers des agents persistants en arrière-plan plutôt que vers de simples interfaces conversationnelles, et les ingénieurs capables d'en construire les fondations bas-niveau restent la ressource la plus recherchée.

LLMsTuto
1 source
IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte
4Next INpact 

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

Thinking Machines Lab, la start-up fondée par Mira Murati, ancienne directrice technique d'OpenAI, a présenté le 11 mai 2026 son modèle TLM-Interaction-Small, qu'elle qualifie de « modèle interactif ». Contrairement aux IA génératives classiques qui suspendent tout traitement le temps de formuler une réponse, ce système fonctionne en mode « full duplex » : il peut écouter, répondre et participer à une conversation en parallèle, avec un temps de latence de seulement 0,40 seconde, soit un rythme très proche d'un échange humain naturel. Parmi les capacités démontrées figurent la traduction instantanée de l'hindi vers l'anglais, l'adaptation stylistique d'un discours familier vers un registre professionnel, la recherche d'informations en cours de conversation, ou encore la réaction à des éléments visuels captés par caméra, comme détecter une mauvaise posture ou signaler une baisse de concentration. Ce type de modèle cherche à combler ce que Thinking Machines Lab appelle le « goulet d'étranglement de la collaboration » des IA actuelles : leur incapacité à rester présentes et réactives pendant qu'elles calculent. L'enjeu est de rendre l'interaction homme-machine plus fluide et naturelle, ce qui ouvre des perspectives concrètes pour des usages professionnels temps réel, comme l'assistance lors de réunions, la traduction simultanée ou le coaching comportemental en direct. Pour les utilisateurs et les entreprises, cela représente un changement qualitatif potentiellement significatif par rapport aux interfaces actuelles de type chatbot, où chaque échange reste fondamentalement séquentiel et coupé du contexte environnant. La start-up a été fondée en février 2025 et a levé 2 milliards de dollars dès juin de la même année, mais elle a depuis subi des départs importants : plusieurs employés ont été recrutés par Meta début 2026, et trois autres sont retournés chez OpenAI. Ces turbulences n'ont pas empêché l'avancement du projet. TLM-Interaction-Small n'est pas encore accessible au public : une préversion de recherche est attendue dans les prochains mois, et une sortie plus large est prévue plus tard en 2026. Le modèle s'inscrit dans une tendance plus large qui voit plusieurs acteurs chercher à dépasser les limites des IA génératives traditionnelles. Il se situe entre ces dernières et les ambitions des « world models », comme ceux qu'AMI Labs, co-fondée par Yann LeCun, Laurent Solly et Alexandre Lebrun, cherche à construire pour ancrer l'IA dans la compréhension du monde physique. Reste à voir si le produit final, une fois déployé, sera à la hauteur des benchmarks encourageants déjà publiés.

UEL'avènement des modèles full duplex ouvre une compétition directe avec des initiatives comme AMI Labs, co-fondée par des entrepreneurs français (Alexandre Lebrun, Laurent Solly), qui développent leurs propres modèles interactifs ancrés dans la compréhension du monde physique.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic