Aller au contenu principal
Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro
LLMsVentureBeat AI6sem· 2 min de lecture

Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro

Source originale ↗·

Sakana AI, laboratoire fondé par d'anciens chercheurs de Google DeepMind, a présenté le « RL Conductor », un modèle de langage de 7 milliards de paramètres entraîné par apprentissage par renforcement pour orchestrer automatiquement un ensemble de grands modèles de langage comme GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro. Contrairement aux pipelines traditionnels à code fixe, le Conductor analyse chaque requête entrante, décompose le problème en sous-tâches, sélectionne dynamiquement les modèles les mieux adaptés et définit en langage naturel les instructions et les topologies de communication entre agents. Sur les benchmarks de raisonnement avancé et de génération de code, ce système dépasse non seulement les meilleurs modèles frontières pris individuellement, mais aussi les pipelines multi-agents conçus à la main par des ingénieurs humains, tout en nécessitant moins d'appels API et un coût d'inférence sensiblement réduit. Le RL Conductor constitue le coeur technique de Fugu, le service commercial d'orchestration multi-agents que Sakana AI a mis sur le marché.

L'enjeu est considérable pour l'industrie : la quasi-totalité des systèmes agentiques en production reposent aujourd'hui sur des frameworks comme LangChain avec des routes câblées à la main. Or, comme l'explique Yujin Tang, co-auteur de la recherche, ces architectures rigides s'effondrent dès que la distribution des requêtes évolue, ce qui est inévitable à l'échelle avec des bases d'utilisateurs aux besoins hétérogènes. Le Conductor résout ce problème en apprenant lui-même, par essai-erreur, quelles combinaisons de modèles et de structures de communication maximisent la qualité des réponses, sans qu'un humain ait besoin de prédire ou d'encoder ces combinaisons à l'avance. Pour les équipes qui déploient des applications IA en production, cela représente un gain opérationnel direct : moins de maintenance sur les pipelines, une meilleure généralisation hors distribution, et une réduction des coûts API.

Sakana AI s'inscrit dans un courant de recherche plus large sur l'orchestration automatique d'agents, une discipline qui gagne rapidement en importance à mesure que les modèles frontières se spécialisent dans des domaines distincts, code, raisonnement scientifique, planification de haut niveau, rendant impossible toute sélection manuelle optimale pour chaque tâche. L'approche par renforcement, où aucune règle n'est codée en dur et où la stratégie émerge de l'expérience, représente une rupture méthodologique avec les frameworks actuels. Le fait qu'un modèle de 7 milliards de paramètres suffise à coordonner des systèmes bien plus grands comme GPT-5 soulève des questions sur l'architecture future des stacks IA en entreprise, et ouvre la voie à des orchestrateurs spécialisés, légers et entraînables, capables de s'adapter continuellement aux besoins réels des utilisateurs.

Impact France/UE

Les équipes européennes déployant des systèmes multi-agents en production pourraient réduire leurs coûts d'inférence et leur charge de maintenance pipeline, mais aucun impact direct sur la France ou l'UE n'est identifié.

💬 L'analyse de Mathieu

Un 7B qui pilote GPT-5 et Claude, c'est le genre de résultat qui retourne un peu nos intuitions sur ce que "plus grand = meilleur" veut dire. Ce que Sakana prouve, c'est que la valeur dans un système agentique tient à l'orchestration, pas à la taille des modèles individuels, et que cette couche-là peut s'apprendre par renforcement plutôt que se câbler à la main. Reste à voir si Fugu tient avec de vraies distributions en prod.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client
1VentureBeat AI 

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client

Intercom, la plateforme de service client fondée il y a quinze ans, a annoncé jeudi le lancement de Fin Apex 1.0, un modèle d'intelligence artificielle développé en interne et spécifiquement conçu pour la résolution de demandes clients. Selon les benchmarks partagés avec VentureBeat, ce modèle atteint un taux de résolution de 73,1 % — la proportion de problèmes résolus sans intervention humaine — contre 71,1 % pour GPT-5.4 et Claude Opus 4.5, et 69,6 % pour Claude Sonnet 4.6. Fin Apex répond en 3,7 secondes, soit 0,6 seconde plus vite que ses concurrents directs, affiche une réduction de 65 % des hallucinations par rapport à Claude Sonnet 4.6, et coûte environ cinq fois moins cher que les grands modèles frontières utilisés directement. Il est inclus dans les plans tarifaires existants d'Intercom, basés sur un modèle « par résolution ». Le modèle alimente déjà Fin, l'agent IA d'Intercom qui traite plus de deux millions de conversations clients par semaine. Un écart de 2 points de pourcentage peut sembler anecdotique, mais pour les entreprises gérant des millions d'interactions, l'impact financier est considérable. « Si vous gérez de grandes opérations de service à l'échelle, avec 10 millions de clients ou un milliard de dollars de chiffre d'affaires, un delta de 2 ou 3 % représente une quantité énorme de clients, d'interactions et de revenus », a déclaré le PDG Eoghan McCabe. Au-delà des chiffres, Fin Apex illustre une stratégie de plus en plus viable pour les éditeurs de logiciels verticaux : plutôt que de se reposer sur des API génériques de OpenAI ou Anthropic, ils peuvent construire des modèles spécialisés plus rapides, moins coûteux et plus précis dans leur domaine — en capitalisant sur leurs données propriétaires accumulées au fil des années. Ce lancement s'inscrit dans une tendance de fond : le post-entraînement devient le véritable champ de bataille de l'IA, la pré-formation des grands modèles étant désormais considérée comme une commodité. Intercom a affiné son modèle de base — un modèle open-weights dont la société refuse de révéler l'identité « pour des raisons concurrentielles » — avec des années de données de service client issues de Fin, en intégrant des systèmes d'apprentissage par renforcement ancrés sur des résolutions réelles. Cette opacité partielle rappelle la controverse qu'a connue Cursor, accusé d'avoir dissimulé que son modèle Composer 2 était basé sur un modèle open source affiné. Intercom reconnaît utiliser une base open-weights, mais refuse d'en préciser la source, une posture qui soulèvera sans doute des questions sur la réalité de sa « transparence ». La société indique vouloir changer de modèle de base à l'avenir, ce qui suggère que Fin Apex est moins un modèle figé qu'une infrastructure d'optimisation continue — et potentiellement un modèle que d'autres plateformes verticales pourraient chercher à reproduire.

UELes entreprises françaises et européennes utilisant Intercom pour leur support client bénéficient directement des gains de résolution automatique et de la réduction des coûts apportés par Fin Apex 1.0.

LLMsOpinion
1 source
Sakana AI lance Sakana Fugu : un modèle d'orchestration qui répartit les tâches entre un ensemble interchangeable de LLMs frontier
2MarkTechPost 

Sakana AI lance Sakana Fugu : un modèle d'orchestration qui répartit les tâches entre un ensemble interchangeable de LLMs frontier

Sakana AI a lancé le 15 juin 2026 Sakana Fugu, un système d'orchestration multi-agents qui se présente comme un modèle unique. Le principe : l'utilisateur envoie une requête à un seul point d'accès compatible avec l'API d'OpenAI, et Fugu décide en coulisses s'il traite la tâche seul ou s'il coordonne un ensemble de modèles spécialisés. Le système existe en deux variantes, Fugu, optimisé pour la rapidité sur des tâches courantes comme la revue de code ou les chatbots, et Fugu Ultra, conçu pour les problèmes complexes en plusieurs étapes. Sur les benchmarks publiés, Fugu Ultra affiche 73,7 % sur SWE Bench Pro contre 69,2 % pour Claude Opus 4.8, 93,2 % sur LiveCodeBench contre 87,8 % pour Opus, et 50,0 % sur Humanity's Last Exam contre 49,8 %. L'orchestrateur se classe premier sur 10 des 11 benchmarks testés, dépassant individuellement chacun des modèles qu'il coordonne, dont des instances de Gemini 3.1 Pro et GPT 5.5. Ce résultat illustre un principe contre-intuitif : un système qui apprend à déléguer peut surpasser les modèles auxquels il délègue. Pour les équipes de développement, cela signifie qu'il est possible d'accéder à des performances de pointe sans gérer soi-même la complexité d'une architecture multi-agents. Fugu expose également un mécanisme d'opt-out : certains agents peuvent être exclus du pool pour répondre à des exigences de confidentialité ou de conformité réglementaire, ce qui le rend utilisable dans des environnements contraints. La version Ultra, en revanche, ne propose pas cette flexibilité, son pool d'agents est fixe. Sakana AI, studio de recherche fondé en 2023 à Tokyo par d'anciens chercheurs de Google Brain, s'appuie ici sur deux articles présentés à ICLR 2026 : Trinity, qui assigne dynamiquement des rôles de Penseur, Travailleur ou Vérificateur à chaque agent selon le contexte, et Conductor, entraîné par renforcement pour découvrir des stratégies de coordination en langage naturel. La motivation déclarée pour l'architecture multi-fournisseurs est explicitement politique : l'équipe cite les récents contrôles à l'export sur les modèles Fable et Mythos d'Anthropic comme exemple du risque de dépendance à un seul acteur. En routant autour des restrictions d'accès, Fugu se positionne comme une infrastructure résiliente. Testé en bêta auprès de près de 500 utilisateurs, il a notamment permis à un agent d'améliorer automatiquement la recette d'entraînement d'un petit modèle GPT sur 123 expériences successives, un cas d'usage qui préfigure une automatisation profonde de la recherche en IA elle-même.

UELe mécanisme d'opt-out permettant d'exclure certains agents du pool pour des raisons de conformité rend Fugu potentiellement adopté par des entreprises européennes soumises au RGPD ou à l'AI Act.

LLMsActu
1 source
Le modèle open source Kimi K2.7 Code est jusqu'à 12 fois moins cher par token que GPT-5.5 et Claude
3The Decoder 

Le modèle open source Kimi K2.7 Code est jusqu'à 12 fois moins cher par token que GPT-5.5 et Claude

Moonshot AI, la startup chinoise spécialisée en intelligence artificielle, a lancé Kimi K2.7 Code, un modèle open-weights d'un trillion de paramètres entièrement orienté vers la programmation. Disponible en accès public, ce modèle se distingue avant tout par son positionnement tarifaire agressif : son coût par token est jusqu'à douze fois inférieur à celui de GPT-5.5 d'OpenAI et de Claude Opus 4.8 d'Anthropic, les deux références actuelles du marché sur les tâches de code. Sur les benchmarks de programmation, Kimi K2.7 Code reste en retrait par rapport à GPT-5.5 et Claude Opus 4.8, sans atteindre leurs niveaux de précision. Mais la vraie question n'est pas celle de la performance brute : à budget équivalent, un développeur ou une entreprise peut effectuer douze fois plus d'appels avec Kimi K2.7 Code qu'avec ses concurrents propriétaires. Pour des cas d'usage à fort volume, comme l'autocomplétion en continu, la revue de code automatisée ou les agents de développement, ce différentiel de coût peut largement compenser l'écart de qualité. Ce lancement s'inscrit dans une tendance de fond où les modèles open-weights chinois rivalisent de plus en plus frontalement avec les grands modèles propriétaires américains sur le rapport qualité-prix. Moonshot AI suit une trajectoire similaire à celle de DeepSeek, qui avait bouleversé le secteur début 2025 avec des modèles très compétitifs à faible coût. La montée en puissance de ces alternatives accessibles force OpenAI et Anthropic à justifier leurs prix premium, et accélère la démocratisation des outils d'IA pour les équipes techniques aux ressources limitées.

UELes développeurs et entreprises européennes peuvent accéder à des capacités de génération de code à un coût jusqu'à douze fois inférieur aux modèles propriétaires américains, abaissant la barrière d'entrée pour les équipes aux ressources limitées.

💬 12x moins cher, c'est pas un détail de tarification, c'est un changement d'échelle pour ce qu'on peut se permettre de faire tourner. Bon, les benchmarks le placent derrière GPT-5.5 et Opus 4.8, mais pour de l'autocomplétion ou de la revue de code en volume, la question elle se pose pas vraiment. C'est la trajectoire DeepSeek qui continue, et ça oblige OpenAI et Anthropic à expliquer pourquoi leurs prix premium valent encore le coup.

LLMsOpinion
1 source
Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code
4MarkTechPost 

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code

Google a dévoilé Gemini 3.5 Flash lors de sa conférence Google I/O en mai 2026, marquant le lancement de la première génération de modèles Gemini 3.5. Malgré son positionnement dans le tier "Flash", historiquement réservé aux modèles rapides et économiques, ce nouveau modèle surpasse Gemini 3.1 Pro sur les benchmarks exigeants. Il affiche 76,2 % sur Terminal-Bench 2.1 (performance en codage), 1 656 Elo sur GDPval-AA (tâches agentiques réelles), 83,6 % sur MCP Atlas (fiabilité dans l'utilisation d'outils) et 84,2 % sur CharXiv Reasoning (compréhension multimodale). Côté prix, Google propose 1,50 dollar par million de tokens en entrée, 9 dollars en sortie, et seulement 0,15 dollar pour les tokens mis en cache. Le modèle est quatre fois plus rapide sur les tokens de sortie que son prédécesseur, avec une fenêtre de contexte d'un million de tokens et une date de coupure de connaissance fixée à janvier 2026. Ce lancement est structurellement important parce qu'il efface la frontière entre vitesse et puissance : un modèle "Flash" bon marché dépasse désormais le modèle premium précédent. Pour les développeurs et les entreprises qui construisent des agents IA, cela réduit drastiquement le coût des workflows complexes. Google a simultanément lancé une API "Managed Agents" qui permet de déployer un agent complet en un seul appel API : l'agent raisonne, appelle des outils, exécute du code dans un conteneur Linux isolé, et maintient son état entre les appels successifs. Des partenaires comme Shopify utilisent déjà des sous-agents en parallèle pour améliorer les prévisions de croissance de leurs marchands, Macquarie Bank le teste pour analyser des documents de plus de 100 pages lors de l'embarquement client, Salesforce l'intègre dans Agentforce pour automatiser des tâches d'entreprise, et Databricks l'utilise pour la surveillance de données en temps réel avec diagnostic automatique. Ce modèle s'inscrit dans la stratégie "agent-first" de Google, matérialisée par la plateforme Antigravity. Antigravity 2.0 est une application desktop autonome capable d'orchestrer plusieurs agents en parallèle, avec des tâches planifiées et des intégrations couvrant Google AI Studio, Android et Firebase. Un CLI permet aux développeurs de créer des agents sans interface graphique, et un SDK ouvre un accès programmatique complet. La compétition sur le segment des modèles efficaces et agentiques s'intensifie : OpenAI, Anthropic et d'autres acteurs proposent des offres similaires, mais Google frappe fort en combinant performance de frontier, prix agressif et infrastructure d'exécution clé en main. Les prochains mois diront si Gemini 3.5 Flash s'impose comme la référence de facto pour les workflows agentiques en production.

UELes développeurs et entreprises européens peuvent adopter dès maintenant Gemini 3.5 Flash pour leurs workflows agentiques à des tarifs très agressifs, abaissant significativement le coût de construction d'agents IA en production en France et dans l'UE.

💬 Un modèle Flash qui surpasse le Pro précédent sur les benchmarks, ça change toute l'équation. Tu n'as plus à choisir entre vitesse et qualité, tu prends les deux pour 1,50 dollar le million de tokens en entrée. L'API Managed Agents m'intéresse autant que les perfs : déployer un agent complet en un seul appel, c'est exactement le plumbing que tout le monde réécrivait à la main depuis deux ans.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic