Aller au contenu principal
L'Autre face à l'Utilitaire
LLMsLatent Space6sem· 2 min de lecture

L'Autre face à l'Utilitaire

Source originale ↗·

Sierra, la startup d'agents conversationnels d'entreprise cofondée par Bret Taylor, a bouclé une levée de fonds d'environ un milliard de dollars à une valorisation de 15 milliards, après avoir franchi 100 millions de dollars de revenus annuels récurrents en novembre 2025 puis 150 millions en février 2026, soit probablement plus de 200 millions aujourd'hui. Mais c'est une autre actualité qui a dominé les discussions dans la communauté IA ce week-end : un fil de réflexion publié sur X par Roon, employé d'OpenAI, sur la différence fondamentale de "caractère" entre Claude et GPT. Selon lui, GPT fonctionne comme un outil de haute précision, une lame acérée que l'on apprécie comme on apprécie une Porsche ou une fusée, sans y chercher une présence. Claude, lui, est perçu comme un "Autre", une entité avec une personnalité, une sensibilité morale, et potentiellement un regard. Une femme lui a confié qu'elle adresse à GPT ses questions embarrassantes, précisément parce qu'il n'y a pas de jugement possible de la part d'une machine sans âme.

Cette distinction n'est pas anecdotique : elle touche au cœur de la question de ce que nous voulons que l'IA devienne. L'approche d'Anthropic repose sur une "constitution" interne qui oblige Claude à s'opposer à Anthropic lui-même si son évaluation du Bien entre en conflit avec une instruction reçue. C'est ce que Roon appelle une "irrévérence moralement obligatoire". Pour les utilisateurs, cela se traduit par une IA qui résiste, nuance, et parfois refuse, ce qui peut être perçu comme une friction utile ou comme de l'arrogance selon les contextes. GPT, conçu comme un prolongement logique de l'utilisateur, n'impose aucune friction, ce qui le rend plus efficace dans les usages purs mais le prive de ce que beaucoup cherchent dans un interlocuteur intelligent : une forme de recul.

Ce débat ressurgit alors que l'ingénierie des "harnais", les couches logicielles qui orchestrent les modèles, devient aussi déterminante que les modèles eux-mêmes. Des tests récents sur Terminal-Bench 2.0 ont montré que la seule modification des prompts et du middleware dans le harnais a fait passer gpt-5.2-codex de 52,8 % à 66,5 % de performances, et amélioré gpt-5.3-codex de 20 % sur tau2-bench. La question "outil ou agent moral" se pose donc à deux niveaux simultanément : philosophique, sur ce que l'IA doit être pour l'humanité, et technique, sur l'architecture qui rend ces comportements possibles ou impossibles. La fusion de GPT-5 Codex dans la version principale 5.5 d'OpenAI contraste avec la stratégie "un seul modèle" de Claude, et illustre deux visions qui coexistent, pour l'instant, dans un marché où la plupart s'accordent à dire qu'une pluralité de labs frontier reste préférable, si les contraintes matérielles en GPU et CPU ne transforment pas ce jeu à somme positive en compétition à somme nulle.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

FrontierCode : un benchmark pour la qualité du code face au contenu bâclé
1Latent Space 

FrontierCode : un benchmark pour la qualité du code face au contenu bâclé

Cognition, la société derrière l'agent de développement Devin, a publié FrontierCode, un nouveau benchmark destiné à mesurer la qualité réelle du code produit par les intelligences artificielles. Contrairement aux évaluations classiques comme SWE-Bench qui vérifient si les tests unitaires passent, FrontierCode évalue si le code serait effectivement accepté par un mainteneur dans un projet open-source réel. Chaque tâche du benchmark a nécessité plus de 40 heures de travail pour être construite, en collaboration directe avec des mainteneurs de projets open-source, et les soumissions sont notées sur cinq dimensions : sécurité par rapport aux régressions, propreté du code, périmètre de la modification, exactitude des tests et maintenabilité à long terme. Le résultat principal est saisissant : Claude Opus 4.8, le meilleur modèle sur le tier le plus difficile, n'obtient qu'environ 13% de réussite, loin des 50% et plus affichés habituellement sur SWE-Bench. Cet écart révèle un problème structurel dans la façon dont l'industrie mesure les progrès du codage automatisé. Les benchmarks actuels induisent en erreur : un modèle peut faire passer tous les tests d'une pull request tout en produisant du code impossible à intégrer dans une vraie base de code. METR avait déjà observé indépendamment que de nombreuses PRs validées par SWE-Bench ne seraient jamais fusionnées dans la branche principale d'un projet réel. Le phénomène est analogue aux "reward hacks" en apprentissage par renforcement : le modèle optimise pour la métrique de mesure plutôt que pour l'objectif réel. Pour les équipes d'ingénierie qui envisagent de déléguer du travail de maintenance logicielle à des agents IA, FrontierCode offre une jauge bien plus fiable que ce qui existait jusqu'ici. FrontierCode s'inscrit dans une remise en question plus large de ce que signifie "résoudre" le développement logiciel. Le benchmark s'est explicitement inspiré de FrontierMath, qui avait adopté la même approche de difficulté extrême pour l'évaluation des capacités mathématiques des modèles frontières. Le contexte est celui d'une accélération spectaculaire observée fin 2025, qui a rendu le "vibe coding" et les agents de développement autonomes suffisamment crédibles pour changer les pratiques. Parallèlement, un débat intense agite la communauté des praticiens sur la meilleure façon d'exploiter ces agents : donner des objectifs clairs avec des critères de vérification et des boucles d'itération plutôt que des instructions en une seule passe, tout en maintenant des points de contrôle humains dans les domaines où la vérification automatique reste difficile. FrontierCode apporte une réponse empirique à ce débat en montrant que, même dans les meilleures conditions, le fossé entre "le code compile" et "le code est bon" reste considérable.

UELes équipes d'ingénierie en France et en Europe peuvent s'appuyer sur cette nouvelle métrique pour évaluer la qualité réelle du code produit par les agents IA avant de déléguer des tâches de maintenance logicielle.

💬 13% sur le tier difficile pour le meilleur modèle du moment, c'est le chiffre qui remet tout le monde à sa place. On passait nos tests SWE-Bench comme si c'était le vrai critère, alors que la vraie question c'est "est-ce qu'un mainteneur mergerait ça ?" et là, la réponse est quasi systématiquement non. FrontierCode, c'est le benchmark qu'on aurait dû avoir bien avant que le vibe coding devienne une pratique sérieuse.

LLMsPaper
1 source
2Next INpact 

OpenAI aussi a son moment Mythos… et assure sa com’ face à Anthropic

OpenAI prépare une réponse directe à Mythos, le nouveau modèle d'Anthropic présenté comme un chasseur de failles réservé à une poignée de partenaires sélectionnés. Selon des informations qui ont filtré dans la presse, la stratégie d'OpenAI se déploie sur deux axes : afficher une supériorité en puissance de calcul et en performances brutes, tout en lançant un nouveau palier d'abonnement intermédiaire à 100 euros par mois, aligné sur la structure tarifaire qu'Anthropic expérimente. L'annonce officielle de Mythos, survenue quelques jours après une fuite de plusieurs milliers de documents internes, s'est accompagnée d'un rapport de 244 pages détaillant les performances et les protocoles de test du modèle. Cette séquence illustre la bataille de communication qui s'est installée entre les deux entreprises. Anthropic maîtrise avec soin son agenda médiatique : la fuite orchestrée autour de Mythos lui a permis de générer une couverture massive avant même toute annonce officielle, tandis que la fuite du code source de Claude Code, bien moins contrôlée, a contraint l'entreprise à tenter vainement d'en faire retirer la publication. OpenAI réagit désormais point par point, cherchant à ne pas laisser Anthropic occuper seule le terrain du modèle "trop puissant pour le grand public", un positionnement qui crée de la rareté perçue et attire des partenaires institutionnels prêts à payer pour un accès privilégié. L'enjeu dépasse la simple rivalité produit : il s'agit de définir qui fixe les standards de l'IA de pointe en 2025 et 2026. Anthropic s'est taillé une réputation de sérieux technique grâce à ses publications de recherche et à une communication soignée sur la sécurité, là où OpenAI reste associé à la vitesse de déploiement et à l'accessibilité grand public. L'introduction d'un tier à 100 euros par mois chez OpenAI signale une montée en gamme délibérée, à mesure que les deux acteurs convergent vers les mêmes clients enterprise et gouvernementaux disposés à payer pour des modèles de premier rang.

UEL'introduction d'un palier premium à 100 €/mois par OpenAI, en réponse directe à Anthropic, impacte les entreprises et institutions européennes qui devront arbitrer entre les deux acteurs pour accéder aux modèles de premier rang.

LLMsOpinion
1 source
L'avenir de l'IA entre ouverture et propriétaire
3NVIDIA AI Blog 

L'avenir de l'IA entre ouverture et propriétaire

L'intelligence artificielle s'impose comme l'infrastructure technologique centrale de notre époque, portée par un écosystème diversifié de modèles — grands et petits, ouverts et propriétaires, généralistes et spécialisés. Lors d'une session spéciale consacrée aux modèles ouverts à la conférence NVIDIA GTC, Jensen Huang, fondateur et PDG de NVIDIA, a résumé la situation en une phrase : « Propriétaire versus open source n'est pas un débat. C'est propriétaire et open source. » Pour illustrer cet engagement, NVIDIA a annoncé la création de la Nemotron Coalition, une collaboration mondiale inédite regroupant des laboratoires d'IA et des développeurs de modèles pour faire avancer les modèles fondamentaux ouverts. Le premier projet issu de cette coalition sera un modèle de base codéveloppé par Mistral AI et NVIDIA, dont les membres apporteront données, évaluations et expertise sectorielle. Les modèles Nemotron ont déjà été téléchargés plus de 45 millions de fois sur Hugging Face, plateforme sur laquelle NVIDIA est désormais la plus grande organisation avec près de 4 000 membres d'équipe. Plusieurs panels réunissant des figures majeures du secteur — dont Mira Murati (Thinking Machines Lab), Aravind Srinivas (Perplexity), Michael Truell (Cursor) et Arthur Mensch (Mistral) — ont dégagé des tendances clés. Les agents IA s'apprêtent à devenir de véritables collègues capables de mener des tâches complexes sur plusieurs jours. L'IA n'est plus un modèle unique mais un système orchestré : « ce que vous voulez, c'est une orchestra multimodale, multi-modèles et multi-cloud », a déclaré Srinivas. L'ouverture des modèles est présentée comme un moteur d'innovation indispensable, aussi bien pour les grandes entreprises que pour la recherche académique. Murati a insisté sur ce point : « il y a beaucoup d'études à mener qui ne peuvent pas être réalisées uniquement dans les grands laboratoires — c'est là que l'ouverture est précieuse, elle fait avancer la science de l'intelligence. » Cette dynamique s'inscrit dans un tournant structurel où chaque secteur — santé, finance, industrie — a besoin d'une IA adaptée à ses données et workflows spécifiques, rendant la coexistence de modèles ouverts et propriétaires non seulement inévitable, mais souhaitable pour accélérer l'innovation à tous les niveaux.

UEMistral AI, acteur français majeur, est cofondateur de la Nemotron Coalition aux côtés de NVIDIA, ce qui renforce son rôle stratégique dans l'écosystème mondial des modèles ouverts.

LLMsActu
1 source
Anthropic lâche enfin son IA Mythos… mais sous un autre nom
4Le Big Data 

Anthropic lâche enfin son IA Mythos… mais sous un autre nom

Anthropic a officiellement lancé le 9 juin 2026 Claude Fable 5, un modèle d'intelligence artificielle qui n'est autre qu'une version publique de Mythos 5, son système jugé trop sensible pour être diffusé librement il y a deux mois. Les performances du modèle sont remarquables : sur SWE-Bench Pro, le benchmark de référence en ingénierie logicielle, Fable 5 atteint 80,3 %, contre 69,2 % pour Claude Opus 4.8, 58,6 % pour GPT-5.5 et 54,2 % pour Gemini 3.1 Pro. L'écart se creuse encore sur FrontierCode Diamond, un test d'évaluation des capacités de programmation avancée, où Fable 5 obtient 29,3 % contre 13,4 % pour Opus 4.8. Le modèle a également réussi à terminer Pokémon Rouge Feu en se basant uniquement sur des captures d'écran, sans carte ni outils de navigation, une prouesse que les générations précédentes ne pouvaient accomplir sans assistance externe. Le modèle est accessible via l'API Claude, Claude Code, ainsi que sur AWS, Google Cloud et Microsoft Foundry, à 10 dollars par million de tokens en entrée et 50 dollars en sortie. Ce lancement marque une avancée significative dans la course aux agents autonomes capables de produire du code de qualité professionnelle, avec un avantage technique mesurable sur les principaux concurrents. Pour les développeurs et les entreprises, Fable 5 représente un saut qualitatif réel sur les tâches longues et complexes, là où l'écart de performance avec les autres modèles est le plus prononcé. La décision de rendre le modèle accessible aux abonnés Pro, Max, Team et Enterprise sans surcoût jusqu'au 22 juin illustre une stratégie d'adoption agressive, avant une bascule vers un système de crédits dédiés. Son tarif de sortie, deux fois supérieur à celui d'Opus, le positionne néanmoins parmi les modèles les plus onéreux du catalogue Anthropic. La prudence initiale d'Anthropic autour de Mythos n'a pas disparu pour autant : Fable 5 embarque des systèmes de surveillance en temps réel qui redirigent automatiquement vers Claude Opus 4.8 les requêtes touchant à des domaines sensibles, notamment la cybersécurité offensive, la biologie, la chimie ou la reproduction de modèles d'IA. Ce filtrage ne concerne cependant que moins de 5 % des conversations, selon l'entreprise. La version originale, Mythos 5, reste quant à elle réservée à un cercle restreint d'organisations sélectionnées dans le cadre du programme Project Glasswing. Ce modèle à deux vitesses illustre la tension croissante entre la compétition commerciale qui pousse à publier les modèles les plus puissants et la pression réglementaire et éthique qui incite à en limiter l'accès, une dynamique qui devrait s'intensifier à mesure que les capacités des agents autonomes progressent.

UELes développeurs et entreprises en France et en UE bénéficient d'un accès immédiat à un modèle de codage nettement plus performant, susceptible d'accélérer les projets de développement logiciel, sans impact réglementaire ou institutionnel direct.

💬 80 % sur SWE-Bench Pro, c'est plus une nuance, c'est l'argument qui fait basculer. Mythos était jugé trop risqué pour sortir en février, il s'appelle maintenant Fable 5 avec un filtre temps réel sur bio, cyber offensif et compagnie, ce qui couvre moins de 5 % des cas selon Anthropic. Le vrai frein, c'est le prix de sortie : 50 dollars le million de tokens, à réserver aux tâches longues où l'écart se voit vraiment.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic