Aller au contenu principal
LLMsLatent Space3sem

Les deux visages d'OpenClaw

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·
Les deux visages d'OpenClaw
▶ Voir sur YouTube

Peter Steinberger, figure centrale du projet OpenClaw, a donné deux conférences simultanées le 16 avril 2026 : une intervention grand public lors du TED, axée sur les succès et l'inspiration, et une présentation plus technique à l'AIE, où il a exposé sans détour les défis d'ingénierie colossaux liés à la maintenance du projet open source à la croissance la plus rapide de l'histoire. Les chiffres sont vertigineux : OpenClaw enregistre 60 fois plus d'incidents de sécurité que le projet curl, et au moins 20 % des contributions de code soumises par la communauté sont identifiées comme malveillantes. En parallèle, Anthropic a lancé Claude Design, un outil de prototypage en préversion de recherche propulsé par Claude Opus 4.7, permettant de générer des prototypes, diapositives et documents à partir d'instructions en langage naturel, avec export vers Canva, PowerPoint, PDF et HTML, ainsi qu'un transfert direct vers Claude Code. Opus 4.7 a également été évalué par plusieurs benchmarks indépendants : il occupe la première place du Code Arena (+37 points sur Opus 4.6), la première place du Text Arena, et l'index Intelligence d'ArtificialAnalytics le place à 57,3 points, devant Gemini 3.1 Pro à 57,2 et GPT-5.4 à 56,8.

L'impact de ces annonces est immédiat et multiple. Claude Design positionne directement Anthropic comme concurrent de Figma, Lovable, Bolt et v0 sur le marché des outils de design et de prototypage, et les marchés ont réagi : l'action Figma a chuté notablement dans les heures suivant l'annonce. Sur le plan de l'efficacité, Opus 4.7 produit environ 35 % moins de tokens qu'Opus 4.6 à performance supérieure, et certains utilisateurs rapportent jusqu'à dix fois moins de tokens consommés pour des problèmes d'apprentissage automatique complexes. ArtificialAnalytics place le modèle sur la frontière de Pareto prix/performance, aussi bien pour le texte que pour le code. Les 24 premières heures ont toutefois été agitées : des régressions et des échecs de contexte ont été signalés, des problèmes de stabilité ont été relevés dans Claude Design lui-même, et des incidents liés à la sécurité des comptes ont émergé, Anthropic ayant réagi rapidement pour corriger les comportements défaillants dès le lendemain.

Ces événements s'inscrivent dans une convergence plus large de l'industrie vers les agents autonomes et l'utilisation des ordinateurs par les IA. OpenAI a également mis à jour Codex avec des capacités de computer use qui permettent de piloter Slack, des flux web et des applications bureau arbitraires, suscitant des réactions enthousiastes de praticiens qui y voient la première plateforme réellement utilisable en entreprise pour des logiciels legacy. Opus 4.7 abandonne le mode de réflexion étendue au profit d'un raisonnement adaptatif, et introduit la notion de budgets de tâches. Quant à OpenClaw, sa dualité, projet inspirant côté grand public, chantier sécuritaire périlleux côté ingénieurs, illustre la tension structurelle que traverse désormais tout grand projet open source alimenté par une communauté mondiale.

Impact France/UE

Claude Opus 4.7 et Claude Design sont immédiatement accessibles aux développeurs et entreprises européens, avec un impact concret sur les workflows de prototypage et de développement logiciel en France et en Europe.

💬 Le point de vue du dev

Opus 4.7 premier sur Code Arena ET Text Arena, 35% de tokens en moins pour des perfs au-dessus, c'est pas un détail. Claude Design qui fait chuter l'action Figma le jour même, ça dit tout sur la stratégie d'Anthropic : plus seulement le meilleur modèle, mais l'écosystème complet. Reste que 24h de régressions et d'incidents au lancement, faut y penser avant de migrer en prod.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le pari open source de la Chine
1MIT Technology Review 

Le pari open source de la Chine

Les laboratoires d'IA chinois ont adopté une stratégie radicalement différente de leurs rivaux américains : au lieu de monétiser leurs modèles derrière des API payantes, ils les publient en open-weight, c'est-à-dire sous forme de packages téléchargeables que n'importe quel développeur peut adapter et faire tourner sur ses propres serveurs. Ce tournant a pris une dimension mondiale en janvier 2025, lorsque DeepSeek a publié son modèle de raisonnement R1, qui a égalé les meilleures performances américaines à une fraction du coût annoncé. Dans la foulée, un véritable écosystème s'est structuré autour de ce modèle : Z.ai (anciennement Zhipu), Moonshot, Alibaba avec sa famille Qwen, et MiniMax ont tous suivi la même logique, en publiant des modèles de plus en plus capables. En août 2025, une étude menée par des chercheurs du MIT et de Hugging Face a établi que les modèles open-weight chinois représentaient 17,1 % des téléchargements mondiaux de modèles d'IA, dépassant pour la première fois la part américaine, fixée à 15,86 %. Les modèles Qwen d'Alibaba comptent aujourd'hui plus de variantes créées par des utilisateurs que ceux de Google et Meta réunis. L'impact de cette stratégie dépasse largement les benchmarks techniques. À mesure que l'enthousiasme autour de l'IA se tasse et que les entreprises passent des expérimentations aux déploiements concrets, les outils moins chers et plus personnalisables prennent l'avantage. Les modèles chinois permettent aux développeurs aux budgets limités d'expérimenter davantage, et le format open-weight leur donne la liberté d'adapter les modèles sans négocier de contrat commercial avec un acteur américain. Cette combinaison de prix bas et de liberté technique crée une adhérence forte : une fois qu'un écosystème se construit autour d'un modèle, comme l'ont montré Linux et Android, l'adoption se traduit naturellement en revenus API. Le Sud global, notamment Singapour, la Malaisie, le Kenya ou le Brésil, embrasse ouvertement ces outils, y voyant un chemin vers une souveraineté numérique. Derrière cette générosité apparente se cachent des calculs stratégiques précis. Sans accès aux puces de pointe bloquées par les contrôles à l'exportation américains, les laboratoires chinois compensent en ouvrant leurs modèles : plus les développeurs extérieurs contribuent et testent, plus vite le cycle d'amélioration s'accélère. Ce n'est pas sans tensions : en février 2026, Anthropic a accusé plusieurs laboratoires chinois de pratiques illicites de distillation, consistant à entraîner un nouveau modèle sur les sorties d'un autre. Les modèles chinois sont par ailleurs soumis aux exigences de censure du gouvernement de Pékin. Malgré ces limites, la dynamique est enclenchée : l'avenir de l'IA sera plus multipolaire que Silicon Valley ne l'anticipait, et rien ne semble pouvoir inverser cette tendance.

UELes modèles open-weight chinois offrent aux développeurs et entreprises européens une alternative concrète aux APIs américaines payantes, renforçant la souveraineté numérique de l'UE sans dépendance contractuelle envers les géants du Silicon Valley.

LLMsOpinion
1 source
Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
2Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source
GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API
3AI News 

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion
1 source
MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents
4VentureBeat AI 

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Xiaomi a mis en ligne le 27 avril 2026 deux nouveaux modèles de langage open source, MiMo-V2.5 et MiMo-V2.5-Pro, publiés sous licence MIT et téléchargeables directement depuis Hugging Face. Le premier est un modèle multimodal généraliste, tandis que le second est conçu spécifiquement pour les tâches agentiques complexes. Selon les benchmarks internes de Xiaomi, MiMo-V2.5-Pro atteint un taux de réussite de 63,8 % sur le ClawEval, l'évaluation standard pour les agents autonomes de type "claw" comme OpenClaw, NanoClaw ou Hermes Agent, tout en ne consommant qu'environ 70 000 tokens par trajectoire. Ce chiffre représente 40 à 60 % de tokens en moins par rapport à Claude Opus 4.6 d'Anthropic, Gemini 3.1 Pro de Google et GPT-5.4 d'OpenAI pour des résultats comparables. L'architecture repose sur 310 milliards de paramètres et intègre une fenêtre de contexte native d'un million de tokens, avec un score de 1 581 sur le benchmark GDPVal-AA (Elo), devançant des concurrents comme Kimi K2.6 et GLM 5.1. L'efficacité en tokens n'est pas qu'une métrique abstraite : dans un secteur où des services comme GitHub Copilot de Microsoft basculent vers une facturation à l'usage, chaque token économisé se traduit directement en dollars pour les entreprises et les développeurs indépendants qui déploient des agents en production. MiMo-V2.5-Pro peut piloter des systèmes agentiques capables de créer du contenu marketing, gérer des emails, organiser des agendas ou gérer des comptes en autonomie, le tout via des applications de messagerie tierces. Que le modèle soit exécuté localement ou sur un cloud privé virtuel, la licence MIT permet une intégration commerciale sans restriction, ce qui le place directement en concurrence avec les modèles propriétaires de Google et OpenAI sur le segment entreprise. Pour étayer ses affirmations, Xiaomi a publié plusieurs démonstrations en conditions réelles : MiMo-V2.5-Pro a implémenté un compilateur complet en Rust, incluant lexer, parser et backend RISC-V, en 4,3 heures via 672 appels d'outils, obtenant un score parfait de 233 sur 233 sur des suites de tests cachés, une tâche qui prend habituellement plusieurs semaines à un étudiant en informatique. Il a également produit un éditeur vidéo de bureau de 8 192 lignes en 11,5 heures et 1 868 appels d'outils, puis optimisé un régulateur analogique en technologie TSMC 180 nm, améliorant la régulation de ligne d'un facteur 22 par rapport à sa tentative initiale. Ces résultats illustrent ce que Xiaomi appelle la "harness awareness" du modèle, sa capacité à gérer activement sa propre mémoire pour maintenir la cohérence sur des milliers d'appels séquentiels. Cette publication s'inscrit dans la stratégie agressive de Xiaomi pour s'imposer dans l'IA, un secteur où la firme, surtout connue pour ses smartphones et véhicules électriques, entend désormais rivaliser directement avec les grands laboratoires américains.

UELa licence MIT et la disponibilité sur HuggingFace permettent aux entreprises et développeurs européens d'intégrer ces modèles en production sans restriction, réduisant potentiellement les coûts liés à la facturation à l'usage des services d'agents IA.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour