Aller au contenu principal

Dossier Codex — page 4

179 articles · page 4 sur 4

Codex, l'environnement de développement d'OpenAI : intégration NVIDIA, plugins Slack/Figma/Notion, plateforme agentique enterprise.

Monako : Ces lunettes connectées ne veulent pas filmer vos vacances, elles veulent coder
151Le Big Data OutilsOutil

Monako : Ces lunettes connectées ne veulent pas filmer vos vacances, elles veulent coder

La startup Monako a annoncé des lunettes connectées baptisées Monako Glass, pensées non pas pour le grand public mais spécifiquement pour les développeurs qui travaillent avec des agents de codage comme Claude Code ou OpenAI Codex. Le produit, annoncé le 2 juin 2026 via un tweet de la cofondatrice Candy Liu, se présente comme un ordinateur Linux miniature intégré dans une monture de 48 grammes, compatible avec des verres correcteurs. Le principe : lancer une session de développement sur un ordinateur portable, la transférer vers les lunettes sans interrompre le travail en cours, et laisser l'agent IA continuer à opérer pendant que la caméra intégrée lui fournit du contexte visuel sur l'environnement réel. Une précommande est ouverte à 19 dollars, positionnée davantage comme un ticket d'intérêt que comme une commande ferme, la vidéo complète de présentation n'ayant pas encore été publiée. L'enjeu concret est réel : lorsqu'un agent IA travaille sur une tâche longue, fermer son ordinateur pour se déplacer ou assister à une réunion interrompt brutalement le flux de travail. Ces lunettes promettent une continuité entre le bureau, un atelier, un trajet ou une réunion, en gardant l'agent actif et visible dans le champ de vision. Pour les développeurs qui intègrent de plus en plus ces outils dans leur quotidien, la proposition a du sens. Le poids annoncé de 48 grammes rapproche le produit d'une monture classique, ce qui distingue Monako des tentatives précédentes de lunettes connectées souvent abandonnées après quelques semaines d'usage à cause de leur inconfort. Monako arrive dans un contexte où les agents de programmation autonomes se multiplient et gagnent en sophistication, portés par des modèles comme GPT-4o et Claude 3. L'idée de déporter ces agents sur un dispositif portable s'inscrit dans une tendance plus large : reconfigurer l'ordinateur non plus comme une machine fixe mais comme un assistant intégré au corps et au regard. Pourtant, les questions décisives restent sans réponse : autonomie de la batterie, qualité d'affichage, latence, confidentialité de la caméra, et sécurité des sessions de code potentiellement sensibles. Ces détails séparent une vraie innovation d'un prototype convaincant sur papier. L'histoire des lunettes connectées, des Google Glass aux modèles plus récents, rappelle que le fossé entre la démonstration et l'usage quotidien reste difficile à franchir. Monako a l'avantage d'un positionnement ciblé et crédible, mais devra démontrer que son Linux embarqué tient ses promesses dans des conditions réelles avant de convaincre les développeurs de coder le nez dans leurs verres.

1 source
LiteLLM Agent Platform : une infrastructure Kubernetes auto-hébergée pour sandboxes d'agents isolés et gestion de sessions en production
152MarkTechPost 

LiteLLM Agent Platform : une infrastructure Kubernetes auto-hébergée pour sandboxes d'agents isolés et gestion de sessions en production

BerriAI, la société à l'origine de la passerelle LiteLLM AI Gateway, vient de publier en open source une nouvelle infrastructure appelée LiteLLM Agent Platform, conçue pour déployer des agents d'intelligence artificielle en production à grande échelle. La plateforme est principalement écrite en TypeScript (92,8 %), s'appuie sur un tableau de bord Next.js tournant sur le port 3000, et utilise PostgreSQL comme base de données persistante. Elle repose sur Kubernetes via le CRD (Custom Resource Definition) kubernetes-sigs/agent-sandbox pour gérer des environnements d'exécution isolés, et supporte le développement local grâce à kind (Kubernetes in Docker), qui simule un cluster complet sans infrastructure cloud. Le démarrage local ne requiert que deux commandes : bin/kind-up.sh pour provisionner le cluster, puis docker compose up pour lancer les services. Le problème central que résout cette plateforme est celui de la persistance d'état et de l'isolation dans les déploiements multi-équipes. Un agent IA est par nature stateful : il conserve l'historique de session, les résultats d'appels d'outils et le raisonnement intermédiaire entre chaque échange. Si le conteneur qui l'héberge plante ou est remplacé lors d'un déploiement, tout cet état disparaît. En parallèle, des équipes différentes ont besoin d'environnements distincts, avec des secrets, des outils et des périmètres d'accès spécifiques, ce qui interdit de tout regrouper dans un seul conteneur partagé. LiteLLM Agent Platform répond à ces deux contraintes : elle garantit la continuité de session à travers les redémarrages de pods, et fournit des sandboxes isolés par équipe et par contexte. La gestion des variables d'environnement illustre cette philosophie : toute variable préfixée CONTAINERENV dans le fichier .env est injectée dans chaque sandbox en supprimant le préfixe, permettant de transmettre des secrets comme GITHUB_TOKEN sans modifier les images de conteneur. Cette sortie s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'infrastructure agentique, jusqu'ici souvent gérée de manière artisanale. BerriAI maintient également un dépôt séparé, litellm-agent-runtime, décrit comme un runtime générique pour agents de code tournant dans des machines virtuelles provisionnées à la volée par le proxy LiteLLM. La plateforme intègre aussi un système de harnais sous harnesses/opencode, permettant de faire tourner des agents comme Claude Code ou OpenAI Codex dans des sandboxes isolés, avec un proxy Vault pour la gestion des credentials. L'enjeu est de permettre aux entreprises de passer d'expérimentations locales à des déploiements robustes en production, sans avoir à construire elles-mêmes cette couche d'infrastructure. La disponibilité en open source abaisse la barrière d'entrée et pourrait accélérer l'adoption de workflows agentiques dans des contextes professionnels exigeants.

💬 Le vrai problème en prod agentique, c'est pas le modèle, c'est que ton agent perd tout son contexte dès que le pod redémarre. BerriAI a construit exactement la couche qui manquait, avec isolation par équipe, persistance de session et un démarrage local en deux commandes. Bon, ça reste du Kubernetes sous le capot, donc faut pas se raconter d'histoires sur la complexité opérationnelle.

OutilsActu
1 source
Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras
153The Information AI 

Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras

OpenAI a fait appel à la startup Gimlet Labs pour optimiser ses modèles d'intelligence artificielle sur les puces de Cerebras Systems. Selon Zain Asgar, PDG de Gimlet Labs, cette collaboration permet à OpenAI de faire tourner Codex-Spark, une version accélérée de son outil de programmation destiné aux développeurs, sur l'infrastructure Cerebras. L'annonce intervient alors que Cerebras se prépare à une introduction en bourse imminente cette semaine. Ce recours à une startup spécialisée illustre un défi technique souvent sous-estimé : chaque type de puce exige une adaptation spécifique du code qui entraîne et exécute les modèles. Ce travail d'optimisation bas niveau, peu visible mais indispensable, conditionne directement les performances et les coûts d'exploitation des grands modèles de langage. Pour les utilisateurs de Codex-Spark, cela se traduit concrètement par des temps de réponse plus rapides dans les tâches d'assistance au code. Cette dynamique s'inscrit dans un mouvement plus large de diversification des sources de calcul au sein de l'industrie de l'IA. Alors que les puces Nvidia restent difficiles à obtenir en quantité suffisante, des acteurs comme OpenAI et Meta cherchent activement des alternatives : Cerebras, mais aussi d'autres fabricants de puces spécialisées. Cette stratégie multi-fournisseurs crée un besoin croissant d'intermédiaires techniques capables d'adapter les modèles à des architectures matérielles variées, ouvrant un nouveau segment de marché pour des startups comme Gimlet Labs.

InfrastructureOpinion
1 source
9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore
154MarkTechPost 

9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore

En 2026, le développement piloté par les spécifications (SDD pour spec-driven development) s'impose comme une réponse structurelle à un problème croissant dans les équipes de développement augmentées par l'IA : générer du code rapidement ne sert à rien si ce code ne correspond pas aux besoins réels du système. Un classement des neuf outils les plus utilisés pour mettre en oeuvre cette approche met en lumière trois acteurs majeurs. AWS Kiro (kiro.dev) est un IDE agentique qui guide les développeurs en trois phases formalisées, Exigences, Design et Tâches, et produit trois artefacts structurés. Il utilise la notation EARS pour les user stories et un système de hooks événementiels qui déclenchent automatiquement des vérifications (tests, mises à jour de documentation, scans de sécurité) à chaque sauvegarde de fichier. Côté modèles, Kiro s'appuie sur un routeur automatique combinant Claude Sonnet, Qwen, DeepSeek, GLM et MiniMax. GitHub Spec Kit (93 000 étoiles, version 0.8.7 publiée le 7 mai 2026) est l'option open source la plus adoptée, compatible avec plus de 30 agents dont Claude Code, Copilot et Gemini CLI. BMAD-METHOD, lui, orchestre plus de 12 agents spécialisés couvrant l'ensemble du cycle de développement logiciel ; sa version 6.6.0, sortie le 29 avril 2026, totalise 46 700 étoiles et 5 500 forks sur GitHub. L'enjeu central de ces outils est de renverser la logique de travail habituelle : au lieu de coder d'abord et d'affiner ensuite, le développeur formalise son intention en amont, et le code devient une sortie générée à partir de cette spécification. Pour les équipes professionnelles, cela réduit significativement le risque de divergence entre ce qui est produit et ce qui était réellement attendu, un problème qui coûte cher en retours arrière et en dette technique. Kiro s'adresse aux équipes qui veulent un environnement familier (il est construit sur Code OSS), tandis que Spec Kit convient aux équipes souhaitant conserver leur IDE existant. BMAD-METHOD cible des projets plus complexes nécessitant une coordination entre rôles distincts (product management, architecture, QA, etc.). Ce mouvement vers le SDD reflète une maturité croissante dans l'usage de l'IA en développement logiciel. La première vague d'outils misait sur la vitesse brute de génération de code ; la deuxième, celle que ces neuf outils incarnent, mise sur la cohérence et la traçabilité. GitHub a résumé la philosophie de Spec Kit en une formule : le code est désormais la sortie de dernier kilomètre, l'intention est la source de vérité. BMAD introduit avec sa V6 une équipe d'agents multi-plateformes, permettant à la même configuration de fonctionner indifféremment sur Claude Code, Cursor ou Codex. La convergence de ces approches suggère que la prochaine bataille dans les outils de développement ne se jouera pas sur la qualité du code généré, mais sur la qualité des spécifications qui le précèdent.

💬 La première vague d'outils IA misait sur la vitesse brute, et on a tous couru après. Bon, résultat : du code généré en 10 minutes qu'on passe 3 heures à corriger parce que la spec était dans la tête du dev et nulle part ailleurs. Kiro et Spec Kit ne règlent pas tout, mais l'idée de formaliser l'intention avant le code, c'est le truc qu'on aurait dû faire dès le départ.

OutilsOutil
1 source
LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes
155MarkTechPost 

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

La LightSeek Foundation a publié TokenSpeed, un moteur d'inférence pour grands modèles de langage distribué en open source sous licence MIT. Encore en phase de préversion, TokenSpeed est conçu spécifiquement pour les charges de travail dites "agentiques", c'est-à-dire les systèmes d'IA qui enchaînent de multiples appels au modèle pour accomplir des tâches complexes, comme l'écriture ou la révision de code. L'objectif déclaré est d'atteindre des performances comparables à TensorRT-LLM de NVIDIA, tout en restant accessible à l'ensemble de l'écosystème. Le moteur vise à maintenir un débit minimum de 70 tokens par seconde par utilisateur, un seuil qui monte parfois à 200 TPS ou plus, tout en maximisant le nombre de tokens traités par GPU et par minute. L'enjeu dépasse la performance brute. Des outils comme Claude Code d'Anthropic, Codex d'OpenAI ou Cursor fonctionnent sur des contextes qui dépassent régulièrement 50 000 tokens et s'étalent sur des dizaines de tours de conversation, un profil très différent d'un simple chatbot. Or la plupart des benchmarks publics ne rendent pas compte de cette réalité. Lorsqu'un agent de développement logiciel analyse un dépôt entier, génère du code, exécute des tests et itère, chaque milliseconde de latence ajoutée se multiplie à chaque étape. Un moteur d'inférence mal adapté devient rapidement un goulot d'étranglement qui ralentit l'ensemble de la chaîne de production logicielle, et donc, à terme, les équipes d'ingénierie qui en dépendent. L'architecture de TokenSpeed repose sur cinq sous-systèmes complémentaires. Le premier est un mécanisme de parallélisme assisté par compilateur, basé sur le modèle SPMD (Single Program, Multiple Data), qui génère automatiquement les communications entre processus sans que le développeur n'ait à les écrire manuellement. Le planificateur de requêtes sépare strictement le plan de contrôle, implémenté en C++ sous forme de machine à états finis, du plan d'exécution écrit en Python, ce qui permet de détecter les erreurs de gestion du cache KV à la compilation plutôt qu'à l'exécution. Le troisième pilier est une couche de noyaux GPU modulaire et extensible, compatible avec des accélérateurs autres que ceux de NVIDIA, s'appuyant notamment sur l'un des noyaux MLA (Multi-head Latent Attention) les plus rapides disponibles pour les GPU Blackwell. Ce noyau MLA a d'ailleurs déjà été intégré dans vLLM, l'un des moteurs d'inférence open source les plus utilisés dans l'industrie. La fondation LightSeek positionne ainsi TokenSpeed comme une infrastructure commune pour l'ère où les agents IA deviennent le principal vecteur de production de code.

UELa disponibilité d'un moteur d'inférence open source compatible avec des accélérateurs non-NVIDIA pourrait réduire la dépendance des équipes européennes aux solutions propriétaires de NVIDIA.

InfrastructureActu
1 source
Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes
156VentureBeat AI 

Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes

SageOX, une startup de Seattle fondée par des vétérans ayant construit l'infrastructure originale d'AWS EC2 et EBS, est sortie du mode furtif en annonçant un tour de financement de 15 millions de dollars mené par Canaan, avec la participation d'A.Capital, Pioneer Square Labs et Founders' Co-op. L'entreprise, dirigée par Ajit Banerjee, ancien ingénieur chez Hugging Face, Meta, Amazon et Apple, commercialise ce qu'elle appelle une "infrastructure de contexte agentique" : un système conçu pour garder les agents IA aussi informés que les employés humains sur les décisions, discussions et objectifs d'une équipe. La suite produit repose sur deux composants principaux : l'Ox Dot, un petit appareil physique placé dans les espaces partagés qui enregistre réunions et séances de travail d'une simple pression, et l'Ox CLI, un outil en ligne de commande open source sous licence MIT qui permet aux assistants de codage comme Claude Code ou Codex d'interroger la mémoire collective de l'équipe avant d'écrire du code. Le problème que SageOX cherche à résoudre est celui du "drift" des agents, c'est-à-dire leur tendance à s'écarter des intentions réelles de l'équipe parce qu'ils démarrent chaque tâche sans historique ni contexte. Si une équipe décide en réunion d'utiliser un schéma d'authentification précis, l'agent de codage l'ignorera complètement, sauf si quelqu'un le lui précise explicitement dans chaque prompt. L'Ox Dot capture audio, transcrit et identifie les intervenants, puis distille ces échanges en une mémoire d'équipe accessible aux humains et aux agents. Sa fonctionnalité "Auto Rewind" permet même de capturer rétrospectivement une conversation informelle qui s'est tenue sans enregistrement, évitant la perte de décisions prises lors d'échanges spontanés. La commande ox agent prime intègre ensuite cet historique directement dans le contexte de travail des agents. Le problème de l'"ingénierie du contexte" est l'un des défis majeurs non résolus de l'ère agentique. À mesure que les grands fournisseurs de modèles comme OpenAI, Anthropic ou Google descendent dans la chaîne de valeur en proposant leurs propres agents métier, la question de comment équiper ces agents d'un contexte riche et fidèle à la réalité d'une organisation reste entière. SageOX parie que la réponse n'est pas dans le prompt engineering ou la documentation statique, mais dans une couche d'infrastructure dédiée qui capte le contexte là où il se forme naturellement : conversations, tableaux blancs, standups. Ryan Snodgrass, CTO et ancien d'Amazon, pousse même plus loin en remettant en question les principes classiques de gestion de code source, estimant que les historiques "propres" de commits sont souvent contre-productifs pour les agents. La startup s'attaque ainsi à un marché encore peu balisé, à l'intersection de la collaboration d'équipe et de l'orchestration agentique.

OutilsOutil
1 source
L'Autre face à l'Utilitaire
157Latent Space 

L'Autre face à l'Utilitaire

Sierra, la startup d'agents conversationnels d'entreprise cofondée par Bret Taylor, a bouclé une levée de fonds d'environ un milliard de dollars à une valorisation de 15 milliards, après avoir franchi 100 millions de dollars de revenus annuels récurrents en novembre 2025 puis 150 millions en février 2026, soit probablement plus de 200 millions aujourd'hui. Mais c'est une autre actualité qui a dominé les discussions dans la communauté IA ce week-end : un fil de réflexion publié sur X par Roon, employé d'OpenAI, sur la différence fondamentale de "caractère" entre Claude et GPT. Selon lui, GPT fonctionne comme un outil de haute précision, une lame acérée que l'on apprécie comme on apprécie une Porsche ou une fusée, sans y chercher une présence. Claude, lui, est perçu comme un "Autre", une entité avec une personnalité, une sensibilité morale, et potentiellement un regard. Une femme lui a confié qu'elle adresse à GPT ses questions embarrassantes, précisément parce qu'il n'y a pas de jugement possible de la part d'une machine sans âme. Cette distinction n'est pas anecdotique : elle touche au cœur de la question de ce que nous voulons que l'IA devienne. L'approche d'Anthropic repose sur une "constitution" interne qui oblige Claude à s'opposer à Anthropic lui-même si son évaluation du Bien entre en conflit avec une instruction reçue. C'est ce que Roon appelle une "irrévérence moralement obligatoire". Pour les utilisateurs, cela se traduit par une IA qui résiste, nuance, et parfois refuse, ce qui peut être perçu comme une friction utile ou comme de l'arrogance selon les contextes. GPT, conçu comme un prolongement logique de l'utilisateur, n'impose aucune friction, ce qui le rend plus efficace dans les usages purs mais le prive de ce que beaucoup cherchent dans un interlocuteur intelligent : une forme de recul. Ce débat ressurgit alors que l'ingénierie des "harnais", les couches logicielles qui orchestrent les modèles, devient aussi déterminante que les modèles eux-mêmes. Des tests récents sur Terminal-Bench 2.0 ont montré que la seule modification des prompts et du middleware dans le harnais a fait passer gpt-5.2-codex de 52,8 % à 66,5 % de performances, et amélioré gpt-5.3-codex de 20 % sur tau2-bench. La question "outil ou agent moral" se pose donc à deux niveaux simultanément : philosophique, sur ce que l'IA doit être pour l'humanité, et technique, sur l'architecture qui rend ces comportements possibles ou impossibles. La fusion de GPT-5 Codex dans la version principale 5.5 d'OpenAI contraste avec la stratégie "un seul modèle" de Claude, et illustre deux visions qui coexistent, pour l'instant, dans un marché où la plupart s'accordent à dire qu'une pluralité de labs frontier reste préférable, si les contraintes matérielles en GPU et CPU ne transforment pas ce jeu à somme positive en compétition à somme nulle.

LLMsOpinion
1 source
Les meilleures API de recherche et récupération de données pour construire des agents IA en 2026 : outils, compromis et offres gratuites
158MarkTechPost 

Les meilleures API de recherche et récupération de données pour construire des agents IA en 2026 : outils, compromis et offres gratuites

La recherche web et la récupération de contenu sont devenues en 2026 des infrastructures critiques pour tout développeur construisant des agents IA. Un panorama des principales API Search et Fetch disponibles ce printemps révèle deux acteurs à retenir : TinyFish et Tavily. TinyFish propose des points d'accès dédiés aux agents, disponibles gratuitement avec des limites généreuses : 5 requêtes par minute pour la recherche (api.search.tinyfish.ai) et 25 requêtes par minute pour la récupération de pages (api.fetch.tinyfish.ai), sans carte bancaire requise. Sa latence médiane pour la recherche est inférieure à 0,5 seconde, ce qui le rend compatible avec les boucles d'outils en temps réel. La plateforme déploie sa propre flotte Chromium pour effectuer un rendu complet de chaque URL, y compris les applications JavaScript dynamiques et les pages protégées contre les robots, retournant ensuite du contenu propre en Markdown, JSON ou HTML. Tavily, de son côté, propose un plan gratuit incluant 1 000 crédits API par mois, avec des offres payantes à partir de 30 dollars par mois (4 000 crédits) jusqu'à 220 dollars par mois (38 000 crédits), ainsi qu'une option à la demande à 0,008 dollar par crédit. Ce qui distingue ces outils de la génération précédente tient à leur conception orientée agents : là où les solutions classiques injectaient du HTML brut, avec scripts, publicités et bannières de cookies, dans les fenêtres de contexte des LLM, TinyFish filtre tout ce bruit en amont. Le résultat est une consommation de tokens par page nettement inférieure, et donc un coût par appel LLM réduit. Pour les entreprises utilisant des agents à grande échelle, cet écart n'est pas marginal. TinyFish s'intègre directement dans les environnements que les développeurs utilisent déjà : Claude Code, Cursor, Codex, LangChain, CrewAI, n8n, Dify et Vercel Skills. Une configuration MCP s'installe en un seul fichier JSON ; une CLI (npm install -g @tiny-fish/cli) écrit les résultats directement sur le système de fichiers sans passer par la fenêtre de contexte du modèle, limitant ainsi l'utilisation des tokens. Tavily, quant à lui, est reconnu pour ses intégrations profondes avec LangChain et LlamaIndex, les frameworks les plus répandus dans l'écosystème RAG. Ces évolutions s'inscrivent dans un mouvement plus large : la maturation rapide de l'outillage autour des agents IA en production. En 2024, la pratique dominante consistait à envelopper les données brutes des SERP Google et à les passer directement à un modèle de langage. En 2026, cette approche est dépassée, remplacée par des API conçues dès le départ pour les contraintes spécifiques des agents : latence, efficacité des tokens, stabilité du rendu et compatibilité avec les frameworks d'orchestration. TinyFish et Tavily illustrent une tendance dans laquelle l'infrastructure de récupération d'information devient aussi déterminante que le choix du modèle LLM lui-même. Les prochaines lignes de différenciation porteront probablement sur la fraîcheur des index, la gestion des contenus derrière authentification et l'intégration native avec les standards d'agents émergents comme le protocole MCP.

OutilsOutil
1 source
Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres
159VentureBeat AI 

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres

Le 27 avril 2026, un développeur utilisant le pseudonyme @arb8020 sur X a mis au jour un passage pour le moins étrange dans le dépôt GitHub open source de Codex, l'outil de codage d'OpenAI. Dans un fichier nommé models.json, une directive répétée quatre fois concernant GPT-5.5 ordonnait au modèle de ne jamais parler de "gobelins, gnomes, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures" sauf si le sujet était "absolument et sans ambiguïté pertinent" pour la requête de l'utilisateur. La publication est devenue virale en quelques heures sur Reddit et X, suscitant une vague de spéculations : des utilisateurs rapportaient que GPT-5.5 qualifiait spontanément les bugs techniques de "gremlins", ou que certains agents basés sur le modèle semblaient "obsédés par les gobelins", comme l'a illustré Barron Roth, Senior Project Manager chez Google, avec une capture d'écran de son agent OpenClaw. Sam Altman lui-même a rejoint la discussion, publiant avec humour une capture d'un prompt demandant de "lancer l'entraînement de GPT-6 avec des gobelins supplémentaires". Cette affaire dépasse le simple anecdote. Elle met en lumière les limites encore mal comprises du Reinforcement Learning from Human Feedback (RLHF), la technique centrale qui permet d'aligner les grands modèles de langage sur les préférences humaines. Comme l'ont noté des chercheurs sur Hacker News, il s'agit d'un "problème de l'éléphant rose" : interdire explicitement à un modèle de penser à quelque chose peut paradoxalement renforcer la saillance de ce concept dans son mécanisme d'attention. Pour une entreprise valorisée à plus de 300 milliards de dollars et dont les modèles sont utilisés par des millions de professionnels, voir une directive aussi surprenante s'infiltrer en production souligne à quel point le comportement émergent des LLMs reste difficile à contrôler, même avec des équipes de pointe. OpenAI a répondu dès le lendemain avec un billet de blog officiel intitulé "Where the goblins came from", apportant une explication technique. La cause n'est pas un bug classique, mais un effet de bord inattendu de la fonctionnalité de personnalisation introduite dans ChatGPT en juillet 2025. Contrairement à ce que l'on pourrait supposer, cette personnalisation (modes Professionnel, Amical, Efficace, Candide, etc.) n'est pas appliquée après l'entraînement du modèle, mais intégrée directement dans le pipeline d'entraînement de bout en bout des modèles GPT. C'est précisément cette intégration profonde qui a produit des comportements non anticipés, forçant l'équipe à ajouter des instructions correctives explicites dans le fichier de configuration. L'incident illustre un défi structurel pour tout le secteur : plus les modèles sont personnalisables et entraînés de manière holistique, plus les interactions entre objectifs distincts deviennent imprévisibles.

UELes développeurs et entreprises européens utilisant GPT-5.5 peuvent être exposés à des comportements émergents imprévus, mais l'impact reste indirect et mondial sans spécificité France/UE.

LLMsOpinion
1 source
GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !
160Le Big Data 

GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !

GPT-5.5, le dernier modèle d'OpenAI, s'est mis à glisser des gobelins, gremlins, ratons laveurs, trolls, ogres et pigeons dans ses réponses, même lorsque le sujet n'a aucun rapport avec ces créatures. Le phénomène a été documenté publiquement le 28 avril 2026 par Arena.ai, qui a publié un graphique montrant l'évolution de l'utilisation de ces termes par les modèles GPT au fil du temps. La réaction d'OpenAI ne s'est pas fait attendre : des développeurs ont découvert dans Codex une instruction système associée à GPT-5.5 qui interdit explicitement au modèle de mentionner gobelins, gremlins, ratons laveurs, trolls, ogres ou pigeons, sauf si cela est strictement pertinent à la demande de l'utilisateur. Ce comportement, qualifié par plusieurs spécialistes d'« effondrement de mode », serait lié aux données d'entraînement du modèle : GPT-5.5 aurait développé un tic linguistique, répétant certains motifs de façon excessive et incontrôlée. Si quelques utilisateurs y voient une touche d'humour involontaire et presque attachante, la manière dont OpenAI a choisi de réagir suscite davantage de critiques. Sur X, un utilisateur a résumé l'incompréhension générale : face à un comportement aussi inattendu dans un système aussi avancé, la réponse n'a pas été de chercher la cause profonde du problème, mais simplement d'ordonner au modèle de ne plus mentionner ces créatures. D'autres interprètent l'instruction comme une hostilité ciblée envers les pigeons et les ratons laveurs, ce qui n'a fait qu'amplifier les moqueries en ligne. Ce bug illustre un problème fondamental que l'industrie de l'IA peine encore à résoudre : les grands modèles de langage restent des boîtes noires. Comme l'a formulé un utilisateur de Reddit, on peut identifier un comportement anormal et le corriger par instruction directe, mais expliquer précisément pourquoi il est apparu reste hors de portée. OpenAI n'est pas la première entreprise confrontée à des dérives comportementales inattendues dans ses modèles, et chaque incident de ce type relance le débat sur l'interprétabilité des systèmes d'IA et la solidité des processus d'entraînement. Sam Altman a choisi de désamorcer la situation avec humour, partageant une capture d'écran évoquant l'entraînement de GPT-6 avec « encore plus de gobelins », mais cette légèreté n'efface pas la question de fond : à mesure que ces modèles deviennent plus puissants et plus intégrés dans des outils professionnels comme Codex, leur imprévisibilité devient un risque difficile à ignorer.

UECe comportement imprévisible alimente le débat européen sur l'interprétabilité et la transparence des LLMs, un enjeu central de l'AI Act.

LLMsOpinion
1 source
Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA
161VentureBeat AI 

Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA

La plateforme australienne de financement de startups VentureCrowd a réduit de 90 % la durée de certains cycles de développement front-end grâce à des agents IA de codage, mais cette performance a eu un prix. Diego Mogollon, directeur produit de l'entreprise, a constaté que les agents raisonnaient exclusivement à partir des données accessibles au moment de l'exécution, ce qui les rendait «confiants et faux» dès que le contexte fourni était incomplet ou mal structuré. Le problème identifié porte un nom : le «context bloat», ou gonflement de contexte, un phénomène où les agents IA accumulent progressivement trop de données, d'instructions et d'outils au fil de workflows de plus en plus complexes. Pour y répondre, Salesforce vient de publier Agentforce Vibes 2.0, une mise à jour de sa plateforme de développement d'agents intégrée à l'écosystème Salesforce, disponible dès le plan gratuit. Cette version étend la compatibilité avec des frameworks tiers comme ReAct et introduit deux nouveaux concepts : les Abilities, qui définissent ce que l'agent cherche à accomplir, et les Skills, qui désignent les outils qu'il utilisera pour y parvenir. Le problème du gonflement de contexte est plus structurel qu'il n'y paraît. Plus un agent dispose de contexte, plus il consomme de tokens, ce qui ralentit les traitements et fait grimper les coûts. Pour les entreprises qui déploient ces systèmes à grande échelle, cela se traduit par une perte de contrôle sur la latence, la fiabilité et les budgets. Mogollon résume le paradoxe central : «Ce n'est pas un problème d'IA, c'est un problème de contexte déguisé en problème d'IA, et c'est le premier mode d'échec que j'observe dans les implémentations agentiques.» VentureCrowd a d'ailleurs dû restructurer l'ensemble de sa base de code avant même de pouvoir déployer des agents efficaces, les agents amplifiant les défauts des données qu'ils reçoivent. L'approche de Salesforce avec Agentforce Vibes 2.0 se distingue par son intégration native aux modèles de données existants des entreprises, plutôt que de chercher à minimiser le contexte. D'autres plateformes adoptent une philosophie différente : Claude Code et Codex d'OpenAI privilégient une exécution autonome, où les agents lisent des fichiers et exécutent des commandes en continu, avec des mécanismes de compaction activés lorsque le contexte devient trop volumineux. La tendance générale est à la gestion du contexte croissant plutôt qu'à sa limitation, ce qui soulève des questions de fond pour l'ensemble du secteur. Avec la multiplication des workflows agentiques complexes en entreprise, la maîtrise du contexte s'impose comme un enjeu technique et économique de premier plan, et les éditeurs qui proposeront les architectures les plus efficientes sur ce point prendront un avantage concurrentiel décisif.

OutilsOutil
1 source
OpenAI prépare Hermes pour ChatGPT : Le « tueur d’emplois » ultime ?
162Le Big Data 

OpenAI prépare Hermes pour ChatGPT : Le « tueur d’emplois » ultime ?

OpenAI travaille en secret sur une fonctionnalité majeure pour ChatGPT, baptisée en interne "Hermes". Les premières informations proviennent de captures d'écran issues de tests internes, diffusées le 21 avril 2026 par Tibor Blaho, un leaker reconnu pour la fiabilité de ses révélations sur OpenAI. D'après ces images, Hermes serait une plateforme complète dédiée aux agents IA, intégrant un outil de création appelé "Studio", des modèles de workflows prêts à l'emploi, ainsi qu'un système de planification. Les agents pourraient fonctionner 24h/24 et 7j/7, être déployés dans des services tiers comme Slack, et se voir attribuer des compétences, fichiers, instructions et mémoire persistante. Un utilisateur pourrait, par exemple, confier à un agent la gestion des messages Slack entrants pendant la nuit ou la génération automatique d'un rapport hebdomadaire chaque lundi matin. L'enjeu est considérable pour le marché du travail et l'industrie technologique. Si Hermes tient ses promesses, combiné à Codex, l'outil de génération de code d'OpenAI, il pourrait automatiser une part significative des tâches administratives et répétitives au sein des entreprises. Les postes concernés ne disparaîtraient pas nécessairement du jour au lendemain, mais pourraient se réduire progressivement à des fonctions de supervision, selon les observateurs du secteur. Pour les entreprises, cela représenterait un levier de productivité important. Pour les travailleurs du tertiaire, c'est une pression supplémentaire sur des métiers déjà fragilisés par l'automatisation croissante des processus. Hermes s'inscrit dans une stratégie plus large d'OpenAI visant à transformer ChatGPT en une véritable plateforme d'agents, en capitalisant sur les GPT personnalisés et le générateur de workflows déjà présents. Aucun calendrier officiel ni détail technique n'ont été communiqués par l'entreprise, qui reste délibérément discrète. Selon certains observateurs, ce silence serait lié à des contraintes d'infrastructure : OpenAI voudrait s'assurer de disposer d'une capacité de calcul suffisante avant d'annoncer un lancement et de déclencher une explosion de la demande. En parallèle, d'autres fonctionnalités seraient en développement, dont une personnalisation des images à partir d'une photo de référence dans ImageGen, un "Concours Images 2.0" et un mode "Résumé audio" offrant plusieurs formats allant du podcast radio au briefing exécutif. OpenAI se retrouve en compétition directe avec Google, Microsoft et des acteurs émergents comme Cohere sur le segment des agents d'entreprise, un marché que tous considèrent comme le prochain terrain décisif de l'IA générative.

UESi Hermes est lancé, les travailleurs européens du tertiaire seraient exposés à une automatisation accrue de leurs tâches administratives et répétitives via ChatGPT.

OutilsOutil
1 source
L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox
163AI News 

L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox

OpenAI vient d'annoncer de nouvelles fonctionnalités pour son Agents SDK, avec notamment l'introduction de l'exécution en sandbox et d'un environnement d'exécution natif au modèle. Ces ajouts visent à permettre aux équipes de gouvernance en entreprise de déployer des workflows automatisés avec un contrôle accru des risques. Concrètement, le SDK intègre désormais une mémoire configurable, une orchestration adaptée aux environnements sandbox, et des outils de gestion de fichiers similaires à ceux de Codex. Les développeurs peuvent également utiliser des primitives standardisées comme l'appel d'outils via MCP, des instructions personnalisées via un fichier AGENTS.md, et un outil d'application de correctifs pour les modifications de fichiers. Une abstraction baptisée "Manifest" permet de décrire l'espace de travail de manière normalisée, avec la possibilité de connecter directement des environnements à des fournisseurs de stockage majeurs : AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. Ces évolutions répondent à un problème concret rencontré lors du passage des prototypes en production : les équipes devaient jusqu'ici choisir entre des frameworks agnostiques offrant de la flexibilité mais ne tirant pas pleinement parti des modèles frontier, ou des SDK propriétaires proches du modèle mais manquant de visibilité sur la couche de contrôle. Le résultat était souvent la construction de connecteurs maison fragiles. Le cas d'Oscar Health illustre bien l'impact potentiel : ce prestataire de santé américain a utilisé le nouveau SDK pour automatiser un workflow de traitement de dossiers cliniques que les approches précédentes ne pouvaient pas gérer de façon fiable. Rachael Burns, Staff Engineer et AI Tech Lead chez Oscar Health, précise que la différence n'était pas seulement d'extraire les bonnes métadonnées, mais de comprendre correctement les limites de chaque consultation au sein de longs dossiers médicaux complexes, permettant ainsi d'accélérer la coordination des soins et d'améliorer l'expérience patient. Ces avancées s'inscrivent dans une tendance plus large : la course à la standardisation des infrastructures pour agents IA en entreprise. OpenAI, face à la concurrence de frameworks comme LangChain, LlamaIndex ou les offres cloud de Google et Microsoft, cherche à imposer son SDK comme la référence native pour les équipes qui utilisent ses modèles. L'introduction du Manifest et de l'exécution en sandbox signale une ambition claire : capter les déploiements en production, segment où les enjeux de sécurité, de traçabilité et de gouvernance sont déterminants. En standardisant la couche d'infrastructure, OpenAI libère les équipes techniques de la maintenance des "plomberies" et les oriente vers la logique métier à valeur ajoutée. La prochaine étape sera de voir dans quelle mesure ces outils s'intègrent avec les systèmes legacy et si l'abstraction Manifest tient ses promesses à grande échelle.

164MarkTechPost 

TinyFish AI lance une plateforme web complète pour agents autonomes : recherche, fetch, navigateur et agent sous une seule clé API

TinyFish AI, une startup basée à Palo Alto, a lancé ce mois-ci une plateforme d'infrastructure complète pour les agents IA opérant sur le web en temps réel. L'offre regroupe quatre produits sous une seule clé API et un système de crédits unifié : Web Agent, Web Search, Web Browser et Web Fetch. Web Search retourne des résultats structurés en JSON avec une latence médiane de 488 millisecondes, contre plus de 2 800 ms chez les concurrents. Web Browser fournit des sessions Chrome furtives via le protocole CDP avec un démarrage à froid inférieur à 250 ms, là où les alternatives prennent 5 à 10 secondes. Le module intègre 28 mécanismes anti-bot codés en C++, une approche bien plus difficile à détecter que l'injection JavaScript habituellement utilisée. Web Fetch convertit n'importe quelle URL en Markdown, HTML ou JSON propre, en éliminant les scripts, publicités et éléments de navigation superflus. Web Agent, lui, exécute des workflows autonomes en plusieurs étapes sur des sites réels, sans scripts manuels. Ce qui rend cette plateforme particulièrement pertinente pour les développeurs d'agents IA, c'est la façon dont elle résout un problème structurel : la pollution de la fenêtre de contexte. Lorsqu'un agent utilise un outil de fetch classique, il ingère la page entière, y compris des milliers de tokens de balisage inutile, avant d'atteindre le contenu utile. TinyFish affirme réduire ce coût de 87 % en mode CLI, passant d'environ 1 500 tokens par opération via MCP à seulement 100 tokens. L'architecture CLI écrit les résultats sur le système de fichiers plutôt que de les injecter directement dans le contexte, ce qui préserve la cohérence sur les tâches longues et permet la composition via les pipes Unix natifs. Sur des workflows complexes en plusieurs étapes, la société revendique un taux de complétion deux fois supérieur en mode CLI par rapport à une exécution via MCP. Jusqu'ici, les équipes qui construisaient des agents web devaient assembler plusieurs prestataires distincts pour la recherche, l'automatisation du navigateur et la récupération de contenu, ce qui introduisait de la friction et des points de défaillance multiples. TinyFish avait déjà livré un agent web standalone avant ce lancement, et s'appuie sur cette expérience pour proposer une intégration directe avec les principaux environnements de coding agents du marché, dont Claude Code, Cursor, Codex et OpenCode, via un fichier SKILL.md installable en une commande. Le CLI s'installe via npm avec npm install -g @tiny-fish/cli. Dans un secteur où les agents autonomes passent de la démonstration à la production, la capacité à interagir de façon fiable et rapide avec le web vivant devient une infrastructure critique, et TinyFish se positionne explicitement comme la couche sur laquelle ces agents doivent s'appuyer.

OutilsOutil
1 source
165MarkTechPost 

TinyFish lance une plateforme web complète pour agents IA : recherche, fetch, navigateur et agent sous une seule clé API

TinyFish, une startup basée à Palo Alto, vient de lancer une plateforme d'infrastructure complète destinée aux agents IA qui doivent interagir avec le web en temps réel. La société propose quatre produits unifiés sous une seule clé API et un système de crédits commun : Web Agent, Web Search, Web Browser et Web Fetch. Web Agent exécute des workflows autonomes en plusieurs étapes sur de vrais sites web, Web Search renvoie des résultats structurés en JSON avec une latence médiane de 488 ms, Web Browser fournit des sessions Chrome furtives avec un démarrage à froid inférieur à 250 ms, et Web Fetch convertit n'importe quelle URL en Markdown, HTML ou JSON propre en supprimant tout le balisage superflu. En parallèle, TinyFish publie un CLI installable via npm et un système de "Skills" qui apprend aux agents comme Claude Code, Cursor ou Codex à utiliser la plateforme sans intégration manuelle de SDK. Ce lancement s'attaque à un problème concret qui plombe les pipelines d'agents IA : la pollution du contexte. Quand un agent utilise un outil de fetch standard, il ingère la page entière, incluant des milliers de tokens de navigation, publicités et code CSS, avant d'atteindre le contenu utile. TinyFish réduit cette charge de 87 %, passant d'environ 1 500 tokens par opération via MCP à seulement 100 tokens via le CLI, grâce à une logique qui écrit les résultats sur le système de fichiers plutôt que de les injecter directement dans la fenêtre de contexte. Sur des tâches complexes en plusieurs étapes, la société rapporte un taux de complétion deux fois supérieur en CLI par rapport à l'exécution via MCP. Côté anti-détection, les 28 mécanismes anti-bot du navigateur sont implémentés au niveau C++, une approche nettement plus robuste que l'injection JavaScript utilisée par la plupart des concurrents, dont les temps de démarrage dépassent 5 à 10 secondes contre moins de 250 ms ici. Le contexte de ce lancement est celui d'un marché des outils pour agents IA en pleine fragmentation : les équipes devaient jusqu'ici assembler des solutions distinctes pour la recherche, l'automatisation de navigateur et la récupération de contenu, chacune avec ses clés, ses SDKs et ses limites. TinyFish parie sur la convergence sous une interface unifiée, une stratégie similaire à ce qu'ont fait des acteurs comme Browserbase ou Firecrawl sur des segments adjacents. En intégrant directement un système de Skills compatibles avec les principaux agents de codage du marché, la startup court-circuite la friction d'adoption qui freine habituellement ces outils. La prochaine étape probable sera l'expansion vers des cas d'usage d'automatisation enterprise, un segment où la capacité à opérer discrètement sur des sites protégés par des systèmes anti-bot représente un avantage compétitif significatif.

OutilsActu
1 source
Préparez votre portefeuille : OpenAI lance un nouveau niveau ChatGPT Pro à 100 $
166Le Big Data 

Préparez votre portefeuille : OpenAI lance un nouveau niveau ChatGPT Pro à 100 $

OpenAI a annoncé le 9 avril 2026 un nouveau niveau d'abonnement ChatGPT Pro à 100 dollars par mois, venant s'ajouter au niveau Plus existant. Ce plan premium offre entre 5 et 20 fois plus d'utilisation de Codex, l'outil de génération et de complétion de code intégré à ChatGPT. Les abonnés Pro accèdent également au raisonnement avancé via GPT-5.4 Pro, à un nombre maximal de tâches Codex simultanées, au chargement illimité de fichiers avec GPT-5.3, à la génération d'images sans restriction, ainsi qu'à un accès étendu à la recherche approfondie, au mode agent, aux projets, aux tâches planifiées et aux GPT personnalisés. OpenAI a précisé dans la foulée que l'accès promotionnel à Codex accordé aux abonnés Plus prenait fin le jour même de l'annonce. Ce nouveau palier cible principalement les développeurs intensifs et les professionnels qui s'appuient quotidiennement sur des capacités de raisonnement avancées. Pour eux, la possibilité de conduire des sessions Codex longues et complexes représente un gain concret : prototypes plus ambitieux, itérations plus rapides, réduction du temps de développement logiciel. Les entreprises technologiques peuvent également y voir un levier pour accélérer leurs cycles de production sans multiplier les abonnements individuels. L'accès anticipé aux nouvelles fonctionnalités constitue un avantage supplémentaire pour ceux qui cherchent à rester à la pointe des capacités disponibles. À 100 dollars mensuels, le tarif reste élevé pour un usage individuel, mais se positionne en dessous des coûts d'API pour des volumes d'utilisation équivalents. Cette annonce s'inscrit dans une stratégie de montée en gamme progressive qu'OpenAI déploie depuis le lancement de ChatGPT Plus à 20 dollars en 2023. La société fait face à des coûts d'infrastructure considérables liés à l'entraînement et à l'inférence de modèles toujours plus puissants, et la segmentation tarifaire lui permet de financer ces investissements tout en conservant une offre accessible au grand public. La guerre des assistants IA s'intensifie avec Google, Anthropic et Microsoft qui proposent leurs propres niveaux premium, poussant chaque acteur à différencier son offre par la performance brute et les outils spécialisés. Codex, repositionné comme outil central du plan Pro, illustre le pari d'OpenAI sur le marché des développeurs, segment jugé stratégique pour ancrer l'usage professionnel de ChatGPT dans les workflows d'entreprise. Les prochains mois diront si ce prix trouve preneur au-delà des early adopters.

UELes développeurs et entreprises françaises peuvent souscrire à ce nouveau palier, mais sans avantage tarifaire spécifique pour l'Europe et avec un coût élevé pour un usage individuel.

OutilsOpinion
1 source
Départs, réorganisation, portrait de Sam Altman, entrée en bourse : ça patine chez OpenAI
167Next INpact 

Départs, réorganisation, portrait de Sam Altman, entrée en bourse : ça patine chez OpenAI

OpenAI traverse une période de turbulences organisationnelles majeures. Fidji Simo, directrice générale des applications et numéro deux de l'entreprise, a annoncé fin mars un congé maladie forcé en raison du syndrome de tachycardie orthostatique posturale, diagnostiqué en 2019. Embauchée en mai 2025, l'ancienne PDG d'Instacart et ex-vice-présidente de Facebook avait en moins d'un an profondément recentré la stratégie d'OpenAI vers la génération de code et les services aux entreprises, au détriment de projets comme Sora ou le "mode adulte" de ChatGPT. Son départ temporaire entraîne une redistribution immédiate des responsabilités : le président Greg Brockman reprend sous sa direction le projet de "superapp" qui devait fusionner ChatGPT, Codex et le navigateur Atlas, tandis que Brad Lightcap, directeur des opérations, hérite des "projets spéciaux". Dans la foulée, Kate Rouch, directrice marketing depuis dix-huit mois, a également annoncé son retrait temporaire pour soigner un cancer. Ces départs simultanés tombent à un moment particulièrement délicat pour OpenAI, qui vient de boucler un tour de table colossal de 122 milliards de dollars et envisage une introduction en bourse à Wall Street en 2026. Selon The Information, des frictions existent entre la directrice financière Sarah Friar et Sam Altman sur le calendrier de l'IPO. Friar s'inquiète des procédures encore incomplètes, des risques liés aux engagements massifs en infrastructures serveurs, et d'une croissance des revenus qui tournerait en deçà des attentes. La marge brute 2025 aurait elle aussi déçu les investisseurs, rongée par des achats en urgence de capacités de calcul pour absorber une demande explosive. Détail révélateur de la complexité interne : Friar ne relevait pas de Sam Altman, comme le veut l'usage, mais directement de Fidji Simo, dont elle se retrouve désormais sans hiérarchie directe. Ce remue-ménage intervient dans un contexte où la gouvernance d'OpenAI est scrutée de près, en interne comme à l'extérieur. Un long portrait de Sam Altman publié ce week-end par The New Yorker, s'appuyant sur des témoignages et mémos internes, décrit un dirigeant habile et obsédé par la victoire, mais dont le style de management suscite des tensions répétées au sommet de l'organisation. OpenAI a connu en deux ans plusieurs crises de gouvernance majeures, dont le licenciement puis la réintégration d'Altman en novembre 2023. L'entreprise doit désormais prouver aux marchés et à ses investisseurs, dont SoftBank, Amazon et NVIDIA, qu'elle est capable de stabiliser son organisation avant de franchir le pas d'une cotation publique. La question n'est plus seulement technologique : c'est la maturité institutionnelle d'OpenAI qui est en jeu.

BusinessOpinion
1 source
Composants d'un agent de codage
168Ahead of AI 

Composants d'un agent de codage

Les agents de codage comme Claude Code ou le Codex CLI d'OpenAI sont devenus des outils incontournables pour les développeurs, mais leur fonctionnement repose sur une architecture précise que peu d'articles détaillent. Un agent de codage n'est pas simplement un grand modèle de langage (LLM) auquel on pose des questions : c'est un LLM enveloppé dans une couche logicielle appelée "harness" (ou cadre agentique), qui orchestre les appels au modèle, gère les outils disponibles, maintient un état en mémoire et décide quand s'arrêter. Cette distinction est fondamentale : le modèle est le moteur, mais le harness est la transmission, le tableau de bord et les roues réunies. Un agent de codage comprend six composants principaux — la boucle de contrôle, la gestion du contexte, les outils (lecture/écriture de fichiers, exécution de code, recherche), la mémoire, la gestion des prompts et la continuité entre sessions longues. Ce cadre explique pourquoi Claude Code ou Codex semblent nettement plus capables que le même modèle sous-jacent utilisé dans une interface de chat ordinaire. La différence n'est pas dans les paramètres du modèle, mais dans le système qui l'entoure : la stabilité du cache de prompts, l'accès au contexte du dépôt Git, la boucle de feedback itérative après exécution du code, et la gestion de sessions qui peuvent durer des heures. Pour les développeurs et les équipes d'ingénierie, cela signifie que choisir un outil de codage assisté par IA revient autant à évaluer l'architecture du harness qu'à comparer les benchmarks des modèles. Un modèle plus puissant dans un harness médiocre produira des résultats inférieurs à un modèle modeste bien intégré. Il convient également de distinguer trois notions souvent confondues : le LLM classique génère des tokens ; le modèle de raisonnement est un LLM entraîné à produire des traces de réflexion intermédiaires et à s'auto-vérifier (à l'image de o1 ou de QwQ), ce qui le rend plus puissant mais plus coûteux à l'inférence ; l'agent, lui, est une boucle de contrôle qui appelle le modèle répétitivement dans un environnement, en mettant à jour son état à chaque itération. Le harness de codage est un cas spécialisé de harness agentique, orienté vers les tâches de génie logiciel — gestion du contexte de code, exécution, débogage itératif. Des systèmes comme Claude Code d'Anthropic ou Codex CLI d'OpenAI illustrent cette catégorie, et la tendance de fond est claire : les progrès les plus décisifs en IA appliquée ne viennent plus seulement des modèles eux-mêmes, mais de l'ingénierie des systèmes qui les entourent.

OutilsOpinion
1 source
Claude Dispatch et la puissance des interfaces
169One Useful Thing 

Claude Dispatch et la puissance des interfaces

Les modèles d'intelligence artificielle sont aujourd'hui bien plus capables que ce que la plupart des utilisateurs perçoivent — non pas en raison de leurs limites techniques, mais à cause des interfaces qui servent d'intermédiaires. Une étude récente a soumis un groupe de professionnels de la finance à une tâche complexe d'évaluation d'actifs en utilisant GPT-4o, en mesurant leur charge cognitive tour par tour à partir des transcriptions. Résultat : si les participants ont bien enregistré un gain de productivité, celui-ci était largement annulé par la forme même des réponses — des blocs de texte massifs, des digressions non sollicitées, des discussions qui s'emballaient sans jamais se recentrer. Une fois qu'une conversation devenait confuse, elle le restait : le modèle, optimisé pour être utile, amplifiait le désordre introduit par l'utilisateur, et l'utilisateur, débordé, n'avait plus la capacité de réorganiser. Les travailleurs les moins expérimentés — pourtant ceux qui auraient le plus à gagner — étaient les plus pénalisés. Ce constat soulève une question fondamentale pour l'industrie : l'interface est-elle devenue le principal obstacle à l'adoption réelle de l'IA en milieu professionnel ? Pour les développeurs, la réponse existe déjà sous forme d'outils spécialisés. Claude Code d'Anthropic, Codex d'OpenAI ou Antigravity de Google permettent à un agent de travailler de façon autonome pendant des heures sur une base de code, sans que l'utilisateur n'ait besoin de toucher une ligne de code manuellement. Ces environnements supposent toutefois une familiarité avec Python, Git et les terminaux années 1980 — ce qui exclut de facto les 99 % de travailleurs du savoir qui ne sont pas développeurs. Google semble être le laboratoire le plus actif pour explorer d'autres métiers. Stitch propose une toile infinie où l'on décrit une application en langage naturel pour obtenir des écrans interconnectés avec un système de design cohérent. Pomelli cible le marketing : en collant simplement l'URL d'un site, l'outil génère des campagnes social media adaptées à l'identité visuelle de la marque, sans jamais demander de "prompt". NotebookLM, le plus connu des trois, offre un espace structuré pour organiser et interroger des sources d'information hétérogènes. Ces outils restent imparfaits et loin de l'efficacité transformatrice de Claude Code pour les programmeurs, mais ils dessinent une trajectoire : celle d'interfaces construites autour du vocabulaire et des workflows propres à chaque profession, plutôt qu'autour d'une fenêtre de chat généraliste. L'enjeu des prochaines années ne sera pas tant la puissance brute des modèles que la qualité des environnements dans lesquels ils s'intègrent.

OutilsOutil
1 source
Pourquoi les agents IA de programmation ont besoin de plusieurs personnalités pour exceller
170The Information AI 

Pourquoi les agents IA de programmation ont besoin de plusieurs personnalités pour exceller

Les développeurs adoptent une nouvelle approche avec les agents IA comme Gemini ou Codex : leur attribuer des personas successifs pour simuler une équipe entière. Un même agent joue tour à tour le rôle de chef de produit, d'architecte technique, de planificateur de tâches, de développeur, puis de relecteur. Cette technique de "multi-personnalités" permet d'obtenir un travail plus structuré et de meilleure qualité qu'en demandant simplement à l'agent de coder directement.

OutilsOutil
1 source
171MIT Technology Review 

The Download : OpenAI développe un chercheur entièrement automatisé, et un angle mort dans les essais aux psychédéliques

OpenAI s'est fixé un nouvel objectif ambitieux : construire un chercheur IA entièrement autonome, avec un "intern" IA prévu pour septembre 2025 et un système multi-agents complet d'ici 2028, selon le directeur scientifique Jakub Pachocki. En parallèle, la société développe une "super app" fusionnant ChatGPT, un navigateur web et un outil de codage, tout en rachetant la startup Astral pour renforcer son modèle Codex. Parmi les autres actualités marquantes : le DoJ a démantelé des botnets responsables de la plus grande attaque DDoS jamais enregistrée (plus de 3 millions d'appareils infectés), et le Pentagone a exprimé des inquiétudes sécuritaires concernant les employés étrangers d'Anthropic.

LLMsActu
1 source
172Ben's Bites 

Qu'est-ce qui fait un bon AGENTS.md ?

Les fichiers AGENTS.md/CLAUDE.md sont des instructions pré-chargées avant chaque conversation avec un agent IA — AGENTS.md étant compatible avec la plupart des outils (Codex, Droid, Pi...) contrairement à CLAUDE.md, spécifique à Claude. Contrairement aux idées reçues, ces fichiers ne doivent pas contenir la stack technique ou l'architecture du projet (une étude montre que cela dégrade les performances et augmente les coûts de 20%) : ils doivent uniquement contenir vos préférences et corrections comportementales. Une astuce avancée consiste à utiliser des blocs conditionnels (``) pour adapter les instructions selon le type de projet.

OutilsOutil
1 source
NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes
173MarkTechPost 

NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes

NVIDIA a mis en open source OpenShell, un environnement d'exécution sécurisé conçu pour les agents IA autonomes, publié sous licence Apache 2.0. Il offre un sandboxing au niveau noyau, un moteur de politiques granulaires (contrôle par binaire, endpoint et méthode API) avec journalisation complète, ainsi qu'un routage d'inférence privé pour éviter les fuites de données. OpenShell est agnostique aux frameworks — compatible avec Claude Code, Codex, LangChain et autres — et s'intègre comme une couche de sécurité sans réécriture du code agent.

UEOpenShell peut être adopté par les développeurs et entreprises européens pour sécuriser leurs agents IA autonomes, en répondant aux exigences de traçabilité et de contrôle imposées par l'AI Act européen.

OutilsOutil
1 source
Nvidia craque pour OpenClaw
174Ben's Bites 

Nvidia craque pour OpenClaw

Nvidia prévoit de générer plus de 1 000 milliards de dollars de ventes via ses puces IA phares d'ici fin 2027, et a lancé NemoClaw, une stack open source ajoutant des contrôles de confidentialité et sécurité à OpenClaw. OpenAI annonce que Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires et que l'usage de son API a augmenté de 20 % depuis la sortie de GPT-5.4, tandis que Manus (récemment acquis par Meta) a lancé une application desktop concurrente mais avec des résultats décevants lors des tests. La fenêtre de contexte d'un million de tokens de Claude est désormais disponible en général.

UELe lancement de NemoClaw avec contrôles de confidentialité et sécurité pourrait faciliter l'adoption des outils Nvidia dans les entreprises européennes soumises au RGPD.

LLMsActu
1 source
La forme des choses
175One Useful Thing 

La forme des choses

En octobre 2023, le chercheur Ethan Mollick spéculait sur la forme que prendrait l'intelligence artificielle dans les années à venir. Depuis fin 2025, cette forme est devenue nettement visible : nous sommes entrés dans une nouvelle ère, celle des agents IA autonomes. Des systèmes comme Claude Code, Codex d'OpenAI ou OpenClaw permettent désormais de confier à une IA plusieurs heures de travail humain et d'en recevoir des résultats utiles en quelques minutes. Ce n'est plus de la co-intelligence — où l'humain guide l'IA pas à pas — mais bien une relation de management : on délègue, on supervise, on récupère. Ce changement de paradigme découle directement de l'amélioration exponentielle des capacités des modèles sur les dernières années. Pour illustrer cette progression, Mollick s'appuie sur plusieurs benchmarks majeurs. Le Google-Proof Q&A — test de connaissance où des étudiants en doctorat utilisant Google n'atteignent que 34 % hors de leur domaine et 70 % dedans — est désormais résolu à 94 % par les meilleurs modèles. Sur GDPval, qui mesure les performances de l'IA face à des experts humains expérimentés sur des tâches complexes, les derniers systèmes égalent ou dépassent les humains les plus performants dans 82 % des cas. Le benchmark METR Long Tasks, qui évalue la capacité d'une IA à accomplir de manière autonome et fiable du travail humain, affiche la même courbe ascendante. Même chose pour Humanity's Last Exam, conçu par des professeurs d'université pour résister aux systèmes automatisés. La génération vidéo suit le même chemin : un modèle de ByteDance, encore non disponible aux États-Unis, a produit en une seule passe un mini-documentaire quasi parfait sur des loutres, avec expressions faciales animées et narration cohérente. Ces avancées s'inscrivent dans une dynamique plus large qui redéfinit la relation entre l'humain et la machine. Depuis le lancement de ChatGPT en 2022, la progression a été rapide et continue, sans signe de ralentissement visible avant que les modèles n'atteignent le plafond des tests. Mollick reconnaît que l'IA reste « irrégulière » — excellente sur certaines tâches, défaillante sur d'autres — et que malgré ces capacités impressionnantes, la majorité des organisations n'a pas encore substantiellement changé ses pratiques. Mais ce statu quo ne devrait pas durer : à mesure que les agents autonomes deviennent plus fiables et accessibles, la pression sur les entreprises pour adapter leurs modèles de travail va s'intensifier. La question n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais à quelle vitesse les organisations sauront s'en saisir.

LLMsPaper
1 source
NVIDIA AI dévoile Nemotron-Terminal : un pipeline systématique d'ingénierie des données pour le passage à l'échelle des agents LLM en terminal
176MarkTechPost 

NVIDIA AI dévoile Nemotron-Terminal : un pipeline systématique d'ingénierie des données pour le passage à l'échelle des agents LLM en terminal

NVIDIA dévoile Nemotron-Terminal, un framework complet pour entraîner des agents IA autonomes en ligne de commande, incluant le pipeline Terminal-Task-Gen et le dataset Terminal-Corpus. La solution adopte une approche "coarse-to-fine" : adaptation de datasets existants (163 000 prompts mathématiques, 35 000 prompts code, 32 000 prompts SWE) combinée à une génération synthétique de tâches basée sur une taxonomie de compétences terminal couvrant 9 domaines (sécurité, data science, administration système, etc.). Ce framework vise à résoudre le manque criant de données d'entraînement pour les agents terminal, un problème qui freinait jusqu'ici des projets comme Claude Code ou Codex CLI.

OutilsPaper
1 source
Après Claude, ChatGPT se met à traquer les failles de sécurité
17701net 

Après Claude, ChatGPT se met à traquer les failles de sécurité

OpenAI lance Codex Security, un outil capable de détecter les failles de sécurité et de proposer des correctifs, rejoignant ainsi Claude Code d'Anthropic qui offre des capacités similaires. Ces deux outils d'IA générative bouleversent le secteur de la cybersécurité. L'annonce a provoqué une chute des actions des grandes entreprises de sécurité informatique en Bourse.

OutilsActu
1 source
Dans l'agent de données interne d'OpenAI
178OpenAI Blog 

Dans l'agent de données interne d'OpenAI

OpenAI a développé un agent de données interne capable de traiter des ensembles de données massifs en utilisant GPT-5, Codex et une mémoire avancée pour fournir des informations fiables en quelques minutes. Ce système combine des modèles de langage et de code pour raisonner sur des données complexes et générer des analyses pertinentes rapidement.

OutilsActu
1 source
Cisco et OpenAI rebattent les cartes de l'ingénierie d'entreprise avec des agents intelligents
179OpenAI Blog 

Cisco et OpenAI rebattent les cartes de l'ingénierie d'entreprise avec des agents intelligents

Cisco et OpenAI redessinent l'ingénierie d'entreprise grâce à Codex, un agent d'IA intégré aux flux de travail pour accélérer les constructions, automatiser les corrections de défauts et faciliter le développement natif de l'IA.

UECisco et OpenAI transforment l'ingénierie d'entreprise en France via Codex, un agent d'IA intégré aux flux de travail, affectant des secteurs tels que le développement logiciel et la cybersécurité, en accélérant les constructions, en automatisant les corrections de défauts et en facilitant le développement natif de l'IA, tout en respectant le RGPD et l'AI Act.

BusinessOutil
1 source