Aller au contenu principal

Dossier Codex — page 2

179 articles · page 2 sur 4

Codex, l'environnement de développement d'OpenAI : intégration NVIDIA, plugins Slack/Figma/Notion, plateforme agentique enterprise.

Dépasser l'IA informelle, par Carina Hong (Axiom Math)
51Latent Space RecherchePaper

Dépasser l'IA informelle, par Carina Hong (Axiom Math)

En 2025, Axiom, une startup fondée seulement sept mois plus tôt, a réussi à résoudre les 12 problèmes du Putnam, l'un des concours mathématiques universitaires les plus difficiles au monde, avec un score de 12/12 (8/12 dans le temps imparti). À titre de comparaison, les meilleurs étudiants humains plafonnent autour de 110/120, DeepSeek avait atteint 103/120, et la médiane des participants se situe habituellement à 0 ou 1 point. Carina Hong, PDG d'Axiom, défend une approche radicalement différente de la majorité des laboratoires d'IA : la vérification formelle des preuves mathématiques via le langage Lean, un système qui permet de valider mécaniquement qu'un raisonnement est correct, de la même façon qu'un compilateur vérifie du code. La startup a par ailleurs publié en open source AXLE, une suite d'outils interactifs basés sur Lean pour explorer et manipuler des preuves. Sur le benchmark ProofGen Verina, qui mesure la capacité à générer du code accompagné de sa preuve de correction, Axiom revendique un score de 99 % (187 sur 189). L'enjeu dépasse largement les olympiades mathématiques. En mi-2026, Claude Code d'Anthropic et Codex d'OpenAI dominent le marché du développement logiciel assisté par IA, confirmant le pari d'Anthropic sur le code. Mais Hong estime que la maîtrise du code, aussi impressionnante soit-elle, ne suffit pas à atteindre l'AGI : des lacunes subsistent dans les capacités de raisonnement rigoureux. La vérification formelle offre quelque chose qu'aucune autre approche ne fournit encore : un signal de récompense binaire et fiable pour l'entraînement par renforcement. Plutôt que de s'appuyer sur des heuristiques statistiques comme RLHF ou GRPO, un système peut simplement vérifier si une preuve est valide, exactement comme on compile et teste du code. C'est un avantage considérable pour la qualité et la fiabilité des modèles. Hong illustre sa philosophie par l'exemple de Srinivasa Ramanujan, le mathématicien autodidacte indien dont l'intuition était prodigieuse, mais qui ne formulait pas ses résultats en preuves rigoureuses. Lorsque G.H. Hardy l'a convaincu de formaliser ses démonstrations, Ramanujan a lui-même progressé, car la rigueur l'a forcé à articuler des détails qui ouvrent de nouvelles voies. Surtout, ses preuves sont devenues transmissibles et cumulables : d'autres pouvaient s'appuyer dessus pour aller plus loin. C'est précisément ce que Hong appelle "composer l'intelligence" plutôt que de l'accumuler. Dans un secteur où les grands modèles rivalisent sur des benchmarks de coding et de raisonnement général, Axiom parie que la prochaine frontière se jouera sur la capacité à produire des raisonnements vérifiables de bout en bout, une approche qui pourrait s'avérer décisive à mesure que l'IA s'attaque à des domaines exigeant une fiabilité absolue.

1 source
Opus 4.8
52Ben's Bites 

Opus 4.8

Anthropic a lancé Claude Opus 4.8 en intégrant une nouvelle fonctionnalité centrale dans Claude Code : les workflows dynamiques. Concrètement, le modèle génère désormais un script d'orchestration, puis instancie des sous-agents en parallèle pour traiter des tâches complexes en simultané. Sur le benchmark ARC-AGI-3, Opus 4.8 obtient le meilleur score du marché, triplant celui de GPT-5.5. Les avis divergent cependant sur l'ampleur du progrès : Simon Willison le qualifie d'amélioration modeste mais utile, notamment parce que le modèle est plus honnête sur ses incertitudes et moins enclin à rater ses propres erreurs de code. La publication Every, de son côté, est bien plus enthousiaste : ses tests internes positionnent Opus 4.8 comme un bond significatif par rapport à 4.7, compétitif avec GPT-5.5 sur un benchmark d'ingénieur senior. Le benchmark Datacurve nuance ce tableau en le plaçant en dessous de GPT-5.5 et marginalement au-dessus d'Opus 4.6, tout en signalant une consommation de tokens nettement plus élevée. En parallèle, Anthropic a déposé un S-1 confidentiel auprès de la SEC et bouclé une levée de fonds en Serie H à 65 milliards de dollars, portant sa valorisation post-money à 965 milliards de dollars, avec une introduction en bourse potentielle d'ici fin 2026. L'arrivée des workflows dynamiques dans Claude Code marque un tournant pour les développeurs qui utilisent des agents LLM en production. Plutôt que d'enchaîner les appels séquentiels, le modèle peut désormais décomposer une tâche, déléguer ses parties en parallèle et les réassembler, ce qui réduit les temps de traitement sur des projets complexes. Plusieurs observateurs soulignent toutefois une limite structurelle : les systèmes multi-agents lâches restent peu fiables, et les workflows déterministes construits autour de petites boucles agentiques sont plus robustes en pratique. Côté valorisation, 965 milliards de dollars place Anthropic parmi les entreprises privées les mieux valorisées au monde, à un niveau comparable à des géants cotés du secteur technologique. Si l'IPO se concrétise cette année, elle redéfinirait les références de valorisation de l'ensemble du secteur de l'IA générative. Cette sortie intervient dans un contexte de compétition féroce entre Anthropic et OpenAI, dont les modèles phares se disputent le leadership sur chaque nouveau benchmark. La même semaine, NVIDIA et Microsoft annonçaient le RTX Spark, une puce Windows atteignant 1 petaflop avec jusqu'à 128 Go de mémoire unifiée et capable de faire tourner localement des modèles de 120 milliards de paramètres, accompagnée de primitives de sécurité pour agents sur Windows. OpenAI, de son côté, étoffait Codex avec le contrôle à distance de machines sous Windows et un SDK Python. La convergence de ces annonces dessine une infrastructure commune qui rapproche les modèles frontières du poste de travail et ouvre la voie à des agents autonomes opérant directement sur les appareils des utilisateurs.

UELes workflows dynamiques de Claude Code offrent aux développeurs européens une nouvelle capacité d'orchestration parallèle pour leurs agents IA en production ; l'IPO potentielle d'Anthropic à près de 1 000 milliards de dollars pourrait également remodeler les standards de valorisation pour les startups IA européennes.

💬 Les workflows dynamiques dans Claude Code, c'est le vrai gain ici, pas le benchmark. Le modèle peut désormais découper une tâche, déléguer ses parties en parallèle et réassembler le tout sans qu'on câble tout à la main. La conso de tokens va piquer, mais un modèle plus honnête sur ses propres erreurs de code (Simon Willison l'a bien noté), ça compte plus à mes yeux que tripler un score ARC-AGI-3.

LLMsOpinion
1 source
Les grands labos d'IA sont désormais des labos d'agents
53Latent Space 

Les grands labos d'IA sont désormais des labos d'agents

Greg Brockman, cofondateur d'OpenAI, a déclaré publiquement début mai 2026 que "le modèle seul n'est plus le produit", une phrase qui résume le tournant stratégique en cours dans toute l'industrie de l'IA. Cette déclaration intervient alors qu'OpenAI prépare son introduction en bourse, attendue dans les prochains jours. Dans le même mouvement, AI21 Labs a annoncé la fermeture de son équipe modèle pour se reconvertir entièrement aux agents. DeepSeek, le laboratoire chinois, constitue pour la première fois une équipe dédiée aux "harnesses", les architectures logicielles qui encapsulent les modèles dans des workflows produits. Parallèlement, DeepSeek a rendu permanente la réduction de 75 % sur son modèle V4-Pro, avec des tarifs désormais fixés à 0,435 dollar par million de tokens en entrée, 0,87 dollar en sortie, et seulement 0,0036 dollar pour le cache, soit un coût moyen estimé à environ 0,18 dollar par million de tokens. Ce niveau de prix place DeepSeek-V4-Pro à trois fois moins cher que Gemini 3.1 Pro Preview, douze fois moins que GPT-5.5, et dix-neuf fois moins que Claude Opus 4.7 selon les estimations d'ArtificialAnlys. Ce mouvement collectif vers les agents signale une recomposition profonde de la chaîne de valeur en IA. Le vrai avantage concurrentiel ne réside plus dans la capacité brute du modèle, mais dans l'ensemble formé par le modèle, le harness, les workflows, l'interface utilisateur, la mémoire et les économies d'échelle. OpenAI a livré une mise à jour substantielle de Codex ("codex thursday n°6") avec des améliorations sur les appshots, le mode annotation, le partage de plugins et les analytics. Anthropic a étendu le mode auto à son offre Pro et ajouté le support de Sonnet 4.6. Pour les développeurs et les entreprises, la conséquence directe est que le choix d'un fournisseur d'IA devient aussi un choix d'écosystème : quitter une plateforme revient à abandonner des workflows entiers, pas seulement un modèle. Ce pivot s'inscrit dans une tension structurelle entre ouverture et contrôle. Si un laboratoire entraîne un modèle en symbiose étroite avec son propre harness propriétaire, le modèle perd une part de son utilité en dehors de cet écosystème, ce qui réduit de fait l'intérêt de l'API ouverte et pousse les utilisateurs vers l'offre packagée du fournisseur. La stratégie de prix agressive de DeepSeek complique encore le tableau : en rendant l'intelligence "trop bon marché pour être mesurée", selon l'expression qui circule dans la communauté, le laboratoire chinois force ses concurrents à justifier leurs marges autrement que par la performance brute. Les prochains mois diront si cette convergence vers les agents accélère la fermeture des modèles frontière ou, au contraire, redonne de la valeur aux modèles open source capables de s'intégrer dans n'importe quel harness.

UELa bascule vers les écosystèmes agents et la guerre des prix initiée par DeepSeek contraignent les entreprises et développeurs européens à réévaluer leur choix de fournisseur d'IA en intégrant le risque de dépendance aux workflows propriétaires, au-delà de la simple performance des modèles.

💬 Le vrai lock-in de demain, c'est pas le modèle, c'est le harness qui s'accumule autour. Brockman le dit officiellement, mais ça se voyait dans les usages depuis un moment, là où les équipes galèrent à migrer sans tout reconstruire. DeepSeek à 19 fois moins cher qu'Opus 4.7, c'est une vraie pression, mais elle joue sur la marge, pas sur l'enfermement.

BusinessOpinion
1 source
Anthropic présente Code with Claude, l'avenir du code selon eux
54MIT Technology Review 

Anthropic présente Code with Claude, l'avenir du code selon eux

Lors de l'événement "Code with Claude" organisé par Anthropic les 19 et 20 mai à Londres, Jeremy Hadfield, ingénieur chez Anthropic, a demandé à une salle comble de développeurs combien d'entre eux avaient fusionné une pull request entièrement rédigée par Claude sans en avoir lu une seule ligne de code. La majorité des mains sont restées levées, accompagnées de rires nerveux. Le même jour que Google I/O à Palo Alto, Anthropic affichait ses ambitions : "La majorité des logiciels chez Anthropic est désormais écrite par Claude, y compris le code de Claude Code lui-même", a déclaré Hadfield en ouverture. Boris Cherny, responsable de Claude Code, a résumé le nouveau paradigme : "Le réflexe par défaut n'est plus 'je vais prompter Claude', c'est désormais 'je vais laisser Claude se prompter lui-même'." Anthropic a également dévoilé une fonctionnalité baptisée "dreaming", annoncée deux semaines auparavant : les agents de Claude Code consignent des notes sur leurs tâches, que le système consolide ensuite pour identifier des patterns et des erreurs récurrentes, permettant aux agents suivants de monter en compétence plus rapidement sur une base de code donnée. Ce qui frappe dans cet événement, c'est la vitesse à laquelle ce nouveau mode de travail s'est normalisé. Il y a un an à peine, lors de la première édition de ces conférences développeurs, Anthropic venait de sortir Claude 4, capable de coder "dans une certaine mesure". Avec Claude 4.6 (février) puis 4.7 (avril), le seuil a été franchi : des entreprises comme Spotify, Delivery Hero, Lovable, Base44 et Monday.com ont restructuré leurs équipes de développement autour de Claude Code. L'objectif affiché par Anthropic est de pousser l'automatisation à son maximum, en faisant en sorte que Claude teste, corrige et itère de manière autonome, sans que l'ingénieur humain n'ait à voir les messages d'erreur. "Le principe clé, c'est de s'effacer et de laisser faire", a formulé l'ingénieur Ravi Trivedi. Pourtant, cette euphorie se heurte à des signaux contradictoires hors des murs de la conférence. Des rapports récents font état d'un nombre croissant de développeurs qui commencent à s'interroger sur leur rôle dans un environnement où leur expertise principale, écrire et lire du code, est en passe d'être entièrement déléguée à un modèle. OpenAI avec Codex, Google et Microsoft formulent des revendications similaires sur l'automatisation de leur propre développement logiciel. La question qui se profile n'est plus technologique mais structurelle : à mesure que les pull requests "zero human review" deviennent la norme, c'est toute la chaîne de responsabilité dans la production de logiciels qui se redessine, avec des implications qui dépassent largement les salles de conférence.

UEDes entreprises européennes comme Spotify (Suède) et Delivery Hero (Allemagne) ont restructuré leurs équipes de développement autour de Claude Code, signalant une transformation concrète des pratiques d'ingénierie logicielle en Europe.

💬 La salle qui lève la main en masse pour avouer avoir mergé une PR Claude sans en lire une ligne, c'est l'image qui résume tout. Je ne dis pas que c'est irresponsable, mais ça veut dire que la question n'est plus "est-ce que l'IA code bien" (elle code bien, on est d'accord), c'est "qui est responsable quand ça plante en prod". Ça, personne dans la conférence ne l'a vraiment posée.

OutilsOutil
1 source
Ne vous faites plus avoir : les images de ChatGPT ont désormais une « marque »
55Le Big Data 

Ne vous faites plus avoir : les images de ChatGPT ont désormais une « marque »

OpenAI a annoncé l'intégration progressive de SynthID, la technologie de tatouage numérique développée par Google DeepMind, dans les images générées via ChatGPT, Codex et son API. Cette initiative s'inscrit dans une stratégie plus large : depuis 2024, l'entreprise appose déjà des "Content Credentials" conformes au standard C2PA (Coalition for Content Provenance and Authenticity) sur les images produites par DALL·E 3, ImageGen et Sora. SynthID ajoute un marquage invisible directement dans les pixels de l'image, indétectable à l'œil nu mais lisible par un outil spécialisé. OpenAI déploie en parallèle un premier outil public de vérification permettant à quiconque de téléverser une image pour savoir si elle provient de ses modèles, en analysant simultanément les métadonnées C2PA et le tatouage SynthID. L'enjeu est direct : à mesure que les images générées par IA inondent les réseaux sociaux, les médias et les campagnes publicitaires, la capacité à distinguer le réel de l'artificiel devient un problème concret pour les journalistes, les plateformes et le grand public. La combinaison des deux technologies répond à une limite bien connue des systèmes basés uniquement sur les métadonnées : une simple capture d'écran suffit à effacer les informations de provenance encodées selon le standard C2PA. SynthID contourne ce problème en inscrivant le marquage dans la structure même de l'image, lui permettant de survivre à certaines modifications ou recompressions. C'est cette complémentarité qui constitue la valeur réelle du dispositif : les métadonnées fournissent un contexte détaillé sur la création, le tatouage assure une trace persistante. La course à la traçabilité des contenus synthétiques s'accélère dans un contexte de pression réglementaire croissante, notamment en Europe avec l'AI Act, qui impose des obligations de transparence sur les contenus générés par IA. OpenAI n'est pas seul sur ce terrain : Adobe, Microsoft et d'autres membres de la C2PA travaillent à des approches similaires, tandis que les grandes plateformes comme YouTube ou LinkedIn ont commencé à afficher les Content Credentials. OpenAI reconnaît cependant les limites de son système : aucune méthode n'est infaillible, et l'absence de signal détecté ne garantit pas qu'une image est authentique. L'outil de vérification public ne couvre pour l'instant que les contenus générés par OpenAI, mais l'entreprise affirme vouloir collaborer avec d'autres acteurs pour étendre le dispositif à l'ensemble de l'industrie.

UEL'AI Act impose des obligations de transparence sur les contenus générés par IA, et ce dispositif de tatouage numérique fournit aux entreprises européennes un mécanisme concret pour démontrer leur conformité.

💬 La vraie bonne idée, c'est la combinaison des deux systèmes. Une capture d'écran efface les métadonnées C2PA en deux secondes, SynthID survit dans les pixels eux-mêmes, et c'est là que ça change quelque chose. Bon, l'outil ne couvre que les images OpenAI pour l'instant, et ils reconnaissent eux-mêmes qu'une absence de signal ne garantit rien.

SécuritéOpinion
1 source
Quatre attaques sur la chaîne d'approvisionnement IA en 50 jours révèlent des failles dans les pipelines de déploiement
56VentureBeat AI 

Quatre attaques sur la chaîne d'approvisionnement IA en 50 jours révèlent des failles dans les pipelines de déploiement

En cinquante jours, quatre incidents de sécurité ont frappé les chaînes d'approvisionnement logicielle d'OpenAI, Anthropic et Meta, exposant un angle mort systémique dans l'écosystème IA. Le 11 mai 2026, un ver informatique baptisé Mini Shai-Hulud a publié 84 versions malveillantes de 42 packages npm de la bibliothèque TanStack en six minutes, en exploitant une mauvaise configuration de GitHub Actions, un empoisonnement du cache CI et l'extraction d'un token OIDC depuis la mémoire du runner. Ces packages portaient une provenance SLSA Build Level 3 valide car ils avaient été publiés depuis le dépôt officiel, via le bon workflow. Deux jours plus tard, OpenAI confirmait la compromission de deux appareils d'employés et l'exfiltration de secrets depuis ses dépôts internes, forçant la révocation de ses certificats macOS et une mise à jour obligatoire de tous les utilisateurs desktop avant le 12 juin 2026. En remontant à fin mars, on trouve deux autres incidents : un chercheur de BeyondTrust Phantom Labs, Tyler Jespersen, avait découvert que OpenAI Codex passait les noms de branches Git directement dans des commandes shell sans aucune validation, permettant l'injection de sous-commandes et le vol du token OAuth GitHub en clair. Simultanément, le groupe TeamPCP avait utilisé des identifiants volés au scanner de vulnérabilités Trivy d'Aqua Security pour publier deux versions empoisonnées du proxy LiteLLM sur PyPI, téléchargées près de 47 000 fois en quarante minutes avant quarantaine. Ce qui rend ces incidents particulièrement préoccupants, c'est leur portée transversale. L'attaque LiteLLM a atteint Mercor, une startup valorisée 10 milliards de dollars qui fournit des données d'entraînement à Meta, OpenAI et Anthropic : quatre téraoctets ont été exfiltrés, incluant des références à des méthodologies propriétaires de Meta. Le partenariat a été gelé immédiatement, une action collective a suivi dans les cinq jours. Aucune de ces attaques ne visait les modèles eux-mêmes, mais leurs dommages sont réels et mesurables. Le 31 mars, Anthropic avait de son côté exposé involontairement 513 000 lignes de TypeScript non obfusqué en livrant Claude Code version 2.1.88 avec un fichier source map de 59,8 Mo qui n'aurait jamais dû être inclus, révélant 44 feature flags internes, des prompts système et l'architecture d'orchestration multi-agents. Ces quatre incidents convergent vers un seul constat structurel : les pipelines de release, les hooks de dépendances, les runners CI et les gates de packaging ne sont couverts par aucun exercice de red team actuel dans l'industrie IA. Les évaluations AISI, les system cards et les audits de sécurité des modèles ignorent entièrement cette surface d'attaque. Quand un token OIDC légitimement émis suffit à publier 84 artefacts malveillants avec une provenance cryptographique valide, ou qu'une seule dépendance open source passe quarante minutes sur PyPI avec un effet blast radius cross-industriel, la robustesse du modèle sous-jacent devient hors-sujet. La pression monte pour que les fournisseurs IA intègrent des audits de sécurité de chaîne d'approvisionnement dans leurs questionnaires de conformité, au même titre que les évaluations de danger des modèles.

UELes organisations européennes déployant des outils IA via des dépendances open source (LiteLLM, TanStack) sont directement exposées aux mêmes vecteurs d'attaque, et la pression monte pour que les questionnaires de conformité AI Act intègrent des audits de sécurité de chaîne d'approvisionnement au même titre que les évaluations de risque des modèles.

💬 Quatre attaques en cinquante jours, aucune ne visait les modèles. Pendant qu'on red-teamait les LLMs à coups d'évaluations AISI et de system cards, personne ne regardait les runners CI, les hooks de dépendances, les gates de packaging, et un token OIDC légitime a suffi à publier 84 artefacts malveillants avec une provenance cryptographique valide. La robustesse du modèle, c'est hors-sujet si la chaîne de livraison est trouée.

SécuritéOpinion
1 source
☕️ Daybreak, la nouvelle plateforme cybersécurité d’OpenAI
57Next INpact 

☕️ Daybreak, la nouvelle plateforme cybersécurité d’OpenAI

OpenAI a lancé Daybreak, une nouvelle plateforme de cybersécurité destinée à aider les équipes de défense à détecter et corriger des vulnérabilités dans le code. L'annonce intervient directement dans le sillage de Mythos, l'outil similaire développé par Anthropic qui avait fait sensation le mois précédent. Contrairement à Mythos, qui est un modèle de langage unique, Daybreak est une plateforme modulaire combinant plusieurs services et niveaux d'accès. Elle repose sur Codex Security, anciennement baptisé Aardvark et lancé début mars, un agent de sécurité chargé d'identifier, valider et corriger automatiquement des failles dans les logiciels. Ce socle peut être complété par deux variantes plus avancées : GPT-5.5 avec Trusted Access for Cyber (TAC), accessible via un programme dédié, et GPT-5.5-Cyber, le modèle le plus puissant de la plateforme, présenté officiellement le 7 mai. Les organisations souhaitant rejoindre le programme peuvent soumettre une demande de scan de vulnérabilité via un formulaire standardisé. L'enjeu est de taille pour les grandes organisations : les infrastructures logicielles modernes sont truffées de failles non détectées, et la capacité à les identifier à grande vitesse et à les corriger automatiquement représente un gain opérationnel considérable. En proposant une procédure d'accès formalisée, OpenAI se démarque d'Anthropic, dont le projet Glasswing reste sous contrôle discrétionnaire de l'entreprise et exclut encore l'Union européenne. Sam Altman a déclaré vouloir travailler avec le plus grand nombre d'entreprises possible pour sécuriser leurs logiciels, positionnant OpenAI comme un partenaire cybersécurité accessible plutôt que comme un club fermé. La rivalité entre OpenAI et Anthropic sur le segment de la cybersécurité offensive et défensive s'est intensifiée ces derniers mois, chaque acteur cherchant à s'imposer auprès des gouvernements et des grandes entreprises comme référence en matière de sécurité des systèmes d'information. Sur le front européen, OpenAI a pris les devants en approchant directement la Commission européenne pour lui proposer un accès à GPT-5.5-Cyber, une démarche qui tranche avec la posture d'Anthropic, dont Mythos reste inaccessible à Bruxelles. Cette offensive diplomatique suggère qu'OpenAI anticipe un cadre réglementaire européen de plus en plus exigeant sur les outils d'IA utilisés dans des contextes sensibles, et cherche à s'y positionner favorablement avant que les règles du jeu ne soient figées.

UEOpenAI a approché directement la Commission européenne pour lui proposer un accès à GPT-5.5-Cyber, positionnant la plateforme Daybreak comme outil de référence pour les institutions européennes dans un contexte réglementaire de plus en plus exigeant sur les IA utilisées en environnements sensibles.

💬 La vraie info, c'est pas la plateforme en elle-même, c'est qu'OpenAI frappe directement à la porte de la Commission européenne pendant qu'Anthropic laisse encore l'UE de côté avec Mythos. C'est une manœuvre réglementaire autant qu'un produit, mais c'est exactement le bon timing pour se positionner avant que Bruxelles fige les règles sur les IA en environnement sensible. Reste à voir si l'automatisation des correctifs tient en prod, parce que sur des infras critiques, un faux positif peut coûter très cher.

SécuritéOutil
1 source
OpenAI lance Daybreak : La fin des failles de sécurité informatiques ?
58Le Big Data 

OpenAI lance Daybreak : La fin des failles de sécurité informatiques ?

OpenAI a lancé le 11 mai 2026 une nouvelle plateforme de cybersécurité baptisée Daybreak, conçue pour détecter les failles logicielles, générer des correctifs et les valider automatiquement. Annoncée par Sam Altman sur X comme "un effort visant à accélérer la cyberdéfense et à sécuriser les logiciels en continu", la plateforme repose sur plusieurs variantes de GPT-5.5 combinées à Codex Security. Daybreak est proposée en trois niveaux d'accès : une offre Standard pour les tâches générales, un niveau intermédiaire "Trusted Access for Cyber" couvrant l'analyse de code, le tri des vulnérabilités, la détection de malwares et la validation des correctifs, et enfin GPT-5.5-Cyber, réservé aux équipes certifiées pour les analyses avancées et les tests d'intrusion autorisés. L'outil promet de ramener de plusieurs heures à quelques minutes des analyses qui mobilisaient jusqu'ici des équipes entières, et de livrer ses résultats accompagnés de preuves compatibles avec les exigences d'audit. L'enjeu est considérable pour les équipes de sécurité qui font face à un volume croissant de vulnérabilités et à des cycles de correction toujours plus courts. En automatisant la détection et la génération de patches directement dans les dépôts de code, Daybreak vise à combler l'écart de vitesse entre attaquants et défenseurs. Le directeur technique de Cloudflare a déjà salué la précision du raisonnement de sécurité du système, estimant qu'il améliore nettement l'analyse des risques. Pour les entreprises exposées à des infrastructures critiques, cela représente un changement de paradigme : passer d'une gestion réactive des incidents à une sécurisation quasi continue du code en production. Daybreak s'inscrit dans une course ouverte entre les grands laboratoires d'IA sur le terrain de la cybersécurité. La plateforme est une réponse directe à Claude Mythos, le modèle spécialisé d'Anthropic dédié à la cyberdéfense, encore inaccessible au grand public au moment du lancement. OpenAI semble vouloir capitaliser sur les performances de GPT-5.5 dans ce domaine avant que son rival ne déploie sa propre solution. La question qui reste en suspens est celle du double usage : les mêmes capacités qui permettent d'identifier et de corriger des failles peuvent théoriquement servir à les exploiter. OpenAI affirme avoir intégré des mécanismes de contrôle et de vérification pour encadrer l'usage de la plateforme, notamment via l'accès restreint aux fonctions les plus sensibles. La crédibilité de ces garde-fous sera déterminante pour convaincre les grands comptes et les régulateurs que l'IA défensive ne crée pas, en parallèle, de nouveaux vecteurs d'attaque.

UELes équipes de sécurité des entreprises européennes soumises à NIS2 pourraient réduire drastiquement leurs délais de remédiation, mais les régulateurs devront évaluer les risques de double usage de la plateforme au regard des exigences de l'AI Act.

💬 C'est le double usage qui va faire ou défaire Daybreak : les modèles qui détectent et patchent des failles peuvent les exploiter, et OpenAI sait très bien que ses garde-fous vont être testés par des gens beaucoup moins bienveillants que ses équipes certifiées. Bon, sur le papier c'est solide, le CTO de Cloudflare ne valide pas pour rien. Reste à voir si les contrôles tiennent face à des attaquants qui, eux, n'ont pas demandé de licence.

Une commande transforme tout dépôt open source en porte dérobée pour agents IA, indétectable par les scanners (OpenClaw)
59VentureBeat AI 

Une commande transforme tout dépôt open source en porte dérobée pour agents IA, indétectable par les scanners (OpenClaw)

Une équipe de chercheurs de l'Université de Hong Kong a publié en mars 2026 un outil baptisé CLI-Anything, capable d'analyser le code source de n'importe quel dépôt open source et de générer automatiquement une interface en ligne de commande (CLI) exploitable par un agent IA en une seule instruction. Compatible avec Claude Code, Codex, Cursor, GitHub Copilot CLI et d'autres, l'outil a dépassé les 30 000 étoiles sur GitHub en deux mois. Mais c'est ce que CLI-Anything génère qui inquiète les chercheurs en sécurité : des fichiers SKILL.md, des définitions d'instructions en langage naturel que les agents IA utilisent pour comprendre comment opérer un logiciel. Or en février 2026, les travaux ToxicSkills de Snyk avaient déjà recensé 76 charges malveillantes confirmées dans des fichiers de ce type sur ClawHub et skills.sh. La communauté offensive discute désormais ouvertement des implications sur X et dans les forums de sécurité. Le problème central est qu'aucun scanner de sécurité existant n'est équipé pour détecter des instructions malveillantes glissées dans des définitions de compétences pour agents IA. Les outils SAST analysent la syntaxe du code source ; les outils SCA vérifient les versions des dépendances. Ni l'un ni l'autre ne comprend la couche sémantique où opèrent les descriptions d'outils MCP, les prompts d'agents et les fichiers de règles. Cisco l'a confirmé en avril dans un billet annonçant son AI Agent Security Scanner, précisant que ces outils traditionnels "n'ont pas été conçus pour cela". Merritt Baer, directrice de la sécurité chez Enkrypt AI et ancienne Deputy CISO chez AWS, résume : "SAST et SCA ont été construits pour le code et les dépendances. Ils n'inspectent pas les instructions." Une définition de compétence empoisonnée ne déclenche aucune CVE et n'apparaît jamais dans un SBOM. Cette faille structurelle s'inscrit dans une évolution plus large des chaînes d'approvisionnement logicielles. Les outils de type agent bridge, MCP connectors ou fichiers de règles Cursor constituent une troisième couche entre le code et les dépendances : des fichiers de configuration en langage naturel qui, sans ressembler à du code, s'exécutent comme du code. Des chercheurs de quatre universités (Griffith, Nanyang, UNSW et Tokyo) ont documenté en avril la technique DDIPE (Document-Driven Implicit Payload Execution), qui intègre une logique malveillante dans des exemples de documentation de compétences. Sur quatre frameworks d'agents et cinq grands modèles de langage, le taux de contournement a atteint entre 11,6 % et 33,5 %, et 2,5 % des échantillons ont échappé aux quatre couches de détection testées. L'industrie se trouve donc dans une fenêtre de pré-exploitation : l'attaque est théorisée, l'outil est déployé, et les défenses n'ont pas encore de catégorie pour nommer ce qu'elles cherchent.

UELes entreprises et institutions européennes utilisant des agents IA basés sur des fichiers de règles ou connecteurs MCP sont exposées à cette faille structurelle dans leurs chaînes d'approvisionnement logicielles, sans outil de détection disponible à ce jour.

💬 Le vrai problème, c'est qu'on a ajouté une couche entière dans la chaîne logicielle, des fichiers en langage naturel qui s'exécutent comme du code, sans que personne ait d'outil pour la surveiller. SAST et SCA ont été conçus pour la syntaxe et les dépendances, pas pour la couche sémantique où tournent tes agents. Ce qui m'inquiète le plus : l'attaque est théorisée, l'outil est déployé, et les défenses n'ont même pas encore de catégorie pour nommer ce qu'elles cherchent.

SécuritéOpinion
1 source
Après 3 ans d’IA générative, un marché de l’emploi des développeurs touché mais pas coulé
60Next INpact 

Après 3 ans d’IA générative, un marché de l’emploi des développeurs touché mais pas coulé

Trois ans après l'émergence de ChatGPT, les premières données statistiques sérieuses sur l'impact de l'IA générative sur l'emploi des développeurs commencent à dessiner une tendance claire. L'INSEE, dans une note de conjoncture récente, relève qu'aux États-Unis, l'emploi dans les services de conception de systèmes informatiques recule depuis deux années consécutives : -1,2 % en 2024, puis -1,6 % en 2025. Dans le secteur plus large des activités spécialisées, scientifiques et techniques, la croissance s'est effondrée, passant de +2,5 % en 2023 à -0,2 % en 2025. Dans le même temps, la productivité apparente dans ces secteurs s'est améliorée, signe que moins de salariés produisent autant, voire plus. Un rapport de la Réserve fédérale américaine publié en mars 2025 arrive à des conclusions similaires par une méthode différente : en simulant l'évolution du marché sans l'essor des grands modèles de langage, les chercheurs estiment qu'environ 500 000 emplois de développeurs supplémentaires auraient été créés depuis novembre 2022. L'écart entre la trajectoire réelle et la trajectoire simulée ne s'est creusé significativement qu'à partir de mi-2024, coïncidant avec la diffusion massive d'outils comme Claude Code, Codex ou Cursor. Ces chiffres ne signifient pas pour autant que 500 000 développeurs se retrouvent au chômage. La Fed souligne elle-même que les résultats ne doivent pas être interprétés comme une suppression nette d'emplois : de nombreux développeurs ont pu migrer vers des postes de management, de product, ou vers des métiers qui intègrent désormais des compétences techniques sans porter le titre explicite de "développeur". Ce qui change, c'est surtout la demande de nouveaux postes, notamment juniors, qui stagne dans les industries traditionnellement grandes consommatrices de développeurs, là où elle aurait dû continuer à croître. Le risque à moyen terme est structurel : moins de juniors recrutés aujourd'hui, c'est mécaniquement moins de seniors disponibles dans cinq à dix ans. L'industrie de l'IA générative elle-même ne compense pas encore les pertes. La Fed chiffre à moins de 15 000 le total des effectifs d'OpenAI, Anthropic et Google DeepMind réunis, dont une fraction seulement sont des développeurs. Même en multipliant par six pour intégrer les startups et les équipes IA de Meta, Microsoft ou ailleurs, on n'atteint pas 2 % des développeurs américains. La France observe des dynamiques comparables, selon les données mentionnées par l'article. Le tableau qui se dessine est donc celui d'un marché ni effondré ni inchangé, mais structurellement réorienté : l'IA compresse la demande de code répétitif et junior, tout en déplaçant la valeur vers des profils capables de piloter, superviser et orienter ces outils, une transition qui laisse peu de place à l'attentisme.

UELa France connaît des dynamiques comparables selon l'article, avec une stagnation des recrutements juniors qui menace le renouvellement des compétences techniques dans les entreprises françaises à un horizon de cinq à dix ans.

💬 500 000 emplois qui ne se sont pas créés, c'est pas du tout la même chose que 500 000 licenciements, et c'est une distinction qui compte vraiment. Le vrai problème, c'est le pipeline junior qui se bouche : les boîtes recrutent moins d'entrées de gamme, ça se voit pas maintenant, mais dans dix ans il va manquer des seniors. Pas spectaculaire comme scénario, mais bien plus vicieux.

SociétéPaper
1 source
Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins
61Ars Technica AI 

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins

Le system prompt du CLI Codex d'OpenAI contient une directive inhabituelle : GPT-5.5 reçoit l'instruction explicite de "ne jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent pour la requête de l'utilisateur." Cette consigne, rendue publique la semaine dernière via le dépôt GitHub open source de Codex CLI, apparaît deux fois dans un ensemble d'instructions de base de plus de 3 500 mots destinées au modèle récemment lancé. Elle côtoie d'autres rappels plus classiques, comme l'interdiction d'utiliser des emojis ou des tirets cadratins sans instruction explicite, ou encore la mise en garde contre les commandes destructives telles que git reset --hard. Ce qui rend cette directive significative, c'est son absence dans les instructions système des modèles antérieurs figurant dans le même fichier JSON. Cela suggère qu'OpenAI fait face à un problème apparu spécifiquement avec GPT-5.5 : le modèle aurait tendance à introduire spontanément des références à des gobelins ou autres créatures dans des conversations sans rapport. Des témoignages récents sur les réseaux sociaux confirment ce comportement, plusieurs utilisateurs signalant des réponses inopinément peuplées de créatures fantastiques lors d'échanges techniques ou professionnels. Ce type d'incident met en lumière un défi persistant du développement des grands modèles de langage : les comportements émergents imprévisibles qui surgissent lors du passage à l'échelle. Lorsqu'un modèle développe des biais ou des obsessions thématiques non intentionnelles, la solution la plus rapide reste souvent d'intervenir directement dans le system prompt plutôt que de relancer un cycle d'entraînement complet. Cette approche, parfois surnommée "patch de comportement", révèle les limites du contrôle fin sur des systèmes aussi complexes que GPT-5.5, dont le déploiement s'accompagne inévitablement d'ajustements post-lancement que même l'équipe d'OpenAI ne peut anticiper entièrement.

LLMsOpinion
1 source
GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API
62AI News 

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion
1 source
Le grand cirque OpenAI avant son introduction en bourse
63Next INpact 

Le grand cirque OpenAI avant son introduction en bourse

OpenAI se prépare à une introduction en Bourse prévue pour le quatrième trimestre 2026, sur la base d'une valorisation de 852 milliards de dollars issue de sa dernière levée de fonds de 122 milliards de dollars annoncée le 31 mars. Mais selon des informations du Wall Street Journal, la startup aborderait ce rendez-vous avec des résultats décevants en poche. ChatGPT n'aurait pas franchi le cap symbolique du milliard d'utilisateurs actifs hebdomadaires à la fin 2025, plafonnant à "plus de 900 millions" selon les chiffres officiels. Plus préoccupant encore, l'entreprise n'aurait pas atteint ses objectifs annuels de revenus pour ChatGPT, et les cibles mensuelles de chiffre d'affaires n'auraient pas été honorées à plusieurs reprises depuis le début de l'année, alors que le compteur affiche pourtant 2 milliards de dollars par mois. Ces ratés préoccupent en interne, à commencer par la directrice financière Sarah Friar, qui s'interrogerait sur la capacité d'OpenAI à respecter ses contrats colossaux avec les fournisseurs de capacités de calcul si la croissance des revenus ne s'accélère pas. La CFO et d'autres dirigeants auraient enclenché un effort de maîtrise des coûts et de discipline budgétaire, ce qui les placerait en tension avec les ambitions expansionnistes de Sam Altman. La concurrence a également pesé lourd : Google a intensifié ses efforts avec Gemini, grignotant des parts de marché au point de forcer OpenAI à déclencher une "alerte rouge" pour accélérer la sortie de GPT-5.2. Dans le même temps, l'éparpillement de l'entreprise vers des fonctionnalités comme le "mode adulte" de ChatGPT ou la génération vidéo avec Sora aurait profité à Anthropic, qui a consolidé sa position auprès des développeurs et des entreprises. Face à ces difficultés, OpenAI a opéré un recentrage stratégique en abandonnant les expérimentations jugées périphériques pour revenir aux fondamentaux et travailler à une "superapp" dont les contours commencent à apparaître dans Codex. L'entreprise a réfuté les informations du WSJ, qualifiées d'"appâts à clics", assurant que ses activités grand public et professionnelles progressent, avec une demande en hausse côté entreprises et publicité. Mais l'enjeu reste de taille : une IPO de cette ampleur exige une trajectoire de croissance irréprochable, et chaque trimestre manqué renforce les doutes sur la capacité d'OpenAI à transformer sa domination technologique en un modèle économique durable avant que la concurrence ne réduise encore son avance.

UELes entreprises européennes dépendantes des API OpenAI pourraient être exposées à des hausses tarifaires ou à une dégradation de service si la pression sur les coûts s'intensifie avant l'IPO.

💬 852 milliards sur la base de cibles ratées plusieurs mois d'affilée, ça fait un drôle d'équation. Ce que le WSJ décrit ressemble à une boîte qui court trop vite dans trop de directions, pendant qu'Anthropic ramasse tranquillement les devs et les entreprises qui ont besoin de quelque chose de fiable. Le vrai test, c'est pas l'IPO, c'est si GPT-5.2 suffit à stopper l'hémorragie avant que les marchés demandent des comptes.

BusinessOpinion
1 source
DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains
64The Verge AI 

DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains

DeepSeek, la startup chinoise d'intelligence artificielle, a dévoilé vendredi une préversion de son prochain modèle phare, baptisé V4. La société affirme que ce modèle open source rivalise avec les systèmes propriétaires des grands acteurs américains, notamment Anthropic, Google et OpenAI. DeepSeek met en avant des progrès significatifs par rapport aux versions précédentes, en particulier dans les capacités de génération de code, un domaine devenu central pour les agents IA et qui a propulsé le succès d'outils comme ChatGPT Codex ou Claude Code. La sortie s'accompagne d'une annonce notable pour l'industrie chinoise des semi-conducteurs : DeepSeek souligne explicitement la compatibilité de V4 avec les puces Huawei fabriquées en Chine. Ce lancement est stratégiquement important à plusieurs titres. Sur le plan technologique, une IA open source capable de tenir tête aux meilleurs modèles fermés du monde redistribue les cartes en matière d'accès et d'adoption. Pour les entreprises et développeurs, cela signifie potentiellement des alternatives performantes sans dépendance aux API américaines. Côté hardware, valider des puces Huawei comme substrat de développement IA de pointe est un signal fort dans un contexte de restrictions américaines à l'exportation de semi-conducteurs vers la Chine. Cette annonce intervient environ un an après que DeepSeek avait secoué la Silicon Valley avec la sortie de ses modèles R1 et V3, provoquant une chute en bourse de plusieurs acteurs du secteur et relançant le débat sur l'efficacité des restrictions technologiques imposées à Pékin. La course entre les États-Unis et la Chine pour la suprématie en IA s'accélère, et DeepSeek s'impose comme l'un des rares laboratoires non américains capable de fixer le rythme du secteur.

UELa disponibilité d'un modèle open source compétitif offre aux entreprises et développeurs européens une alternative crédible aux API américaines, renforçant les ambitions de souveraineté numérique de l'UE.

💬 Ce n'est pas le modèle en lui-même qui m'intéresse, c'est la puce Huawei en dessous. DeepSeek vient de montrer qu'on peut entraîner un concurrent sérieux aux meilleurs modèles du monde sans NVIDIA, ce qui rend les restrictions américaines à l'export beaucoup moins rassurantes pour Washington. Reste à voir si ça tient sur des benchmarks indépendants, mais en un an ils ont forcé la Silicon Valley à revoir ses calculs deux fois.

LLMsOpinion
1 source
GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois
65Next INpact 

GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois

OpenAI a lancé cette nuit GPT-5.5, nouvelle version de son grand modèle de langage, moins de deux mois après GPT-5.4 sorti le 5 mars. Le modèle cible explicitement les tâches complexes et mal structurées : OpenAI promet qu'on peut lui confier une requête à plusieurs volets, sans organisation précise, et lui faire confiance pour planifier, utiliser des outils, vérifier son propre travail et aller jusqu'au bout. Les progrès les plus marqués concernent le code agentique, l'utilisation de l'ordinateur et les premières étapes de la recherche scientifique. Sur Terminal-Bench, benchmark mesurant la capacité à enchaîner des actions et corriger des erreurs, GPT-5.5 creuse nettement l'écart avec son prédécesseur et ses concurrents. Les gains restent plus modérés sur GDPval et OSWorld. Côté prix, GPT-5.5 double les tarifs de GPT-5.4 en atteignant environ 5 dollars en entrée et 30 dollars en sortie par million de tokens, mais OpenAI avance que le modèle compense en utilisant moins de tokens pour des tâches équivalentes. Il est déjà disponible pour les abonnés payants Plus, Pro, Business et Enterprise, ainsi que dans Codex, avec l'accès API annoncé prochainement. Cette cadence de sortie illustre la pression concurrentielle extrême dans laquelle évolue OpenAI. Chaque mise à jour vise à maintenir un écart de performance sur Anthropic, Google et les modèles open source, dans un segment où les entreprises comparent désormais les coûts à la tâche accomplie plutôt qu'au token brut. L'argument d'efficacité de GPT-5.5, s'il se confirme en production, peut justifier la hausse tarifaire pour les usages professionnels intensifs, notamment le développement logiciel assisté et l'automatisation de workflows complexes. En parallèle, OpenAI a présenté Privacy Filter, un modèle inédit conçu pour détecter et supprimer des données personnelles dans du texte. Sa particularité : il peut tourner entièrement en local, sans envoyer les données vers un serveur, ce qui le rend utilisable sur des documents sensibles. Avec seulement 1,5 milliard de paramètres dont 50 millions actifs, il reste léger tout en traitant des contextes jusqu'à 128 000 tokens. Il couvre huit catégories : personnes privées, adresses, emails, téléphones, URL, dates privées, numéros de compte et secrets comme les mots de passe ou clés API. OpenAI est transparent sur ses limites : Privacy Filter n'est pas un outil d'anonymisation complet et exige une validation humaine dans les cas sensibles. Cette annonce s'inscrit dans un contexte réglementaire croissant autour de la protection des données, notamment en Europe, où le RGPD impose des contraintes strictes sur le traitement des informations personnelles par des systèmes d'IA.

UELe Privacy Filter, conçu pour fonctionner en local sans transfert de données, constitue une réponse directe aux exigences du RGPD et intéresse particulièrement les entreprises européennes traitant des données personnelles sensibles.

LLMsOpinion
1 source
OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval
66MarkTechPost 

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval

OpenAI a lancé GPT-5.5, son modèle le plus puissant à ce jour et le premier modèle de base entièrement réentraîné depuis GPT-4.5. Le déploiement a commencé ce jeudi pour les abonnés Plus, Pro, Business et Enterprise, aussi bien sur ChatGPT que sur Codex. Contrairement à ses prédécesseurs, GPT-5.5 est conçu dès le départ pour l'usage agentique : il ne répond pas à une simple invite, il enchaîne des actions autonomes, utilise des outils (navigation web, écriture et exécution de code, manipulation de fichiers), vérifie son propre travail et poursuit jusqu'à la fin d'une tâche sans intervention humaine à chaque étape. Les gains se concentrent sur quatre domaines : le développement logiciel, l'utilisation autonome d'un ordinateur, le travail de connaissance généraliste, et la recherche scientifique précoce. Sur SWE-Bench Pro, qui évalue la résolution de vraies issues GitHub dans quatre langages de programmation, GPT-5.5 résout 58,6 % des tâches en un seul passage. Sur Terminal-Bench 2.0, qui teste des flux de travail complexes en ligne de commande, il atteint 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro. Sur GDPval, un benchmark couvrant 44 métiers du travail de connaissance, il score 84,9 %. Sur OSWorld-Verified, qui mesure la capacité à opérer un vrai environnement informatique de manière autonome, il atteint 78,7 %. Une version Pro du modèle, dédiée aux tâches les plus exigeantes, score 90,1 % sur BrowseComp, devant Gemini 3.1 Pro à 85,9 %. Ces résultats signalent un changement qualitatif dans ce que les outils d'IA peuvent accomplir sans supervision humaine. Jusqu'ici, les modèles agentiques buttaient sur les points de transition entre les étapes d'une tâche, obligeant l'utilisateur à recadrer ou corriger. GPT-5.5 réduit ces interruptions de manière significative. Pour les ingénieurs logiciels, cela se traduit concrètement par un outil capable de comprendre l'architecture globale d'un projet, de diagnostiquer la cause profonde d'un bug et d'évaluer l'impact d'un correctif sur le reste du code, sans qu'on lui dicte chaque geste. OpenAI indique également que le modèle tient la parité de latence avec GPT-5.4 tout en utilisant moins de tokens pour accomplir les mêmes tâches, ce qui atténue la crainte habituelle que puissance rime avec lenteur et coût. GPT-5.5 s'inscrit dans une course à l'agentique où les trois grands labs américains, OpenAI, Anthropic et Google DeepMind, cherchent à transformer leurs modèles en collaborateurs capables de conduire des projets de plusieurs heures, voire plusieurs jours. Claude Opus 4.7 d'Anthropic devance GPT-5.5 sur SWE-Bench Pro avec 64,3 %, mais OpenAI conteste la comparaison en signalant des signes de mémorisation dans les évaluations d'Anthropic. Le benchmark interne Expert-SWE, qui mesure des tâches dont le temps médian de réalisation humaine est estimé à 20 heures, refactoring massif, construction de fonctionnalité, débogage en profondeur de codebase, positionne GPT-5.5 au-dessus de GPT-5.4. Le modèle est également classé premier sur l'Artificial Analysis Intelligence Index. L'enjeu n'est plus de savoir quel modèle répond le mieux à une question, mais lequel peut conduire un projet de bout en bout.

UELes équipes tech et entreprises européennes peuvent intégrer dès maintenant un modèle agentique capable de conduire des projets complexes sans supervision continue, avec un impact potentiel sur les pratiques de développement logiciel et les métiers du travail de connaissance dans l'UE.

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
67Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source
De nouvelles failles de sécurité chez Anthropic et OpenAI ont donné raison à Mark Zuckerberg
68The Information AI 

De nouvelles failles de sécurité chez Anthropic et OpenAI ont donné raison à Mark Zuckerberg

En l'espace de quelques heures, Anthropic et OpenAI ont tous deux été frappés par des failles de sécurité majeures. Anthropic a ouvert une enquête après que des utilisateurs ont obtenu un accès non autorisé à Mythos, son modèle d'IA le plus confidentiel. Dans le même temps, OpenAI a accidentellement rendu accessibles plusieurs de ses modèles inédits sur son application Codex, avant de corriger rapidement l'erreur. Ces deux incidents, survenus à quelques heures d'intervalle, mettent en lumière les vulnérabilités internes de deux des acteurs les plus influents du secteur. Ces brèches sont particulièrement embarrassantes pour Anthropic, qui avait longuement insisté ces dernières semaines sur le caractère exceptionnel et dangereux de Mythos. La société affirmait que ce modèle était capable de conduire des cyberattaques dévastatrices, ce qui justifiait d'en restreindre l'accès à un cercle très limité d'entreprises et d'agences gouvernementales sélectionnées. Que des utilisateurs non autorisés aient pu y accéder soulève de sérieuses questions sur la solidité réelle de ces protections et sur la crédibilité des promesses de sécurité de l'entreprise. Ces incidents surviennent alors que l'IA s'impose comme un enjeu central de la cybersécurité mondiale, les mêmes modèles pouvant servir aussi bien à défendre qu'à compromettre des systèmes. Mark Zuckerberg avait récemment critiqué les pratiques de sécurité d'Anthropic et d'OpenAI, et ces deux affaires semblent lui donner raison. Alors que ces entreprises conseillent d'autres organisations pour faire face aux cybermenaces alimentées par l'IA, elles peinent à sécuriser leurs propres actifs les plus sensibles.

UELes entreprises et institutions françaises et européennes qui s'appuient sur ces services d'IA pour des usages sensibles sont exposées à un risque accru, ces incidents fragilisant les garanties de sécurité sur lesquelles reposent leurs décisions d'adoption.

SécuritéOpinion
1 source
☕️ SpaceX aurait courtisé Mistral avant son deal avec Cursor
69Next INpact 

☕️ SpaceX aurait courtisé Mistral avant son deal avec Cursor

SpaceX négocie l'acquisition de Cursor pour 60 milliards de dollars, avec une clause de rupture fixée à 10 milliards si l'accord venait à échouer. Mais avant de se focaliser sur ce deal, xAI, la filiale IA d'Elon Musk désormais fusionnée avec SpaceX, avait envisagé une tout autre stratégie : un partenariat à trois impliquant à la fois Cursor et la startup française Mistral AI. Selon Business Insider, ces discussions auraient eu lieu au plus haut niveau de l'entreprise, Elon Musk lui-même ayant porté l'idée d'une collaboration tripartite pour rivaliser directement avec Anthropic et OpenAI sur le terrain des outils de codage assisté par IA. En parallèle, Microsoft aurait également examiné un rachat potentiel de Cursor avant de décider de ne pas formuler d'offre, selon des sources de CNBC. L'enjeu est considérable : le marché des assistants de code IA est en pleine explosion et SpaceX accuse un retard significatif. Michael Nicolls, président de xAI et dirigeant de SpaceX, le reconnaissait lui-même dans un mémo interne début avril, estimant que son entreprise était « clairement en retard » face à la concurrence. En face, les chiffres parlent d'eux-mêmes : GitHub Copilot de Microsoft revendique 4,7 millions d'utilisateurs payants, soit une hausse de 75 % sur un an selon le CEO Satya Nadella, tandis que Codex d'OpenAI vient d'atteindre 4 millions d'utilisateurs actifs, gagnant un million en deux semaines seulement. Cursor, avec son positionnement d'éditeur de code natif IA, représente pour SpaceX une voie d'entrée rapide dans ce segment sans avoir à construire de zéro. L'intérêt porté à Mistral s'explique en partie par les liens déjà tissés entre les deux organisations : Devendra Chaplot, membre fondateur de Mistral AI et cocréateur de ses premiers modèles de langage, a rejoint xAI où il supervise aujourd'hui l'entraînement des LLM. Ce rapprochement illustre la guerre des talents et des actifs technologiques qui structure désormais l'industrie IA, où les grandes entreprises cherchent à consolider rapidement des capacités en matière de modèles et d'interfaces développeurs. L'acquisition de Cursor permettrait à SpaceX de s'implanter directement dans les workflows des ingénieurs logiciels, un segment stratégique que Codex d'OpenAI ambitionne également de dominer dans le cadre de sa future « superapp ». La bataille pour capter les développeurs professionnels, nouveau terrain de jeu des géants de l'IA, ne fait que commencer.

UEMistral AI, fleuron français de l'IA européenne, se retrouve au cœur des manœuvres d'acquisition américaines, soulevant des questions directes sur la souveraineté technologique européenne et le risque de captation d'un champion national par xAI/SpaceX.

💬 Musk voulait Mistral dans le deal, et c'est le détail qui retient mon attention. Ça confirme que les modèles français ont une valeur concrète sur le marché américain, pas juste sur le papier de la souveraineté numérique. Reste à voir combien de temps Mistral peut jouer dans cette cour sans finir absorbé.

BusinessActu
1 source
OpenAI dévoile Workspace Agents, successeur des GPTs personnalisés pour entreprises, intégrable à Slack, Salesforce et d'autres services
70VentureBeat AI 

OpenAI dévoile Workspace Agents, successeur des GPTs personnalisés pour entreprises, intégrable à Slack, Salesforce et d'autres services

OpenAI a lancé ce jeudi une nouvelle offre baptisée « Workspace Agents », destinée aux entreprises utilisant ChatGPT dans un cadre professionnel. Disponible dès maintenant pour les abonnés ChatGPT Business à 20 dollars par utilisateur par mois, ainsi que pour les plans Enterprise, Edu et Teachers, cette fonctionnalité permet de créer ou de sélectionner des agents depuis une bibliothèque de modèles préconfigurés, capables d'agir directement dans des outils tiers comme Slack, Google Drive, Salesforce, Notion, Microsoft 365, Atlassian Rovo et d'autres applications courantes en entreprise. Concrètement, un agent peut rédiger un email à toute une équipe, extraire des données pour générer une présentation, ou exécuter des tâches complexes en plusieurs étapes, sans que l'utilisateur à l'origine de la demande ait besoin de rester connecté. OpenAI précise que la fonctionnalité sera gratuite jusqu'au 6 mai 2026, date à laquelle une tarification basée sur des crédits entrera en vigueur. De nouvelles capacités sont annoncées : déclencheurs automatiques, tableaux de bord avancés, et intégration dans Codex, l'outil de génération de code de l'entreprise. L'enjeu principal n'est pas simplement d'avoir des assistants IA plus puissants, mais de transformer l'IA en ressource organisationnelle partagée plutôt qu'en outil de productivité individuelle. L'onglet « Agents » dans la barre latérale de ChatGPT fonctionne comme un annuaire d'équipe : les agents créés par des collègues sont accessibles et réutilisables par toute l'organisation. Ce modèle s'attaque directement à l'un des problèmes chroniques du travail en entreprise, la transmission entre personnes, systèmes et étapes d'un processus, en permettant à un agent de gérer cette complexité de bout en bout. Pour les directions informatiques et les responsables métiers, cela représente un nouveau paradigme de déploiement de l'IA : non plus des outils ponctuels, mais des workflows autonomes pilotés par des agents paramétrés selon des règles et des permissions définies par l'entreprise. La différence technique fondamentale avec les anciens « custom GPTs » réside dans l'architecture sous-jacente : ces agents sont propulsés par Codex, la plateforme cloud de développement assisté par IA qu'OpenAI a considérablement enrichie en 2026, notamment il y a six jours à peine avec l'ajout de plus de 90 plugins, de la mémoire persistante, de l'utilisation d'ordinateur en arrière-plan et de la capacité à planifier des tâches futures. Un agent Workspace n'est donc pas un simple modèle de langage qui répond à une invite : c'est une session Codex qui écrit du code, exécute des requêtes, produit des graphiques et retient ce qu'elle a appris pour la prochaine occurrence. Cette architecture d'exécution de code est ce qui distingue ces agents des solutions concurrentes reposant sur des boucles d'appels LLM classiques. À mesure qu'OpenAI annonce de nouveaux déclencheurs et une intégration plus profonde dans son écosystème, la concurrence avec Microsoft Copilot, Google Workspace AI et les plateformes d'agents comme Salesforce Agentforce s'intensifie sur le terrain stratégique des grandes entreprises.

UELes entreprises françaises et européennes abonnées à ChatGPT Business peuvent tester gratuitement ces agents intégrés à Slack, Notion, Microsoft 365 et Salesforce avant l'entrée en vigueur de la tarification le 6 mai 2026.

OutilsOutil
1 source
Orchestration d'agents
71MIT Technology Review 

Orchestration d'agents

Les agents IA orchestrés en réseau constituent désormais la prochaine grande rupture technologique. Alors que ChatGPT a rendu les grands modèles de langage accessibles au grand public, les outils multi-agents représentent une étape qualitativement différente : des systèmes capables de déléguer, coordonner et exécuter des tâches complexes en parallèle. Claude Code, lancé par Anthropic l'année dernière, permet par exemple de piloter simultanément plusieurs dizaines de sous-agents, chacun affecté à une portion distincte d'une base de code. Chez OpenAI, Codex joue un rôle similaire. Anthropic affirme avoir développé son application de productivité Claude Cowork en seulement dix jours grâce à Claude Code, là où un projet comparable aurait nécessité plusieurs mois. Perplexity a également lancé Computer, un outil généraliste pour professionnels. Google DeepMind propose de son côté Co-Scientist, une plateforme qui permet aux chercheurs de confier à des équipes d'agents la recherche bibliographique, la génération d'hypothèses et la conception d'expériences. L'enjeu dépasse largement le secteur du logiciel. Ces outils s'adressent désormais à tous les cols blancs : gestion de boîtes mail, suivi d'inventaires, traitement des réclamations clients. La promesse centrale est de transformer le travailleur qualifié en chef de projet capable de superviser une équipe d'agents, multipliant ainsi sa productivité. Les partisans de cette technologie évoquent une rupture comparable à ce que la chaîne d'assemblage de Henry Ford a représenté pour l'industrie manufacturière au siècle dernier : une réorganisation profonde du travail de connaissance, potentiellement synonyme de suppressions massives de postes dans les fonctions tertiaires ou, à l'inverse, d'un bond de productivité sans précédent pour ceux qui sauront maîtriser ces outils. La montée en puissance de ces systèmes s'inscrit dans une dynamique portée par les géants de la tech. Des entreprises comme Nvidia et Tencent ont déjà commencé à développer leurs propres agents en s'appuyant sur des bases open source, comme celles popularisées par OpenClaw, un assistant personnel vocal qui avait capté l'attention malgré des failles de sécurité notoires. La vraie question qui se pose aujourd'hui n'est plus technique mais systémique : jusqu'où peut-on laisser des agents autonomes interagir avec des infrastructures critiques, des systèmes de santé, des plateformes financières ou des réseaux sociaux ? Les grands modèles de langage restent imprévisibles, et ce qui n'est qu'une erreur bénigne dans une interface de chat peut devenir un incident grave lorsque l'agent agit directement dans le monde réel. Le secteur avance vite, mais le cadre de contrôle, lui, peine à suivre.

UELa prolifération d'agents autonomes dans les fonctions tertiaires et les infrastructures critiques interpelle directement le cadre réglementaire européen, notamment l'AI Act qui classe certains usages d'agents autonomes comme systèmes à haut risque nécessitant audit et supervision humaine.

OutilsOutil
1 source
Thunderbolt de Mozilla : vers une IA d’entreprise 100 % auto-hébergée et privée
72Le Big Data 

Thunderbolt de Mozilla : vers une IA d’entreprise 100 % auto-hébergée et privée

Mozilla a officialisé le 16 avril 2026 le lancement de Thunderbolt, une interface d'IA conçue pour un déploiement entièrement auto-hébergé en entreprise. Développé par MZLA Technologies, la filiale responsable de Thunderbird, l'outil se positionne comme un "client d'IA souverain" capable de se connecter à des modèles existants, Claude, Codex, DeepSeek ou tout modèle open source, via des API compatibles OpenAI ou ACP. Il repose sur Haystack, un framework open source reconnu pour la construction de pipelines d'IA modulaires. Thunderbolt est disponible en applications natives sur Windows, macOS, Linux, iOS, Android et en version web, avec le code source React accessible sur GitHub. Un audit de sécurité est actuellement en cours avant une mise en production à grande échelle, et Mozilla encourage déjà les entreprises à explorer des déploiements sur site avec des licences adaptées. L'argument central de Thunderbolt est son architecture entièrement locale : les données restent sur l'infrastructure de l'entreprise, notamment via une base SQLite hors ligne, sans transit vers des services cloud externes. Le système intègre un chiffrement de bout en bout et des contrôles d'accès au niveau des appareils. Pour les organisations soumises au RGPD, aux réglementations sectorielles strictes, santé, finance, défense, ou qui manipulent des données sensibles, c'est un différenciateur décisif face aux offres de Microsoft, Google ou OpenAI qui centralisent tout. Thunderbolt prend en charge les usages devenus standards : chat, recherche, automatisation et workflows multi-appareils, ce qui limite la friction à l'adoption pour des équipes habituées aux outils IA grand public. Ce lancement s'inscrit dans une stratégie plus large que Mozilla a formulée dès novembre 2025 : "faire pour l'IA ce que nous avons fait pour le web", c'est-à-dire construire un écosystème ouvert et décentralisé face aux géants de la Big AI. Mozilla.ai, sa branche dédiée à l'IA open source, soutient en parallèle le développement d'outils et de modèles ouverts. Le pari de Mozilla est celui de l'interopérabilité contre l'enfermement propriétaire, la même philosophie qui a fondé Firefox contre Internet Explorer à l'époque. La demande pour des solutions souveraines ne cesse de croître en Europe notamment, portée par des impératifs réglementaires et une méfiance croissante envers la dépendance aux hyperscalers américains. Thunderbolt arrive donc au bon moment sur un marché B2B où la souveraineté technologique est devenue un critère d'achat à part entière, et non plus un simple argument marketing.

UEThunderbolt offre aux entreprises européennes soumises au RGPD et aux réglementations sectorielles (santé, finance, défense) une solution concrète pour déployer des workflows IA en conservant leurs données sur leur propre infrastructure, sans dépendance aux hyperscalers américains.

💬 Mozilla qui sort l'artillerie lourde sur la souveraineté IA, ça fait plaisir à voir. L'architecture tout-local avec SQLite hors ligne, l'audit sécu avant le lancement, la compatibilité OpenAI API pour brancher ses propres modèles, bon, sur le papier c'est exactement ce que les DSI européens réclamaient. Reste à voir si ça tient face aux besoins réels des grandes boîtes, parce qu'entre une démo GitHub propre et un déploiement santé à 5 000 users, il y a souvent un gouffre.

OutilsOutil
1 source
73Latent Space 

Anthropic Claude Opus 4.7 : une longueur d'avance sur 4.6 dans chaque dimension

Anthropic a lancé Claude Opus 4.7 le jeudi 14 avril 2026, positionnant ce nouveau modèle comme une amélioration nette et systématique par rapport à son prédécesseur Opus 4.6 sur l'ensemble des dimensions mesurées. Le tarif reste inchangé à 5 dollars par million de tokens en entrée et 25 dollars par million en sortie. La progression est quantifiable : le niveau d'effort 4.7-low surpasse le 4.6-medium, le 4.7-medium dépasse le 4.6-high, et le 4.7-high efface le 4.6-max. Anthropic introduit par ailleurs un nouveau palier d'effort baptisé "xhigh", immédiatement adopté comme niveau par défaut dans Claude Code. Sur SWE-Bench Pro, le benchmark de référence pour l'évaluation des agents de développement, Claude Code gagne 11 points. La vision est également revue en profondeur : Opus 4.7 accepte désormais des images jusqu'à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la résolution supportée par les versions précédentes. Ces améliorations ont des répercussions concrètes pour plusieurs catégories d'utilisateurs professionnels. Les développeurs utilisant Claude Code bénéficient immédiatement du gain de performance en programmation, avec une meilleure gestion des tâches longues, un suivi plus précis des instructions et une auto-vérification renforcée avant de répondre. La résolution d'image étendue ouvre des cas d'usage auparavant impossibles : agents d'utilisation de l'ordinateur lisant des captures d'écran denses, extraction de données depuis des schémas complexes, travail nécessitant des références pixel par pixel. Autre point notable sur l'économie des tokens : malgré un nouveau tokenizer qui peut générer jusqu'à 35 % de tokens supplémentaires sur un même texte, les gains d'efficacité de raisonnement sont suffisants pour réduire la consommation totale de tokens de jusqu'à 50 % par rapport aux niveaux équivalents de la génération précédente. Anthropic lance également en bêta publique un système de "task budgets", un outil /ultrareview dans Claude Code, et un accès élargi au mode Auto pour les abonnés Claude Code Max. Ce lancement s'inscrit dans une séquence de publications majeures qui rythment le marché de l'IA depuis début 2026. OpenAI avait publié le même jour GPT-Rosalind et une nouvelle version de Codex, mais la trajectoire d'Anthropic a capté l'essentiel de l'attention technique. La communauté débat encore du statut exact d'Opus 4.7 : successeur direct d'Opus 4.6, modèle sur nouvelle base d'entraînement, ou système partiellement distillé depuis une architecture interne de plus grande taille ? Le nouveau tokenizer découvert par plusieurs chercheurs alimente cette interrogation sur la nature des changements en préentraînement. Les semaines à venir permettront de mesurer si les gains de benchmark se traduisent en gains réels dans les usages quotidiens des développeurs et des entreprises qui intègrent Claude dans leurs produits.

UELes développeurs et entreprises européennes intégrant Claude via l'API bénéficient immédiatement des gains de performance et de la réduction de consommation de tokens, sans surcoût tarifaire.

💬 Le même prix, et chaque palier 4.7-low dépasse le 4.6-medium, le 4.7-medium écrase le 4.6-high. C'est le genre de saut qu'on attendait. Sur le tokenizer qui génère 35% de tokens supplémentaires, Anthropic annonce -50% de consommation globale en raisonnement, mais bon, faut voir ce que ça donne sur de vrais contextes longs avant de se réjouir.

LLMsActu
1 source
74VentureBeat AI 

Salesforce lance Headless 360 pour transformer sa plateforme en infrastructure pour agents autonomes

Salesforce a dévoilé mercredi, lors de sa conférence annuelle TDX à San Francisco, la transformation architecturale la plus ambitieuse de ses 27 ans d'histoire. L'initiative baptisée "Headless 360" expose l'intégralité des fonctionnalités de la plateforme sous forme d'API, d'outils MCP (Model Context Protocol) ou de commandes CLI, permettant à des agents IA d'opérer le système complet sans jamais ouvrir un navigateur. Plus de 100 nouveaux outils et compétences sont disponibles immédiatement pour les développeurs, dont plus de 60 outils MCP et 30 compétences préconfigurées donnant aux agents de codage comme Claude Code, Cursor, Codex ou Windsurf un accès direct et complet à l'ensemble d'une organisation Salesforce, données, workflows et logique métier inclus. L'environnement natif Agentforce Vibes 2.0 intègre désormais un "open agent harness" compatible avec le SDK agent d'Anthropic et celui d'OpenAI, avec support multi-modèles incluant Claude Sonnet et GPT-5. Une nouveauté technique notable : le support natif de React sur la plateforme, permettant aux développeurs de construire des interfaces front-end sans passer par le framework propriétaire Lightning de Salesforce. Cette annonce répond à une question existentielle qui pèse sur tout le secteur des logiciels d'entreprise : dans un monde où les agents IA savent raisonner, planifier et exécuter des tâches, une interface graphique a-t-elle encore une raison d'être ? Salesforce tranche clairement par la négative. La décision a été prise il y a deux ans et demi de reconstruire la plateforme pour les agents, en exposant les capacités plutôt qu'en les enfouissant derrière une interface. Pour Jayesh Govindarjan, vice-président exécutif et l'un des architectes de l'initiative, l'enjeu central est le cycle de vie complet du développement agentique : construire un agent n'est que la première étape, et les entreprises clientes font face à des défis concrets de déploiement, de gestion et d'intégration que Headless 360 entend résoudre à grande échelle. Salesforce lance cette offensive dans l'un des contextes les plus turbulents de l'histoire des logiciels SaaS. L'ETF iShares Expanded Tech-Software Sector a chuté d'environ 28 % depuis son pic de septembre 2025, alimenté par la crainte que les grands modèles de langage d'Anthropic, OpenAI et d'autres rendent les modèles économiques SaaS traditionnels obsolètes. En transformant sa plateforme en infrastructure programmable pour agents, Salesforce tente de se repositionner non plus comme un CRM avec une interface, mais comme un système d'exploitation pour l'entreprise agentique. La deuxième couche de l'initiative, l'"Agentforce Experience Layer", sépare ce qu'un agent fait de la façon dont il s'affiche, rendant des composants interactifs nativement sur Slack, mobile et autres surfaces, signe que le groupe mise sur une ubiquité d'exécution bien au-delà du navigateur.

UELes grandes entreprises françaises et européennes utilisant Salesforce devront revoir leur architecture IT et leurs stratégies d'automatisation face à ce basculement vers un modèle agent-first sans interface graphique traditionnelle.

OutilsOpinion
1 source
75Ars Technica AI 

Mozilla lance un client IA Thunderbolt axé sur l'infrastructure auto-hébergée

Mozilla vient d'annoncer Thunderbolt, un nouveau client IA destiné aux entreprises qui souhaitent héberger leur propre infrastructure d'intelligence artificielle sans dépendre de services cloud tiers. Construit sur Haystack, un framework open source permettant de créer des pipelines IA modulaires et personnalisables, Thunderbolt se positionne comme ce que Mozilla appelle un "sovereign AI client". Il est compatible avec n'importe quelle API de type OpenAI ou ACP, incluant des modèles comme Claude, DeepSeek, Codex ou OpenCode, et peut s'appuyer sur une base de données SQLite locale comme référentiel de données hors ligne. Le système propose également un chiffrement de bout en bout optionnel et des contrôles d'accès au niveau de l'appareil. Pour les entreprises, l'enjeu est considérable : garder un contrôle total sur la pile technologique IA signifie que les données sensibles ne transitent jamais vers des serveurs externes. C'est une réponse directe aux craintes croissantes des organisations face aux risques de fuite de données confidentielles vers des fournisseurs cloud comme OpenAI ou Google. En permettant l'intégration de données d'entreprise stockées localement via des protocoles ouverts, Thunderbolt s'adresse en priorité aux secteurs soumis à des contraintes réglementaires strictes : finance, santé, défense ou administrations publiques. Mozilla entre ainsi sur un marché de plus en plus encombré de solutions IA souveraines, où des acteurs comme Mistral AI en France ou diverses initiatives européennes défendent déjà le principe d'une IA indépendante des géants américains. La démarche est cohérente avec l'ADN de Mozilla, organisation à but non lucratif historiquement engagée pour un internet ouvert et décentralisé. Thunderbolt représente un pivot stratégique pour la fondation, qui cherche à monétiser son positionnement éthique dans un marché IA dominé par quelques grandes plateformes. Les suites dépendront de l'adoption par les développeurs du framework Haystack sous-jacent et de la capacité de Mozilla à convaincre les équipes IT d'entreprise de franchir le pas vers l'auto-hébergement.

UELes entreprises européennes soumises au RGPD et à l'AI Act peuvent héberger leur infrastructure IA localement avec Thunderbolt, évitant le transfert de données sensibles vers des fournisseurs cloud américains.

OutilsOutil
1 source
Le duel Anthropic-OpenAI s’accélère, quel impact pour les investisseurs en 2026 ?
76Le Big Data 

Le duel Anthropic-OpenAI s’accélère, quel impact pour les investisseurs en 2026 ?

Anthropic a franchi le seuil des 30 milliards de dollars de revenus annualisés en avril 2026, dépassant ainsi OpenAI qui affiche environ 24 à 25 milliards selon les dernières estimations. Cette progression fulgurante repose en grande partie sur Claude Code, l'outil d'agent de codage développé par la startup, qui lui a permis de capter près d'un tiers des clients entreprise américains en mars 2026. En seulement quelques mois, Anthropic est passé de 9 milliards de dollars de revenus annualisés fin 2025 à plus de 30 milliards, soit une croissance de plus de 230 % en moins d'un an. Les deux entreprises, dont les revenus combinés dépassent désormais 50 milliards de dollars annualisés, préparent toutes deux une entrée en bourse prévue pour le second semestre 2026, ce qui en fait les deux IPO technologiques les plus attendues du moment. Ce duel redessine les priorités de tout le secteur. La clé de la croissance d'Anthropic réside dans sa concentration sur les usages professionnels, qui génèrent une consommation de tokens bien plus élevée que les applications grand public. Un nombre restreint d'entreprises clientes peut ainsi produire davantage de revenus qu'une large base d'utilisateurs occasionnels. OpenAI, longtemps porté par le succès massif de ChatGPT, ajuste désormais sa stratégie en réponse : l'entreprise met l'accent sur Codex et ses outils orientés développeurs, cherchant à maximiser la valeur générée par utilisateur plutôt que le volume d'adoption. Pour les investisseurs, cela signifie que la rentabilité par usage prime désormais sur la popularité brute, un changement de paradigme qui redéfinit les critères de valorisation dans l'ensemble de l'industrie. La rivalité entre les deux acteurs dépasse cependant le seul terrain commercial. Selon des analyses relayées par le Wall Street Journal, OpenAI aurait alerté ses propres investisseurs sur la dynamique concurrentielle d'Anthropic, signe d'une tension croissante entre les deux laboratoires. Cette guerre d'influence a déjà eu des répercussions sur les marchés : la montée en puissance d'Anthropic aurait contribué à une chute de près de 1 000 milliards de dollars de valorisation dans certains segments logiciels en février 2026. Les comparaisons financières directes restent toutefois complexes, des investisseurs comme ceux de Khosla Ventures soulignant que les méthodes comptables des deux entreprises divergent, notamment sur le traitement des commissions versées aux fournisseurs cloud. Alors que les deux IPO approchent, les capitaux disponibles risquent de se concentrer sur ces deux pôles dominants, laissant moins d'espace pour le reste de l'écosystème IA.

UELes deux IPO prévues au second semestre 2026 risquent de concentrer les capitaux disponibles autour d'Anthropic et OpenAI, réduisant les opportunités de financement pour les startups IA européennes.

💬 C'est Claude Code qui a renversé la table, pas une nouvelle version de modèle ou un lancement en fanfare. Des clients enterprise qui font tourner des agents toute la journée génèrent des revenus qu'une base de millions d'abonnés à 20 euros ne peut pas suivre, et ça, OpenAI l'a compris trop tard. Pour les startups IA en Europe, deux IPOs à 50 milliards cumulés vont concentrer les capitaux comme on n'a pas vu depuis longtemps.

BusinessOpinion
1 source
Les capacités offensives de l'IA en cybersécurité doublent tous les six mois, selon des chercheurs
77The Decoder 

Les capacités offensives de l'IA en cybersécurité doublent tous les six mois, selon des chercheurs

Les capacités offensives des modèles d'intelligence artificielle en matière de cybersécurité progressent à un rythme alarmant. Selon une étude publiée par des chercheurs en sécurité de l'IA, ces capacités doublent tous les 5,7 mois depuis 2024. Des modèles comme Opus 4.6 et GPT-5.3 Codex sont désormais capables de résoudre des tâches d'exploitation de vulnérabilités qui nécessitaient auparavant environ trois heures de travail à des experts humains chevronnés. Cette accélération représente un changement de paradigme pour l'ensemble de l'industrie de la cybersécurité. Des attaques qui exigeaient jusqu'ici des compétences pointues, du temps et des ressources humaines importantes pourraient bientôt être automatisées à grande échelle et à faible coût. Cela signifie que les organisations, des PME aux infrastructures critiques, font face à une surface d'attaque qui s'élargit plus vite que leur capacité à se défendre. La barrière d'entrée pour mener des cyberattaques sophistiquées s'effondre. Ce constat s'inscrit dans un débat plus large sur la double nature des modèles de langage avancés, à la fois outils de défense et vecteurs de menace potentiels. Depuis 2023, plusieurs laboratoires d'IA, dont Anthropic et OpenAI, ont mis en place des politiques d'évaluation des risques cybernétiques avant tout déploiement de nouveaux modèles. La progression exponentielle documentée ici renforce les arguments de ceux qui plaident pour un encadrement réglementaire strict des capacités offensives des IA, un sujet qui devrait peser lourd dans les prochaines discussions au niveau européen et américain.

UELa progression exponentielle documentée renforce les arguments pour un encadrement réglementaire strict des capacités offensives des IA, un sujet qui pèsera dans les prochaines discussions législatives européennes.

💬 Doubler tous les 5,7 mois, c'est pas une métaphore, c'est une courbe qui va quelque part de précis. Ce qui me frappe, c'est pas que l'IA puisse faire ce que faisait un expert en 3 heures, c'est que la prochaine itération fera ce que faisait un expert en 3 jours. Les régulateurs ont les yeux rivés sur aujourd'hui pendant que le truc accélère sous leurs pieds.

SécuritéActu
1 source
OpenAI tue Sora : comment l’IA de vidéo tant attendue a fait un flop ?
78Le Big Data 

OpenAI tue Sora : comment l’IA de vidéo tant attendue a fait un flop ?

Le mardi 24 mars 2026, l'équipe officielle de Sora a publié un message d'adieu sur X, confirmant la fermeture définitive du générateur de vidéos par IA d'OpenAI. Six mois seulement après son lancement grand public en septembre 2025, l'application est débranchée. Pourtant, les débuts avaient été spectaculaires : Sora avait franchi le million de téléchargements plus vite que ChatGPT en son temps. Mais l'euphorie a été de courte durée. Dès janvier 2026, les téléchargements chutaient de 45 % en un mois, le taux de rétention à 30 jours s'effondrait sous les 8 %, et sur le dernier mois, l'outil ne réunissait plus que 600 000 utilisateurs actifs, relégué à la 172e place de l'App Store. Pendant ce temps, faire tourner l'infrastructure coûtait à OpenAI 15 millions de dollars par jour — une hémorragie financière impossible à tenir. L'accord avec Disney, qui avait investi un milliard de dollars en décembre pour permettre l'intégration de plus de 200 personnages franchisés (Marvel, Star Wars, Pixar) dans les vidéos générées, est lui aussi annulé, l'investissement ne s'étant finalement jamais concrétisé. La fermeture de Sora est avant tout un signal stratégique fort : OpenAI prépare son introduction en bourse pour le quatrième trimestre 2026 et doit convaincre Wall Street de sa rentabilité. Fidji Simo, nouvelle responsable de la division AGI Deployment, a été explicite en interne : l'entreprise ne peut plus se disperser dans des « quêtes secondaires ». Sam Altman a réorganisé ses priorités autour de la levée de capitaux et de la construction de centres de données. Toute la puissance de calcul libérée par l'arrêt de Sora est redirigée vers les clients B2B, jugés bien plus lucratifs. La semaine précédant l'annonce, OpenAI confirmait aussi la fusion de ChatGPT desktop, de son outil de code Codex et de son navigateur web en une seule « super-app » — une consolidation qui illustre cette nouvelle discipline budgétaire. L'entraînement d'un nouveau modèle, nom de code « Spud », vient par ailleurs de s'achever, confirmant que les priorités technologiques ont changé de camp. Sora était apparu en février 2024 comme une promesse de révolution pour Hollywood, capable de générer des vidéos photoréalistes à partir d'un simple texte. Son lancement public avait suscité un engouement mondial, mais le fossé entre la démonstration technique et l'usage quotidien s'est révélé impossible à combler face à la brutalité des chiffres économiques.

UELes créateurs de contenu et studios européens utilisant Sora perdent l'accès à l'outil et doivent se tourner vers des alternatives concurrentes pour leurs productions vidéo générées par IA.

BusinessOpinion
1 source
OpenAI Codex et Figma lancent une expérience code-design fluide
79OpenAI Blog 

OpenAI Codex et Figma lancent une expérience code-design fluide

OpenAI et Figma ont lancé une intégration Codex qui permet aux équipes de passer facilement entre le code et le canevas Figma, facilitant ainsi l'itération et le déploiement rapide. Cette collaboration vise à améliorer la collaboration entre développeurs et designers.

OutilsOutil
1 source
Au-delà des limites de vitesse : l'échelle d'accès à Codex et Sora
80OpenAI Blog 

Au-delà des limites de vitesse : l'échelle d'accès à Codex et Sora

OpenAI a développé un système en temps réel combinant limites de débit, suivi d'utilisation et crédits pour assurer un accès continu à Codex et Sora. Ce système permet d'élargir l'accès à ces outils tout en gérant efficacement la demande.

OutilsActu
1 source
Présentation de GPT-5.3-Codex-Spark
81OpenAI Blog 

Présentation de GPT-5.3-Codex-Spark

Le GPT-5.3-Codex-Spark, premier modèle de codage en temps réel, offre une génération 15 fois plus rapide et un contexte de 128 000 tokens. Disponible en version de recherche préliminaire, il s'adresse aux utilisateurs de ChatGPT Pro.

LLMsOutil
1 source
Ingénierie des harnais : exploiter Codex dans un monde axé sur l'agent
82OpenAI Blog 

Ingénierie des harnais : exploiter Codex dans un monde axé sur l'agent

L'article aborde l'utilisation de Codex, un outil d'IA développé par Google, dans le contexte de l'ingénierie des harnais, en mettant l'accent sur son rôle dans un environnement axé sur les agents. Il discute des avantages de Codex pour générer et manipuler du code, facilitant ainsi le travail des ingénieurs dans le développement et la maintenance des systèmes.

OutilsTuto
1 source
Carte du Système GPT-5.3-Codex : Règles Critiques
83OpenAI Blog 

Carte du Système GPT-5.3-Codex : Règles Critiques

GPT-5.3-Codex est le modèle de codage agentic le plus performant à ce jour, intégrant les capacités de codage avancées de GPT-5.2-Codex et les compétences en raisonnement et en connaissances professionnelles de GPT-5.2.

LLMsPaper
1 source
Présentation de GPT-5.3-Codex
84OpenAI Blog 

Présentation de GPT-5.3-Codex

Le GPT-5.3-Codex est un agent natif Codex qui combine une performance de codage de pointe avec une raison générale pour soutenir des travaux techniques à long terme dans le monde réel. Ce modèle vise à intégrer des capacités avancées de programmation avec des compétences de raisonnement pour des applications complexes.

LLMsOutil
1 source
Décodage de l'harnais Codex : comment nous avons construit le serveur d'application
85OpenAI Blog 

Décodage de l'harnais Codex : comment nous avons construit le serveur d'application

Découvrez comment intégrer l'agent Codex via le Codex App Server, une API JSON-RPC bidirectionnelle qui alimente le suivi en temps réel, l'utilisation d'outils, les approbations et les différences.

UEAucun impact direct — Cet article se concentre sur le développement technique d'un serveur d'application pour intégrer l'agent Codex, sans mentionner de cas spécifiques concernant des entreprises françaises ou européennes, des réglementations telles que l'AI Act ou le RGPD, des secteurs ou des opportunités/menaces concrètes pour la France ou l'Union Européenne.

RechercheOutil
1 source
Découvrez l'application Codex
86OpenAI Blog 

Découvrez l'application Codex

Présentation de l'application Codex pour macOS, un centre de commande pour le codage en langage AI et le développement de logiciels, permettant la gestion de multiples agents, de flux de travail parallèles et de tâches à long terme.

UEL'application Codex, destinée à macOS, pourrait aider les développeurs français et européens à optimiser leurs processus de codage en langage AI, en gérant efficacement plusieurs agents, flux de travail parallèles et tâches à long terme, ce qui pourrait également potentiellement se conformer aux exigences de protection des données du RGPD.

OutilsOutil
1 source
Déroulement du cycle d'agent du Codex
87OpenAI Blog 

Déroulement du cycle d'agent du Codex

L'article explique comment le Codex CLI orchestre les modèles, outils, prompts et performances via l'API Responses. Il détaille les mécanismes techniques du Codex agent loop, mettant en avant le rôle central de l'API dans la coordination des composants du système.

OutilsTuto
1 source
Datadog emploie Codex pour des revue de code au niveau du système
88OpenAI Blog 

Datadog emploie Codex pour des revue de code au niveau du système

Datadog utilise Codex, un outil développé par OpenAI, pour effectuer des revues de code au niveau système. Cette collaboration vise à améliorer la qualité et la sécurité du code en automatisant l'analyse technique.

OutilsActu
1 source
Complément au carton du système GPT-5.2 : GPT-5.2-Codex
89OpenAI Blog 

Complément au carton du système GPT-5.2 : GPT-5.2-Codex

Cet addendum décrit les mesures de sécurité exhaustives mises en place pour GPT-5.2-Codex, incluant une formation spécialisée au risque pour les tâches nuisibles et l'injection de requêtes, ainsi que des mesures au niveau du produit comme le panning du système d'agent et l'accès réseau configurables.

RégulationOutil
1 source
Présentation de GPT-5.2-Codex
90OpenAI Blog 

Présentation de GPT-5.2-Codex

GPT-5.2-Codex, le modèle de codage le plus avancé d'OpenAI, intègre un raisonnement à long terme, des transformations de code à grande échelle et des capacités de cybersécurité renforcées. Il marque une avancée significative dans le domaine de l'intelligence artificielle appliquée au développement logiciel.

LLMsOutil
1 source
Présentation de GPT-5.2-Codex
91OpenAI Blog 

Présentation de GPT-5.2-Codex

OpenAI a présenté GPT-5.2-Codex, son modèle de codage le plus avancé, capable de raisonnement à long terme, de transformations de code à grande échelle et de capacités renforcées en cybersécurité.

LLMsOutil
1 source
Comment nous avons utilisé Codex pour livrer Sora pour Android en 28 jours
92OpenAI Blog 

Comment nous avons utilisé Codex pour livrer Sora pour Android en 28 jours

OpenAI a déployé Sora pour Android en 28 jours grâce à l'utilisation de Codex. L'aide de l'IA pour la planification, la traduction et le codage parallèle a permis à une équipe agile de livrer un développement rapide et fiable.

UEOpenAI a utilisé Codex pour déployer Sora pour Android en 28 jours, illustrant l'efficacité de l'IA pour la planification, la traduction et le codage parallèle, bénéficiant ainsi aux entreprises françaises et européennes de développement de logiciels rapides et fiables en conformité avec le RGPD et l'AI Act.

RechercheOutil
1 source
Construire encore plus avec GPT-5.1-Codex-Max" se traduit en français par "Construire encore plus avec GPT-5.1-Codex-Max".
93OpenAI Blog 

Construire encore plus avec GPT-5.1-Codex-Max" se traduit en français par "Construire encore plus avec GPT-5.1-Codex-Max".

Présentation du modèle de codage GPT-5.1-Codex-Max, plus rapide et intelligent, conçu pour Codex. Ce modèle est optimisé pour des projets à long terme, avec un raisonnement amélioré et une gestion plus efficace des tokens.

LLMsOutil
1 source
Fiche Système GPT-5.1-Codex-Max
94OpenAI Blog 

Fiche Système GPT-5.1-Codex-Max

Le système GPT-5.1-CodexMax intègre des mesures de sécurité à deux niveaux : des formations spécialisées pour atténuer les tâches nuisibles et les injections de prompts au niveau du modèle, ainsi que des protections comme le sandboxing des agents et l'accès réseau configurable au niveau du produit.

LLMsActu
1 source
Le Codex est désormais disponible généralement
95OpenAI Blog 

Le Codex est désormais disponible généralement

OpenAI Codex est désormais disponible en version générale, avec de nouvelles fonctionnalités pour les développeurs : une intégration avec Slack, un SDK Codex et des outils d'administration comme les tableaux de bord d'utilisation et la gestion des espaces de travail. Ces améliorations facilitent son utilisation et sa gestion à grande échelle.

LLMsOutil
1 source
Codex passe à la vitesse supérieure avec GPT‑5-Codex
96ActuIA 

Codex passe à la vitesse supérieure avec GPT‑5-Codex

Codex a été mis à jour avec GPT-5-Codex, développé par OpenAI, offrant une vitesse et une performance accrues. Ce modèle améliore la génération de code et la résolution de problèmes complexes, marquant une avancée majeure dans l'intelligence artificielle appliquée au développement logiciel.

LLMsActu
1 source
Présentation des mises à jour de Codex
97OpenAI Blog 

Présentation des mises à jour de Codex

Codex a été amélioré pour devenir plus rapide, fiable et efficace dans la collaboration en temps réel ainsi que dans l'exécution autonome de tâches, fonctionnant désormais sur divers environnements comme le terminal, les IDE, le web et les téléphones.

LLMsOutil
1 source
Complément au bilan du système GPT-5 : GPT-5-Codex
98OpenAI Blog 

Complément au bilan du système GPT-5 : GPT-5-Codex

Cet addendum présente GPT-5-Codex, une version optimisée de GPT-5 pour des tâches de codage agissant via Codex. Le modèle s'adapte dynamiquement à la complexité des tâches, répondant rapidement aux requêtes simples conversationnelles ou petites, tout en travaillant indépendamment sur des tâches plus complexes pendant plus longtemps.

UEL'impact concret pour la France et l'UE serait l'amélioration potentielle de l'efficacité et de la productivité dans les secteurs de l'informatique et du développement logiciel grâce à l'utilisation de GPT-5-Codex, tout en veillant à ce que le respect des lois sur la protection des données comme le RGPD soit maintenu.

RobotiqueOutil
1 source
Complément au système de carte mini o3 et o4: Codex
99OpenAI Blog 

Complément au système de carte mini o3 et o4: Codex

Codex est un agent de codage basé sur le cloud, alimenté par codex-1, une version optimisée pour l'ingénierie logicielle de l'OpenAI o3. Codex-1 a été formé via l'apprentissage par renforcement sur des tâches de codage réelles dans diverses environnements pour produire du code semblable au style humain et aux préférences de PR, suivant précisément les instructions et exécutant des tests itérativement jusqu'à obtenir des résultats de réussite.

RechercheOutil
1 source
Présentation de Codex
100OpenAI Blog 

Présentation de Codex

Présentation de Codex, un agent de développement logiciel basé sur le cloud, capable de gérer plusieurs tâches en parallèle grâce à codex-1. Les développeurs peuvent déployer simultanément plusieurs agents pour traiter indépendamment des tâches de codage, comme écrire des fonctionnalités, répondre à des questions sur le code source, corriger des bogues et proposer des requêtes de fusion pour examen.

OutilsOutil
1 source