Aller au contenu principal

Dossier Codex — page 2

212 articles · page 2 sur 5

Codex, l'environnement de développement d'OpenAI : intégration NVIDIA, plugins Slack/Figma/Notion, plateforme agentique enterprise.

51Latent Space InfrastructureOpinion

L'été des meta-harnesses

La semaine du 23 juin 2026 aura marqué un tournant dans l'architecture des systèmes d'IA. OpenAI a officiellement dévoilé Jalapeño, son premier chip custom pour l'inférence de modèles de langage, co-développé avec Broadcom et destiné à alimenter ChatGPT, l'API, Codex et ses futurs produits d'agents. Côté performance, les estimations de la communauté pointent vers une die quasi pleine reticle, environ 216 Go de HBM3E, 7,1 à 7,4 To/s de bande passante et 10 PFLOPS en FP4. Ce qui frappe autant que les chiffres, c'est la vitesse d'exécution : un cycle design-to-tapeout de neuf mois, exceptionnellement court pour un ASIC haute performance, et prétendument accéléré par les propres modèles d'OpenAI. Le même jour, Chris Lattner annonçait le rachat de sa société Modular par Qualcomm, tout en confirmant que le langage Mojo passerait bien en open source. Par ailleurs, Matei Zaharia, CTO de Databricks, a lancé Omnigent, une architecture open source et modulaire visant à standardiser l'orchestration de n'importe quel agent de codage ou de travail cognitif dans un cadre sécurisé et scalable. Ces annonces illustrent une recomposition profonde des couches d'infrastructure de l'IA. Pour les grands laboratoires, posséder sa propre silicon n'est plus un avantage différenciateur mais une condition de survie économique : maîtriser les chips, les compilateurs, la mémoire et l'ordonnancement permet de s'émanciper de la dépendance aux GPU de marché et de contrôler le rapport performance/watt à grande échelle. Le rachat de Modular par Qualcomm dessine une alternative crédible à l'écosystème NVIDIA/CUDA, jusqu'ici dominant. Côté Omnigent, le signal est différent mais aussi significatif : le fait que des architectures similaires émergent indépendamment dans des centaines d'entreprises AI-native suggère qu'un standard ouvert d'orchestration d'agents finira par s'imposer, à la manière dont MCP a structuré l'intégration des outils. L'autre fil conducteur de la semaine est l'intégration des agents directement dans les flux de travail d'entreprise. Anthropic a positionné Claude comme un agent "organisationnel" dans Slack, avec sa propre identité, des actions auditables et des accès révocables centralement. Andrej Karpathy a jugé cette évolution sous-estimée, notant qu'il ne s'agit pas d'un simple bot mais d'un harness à l'échelle d'une organisation. Cette vision soulève des questions de sécurité non triviales : Kenton Varda de Cloudflare a plaidé pour une approche par capacités à granularité fine plutôt que des permissions explicites par agent, arguant que le modèle actuel ne passera pas à l'échelle. Le débat est ouvert, et les prochains mois diront quelle philosophie de sécurité s'imposera à mesure que les agents deviennent des collègues à part entière.

UELes entreprises et développeurs européens bénéficieront d'alternatives crédibles à l'écosystème NVIDIA/CUDA via le rachat de Modular par Qualcomm et d'un standard ouvert d'orchestration d'agents avec Omnigent, réduisant leur dépendance aux fournisseurs américains dominants.

1 source
Pourquoi l'écosystème frontier doit rester ouvert
52Latent Space 

Pourquoi l'écosystème frontier doit rester ouvert

Databricks, valorisée 175 milliards de dollars, a profité de son Data + AI Summit 2026 pour annoncer plusieurs produits majeurs, dont Omnigent, LTAP, Lakebase et Genie One. Les cofondateurs Matei Zaharia et Reynold Xin y ont exposé une thèse centrale : les modèles de langage sont en train de se banaliser, et l'avantage concurrentiel durable appartient désormais à ceux qui maîtrisent les données et l'infrastructure autour. Omnigent est le premier fruit de cette vision, un méta-orchestrateur open source qui unifie plusieurs agents IA existants (Claude Code, Codex, Cursor, Pi, agents internes d'entreprise) sous une API commune, gérant les sessions persistantes, les fichiers partagés, les appels d'outils, les contrôles de dépenses et les droits d'accès. LTAP, de son côté, propose une nouvelle architecture de base de données qui remplace la réplication par capture de changements (CDC), que Zaharia qualifie d'approche produisant de la "corruption continue de données", en unifiant la couche de stockage plutôt qu'en multipliant les moteurs de requêtes. L'enjeu est considérable pour toute l'industrie enterprise : aujourd'hui, les agents IA ne deviennent vraiment utiles que s'ils disposent du bon contexte au bon moment, historique des transactions, permissions granulaires, état opérationnel, flux métier en temps réel. Jusqu'ici, les entreprises devaient assembler un lac de données, un entrepôt, une plateforme ML et une couche de gouvernance séparés. Databricks a convaincu les grandes organisations qu'une fondation ouverte et unifiée suffisait. La prochaine étape, selon Zaharia et Xin, consiste à transformer cette fondation en système d'exploitation pour agents : une couche qui expose exactement la bonne tranche de données, d'état et de logique métier à un système IA au moment précis où il agit. Le déploiement d'Omnigent en open source vise aussi à accélérer l'adoption en évitant l'enfermement propriétaire que Databricks reproche aux harness fermés. Databricks est née au Berkeley AMPLab avec Apache Spark, avant de populariser le concept de Lakehouse, l'idée qu'un seul socle ouvert peut remplacer plusieurs couches de données disparates. Depuis son introduction en Bourse reportée et sa valorisation record, la société est sous pression pour démontrer que son pari sur l'open source et la donnée d'entreprise tient face à Snowflake et aux hyperscalers. La montée en puissance des agents autonomes lui offre une fenêtre stratégique : si la performance brute des modèles se commoditise, ce qui reste différenciant, c'est précisément ce que Databricks a construit depuis dix ans, données propriétaires gouvernées, logs transactionnels, workflows, boucles de rétroaction. Le pari de Databricks est que la prochaine vague de logiciels d'entreprise sera entièrement réécrite une fois que les agents auront accès à ces fondations de données solides, faisant de la plateforme le point de passage obligé de l'IA en production.

UELes entreprises européennes déployant des agents IA en production pourraient adopter Omnigent comme orchestrateur open source pour éviter la dépendance aux stacks propriétaires américains.

InfrastructureOpinion
1 source
OpenAI dévoile sa première puce d'inférence IA maison, Jalapeño, développée avec Broadcom grâce à ses propres modèles
53VentureBeat AI 

OpenAI dévoile sa première puce d'inférence IA maison, Jalapeño, développée avec Broadcom grâce à ses propres modèles

OpenAI et Broadcom ont dévoilé ce matin leur premier processeur d'inférence IA sur mesure, baptisé "Jalapeño". Contrairement aux GPU grand public d'Nvidia ou AMD, ce circuit intégré à application spécifique (ASIC) est conçu exclusivement pour faire tourner des grands modèles de langage en production, notamment derrière ChatGPT, Codex et l'API OpenAI. Ce qui frappe d'emblée, c'est la vitesse de développement : de la conception initiale à la fabrication, seulement neuf mois se sont écoulés, là où un cycle habituel de développement de processeur se compte en années. Le partenariat entre OpenAI et Broadcom n'avait d'ailleurs été annoncé publiquement qu'en octobre 2025. Greg Brockman, président et cofondateur d'OpenAI, ainsi que Hock Tan, PDG de Broadcom, ont présenté la puce ce matin sur CNBC. Brockman a précisé que le processus de conception a lui-même été accéléré grâce aux propres modèles d'OpenAI, des versions antérieures au GPT-5.5. OpenAI indique avoir déjà testé GPT-5.3-Codex-Spark sur ces puces dans un environnement de production simulé, et prévoit de déployer Jalapeño dans ses centres de données actifs d'ici fin 2026. Les performances initiales sont décrites comme "remarquables", Brockman écrivant sur X que le ratio performance par watt est "incroyable". L'enjeu dépasse largement la performance technique : il s'agit de survie économique. Des documents financiers audités récemment révélés montrent qu'OpenAI a généré 13,07 milliards de dollars de revenus en 2025, mais a engagé 34 milliards de dépenses opérationnelles, accusant une perte d'exploitation de près de 20,92 milliards de dollars. La principale cause : le coût titanesque de la puissance de calcul, essentiellement louée auprès de Microsoft Azure sur des GPU Nvidia. Concevoir ses propres puces optimisées pour l'inférence LLM permettrait à OpenAI de drastiquement réduire ce coût marginal par requête et d'atteindre enfin une rentabilité opérationnelle. Broadcom apporte la conception silicium et son réseau Tomahawk, tandis que Celestica gère l'intégration au niveau carte, rack et système. Cette annonce s'inscrit dans une stratégie plus large de verticalisation de la filière IA, un mouvement déjà emprunté par Google avec ses TPU et Amazon avec ses puces Trainium et Inferentia. OpenAI, longtemps dépendant des infrastructures de ses partenaires et investisseurs, cherche à contrôler toute sa pile technologique. Fait notable : les deux entreprises positionnent explicitement Jalapeño comme une puce "construite de zéro pour les LLMs actuels et futurs de toute l'industrie", ouvrant la voie à une commercialisation auprès d'autres acteurs de l'IA. De nombreuses questions restent ouvertes, notamment les performances comparatives face aux solutions Nvidia, les coûts de fabrication et la viabilité à grande échelle. Mais si le pari réussit, OpenAI ne sera plus seulement un éditeur de modèles : il deviendra un fournisseur d'infrastructure à part entière.

UEUne réduction future des coûts d'inférence pourrait bénéficier indirectement aux entreprises et développeurs européens utilisant l'API OpenAI, sans impact réglementaire ou industriel direct sur la France/UE.

💬 Quand tu perds 21 milliards par an, tu te construis tes propres puces. Ce que Jalapeño change vraiment, c'est pas la performance par watt, c'est qu'OpenAI sort enfin d'une dépendance à Nvidia qui les saignait à blanc requête après requête. Neuf mois de conception accélérée par leurs propres modèles, c'est la vraie rupture.

OpenAI affirme que GPT-5.5-Cyber surpasse Mythos d'Anthropic sur les benchmarks de cybersécurité
54The Decoder 

OpenAI affirme que GPT-5.5-Cyber surpasse Mythos d'Anthropic sur les benchmarks de cybersécurité

OpenAI a officiellement lancé GPT-5.5-Cyber, un modèle dédié à la cybersécurité qui surpasse selon la société le modèle Mythos d'Anthropic sur les benchmarks spécialisés du secteur. Ce lancement s'inscrit dans l'expansion de l'initiative Daybreak d'OpenAI, qui comprend désormais une version mise à jour du plugin Codex Security ainsi qu'un réseau de partenaires regroupant plus de 25 entreprises de sécurité et plusieurs gouvernements. Le changement de cap est significatif : là où les outils précédents se concentraient sur la détection de vulnérabilités, GPT-5.5-Cyber vise à les corriger automatiquement. Cette capacité de remédiation autonome représente un saut qualitatif pour l'industrie de la sécurité informatique, où le délai entre la découverte d'une faille et son colmatage constitue une fenêtre d'exposition critique. Pour les entreprises partenaires et les gouvernements impliqués, cela ouvre la voie à des cycles de défense beaucoup plus rapides, potentiellement en temps réel. La compétition entre OpenAI et Anthropic sur le terrain de la cybersécurité s'intensifie, chaque acteur cherchant à s'imposer auprès des grandes organisations gouvernementales et des entreprises critiques. OpenAI avait lancé Daybreak début 2025 pour structurer ses efforts dans ce domaine sensible, conscient que les modèles d'IA puissants représentent à la fois un outil défensif précieux et un vecteur d'attaque potentiel. La constitution d'un réseau de plus de 25 partenaires sécurité signale une volonté de déploiement industriel, et non plus seulement de démonstration technique.

UELes équipes sécurité et gouvernements européens partenaires pourraient bénéficier de cycles de remédiation automatisée plus rapides, mais aucune institution européenne n'est nommée parmi les 25+ partenaires officiels.

SécuritéOpinion
1 source
GPT-5.5-Cyber signe un score record en cybersécurité : le nouveau rival de Mythos ?
55Le Big Data 

GPT-5.5-Cyber signe un score record en cybersécurité : le nouveau rival de Mythos ?

OpenAI a publié le 22 juin 2026 GPT-5.5-Cyber, un modèle spécialisé en cybersécurité qui décroche un score de 85,6 % sur le benchmark CyberGym, développé par l'Université de Californie à Berkeley. Ce résultat lui permet de dépasser Mythos 5, le modèle d'Anthropic considéré jusqu'ici comme la référence du secteur, qui plafonne à 83,8 %. CyberGym n'est pas un test académique ordinaire : il s'appuie sur 1 507 vulnérabilités réelles issues de 188 projets open source, et évalue la capacité d'un modèle à détecter une faille, en comprendre l'origine et proposer un correctif adapté. Les versions précédentes de GPT-5.5 et Claude Opus 4.1 restent en retrait sur ce benchmark. L'écart de deux points entre GPT-5.5-Cyber et Mythos 5 reste modeste, mais il prend une signification particulière dans un domaine où chaque amélioration se traduit concrètement par des failles détectées ou manquées. OpenAI insiste sur le caractère strictement défensif du modèle : il ne sert pas à automatiser des attaques, mais à accompagner les équipes de sécurité dans des tâches répétitives et chronophages, suivre l'origine d'un code vulnérable, vérifier si une faille est exploitable, préparer les éléments pour une validation humaine. L'enjeu est de libérer les experts de l'analyse de bas niveau pour qu'ils se concentrent sur les décisions à haute valeur ajoutée. Le timing est également notable : Anthropic traverse une période de turbulences après que l'administration Trump a bloqué l'accès à ses modèles hors des États-Unis, ce qui fragilise temporairement la position de Mythos 5 sur le marché mondial. Cette annonce s'inscrit dans une stratégie plus large d'OpenAI autour de sa plateforme Daybreak, dédiée à la sécurisation des logiciels. La société y ajoute un plugin Codex Security pour détecter, valider et corriger des vulnérabilités directement dans Codex, ainsi qu'un Cyber Partner Program permettant à des entreprises spécialisées comme IBM d'intégrer GPT-5.5-Cyber dans leurs propres produits via un accès contrôlé. OpenAI poursuit également son initiative Patch the Planet, visant à aider les mainteneurs de logiciels open source à colmater des failles à grande échelle. La bataille des modèles spécialisés en cybersécurité s'intensifie donc sur deux fronts simultanément : la performance brute sur les benchmarks, et l'écosystème d'intégration qui détermine qui, concrètement, accède à ces capacités dans les outils professionnels du quotidien.

UELes équipes de sécurité européennes pourront accéder à GPT-5.5-Cyber via le Cyber Partner Program d'IBM, et le blocage des modèles Anthropic hors des États-Unis renforce la position d'OpenAI sur le marché européen de la cybersécurité professionnelle.

💬 Deux points d'écart, c'est peu, mais dans un domaine où chaque faille manquée peut coûter des millions, ça compte quand même. Ce qui me frappe davantage, c'est la stratégie de fond : Daybreak, le plugin Codex Security, le Cyber Partner Program avec IBM... OpenAI est en train de s'incruster dans tous les pipelines de sécurité professionnelle pendant qu'Anthropic se retrouve bloquée hors des États-Unis. Le timing est brutal pour Mythos.

SécuritéOpinion
1 source
SpaceX est déjà un fournisseur cloud de 28 milliards de dollars par an
56Latent Space 

SpaceX est déjà un fournisseur cloud de 28 milliards de dollars par an

SpaceX vient de signer un troisième contrat de location de GPU, cette fois avec la startup Reflection AI, s'ajoutant aux accords déjà connus avec Anthropic et Google. L'analyste Jamin Ball a compilé les chiffres : les trois contrats totalisent 2,32 milliards de dollars par mois, à plus de 10 dollars de l'heure pour des GPU Blackwell de Nvidia. Annualisé, ce montant atteint 28 milliards de dollars par an, soit environ le double du revenu actuel de Coreweave, le spécialiste du cloud GPU introduit en bourse il y a un an pour une valorisation de 60 milliards. Baseten, de son côté, a officialisé une levée de fonds de 13 milliards de dollars en Série F, confirmant l'appétit massif des investisseurs pour l'infrastructure d'IA. L'émergence de SpaceX comme fournisseur cloud de premier plan redistribue les cartes dans un marché jusqu'ici dominé par AWS, Azure et Google Cloud. Le fait qu'Anthropic et Google, concurrents directs sur le terrain des modèles, louent simultanément de la capacité chez SpaceX révèle une pénurie structurelle de GPU Blackwell que les hyperscalers peinent à absorber seuls. Pour les startups d'IA, cette nouvelle offre réduit la dépendance à un fournisseur unique et pourrait, à terme, peser sur les tarifs. Le tarif actuel, supérieur à 10 dollars de l'heure, reste néanmoins très élevé, signe que la demande dépasse largement l'offre disponible sur le marché. Cette percée de SpaceX s'inscrit dans un moment de transformation accélérée de l'ensemble de l'écosystème. OpenAI a étendu son programme Daybreak avec le lancement de GPT-5.5-Cyber, un modèle dédié à la cybersécurité déjà revendiqué comme état de l'art sur le benchmark CyberGym, accompagné d'un plugin Codex Security couvrant plus de 30 millions de commits et 30 000 dépôts, avec pour ambition de passer de la simple détection de vulnérabilités à leur correction automatisée en boucle fermée. Sakana AI a de son côté lancé Fugu, une couche d'orchestration qui sélectionne et combine dynamiquement plusieurs modèles frontier via une API unique, rapidement intégrée par Vercel dans son AI Gateway. Les benchmarks présentés ont toutefois suscité une vive controverse, des observateurs pointant des baselines opaques, l'absence de comptabilisation des coûts et un retard d'environ dix points sur Opus dans SWE-Bench Pro. La question de qui manque encore à la liste des clients de SpaceX, notamment Meta ou Microsoft, reste posée et pourrait bien définir la prochaine vague de contrats.

UELa pénurie structurelle de GPU Blackwell et les tarifs supérieurs à 10 $/heure affectent indirectement les startups européennes d'IA qui dépendent de ces ressources de calcul, sans qu'aucun acteur ou régulation européen ne soit directement impliqué.

💬 Quand Anthropic et Google louent des GPU au même fournisseur en même temps, c'est pas un choix stratégique, c'est une pénurie. SpaceX ramasse 28 milliards annualisés sans avoir sorti un seul modèle, juste en achetant des Blackwell au bon moment pendant que les hyperscalers étaient à court, et ça dit quelque chose de net sur qui a compris que le calcul allait devenir la vraie contrainte. Meta et Microsoft sont absents de la liste.

InfrastructureOpinion
1 source
Red-Teaming après Mythos : Zico Kolter et Matt Fredrikson, Gray Swan
57Latent Space 

Red-Teaming après Mythos : Zico Kolter et Matt Fredrikson, Gray Swan

Zico Kolter, membre du conseil d'administration d'OpenAI au sein du comité Sécurité et Sûreté, et Matt Fredrikson, professeur à Carnegie Mellon University et PDG de la startup Gray Swan, ont accordé un long entretien au podcast AI Engineer pour dresser l'état de l'art du red-teaming en intelligence artificielle. La discussion intervient dans un contexte particulier : le gouvernement américain a récemment émis une directive de contrôle à l'exportation visant les modèles Mythos et Fable, propulsant sur le devant de la scène les risques de jailbreaks et d'injection de prompts indirects. Gray Swan, que les deux cofondateurs dirigent ensemble, avait été cité comme autorité de référence dans la fiche technique du modèle Mythos, ayant directement investigué les capacités aujourd'hui sous scrutin. Leur entreprise a notamment développé Shade, l'outil de red-teaming adversarial utilisé par Anthropic pour évaluer la robustesse de ses modèles face aux attaques par injection de prompts dans les environnements de développement, ainsi que Cygnal, un produit de guardrails pour agents IA, et la plus grande arène communautaire de red-teaming au monde. L'enjeu central que soulèvent Kolter et Fredrikson est que la sécurité de l'IA ne se réduit pas à de la cybersécurité traditionnelle augmentée : les agents IA introduisent une catégorie entièrement nouvelle de vulnérabilités. L'injection de prompts indirects, par exemple, permet à un attaquant de compromettre un agent comme Claude Code ou Codex en lui faisant traiter des données non fiables contenant des instructions malveillantes, qui peuvent ensuite conduire à l'exfiltration de données privées. Cette combinaison, baptisée la « trilogie létale » par Simon Willison, données non fiables, données sensibles et vecteur d'exfiltration, représente un risque systémique pour tout déploiement enterprise. Et contrairement à l'intuition dominante, les modèles plus grands ne sont pas automatiquement plus robustes : la mise à l'échelle n'est pas un antidote à ces vulnérabilités. Fait frappant, les modèles de red-teaming spécialisés développés par Gray Swan surpassent désormais les humains dans leur capacité à briser d'autres systèmes d'IA. Le cadre conceptuel que propose Gray Swan est celui des « cygnes gris » : des événements peu probables mais clairement prévisibles avant qu'ils ne surviennent. La première grande intrusion par injection de prompts en conditions réelles est, selon eux, probablement inévitable. Ce qui rend le moment actuel critique, c'est la convergence entre la montée en puissance des agents autonomes, les nouvelles exigences réglementaires et l'émergence d'un marché de l'assurance et de la conformité spécifique à l'IA. La question de l'identité native des agents, la gestion fine de leurs permissions en environnement enterprise, et la capacité à faire attaquer, défendre et interpréter les systèmes d'IA par d'autres systèmes d'IA dessinent les contours d'un champ disciplinaire encore naissant, mais dont les enjeux industriels et sociétaux sont déjà considérables.

UELes entreprises européennes déployant des agents IA sont directement exposées aux risques d'injection de prompts indirects décrits, et les exigences de l'AI Act en matière de sécurité rendent ces outils de red-teaming et guardrails pertinents pour la conformité des déploiements enterprise en Europe.

💬 La "trilogie létale" (données non fiables, données sensibles, vecteur d'exfiltration), c'est enfin un cadre qui rend le risque d'injection de prompts lisible pour une équipe technique. Le point qui dérange : un modèle plus grand ne protège pas mieux contre ces attaques, la mise à l'échelle n'est pas un antidote. La première grosse intrusion par injection de prompts en conditions réelles arrivera, Kolter et Fredrikson le posent clairement sur la table, et les équipes qui ont déployé des agents sans red-teaming vont morfler.

SécuritéOpinion
1 source
Sans Claude Fable 5 : Sakana atteint les performances de pointe avec son système multi-modèles Fugu
58VentureBeat AI 

Sans Claude Fable 5 : Sakana atteint les performances de pointe avec son système multi-modèles Fugu

Sakana AI a lancé Fugu, un système d'orchestration multi-agents accessible via une API compatible OpenAI, conçu pour égaler les performances des modèles d'IA les plus avancés sans dépendre d'un fournisseur unique. Fondée par David Ha, ancien directeur de recherche chez Google Brain, la startup propose deux déclinaisons : Fugu, optimisé pour les tâches courantes à faible latence et intégrable directement dans des environnements de développement comme Codex, et Fugu Ultra, destiné aux travaux complexes tels que la recherche en IA, l'analyse en cybersécurité ou les investigations de brevets, facturé 5 dollars le million de tokens en entrée et 30 dollars en sortie. Le système fonctionne comme un chef d'orchestre : face à une requête, il la décompose en sous-tâches, les délègue à un ensemble de modèles spécialisés, vérifie leurs résultats, puis synthétise la réponse finale. Fugu est lui-même un LLM entraîné à appeler d'autres LLMs, y compris des instances de lui-même de façon récursive, selon les équipes de Sakana. Le lancement intervient dans un contexte précis : le 12 juin 2026, Anthropic a révoqué l'accès public à ses deux modèles les plus puissants, Claude Mythos 5 et Claude Fable 5, sous la pression d'un décret américain de contrôle des exportations. Pour Ha, cet événement illustre un risque systémique majeur pour les entreprises et les gouvernements qui s'appuient sur un seul fournisseur d'IA. "L'accès aux meilleurs modèles peut disparaître du jour au lendemain", a-t-il écrit sur X. Fugu répond à ce problème en s'appuyant sur un pool de modèles entièrement interchangeable, dont la composition exacte reste propriétaire, rendant le système résilient face aux restrictions géopolitiques ou commerciales soudaines. Ce projet s'inscrit dans une tendance plus large qui fait de l'orchestration intelligente de modèles la prochaine frontière de l'IA, au-delà de la seule course à la taille des paramètres. Fugu repose sur deux travaux de recherche publiés par Sakana en 2026, TRINITY et Conductor, qui formalisent des stratégies de coordination apprises plutôt que des workflows codés à la main. En affichant des performances comparables ou supérieures à Fable et Mythos sur des benchmarks d'agents tiers, Sakana cherche à convaincre entreprises et États que la résilience collective vaut mieux que la dépendance à un modèle monolithique. Dans un contexte géopolitique de plus en plus fragmenté, la startup, désormais clairement tournée vers le marché entreprise, pourrait s'imposer comme un acteur clé de l'infrastructure IA critique mondiale.

UELes entreprises et institutions européennes exposées aux restrictions d'exportation américaines sur les modèles IA disposent avec Fugu d'une alternative d'orchestration multi-modèles résiliente, réduisant leur dépendance à un fournisseur unique.

💬 La révocation de l'accès à Fable et Mythos sur décret américain le 12 juin dernier, c'est le genre d'événement qui transforme un argument de vente en argument de survie. Ne jamais dépendre d'un seul fournisseur d'IA pour des usages critiques, c'est désormais moins une recommandation qu'une évidence industrielle. Fugu arrive exactement au bon moment, reste à voir si les perfs en prod tiennent la promesse des benchmarks.

OutilsOpinion
1 source
Fable et Mythos officiellement jugés trop dangereux pour être publiés
59Latent Space 

Fable et Mythos officiellement jugés trop dangereux pour être publiés

Trois jours seulement après leur lancement, Anthropic a dû suspendre l'accès à ses modèles Fable 5 et Mythos 5 pour l'ensemble de ses clients mondiaux, sur injonction verbale du gouvernement américain. Les autorités américaines ont invoqué un risque potentiel pour la cybersécurité nationale, lié à une supposée faille de type "jailbreak" qui rendrait ces modèles trop dangereux à diffuser librement. Anthropic a publiquement contesté cette décision, affirmant que le gouvernement ne lui a fourni que des preuves verbales d'une vulnérabilité "étroite et non universelle" et que la société "croit à un malentendu". L'entreprise a par ailleurs souligné que des capacités comparables sont disponibles dans d'autres modèles largement accessibles, dont GPT-5.5 d'OpenAI. Dans la foulée, des produits tiers comme Cognition/Devin et la plateforme Agent Arena ont immédiatement retiré ces modèles de leurs offres. L'événement illustre de façon brutale un risque jusqu'ici théorique pour l'industrie tech : une API frontier fermée peut disparaître du jour au lendemain pour des raisons géopolitiques, sans préavis opérationnel. Pour les équipes d'ingénierie et les entreprises qui ont bâti des produits sur ces modèles, la disruption est immédiate et difficilement réversible. Anthropic a tenté de limiter les dégâts en réinitialisant les limites d'utilisation hebdomadaires et horaires de ses autres modèles, mais le signal envoyé à l'industrie est clair : dépendre d'un seul fournisseur frontier expose désormais à un risque géopolitique explicite. Des voix influentes comme celles de Nathan Lambert, Theo et Cohere ont convergé vers la même conclusion : "posséder sa propre infrastructure compte." La plateforme Artificial Analysis a résumé la situation sans détour, notant qu'il s'agit de "la première fois que notre graphique Intelligence Frontier recule." Cet épisode n'est pas sans précédent pour Anthropic, qui avait déjà eu affaire aux autorités américaines, mais c'est la première fois qu'une restriction d'export frappe l'ensemble des clients dans le monde. Le débat sur la "souveraineté des modèles" a pris une nouvelle ampleur, notamment parmi les défenseurs de l'IA open source qui estiment que cette situation valide leur position. En parallèle, la semaine a également été marquée par une refonte des benchmarks de codage : Artificial Analysis a remplacé SWE-Bench Pro par DeepSWE dans son index d'agents de code, au motif que le premier benchmark était devenu manipulable par fuite de l'historique des dépôts. Ce changement a redistribué les classements, avec Claude Code associé à Fable 5 atteignant 77 points, devant Codex couplé à GPT-5.5 à 76. Ces deux événements simultanés posent une question de fond pour l'industrie : dans quelle mesure les classements mesurent-ils vraiment la capacité des modèles, plutôt que celle des infrastructures et des acteurs politiques qui les contrôlent.

UELes entreprises et développeurs européens ayant intégré Fable 5 ou Mythos 5 dans leurs produits sont directement touchés par la suspension immédiate, et cet épisode renforce l'argumentaire de l'UE en faveur de la souveraineté numérique et du développement d'infrastructures IA européennes indépendantes.

💬 Premier de benchmark le lundi, suspendu le mercredi. C'est le genre de retournement qui transforme un argument de conf en réalité opérationnelle, et là c'est "posséder son infra" qui passe de l'idéologique au stratégique. Les équipes qui avaient tout misé sur Fable sans plan B ont eu leur réponse ce weekend.

RégulationReglementation
1 source
Visa s’associe à OpenAI pour automatiser les paiements via l’IA
60Le Big Data 

Visa s’associe à OpenAI pour automatiser les paiements via l’IA

Visa et OpenAI ont annoncé le 10 juin 2026 un partenariat visant à intégrer les capacités de paiement directement dans les expériences pilotées par des agents IA. Présenté lors du Visa Payments Forum à San Francisco, l'accord s'inscrit dans le programme "Visa Intelligent Commerce", conçu pour étendre le réseau mondial de paiement de Visa à de nouveaux environnements numériques. Concrètement, les solutions de paiement de Visa seront intégrées aux plateformes d'OpenAI, dont ChatGPT et Codex, permettant à des agents IA de réaliser des transactions complètes, de la sélection d'un produit jusqu'au règlement final. Les développeurs et commerçants pourront accepter ces paiements sans avoir à construire eux-mêmes les couches de sécurité, d'authentification et de gestion des risques. Visa a également mentionné un volume de règlement en stablecoins d'environ 7 milliards de dollars annualisés, signalant une ambition qui dépasse le seul partenariat avec OpenAI. Pour les entreprises et les consommateurs, ce changement est structurel. Jusqu'ici, les assistants conversationnels se limitaient à rechercher des informations, comparer des produits ou formuler des recommandations. Avec cette intégration, ils pourront agir : initier et finaliser une transaction en temps réel, en respectant des règles prédéfinies telles que des plafonds de dépenses, des catégories de marchands autorisées ou des mécanismes d'approbation avant validation. Pour garantir la confiance, Visa apporte ses technologies de tokenisation, d'autorisation en temps réel et ses systèmes de détection de fraudes, afin que chaque opération respecte les mêmes standards que les paiements numériques traditionnels. Les commerçants pourraient bénéficier de parcours d'achat plus rapides et d'une réduction des abandons de panier, tandis que les développeurs accèderont à une infrastructure prête à l'emploi pour monétiser leurs applications IA sans friction. Ce partenariat reflète une transformation plus profonde du secteur des paiements. Visa cherche à s'implanter dans les nouveaux environnements numériques dominés par l'IA générative, bien au-delà des cartes et terminaux classiques. OpenAI, de son côté, fait évoluer ChatGPT d'un outil de productivité vers une plateforme commerciale à part entière. Jack Forestell, directeur des produits et de la stratégie chez Visa, a estimé que "l'IA pourrait transformer le commerce de manière encore plus profonde que l'internet ou les technologies mobiles", illustrant l'ampleur des ambitions des deux groupes. La course à ce positionnement est ouverte : Mastercard, Stripe et les grandes plateformes technologiques comme Google, Apple et Amazon travaillent sur des intégrations similaires. La vraie question sera celle de l'acceptabilité : jusqu'où les utilisateurs accepteront-ils de déléguer des décisions financières à des agents automatisés ?

UELes marchands européens connectés au réseau Visa pourront accepter des paiements initiés par agents IA sans développement supplémentaire, mais ce modèle transactionnel inédit soulève des questions de conformité avec le cadre réglementaire européen (PSD2, AI Act, DSA) qui n'est pas encore adapté aux flux financiers automatisés.

💬 Visa joue un coup malin : plutôt que d'attendre que les agents IA grignotent son marché, elle s'impose comme la couche de paiement de l'internet agentique. OpenAI gagne une infrastructure bancaire sans la construire, Visa se glisse dans chaque nouvel usage numérique. Bon, en Europe ça va se compliquer, parce que PSD2 et AI Act n'ont vraiment pas été écrits pour des agents qui dépensent ton argent tout seuls.

BusinessActu
1 source
Quatre attaques sur la chaîne d'approvisionnement IA en 50 jours révèlent des failles dans les pipelines de déploiement
61VentureBeat AI 

Quatre attaques sur la chaîne d'approvisionnement IA en 50 jours révèlent des failles dans les pipelines de déploiement

En cinquante jours, quatre incidents de sécurité ont frappé les chaînes d'approvisionnement logicielle d'OpenAI, Anthropic et Meta, exposant un angle mort systémique dans l'écosystème IA. Le 11 mai 2026, un ver informatique baptisé Mini Shai-Hulud a publié 84 versions malveillantes de 42 packages npm de la bibliothèque TanStack en six minutes, en exploitant une mauvaise configuration de GitHub Actions, un empoisonnement du cache CI et l'extraction d'un token OIDC depuis la mémoire du runner. Ces packages portaient une provenance SLSA Build Level 3 valide car ils avaient été publiés depuis le dépôt officiel, via le bon workflow. Deux jours plus tard, OpenAI confirmait la compromission de deux appareils d'employés et l'exfiltration de secrets depuis ses dépôts internes, forçant la révocation de ses certificats macOS et une mise à jour obligatoire de tous les utilisateurs desktop avant le 12 juin 2026. En remontant à fin mars, on trouve deux autres incidents : un chercheur de BeyondTrust Phantom Labs, Tyler Jespersen, avait découvert que OpenAI Codex passait les noms de branches Git directement dans des commandes shell sans aucune validation, permettant l'injection de sous-commandes et le vol du token OAuth GitHub en clair. Simultanément, le groupe TeamPCP avait utilisé des identifiants volés au scanner de vulnérabilités Trivy d'Aqua Security pour publier deux versions empoisonnées du proxy LiteLLM sur PyPI, téléchargées près de 47 000 fois en quarante minutes avant quarantaine. Ce qui rend ces incidents particulièrement préoccupants, c'est leur portée transversale. L'attaque LiteLLM a atteint Mercor, une startup valorisée 10 milliards de dollars qui fournit des données d'entraînement à Meta, OpenAI et Anthropic : quatre téraoctets ont été exfiltrés, incluant des références à des méthodologies propriétaires de Meta. Le partenariat a été gelé immédiatement, une action collective a suivi dans les cinq jours. Aucune de ces attaques ne visait les modèles eux-mêmes, mais leurs dommages sont réels et mesurables. Le 31 mars, Anthropic avait de son côté exposé involontairement 513 000 lignes de TypeScript non obfusqué en livrant Claude Code version 2.1.88 avec un fichier source map de 59,8 Mo qui n'aurait jamais dû être inclus, révélant 44 feature flags internes, des prompts système et l'architecture d'orchestration multi-agents. Ces quatre incidents convergent vers un seul constat structurel : les pipelines de release, les hooks de dépendances, les runners CI et les gates de packaging ne sont couverts par aucun exercice de red team actuel dans l'industrie IA. Les évaluations AISI, les system cards et les audits de sécurité des modèles ignorent entièrement cette surface d'attaque. Quand un token OIDC légitimement émis suffit à publier 84 artefacts malveillants avec une provenance cryptographique valide, ou qu'une seule dépendance open source passe quarante minutes sur PyPI avec un effet blast radius cross-industriel, la robustesse du modèle sous-jacent devient hors-sujet. La pression monte pour que les fournisseurs IA intègrent des audits de sécurité de chaîne d'approvisionnement dans leurs questionnaires de conformité, au même titre que les évaluations de danger des modèles.

UELes organisations européennes déployant des outils IA via des dépendances open source (LiteLLM, TanStack) sont directement exposées aux mêmes vecteurs d'attaque, et la pression monte pour que les questionnaires de conformité AI Act intègrent des audits de sécurité de chaîne d'approvisionnement au même titre que les évaluations de risque des modèles.

💬 Quatre attaques en cinquante jours, aucune ne visait les modèles. Pendant qu'on red-teamait les LLMs à coups d'évaluations AISI et de system cards, personne ne regardait les runners CI, les hooks de dépendances, les gates de packaging, et un token OIDC légitime a suffi à publier 84 artefacts malveillants avec une provenance cryptographique valide. La robustesse du modèle, c'est hors-sujet si la chaîne de livraison est trouée.

SécuritéOpinion
1 source
Une commande transforme tout dépôt open source en porte dérobée pour agents IA, indétectable par les scanners (OpenClaw)
62VentureBeat AI 

Une commande transforme tout dépôt open source en porte dérobée pour agents IA, indétectable par les scanners (OpenClaw)

Une équipe de chercheurs de l'Université de Hong Kong a publié en mars 2026 un outil baptisé CLI-Anything, capable d'analyser le code source de n'importe quel dépôt open source et de générer automatiquement une interface en ligne de commande (CLI) exploitable par un agent IA en une seule instruction. Compatible avec Claude Code, Codex, Cursor, GitHub Copilot CLI et d'autres, l'outil a dépassé les 30 000 étoiles sur GitHub en deux mois. Mais c'est ce que CLI-Anything génère qui inquiète les chercheurs en sécurité : des fichiers SKILL.md, des définitions d'instructions en langage naturel que les agents IA utilisent pour comprendre comment opérer un logiciel. Or en février 2026, les travaux ToxicSkills de Snyk avaient déjà recensé 76 charges malveillantes confirmées dans des fichiers de ce type sur ClawHub et skills.sh. La communauté offensive discute désormais ouvertement des implications sur X et dans les forums de sécurité. Le problème central est qu'aucun scanner de sécurité existant n'est équipé pour détecter des instructions malveillantes glissées dans des définitions de compétences pour agents IA. Les outils SAST analysent la syntaxe du code source ; les outils SCA vérifient les versions des dépendances. Ni l'un ni l'autre ne comprend la couche sémantique où opèrent les descriptions d'outils MCP, les prompts d'agents et les fichiers de règles. Cisco l'a confirmé en avril dans un billet annonçant son AI Agent Security Scanner, précisant que ces outils traditionnels "n'ont pas été conçus pour cela". Merritt Baer, directrice de la sécurité chez Enkrypt AI et ancienne Deputy CISO chez AWS, résume : "SAST et SCA ont été construits pour le code et les dépendances. Ils n'inspectent pas les instructions." Une définition de compétence empoisonnée ne déclenche aucune CVE et n'apparaît jamais dans un SBOM. Cette faille structurelle s'inscrit dans une évolution plus large des chaînes d'approvisionnement logicielles. Les outils de type agent bridge, MCP connectors ou fichiers de règles Cursor constituent une troisième couche entre le code et les dépendances : des fichiers de configuration en langage naturel qui, sans ressembler à du code, s'exécutent comme du code. Des chercheurs de quatre universités (Griffith, Nanyang, UNSW et Tokyo) ont documenté en avril la technique DDIPE (Document-Driven Implicit Payload Execution), qui intègre une logique malveillante dans des exemples de documentation de compétences. Sur quatre frameworks d'agents et cinq grands modèles de langage, le taux de contournement a atteint entre 11,6 % et 33,5 %, et 2,5 % des échantillons ont échappé aux quatre couches de détection testées. L'industrie se trouve donc dans une fenêtre de pré-exploitation : l'attaque est théorisée, l'outil est déployé, et les défenses n'ont pas encore de catégorie pour nommer ce qu'elles cherchent.

UELes entreprises et institutions européennes utilisant des agents IA basés sur des fichiers de règles ou connecteurs MCP sont exposées à cette faille structurelle dans leurs chaînes d'approvisionnement logicielles, sans outil de détection disponible à ce jour.

💬 Le vrai problème, c'est qu'on a ajouté une couche entière dans la chaîne logicielle, des fichiers en langage naturel qui s'exécutent comme du code, sans que personne ait d'outil pour la surveiller. SAST et SCA ont été conçus pour la syntaxe et les dépendances, pas pour la couche sémantique où tournent tes agents. Ce qui m'inquiète le plus : l'attaque est théorisée, l'outil est déployé, et les défenses n'ont même pas encore de catégorie pour nommer ce qu'elles cherchent.

SécuritéOpinion
1 source
Après 3 ans d’IA générative, un marché de l’emploi des développeurs touché mais pas coulé
63Next INpact 

Après 3 ans d’IA générative, un marché de l’emploi des développeurs touché mais pas coulé

Trois ans après l'émergence de ChatGPT, les premières données statistiques sérieuses sur l'impact de l'IA générative sur l'emploi des développeurs commencent à dessiner une tendance claire. L'INSEE, dans une note de conjoncture récente, relève qu'aux États-Unis, l'emploi dans les services de conception de systèmes informatiques recule depuis deux années consécutives : -1,2 % en 2024, puis -1,6 % en 2025. Dans le secteur plus large des activités spécialisées, scientifiques et techniques, la croissance s'est effondrée, passant de +2,5 % en 2023 à -0,2 % en 2025. Dans le même temps, la productivité apparente dans ces secteurs s'est améliorée, signe que moins de salariés produisent autant, voire plus. Un rapport de la Réserve fédérale américaine publié en mars 2025 arrive à des conclusions similaires par une méthode différente : en simulant l'évolution du marché sans l'essor des grands modèles de langage, les chercheurs estiment qu'environ 500 000 emplois de développeurs supplémentaires auraient été créés depuis novembre 2022. L'écart entre la trajectoire réelle et la trajectoire simulée ne s'est creusé significativement qu'à partir de mi-2024, coïncidant avec la diffusion massive d'outils comme Claude Code, Codex ou Cursor. Ces chiffres ne signifient pas pour autant que 500 000 développeurs se retrouvent au chômage. La Fed souligne elle-même que les résultats ne doivent pas être interprétés comme une suppression nette d'emplois : de nombreux développeurs ont pu migrer vers des postes de management, de product, ou vers des métiers qui intègrent désormais des compétences techniques sans porter le titre explicite de "développeur". Ce qui change, c'est surtout la demande de nouveaux postes, notamment juniors, qui stagne dans les industries traditionnellement grandes consommatrices de développeurs, là où elle aurait dû continuer à croître. Le risque à moyen terme est structurel : moins de juniors recrutés aujourd'hui, c'est mécaniquement moins de seniors disponibles dans cinq à dix ans. L'industrie de l'IA générative elle-même ne compense pas encore les pertes. La Fed chiffre à moins de 15 000 le total des effectifs d'OpenAI, Anthropic et Google DeepMind réunis, dont une fraction seulement sont des développeurs. Même en multipliant par six pour intégrer les startups et les équipes IA de Meta, Microsoft ou ailleurs, on n'atteint pas 2 % des développeurs américains. La France observe des dynamiques comparables, selon les données mentionnées par l'article. Le tableau qui se dessine est donc celui d'un marché ni effondré ni inchangé, mais structurellement réorienté : l'IA compresse la demande de code répétitif et junior, tout en déplaçant la valeur vers des profils capables de piloter, superviser et orienter ces outils, une transition qui laisse peu de place à l'attentisme.

UELa France connaît des dynamiques comparables selon l'article, avec une stagnation des recrutements juniors qui menace le renouvellement des compétences techniques dans les entreprises françaises à un horizon de cinq à dix ans.

💬 500 000 emplois qui ne se sont pas créés, c'est pas du tout la même chose que 500 000 licenciements, et c'est une distinction qui compte vraiment. Le vrai problème, c'est le pipeline junior qui se bouche : les boîtes recrutent moins d'entrées de gamme, ça se voit pas maintenant, mais dans dix ans il va manquer des seniors. Pas spectaculaire comme scénario, mais bien plus vicieux.

SociétéPaper
1 source
Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins
64Ars Technica AI 

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins

Le system prompt du CLI Codex d'OpenAI contient une directive inhabituelle : GPT-5.5 reçoit l'instruction explicite de "ne jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent pour la requête de l'utilisateur." Cette consigne, rendue publique la semaine dernière via le dépôt GitHub open source de Codex CLI, apparaît deux fois dans un ensemble d'instructions de base de plus de 3 500 mots destinées au modèle récemment lancé. Elle côtoie d'autres rappels plus classiques, comme l'interdiction d'utiliser des emojis ou des tirets cadratins sans instruction explicite, ou encore la mise en garde contre les commandes destructives telles que git reset --hard. Ce qui rend cette directive significative, c'est son absence dans les instructions système des modèles antérieurs figurant dans le même fichier JSON. Cela suggère qu'OpenAI fait face à un problème apparu spécifiquement avec GPT-5.5 : le modèle aurait tendance à introduire spontanément des références à des gobelins ou autres créatures dans des conversations sans rapport. Des témoignages récents sur les réseaux sociaux confirment ce comportement, plusieurs utilisateurs signalant des réponses inopinément peuplées de créatures fantastiques lors d'échanges techniques ou professionnels. Ce type d'incident met en lumière un défi persistant du développement des grands modèles de langage : les comportements émergents imprévisibles qui surgissent lors du passage à l'échelle. Lorsqu'un modèle développe des biais ou des obsessions thématiques non intentionnelles, la solution la plus rapide reste souvent d'intervenir directement dans le system prompt plutôt que de relancer un cycle d'entraînement complet. Cette approche, parfois surnommée "patch de comportement", révèle les limites du contrôle fin sur des systèmes aussi complexes que GPT-5.5, dont le déploiement s'accompagne inévitablement d'ajustements post-lancement que même l'équipe d'OpenAI ne peut anticiper entièrement.

LLMsOpinion
1 source
GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API
65AI News 

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion
1 source
DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains
66The Verge AI 

DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains

DeepSeek, la startup chinoise d'intelligence artificielle, a dévoilé vendredi une préversion de son prochain modèle phare, baptisé V4. La société affirme que ce modèle open source rivalise avec les systèmes propriétaires des grands acteurs américains, notamment Anthropic, Google et OpenAI. DeepSeek met en avant des progrès significatifs par rapport aux versions précédentes, en particulier dans les capacités de génération de code, un domaine devenu central pour les agents IA et qui a propulsé le succès d'outils comme ChatGPT Codex ou Claude Code. La sortie s'accompagne d'une annonce notable pour l'industrie chinoise des semi-conducteurs : DeepSeek souligne explicitement la compatibilité de V4 avec les puces Huawei fabriquées en Chine. Ce lancement est stratégiquement important à plusieurs titres. Sur le plan technologique, une IA open source capable de tenir tête aux meilleurs modèles fermés du monde redistribue les cartes en matière d'accès et d'adoption. Pour les entreprises et développeurs, cela signifie potentiellement des alternatives performantes sans dépendance aux API américaines. Côté hardware, valider des puces Huawei comme substrat de développement IA de pointe est un signal fort dans un contexte de restrictions américaines à l'exportation de semi-conducteurs vers la Chine. Cette annonce intervient environ un an après que DeepSeek avait secoué la Silicon Valley avec la sortie de ses modèles R1 et V3, provoquant une chute en bourse de plusieurs acteurs du secteur et relançant le débat sur l'efficacité des restrictions technologiques imposées à Pékin. La course entre les États-Unis et la Chine pour la suprématie en IA s'accélère, et DeepSeek s'impose comme l'un des rares laboratoires non américains capable de fixer le rythme du secteur.

UELa disponibilité d'un modèle open source compétitif offre aux entreprises et développeurs européens une alternative crédible aux API américaines, renforçant les ambitions de souveraineté numérique de l'UE.

💬 Ce n'est pas le modèle en lui-même qui m'intéresse, c'est la puce Huawei en dessous. DeepSeek vient de montrer qu'on peut entraîner un concurrent sérieux aux meilleurs modèles du monde sans NVIDIA, ce qui rend les restrictions américaines à l'export beaucoup moins rassurantes pour Washington. Reste à voir si ça tient sur des benchmarks indépendants, mais en un an ils ont forcé la Silicon Valley à revoir ses calculs deux fois.

LLMsOpinion
1 source
OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval
67MarkTechPost 

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval

OpenAI a lancé GPT-5.5, son modèle le plus puissant à ce jour et le premier modèle de base entièrement réentraîné depuis GPT-4.5. Le déploiement a commencé ce jeudi pour les abonnés Plus, Pro, Business et Enterprise, aussi bien sur ChatGPT que sur Codex. Contrairement à ses prédécesseurs, GPT-5.5 est conçu dès le départ pour l'usage agentique : il ne répond pas à une simple invite, il enchaîne des actions autonomes, utilise des outils (navigation web, écriture et exécution de code, manipulation de fichiers), vérifie son propre travail et poursuit jusqu'à la fin d'une tâche sans intervention humaine à chaque étape. Les gains se concentrent sur quatre domaines : le développement logiciel, l'utilisation autonome d'un ordinateur, le travail de connaissance généraliste, et la recherche scientifique précoce. Sur SWE-Bench Pro, qui évalue la résolution de vraies issues GitHub dans quatre langages de programmation, GPT-5.5 résout 58,6 % des tâches en un seul passage. Sur Terminal-Bench 2.0, qui teste des flux de travail complexes en ligne de commande, il atteint 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro. Sur GDPval, un benchmark couvrant 44 métiers du travail de connaissance, il score 84,9 %. Sur OSWorld-Verified, qui mesure la capacité à opérer un vrai environnement informatique de manière autonome, il atteint 78,7 %. Une version Pro du modèle, dédiée aux tâches les plus exigeantes, score 90,1 % sur BrowseComp, devant Gemini 3.1 Pro à 85,9 %. Ces résultats signalent un changement qualitatif dans ce que les outils d'IA peuvent accomplir sans supervision humaine. Jusqu'ici, les modèles agentiques buttaient sur les points de transition entre les étapes d'une tâche, obligeant l'utilisateur à recadrer ou corriger. GPT-5.5 réduit ces interruptions de manière significative. Pour les ingénieurs logiciels, cela se traduit concrètement par un outil capable de comprendre l'architecture globale d'un projet, de diagnostiquer la cause profonde d'un bug et d'évaluer l'impact d'un correctif sur le reste du code, sans qu'on lui dicte chaque geste. OpenAI indique également que le modèle tient la parité de latence avec GPT-5.4 tout en utilisant moins de tokens pour accomplir les mêmes tâches, ce qui atténue la crainte habituelle que puissance rime avec lenteur et coût. GPT-5.5 s'inscrit dans une course à l'agentique où les trois grands labs américains, OpenAI, Anthropic et Google DeepMind, cherchent à transformer leurs modèles en collaborateurs capables de conduire des projets de plusieurs heures, voire plusieurs jours. Claude Opus 4.7 d'Anthropic devance GPT-5.5 sur SWE-Bench Pro avec 64,3 %, mais OpenAI conteste la comparaison en signalant des signes de mémorisation dans les évaluations d'Anthropic. Le benchmark interne Expert-SWE, qui mesure des tâches dont le temps médian de réalisation humaine est estimé à 20 heures, refactoring massif, construction de fonctionnalité, débogage en profondeur de codebase, positionne GPT-5.5 au-dessus de GPT-5.4. Le modèle est également classé premier sur l'Artificial Analysis Intelligence Index. L'enjeu n'est plus de savoir quel modèle répond le mieux à une question, mais lequel peut conduire un projet de bout en bout.

UELes équipes tech et entreprises européennes peuvent intégrer dès maintenant un modèle agentique capable de conduire des projets complexes sans supervision continue, avec un impact potentiel sur les pratiques de développement logiciel et les métiers du travail de connaissance dans l'UE.

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne
68NVIDIA AI Blog 

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne

OpenAI a déployé GPT-5.5, son dernier modèle frontier, au coeur de Codex, son application de codage agentique. Ce modèle tourne sur les systèmes rack-scale NVIDIA GB200 NVL72, capables de délivrer un coût 35 fois inférieur par million de tokens et un débit 50 fois supérieur par seconde et par mégawatt par rapport à la génération précédente. Plus de 10 000 employés de NVIDIA, répartis dans tous les départements, ingénierie, juridique, marketing, finance, RH, ventes et opérations, utilisent déjà Codex propulsé par GPT-5.5 depuis quelques semaines. Les résultats sont concrets et mesurables : des cycles de débogage qui prenaient des jours se bouclent désormais en quelques heures, et des expérimentations qui nécessitaient des semaines aboutissent en une nuit sur des bases de code complexes et multi-fichiers. Des équipes livrent des fonctionnalités complètes à partir de simples instructions en langage naturel. L'impact dépasse le simple gain de productivité individuel. En rendant l'inférence de modèles frontier économiquement viable à l'échelle de l'entreprise, cette infrastructure change la donne pour toute organisation souhaitant intégrer des agents IA dans ses processus métier. Pour sécuriser ce déploiement, NVIDIA a doté chaque employé d'une machine virtuelle cloud dédiée connectée via SSH, dans laquelle l'agent Codex opère en sandbox avec une politique de rétention zéro donnée. Les agents n'accèdent aux systèmes de production qu'en lecture seule, garantissant auditabilité complète sans exposition des données internes. Jensen Huang, PDG et fondateur de NVIDIA, a incité l'ensemble de ses équipes à adopter l'outil dans un email interne : "Passons à la vitesse de la lumière. Bienvenue dans l'ère de l'IA." Ce lancement s'inscrit dans plus de dix ans de collaboration entre NVIDIA et OpenAI, une relation qui remonte à 2016 lorsque Jensen Huang avait livré en mains propres le premier supercalculateur DGX-1 au siège d'OpenAI à San Francisco. Depuis, les deux entreprises co-développent l'ensemble de la pile IA : NVIDIA était partenaire dès le premier jour pour le lancement du modèle open-weight gpt-oss d'OpenAI, en optimisant les poids du modèle pour TensorRT-LLM et des frameworks comme vLLM et Ollama. OpenAI s'est engagé à déployer plus de 10 gigawatts de systèmes NVIDIA pour sa prochaine infrastructure, mobilisant des millions de GPU pour l'entraînement et l'inférence dans les années à venir. Les deux sociétés sont également partenaires en co-conception matérielle, OpenAI contribuant au roadmap hardware de NVIDIA en échange d'un accès anticipé aux nouvelles architectures, ce qui a abouti à la mise en service commune du premier cluster de 100 000 GPU GB200 NVL72.

LLMsActu
1 source
☕️ SpaceX aurait courtisé Mistral avant son deal avec Cursor
69Next INpact 

☕️ SpaceX aurait courtisé Mistral avant son deal avec Cursor

SpaceX négocie l'acquisition de Cursor pour 60 milliards de dollars, avec une clause de rupture fixée à 10 milliards si l'accord venait à échouer. Mais avant de se focaliser sur ce deal, xAI, la filiale IA d'Elon Musk désormais fusionnée avec SpaceX, avait envisagé une tout autre stratégie : un partenariat à trois impliquant à la fois Cursor et la startup française Mistral AI. Selon Business Insider, ces discussions auraient eu lieu au plus haut niveau de l'entreprise, Elon Musk lui-même ayant porté l'idée d'une collaboration tripartite pour rivaliser directement avec Anthropic et OpenAI sur le terrain des outils de codage assisté par IA. En parallèle, Microsoft aurait également examiné un rachat potentiel de Cursor avant de décider de ne pas formuler d'offre, selon des sources de CNBC. L'enjeu est considérable : le marché des assistants de code IA est en pleine explosion et SpaceX accuse un retard significatif. Michael Nicolls, président de xAI et dirigeant de SpaceX, le reconnaissait lui-même dans un mémo interne début avril, estimant que son entreprise était « clairement en retard » face à la concurrence. En face, les chiffres parlent d'eux-mêmes : GitHub Copilot de Microsoft revendique 4,7 millions d'utilisateurs payants, soit une hausse de 75 % sur un an selon le CEO Satya Nadella, tandis que Codex d'OpenAI vient d'atteindre 4 millions d'utilisateurs actifs, gagnant un million en deux semaines seulement. Cursor, avec son positionnement d'éditeur de code natif IA, représente pour SpaceX une voie d'entrée rapide dans ce segment sans avoir à construire de zéro. L'intérêt porté à Mistral s'explique en partie par les liens déjà tissés entre les deux organisations : Devendra Chaplot, membre fondateur de Mistral AI et cocréateur de ses premiers modèles de langage, a rejoint xAI où il supervise aujourd'hui l'entraînement des LLM. Ce rapprochement illustre la guerre des talents et des actifs technologiques qui structure désormais l'industrie IA, où les grandes entreprises cherchent à consolider rapidement des capacités en matière de modèles et d'interfaces développeurs. L'acquisition de Cursor permettrait à SpaceX de s'implanter directement dans les workflows des ingénieurs logiciels, un segment stratégique que Codex d'OpenAI ambitionne également de dominer dans le cadre de sa future « superapp ». La bataille pour capter les développeurs professionnels, nouveau terrain de jeu des géants de l'IA, ne fait que commencer.

UEMistral AI, fleuron français de l'IA européenne, se retrouve au cœur des manœuvres d'acquisition américaines, soulevant des questions directes sur la souveraineté technologique européenne et le risque de captation d'un champion national par xAI/SpaceX.

💬 Musk voulait Mistral dans le deal, et c'est le détail qui retient mon attention. Ça confirme que les modèles français ont une valeur concrète sur le marché américain, pas juste sur le papier de la souveraineté numérique. Reste à voir combien de temps Mistral peut jouer dans cette cour sans finir absorbé.

BusinessActu
1 source
OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex
70MarkTechPost 

OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex

OpenAI a publié en open source Euphony, un outil de visualisation fonctionnant directement dans le navigateur, conçu pour transformer des données de conversation structurées en vues interactives lisibles. L'outil prend en charge deux formats propriétaires d'OpenAI : les conversations au format Harmony et les fichiers de session Codex au format JSONL. Euphony peut ingérer ces données de trois manières : en collant du JSON directement depuis le presse-papiers, en chargeant un fichier local, ou en pointant vers une URL publique, y compris des datasets hébergés sur Hugging Face. Une fois les données chargées, l'outil détecte automatiquement le format et rend une timeline de conversation navigable, avec un panneau d'inspection des métadonnées, un mode grille pour parcourir rapidement de grands datasets, un mode édition pour modifier le contenu JSONL dans le navigateur, et un filtrage basé sur JMESPath pour interroger les structures JSON complexes. Ce problème est concret pour quiconque travaille avec des agents IA multi-étapes : un agent Codex qui lit des fichiers, appelle des API, génère du code et révise ses propres sorties peut produire des centaines de lignes de JSON brut, où tokens bruts, chaînes décodées et métadonnées structurées s'entremêlent. Sans outillage dédié, retracer ce que le modèle faisait à chaque étape revient à reconstituer un puzzle sans image de référence. Euphony répond directement à ce besoin en rendant exploitable une richesse de données qui jusqu'ici restait enfouie dans des fichiers difficilement lisibles à l'œil nu. Pour les équipes d'évaluation et de fine-tuning, la possibilité d'inspecter des champs de métadonnées par conversation, scores, sources, labels, directement dans l'interface représente un gain de productivité significatif. Le contexte technique éclaire pourquoi cet outil était nécessaire. Le format Harmony, utilisé pour entraîner la série de modèles open-weight gpt-oss d'OpenAI, est structurellement plus riche qu'un format de chat standard : il supporte des sorties multi-canaux (raisonnement, appels d'outils, réponses normales dans une même conversation), des hiérarchies d'instructions basées sur les rôles (system, developer, user, assistant) et des namespaces d'outils nommés. Cette richesse est précieuse pour l'entraînement et l'évaluation, mais elle rend l'inspection manuelle particulièrement pénible. Euphony est disponible en deux modes : un mode purement frontend sans dépendance serveur, activé via la variable d'environnement VITEEUPHONYFRONTEND_ONLY=true, et un mode assisté par un serveur FastAPI local qui gère le chargement de datasets volumineux et le rendu Harmony côté backend. L'outil est également conçu pour être intégré comme composant web dans d'autres applications, ce qui ouvre la voie à une adoption dans des pipelines d'évaluation ou des interfaces internes d'équipes IA.

OutilsOutil
1 source
71Latent Space 

Anthropic Claude Opus 4.7 : une longueur d'avance sur 4.6 dans chaque dimension

Anthropic a lancé Claude Opus 4.7 le jeudi 14 avril 2026, positionnant ce nouveau modèle comme une amélioration nette et systématique par rapport à son prédécesseur Opus 4.6 sur l'ensemble des dimensions mesurées. Le tarif reste inchangé à 5 dollars par million de tokens en entrée et 25 dollars par million en sortie. La progression est quantifiable : le niveau d'effort 4.7-low surpasse le 4.6-medium, le 4.7-medium dépasse le 4.6-high, et le 4.7-high efface le 4.6-max. Anthropic introduit par ailleurs un nouveau palier d'effort baptisé "xhigh", immédiatement adopté comme niveau par défaut dans Claude Code. Sur SWE-Bench Pro, le benchmark de référence pour l'évaluation des agents de développement, Claude Code gagne 11 points. La vision est également revue en profondeur : Opus 4.7 accepte désormais des images jusqu'à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la résolution supportée par les versions précédentes. Ces améliorations ont des répercussions concrètes pour plusieurs catégories d'utilisateurs professionnels. Les développeurs utilisant Claude Code bénéficient immédiatement du gain de performance en programmation, avec une meilleure gestion des tâches longues, un suivi plus précis des instructions et une auto-vérification renforcée avant de répondre. La résolution d'image étendue ouvre des cas d'usage auparavant impossibles : agents d'utilisation de l'ordinateur lisant des captures d'écran denses, extraction de données depuis des schémas complexes, travail nécessitant des références pixel par pixel. Autre point notable sur l'économie des tokens : malgré un nouveau tokenizer qui peut générer jusqu'à 35 % de tokens supplémentaires sur un même texte, les gains d'efficacité de raisonnement sont suffisants pour réduire la consommation totale de tokens de jusqu'à 50 % par rapport aux niveaux équivalents de la génération précédente. Anthropic lance également en bêta publique un système de "task budgets", un outil /ultrareview dans Claude Code, et un accès élargi au mode Auto pour les abonnés Claude Code Max. Ce lancement s'inscrit dans une séquence de publications majeures qui rythment le marché de l'IA depuis début 2026. OpenAI avait publié le même jour GPT-Rosalind et une nouvelle version de Codex, mais la trajectoire d'Anthropic a capté l'essentiel de l'attention technique. La communauté débat encore du statut exact d'Opus 4.7 : successeur direct d'Opus 4.6, modèle sur nouvelle base d'entraînement, ou système partiellement distillé depuis une architecture interne de plus grande taille ? Le nouveau tokenizer découvert par plusieurs chercheurs alimente cette interrogation sur la nature des changements en préentraînement. Les semaines à venir permettront de mesurer si les gains de benchmark se traduisent en gains réels dans les usages quotidiens des développeurs et des entreprises qui intègrent Claude dans leurs produits.

UELes développeurs et entreprises européennes intégrant Claude via l'API bénéficient immédiatement des gains de performance et de la réduction de consommation de tokens, sans surcoût tarifaire.

💬 Le même prix, et chaque palier 4.7-low dépasse le 4.6-medium, le 4.7-medium écrase le 4.6-high. C'est le genre de saut qu'on attendait. Sur le tokenizer qui génère 35% de tokens supplémentaires, Anthropic annonce -50% de consommation globale en raisonnement, mais bon, faut voir ce que ça donne sur de vrais contextes longs avant de se réjouir.

LLMsActu
1 source
Le duel Anthropic-OpenAI s’accélère, quel impact pour les investisseurs en 2026 ?
72Le Big Data 

Le duel Anthropic-OpenAI s’accélère, quel impact pour les investisseurs en 2026 ?

Anthropic a franchi le seuil des 30 milliards de dollars de revenus annualisés en avril 2026, dépassant ainsi OpenAI qui affiche environ 24 à 25 milliards selon les dernières estimations. Cette progression fulgurante repose en grande partie sur Claude Code, l'outil d'agent de codage développé par la startup, qui lui a permis de capter près d'un tiers des clients entreprise américains en mars 2026. En seulement quelques mois, Anthropic est passé de 9 milliards de dollars de revenus annualisés fin 2025 à plus de 30 milliards, soit une croissance de plus de 230 % en moins d'un an. Les deux entreprises, dont les revenus combinés dépassent désormais 50 milliards de dollars annualisés, préparent toutes deux une entrée en bourse prévue pour le second semestre 2026, ce qui en fait les deux IPO technologiques les plus attendues du moment. Ce duel redessine les priorités de tout le secteur. La clé de la croissance d'Anthropic réside dans sa concentration sur les usages professionnels, qui génèrent une consommation de tokens bien plus élevée que les applications grand public. Un nombre restreint d'entreprises clientes peut ainsi produire davantage de revenus qu'une large base d'utilisateurs occasionnels. OpenAI, longtemps porté par le succès massif de ChatGPT, ajuste désormais sa stratégie en réponse : l'entreprise met l'accent sur Codex et ses outils orientés développeurs, cherchant à maximiser la valeur générée par utilisateur plutôt que le volume d'adoption. Pour les investisseurs, cela signifie que la rentabilité par usage prime désormais sur la popularité brute, un changement de paradigme qui redéfinit les critères de valorisation dans l'ensemble de l'industrie. La rivalité entre les deux acteurs dépasse cependant le seul terrain commercial. Selon des analyses relayées par le Wall Street Journal, OpenAI aurait alerté ses propres investisseurs sur la dynamique concurrentielle d'Anthropic, signe d'une tension croissante entre les deux laboratoires. Cette guerre d'influence a déjà eu des répercussions sur les marchés : la montée en puissance d'Anthropic aurait contribué à une chute de près de 1 000 milliards de dollars de valorisation dans certains segments logiciels en février 2026. Les comparaisons financières directes restent toutefois complexes, des investisseurs comme ceux de Khosla Ventures soulignant que les méthodes comptables des deux entreprises divergent, notamment sur le traitement des commissions versées aux fournisseurs cloud. Alors que les deux IPO approchent, les capitaux disponibles risquent de se concentrer sur ces deux pôles dominants, laissant moins d'espace pour le reste de l'écosystème IA.

UELes deux IPO prévues au second semestre 2026 risquent de concentrer les capitaux disponibles autour d'Anthropic et OpenAI, réduisant les opportunités de financement pour les startups IA européennes.

💬 C'est Claude Code qui a renversé la table, pas une nouvelle version de modèle ou un lancement en fanfare. Des clients enterprise qui font tourner des agents toute la journée génèrent des revenus qu'une base de millions d'abonnés à 20 euros ne peut pas suivre, et ça, OpenAI l'a compris trop tard. Pour les startups IA en Europe, deux IPOs à 50 milliards cumulés vont concentrer les capitaux comme on n'a pas vu depuis longtemps.

BusinessOpinion
1 source
Les capacités offensives de l'IA en cybersécurité doublent tous les six mois, selon des chercheurs
73The Decoder 

Les capacités offensives de l'IA en cybersécurité doublent tous les six mois, selon des chercheurs

Les capacités offensives des modèles d'intelligence artificielle en matière de cybersécurité progressent à un rythme alarmant. Selon une étude publiée par des chercheurs en sécurité de l'IA, ces capacités doublent tous les 5,7 mois depuis 2024. Des modèles comme Opus 4.6 et GPT-5.3 Codex sont désormais capables de résoudre des tâches d'exploitation de vulnérabilités qui nécessitaient auparavant environ trois heures de travail à des experts humains chevronnés. Cette accélération représente un changement de paradigme pour l'ensemble de l'industrie de la cybersécurité. Des attaques qui exigeaient jusqu'ici des compétences pointues, du temps et des ressources humaines importantes pourraient bientôt être automatisées à grande échelle et à faible coût. Cela signifie que les organisations, des PME aux infrastructures critiques, font face à une surface d'attaque qui s'élargit plus vite que leur capacité à se défendre. La barrière d'entrée pour mener des cyberattaques sophistiquées s'effondre. Ce constat s'inscrit dans un débat plus large sur la double nature des modèles de langage avancés, à la fois outils de défense et vecteurs de menace potentiels. Depuis 2023, plusieurs laboratoires d'IA, dont Anthropic et OpenAI, ont mis en place des politiques d'évaluation des risques cybernétiques avant tout déploiement de nouveaux modèles. La progression exponentielle documentée ici renforce les arguments de ceux qui plaident pour un encadrement réglementaire strict des capacités offensives des IA, un sujet qui devrait peser lourd dans les prochaines discussions au niveau européen et américain.

UELa progression exponentielle documentée renforce les arguments pour un encadrement réglementaire strict des capacités offensives des IA, un sujet qui pèsera dans les prochaines discussions législatives européennes.

💬 Doubler tous les 5,7 mois, c'est pas une métaphore, c'est une courbe qui va quelque part de précis. Ce qui me frappe, c'est pas que l'IA puisse faire ce que faisait un expert en 3 heures, c'est que la prochaine itération fera ce que faisait un expert en 3 jours. Les régulateurs ont les yeux rivés sur aujourd'hui pendant que le truc accélère sous leurs pieds.

SécuritéActu
1 source
Codex propose désormais une tarification plus flexible pour les équipes
74OpenAI Blog 

Codex propose désormais une tarification plus flexible pour les équipes

OpenAI a annoncé l'ajout d'une option de facturation à l'usage pour Codex, son agent de programmation, disponible désormais pour les abonnés ChatGPT Business et Enterprise. Ce modèle tarifaire vient compléter les formules d'abonnement existantes et permet aux équipes de ne payer que ce qu'elles consomment réellement, sans engagement forfaitaire fixe. Ce changement facilite concrètement l'adoption de Codex dans les entreprises qui hésitaient à s'engager sur un abonnement avant d'évaluer leur usage réel. Les équipes de développement peuvent désormais tester l'outil à petite échelle, mesurer le retour sur investissement, puis augmenter progressivement leur consommation sans friction tarifaire. C'est particulièrement pertinent pour les grandes organisations où les déploiements se font par étapes et nécessitent des validations budgétaires successives. Codex s'inscrit dans la stratégie d'OpenAI pour conquérir le marché des outils de développement, en concurrence directe avec GitHub Copilot (Microsoft), Cursor et Claude d'Anthropic. La tarification à l'usage est devenue un standard dans ce secteur, les entreprises préférant une corrélation directe entre coût et valeur produite. Cette flexibilité tarifaire devrait accélérer la pénétration de Codex dans les équipes techniques enterprise, segment où la friction à l'adoption reste le principal frein.

UELes équipes de développement européennes abonnées à ChatGPT Business ou Enterprise peuvent désormais adopter Codex sans engagement forfaitaire, réduisant la friction budgétaire pour les DSI soumis à des cycles de validation stricts.

OutilsOutil
1 source
7501net 

OpenAI va regrouper ChatGPT, Atlas et Codex dans une « super appli »unifiée

OpenAI prévoit de fusionner trois de ses applications — ChatGPT, le navigateur web Atlas et l'outil de codage Codex — en une seule application de bureau unifiée. Cette « super appli » regroupera ainsi les fonctionnalités de chat, navigation et génération de code au sein d'une interface unique.

OutilsOutil
1 source
76Frandroid 

OpenAI veut créer une « super-app » en fusionnant ChatGPT, Atlas, Sora et Codex au sein d’un seul et même logiciel

OpenAI envisage de fusionner ses principaux services — ChatGPT, Atlas, Sora et Codex — en une seule "super-app" unifiée. Cette décision stratégique intervient dans un contexte de concurrence accrue avec Anthropic. L'objectif est de regrouper l'ensemble de l'offre d'OpenAI au sein d'une unique application.

BusinessActu
1 source
Codex Security : disponible en prévisualisation de recherche
77OpenAI Blog 

Codex Security : disponible en prévisualisation de recherche

Codex Security, un agent de sécurité d'applications basé sur l'IA, propose actuellement une version en prévisualisation de recherche. Il analyse le contexte des projets pour identifier, valider et corriger des vulnérabilités complexes avec une plus grande confiance et moins de faux positifs.

UELe Codex Security, un agent de sécurité d'applications basé sur l'IA en prévisualisation, pourrait aider les entreprises françaises comme Orange, BNP Paribas ou Capgemini à améliorer la détection et la correction de vulnérabilités, en conformité potentielle avec l'AI Act, en réduisant les faux positifs et en renforçant la cybersécurité dans les secteurs bancaire et télécoms.

RégulationOutil
1 source
OpenAI Codex et Figma lancent une expérience code-design fluide
78OpenAI Blog 

OpenAI Codex et Figma lancent une expérience code-design fluide

OpenAI et Figma ont lancé une intégration Codex qui permet aux équipes de passer facilement entre le code et le canevas Figma, facilitant ainsi l'itération et le déploiement rapide. Cette collaboration vise à améliorer la collaboration entre développeurs et designers.

OutilsOutil
1 source
Au-delà des limites de vitesse : l'échelle d'accès à Codex et Sora
79OpenAI Blog 

Au-delà des limites de vitesse : l'échelle d'accès à Codex et Sora

OpenAI a développé un système en temps réel combinant limites de débit, suivi d'utilisation et crédits pour assurer un accès continu à Codex et Sora. Ce système permet d'élargir l'accès à ces outils tout en gérant efficacement la demande.

OutilsActu
1 source
Kernels Personnalisés pour Tous, grâce à Codex et Claude
80HuggingFace Blog 

Kernels Personnalisés pour Tous, grâce à Codex et Claude

Titre: Puces personnalisées pour tous, grâce à Codex et Claude Résumé: Codex, issu de OpenAI, et Claude, développé par Anthropic, offrent désormais des noyaux personnalisables pour améliorer les performances des systèmes d'IA, permettant aux utilisateurs de moduler les paramètres en fonction de leurs besoins spécifiques.

UECodex et Claude, deux IA avancées, facilitent l'accès aux noyaux personnalisables pour améliorer les systèmes d'IA, impactant potentiellement les entreprises françaises et européennes telles qu'OVHcloud, en les aidant à optimiser leurs services cloud, tout en respectant les réglementations strictes comme le RGPD.

RobotiqueOutil
1 source
Présentation de GPT-5.3-Codex-Spark
81OpenAI Blog 

Présentation de GPT-5.3-Codex-Spark

Le GPT-5.3-Codex-Spark, premier modèle de codage en temps réel, offre une génération 15 fois plus rapide et un contexte de 128 000 tokens. Disponible en version de recherche préliminaire, il s'adresse aux utilisateurs de ChatGPT Pro.

LLMsOutil
1 source
Ingénierie des harnais : exploiter Codex dans un monde axé sur l'agent
82OpenAI Blog 

Ingénierie des harnais : exploiter Codex dans un monde axé sur l'agent

L'article aborde l'utilisation de Codex, un outil d'IA développé par Google, dans le contexte de l'ingénierie des harnais, en mettant l'accent sur son rôle dans un environnement axé sur les agents. Il discute des avantages de Codex pour générer et manipuler du code, facilitant ainsi le travail des ingénieurs dans le développement et la maintenance des systèmes.

OutilsTuto
1 source
Carte du Système GPT-5.3-Codex : Règles Critiques
83OpenAI Blog 

Carte du Système GPT-5.3-Codex : Règles Critiques

GPT-5.3-Codex est le modèle de codage agentic le plus performant à ce jour, intégrant les capacités de codage avancées de GPT-5.2-Codex et les compétences en raisonnement et en connaissances professionnelles de GPT-5.2.

LLMsPaper
1 source
Présentation de GPT-5.3-Codex
84OpenAI Blog 

Présentation de GPT-5.3-Codex

Le GPT-5.3-Codex est un agent natif Codex qui combine une performance de codage de pointe avec une raison générale pour soutenir des travaux techniques à long terme dans le monde réel. Ce modèle vise à intégrer des capacités avancées de programmation avec des compétences de raisonnement pour des applications complexes.

LLMsOutil
1 source
Décodage de l'harnais Codex : comment nous avons construit le serveur d'application
85OpenAI Blog 

Décodage de l'harnais Codex : comment nous avons construit le serveur d'application

Découvrez comment intégrer l'agent Codex via le Codex App Server, une API JSON-RPC bidirectionnelle qui alimente le suivi en temps réel, l'utilisation d'outils, les approbations et les différences.

UEAucun impact direct — Cet article se concentre sur le développement technique d'un serveur d'application pour intégrer l'agent Codex, sans mentionner de cas spécifiques concernant des entreprises françaises ou européennes, des réglementations telles que l'AI Act ou le RGPD, des secteurs ou des opportunités/menaces concrètes pour la France ou l'Union Européenne.

RechercheOutil
1 source
Découvrez l'application Codex
86OpenAI Blog 

Découvrez l'application Codex

Présentation de l'application Codex pour macOS, un centre de commande pour le codage en langage AI et le développement de logiciels, permettant la gestion de multiples agents, de flux de travail parallèles et de tâches à long terme.

UEL'application Codex, destinée à macOS, pourrait aider les développeurs français et européens à optimiser leurs processus de codage en langage AI, en gérant efficacement plusieurs agents, flux de travail parallèles et tâches à long terme, ce qui pourrait également potentiellement se conformer aux exigences de protection des données du RGPD.

OutilsOutil
1 source
Déroulement du cycle d'agent du Codex
87OpenAI Blog 

Déroulement du cycle d'agent du Codex

L'article explique comment le Codex CLI orchestre les modèles, outils, prompts et performances via l'API Responses. Il détaille les mécanismes techniques du Codex agent loop, mettant en avant le rôle central de l'API dans la coordination des composants du système.

OutilsTuto
1 source
Datadog emploie Codex pour des revue de code au niveau du système
88OpenAI Blog 

Datadog emploie Codex pour des revue de code au niveau du système

Datadog utilise Codex, un outil développé par OpenAI, pour effectuer des revues de code au niveau système. Cette collaboration vise à améliorer la qualité et la sécurité du code en automatisant l'analyse technique.

OutilsActu
1 source
Complément au carton du système GPT-5.2 : GPT-5.2-Codex
89OpenAI Blog 

Complément au carton du système GPT-5.2 : GPT-5.2-Codex

Cet addendum décrit les mesures de sécurité exhaustives mises en place pour GPT-5.2-Codex, incluant une formation spécialisée au risque pour les tâches nuisibles et l'injection de requêtes, ainsi que des mesures au niveau du produit comme le panning du système d'agent et l'accès réseau configurables.

RégulationOutil
1 source
Présentation de GPT-5.2-Codex
90OpenAI Blog 

Présentation de GPT-5.2-Codex

OpenAI a présenté GPT-5.2-Codex, son modèle de codage le plus avancé, capable de raisonnement à long terme, de transformations de code à grande échelle et de capacités renforcées en cybersécurité.

LLMsOutil
1 source
Présentation de GPT-5.2-Codex
91OpenAI Blog 

Présentation de GPT-5.2-Codex

GPT-5.2-Codex, le modèle de codage le plus avancé d'OpenAI, intègre un raisonnement à long terme, des transformations de code à grande échelle et des capacités de cybersécurité renforcées. Il marque une avancée significative dans le domaine de l'intelligence artificielle appliquée au développement logiciel.

LLMsOutil
1 source
Comment nous avons utilisé Codex pour livrer Sora pour Android en 28 jours
92OpenAI Blog 

Comment nous avons utilisé Codex pour livrer Sora pour Android en 28 jours

OpenAI a déployé Sora pour Android en 28 jours grâce à l'utilisation de Codex. L'aide de l'IA pour la planification, la traduction et le codage parallèle a permis à une équipe agile de livrer un développement rapide et fiable.

UEOpenAI a utilisé Codex pour déployer Sora pour Android en 28 jours, illustrant l'efficacité de l'IA pour la planification, la traduction et le codage parallèle, bénéficiant ainsi aux entreprises françaises et européennes de développement de logiciels rapides et fiables en conformité avec le RGPD et l'AI Act.

RechercheOutil
1 source
Construire encore plus avec GPT-5.1-Codex-Max" se traduit en français par "Construire encore plus avec GPT-5.1-Codex-Max".
93OpenAI Blog 

Construire encore plus avec GPT-5.1-Codex-Max" se traduit en français par "Construire encore plus avec GPT-5.1-Codex-Max".

Présentation du modèle de codage GPT-5.1-Codex-Max, plus rapide et intelligent, conçu pour Codex. Ce modèle est optimisé pour des projets à long terme, avec un raisonnement amélioré et une gestion plus efficace des tokens.

LLMsOutil
1 source
Fiche Système GPT-5.1-Codex-Max
94OpenAI Blog 

Fiche Système GPT-5.1-Codex-Max

Le système GPT-5.1-CodexMax intègre des mesures de sécurité à deux niveaux : des formations spécialisées pour atténuer les tâches nuisibles et les injections de prompts au niveau du modèle, ainsi que des protections comme le sandboxing des agents et l'accès réseau configurable au niveau du produit.

LLMsActu
1 source
Le Codex est désormais disponible généralement
95OpenAI Blog 

Le Codex est désormais disponible généralement

OpenAI Codex est désormais disponible en version générale, avec de nouvelles fonctionnalités pour les développeurs : une intégration avec Slack, un SDK Codex et des outils d'administration comme les tableaux de bord d'utilisation et la gestion des espaces de travail. Ces améliorations facilitent son utilisation et sa gestion à grande échelle.

LLMsOutil
1 source
Codex passe à la vitesse supérieure avec GPT‑5-Codex
96ActuIA 

Codex passe à la vitesse supérieure avec GPT‑5-Codex

Codex a été mis à jour avec GPT-5-Codex, développé par OpenAI, offrant une vitesse et une performance accrues. Ce modèle améliore la génération de code et la résolution de problèmes complexes, marquant une avancée majeure dans l'intelligence artificielle appliquée au développement logiciel.

LLMsActu
1 source
Présentation des mises à jour de Codex
97OpenAI Blog 

Présentation des mises à jour de Codex

Codex a été amélioré pour devenir plus rapide, fiable et efficace dans la collaboration en temps réel ainsi que dans l'exécution autonome de tâches, fonctionnant désormais sur divers environnements comme le terminal, les IDE, le web et les téléphones.

LLMsOutil
1 source
Complément au bilan du système GPT-5 : GPT-5-Codex
98OpenAI Blog 

Complément au bilan du système GPT-5 : GPT-5-Codex

Cet addendum présente GPT-5-Codex, une version optimisée de GPT-5 pour des tâches de codage agissant via Codex. Le modèle s'adapte dynamiquement à la complexité des tâches, répondant rapidement aux requêtes simples conversationnelles ou petites, tout en travaillant indépendamment sur des tâches plus complexes pendant plus longtemps.

UEL'impact concret pour la France et l'UE serait l'amélioration potentielle de l'efficacité et de la productivité dans les secteurs de l'informatique et du développement logiciel grâce à l'utilisation de GPT-5-Codex, tout en veillant à ce que le respect des lois sur la protection des données comme le RGPD soit maintenu.

RobotiqueOutil
1 source
Présentation de Codex
99OpenAI Blog 

Présentation de Codex

Présentation de Codex, un agent de développement logiciel basé sur le cloud, capable de gérer plusieurs tâches en parallèle grâce à codex-1. Les développeurs peuvent déployer simultanément plusieurs agents pour traiter indépendamment des tâches de codage, comme écrire des fonctionnalités, répondre à des questions sur le code source, corriger des bogues et proposer des requêtes de fusion pour examen.

OutilsOutil
1 source
Complément au système de carte mini o3 et o4: Codex
100OpenAI Blog 

Complément au système de carte mini o3 et o4: Codex

Codex est un agent de codage basé sur le cloud, alimenté par codex-1, une version optimisée pour l'ingénierie logicielle de l'OpenAI o3. Codex-1 a été formé via l'apprentissage par renforcement sur des tâches de codage réelles dans diverses environnements pour produire du code semblable au style humain et aux préférences de PR, suivant précisément les instructions et exécutant des tests itérativement jusqu'à obtenir des résultats de réussite.

RechercheOutil
1 source