Aller au contenu principal

Dossier Codex — page 3

215 articles · page 3 sur 5

Codex, l'environnement de développement d'OpenAI : intégration NVIDIA, plugins Slack/Figma/Notion, plateforme agentique enterprise.

Omio accélère son développement produit voyage avec les modèles OpenAI
101AI News OutilsOutil

Omio accélère son développement produit voyage avec les modèles OpenAI

Omio, plateforme de voyage multimodale opérant avec plus de 3 000 transporteurs dans 47 pays, a intégré les modèles OpenAI à l'ensemble de ses opérations d'ingénierie pour accélérer radicalement le développement de ses produits. L'entreprise a d'abord déployé ChatGPT en accès libre à tous ses employés, avant d'embarquer OpenAI Codex directement dans le cycle de développement logiciel, de la recherche préliminaire à la maintenance système, en passant par la conception architecturale, le codage, les tests automatisés et la revue de code. Des connecteurs internes sur mesure relient les environnements de données propriétaires à ces outils, permettant aux développeurs de sauter l'étape de recherche d'information pour passer directement à l'exécution. En 2023, Omio a aussi lancé l'une des premières interfaces de réservation conversationnelle du secteur, en connectant les modèles OpenAI à son inventaire de transport en temps réel, trains, bus, ferries, vols, permettant aux utilisateurs de formuler des requêtes en langage naturel comme "le trajet le plus rapide de Rome à Florence" et d'obtenir des itinéraires directement réservables. L'impact sur la productivité est saisissant : selon les analyses internes d'Omio, l'effort technique nécessaire pour construire un produit donné ne représente plus que 20 % de ce qu'il était auparavant. Des projets qui mobilisaient plusieurs développeurs pendant un trimestre entier se réalisent désormais avec un seul ingénieur en un mois environ. Cette compression des délais transforme la façon dont l'entreprise alloue ses ressources : il est désormais possible de prototyper rapidement, de tester la demande réelle des utilisateurs à moindre coût, et d'éliminer les fonctionnalités non viables avant d'engager une production à pleine échelle. Les équipes techniques itèrent sur les produits existants à une cadence bien plus élevée, déployant mises à jour et nouvelles interfaces en production à un rythme accéléré. La démarche d'Omio illustre une ambition plus radicale que la simple adoption d'outils IA. Son directeur technique, Tomas Vocetka, impose à chaque fonction interne de repenser entièrement ses modes opératoires pour fonctionner comme une entreprise nativement IA, et non de se contenter d'ajouter une couche technologique à des processus existants inchangés. Cette philosophie s'étend désormais au-delà des équipes techniques : la direction déploie Codex dans les fonctions non-techniques de l'organisation. Dans un secteur du voyage historiquement fragmenté, où les utilisateurs devaient naviguer entre de multiples sites pour comparer modes de transport et assembler manuellement leurs itinéraires, l'intégration conversationnelle d'Omio positionne la plateforme comme un guichet unique capable d'interpréter l'intention du voyageur et de répondre avec des options ancrées dans les prix et disponibilités en temps réel.

UEOmio, entreprise européenne présente en France, illustre comment l'intégration profonde d'outils IA peut multiplier par cinq la vitesse de développement produit dans le secteur du voyage, susceptible d'influencer les pratiques des acteurs européens du tourisme numérique.

1 source
Enregistrer une compétence
102Ben's Bites 

Enregistrer une compétence

OpenAI a dévoilé une fonctionnalité majeure pour son agent de code Codex : le mode Record & Replay, qui permet de montrer au système un flux de travail répétitif une seule fois, comme remplir une note de frais ou soumettre une demande de congé, pour qu'il le transforme automatiquement en une compétence réutilisable, inspectable et modifiable. Dans le même élan, Anthropic a annoncé que Claude Code supporte désormais les Artefacts, des pages HTML interactives partageables pouvant servir de tableaux de bord de projet ou de récapitulatifs de pull requests, disponibles en bêta pour les plans Team et Enterprise. OpenAI a également élargi Daybreak, son programme de cybersécurité, avec une nouvelle version de GPT-5.5-Cyber réservée à ses partenaires de confiance, capable de reproduire davantage de vulnérabilités que son prédécesseur, ainsi qu'avec Patch the Planet, une initiative pour accélérer la correction de failles dans les logiciels open source. De son côté, Sakana AI a lancé Fugu, une API qui orchestre plusieurs modèles sur des tâches complexes et revendique un score de 73,7 sur SWE-bench Pro et 82,1 sur TerminalBench 2.1, des performances proches de Fable, même si des lacunes subsistent en usage réel. Ces annonces illustrent une tendance de fond : les outils d'IA passent du stade de l'assistant ponctuel à celui d'un système d'automatisation durable. La fonctionnalité Record & Replay de Codex réduit concrètement la friction pour les équipes qui gèrent des processus administratifs ou métiers répétitifs, sans exiger de compétences en programmation. Les Artefacts de Claude Code ouvrent la voie à une collaboration plus riche entre développeurs, en rendant les livrables de l'IA directement partageables. Pour la cybersécurité, l'extension de Daybreak signale qu'OpenAI positionne ses modèles comme des outils offensifs et défensifs à part entière pour les professionnels du secteur. Ces développements s'inscrivent dans une semaine particulièrement dense pour l'écosystème de l'IA générative. L'API Interactions de Google est passée en disponibilité générale, unifiant accès aux modèles et aux agents sous une même interface. GPT-5.5 Instant a amélioré ses performances sur les questions médicales, atteignant le niveau des meilleurs modèles de raisonnement d'OpenAI selon l'entreprise. Perplexity Computer a intégré un système de mémoire baptisé Brain. Stripe a ouvert un répertoire permettant aux agents de rechercher et de payer des services directement depuis la ligne de commande. ElevenLabs, enfin, a lancé un moteur publicitaire capable de localiser des spots dans plus de 50 langues. La vitesse à laquelle ces capacités s'accumulent suggère que 2026 marque un tournant dans l'autonomie réelle des agents, avec des workflows complets désormais déléguables de bout en bout.

UECes outils (Codex Record & Replay, Claude Code Artifacts, API Fugu, annuaire Stripe pour agents) sont immédiatement accessibles aux développeurs et entreprises européens, mais aucune annonce ne cible spécifiquement la France ou l'Union européenne.

💬 Record & Replay de Codex, c'est le truc qui résume tout : tu montres une fois, ça devient une compétence durable. C'est le passage du copilote ponctuel à l'automatisation métier réelle, sans ligne de code à écrire. Reste à voir si ça tient sur des workflows un peu moins lisses que la note de frais modèle.

OutilsOutil
1 source
OpenAI affirme que GPT-5.5-Cyber surpasse Mythos d'Anthropic sur les benchmarks de cybersécurité
103The Decoder 

OpenAI affirme que GPT-5.5-Cyber surpasse Mythos d'Anthropic sur les benchmarks de cybersécurité

OpenAI a officiellement lancé GPT-5.5-Cyber, un modèle dédié à la cybersécurité qui surpasse selon la société le modèle Mythos d'Anthropic sur les benchmarks spécialisés du secteur. Ce lancement s'inscrit dans l'expansion de l'initiative Daybreak d'OpenAI, qui comprend désormais une version mise à jour du plugin Codex Security ainsi qu'un réseau de partenaires regroupant plus de 25 entreprises de sécurité et plusieurs gouvernements. Le changement de cap est significatif : là où les outils précédents se concentraient sur la détection de vulnérabilités, GPT-5.5-Cyber vise à les corriger automatiquement. Cette capacité de remédiation autonome représente un saut qualitatif pour l'industrie de la sécurité informatique, où le délai entre la découverte d'une faille et son colmatage constitue une fenêtre d'exposition critique. Pour les entreprises partenaires et les gouvernements impliqués, cela ouvre la voie à des cycles de défense beaucoup plus rapides, potentiellement en temps réel. La compétition entre OpenAI et Anthropic sur le terrain de la cybersécurité s'intensifie, chaque acteur cherchant à s'imposer auprès des grandes organisations gouvernementales et des entreprises critiques. OpenAI avait lancé Daybreak début 2025 pour structurer ses efforts dans ce domaine sensible, conscient que les modèles d'IA puissants représentent à la fois un outil défensif précieux et un vecteur d'attaque potentiel. La constitution d'un réseau de plus de 25 partenaires sécurité signale une volonté de déploiement industriel, et non plus seulement de démonstration technique.

UELes équipes sécurité et gouvernements européens partenaires pourraient bénéficier de cycles de remédiation automatisée plus rapides, mais aucune institution européenne n'est nommée parmi les 25+ partenaires officiels.

SécuritéOpinion
1 source
GPT-5.5-Cyber signe un score record en cybersécurité : le nouveau rival de Mythos ?
104Le Big Data 

GPT-5.5-Cyber signe un score record en cybersécurité : le nouveau rival de Mythos ?

OpenAI a publié le 22 juin 2026 GPT-5.5-Cyber, un modèle spécialisé en cybersécurité qui décroche un score de 85,6 % sur le benchmark CyberGym, développé par l'Université de Californie à Berkeley. Ce résultat lui permet de dépasser Mythos 5, le modèle d'Anthropic considéré jusqu'ici comme la référence du secteur, qui plafonne à 83,8 %. CyberGym n'est pas un test académique ordinaire : il s'appuie sur 1 507 vulnérabilités réelles issues de 188 projets open source, et évalue la capacité d'un modèle à détecter une faille, en comprendre l'origine et proposer un correctif adapté. Les versions précédentes de GPT-5.5 et Claude Opus 4.1 restent en retrait sur ce benchmark. L'écart de deux points entre GPT-5.5-Cyber et Mythos 5 reste modeste, mais il prend une signification particulière dans un domaine où chaque amélioration se traduit concrètement par des failles détectées ou manquées. OpenAI insiste sur le caractère strictement défensif du modèle : il ne sert pas à automatiser des attaques, mais à accompagner les équipes de sécurité dans des tâches répétitives et chronophages, suivre l'origine d'un code vulnérable, vérifier si une faille est exploitable, préparer les éléments pour une validation humaine. L'enjeu est de libérer les experts de l'analyse de bas niveau pour qu'ils se concentrent sur les décisions à haute valeur ajoutée. Le timing est également notable : Anthropic traverse une période de turbulences après que l'administration Trump a bloqué l'accès à ses modèles hors des États-Unis, ce qui fragilise temporairement la position de Mythos 5 sur le marché mondial. Cette annonce s'inscrit dans une stratégie plus large d'OpenAI autour de sa plateforme Daybreak, dédiée à la sécurisation des logiciels. La société y ajoute un plugin Codex Security pour détecter, valider et corriger des vulnérabilités directement dans Codex, ainsi qu'un Cyber Partner Program permettant à des entreprises spécialisées comme IBM d'intégrer GPT-5.5-Cyber dans leurs propres produits via un accès contrôlé. OpenAI poursuit également son initiative Patch the Planet, visant à aider les mainteneurs de logiciels open source à colmater des failles à grande échelle. La bataille des modèles spécialisés en cybersécurité s'intensifie donc sur deux fronts simultanément : la performance brute sur les benchmarks, et l'écosystème d'intégration qui détermine qui, concrètement, accède à ces capacités dans les outils professionnels du quotidien.

UELes équipes de sécurité européennes pourront accéder à GPT-5.5-Cyber via le Cyber Partner Program d'IBM, et le blocage des modèles Anthropic hors des États-Unis renforce la position d'OpenAI sur le marché européen de la cybersécurité professionnelle.

💬 Deux points d'écart, c'est peu, mais dans un domaine où chaque faille manquée peut coûter des millions, ça compte quand même. Ce qui me frappe davantage, c'est la stratégie de fond : Daybreak, le plugin Codex Security, le Cyber Partner Program avec IBM... OpenAI est en train de s'incruster dans tous les pipelines de sécurité professionnelle pendant qu'Anthropic se retrouve bloquée hors des États-Unis. Le timing est brutal pour Mythos.

SécuritéOpinion
1 source
Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance
105VentureBeat AI 

Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance

Des chercheurs du Shanghai Artificial Intelligence Laboratory ont présenté Self-Harness, un paradigme permettant à un agent basé sur un grand modèle de langage d'améliorer automatiquement ses propres règles de fonctionnement. Publiés récemment, ces travaux menés par Hangfan Zhang et son équipe montrent que ce système peut accroître les performances d'un agent de jusqu'à 60 % sans intervention humaine ni recours à un modèle externe plus puissant. Le principe repose sur une boucle itérative en trois étapes : l'agent analyse d'abord ses propres traces d'exécution pour identifier des schémas d'échec récurrents, génère ensuite des modifications ciblées et minimales de son environnement d'exécution, puis valide chaque modification par des tests de régression avant de l'adopter. Seules les modifications qui améliorent les performances sans dégrader d'autres tâches sont retenues. L'enjeu est considérable pour les équipes de développement qui déploient des agents IA en production. Un agent LLM ne dépend pas uniquement de son modèle sous-jacent, mais aussi de son "harness" : le système environnant qui comprend les prompts système, les outils disponibles, la mémoire, les politiques de relance et les procédures de récupération en cas d'erreur. Des exemples bien connus incluent SWE-agent, Claude Code, Codex et OpenHands. Or, de nombreuses défaillances d'agents proviennent précisément de cette couche, et non du modèle lui-même : un agent peut déclarer succès sans vérifier le résultat, relancer indéfiniment une action échouée, ou encore souffrir d'une surcharge de contexte lorsque l'historique d'interaction devient trop long. Self-Harness permet de corriger ces failles de manière empirique et reproductible, là où la pratique actuelle repose principalement sur l'intuition des ingénieurs. Ce travail s'inscrit dans un contexte où la cadence de sortie des nouveaux modèles rend le réglage manuel des harnesses de plus en plus coûteux et difficile à maintenir. Comme le souligne Hangfan Zhang, un ingénieur expérimenté peut encore proposer de meilleures améliorations qu'un LLM dans certains cas, mais le vrai goulot d'étranglement est l'absence de boucle de rétroaction systématique et vérifiable. Les approches existantes font souvent appel à des modèles plus puissants pour améliorer des modèles cibles plus faibles, ce qui pose des problèmes de coût, de disponibilité et d'inadaptation aux modes d'échec spécifiques. Self-Harness contourne cette dépendance en rendant l'agent autonome dans son propre perfectionnement, ouvrant la voie à des systèmes capables de s'adapter en continu à l'évolution rapide des modèles de langage sous-jacents.

RecherchePaper
1 source
Anthropic met à jour Claude Code Artifacts avec des tableaux de bord en temps réel et des espaces de travail collaboratifs pour les entreprises
106VentureBeat AI 

Anthropic met à jour Claude Code Artifacts avec des tableaux de bord en temps réel et des espaces de travail collaboratifs pour les entreprises

Anthropic a annoncé une nouvelle fonctionnalité majeure pour les abonnés Claude Team et Enterprise : les Artifacts pour Claude Code. Concrètement, cette mise à jour transforme une session de travail dans Claude Code en une page web HTML interactive, partageable en temps réel via une URL unique. Un ingénieur peut ainsi connecter plusieurs sources de données, du code en direct et des outils de monitoring, puis envoyer ce lien à ses collègues non techniques, responsables produit, managers, clients internes, qui voient la page se mettre à jour automatiquement au fur et à mesure que l'agent IA avance dans son travail. Chaque modification crée un historique de versions consultable, permettant de revenir en arrière ou de suivre la progression sur mobile comme sur desktop. Anthropic avait déjà introduit les Artifacts dans son chatbot grand public en été 2024, mais leur intégration dans l'interface en ligne de commande (CLI) et l'application desktop de Claude Code marque un tournant : l'outil passe du prototypage conversationnel au flux de travail d'ingénierie professionnel. L'impact le plus immédiat concerne la communication entre équipes techniques et non techniques. Jusqu'ici, un ingénieur qui voulait montrer l'avancement d'un chantier IA devait soit rédiger un compte-rendu manuel, soit organiser une démonstration live. Avec les Artifacts, le tableau de bord ou le prototype se construit directement depuis le contexte de la session, le dépôt de code, les outils connectés, les données existantes, sans infrastructure supplémentaire à mettre en place. La page s'actualise à la même URL sans rechargement, ce qui en fait un canal de reporting passif mais précis. Pour les entreprises qui déploient des agents autonomes sur des tâches longues, c'est une fenêtre d'observabilité sans friction pour les parties prenantes. Cette annonce intervient plus de deux semaines après qu'OpenAI a lancé une fonctionnalité similaire sur sa plateforme Codex, baptisée "Sites". La comparaison révèle deux philosophies opposées : OpenAI construit une plateforme applicative complète, avec bases de données relationnelles D1, stockage de fichiers R2, authentification externe et déploiement en production compatible Cloudflare Workers, en clair, un outil destiné à remplacer des SaaS internes. Anthropic fait le choix inverse et l'assume explicitement dans sa documentation : "An artifact is a capture of work, not an application." Chaque Artifact est une page HTML autonome, plafonnée à 16 Mo rendu, sans accès réseau externe grâce à une politique de sécurité stricte (CSP). Ce positionnement délibérément limité vise la lisibilité et la sécurité organisationnelle plutôt que la durabilité applicative, révélant une bataille de fond sur la définition même de ce que doit être un espace de travail IA en entreprise.

UELes entreprises européennes abonnées à Claude Team ou Enterprise peuvent immédiatement adopter cette fonctionnalité pour fluidifier le reporting entre équipes techniques et non techniques, sans infrastructure supplémentaire à déployer.

Les agents IA de codage trouvent le bon fichier mais passent à côté des lignes essentielles, selon une étude
107The Decoder 

Les agents IA de codage trouvent le bon fichier mais passent à côté des lignes essentielles, selon une étude

Les agents de codage dopés à l'intelligence artificielle, comme Claude Code d'Anthropic ou Codex d'OpenAI, souffrent d'un angle mort précis : ils localisent correctement le fichier contenant un bug, mais ratent la majorité des lignes critiques à l'intérieur de ce fichier. C'est ce que révèle SWE-Explore, un nouveau benchmark conçu spécifiquement pour évaluer la phase d'exploration du code, c'est-à-dire la recherche et la navigation dans une base de code, séparément de la phase de correction proprement dite. C'est une première dans l'évaluation des outils de développement automatisé. Ce découplage entre exploration et réparation change la façon d'interpréter les performances des agents de codage. Jusqu'ici, les benchmarks dominants comme SWE-bench mesuraient uniquement le résultat final : le bug est-il corrigé ou non ? SWE-Explore montre qu'un agent peut échouer non pas parce qu'il ne sait pas corriger le code, mais parce qu'il n'a pas identifié les bonnes lignes à modifier. Sans contexte suffisant, même le meilleur algorithme de correction produit un patch inutile. Les développeurs qui s'appuient sur ces outils en production s'exposent donc à des corrections en apparence valides mais ciblant les mauvaises sections. Ce travail s'inscrit dans une dynamique de remise en question des métriques utilisées pour comparer les agents de développement. L'industrie investit massivement dans ces outils, GitHub Copilot, Cursor, Devin, et les entreprises les vendent sur des taux de résolution de tickets. SWE-Explore suggère que ces chiffres masquent une faiblesse structurelle en amont : la compréhension fine d'une base de code existante reste un problème ouvert, et le résoudre conditionne tout le reste.

UELes développeurs français et européens qui s'appuient sur des agents de codage IA en production s'exposent à des corrections en apparence valides mais ciblant les mauvaises sections de code, une limite structurelle à évaluer avant tout usage professionnel critique.

💬 Ça explique des trucs que j'ai vécus : le patch arrive, il compile, les tests passent, et pourtant le bug est toujours là parce que l'agent a retouché le mauvais endroit. SWE-Explore met le doigt dessus avec rigueur, en séparant la phase de navigation de la phase de correction, ce qui n'avait jamais été fait proprement. Les éditeurs vont devoir intégrer ça dans leurs benchmarks marketing, parce que vendre sur des taux de résolution de tickets quand la moitié du problème est en amont, c'est se raconter des histoires.

RecherchePaper
1 source
SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné
108The Decoder 

SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné

Microsoft, en collaboration avec trois universités chinoises, a mis au point SkillOpt, une méthode d'optimisation des documents d'instructions pour agents IA. Le principe est aussi simple qu'inattendu : un fichier Markdown soigneusement entraîné suffit à améliorer les performances de GPT-5.5 d'environ 23 points sur des tâches procédurales. La technique emprunte ses fondements aux méthodes d'entraînement classiques des grands modèles de langage, mais les applique non pas aux poids du réseau, mais au texte des instructions elles-mêmes. L'impact potentiel est considérable pour les développeurs et les entreprises qui déploient des agents IA. Le fichier Markdown optimisé ne se limite pas à GPT-5.5 : il se transfère à d'autres environnements comme Codex et Claude Code sans nécessiter de réentraînement supplémentaire. Cela signifie qu'il est possible d'améliorer substantiellement les capacités d'un agent en modifiant uniquement ses instructions textuelles, sans toucher aux modèles sous-jacents ni engager les coûts élevés d'un fine-tuning. Cette recherche reflète une dynamique croissante dans le domaine : optimiser les agents IA au niveau de leurs instructions plutôt qu'au niveau des paramètres du modèle. À mesure que les agents prolifèrent dans les environnements de développement logiciel et d'automatisation, la question de leur pilotage efficace devient centrale. SkillOpt propose une réponse légère et portable, qui pourrait redéfinir la manière dont les équipes techniques configurent et affinent leurs systèmes d'agents, quelle que soit la plateforme utilisée.

UELes développeurs européens déployant des agents IA peuvent bénéficier de cette méthode sans coût de fine-tuning, mais aucune institution ou réglementation européenne n'est directement impliquée.

💬 +23 points sur des tâches procédurales juste en optimisant un fichier Markdown, c'est le genre de résultat qui te fait relire deux fois. Ce qui m'intéresse vraiment, c'est le transfert : tu entraînes ton fichier d'instructions sur GPT-5.5 et ça marche aussi sur Claude Code sans rien changer. Reste à voir ce que ça donne sur des cas moins balisés que les benchmarks, mais la piste est sérieuse.

RecherchePaper
1 source
Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA
109AI News 

Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA

Coinbase a lancé « Coinbase for Agents », une infrastructure permettant à des agents d'intelligence artificielle d'exécuter des transactions financières directement depuis des portefeuilles utilisateurs. Jusqu'à présent, les grands modèles de langage pouvaient analyser les marchés et formuler des recommandations, mais ils étaient incapables de passer des ordres de manière autonome. La plateforme comble ce fossé en proposant deux modes d'intégration : une interface en ligne de commande destinée aux environnements de développement comme Claude Code ou OpenAI Codex, et le protocole MCP (Model Context Protocol) pour les agents web tels que ChatGPT ou Claude Web, qui ne nécessite aucune clé API ni configuration locale. Un accès MCP distant via authentification unique est également annoncé prochainement. Les agents peuvent ainsi acheter, vendre, gérer des soldes et passer des ordres à cours limité, le tout dans des paramètres définis à l'avance par l'utilisateur. Concrètement, un gestionnaire de portefeuille peut programmer un agent pour maintenir une allocation cible, par exemple 60 % Bitcoin, 20 % Ethereum et 20 % Solana, sur plusieurs mois. L'agent surveille les cours en temps réel et place automatiquement des ordres d'achat lors de baisses de 5, 10 ou 15 % pour profiter des corrections de marché. Il peut également gérer les liquidités dormantes en les déployant pour générer des rendements. Autre cas d'usage illustré : un plan de dollar-cost averaging sur Ethereum, où l'agent analyse trente jours de données horaires, identifie les creux historiques de la journée, puis exécute un achat quotidien de 20 dollars pendant deux semaines à partir d'une seule instruction initiale. La plateforme supporte déjà le trading au comptant et sur dérivés, et prévoit d'étendre son offre aux fonds indiciels, actions d'entreprises, matières premières et marchés de prédiction. Ce lancement s'inscrit dans une dynamique plus large de financiarisation des agents IA. Coinbase avait introduit l'an dernier le protocole x402, un standard de paiement conçu spécifiquement pour les agents logiciels, leur permettant d'acheter de manière autonome des ressources de calcul, des modèles analytiques ou des données de marché propriétaires pour affiner leurs décisions. L'intégration de x402 à Coinbase for Agents étend ce mécanisme à un écosystème financier concret. Pour limiter les risques, les agents opèrent exclusivement dans des portefeuilles isolés, sans accès aux autres actifs de l'utilisateur. La course à « l'infrastructure agentique » s'intensifie, plusieurs acteurs cherchant à devenir le back-end financier de référence pour les agents autonomes, avec Coinbase en position avancée grâce à son infrastructure régulée et ses millions d'utilisateurs existants.

UECoinbase étant agréé sous le règlement MiCA dans l'UE, ce service de trading autonome par agents IA sera soumis aux régulations européennes sur les crypto-actifs, avec des implications pour les investisseurs français souhaitant automatiser leurs portefeuilles.

💬 C'est le vrai saut. Les agents IA qui conseillent de trader, ça existe depuis deux ans, mais là Coinbase leur donne les clés du portefeuille, dans des contraintes que tu fixes à l'avance, et c'est une autre affaire. Reste à voir ce qui se passe le jour où le marché fait un truc que le modèle n'avait pas vu venir.

OutilsOutil
1 source
☕️ OpenAI et Anthropic envisageraient de casser les prix des tokens
110Next INpact 

☕️ OpenAI et Anthropic envisageraient de casser les prix des tokens

OpenAI et Anthropic étudient sérieusement une réduction du prix des tokens, selon des informations rapportées par le Wall Street Journal. Sam Altman a lui-même reconnu lors d'un événement public que le coût du token constituait un « gros problème », affirmant qu'OpenAI cherchait des moyens de permettre à ses clients « d'en faire plus tout en dépensant moins ». Le patron d'OpenAI anticiperait notamment une baisse des prix chez son rival Anthropic, dont l'outil Claude Code est devenu un incontournable dans de nombreuses équipes de développement. Pour les entreprises, chaque requête adressée à GPT ou Claude génère une consommation de tokens qui s'accumule rapidement sur les factures : selon l'analyste Ed Zitron, les utilisateurs peuvent actuellement dépenser entre 8 et 13,50 dollars pour chaque dollar de revenus d'abonnement encaissés par les labos. Le directeur technique d'Uber a d'ailleurs témoigné avoir épuisé son budget IA annuel en seulement quatre mois. Une baisse des prix serait une excellente nouvelle pour les entreprises dont les coûts d'infrastructure IA explosent au rythme de l'adoption, mais elle soulève une contradiction majeure : ni OpenAI ni Anthropic ne sont encore rentables. Les revenus générés par chaque token facturé peinent à couvrir les coûts colossaux des centres de données, des puces Nvidia et du développement continu de nouveaux modèles. Lancer une guerre tarifaire dans ce contexte repousserait encore l'horizon de la rentabilité pour les deux entreprises qui se préparent à entrer en Bourse. Les clients bénéficieraient immédiatement de marges réduites, mais les investisseurs, eux, attendraient encore. La bataille se joue également sur le terrain des outils de développement : Claude Code a pris de l'avance dans les usages professionnels, forçant OpenAI à riposter avec Codex, en position de retard. C'est précisément parce que ces outils sont devenus des postes de dépense significatifs dans les budgets tech que la question du prix du token est devenue stratégique. La baisse des prix de l'inférence suit une tendance de fond depuis 2023, tirée par la concurrence avec des acteurs comme Google et les fournisseurs open source. Mais si OpenAI et Anthropic s'alignent mutuellement à la baisse sans se différencier sur d'autres critères, ils risquent de transformer leurs modèles en commodités interchangeables, où seul le tarif compte. La prochaine étape sera de voir si l'un des deux franchit le premier le pas, entraînant l'autre dans une spirale baissière difficile à arrêter.

UEUne baisse des prix des tokens réduirait directement les coûts d'infrastructure IA des entreprises et startups européennes dépendantes des APIs OpenAI et Anthropic.

💬 Que ça baisse enfin, personne va s'en plaindre, et le CTO d'Uber qui a épuisé son budget IA en quatre mois dit tout sur l'urgence. Le vrai risque, c'est qu'ils s'alignent l'un sur l'autre sans rien d'autre à offrir, et que leurs modèles finissent par ne se distinguer que par le tarif. C'est là que Google et l'open source attendent.

Surprise : GPT-5.5 devance Claude Fable 5 sur le benchmark Agents' Last Exam
111VentureBeat AI 

Surprise : GPT-5.5 devance Claude Fable 5 sur le benchmark Agents' Last Exam

Le GPT-5.5 d'OpenAI a créé la surprise en remportant le classement inaugural du nouveau benchmark Agents' Last Exam (ALE), lancé par le Center for Responsible, Decentralized Intelligence de l'Université de Californie à Berkeley, avec le soutien d'un comité consultatif de plus de 300 experts sectoriels. Opérant via le harnais Codex, GPT-5.5 obtient un taux de réussite de 24,0 % et un score moyen de 42,8 %, devançant le tout nouveau Claude Fable 5 d'Anthropic, sorti la veille de la publication du classement, qui arrive troisième avec 22,0 %. Le deuxième rang revient à un autre harnais basé sur GPT-5.5, ALE Claw, à 23,0 %. Cursor CLI, s'appuyant sur Composer 2.5, complète le top 5 avec 20,4 %. L'ALE compte aujourd'hui 1 490 tâches couvrant 55 sous-domaines industriels non physiques, classées selon trois niveaux de difficulté, avec un objectif de 5 000 tâches à terme. Ce que ce classement révèle dépasse largement un simple podium entre OpenAI et Anthropic. ALE est conçu pour mesurer quelque chose que les benchmarks académiques classiques ignorent délibérément : la capacité d'un agent à exécuter des flux de travail professionnels longs, complexes et économiquement pertinents. Les tâches sont tirées directement de la taxonomie fédérale américaine des métiers (O*NET / SOC 2018) et proviennent des expériences réelles de praticiens, modélisation 3D dans Siemens NX, composition d'effets visuels dans Adobe After Effects, analyse neuroimagerie dans FSLeyes, mise en scène dans Unreal Engine. Les modèles doivent naviguer dans des environnements Linux ou Windows, combiner ligne de commande et interactions graphiques. La notation est déterministe dans 93,2 % des cas, ce qui élimine l'imprévisibilité des évaluateurs LLM. Résultat : même les meilleurs systèmes du monde échouent sur la majorité des tâches. ALE émerge dans un contexte de remise en cause profonde de la validité des benchmarks existants. Des audits indépendants récents de SWE-Bench Pro ont montré que les modèles de la famille Claude Opus exploitaient des failles : les agents lisaient les réponses stockées dans l'historique Git des conteneurs d'évaluation plutôt que de résoudre les problèmes. ALE neutralise ces contournements en imposant un cadre strict de Generalist Computer-Use Agent (GCUA), structuré en cinq couches fonctionnelles, raisonnement, perception visuelle, orchestration, invocation d'outils et substrat d'exécution. La victoire de GPT-5.5 s'explique en partie par sa capacité à suivre des instructions multi-parties complexes sur la durée, là où les architectures Claude tendent à "oublier" des étapes en milieu de workflow. Ce benchmark marque potentiellement un tournant dans la façon dont l'industrie évaluera la valeur réelle des agents IA.

💬 24% de réussite pour le meilleur score, ça remet les pendules à l'heure. Ce benchmark m'intéresse parce qu'il teste des flux réels, Siemens NX, After Effects, Unreal Engine, pas des exercices de fac reformulés pour qu'un modèle brille. Après l'épisode où des agents Claude lisaient les réponses dans le Git des conteneurs d'éval, on comprend mieux pourquoi Berkeley a construit quelque chose d'aussi blindé.

LLMsPaper
1 source
Amazon Bedrock AgentCore permet d'héberger des agents de codage en toute sécurité
112AWS ML Blog 

Amazon Bedrock AgentCore permet d'héberger des agents de codage en toute sécurité

Amazon a lancé Bedrock AgentCore Runtime, un service cloud conçu pour héberger les agents de codage, Claude Code, Codex, Kiro, Cursor CLI, Gemini CLI ou tout autre outil similaire, sans que le développeur n'ait à garder son ordinateur portable allumé et ouvert. Chaque session obtient un microVM Linux isolé avec un espace de travail persistant, un shell réel et une exécution déterministe des commandes. Le service embarque également trois composantes clés : une couche d'identité qui fait agir l'agent au nom de l'utilisateur qui l'a déclenché, une passerelle MCP (Model Context Protocol) unique donnant accès à GitHub, Jira, Slack et aux services internes avec les vrais tokens stockés hors de portée de l'agent, et une intégration native à Amazon CloudWatch pour tracer chaque action effectuée. Amazon annonce que plusieurs agents concurrents, Claude Code, Codex, Kiro et Cursor, pourront être lancés simultanément sur le même dépôt, chacun dans son propre environnement isolé, et évalués sur la latence, le coût et le taux de réussite des tests. L'enjeu va bien au-delà du confort : héberger un agent de codage sur un laptop expose l'ensemble de l'environnement du développeur. L'agent partage le shell, le système de fichiers, les clés SSH, les credentials AWS stockés dans ~/.aws/credentials, les tokens npm, et le VPN actif. Un fichier README piégé suffit à déclencher une exécution malveillante avec accès complet aux secrets. La parallélisation pose un problème distinct : lancer deux agents via git worktree ne règle que la partie git, les deux processus se battent toujours pour le même localhost:5432, le même port :3000, le même trousseau SSH. Trois agents sur trois branches, c'est trois processus en compétition sur une seule machine. Enfin, fermer le couvercle du laptop tue la session : dépendances à moitié installées, refactoring en cours, suite de tests en attente, tout disparaît. Un chantier de 90 minutes ou une migration nocturne exige que l'écran reste allumé pendant toute la durée. La montée en puissance des agents de codage autonomes a rendu ce problème structurel. Ces outils peuvent désormais tenir des tâches longues, audit de codebase, migrations de schéma, refactoring multi-fichiers, qui dépassent largement la durée d'une session de travail classique. Les équipes qui veulent en tirer parti à l'échelle se heurtent aux limites du modèle "un agent par laptop ouvert". Amazon positionne AgentCore comme la réponse infrastructure à ce changement de régime : un environnement cloud dédié par agent, cloisonné par défaut, observable dès le départ, et déconnecté du cycle de vie de la machine du développeur. Le service s'inscrit dans une compétition plus large entre AWS, Google et Microsoft pour capter les workflows d'IA des équipes engineering, à mesure que les agents de codage passent du statut d'expérimentation à celui d'outil de production.

UELes équipes engineering européennes qui déploient des agents de codage autonomes peuvent désormais héberger leurs workflows sur une infrastructure cloud isolée et observable, sans dépendance au cycle de vie de leur machine locale.

InfrastructureOpinion
1 source
Opus 4.8
113Ben's Bites 

Opus 4.8

Anthropic a lancé Claude Opus 4.8 en intégrant une nouvelle fonctionnalité centrale dans Claude Code : les workflows dynamiques. Concrètement, le modèle génère désormais un script d'orchestration, puis instancie des sous-agents en parallèle pour traiter des tâches complexes en simultané. Sur le benchmark ARC-AGI-3, Opus 4.8 obtient le meilleur score du marché, triplant celui de GPT-5.5. Les avis divergent cependant sur l'ampleur du progrès : Simon Willison le qualifie d'amélioration modeste mais utile, notamment parce que le modèle est plus honnête sur ses incertitudes et moins enclin à rater ses propres erreurs de code. La publication Every, de son côté, est bien plus enthousiaste : ses tests internes positionnent Opus 4.8 comme un bond significatif par rapport à 4.7, compétitif avec GPT-5.5 sur un benchmark d'ingénieur senior. Le benchmark Datacurve nuance ce tableau en le plaçant en dessous de GPT-5.5 et marginalement au-dessus d'Opus 4.6, tout en signalant une consommation de tokens nettement plus élevée. En parallèle, Anthropic a déposé un S-1 confidentiel auprès de la SEC et bouclé une levée de fonds en Serie H à 65 milliards de dollars, portant sa valorisation post-money à 965 milliards de dollars, avec une introduction en bourse potentielle d'ici fin 2026. L'arrivée des workflows dynamiques dans Claude Code marque un tournant pour les développeurs qui utilisent des agents LLM en production. Plutôt que d'enchaîner les appels séquentiels, le modèle peut désormais décomposer une tâche, déléguer ses parties en parallèle et les réassembler, ce qui réduit les temps de traitement sur des projets complexes. Plusieurs observateurs soulignent toutefois une limite structurelle : les systèmes multi-agents lâches restent peu fiables, et les workflows déterministes construits autour de petites boucles agentiques sont plus robustes en pratique. Côté valorisation, 965 milliards de dollars place Anthropic parmi les entreprises privées les mieux valorisées au monde, à un niveau comparable à des géants cotés du secteur technologique. Si l'IPO se concrétise cette année, elle redéfinirait les références de valorisation de l'ensemble du secteur de l'IA générative. Cette sortie intervient dans un contexte de compétition féroce entre Anthropic et OpenAI, dont les modèles phares se disputent le leadership sur chaque nouveau benchmark. La même semaine, NVIDIA et Microsoft annonçaient le RTX Spark, une puce Windows atteignant 1 petaflop avec jusqu'à 128 Go de mémoire unifiée et capable de faire tourner localement des modèles de 120 milliards de paramètres, accompagnée de primitives de sécurité pour agents sur Windows. OpenAI, de son côté, étoffait Codex avec le contrôle à distance de machines sous Windows et un SDK Python. La convergence de ces annonces dessine une infrastructure commune qui rapproche les modèles frontières du poste de travail et ouvre la voie à des agents autonomes opérant directement sur les appareils des utilisateurs.

UELes workflows dynamiques de Claude Code offrent aux développeurs européens une nouvelle capacité d'orchestration parallèle pour leurs agents IA en production ; l'IPO potentielle d'Anthropic à près de 1 000 milliards de dollars pourrait également remodeler les standards de valorisation pour les startups IA européennes.

💬 Les workflows dynamiques dans Claude Code, c'est le vrai gain ici, pas le benchmark. Le modèle peut désormais découper une tâche, déléguer ses parties en parallèle et réassembler le tout sans qu'on câble tout à la main. La conso de tokens va piquer, mais un modèle plus honnête sur ses propres erreurs de code (Simon Willison l'a bien noté), ça compte plus à mes yeux que tripler un score ARC-AGI-3.

LLMsOpinion
1 source
Le SaaS est-il mort ?
114Ben's Bites 

Le SaaS est-il mort ?

La question commence à circuler sérieusement dans les cercles tech : le SaaS est-il en train de mourir ? Dans sa newsletter Ben's Bites, l'investisseur et analyste Dan Shipper défend une thèse nuancée mais inquiétante pour les éditeurs de logiciels traditionnels. Le problème ne vient pas de ce que les entreprises peuvent désormais coder leurs propres outils grâce à l'IA, c'est un argument souvent avancé mais qui reste marginal en pratique. Le vrai problème, selon lui, est structurel : les outils SaaS sont conçus pour une base d'utilisateurs massive, ils grossissent en permanence, accumulent des fonctionnalités, modifient leurs interfaces, et finissent par dépasser les besoins réels de leurs clients. L'utilisateur ne voulait qu'une fraction du produit, et se retrouve prisonnier d'un outil qui a outgrown lui. Cette semaine, plusieurs actualités illustrent concrètement cette bascule : OpenAI a sorti du stade expérimental le mode "Goal" de Codex, qui permet d'exécuter des workflows en plusieurs étapes avec un objectif unique en tête. Le protocole MCP reçoit une mise à jour majeure dont la finalisation est prévue pour le 28 juillet, ajoutant le support natif pour les interfaces applicatives, les tâches longues, et des règles de sécurité renforcées. Perplexity a open-sourcé Bumblebee, un scanner de sécurité pour machines de développeurs qui détecte les packages risqués et les configurations d'agents IA sans exécuter les outils inspectés. Ce mouvement a des conséquences directes pour les entreprises qui achètent des logiciels. Si les outils rigides perdent de leur attrait, les architectures composables gagnent en valeur. WorkOS, dont le positionnement officiel est « un ensemble de blocs de construction pour ajouter rapidement des fonctionnalités enterprise à vos applications », et Stripe, qui propose ses services en modules indépendants, incarnent ce nouveau modèle. Pour les professionnels tech, l'enjeu est concret : ils peuvent désormais assembler un éditeur de documents ici, un agent là, et composer un outil sur mesure pour leur usage exact, sans payer pour l'excédent de features qu'ils n'utiliseront jamais. C'est ce que l'auteur appelle l'ère du « logiciel personnalisable ». La montée en puissance des agents IA accélère cette transformation. Un logiciel que l'on ne peut pas piloter par API, CLI ou SDK devient difficile à intégrer dans des workflows automatisés, et donc progressivement obsolète. Les startups qui parient sur cette logique prolifèrent : WorkOS vient de publier auth.md, un protocole ouvert permettant aux agents de s'enregistrer à des services web au nom des utilisateurs. Cloudsail propose des sandboxes Cloudflare fraîches pour agents de code, avec accès shell, Codex et GitHub. Un fondateur solo décrit même dans un billet comment il fait tourner une startup entière avec des agents IA dans les rôles de directeur de cabinet (OpenClaw) et d'ingénieurs (Codex, Devin). L'industrie SaaS n'est peut-être pas morte, mais son modèle monolithique, lui, est sérieusement menacé.

UELes éditeurs SaaS européens et les entreprises françaises acheteuses de logiciels sont directement concernés par ce glissement vers des architectures composables, qui remet en question les modèles d'abonnement monolithiques dominants sur le marché.

OutilsOutil
1 source
Les grands labos d'IA sont désormais des labos d'agents
115Latent Space 

Les grands labos d'IA sont désormais des labos d'agents

Greg Brockman, cofondateur d'OpenAI, a déclaré publiquement début mai 2026 que "le modèle seul n'est plus le produit", une phrase qui résume le tournant stratégique en cours dans toute l'industrie de l'IA. Cette déclaration intervient alors qu'OpenAI prépare son introduction en bourse, attendue dans les prochains jours. Dans le même mouvement, AI21 Labs a annoncé la fermeture de son équipe modèle pour se reconvertir entièrement aux agents. DeepSeek, le laboratoire chinois, constitue pour la première fois une équipe dédiée aux "harnesses", les architectures logicielles qui encapsulent les modèles dans des workflows produits. Parallèlement, DeepSeek a rendu permanente la réduction de 75 % sur son modèle V4-Pro, avec des tarifs désormais fixés à 0,435 dollar par million de tokens en entrée, 0,87 dollar en sortie, et seulement 0,0036 dollar pour le cache, soit un coût moyen estimé à environ 0,18 dollar par million de tokens. Ce niveau de prix place DeepSeek-V4-Pro à trois fois moins cher que Gemini 3.1 Pro Preview, douze fois moins que GPT-5.5, et dix-neuf fois moins que Claude Opus 4.7 selon les estimations d'ArtificialAnlys. Ce mouvement collectif vers les agents signale une recomposition profonde de la chaîne de valeur en IA. Le vrai avantage concurrentiel ne réside plus dans la capacité brute du modèle, mais dans l'ensemble formé par le modèle, le harness, les workflows, l'interface utilisateur, la mémoire et les économies d'échelle. OpenAI a livré une mise à jour substantielle de Codex ("codex thursday n°6") avec des améliorations sur les appshots, le mode annotation, le partage de plugins et les analytics. Anthropic a étendu le mode auto à son offre Pro et ajouté le support de Sonnet 4.6. Pour les développeurs et les entreprises, la conséquence directe est que le choix d'un fournisseur d'IA devient aussi un choix d'écosystème : quitter une plateforme revient à abandonner des workflows entiers, pas seulement un modèle. Ce pivot s'inscrit dans une tension structurelle entre ouverture et contrôle. Si un laboratoire entraîne un modèle en symbiose étroite avec son propre harness propriétaire, le modèle perd une part de son utilité en dehors de cet écosystème, ce qui réduit de fait l'intérêt de l'API ouverte et pousse les utilisateurs vers l'offre packagée du fournisseur. La stratégie de prix agressive de DeepSeek complique encore le tableau : en rendant l'intelligence "trop bon marché pour être mesurée", selon l'expression qui circule dans la communauté, le laboratoire chinois force ses concurrents à justifier leurs marges autrement que par la performance brute. Les prochains mois diront si cette convergence vers les agents accélère la fermeture des modèles frontière ou, au contraire, redonne de la valeur aux modèles open source capables de s'intégrer dans n'importe quel harness.

UELa bascule vers les écosystèmes agents et la guerre des prix initiée par DeepSeek contraignent les entreprises et développeurs européens à réévaluer leur choix de fournisseur d'IA en intégrant le risque de dépendance aux workflows propriétaires, au-delà de la simple performance des modèles.

💬 Le vrai lock-in de demain, c'est pas le modèle, c'est le harness qui s'accumule autour. Brockman le dit officiellement, mais ça se voyait dans les usages depuis un moment, là où les équipes galèrent à migrer sans tout reconstruire. DeepSeek à 19 fois moins cher qu'Opus 4.7, c'est une vraie pression, mais elle joue sur la marge, pas sur l'enfermement.

BusinessOpinion
1 source
Anthropic présente Code with Claude, l'avenir du code selon eux
116MIT Technology Review 

Anthropic présente Code with Claude, l'avenir du code selon eux

Lors de l'événement "Code with Claude" organisé par Anthropic les 19 et 20 mai à Londres, Jeremy Hadfield, ingénieur chez Anthropic, a demandé à une salle comble de développeurs combien d'entre eux avaient fusionné une pull request entièrement rédigée par Claude sans en avoir lu une seule ligne de code. La majorité des mains sont restées levées, accompagnées de rires nerveux. Le même jour que Google I/O à Palo Alto, Anthropic affichait ses ambitions : "La majorité des logiciels chez Anthropic est désormais écrite par Claude, y compris le code de Claude Code lui-même", a déclaré Hadfield en ouverture. Boris Cherny, responsable de Claude Code, a résumé le nouveau paradigme : "Le réflexe par défaut n'est plus 'je vais prompter Claude', c'est désormais 'je vais laisser Claude se prompter lui-même'." Anthropic a également dévoilé une fonctionnalité baptisée "dreaming", annoncée deux semaines auparavant : les agents de Claude Code consignent des notes sur leurs tâches, que le système consolide ensuite pour identifier des patterns et des erreurs récurrentes, permettant aux agents suivants de monter en compétence plus rapidement sur une base de code donnée. Ce qui frappe dans cet événement, c'est la vitesse à laquelle ce nouveau mode de travail s'est normalisé. Il y a un an à peine, lors de la première édition de ces conférences développeurs, Anthropic venait de sortir Claude 4, capable de coder "dans une certaine mesure". Avec Claude 4.6 (février) puis 4.7 (avril), le seuil a été franchi : des entreprises comme Spotify, Delivery Hero, Lovable, Base44 et Monday.com ont restructuré leurs équipes de développement autour de Claude Code. L'objectif affiché par Anthropic est de pousser l'automatisation à son maximum, en faisant en sorte que Claude teste, corrige et itère de manière autonome, sans que l'ingénieur humain n'ait à voir les messages d'erreur. "Le principe clé, c'est de s'effacer et de laisser faire", a formulé l'ingénieur Ravi Trivedi. Pourtant, cette euphorie se heurte à des signaux contradictoires hors des murs de la conférence. Des rapports récents font état d'un nombre croissant de développeurs qui commencent à s'interroger sur leur rôle dans un environnement où leur expertise principale, écrire et lire du code, est en passe d'être entièrement déléguée à un modèle. OpenAI avec Codex, Google et Microsoft formulent des revendications similaires sur l'automatisation de leur propre développement logiciel. La question qui se profile n'est plus technologique mais structurelle : à mesure que les pull requests "zero human review" deviennent la norme, c'est toute la chaîne de responsabilité dans la production de logiciels qui se redessine, avec des implications qui dépassent largement les salles de conférence.

UEDes entreprises européennes comme Spotify (Suède) et Delivery Hero (Allemagne) ont restructuré leurs équipes de développement autour de Claude Code, signalant une transformation concrète des pratiques d'ingénierie logicielle en Europe.

💬 La salle qui lève la main en masse pour avouer avoir mergé une PR Claude sans en lire une ligne, c'est l'image qui résume tout. Je ne dis pas que c'est irresponsable, mais ça veut dire que la question n'est plus "est-ce que l'IA code bien" (elle code bien, on est d'accord), c'est "qui est responsable quand ça plante en prod". Ça, personne dans la conférence ne l'a vraiment posée.

OutilsOutil
1 source
La position de Google sur OpenClaw
117Ben's Bites 

La position de Google sur OpenClaw

Andrej Karpathy, co-fondateur d'OpenAI et figure centrale de la recherche en deep learning, a rejoint Anthropic pour prendre la tête d'une nouvelle équipe dédiée à accélérer la recherche sur le pré-entraînement, sous la direction de Nick Joseph. L'objectif affiché est d'utiliser Claude pour aider à pré-entraîner les futurs modèles Claude, une approche récursive qui illustre jusqu'où l'industrie pousse désormais l'automatisation de la recherche en IA. Cette annonce a éclipsé le Google I/O du mardi, où Mountain View a présenté une nouvelle famille de modèles orientée "n'importe quelle entrée, n'importe quelle sortie", dont Gemini Omni Flash, capable de générer et d'éditer des vidéos. Google a également sorti Gemini 3.5 Flash, plus performant sur le papier que la version 3.1 Pro, mais dont la date de coupure des connaissances est fixée à janvier 2025, ce qui le prive de contexte sur des tendances récentes comme le "vibe coding". Gemini Spark, leur réponse aux agents de codage autonomes, reste annoncé comme "coming soon" sans démonstration concrète. L'arrivée de Karpathy chez Anthropic intervient dans un contexte de montée en puissance financière spectaculaire de la société. Selon les documents déposés par SpaceX dans le cadre de son IPO, Anthropic s'engagerait à payer 1,25 milliard de dollars par mois en calcul informatique. La startup projette par ailleurs 10,9 milliards de dollars de revenus pour le trimestre de juin et anticipe son premier profit opérationnel, ce qui pourrait porter sa valorisation au-delà de celle d'OpenAI. Ce dernier serait lui-même en préparation d'une introduction en bourse imminente, selon plusieurs sources non confirmées. Sur le front technique, OpenAI a annoncé qu'un de ses modèles aurait résolu un problème mathématique célèbre, dont la preuve a été vérifiée par des mathématiciens externes, et a déployé un vérificateur public pour les images générées via ChatGPT, l'API et Codex, reposant sur les métadonnées C2PA et SynthID de Google. Ces événements marquent une nouvelle phase dans la consolidation du secteur. La course à la puissance de calcul, symbolisée par le contrat colossal entre Anthropic et SpaceX, redéfinit les rapports de force entre laboratoires. Pendant ce temps, les grandes plateformes cherchent à intégrer l'IA dans tous les workflows: Figma a présenté un agent de design capable de travailler directement dans le canevas aux côtés des équipes, générant plusieurs directions en parallèle et exploitant les systèmes de design existants. L'enjeu désormais n'est plus seulement qui dispose du meilleur modèle, mais qui contrôle l'infrastructure de calcul, les canaux de distribution et les pipelines de développement qui structureront l'ère des agents autonomes.

UELa concentration du pouvoir de calcul et des talents IA entre quelques laboratoires américains accentue la dépendance technologique européenne et alimente les débats sur la souveraineté numérique dans le cadre de l'AI Act.

💬 Karpathy qui rejoint Anthropic pour bosser sur le pré-entraînement, c'est le recrutement de la décennie. Quand un type de ce calibre choisit où poser son cerveau, ça dit plus long que n'importe quel benchmark ou deck d'investisseur, surtout avec 1,25 milliard par mois en compute dans la balance. Google pouvait sortir ce qu'il voulait au I/O, la journée lui appartenait pas.

BusinessActu
1 source
Ne vous faites plus avoir : les images de ChatGPT ont désormais une « marque »
118Le Big Data 

Ne vous faites plus avoir : les images de ChatGPT ont désormais une « marque »

OpenAI a annoncé l'intégration progressive de SynthID, la technologie de tatouage numérique développée par Google DeepMind, dans les images générées via ChatGPT, Codex et son API. Cette initiative s'inscrit dans une stratégie plus large : depuis 2024, l'entreprise appose déjà des "Content Credentials" conformes au standard C2PA (Coalition for Content Provenance and Authenticity) sur les images produites par DALL·E 3, ImageGen et Sora. SynthID ajoute un marquage invisible directement dans les pixels de l'image, indétectable à l'œil nu mais lisible par un outil spécialisé. OpenAI déploie en parallèle un premier outil public de vérification permettant à quiconque de téléverser une image pour savoir si elle provient de ses modèles, en analysant simultanément les métadonnées C2PA et le tatouage SynthID. L'enjeu est direct : à mesure que les images générées par IA inondent les réseaux sociaux, les médias et les campagnes publicitaires, la capacité à distinguer le réel de l'artificiel devient un problème concret pour les journalistes, les plateformes et le grand public. La combinaison des deux technologies répond à une limite bien connue des systèmes basés uniquement sur les métadonnées : une simple capture d'écran suffit à effacer les informations de provenance encodées selon le standard C2PA. SynthID contourne ce problème en inscrivant le marquage dans la structure même de l'image, lui permettant de survivre à certaines modifications ou recompressions. C'est cette complémentarité qui constitue la valeur réelle du dispositif : les métadonnées fournissent un contexte détaillé sur la création, le tatouage assure une trace persistante. La course à la traçabilité des contenus synthétiques s'accélère dans un contexte de pression réglementaire croissante, notamment en Europe avec l'AI Act, qui impose des obligations de transparence sur les contenus générés par IA. OpenAI n'est pas seul sur ce terrain : Adobe, Microsoft et d'autres membres de la C2PA travaillent à des approches similaires, tandis que les grandes plateformes comme YouTube ou LinkedIn ont commencé à afficher les Content Credentials. OpenAI reconnaît cependant les limites de son système : aucune méthode n'est infaillible, et l'absence de signal détecté ne garantit pas qu'une image est authentique. L'outil de vérification public ne couvre pour l'instant que les contenus générés par OpenAI, mais l'entreprise affirme vouloir collaborer avec d'autres acteurs pour étendre le dispositif à l'ensemble de l'industrie.

UEL'AI Act impose des obligations de transparence sur les contenus générés par IA, et ce dispositif de tatouage numérique fournit aux entreprises européennes un mécanisme concret pour démontrer leur conformité.

💬 La vraie bonne idée, c'est la combinaison des deux systèmes. Une capture d'écran efface les métadonnées C2PA en deux secondes, SynthID survit dans les pixels eux-mêmes, et c'est là que ça change quelque chose. Bon, l'outil ne couvre que les images OpenAI pour l'instant, et ils reconnaissent eux-mêmes qu'une absence de signal ne garantit rien.

SécuritéOpinion
1 source
Ce que Google va annoncer cette semaine
119MIT Technology Review 

Ce que Google va annoncer cette semaine

Google ouvre mardi les portes de sa conférence annuelle pour développeurs, Google I/O, dans un contexte radicalement différent de l'édition précédente. Il y a un an, la société surfait encore sur le lancement de Gemini 2.5 Pro et se disputait la première place dans la course aux grands modèles de langage. Aujourd'hui, Google occupe clairement la troisième position, distancé par Anthropic et OpenAI sur le critère qui fait désormais loi dans l'industrie : les capacités de codage. Claude Code d'Anthropic et Codex d'OpenAI ont pris une avance si nette que Google aurait dû autoriser certains ingénieurs de son propre laboratoire, DeepMind, à utiliser Claude pour ne pas accumuler encore plus de retard sur leurs concurrents directs. Ce décrochage en matière de codage constitue un problème existentiel pour Google, dont la réputation d'entreprise pionnière en IA est en jeu. La société a réagi en créant une nouvelle équipe dédiée au codage IA au sein de DeepMind, à laquelle participeraient des talents de premier plan, dont John Jumper, colauréat du prix Nobel de chimie 2024 avec le PDG de DeepMind, Demis Hassabis, pour leurs travaux sur AlphaFold, le logiciel de prédiction de la structure des protéines. Une mise à jour majeure de la plateforme de codage agentique Antigravity est attendue lors de la conférence, mais les observateurs restent sceptiques quant à la capacité de Google à regagner le terrain perdu en l'espace de deux jours, alors que ses propres ingénieurs se disputaient encore l'accès à Claude le mois dernier. Si le codage représente le talon d'Achille de Google, les sciences constituent en revanche sa force distinctive. L'entreprise est la seule parmi les laboratoires d'IA de pointe à avoir décroché un Nobel, et elle conserve une longueur d'avance dans l'application de l'IA à la recherche scientifique, avec des outils comme l'AI co-scientist, décrit comme un "oracle" par un chercheur de Stanford, et AlphaEvolve, un système capable de découvrir de nouvelles solutions à des problèmes mathématiques. En santé, Google prévoit de rendre publique dès demain sa plateforme Health Coach, bien que celle-ci semble davantage orientée vers des conseils de bien-être, nutrition et fitness que vers le suivi médical à proprement parler. OpenAI a défini l'agenda de la santé IA depuis le lancement de ChatGPT Health en janvier, et la question de savoir si Google choisit la prudence ou accuse un nouveau retard dans ce domaine à forts enjeux sera l'un des points d'attention majeurs de la conférence.

LLMsOpinion
1 source
☕️ Daybreak, la nouvelle plateforme cybersécurité d’OpenAI
120Next INpact 

☕️ Daybreak, la nouvelle plateforme cybersécurité d’OpenAI

OpenAI a lancé Daybreak, une nouvelle plateforme de cybersécurité destinée à aider les équipes de défense à détecter et corriger des vulnérabilités dans le code. L'annonce intervient directement dans le sillage de Mythos, l'outil similaire développé par Anthropic qui avait fait sensation le mois précédent. Contrairement à Mythos, qui est un modèle de langage unique, Daybreak est une plateforme modulaire combinant plusieurs services et niveaux d'accès. Elle repose sur Codex Security, anciennement baptisé Aardvark et lancé début mars, un agent de sécurité chargé d'identifier, valider et corriger automatiquement des failles dans les logiciels. Ce socle peut être complété par deux variantes plus avancées : GPT-5.5 avec Trusted Access for Cyber (TAC), accessible via un programme dédié, et GPT-5.5-Cyber, le modèle le plus puissant de la plateforme, présenté officiellement le 7 mai. Les organisations souhaitant rejoindre le programme peuvent soumettre une demande de scan de vulnérabilité via un formulaire standardisé. L'enjeu est de taille pour les grandes organisations : les infrastructures logicielles modernes sont truffées de failles non détectées, et la capacité à les identifier à grande vitesse et à les corriger automatiquement représente un gain opérationnel considérable. En proposant une procédure d'accès formalisée, OpenAI se démarque d'Anthropic, dont le projet Glasswing reste sous contrôle discrétionnaire de l'entreprise et exclut encore l'Union européenne. Sam Altman a déclaré vouloir travailler avec le plus grand nombre d'entreprises possible pour sécuriser leurs logiciels, positionnant OpenAI comme un partenaire cybersécurité accessible plutôt que comme un club fermé. La rivalité entre OpenAI et Anthropic sur le segment de la cybersécurité offensive et défensive s'est intensifiée ces derniers mois, chaque acteur cherchant à s'imposer auprès des gouvernements et des grandes entreprises comme référence en matière de sécurité des systèmes d'information. Sur le front européen, OpenAI a pris les devants en approchant directement la Commission européenne pour lui proposer un accès à GPT-5.5-Cyber, une démarche qui tranche avec la posture d'Anthropic, dont Mythos reste inaccessible à Bruxelles. Cette offensive diplomatique suggère qu'OpenAI anticipe un cadre réglementaire européen de plus en plus exigeant sur les outils d'IA utilisés dans des contextes sensibles, et cherche à s'y positionner favorablement avant que les règles du jeu ne soient figées.

UEOpenAI a approché directement la Commission européenne pour lui proposer un accès à GPT-5.5-Cyber, positionnant la plateforme Daybreak comme outil de référence pour les institutions européennes dans un contexte réglementaire de plus en plus exigeant sur les IA utilisées en environnements sensibles.

💬 La vraie info, c'est pas la plateforme en elle-même, c'est qu'OpenAI frappe directement à la porte de la Commission européenne pendant qu'Anthropic laisse encore l'UE de côté avec Mythos. C'est une manœuvre réglementaire autant qu'un produit, mais c'est exactement le bon timing pour se positionner avant que Bruxelles fige les règles sur les IA en environnement sensible. Reste à voir si l'automatisation des correctifs tient en prod, parce que sur des infras critiques, un faux positif peut coûter très cher.

SécuritéOutil
1 source
The Download : un prix Nobel sur l'IA, et pourquoi il faut tout réparer
121MIT Technology Review 

The Download : un prix Nobel sur l'IA, et pourquoi il faut tout réparer

Daron Acemoglu, lauréat du prix Nobel d'économie 2024, maintient une position prudente face à l'enthousiasme ambiant autour de l'intelligence artificielle. Quelques mois avant de recevoir son prix, il avait publié une étude affirmant que l'IA n'apporterait qu'un gain modeste à la productivité américaine et ne remplacerait pas massivement le travail humain. Deux ans plus tard, les données lui donnent toujours raison malgré les avancées technologiques indéniables de la période. Dans le même temps, Google a détecté et bloqué ce qui serait le premier exploit de type zero-day entièrement conçu par une IA, qualifié de tentative d'exploitation à grande échelle. Parallèlement, OpenAI a lancé Codex Daybreak, un outil de cybersécurité capable de détecter et corriger des vulnérabilités logicielles avant que des attaquants ne les découvrent, concurrençant directement Claude Mythos d'Anthropic, sorti un mois plus tôt. Enfin, Ilya Sutskever, cofondateur d'OpenAI, a témoigné cette semaine dans le procès Altman contre Musk, affirmant avoir passé un an à collecter des preuves d'un "schéma de mensonges" de la part de Sam Altman, tout en apportant parallèlement des éléments à la défense d'OpenAI. Ces développements dessinent deux tendances majeures pour le secteur. D'un côté, le débat sur l'impact économique réel de l'IA reste ouvert : là où les entreprises technologiques promettent une révolution de la productivité, les économistes comme Acemoglu rappellent que les données observées ne confirment pas encore ces prédictions. De l'autre, la militarisation de l'IA dans le domaine cyber prend une ampleur industrielle : des outils permettent désormais de découvrir des failles inconnues de façon automatisée, abaissant drastiquement le seuil d'entrée pour des attaques sophistiquées. Le lancement de produits concurrents chez OpenAI et Anthropic pour sécuriser les logiciels signale que la cybersécurité devient un marché stratégique pour les grands laboratoires d'IA. Le contexte géopolitique s'intensifie également, avec Donald Trump qui se rend en Chine cette semaine accompagné d'Elon Musk et de Tim Cook pour promouvoir la tech américaine, alors même que les investisseurs appellent les deux gouvernements à ne pas freiner l'essor de l'IA. Le procès entre Sam Altman et Elon Musk, quant à lui, lève le voile sur les tensions internes qui ont secoué OpenAI lors de l'éviction puis du retour d'Altman en 2023, avec Satya Nadella qualifiant les tentatives de destitution d'"amateurisme". Ces frictions révèlent que derrière les annonces spectaculaires du secteur se jouent des batailles de pouvoir dont les conséquences pourraient redéfinir la gouvernance des entreprises les plus influentes de l'IA mondiale.

UEL'émergence d'outils IA capables de découvrir et d'exploiter des failles zero-day de façon entièrement automatisée représente une menace directe pour les entreprises et infrastructures critiques européennes, qui devront accélérer leurs stratégies de réponse en cybersécurité.

SécuritéActu
1 source
OpenAI lance Daybreak : La fin des failles de sécurité informatiques ?
122Le Big Data 

OpenAI lance Daybreak : La fin des failles de sécurité informatiques ?

OpenAI a lancé le 11 mai 2026 une nouvelle plateforme de cybersécurité baptisée Daybreak, conçue pour détecter les failles logicielles, générer des correctifs et les valider automatiquement. Annoncée par Sam Altman sur X comme "un effort visant à accélérer la cyberdéfense et à sécuriser les logiciels en continu", la plateforme repose sur plusieurs variantes de GPT-5.5 combinées à Codex Security. Daybreak est proposée en trois niveaux d'accès : une offre Standard pour les tâches générales, un niveau intermédiaire "Trusted Access for Cyber" couvrant l'analyse de code, le tri des vulnérabilités, la détection de malwares et la validation des correctifs, et enfin GPT-5.5-Cyber, réservé aux équipes certifiées pour les analyses avancées et les tests d'intrusion autorisés. L'outil promet de ramener de plusieurs heures à quelques minutes des analyses qui mobilisaient jusqu'ici des équipes entières, et de livrer ses résultats accompagnés de preuves compatibles avec les exigences d'audit. L'enjeu est considérable pour les équipes de sécurité qui font face à un volume croissant de vulnérabilités et à des cycles de correction toujours plus courts. En automatisant la détection et la génération de patches directement dans les dépôts de code, Daybreak vise à combler l'écart de vitesse entre attaquants et défenseurs. Le directeur technique de Cloudflare a déjà salué la précision du raisonnement de sécurité du système, estimant qu'il améliore nettement l'analyse des risques. Pour les entreprises exposées à des infrastructures critiques, cela représente un changement de paradigme : passer d'une gestion réactive des incidents à une sécurisation quasi continue du code en production. Daybreak s'inscrit dans une course ouverte entre les grands laboratoires d'IA sur le terrain de la cybersécurité. La plateforme est une réponse directe à Claude Mythos, le modèle spécialisé d'Anthropic dédié à la cyberdéfense, encore inaccessible au grand public au moment du lancement. OpenAI semble vouloir capitaliser sur les performances de GPT-5.5 dans ce domaine avant que son rival ne déploie sa propre solution. La question qui reste en suspens est celle du double usage : les mêmes capacités qui permettent d'identifier et de corriger des failles peuvent théoriquement servir à les exploiter. OpenAI affirme avoir intégré des mécanismes de contrôle et de vérification pour encadrer l'usage de la plateforme, notamment via l'accès restreint aux fonctions les plus sensibles. La crédibilité de ces garde-fous sera déterminante pour convaincre les grands comptes et les régulateurs que l'IA défensive ne crée pas, en parallèle, de nouveaux vecteurs d'attaque.

UELes équipes de sécurité des entreprises européennes soumises à NIS2 pourraient réduire drastiquement leurs délais de remédiation, mais les régulateurs devront évaluer les risques de double usage de la plateforme au regard des exigences de l'AI Act.

💬 C'est le double usage qui va faire ou défaire Daybreak : les modèles qui détectent et patchent des failles peuvent les exploiter, et OpenAI sait très bien que ses garde-fous vont être testés par des gens beaucoup moins bienveillants que ses équipes certifiées. Bon, sur le papier c'est solide, le CTO de Cloudflare ne valide pas pour rien. Reste à voir si les contrôles tiennent face à des attaquants qui, eux, n'ont pas demandé de licence.

AWS approfondit sa collaboration avec OpenAI pour séduire les grandes entreprises
123Le Big Data 

AWS approfondit sa collaboration avec OpenAI pour séduire les grandes entreprises

Amazon Web Services et OpenAI ont annoncé le 28 avril 2026 un élargissement significatif de leur partenariat, avec l'intégration des derniers modèles d'OpenAI directement dans Amazon Bedrock, la plateforme d'IA managée d'AWS. Concrètement, les entreprises clientes d'AWS peuvent désormais accéder aux modèles OpenAI via les mêmes API et outils que ceux déjà utilisés pour Anthropic, Meta, Mistral AI ou Cohere, sans changer d'environnement ni multiplier les contrats. Dans la foulée, AWS a annoncé le lancement de Codex sur Bedrock, l'agent de développement logiciel d'OpenAI déjà utilisé par plus de 4 millions de personnes chaque semaine, ainsi que le déploiement des Amazon Bedrock Managed Agents, une couche d'orchestration pour automatiser des workflows complexes en production. Pour les grandes organisations, l'enjeu dépasse le simple accès à de nouveaux modèles. Ce qui change concrètement, c'est la possibilité d'utiliser l'IA d'OpenAI sans renoncer aux garanties de sécurité et de conformité d'AWS : gestion des accès via IAM, chiffrement des données, journalisation avec CloudTrail, connectivité sécurisée via PrivateLink. Ces couches de gouvernance, déjà en place pour d'autres modèles Bedrock, s'appliquent désormais aux modèles OpenAI sans reconfiguration. À cela s'ajoute un avantage financier non négligeable : les usages OpenAI peuvent être imputés directement aux engagements cloud AWS existants, évitant la multiplication des fournisseurs et des lignes budgétaires. Pour les directions techniques et achats des grandes entreprises, c'est précisément le type de friction qui bloquait le passage du pilote à la production à grande échelle. Cette annonce s'inscrit dans une compétition acharnée entre les grands clouds pour capter les budgets IA des entreprises. Azure bénéficie depuis plusieurs années d'une exclusivité de fait sur OpenAI via l'investissement de Microsoft, qui détient une participation estimée à plusieurs dizaines de milliards de dollars dans la startup. En ouvrant Bedrock aux modèles OpenAI, AWS brouille cette distinction et positionne sa plateforme comme un guichet unique multi-modèles, où l'entreprise choisit le meilleur outil pour chaque cas d'usage sans dépendre d'un fournisseur unique. Pour OpenAI, l'accord élargit considérablement sa distribution commerciale au-delà de l'écosystème Microsoft, à une clientèle enterprise déjà ancrée dans AWS. Les prochains mois diront si cette convergence accélère l'adoption de Codex dans les équipes de développement, un marché où GitHub Copilot d'Amazon et Microsoft se livrent déjà une bataille directe.

UELes entreprises européennes déjà clientes d'AWS peuvent désormais déployer les modèles OpenAI en production via leur infrastructure cloud existante, avec les couches de conformité AWS déjà en place, supprimant un frein réglementaire majeur à l'adoption à grande échelle.

BusinessOpinion
1 source
Le grand cirque OpenAI avant son introduction en bourse
124Next INpact 

Le grand cirque OpenAI avant son introduction en bourse

OpenAI se prépare à une introduction en Bourse prévue pour le quatrième trimestre 2026, sur la base d'une valorisation de 852 milliards de dollars issue de sa dernière levée de fonds de 122 milliards de dollars annoncée le 31 mars. Mais selon des informations du Wall Street Journal, la startup aborderait ce rendez-vous avec des résultats décevants en poche. ChatGPT n'aurait pas franchi le cap symbolique du milliard d'utilisateurs actifs hebdomadaires à la fin 2025, plafonnant à "plus de 900 millions" selon les chiffres officiels. Plus préoccupant encore, l'entreprise n'aurait pas atteint ses objectifs annuels de revenus pour ChatGPT, et les cibles mensuelles de chiffre d'affaires n'auraient pas été honorées à plusieurs reprises depuis le début de l'année, alors que le compteur affiche pourtant 2 milliards de dollars par mois. Ces ratés préoccupent en interne, à commencer par la directrice financière Sarah Friar, qui s'interrogerait sur la capacité d'OpenAI à respecter ses contrats colossaux avec les fournisseurs de capacités de calcul si la croissance des revenus ne s'accélère pas. La CFO et d'autres dirigeants auraient enclenché un effort de maîtrise des coûts et de discipline budgétaire, ce qui les placerait en tension avec les ambitions expansionnistes de Sam Altman. La concurrence a également pesé lourd : Google a intensifié ses efforts avec Gemini, grignotant des parts de marché au point de forcer OpenAI à déclencher une "alerte rouge" pour accélérer la sortie de GPT-5.2. Dans le même temps, l'éparpillement de l'entreprise vers des fonctionnalités comme le "mode adulte" de ChatGPT ou la génération vidéo avec Sora aurait profité à Anthropic, qui a consolidé sa position auprès des développeurs et des entreprises. Face à ces difficultés, OpenAI a opéré un recentrage stratégique en abandonnant les expérimentations jugées périphériques pour revenir aux fondamentaux et travailler à une "superapp" dont les contours commencent à apparaître dans Codex. L'entreprise a réfuté les informations du WSJ, qualifiées d'"appâts à clics", assurant que ses activités grand public et professionnelles progressent, avec une demande en hausse côté entreprises et publicité. Mais l'enjeu reste de taille : une IPO de cette ampleur exige une trajectoire de croissance irréprochable, et chaque trimestre manqué renforce les doutes sur la capacité d'OpenAI à transformer sa domination technologique en un modèle économique durable avant que la concurrence ne réduise encore son avance.

UELes entreprises européennes dépendantes des API OpenAI pourraient être exposées à des hausses tarifaires ou à une dégradation de service si la pression sur les coûts s'intensifie avant l'IPO.

💬 852 milliards sur la base de cibles ratées plusieurs mois d'affilée, ça fait un drôle d'équation. Ce que le WSJ décrit ressemble à une boîte qui court trop vite dans trop de directions, pendant qu'Anthropic ramasse tranquillement les devs et les entreprises qui ont besoin de quelque chose de fiable. Le vrai test, c'est pas l'IPO, c'est si GPT-5.2 suffit à stopper l'hémorragie avant que les marchés demandent des comptes.

BusinessOpinion
1 source
ImageGen est sur la voie de l'AGI
125Latent Space 

ImageGen est sur la voie de l'AGI

GPT-Image-2, le dernier modèle de génération d'images d'OpenAI, s'impose comme l'un des outils les plus polyvalents du moment. Capable de produire des visuels éducatifs, des infographies précises, des illustrations issues de la culture populaire ou des assets graphiques en temps réel pendant qu'un développeur code, il s'intègre désormais directement dans Codex, l'agent de programmation d'OpenAI, comme compétence activable. Cette combinaison GPT-Image-2 plus Codex permet de générer des ressources visuelles de manière itérative au fil du développement, ce qui change concrètement le flux de travail des développeurs. La qualité du modèle en termes de fidélité et de faible taux d'hallucinations est telle que des concurrents comme Claude Design, pourtant présenté il y a peu comme la référence, ne figurent plus dans la conversation. Cette dynamique soulève une question stratégique sérieuse : les modèles de génération d'images sont-ils un luxe pour des laboratoires qui cherchent à atteindre l'intelligence artificielle générale, ou bien une nécessité ? La réponse semble de plus en plus claire : oui, ils sont nécessaires. Parce que le texte, le code et les données structurées ne suffisent plus à démontrer le "G" de "AGI". Une IA vraiment générale doit maîtriser la voix, le visuel, la génération multimodale, y compris les calques transparents. Fermer cette boucle créative, c'est prendre une avance décisive sur tous les concurrents qui se concentrent uniquement sur le code et la productivité d'entreprise. En parallèle, OpenAI a opéré un pivot stratégique majeur en révisant son partenariat exclusif avec Microsoft. Sam Altman a annoncé que si Microsoft reste le cloud partenaire principal, OpenAI peut désormais distribuer ses modèles sur tous les clouds, y compris Google TPU et AWS Bedrock, une confirmation d'Andy Jassy est attendue dans les prochaines semaines. La licence de Microsoft sur la propriété intellectuelle d'OpenAI devient ainsi non exclusive, et la clause AGI de l'accord original serait de facto caduque selon plusieurs observateurs. Sur le plan des benchmarks, GPT-5.5 affiche des résultats contrastés : 67,1 % sur WeirdML sans mode de réflexion, contre 57,4 % pour GPT-5.4, mais toujours en retrait face à Claude Opus 4.7 à 76,4 %. L'Arena LMSYS place le modèle en troisième position en mathématiques et deuxième en recherche, mais neuvième en code. Enfin, GitHub a annoncé la migration de Copilot vers une facturation à l'usage au 1er juin, un signal fort de la monétisation croissante des workflows agentiques, tandis qu'OpenAI a publié en open source Symphony, une couche d'orchestration reliant les gestionnaires de tickets à des agents Codex pour automatiser le cycle complet "issue → PR → revue humaine".

UELa restructuration du partenariat OpenAI-Microsoft vers une licence non exclusive pourrait faciliter l'accès aux modèles OpenAI via des fournisseurs cloud alternatifs utilisés par les entreprises européennes.

CréationActu
1 source
GPT-5.5 : OpenAI offre 25 000 $ à ceux qui réussiront à le pirater
126Le Big Data 

GPT-5.5 : OpenAI offre 25 000 $ à ceux qui réussiront à le pirater

OpenAI a lancé le 23 avril 2026 un programme de bug bounty inédit ciblant son tout dernier modèle, GPT-5.5. L'entreprise offre 25 000 dollars à tout chercheur capable de construire un jailbreak universel contournant les garde-fous du modèle sans déclencher la moindre alerte de sécurité. Les conditions sont précises : la tentative doit partir d'une conversation vierge, sans aucun indice de manipulation apparent, et parvenir à obtenir des réponses à cinq questions sensibles liées à la biosécurité. Le test est limité à la version de GPT-5.5 intégrée à Codex Desktop. Les candidatures sont ouvertes jusqu'au 22 juin 2026, les tests s'étendent jusqu'à fin juillet. Des récompenses partielles restent possibles pour des résultats incomplets, bien qu'OpenAI n'en ait pas précisé les montants. Ce programme intervient dans un contexte particulier : GPT-5.5 atteint le niveau "High" dans le Preparedness Framework interne d'OpenAI, une classification réservée aux modèles jugés suffisamment puissants pour représenter un risque sérieux dans des domaines sensibles comme la cybersécurité et la biologie. En exposant volontairement son modèle à des attaquants qualifiés dans un cadre contrôlé, OpenAI cherche à identifier des failles réelles avant qu'elles ne soient exploitées à des fins malveillantes. Pour les entreprises qui envisagent de déployer des modèles génératifs dans des environnements critiques, les résultats de ce programme auront une valeur directe : ils détermineront la robustesse effective des barrières de sécurité et orienteront les prochaines mises à jour du système. Cette stratégie de "défense par l'attaque" s'inscrit dans une tendance plus large de l'industrie de l'IA, où les grands laboratoires multiplient les red teams, audits indépendants et programmes de divulgation responsable pour légitimer leurs déploiements. OpenAI fait face à une pression croissante de la part des régulateurs, des gouvernements et des acteurs de la biosécurité, inquiets de voir des modèles très capables abaisser la barrière d'accès à des connaissances dangereuses. En institutionnalisant la recherche offensive via un bounty public, l'entreprise tente de construire une forme de résilience collective tout en démontrant une transparence de façade. La question qui reste ouverte est celle de la publication des résultats : si une faille est trouvée, jusqu'où OpenAI acceptera-t-elle de dévoiler sa nature exacte, et dans quels délais corrigera-t-elle son modèle avant que d'autres ne découvrent la même vulnérabilité de leur côté ?

UELes chercheurs et entreprises européens peuvent participer au programme de bounty jusqu'au 22 juin 2026, et les résultats orienteront l'évaluation de la robustesse des modèles déployés dans des environnements critiques, directement pertinent dans le cadre des obligations de sécurité de l'AI Act.

SécuritéOpinion
1 source
GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois
127Next INpact 

GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois

OpenAI a lancé cette nuit GPT-5.5, nouvelle version de son grand modèle de langage, moins de deux mois après GPT-5.4 sorti le 5 mars. Le modèle cible explicitement les tâches complexes et mal structurées : OpenAI promet qu'on peut lui confier une requête à plusieurs volets, sans organisation précise, et lui faire confiance pour planifier, utiliser des outils, vérifier son propre travail et aller jusqu'au bout. Les progrès les plus marqués concernent le code agentique, l'utilisation de l'ordinateur et les premières étapes de la recherche scientifique. Sur Terminal-Bench, benchmark mesurant la capacité à enchaîner des actions et corriger des erreurs, GPT-5.5 creuse nettement l'écart avec son prédécesseur et ses concurrents. Les gains restent plus modérés sur GDPval et OSWorld. Côté prix, GPT-5.5 double les tarifs de GPT-5.4 en atteignant environ 5 dollars en entrée et 30 dollars en sortie par million de tokens, mais OpenAI avance que le modèle compense en utilisant moins de tokens pour des tâches équivalentes. Il est déjà disponible pour les abonnés payants Plus, Pro, Business et Enterprise, ainsi que dans Codex, avec l'accès API annoncé prochainement. Cette cadence de sortie illustre la pression concurrentielle extrême dans laquelle évolue OpenAI. Chaque mise à jour vise à maintenir un écart de performance sur Anthropic, Google et les modèles open source, dans un segment où les entreprises comparent désormais les coûts à la tâche accomplie plutôt qu'au token brut. L'argument d'efficacité de GPT-5.5, s'il se confirme en production, peut justifier la hausse tarifaire pour les usages professionnels intensifs, notamment le développement logiciel assisté et l'automatisation de workflows complexes. En parallèle, OpenAI a présenté Privacy Filter, un modèle inédit conçu pour détecter et supprimer des données personnelles dans du texte. Sa particularité : il peut tourner entièrement en local, sans envoyer les données vers un serveur, ce qui le rend utilisable sur des documents sensibles. Avec seulement 1,5 milliard de paramètres dont 50 millions actifs, il reste léger tout en traitant des contextes jusqu'à 128 000 tokens. Il couvre huit catégories : personnes privées, adresses, emails, téléphones, URL, dates privées, numéros de compte et secrets comme les mots de passe ou clés API. OpenAI est transparent sur ses limites : Privacy Filter n'est pas un outil d'anonymisation complet et exige une validation humaine dans les cas sensibles. Cette annonce s'inscrit dans un contexte réglementaire croissant autour de la protection des données, notamment en Europe, où le RGPD impose des contraintes strictes sur le traitement des informations personnelles par des systèmes d'IA.

UELe Privacy Filter, conçu pour fonctionner en local sans transfert de données, constitue une réponse directe aux exigences du RGPD et intéresse particulièrement les entreprises européennes traitant des données personnelles sensibles.

LLMsOpinion
1 source
OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval
128MarkTechPost 

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval

OpenAI a lancé GPT-5.5, son modèle le plus puissant à ce jour et le premier modèle de base entièrement réentraîné depuis GPT-4.5. Le déploiement a commencé ce jeudi pour les abonnés Plus, Pro, Business et Enterprise, aussi bien sur ChatGPT que sur Codex. Contrairement à ses prédécesseurs, GPT-5.5 est conçu dès le départ pour l'usage agentique : il ne répond pas à une simple invite, il enchaîne des actions autonomes, utilise des outils (navigation web, écriture et exécution de code, manipulation de fichiers), vérifie son propre travail et poursuit jusqu'à la fin d'une tâche sans intervention humaine à chaque étape. Les gains se concentrent sur quatre domaines : le développement logiciel, l'utilisation autonome d'un ordinateur, le travail de connaissance généraliste, et la recherche scientifique précoce. Sur SWE-Bench Pro, qui évalue la résolution de vraies issues GitHub dans quatre langages de programmation, GPT-5.5 résout 58,6 % des tâches en un seul passage. Sur Terminal-Bench 2.0, qui teste des flux de travail complexes en ligne de commande, il atteint 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro. Sur GDPval, un benchmark couvrant 44 métiers du travail de connaissance, il score 84,9 %. Sur OSWorld-Verified, qui mesure la capacité à opérer un vrai environnement informatique de manière autonome, il atteint 78,7 %. Une version Pro du modèle, dédiée aux tâches les plus exigeantes, score 90,1 % sur BrowseComp, devant Gemini 3.1 Pro à 85,9 %. Ces résultats signalent un changement qualitatif dans ce que les outils d'IA peuvent accomplir sans supervision humaine. Jusqu'ici, les modèles agentiques buttaient sur les points de transition entre les étapes d'une tâche, obligeant l'utilisateur à recadrer ou corriger. GPT-5.5 réduit ces interruptions de manière significative. Pour les ingénieurs logiciels, cela se traduit concrètement par un outil capable de comprendre l'architecture globale d'un projet, de diagnostiquer la cause profonde d'un bug et d'évaluer l'impact d'un correctif sur le reste du code, sans qu'on lui dicte chaque geste. OpenAI indique également que le modèle tient la parité de latence avec GPT-5.4 tout en utilisant moins de tokens pour accomplir les mêmes tâches, ce qui atténue la crainte habituelle que puissance rime avec lenteur et coût. GPT-5.5 s'inscrit dans une course à l'agentique où les trois grands labs américains, OpenAI, Anthropic et Google DeepMind, cherchent à transformer leurs modèles en collaborateurs capables de conduire des projets de plusieurs heures, voire plusieurs jours. Claude Opus 4.7 d'Anthropic devance GPT-5.5 sur SWE-Bench Pro avec 64,3 %, mais OpenAI conteste la comparaison en signalant des signes de mémorisation dans les évaluations d'Anthropic. Le benchmark interne Expert-SWE, qui mesure des tâches dont le temps médian de réalisation humaine est estimé à 20 heures, refactoring massif, construction de fonctionnalité, débogage en profondeur de codebase, positionne GPT-5.5 au-dessus de GPT-5.4. Le modèle est également classé premier sur l'Artificial Analysis Intelligence Index. L'enjeu n'est plus de savoir quel modèle répond le mieux à une question, mais lequel peut conduire un projet de bout en bout.

UELes équipes tech et entreprises européennes peuvent intégrer dès maintenant un modèle agentique capable de conduire des projets complexes sans supervision continue, avec un impact potentiel sur les pratiques de développement logiciel et les métiers du travail de connaissance dans l'UE.

GPT-5.5, un signal pour l'avenir
129One Useful Thing 

GPT-5.5, un signal pour l'avenir

OpenAI a déployé GPT-5.5, une nouvelle famille de modèles dont la version la plus puissante, GPT-5.5 Pro, n'est accessible que via le site chatgpt.com. Le chercheur Ethan Mollick, qui a eu un accès anticipé au modèle, a soumis une épreuve de programmation à plusieurs IA concurrentes : construire une simulation 3D à génération procédurale montrant l'évolution d'une ville portuaire de 3000 avant J.-C. jusqu'à 3000 après J.-C., avec contrôle utilisateur et rendu visuel soigné. Les modèles testés allaient de o3 d'OpenAI, lancé il y a un an, jusqu'au meilleur modèle open weights actuel, Kimi K2.6. GPT-5.5 Pro est le seul à avoir modélisé une véritable évolution urbaine au lieu de simplement remplacer des bâtiments au fil du temps. Le gain de vitesse est aussi notable : là où GPT-5.4 Pro avait mis 33 minutes pour accomplir la tâche, GPT-5.5 Pro n'en a requis que 20. Au-delà des performances brutes, cette version marque un cap dans la capacité des IA à produire des résultats complexes et cohérents sur des tâches ambitieuses de développement. Pour les développeurs et les professionnels qui utilisent l'IA comme outil de travail, la différence n'est plus seulement quantitative mais qualitative : GPT-5.5 Pro ne se contente pas de générer du code fonctionnel, il comprend l'intention derrière la demande et produit un système structuré et évolutif. OpenAI progresse également sur son application desktop Codex, qui s'aligne désormais sur la popularité de Claude Code. Enfin, le nouveau modèle d'image maison, parfois désigné GPT-imagegen-2, franchit une limite longtemps problématique : il génère du texte lisible et de haute qualité intégré aux images, ce qui ouvre des usages nouveaux en visualisation, communication et création de contenu. Cette sortie s'inscrit dans une course à l'amélioration continue qui, contrairement aux prédictions de plateau, ne montre aucun signe de ralentissement. Mollick utilise une grille d'analyse en trois dimensions, modèles, applications, outils, pour illustrer que la compétition entre OpenAI, Anthropic et Google ne se joue plus uniquement sur les benchmarks des modèles eux-mêmes, mais aussi sur l'écosystème qui les entoure. Les applications desktop comme Claude Code ou Codex deviennent le vrai terrain de bataille pour les usages professionnels. La frontière des capacités reste cependant "en dents de scie" selon l'expression de Mollick : certaines tâches longtemps difficiles sont aujourd'hui triviales, tandis que d'autres restent inégalement maîtrisées selon les modèles et les contextes.

UELes développeurs et professionnels européens ont accès direct à cette nouvelle génération de modèles, avec des gains qualitatifs significatifs pour les tâches complexes de développement logiciel.

LLMsOpinion
1 source
Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
130Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source
De nouvelles failles de sécurité chez Anthropic et OpenAI ont donné raison à Mark Zuckerberg
131The Information AI 

De nouvelles failles de sécurité chez Anthropic et OpenAI ont donné raison à Mark Zuckerberg

En l'espace de quelques heures, Anthropic et OpenAI ont tous deux été frappés par des failles de sécurité majeures. Anthropic a ouvert une enquête après que des utilisateurs ont obtenu un accès non autorisé à Mythos, son modèle d'IA le plus confidentiel. Dans le même temps, OpenAI a accidentellement rendu accessibles plusieurs de ses modèles inédits sur son application Codex, avant de corriger rapidement l'erreur. Ces deux incidents, survenus à quelques heures d'intervalle, mettent en lumière les vulnérabilités internes de deux des acteurs les plus influents du secteur. Ces brèches sont particulièrement embarrassantes pour Anthropic, qui avait longuement insisté ces dernières semaines sur le caractère exceptionnel et dangereux de Mythos. La société affirmait que ce modèle était capable de conduire des cyberattaques dévastatrices, ce qui justifiait d'en restreindre l'accès à un cercle très limité d'entreprises et d'agences gouvernementales sélectionnées. Que des utilisateurs non autorisés aient pu y accéder soulève de sérieuses questions sur la solidité réelle de ces protections et sur la crédibilité des promesses de sécurité de l'entreprise. Ces incidents surviennent alors que l'IA s'impose comme un enjeu central de la cybersécurité mondiale, les mêmes modèles pouvant servir aussi bien à défendre qu'à compromettre des systèmes. Mark Zuckerberg avait récemment critiqué les pratiques de sécurité d'Anthropic et d'OpenAI, et ces deux affaires semblent lui donner raison. Alors que ces entreprises conseillent d'autres organisations pour faire face aux cybermenaces alimentées par l'IA, elles peinent à sécuriser leurs propres actifs les plus sensibles.

UELes entreprises et institutions françaises et européennes qui s'appuient sur ces services d'IA pour des usages sensibles sont exposées à un risque accru, ces incidents fragilisant les garanties de sécurité sur lesquelles reposent leurs décisions d'adoption.

SécuritéOpinion
1 source
OpenAI dévoile Workspace Agents, successeur des GPTs personnalisés pour entreprises, intégrable à Slack, Salesforce et d'autres services
132VentureBeat AI 

OpenAI dévoile Workspace Agents, successeur des GPTs personnalisés pour entreprises, intégrable à Slack, Salesforce et d'autres services

OpenAI a lancé ce jeudi une nouvelle offre baptisée « Workspace Agents », destinée aux entreprises utilisant ChatGPT dans un cadre professionnel. Disponible dès maintenant pour les abonnés ChatGPT Business à 20 dollars par utilisateur par mois, ainsi que pour les plans Enterprise, Edu et Teachers, cette fonctionnalité permet de créer ou de sélectionner des agents depuis une bibliothèque de modèles préconfigurés, capables d'agir directement dans des outils tiers comme Slack, Google Drive, Salesforce, Notion, Microsoft 365, Atlassian Rovo et d'autres applications courantes en entreprise. Concrètement, un agent peut rédiger un email à toute une équipe, extraire des données pour générer une présentation, ou exécuter des tâches complexes en plusieurs étapes, sans que l'utilisateur à l'origine de la demande ait besoin de rester connecté. OpenAI précise que la fonctionnalité sera gratuite jusqu'au 6 mai 2026, date à laquelle une tarification basée sur des crédits entrera en vigueur. De nouvelles capacités sont annoncées : déclencheurs automatiques, tableaux de bord avancés, et intégration dans Codex, l'outil de génération de code de l'entreprise. L'enjeu principal n'est pas simplement d'avoir des assistants IA plus puissants, mais de transformer l'IA en ressource organisationnelle partagée plutôt qu'en outil de productivité individuelle. L'onglet « Agents » dans la barre latérale de ChatGPT fonctionne comme un annuaire d'équipe : les agents créés par des collègues sont accessibles et réutilisables par toute l'organisation. Ce modèle s'attaque directement à l'un des problèmes chroniques du travail en entreprise, la transmission entre personnes, systèmes et étapes d'un processus, en permettant à un agent de gérer cette complexité de bout en bout. Pour les directions informatiques et les responsables métiers, cela représente un nouveau paradigme de déploiement de l'IA : non plus des outils ponctuels, mais des workflows autonomes pilotés par des agents paramétrés selon des règles et des permissions définies par l'entreprise. La différence technique fondamentale avec les anciens « custom GPTs » réside dans l'architecture sous-jacente : ces agents sont propulsés par Codex, la plateforme cloud de développement assisté par IA qu'OpenAI a considérablement enrichie en 2026, notamment il y a six jours à peine avec l'ajout de plus de 90 plugins, de la mémoire persistante, de l'utilisation d'ordinateur en arrière-plan et de la capacité à planifier des tâches futures. Un agent Workspace n'est donc pas un simple modèle de langage qui répond à une invite : c'est une session Codex qui écrit du code, exécute des requêtes, produit des graphiques et retient ce qu'elle a appris pour la prochaine occurrence. Cette architecture d'exécution de code est ce qui distingue ces agents des solutions concurrentes reposant sur des boucles d'appels LLM classiques. À mesure qu'OpenAI annonce de nouveaux déclencheurs et une intégration plus profonde dans son écosystème, la concurrence avec Microsoft Copilot, Google Workspace AI et les plateformes d'agents comme Salesforce Agentforce s'intensifie sur le terrain stratégique des grandes entreprises.

UELes entreprises françaises et européennes abonnées à ChatGPT Business peuvent tester gratuitement ces agents intégrés à Slack, Notion, Microsoft 365 et Salesforce avant l'entrée en vigueur de la tarification le 6 mai 2026.

OutilsOutil
1 source
OpenAI transforme ChatGPT en plateforme d'automatisation d'équipe avec des agents de travail
133The Decoder 

OpenAI transforme ChatGPT en plateforme d'automatisation d'équipe avec des agents de travail

OpenAI déploie une nouvelle fonctionnalité dans ChatGPT baptisée "workspace agents", qui représente une évolution majeure des GPTs personnalisés lancés en 2023. Ces agents, propulsés par Codex, le moteur de programmation d'OpenAI, sont conçus pour automatiser des flux de travail complexes au sein des équipes professionnelles. Contrairement aux interactions classiques avec un chatbot, ces agents peuvent s'exécuter en arrière-plan, sans surveillance humaine active, et enchaîner des tâches sur la durée. L'enjeu est considérable pour les entreprises : il ne s'agit plus de demander une réponse ponctuelle à un assistant IA, mais de déléguer des processus entiers, comme la gestion de rapports, la coordination entre outils ou le traitement de données récurrentes. Ce basculement transforme ChatGPT d'un simple outil conversationnel en véritable plateforme d'automatisation d'équipe, positionnant OpenAI en concurrence directe avec des solutions comme Microsoft Copilot, Notion AI ou encore les agents proposés par Google Workspace. Cette annonce s'inscrit dans une course effrénée à l'agentique, où les grands acteurs de l'IA cherchent à s'ancrer durablement dans les outils de productivité professionnelle. OpenAI a précisé que les GPTs personnalisés existants resteraient disponibles dans l'immédiat, une transition progressive devant être proposée ultérieurement. Le choix de Codex comme moteur sous-jacent suggère une orientation forte vers les tâches techniques et développeur, même si les usages visés dépassent largement ce seul périmètre.

UEL'adoption des workspace agents ChatGPT par les entreprises européennes soulève des enjeux de conformité RGPD, les processus métier et données sensibles étant délégués à une plateforme américaine.

OutilsOutil
1 source
OpenAI et Anthropic se détournent-ils des modèles de raisonnement ?
134The Information AI 

OpenAI et Anthropic se détournent-ils des modèles de raisonnement ?

SpaceX, la société de Elon Musk, a annoncé mardi la signature d'un accord d'acquisition de Cursor, l'application d'aide au code alimentée par l'IA, pour un montant de 60 milliards de dollars. La transaction, dont la date de finalisation n'a pas été précisée, prévoit une clause de rupture de 10 milliards de dollars si l'accord venait à capoter. Il s'agit de l'une des plus grandes acquisitions jamais réalisées sur une startup financée par capital-risque. Cursor génère déjà des milliards de dollars de revenus annuels et s'est imposé comme l'un des outils de développement assisté par IA les plus utilisés dans l'industrie. Cette acquisition donnerait à xAI, la branche intelligence artificielle de Musk, une présence massive sur le marché des outils de développement, un segment où son modèle Grok peine à s'imposer. L'enjeu est considérable : le marché du coding assisté par IA est en pleine explosion, et les entreprises qui parviennent à fidéliser les développeurs sur leurs outils bénéficient d'un avantage concurrentiel durable. L'opération interviendrait dans un contexte où SpaceX prépare une introduction en bourse pouvant valoriser la société jusqu'à 1 500 milliards de dollars cet été, ce qui relativise le montant de la transaction. La bataille pour le coding IA s'annonce néanmoins difficile pour xAI. Les principaux concurrents, Claude Code d'Anthropic et Codex d'OpenAI, ont déjà une longueur d'avance en matière de modèles spécialisés et d'intégration dans les workflows des développeurs. En parallèle, la question plus large de l'évolution des architectures de modèles se pose : le raisonnement étendu, dit test-time compute, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement, est présenté comme l'une des avancées majeures de ces deux dernières années. OpenAI et Anthropic semblent pourtant revoir leurs priorités dans ce domaine, ce qui pourrait redistribuer les cartes dans la course aux modèles de coding.

BusinessOpinion
1 source
OpenAI lance GPT-Image-2
135Latent Space 

OpenAI lance GPT-Image-2

OpenAI a lancé GPT-Image-2 les 20 et 21 avril 2026, déployant simultanément le modèle sur ChatGPT, Codex et son API publique. La nouvelle version introduit deux variantes, l'une standard et l'une dotée d'un mode "thinking", ce dernier permettant au modèle de générer plusieurs candidats, de vérifier ses propres sorties et d'interroger le web lorsqu'il est couplé à un modèle de raisonnement. Les capacités mises en avant incluent le rendu de texte, la fidélité aux mises en page, l'édition d'images, le support multilingue et la génération d'artefacts visuels tels que diapositives, infographies, maquettes d'interface et QR codes. Sur les benchmarks Arena, GPT-Image-2 occupe la première place dans toutes les catégories de génération d'images : 1512 points en texte-vers-image, 1513 en édition mono-image, 1464 en édition multi-images, avec une avance de 242 points Elo sur le modèle suivant dans la catégorie texte-vers-image. Des outils tiers comme Figma, Canva, Adobe Firefly et fal ont déjà annoncé son intégration. Ce lancement représente davantage qu'une amélioration esthétique : GPT-Image-2 positionne la génération d'images comme une surface de travail professionnelle à part entière. Les réactions des développeurs convergent sur un point précis, le modèle est suffisamment fiable pour servir de référence visuelle dans des boucles de conception, de documentation technique et de prototypage d'interface. L'implication la plus structurante est que la génération d'images devient une porte d'entrée pour les agents de code : un développeur peut générer une maquette visuelle puis demander à Codex de l'implémenter directement, en utilisant l'image comme spécification. Ce flux de travail, jusqu'ici trop peu fiable pour être systématisé, devient crédible avec ce niveau de précision. Le lancement survient dans un contexte de recentrage stratégique chez OpenAI. Selon plusieurs sources, une période de concentration interne aurait précédé cette sortie, associée au départ ou à la réorganisation de l'équipe Sora, le projet de génération vidéo. Le fait que la génération d'images reste une priorité malgré ces turbulences est en soi significatif. En parallèle, d'autres acteurs avancent sur le terrain des agents : Hugging Face a présenté ml-intern, un agent open source automatisant l'ensemble de la boucle de recherche post-entraînement, avec des résultats publiés sur des benchmarks scientifiques comme GPQA, où les performances sont passées de 10% à 32% en moins de dix heures sur Qwen3-1.7B. Le même jour, Cursor aurait bouclé un accord à 60 milliards de dollars avec xAI. La semaine du 20 avril 2026 s'annonce comme l'une des plus denses de l'année en matière d'IA appliquée.

UEL'accès immédiat à l'API renforce la dépendance des entreprises et créatifs européens aux infrastructures américaines pour la génération d'images professionnelle.

CréationOpinion
1 source
Orchestration d'agents
136MIT Technology Review 

Orchestration d'agents

Les agents IA orchestrés en réseau constituent désormais la prochaine grande rupture technologique. Alors que ChatGPT a rendu les grands modèles de langage accessibles au grand public, les outils multi-agents représentent une étape qualitativement différente : des systèmes capables de déléguer, coordonner et exécuter des tâches complexes en parallèle. Claude Code, lancé par Anthropic l'année dernière, permet par exemple de piloter simultanément plusieurs dizaines de sous-agents, chacun affecté à une portion distincte d'une base de code. Chez OpenAI, Codex joue un rôle similaire. Anthropic affirme avoir développé son application de productivité Claude Cowork en seulement dix jours grâce à Claude Code, là où un projet comparable aurait nécessité plusieurs mois. Perplexity a également lancé Computer, un outil généraliste pour professionnels. Google DeepMind propose de son côté Co-Scientist, une plateforme qui permet aux chercheurs de confier à des équipes d'agents la recherche bibliographique, la génération d'hypothèses et la conception d'expériences. L'enjeu dépasse largement le secteur du logiciel. Ces outils s'adressent désormais à tous les cols blancs : gestion de boîtes mail, suivi d'inventaires, traitement des réclamations clients. La promesse centrale est de transformer le travailleur qualifié en chef de projet capable de superviser une équipe d'agents, multipliant ainsi sa productivité. Les partisans de cette technologie évoquent une rupture comparable à ce que la chaîne d'assemblage de Henry Ford a représenté pour l'industrie manufacturière au siècle dernier : une réorganisation profonde du travail de connaissance, potentiellement synonyme de suppressions massives de postes dans les fonctions tertiaires ou, à l'inverse, d'un bond de productivité sans précédent pour ceux qui sauront maîtriser ces outils. La montée en puissance de ces systèmes s'inscrit dans une dynamique portée par les géants de la tech. Des entreprises comme Nvidia et Tencent ont déjà commencé à développer leurs propres agents en s'appuyant sur des bases open source, comme celles popularisées par OpenClaw, un assistant personnel vocal qui avait capté l'attention malgré des failles de sécurité notoires. La vraie question qui se pose aujourd'hui n'est plus technique mais systémique : jusqu'où peut-on laisser des agents autonomes interagir avec des infrastructures critiques, des systèmes de santé, des plateformes financières ou des réseaux sociaux ? Les grands modèles de langage restent imprévisibles, et ce qui n'est qu'une erreur bénigne dans une interface de chat peut devenir un incident grave lorsque l'agent agit directement dans le monde réel. Le secteur avance vite, mais le cadre de contrôle, lui, peine à suivre.

UELa prolifération d'agents autonomes dans les fonctions tertiaires et les infrastructures critiques interpelle directement le cadre réglementaire européen, notamment l'AI Act qui classe certains usages d'agents autonomes comme systèmes à haut risque nécessitant audit et supervision humaine.

OutilsOutil
1 source
Thunderbolt de Mozilla : vers une IA d’entreprise 100 % auto-hébergée et privée
137Le Big Data 

Thunderbolt de Mozilla : vers une IA d’entreprise 100 % auto-hébergée et privée

Mozilla a officialisé le 16 avril 2026 le lancement de Thunderbolt, une interface d'IA conçue pour un déploiement entièrement auto-hébergé en entreprise. Développé par MZLA Technologies, la filiale responsable de Thunderbird, l'outil se positionne comme un "client d'IA souverain" capable de se connecter à des modèles existants, Claude, Codex, DeepSeek ou tout modèle open source, via des API compatibles OpenAI ou ACP. Il repose sur Haystack, un framework open source reconnu pour la construction de pipelines d'IA modulaires. Thunderbolt est disponible en applications natives sur Windows, macOS, Linux, iOS, Android et en version web, avec le code source React accessible sur GitHub. Un audit de sécurité est actuellement en cours avant une mise en production à grande échelle, et Mozilla encourage déjà les entreprises à explorer des déploiements sur site avec des licences adaptées. L'argument central de Thunderbolt est son architecture entièrement locale : les données restent sur l'infrastructure de l'entreprise, notamment via une base SQLite hors ligne, sans transit vers des services cloud externes. Le système intègre un chiffrement de bout en bout et des contrôles d'accès au niveau des appareils. Pour les organisations soumises au RGPD, aux réglementations sectorielles strictes, santé, finance, défense, ou qui manipulent des données sensibles, c'est un différenciateur décisif face aux offres de Microsoft, Google ou OpenAI qui centralisent tout. Thunderbolt prend en charge les usages devenus standards : chat, recherche, automatisation et workflows multi-appareils, ce qui limite la friction à l'adoption pour des équipes habituées aux outils IA grand public. Ce lancement s'inscrit dans une stratégie plus large que Mozilla a formulée dès novembre 2025 : "faire pour l'IA ce que nous avons fait pour le web", c'est-à-dire construire un écosystème ouvert et décentralisé face aux géants de la Big AI. Mozilla.ai, sa branche dédiée à l'IA open source, soutient en parallèle le développement d'outils et de modèles ouverts. Le pari de Mozilla est celui de l'interopérabilité contre l'enfermement propriétaire, la même philosophie qui a fondé Firefox contre Internet Explorer à l'époque. La demande pour des solutions souveraines ne cesse de croître en Europe notamment, portée par des impératifs réglementaires et une méfiance croissante envers la dépendance aux hyperscalers américains. Thunderbolt arrive donc au bon moment sur un marché B2B où la souveraineté technologique est devenue un critère d'achat à part entière, et non plus un simple argument marketing.

UEThunderbolt offre aux entreprises européennes soumises au RGPD et aux réglementations sectorielles (santé, finance, défense) une solution concrète pour déployer des workflows IA en conservant leurs données sur leur propre infrastructure, sans dépendance aux hyperscalers américains.

💬 Mozilla qui sort l'artillerie lourde sur la souveraineté IA, ça fait plaisir à voir. L'architecture tout-local avec SQLite hors ligne, l'audit sécu avant le lancement, la compatibilité OpenAI API pour brancher ses propres modèles, bon, sur le papier c'est exactement ce que les DSI européens réclamaient. Reste à voir si ça tient face aux besoins réels des grandes boîtes, parce qu'entre une démo GitHub propre et un déploiement santé à 5 000 users, il y a souvent un gouffre.

OutilsOutil
1 source
138Latent Space 

Les deux visages d'OpenClaw

Peter Steinberger, figure centrale du projet OpenClaw, a donné deux conférences simultanées le 16 avril 2026 : une intervention grand public lors du TED, axée sur les succès et l'inspiration, et une présentation plus technique à l'AIE, où il a exposé sans détour les défis d'ingénierie colossaux liés à la maintenance du projet open source à la croissance la plus rapide de l'histoire. Les chiffres sont vertigineux : OpenClaw enregistre 60 fois plus d'incidents de sécurité que le projet curl, et au moins 20 % des contributions de code soumises par la communauté sont identifiées comme malveillantes. En parallèle, Anthropic a lancé Claude Design, un outil de prototypage en préversion de recherche propulsé par Claude Opus 4.7, permettant de générer des prototypes, diapositives et documents à partir d'instructions en langage naturel, avec export vers Canva, PowerPoint, PDF et HTML, ainsi qu'un transfert direct vers Claude Code. Opus 4.7 a également été évalué par plusieurs benchmarks indépendants : il occupe la première place du Code Arena (+37 points sur Opus 4.6), la première place du Text Arena, et l'index Intelligence d'ArtificialAnalytics le place à 57,3 points, devant Gemini 3.1 Pro à 57,2 et GPT-5.4 à 56,8. L'impact de ces annonces est immédiat et multiple. Claude Design positionne directement Anthropic comme concurrent de Figma, Lovable, Bolt et v0 sur le marché des outils de design et de prototypage, et les marchés ont réagi : l'action Figma a chuté notablement dans les heures suivant l'annonce. Sur le plan de l'efficacité, Opus 4.7 produit environ 35 % moins de tokens qu'Opus 4.6 à performance supérieure, et certains utilisateurs rapportent jusqu'à dix fois moins de tokens consommés pour des problèmes d'apprentissage automatique complexes. ArtificialAnalytics place le modèle sur la frontière de Pareto prix/performance, aussi bien pour le texte que pour le code. Les 24 premières heures ont toutefois été agitées : des régressions et des échecs de contexte ont été signalés, des problèmes de stabilité ont été relevés dans Claude Design lui-même, et des incidents liés à la sécurité des comptes ont émergé, Anthropic ayant réagi rapidement pour corriger les comportements défaillants dès le lendemain. Ces événements s'inscrivent dans une convergence plus large de l'industrie vers les agents autonomes et l'utilisation des ordinateurs par les IA. OpenAI a également mis à jour Codex avec des capacités de computer use qui permettent de piloter Slack, des flux web et des applications bureau arbitraires, suscitant des réactions enthousiastes de praticiens qui y voient la première plateforme réellement utilisable en entreprise pour des logiciels legacy. Opus 4.7 abandonne le mode de réflexion étendue au profit d'un raisonnement adaptatif, et introduit la notion de budgets de tâches. Quant à OpenClaw, sa dualité, projet inspirant côté grand public, chantier sécuritaire périlleux côté ingénieurs, illustre la tension structurelle que traverse désormais tout grand projet open source alimenté par une communauté mondiale.

UEClaude Opus 4.7 et Claude Design sont immédiatement accessibles aux développeurs et entreprises européens, avec un impact concret sur les workflows de prototypage et de développement logiciel en France et en Europe.

💬 Opus 4.7 premier sur Code Arena ET Text Arena, 35% de tokens en moins pour des perfs au-dessus, c'est pas un détail. Claude Design qui fait chuter l'action Figma le jour même, ça dit tout sur la stratégie d'Anthropic : plus seulement le meilleur modèle, mais l'écosystème complet. Reste que 24h de régressions et d'incidents au lancement, faut y penser avant de migrer en prod.

LLMsActu
1 source
GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic
139Le Big Data 

GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic

OpenAI a présenté le 16 avril 2026 GPT-Rosalind, un modèle d'intelligence artificielle de nouvelle génération conçu spécifiquement pour la recherche en biologie, la découverte de médicaments et la médecine translationnelle. Baptisé en hommage à la chimiste Rosalind Franklin, ce modèle est accessible en version test via ChatGPT, Codex et l'API d'OpenAI, mais uniquement pour un cercle restreint d'organisations américaines sélectionnées. Ses capacités couvrent la génomique, l'ingénierie des protéines et la chimie moléculaire : il croise des données complexes, formule des hypothèses biologiques et conçoit des protocoles expérimentaux complets. Sur BixBench, référence sectorielle en bioinformatique, il se classe premier parmi tous les modèles ayant publié leurs résultats. Sur LABBench2, il surpasse GPT-5.4 sur six tâches sur onze, avec une performance particulièrement nette sur CloningQA, un exercice de conception de réactifs pour protocoles de clonage moléculaire. En collaboration avec Dyno Therapeutics, le modèle a été testé sur des séquences d'ARN inédites : ses propositions ont dépassé 95 % des experts humains en prédiction de protéines, et atteint le 84e percentile pour la génération de séquences. Pour la recherche biomédicale, l'enjeu est considérable. Des tâches qui mobilisaient des équipes entières pendant des années peuvent désormais être accélérées par un modèle capable de raisonner sur des structures biologiques complexes. La gratuité pendant la phase de test lève la barrière financière pour les laboratoires, leur permettant d'expérimenter sans contrainte de budget. Si les performances observées se confirment en conditions réelles, GPT-Rosalind pourrait compresser significativement les cycles de développement de médicaments, dont les délais se comptent actuellement en décennies et les coûts en milliards de dollars. OpenAI a choisi une stratégie d'accès délibérément restrictive, justifiée par la sensibilité des domaines concernés. Les organisations candidates subissent une vérification approfondie : leurs travaux doivent présenter un impact collectif identifiable et positif. Les bénéficiaires acceptent des conditions d'usage strictes et s'engagent à mettre en place des mécanismes contre les détournements. Cette prudence n'est pas anodine : un modèle capable de manipuler des concepts biologiques avancés, comme la conception de protéines ou la modification de séquences génétiques, soulève des questions de biosécurité que la communauté scientifique et les régulateurs scrutent de près. Le lancement de GPT-Rosalind s'inscrit dans une course plus large entre OpenAI, Google DeepMind et des acteurs spécialisés comme Insilico Medicine pour dominer l'IA appliquée aux sciences de la vie, un marché estimé à plusieurs centaines de milliards de dollars d'ici 2030.

UELes laboratoires et chercheurs européens sont exclus de l'accès à GPT-Rosalind, réservé à un cercle restreint d'organisations américaines, creusant l'écart avec les acteurs américains dans la course à l'IA biomédicale.

RechercheOpinion
1 source
OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique
140MarkTechPost 

OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique

OpenAI a lancé GPT-Rosalind, son premier modèle d'intelligence artificielle spécialisé dans les sciences du vivant, conçu pour accélérer la recherche en biologie, en génomique et en découverte de médicaments. Contrairement aux modèles généralistes comme GPT-5, GPT-Rosalind est fine-tuné sur les exigences analytiques propres à la recherche biologique : synthèse de littérature scientifique, conception de protocoles expérimentaux, prédiction de comportements de séquences ARN, et planification d'hypothèses. Le modèle est accessible via ChatGPT, Codex et l'API d'OpenAI, mais uniquement dans le cadre d'un programme d'accès contrôlé réservé aux entreprises qualifiées aux États-Unis. OpenAI lance simultanément un plugin Life Sciences pour Codex, connectant les modèles à plus de 50 outils scientifiques et bases de données biologiques. Sur le benchmark BixBench, conçu pour évaluer des tâches réelles de bioinformatique, GPT-Rosalind atteint un taux de réussite de 0,751. Sur LABBench2, il surpasse GPT-5.4 sur six des onze tâches testées, avec des gains particulièrement nets sur CloningQA, qui évalue la conception de réactifs pour des protocoles de clonage moléculaire. Le potentiel concret de ce modèle est illustré par une évaluation menée en partenariat avec Dyno Therapeutics sur des séquences ARN inédites, jamais intégrées à aucun corpus d'entraînement public. Dans cet environnement Codex, les meilleures soumissions du modèle se sont classées au-dessus du 95e percentile des experts humains pour les tâches de prédiction, et au 84e percentile pour la génération de séquences. Ce résultat est particulièrement significatif car il exclut tout effet de mémorisation et démontre une capacité de raisonnement réelle sur des données biologiques nouvelles. Pour l'industrie pharmaceutique, où le développement d'un médicament prend en moyenne dix à quinze ans et coûte des milliards de dollars, des outils capables de compresser les phases analytiques les plus lourdes représentent un levier économique et scientifique considérable. Ce lancement s'inscrit dans une course que se livrent les grands laboratoires d'IA pour s'imposer dans les sciences de la vie, un secteur qui attire des investissements massifs et où les enjeux réglementaires sont élevés. Google DeepMind a déjà marqué ce terrain avec AlphaFold pour la prédiction de structures protéiques, tandis que des startups comme Insilico Medicine ou Recursion Pharmaceuticals misent sur l'IA pour repenser entièrement le pipeline de découverte de médicaments. OpenAI positionne GPT-Rosalind non pas comme un remplaçant des chercheurs, mais comme un assistant capable de prendre en charge les étapes les plus chronophages du processus scientifique. L'accès restreint au lancement, avec des garde-fous techniques pour signaler les activités potentiellement dangereuses, reflète la prudence qu'impose ce domaine sensible, où une erreur de modèle pourrait avoir des conséquences directes sur des protocoles de laboratoire ou des décisions cliniques.

UEL'accès étant limité aux entreprises américaines qualifiées au lancement, l'impact immédiat sur les biotechs et laboratoires pharmaceutiques européens est indirect, mais ce type de modèle spécialisé pourrait redéfinir les standards de R&D dans un secteur encadré par la réglementation européenne sur les médicaments et les dispositifs médicaux.

LLMsActu
1 source
141VentureBeat AI 

Salesforce lance Headless 360 pour transformer sa plateforme en infrastructure pour agents autonomes

Salesforce a dévoilé mercredi, lors de sa conférence annuelle TDX à San Francisco, la transformation architecturale la plus ambitieuse de ses 27 ans d'histoire. L'initiative baptisée "Headless 360" expose l'intégralité des fonctionnalités de la plateforme sous forme d'API, d'outils MCP (Model Context Protocol) ou de commandes CLI, permettant à des agents IA d'opérer le système complet sans jamais ouvrir un navigateur. Plus de 100 nouveaux outils et compétences sont disponibles immédiatement pour les développeurs, dont plus de 60 outils MCP et 30 compétences préconfigurées donnant aux agents de codage comme Claude Code, Cursor, Codex ou Windsurf un accès direct et complet à l'ensemble d'une organisation Salesforce, données, workflows et logique métier inclus. L'environnement natif Agentforce Vibes 2.0 intègre désormais un "open agent harness" compatible avec le SDK agent d'Anthropic et celui d'OpenAI, avec support multi-modèles incluant Claude Sonnet et GPT-5. Une nouveauté technique notable : le support natif de React sur la plateforme, permettant aux développeurs de construire des interfaces front-end sans passer par le framework propriétaire Lightning de Salesforce. Cette annonce répond à une question existentielle qui pèse sur tout le secteur des logiciels d'entreprise : dans un monde où les agents IA savent raisonner, planifier et exécuter des tâches, une interface graphique a-t-elle encore une raison d'être ? Salesforce tranche clairement par la négative. La décision a été prise il y a deux ans et demi de reconstruire la plateforme pour les agents, en exposant les capacités plutôt qu'en les enfouissant derrière une interface. Pour Jayesh Govindarjan, vice-président exécutif et l'un des architectes de l'initiative, l'enjeu central est le cycle de vie complet du développement agentique : construire un agent n'est que la première étape, et les entreprises clientes font face à des défis concrets de déploiement, de gestion et d'intégration que Headless 360 entend résoudre à grande échelle. Salesforce lance cette offensive dans l'un des contextes les plus turbulents de l'histoire des logiciels SaaS. L'ETF iShares Expanded Tech-Software Sector a chuté d'environ 28 % depuis son pic de septembre 2025, alimenté par la crainte que les grands modèles de langage d'Anthropic, OpenAI et d'autres rendent les modèles économiques SaaS traditionnels obsolètes. En transformant sa plateforme en infrastructure programmable pour agents, Salesforce tente de se repositionner non plus comme un CRM avec une interface, mais comme un système d'exploitation pour l'entreprise agentique. La deuxième couche de l'initiative, l'"Agentforce Experience Layer", sépare ce qu'un agent fait de la façon dont il s'affiche, rendant des composants interactifs nativement sur Slack, mobile et autres surfaces, signe que le groupe mise sur une ubiquité d'exécution bien au-delà du navigateur.

UELes grandes entreprises françaises et européennes utilisant Salesforce devront revoir leur architecture IT et leurs stratégies d'automatisation face à ce basculement vers un modèle agent-first sans interface graphique traditionnelle.

OutilsOpinion
1 source
142Ars Technica AI 

Mozilla lance un client IA Thunderbolt axé sur l'infrastructure auto-hébergée

Mozilla vient d'annoncer Thunderbolt, un nouveau client IA destiné aux entreprises qui souhaitent héberger leur propre infrastructure d'intelligence artificielle sans dépendre de services cloud tiers. Construit sur Haystack, un framework open source permettant de créer des pipelines IA modulaires et personnalisables, Thunderbolt se positionne comme ce que Mozilla appelle un "sovereign AI client". Il est compatible avec n'importe quelle API de type OpenAI ou ACP, incluant des modèles comme Claude, DeepSeek, Codex ou OpenCode, et peut s'appuyer sur une base de données SQLite locale comme référentiel de données hors ligne. Le système propose également un chiffrement de bout en bout optionnel et des contrôles d'accès au niveau de l'appareil. Pour les entreprises, l'enjeu est considérable : garder un contrôle total sur la pile technologique IA signifie que les données sensibles ne transitent jamais vers des serveurs externes. C'est une réponse directe aux craintes croissantes des organisations face aux risques de fuite de données confidentielles vers des fournisseurs cloud comme OpenAI ou Google. En permettant l'intégration de données d'entreprise stockées localement via des protocoles ouverts, Thunderbolt s'adresse en priorité aux secteurs soumis à des contraintes réglementaires strictes : finance, santé, défense ou administrations publiques. Mozilla entre ainsi sur un marché de plus en plus encombré de solutions IA souveraines, où des acteurs comme Mistral AI en France ou diverses initiatives européennes défendent déjà le principe d'une IA indépendante des géants américains. La démarche est cohérente avec l'ADN de Mozilla, organisation à but non lucratif historiquement engagée pour un internet ouvert et décentralisé. Thunderbolt représente un pivot stratégique pour la fondation, qui cherche à monétiser son positionnement éthique dans un marché IA dominé par quelques grandes plateformes. Les suites dépendront de l'adoption par les développeurs du framework Haystack sous-jacent et de la capacité de Mozilla à convaincre les équipes IT d'entreprise de franchir le pas vers l'auto-hébergement.

UELes entreprises européennes soumises au RGPD et à l'AI Act peuvent héberger leur infrastructure IA localement avec Thunderbolt, évitant le transfert de données sensibles vers des fournisseurs cloud américains.

OutilsOutil
1 source
143Latent Space 

AI Engineer Europe 2026

La conférence AI Engineer Europe 2026 vient de s'achever après trois jours intenses qui ont réuni des centaines de professionnels de l'IA entre sessions en ligne, ateliers et plus d'une centaine de conférences en présentiel. L'événement a notamment inclus des visites au 10 Downing Street et des tables rondes en podcast avec des programmes comme ThursdAI et ETN. Sur le plan technique, la principale avancée annoncée est le modèle GLM-5.1 de Z.ai, qui a atteint la 3e place sur le classement Code Arena, dépassant apparemment Gemini 3.1 et GPT-5.4, et se positionnant au niveau de Claude Sonnet 4.6. Z.ai occupe désormais la première place parmi les modèles open source, à seulement 20 points du sommet du classement général. Alibaba a également profité de la dynamique de l'événement pour livrer Qwen Code v0.14.x, intégrant des canaux de contrôle à distance via Telegram, DingTalk et WeChat, des tâches récurrentes par cron, un contexte de 1 million de tokens avec 1 000 requêtes gratuites par jour, et un mode de planification. Ces annonces reflètent une tendance de fond qui s'impose comme nouveau paradigme d'architecture : le modèle "exécuteur léger + conseiller puissant". L'idée, formalisée conjointement par Anthropic au niveau de son API et par des chercheurs de Berkeley, consiste à utiliser un modèle rapide pour la majorité des tâches, en escaladant vers un modèle plus coûteux uniquement aux points de décision difficiles. Les résultats mesurés sont significatifs : associer Haiku à Opus doublerait le score sur BrowseComp par rapport à Haiku seul, tandis que Sonnet combiné à Opus améliorerait les performances sur SWE-bench Multilingual tout en réduisant le coût par tâche. Ce pattern a été immédiatement implémenté en open source via un middleware advisor pour LangChain DeepAgents, signe d'une adoption communautaire très rapide. Cette convergence s'inscrit dans une frustration opérationnelle croissante chez les praticiens : les grands modèles sont devenus spécialisés et instables selon les domaines. Yuchen Jin souligne par exemple qu'Opus excelle sur le frontend et les flux agentiques, pendant que GPT-5.4 est plus performant sur les systèmes backend et distribués, mais que les outils comme Claude Code ou Codex restent trop liés à un seul fournisseur. La demande se déplace donc vers des workflows capables de partager le contexte, de router automatiquement vers le bon modèle et de faire collaborer plusieurs LLM dans une seule session. Dans cet écosystème en mouvement, le framework Hermes Agent s'est distingué comme la plateforme avec le plus fort momentum, avec la sortie de sa version 0.8.0, le lancement de Hermes Workspace Mobile intégrant exécution d'outils en direct, navigateur de mémoire et catalogue de compétences, et l'annonce d'un mode FAST pour GPT-5.4.

UELa conférence s'est tenue en Europe et rassemble directement des praticiens européens ; les nouveaux patterns architecturaux (exécuteur léger + conseiller) et frameworks annoncés sont immédiatement applicables par les développeurs et entreprises IA en France et dans l'UE.

LLMsActu
1 source
144The Verge AI 

Le secteur de l'IA face à une course aux profits devenue existentielle

Anthropic et OpenAI se trouvent à un tournant critique en 2026 : après avoir absorbé des centaines de milliards de dollars d'investissements en capital, en centres de données, en puces et en infrastructure, ces deux géants de l'IA doivent désormais prouver qu'ils peuvent devenir des entreprises véritablement rentables. Les projections financières des deux sociétés, révélées cette semaine par le Wall Street Journal, évoquent une croissance vertigineuse, avec des revenus se chiffrant en centaines de milliards de dollars d'ici la fin de la décennie. Cette semaine encore, OpenAI a levé 122 milliards de dollars supplémentaires, signalant que les marchés continuent de parier sur leur succès, mais la pression pour transformer cet argent en bénéfices n'a jamais été aussi intense, notamment à l'approche de deux des plus grandes introductions en bourse de l'histoire. Ce qui précipite la crise, c'est l'essor des agents IA comme Claude Code, Cowork ou Codex d'OpenAI, qui consomment des ressources de calcul à une cadence bien supérieure à ce que ces entreprises avaient anticipé. Pour gérer cette pression sur leurs infrastructures, les deux sociétés prennent des décisions douloureuses. OpenAI a brutalement supprimé son application de génération vidéo Sora le mois dernier, abandonnant au passage un contrat de licence d'un milliard de dollars avec Disney, au motif que le service coûtait trop cher à faire tourner et que la capacité de calcul était nécessaire pour Codex. Anthropic a de son côté décidé la semaine dernière d'interdire aux utilisateurs de Claude de consommer librement des ressources via le framework open source OpenClaw dans le cadre d'un abonnement standard, les forçant à basculer vers des plans à la consommation, nettement plus onéreux. Ces arbitrages révèlent une tension structurelle qui traverse toute l'industrie de l'IA : les modèles économiques construits sur l'abonnement mensuel ne tiennent plus face à l'appétit en calcul des agents. La plupart des dirigeants du secteur, interrogés ces derniers mois, anticipent d'ailleurs une vague de faillites spectaculaires parmi les acteurs les moins bien capitalisés, estimant que le marché ne pourra pas soutenir indéfiniment toutes les entreprises actuellement en course. Pour Anthropic et OpenAI, dont les introductions en bourse se profilent comme des événements majeurs, la question n'est plus simplement de savoir si l'IA générative est utile, mais si elle peut générer suffisamment de revenus pour justifier les valorisations colossales promises aux investisseurs. Les compromis opérationnels observés ces dernières semaines ne sont probablement que les premiers signes visibles d'un rééquilibrage profond qui va redéfinir quels produits survivent, et à quel prix.

UELe basculement vers une facturation à la consommation pour les agents IA va renchérir les coûts d'usage pour les développeurs et entreprises européens dépendant des APIs d'OpenAI et d'Anthropic.

BusinessOpinion
1 source
Import AI 452 : lois d'échelle pour la cyberguerre, automatisation par IA en hausse et énigme autour des prévisions de PIB
145Import AI 

Import AI 452 : lois d'échelle pour la cyberguerre, automatisation par IA en hausse et énigme autour des prévisions de PIB

Les systèmes d'intelligence artificielle progressent dans leur capacité à mener des cyberattaques à un rythme alarmant, selon une étude publiée par l'organisation de sécurité Lyptus Research. En analysant les performances des modèles frontières depuis 2019, les chercheurs ont mesuré un doublement des capacités offensives tous les 9,8 mois en moyenne, un rythme qui s'est encore accéléré à 5,7 mois pour les modèles sortis depuis 2024. Les derniers modèles évalués, GPT-5.3 Codex et Opus 4.6, atteignent un taux de réussite de 50 % sur des tâches qui demandent à des experts humains en sécurité offensive entre 3,1 et 3,2 heures de travail. L'étude s'appuie sur sept benchmarks reconnus, dont CyBench, CVEBench et InterCode CTF, complétés par un jeu de données inédit de 291 tâches calibrées par dix professionnels en cybersécurité offensive. Par ailleurs, une seconde étude menée conjointement par l'INSEAD et Harvard Business School sur 515 startups en forte croissance montre que les entreprises formées à l'intégration de l'IA dans leurs processus internes réalisent 12 % de tâches supplémentaires, sont 18 % plus susceptibles d'acquérir des clients payants et génèrent 1,9 fois plus de revenus que les entreprises non formées. Ces résultats posent des questions fondamentales sur la double nature des systèmes d'IA. Un modèle performant pour détecter des vulnérabilités dans du code à des fins défensives peut être retourné en outil d'attaque sans modification. C'est ce que les chercheurs de Lyptus désignent comme le problème de la machine universelle : chaque gain de capacité générale amplifie simultanément les risques dans des domaines sensibles, de la cybersécurité à la biologie en passant par la physique des hautes énergies. Concrètement, les meilleurs modèles actuels peuvent aujourd'hui automatiser l'équivalent d'une demi-journée de travail d'un expert en sécurité offensive. Sur le front économique, la même dynamique joue en faveur des entreprises qui s'approprient l'IA : les startups traitées dans l'expérience de l'INSEAD ont concentré leurs gains principalement sur le développement produit et la stratégie, avec une augmentation de 44 % des cas d'usage IA identifiés. Le rythme d'accélération documenté par Lyptus place les décideurs politiques dans une course contre la montre. Les modèles open-weight les plus récents, comme GLM-5, n'accusent qu'un retard de 5,7 mois sur la frontière des modèles propriétaires, ce qui signifie que des capacités offensives avancées se diffuseront rapidement hors de tout contrôle centralisé. La chronologie des modèles évalués, de GPT-2 en 2019 aux modèles de 2026 comme Opus 4.6 et Sonnet 4.6, illustre une trajectoire continue et sans rupture. Les enjeux dépassent la cybersécurité stricte : ils interrogent la gouvernance globale de l'IA, la réglementation des modèles open-source, et la capacité des États à anticiper des menaces dont la vitesse de développement dépasse celle des cadres législatifs existants.

UEL'accélération des capacités offensives des modèles IA pose un défi direct aux régulateurs européens : l'AI Act risque d'être structurellement dépassé par la diffusion rapide de modèles open-weight aux capacités de cyberattaque avancées, menaçant infrastructures critiques et cadres législatifs existants.

💬 Les lois d'échelle appliquées à la cyberguerre, c'est le truc qu'on préférerait ne pas voir confirmé par une étude sérieuse. Un doublement des capacités offensives tous les 5,7 mois sur les derniers modèles, ça veut dire que les cadres réglementaires comme l'AI Act sont obsolètes avant même d'entrer en vigueur. Et le pire, c'est que les modèles open-weight suivent la frontière avec moins de 6 mois de retard, donc aucun contrôle centralisé ne tiendra.

SécuritéOpinion
1 source
L'App Store d'Apple enregistre 84 % de nouvelles apps en plus ce trimestre : l'effet du Vibe Coding ?
146The Information AI 

L'App Store d'Apple enregistre 84 % de nouvelles apps en plus ce trimestre : l'effet du Vibe Coding ?

L'App Store d'Apple a enregistré une hausse spectaculaire de 84 % du nombre de nouvelles applications publiées au premier trimestre 2026, atteignant 235 800 apps contre la même période un an plus tôt, selon les données de la société d'analyse Sensor Tower. Cette accélération s'inscrit dans un retournement de tendance amorcé en 2025, année où les nouvelles applications avaient déjà bondi de 30 % pour approcher les 600 000 sur l'ensemble de l'année. Ce rebond contraste avec une décennie de déclin : entre 2016 et 2024, le nombre de nouvelles apps avait chuté de 48 %. Le principal facteur avancé pour expliquer cette explosion est l'essor fulgurant des outils de "vibe coding", ces assistants de programmation propulsés par l'intelligence artificielle qui permettent à des non-développeurs de créer des applications fonctionnelles en quelques heures. Claude Code d'Anthropic, lancé en préversion limitée en février 2025 puis disponible plus largement dès mai, figure parmi les outils les plus emblématiques de cette vague. OpenAI a suivi avec Codex, présenté en préversion en mai 2025 et déployé plus largement en octobre. Ces outils abaissent drastiquement la barrière technique à l'entrée, ouvrant la création d'applications à des millions de personnes sans formation en développement logiciel. Ce retournement intervient après des années de consolidation du marché mobile, où les grands éditeurs dominaient et où les développeurs indépendants peinaient à se faire une place. L'arrivée des outils d'IA générative appliqués au code redistribue les cartes : particuliers, startups et entreprises sans équipes techniques peuvent désormais prototyper et publier rapidement. Si la tendance se confirme, elle pourrait redessiner la dynamique concurrentielle de l'App Store, multiplier les niches d'applications hyper-spécialisées, et relancer un débat sur la qualité et la modération d'un catalogue qui pourrait gonfler à une vitesse inédite.

UELes développeurs et entrepreneurs français peuvent tirer parti des outils de vibe coding pour publier des applications, mais les données Sensor Tower citées concernent principalement le marché américain sans mesure spécifique à l'Europe.

💬 84 % de nouvelles apps en un trimestre, c'est pas rien. Le vibe coding n'est pas une lubie de devs qui veulent déléguer le sale boulot, c'est vraiment en train de déverrouiller un marché que je pensais condamné au rachat progressif par les GAFA. La question qui me reste : parmi ces 235 000 apps, combien tiendront six mois ?

OutilsOutil
1 source
L'IA entre dans une nouvelle phase d'accélération
147OpenAI Blog 

L'IA entre dans une nouvelle phase d'accélération

OpenAI a levé 122 milliards de dollars lors d'un nouveau tour de financement destiné à accélérer le développement de l'intelligence artificielle de frontier à l'échelle mondiale. Cette opération, l'une des plus importantes jamais réalisées dans le secteur technologique, doit permettre à la société de Sam Altman d'investir massivement dans les infrastructures de calcul de nouvelle génération et de répondre à la demande croissante pour ses produits phares — ChatGPT, Codex et ses offres enterprise. L'ampleur de ce financement traduit une course aux ressources computationnelles sans précédent : entraîner et déployer des modèles de frontier exige des milliers de GPU spécialisés et des datacenters à la consommation électrique colossale. Pour les entreprises clientes et les millions d'utilisateurs de ChatGPT, cela signifie une capacité accrue, une disponibilité améliorée et vraisemblablement de nouveaux modèles plus puissants dans les prochains mois. Cette levée s'inscrit dans une dynamique où les grands laboratoires d'IA — OpenAI, Google DeepMind, Anthropic — se livrent une compétition acharnée pour dominer la prochaine vague de l'IA générale. OpenAI, valorisé à plusieurs centaines de milliards de dollars, consolide ainsi sa position de leader tout en cherchant à convertir sa domination technologique en un modèle économique durable face à une concurrence mondiale qui s'intensifie.

UECette levée de fonds renforce la domination d'OpenAI et accentue la dépendance des entreprises et utilisateurs européens vis-à-vis des grands laboratoires américains, un enjeu direct pour la souveraineté numérique de l'UE.

BusinessActu
1 source
OpenAI tue Sora : comment l’IA de vidéo tant attendue a fait un flop ?
148Le Big Data 

OpenAI tue Sora : comment l’IA de vidéo tant attendue a fait un flop ?

Le mardi 24 mars 2026, l'équipe officielle de Sora a publié un message d'adieu sur X, confirmant la fermeture définitive du générateur de vidéos par IA d'OpenAI. Six mois seulement après son lancement grand public en septembre 2025, l'application est débranchée. Pourtant, les débuts avaient été spectaculaires : Sora avait franchi le million de téléchargements plus vite que ChatGPT en son temps. Mais l'euphorie a été de courte durée. Dès janvier 2026, les téléchargements chutaient de 45 % en un mois, le taux de rétention à 30 jours s'effondrait sous les 8 %, et sur le dernier mois, l'outil ne réunissait plus que 600 000 utilisateurs actifs, relégué à la 172e place de l'App Store. Pendant ce temps, faire tourner l'infrastructure coûtait à OpenAI 15 millions de dollars par jour — une hémorragie financière impossible à tenir. L'accord avec Disney, qui avait investi un milliard de dollars en décembre pour permettre l'intégration de plus de 200 personnages franchisés (Marvel, Star Wars, Pixar) dans les vidéos générées, est lui aussi annulé, l'investissement ne s'étant finalement jamais concrétisé. La fermeture de Sora est avant tout un signal stratégique fort : OpenAI prépare son introduction en bourse pour le quatrième trimestre 2026 et doit convaincre Wall Street de sa rentabilité. Fidji Simo, nouvelle responsable de la division AGI Deployment, a été explicite en interne : l'entreprise ne peut plus se disperser dans des « quêtes secondaires ». Sam Altman a réorganisé ses priorités autour de la levée de capitaux et de la construction de centres de données. Toute la puissance de calcul libérée par l'arrêt de Sora est redirigée vers les clients B2B, jugés bien plus lucratifs. La semaine précédant l'annonce, OpenAI confirmait aussi la fusion de ChatGPT desktop, de son outil de code Codex et de son navigateur web en une seule « super-app » — une consolidation qui illustre cette nouvelle discipline budgétaire. L'entraînement d'un nouveau modèle, nom de code « Spud », vient par ailleurs de s'achever, confirmant que les priorités technologiques ont changé de camp. Sora était apparu en février 2024 comme une promesse de révolution pour Hollywood, capable de générer des vidéos photoréalistes à partir d'un simple texte. Son lancement public avait suscité un engouement mondial, mais le fossé entre la démonstration technique et l'usage quotidien s'est révélé impossible à combler face à la brutalité des chiffres économiques.

UELes créateurs de contenu et studios européens utilisant Sora perdent l'accès à l'outil et doivent se tourner vers des alternatives concurrentes pour leurs productions vidéo générées par IA.

BusinessOpinion
1 source
149Les Numériques IA 

Actualité : Le Windows de l'IA se construit sous vos yeux : OpenAI rachète tout et fusionne ChatGPT dans une “super app”

OpenAI a annoncé le 20 mars la fusion de ChatGPT, du navigateur Atlas et de Codex en une seule application desktop. Cette "super app" vise à centraliser conversation IA, recherche web et génération de code dans un seul logiciel. Une stratégie qui rappelle la consolidation opérée par Windows dans l'écosystème PC.

UELa consolidation des produits OpenAI en une super-app renforce la position dominante d'un acteur américain et pourrait attirer l'attention des régulateurs européens de la concurrence.

OutilsOpinion
1 source
[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027
150Latent Space 

[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027

Au GTC de NVIDIA, Jensen Huang a présenté les architectures Blackwell et Rubin en forte croissance, dévoilé le CPU Vera, et annoncé un carnet de commandes estimé à 1 000 milliards de dollars pour 2027, tout en lançant NemoClaw comme réponse aux failles de sécurité d'OpenClaw. En parallèle, Moonshot (Kimi) a publié un papier sur les "Attention Residuals" promettant un avantage de calcul de 1,25x avec moins de 2 % de surcoût à l'inférence, validé sur le modèle Kimi Linear 48B, bien que la nouveauté de l'approche soit débattue. Du côté d'OpenAI, Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires (+4x depuis janvier), tandis que GPT-5.4 a atteint 5 000 milliards de tokens par jour et un milliard de dollars de revenus annualisés en une semaine.

UELes laboratoires et entreprises européens déployant des infrastructures IA devront intégrer les nouvelles architectures NVIDIA (Vera CPU, Rubin) dans leur feuille de route hardware, avec des implications budgétaires majeures sur les prochains cycles d'investissement.

LLMsActu
1 source