Aller au contenu principal

Dossier Agents IA — page 4

1550 articles · page 4 sur 31

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions
151NVIDIA AI Blog InfrastructureActu

NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions

Au festival Cannes Lions, qui se tient du 22 au 26 juin en France, plusieurs entreprises partenaires de NVIDIA présentent leurs solutions d'intelligence artificielle pour transformer la publicité et le marketing à grande échelle. Parmi elles : Alembic, Amazon Web Services (AWS), Criteo, Higgsfield, KERV.ai et Taboola. Alembic, spécialisée dans l'IA causale, sera la première entreprise du secteur à utiliser les systèmes NVIDIA DGX Vera Rubin SuperPODs pour modéliser les véritables moteurs de croissance marketing, non plus de simples corrélations, mais des relations de causalité réelles entre canaux, marchés et audiences. Criteo, qui gère l'un des plus grands réseaux de recommandation publicitaire au monde, a quant à elle atteint une accélération d'environ deux fois plus rapide dans l'entraînement de ses modèles grâce aux GPU NVIDIA Blackwell et à la bibliothèque open source cuEmbed, libérant ainsi près de 17 000 heures de GPU par an. AWS propose de son côté une pile d'infrastructure clé en main pour les acteurs de l'adtech, permettant de faire tourner des modèles d'IA directement dans les fenêtres d'enchères en temps réel via NVIDIA Triton Inference Server. Taboola utilise ces mêmes GPU pour alimenter DeeperDive, son moteur de réponses conversationnelles. Ces annonces illustrent un basculement profond dans l'industrie publicitaire : là où le numérique avait apporté la vitesse, l'IA apporte désormais l'autonomie opérationnelle. Pour les régies et plateformes publicitaires, l'enjeu n'est plus de savoir si elles adopteront l'IA, mais si leur infrastructure pourra suivre le rythme. La capacité à enchérir, recommander et optimiser en quelques millisecondes sur des milliards de transactions quotidiennes nécessite une puissance de calcul que seuls les GPU spécialisés peuvent fournir aujourd'hui. Pour Criteo, gagner 17 000 heures GPU par an, c'est concrètement réduire les coûts de calcul tout en améliorant la pertinence des recommandations produit pour des centaines de millions d'acheteurs. Pour les annonceurs utilisant AWS, passer de règles manuelles à des modèles d'IA pour l'optimisation des prix d'enchère représente un avantage concurrentiel direct sur les marchés programmatiques. Cette convergence entre NVIDIA et l'écosystème publicitaire s'inscrit dans une dynamique plus large d'industrialisation de l'IA à l'échelle des entreprises. NVIDIA, dont les GPU dominent le marché de l'entraînement des modèles d'IA, cherche désormais à s'imposer aussi dans l'inférence à la milliseconde, le moment où l'IA doit prendre une décision en production. Cannes Lions, rendez-vous annuel de l'industrie créative et publicitaire mondiale, devient ainsi une vitrine technologique où les fournisseurs d'infrastructure rivalisent pour convaincre les grandes marques et agences que l'IA agentique, des systèmes capables de planifier, exécuter et optimiser des campagnes de manière autonome, est désormais prête pour le déploiement en entreprise.

UECriteo, acteur français majeur de l'adtech, économise 17 000 heures GPU par an grâce aux puces NVIDIA Blackwell, renforçant directement sa compétitivité sur les marchés programmatiques européens.

1 source
Intelligence contextuelle pour vos données et agents IA à grande échelle
152AWS ML Blog 

Intelligence contextuelle pour vos données et agents IA à grande échelle

Amazon Web Services a annoncé lors de l'AWS Summit New York City le lancement prochain d'AWS Context, un nouveau service conçu pour donner aux agents d'intelligence artificielle un accès structuré et gouverné à l'ensemble des données d'une organisation. Le service construit automatiquement un graphe de connaissances en cartographiant les relations entre les sources de données existantes, lacs de données, entrepôts, bases de données, flux en temps réel, et expose ce graphe via des API de recherche agentique et des outils MCP. Les équipes data peuvent gérer ce graphe depuis une console dédiée, valider les relations inférées automatiquement, les promouvoir en production, et y attacher des définitions métier ou des règles d'usage. AWS Context s'appuie sur la technologie qui alimente déjà Amazon QuickSight Q, un graphe de connaissances personnel utilisé quotidiennement par des centaines de milliers d'utilisateurs et traitant des millions de requêtes par jour. La nouveauté : ce graphe devient organisationnel, partagé entre tous les agents et applications d'une entreprise. Les métadonnées clés sont publiées au format Apache Iceberg dans Amazon S3, ce qui les rend interrogeables via Athena, Redshift ou Spark. L'enjeu est fondamental pour les entreprises qui déploient des agents IA en production : un agent ne peut prendre de décisions fiables que s'il dispose du bon contexte au bon moment. Aujourd'hui, ce contexte est dispersé entre des dizaines de systèmes hétérogènes, et une grande partie de la connaissance institutionnelle n'est tout simplement pas écrite. AWS Context vise à combler ce vide en créant une couche de contexte centralisée, gouvernée et accessible en temps réel. Pour les utilisateurs existants d'Amazon QuickSight Q, le bénéfice est immédiat : une fois AWS Context activé, leurs agents accèdent automatiquement au graphe étendu, incluant les relations inter-systèmes et les règles métier qui dépassent ce qu'un graphe personnel peut offrir. AWS Glue Data Catalog, Amazon SageMaker Unified Studio et AWS Lake Formation s'intègrent nativement au service. Ce lancement s'inscrit dans une course industrielle plus large autour de ce qu'AWS appelle l'« intelligence de contexte ». Les grands fournisseurs cloud rivalisent pour proposer des infrastructures permettant aux agents IA de raisonner sur des données d'entreprise réelles, sans que les équipes aient à construire des pipelines de récupération complexes. AWS Context se distingue par deux caractéristiques : son graphe apprend automatiquement de l'usage des agents, propageant les chemins de jointure corrects et les ambiguïtés résolues à l'ensemble de l'organisation sans intervention humaine ; et son architecture ouverte, basée sur Apache Iceberg, garantit que les métadonnées restent portables et auditables, indépendamment des outils choisis. Le service est également conçu pour se connecter à des catalogues tiers, étendant le graphe au-delà de l'écosystème AWS. La disponibilité générale n'a pas encore été précisée.

InfrastructureActu
1 source
Amazon Bedrock AgentCore : des agents plus informés et capables d'apprentissage continu
153AWS ML Blog 

Amazon Bedrock AgentCore : des agents plus informés et capables d'apprentissage continu

Amazon a annoncé cette semaine de nouvelles fonctionnalités pour Bedrock AgentCore, sa plateforme de développement d'agents IA, avec pour objectif de combler l'écart entre la puissance théorique des modèles de langage et leurs performances réelles en production. La mise à jour introduit trois couches d'accès à la connaissance : la Managed Knowledge Base, un outil de recherche web natif, et un accès à des données payantes. La Managed Knowledge Base permet désormais aux agents de se connecter directement aux sources de données internes des entreprises, SharePoint, Google Drive, Confluence, S3 et wikis internes, sans que les équipes techniques aient à construire leurs propres pipelines d'ingestion. Amazon gère le stockage vectoriel, les modèles d'embeddings et de reranking, ainsi que les questions de scalabilité. Au cœur de ce système se trouve un retriever agentique qui va bien au-delà du RAG classique : il planifie des requêtes croisées sur plusieurs bases de connaissance, relie des concepts connexes entre documents, et évalue les résultats intermédiaires avant de répondre. L'outil Web Search, lui, s'appuie sur la même infrastructure de recherche qui propulse Alexa+, Amazon Quick Suite et Kiro, et renvoie des extraits optimisés pour la densité d'information par token. Ces ajouts répondent à un problème concret et coûteux pour les entreprises déployant des agents IA : un modèle aussi performant soit-il reste inutile s'il ne peut pas accéder au document où se trouve la réponse. Un agent de service client incapable d'atteindre la politique de remboursement stockée dans SharePoint, un agent de recherche limité à ses données d'entraînement, un conseiller financier privé de données de marché en temps réel, tous sont des cas réels qui freinent le déploiement en production. La Managed Knowledge Base élimine plusieurs mois d'ingénierie préalable, tandis que le Web Search maintient les données dans l'environnement sécurisé AWS du client, un point critique pour les secteurs réglementés comme la finance ou la santé. Cette annonce s'inscrit dans la compétition intense entre fournisseurs cloud pour s'imposer comme plateforme de référence pour les agents IA d'entreprise. AWS, Google Cloud avec Vertex AI et Microsoft avec Azure AI Foundry se disputent le même marché : les équipes qui veulent déployer des agents capables d'agir réellement sur des données métier, pas seulement générer du texte. Amazon capitalise ici sur son infrastructure de recherche existante et son écosystème de services cloud pour offrir une intégration verticale que les solutions tierces ont du mal à concurrencer. La promesse d'amélioration continue via des boucles de rétroaction en production, mentionnée dans l'annonce, suggère qu'AgentCore ambitionne de devenir non seulement un outil de déploiement mais une plateforme d'optimisation itérative des agents dans la durée.

UELes entreprises européennes des secteurs réglementés (finance, santé) peuvent adopter ces fonctionnalités, les données restant dans l'environnement AWS sécurisé du client, ce qui simplifie la conformité réglementaire.

💬 Le vrai goulot d'étranglement pour les agents en prod, c'est jamais le modèle, c'est l'accès aux données d'entreprise. Avec AgentCore, Amazon efface plusieurs mois d'ingénierie RAG maison (SharePoint, Confluence, S3 gérés nativement) et garde les données dans son cloud sécurisé. AWS joue ici son principal atout : l'intégration verticale que ni Google ni Microsoft ne peuvent répliquer aussi facilement.

OutilsOutil
1 source
HSBC et Google Cloud scellent un partenariat pour l’IA bancaire
154Le Big Data 

HSBC et Google Cloud scellent un partenariat pour l’IA bancaire

HSBC et Google Cloud ont annoncé le 17 juin 2026, lors du Google Cloud Summit de Londres, un partenariat pluriannuel destiné à accélérer le déploiement de l'intelligence artificielle dans l'ensemble des activités du groupe bancaire britannique. L'accord prévoit le déploiement de plus de 200 nouveaux cas d'usage de l'IA en deux ans, en s'appuyant sur les modèles Gemini et la plateforme Gemini Enterprise Agent de Google DeepMind. HSBC héberge déjà plus de 600 applications sur Google Cloud et identifie parmi ses projets prioritaires plusieurs initiatives susceptibles de générer chacune plus de 100 millions de dollars de revenus supplémentaires ou de gains d'efficacité. La collaboration impliquera les équipes d'ingénierie de Google Cloud et de Google DeepMind pour co-développer des outils sur mesure adaptés aux contraintes du secteur financier. Ce partenariat marque un tournant dans la maturité de l'IA bancaire : les investissements ne sont plus justifiés par l'innovation en tant que telle, mais par leur impact mesurable sur la performance opérationnelle et financière. Les trois axes stratégiques annoncés illustrent cette logique. D'abord, la gestion de patrimoine hyper-personnalisée, qui permettra à des milliers de conseillers financiers de proposer des recommandations contextualisées en temps réel, répondant aux attentes de clients habitués aux standards des grandes plateformes numériques. Ensuite, la lutte contre la criminalité financière : HSBC traite près d'un milliard de transactions par mois et estime pouvoir intervenir deux fois plus rapidement après détection d'un risque grâce aux systèmes agentiques, réduisant ainsi les pertes potentielles tout en renforçant la conformité réglementaire. Enfin, des assistants décisionnels internes visent à améliorer l'efficacité opérationnelle des équipes à l'échelle mondiale. Ce rapprochement s'inscrit dans une tendance lourde qui voit les grandes banques mondiales nouer des alliances stratégiques avec les hyperscalers pour ne pas être distancées par des concurrents plus agiles. Google Cloud, qui multiplie les partenariats dans la finance, positionne Gemini comme la colonne vertébrale des systèmes bancaires de prochaine génération. Pour HSBC, déjà engagé dans une transformation numérique de grande ampleur depuis plusieurs années, ce partenariat représente une montée en puissance significative après une phase d'expérimentation. La banque affirme vouloir conserver l'expertise humaine au cœur de la décision, un positionnement qui répond autant aux exigences réglementaires des marchés où elle opère qu'aux attentes de ses clients institutionnels et privés. Les prochains mois permettront de vérifier si ces ambitions se traduisent en déploiements concrets à l'échelle annoncée.

UEHSBC dispose d'opérations bancaires significatives en France et dans l'UE ; ce partenariat accélère la transformation IA d'un acteur systémique mondial présent sur les marchés européens et exerce une pression concurrentielle sur les grandes banques de la zone euro pour qu'elles accélèrent leur propre feuille de route IA.

BusinessOpinion
1 source
DeLM de Stanford réduit de 50 % les coûts des tâches multi-agents, sans orchestrateur central
155VentureBeat AI 

DeLM de Stanford réduit de 50 % les coûts des tâches multi-agents, sans orchestrateur central

Des chercheurs de Stanford ont publié un article de recherche présentant DeLM (Decentralized Language Model), un nouveau cadre pour les systèmes multi-agents qui abandonne le modèle centralisé dominant dans les frameworks d'IA actuels. Développé par Yuzhen Mao et Azalia Mirhoseini, DeLM remplace l'agent orchestrateur central par une architecture décentralisée reposant sur une base de connaissances partagée et une file d'attente de tâches. Concrètement, les agents travaillent en parallèle, lisent directement les résultats vérifiés de leurs pairs sous forme de "gists" (résumés compacts), et sélectionnent eux-mêmes les sous-tâches disponibles dans la file. Aucun agent principal ne collecte, filtre ou redistribue les informations. Selon les auteurs, cette approche réduit les coûts d'inférence de 50 % par rapport aux architectures centralisées classiques. Cette réduction de coût n'est pas un simple gain marginal : elle remet en question un postulat fondamental sur lequel reposent la plupart des frameworks multi-agents existants comme LangChain, AutoGen ou CrewAI. Dans les systèmes traditionnels, l'orchestrateur central devient rapidement un goulot d'étranglement lorsque le nombre de sous-tâches augmente. Il doit recevoir tous les rapports des sous-agents, décider quoi fusionner, quoi ignorer, puis redistribuer le contexte filtré, risquant à chaque étape de "diluer, omettre ou déformer" des informations utiles. Ce va-et-vient ralentit la coordination et contraint l'ensemble du système aux capacités d'un seul agent surchargé. DeLM contourne ce problème en permettant aux agents de construire directement sur le travail vérifié de leurs pairs, d'éviter les échecs déjà documentés et de ne récupérer les preuves détaillées que lorsqu'ils en ont besoin. L'essor des systèmes multi-agents en IA reflète une tendance de fond : face aux limites des modèles de langage individuels sur des tâches complexes et longues, l'industrie mise sur la décomposition parallèle du travail. Mais cette parallélisation a un coût en latence et en tokens que les équipes d'ingénierie peinent à contenir. Les travaux de Mao et Mirhoseini s'inscrivent dans une réflexion plus large sur l'architecture optimale pour des raisonnements à longue portée, notamment dans des scénarios de recherche d'information ou de résolution de problèmes multi-étapes. DeLM introduit également un mécanisme de vérification des gists avant leur partage : seuls les résultats validés entrent dans le contexte commun, limitant la propagation d'erreurs. Si ces résultats se confirment dans des benchmarks plus larges et des environnements de production, DeLM pourrait influencer la prochaine génération de frameworks agentiques, à un moment où les coûts d'inférence restent l'un des principaux freins au déploiement à grande échelle des systèmes d'IA autonomes.

RecherchePaper
1 source
Les assureurs réorientent leur stratégie IA vers la souscription des risques fondamentaux
156AI News 

Les assureurs réorientent leur stratégie IA vers la souscription des risques fondamentaux

Les assureurs mondiaux ont franchi un cap décisif dans leur rapport à l'intelligence artificielle : selon l'Evident AI Index 2026, qui suit 30 grands groupes du secteur, les investissements IA se déplacent désormais des projets expérimentaux vers les fonctions à haute valeur ajoutée, notamment la souscription de risques et l'allocation de capital. Concrètement, pendant que les effectifs globaux du secteur reculaient de 2,2 % sur un an, les postes spécialisés en IA progressaient de 32 %, portant les experts IA à un ratio de 1 pour 50 salariés. Près de 40 % des assureurs indexés ont aussi nommé un dirigeant senior explicitement responsable de l'IA au cours des douze derniers mois. Zurich Insurance illustre ce virage avec éclat : le groupe est passé de la 12e à la 4e place du classement mondial en déployant ZurichIQ, une plateforme IA modulaire intégrée à la souscription, aux sinistres, au juridique et aux opérations de service. Des outils spécialisés comme PolicyIQ (comparaison de contrats) et GuidelineIQ (respect des normes de souscription) fonctionnent dans un environnement unifié, adossé à un programme d'apprentissage interne de 1,3 million de livres sterling. L'enjeu financier est considérable : les sinistres représentant entre 60 et 80 % des primes encaissées, des gains même modestes sur la détection de fraude ou la sélection des risques produisent un impact sur les résultats sans commune mesure avec les économies administratives classiques. C'est pourquoi les conseils d'administration, longtemps sceptiques face au coût de l'IA, commencent à exiger des données de retour sur investissement concrètes, et les premiers acteurs à les publier créent une dynamique de transparence qui devrait s'accélérer. L'adoption de l'IA agentique, des systèmes capables de coordonner des actions sur plusieurs étapes d'un processus sans intervention humaine, illustre cette montée en puissance : un quart des nouveaux cas d'usage déclarés présentent désormais des caractéristiques agentiques, contre un sur vingt il y a seulement six mois. Ce basculement reflète une maturation structurelle du secteur. Pendant des années, les assureurs ont rivalisé sur leurs ambitions en matière d'IA, accumulant des infrastructures de données et des équipes data engineering. Cette phase de construction touche à sa fin : les profils data engineers cèdent du terrain face aux développeurs IA et aux intégrateurs de solutions métier. Zurich résume la logique dominante avec sa formule : l'IA n'est plus une initiative technologique, elle devient le système d'exploitation de l'entreprise. Pour les concurrents qui n'ont pas encore effectué cette transition, la pression des actionnaires et la publication croissante de ROI mesurables par les leaders du secteur devraient accélérer la convergence vers des modèles de plateformes unifiées et gouvernées, au détriment des expérimentations décentralisées.

UELes grands assureurs européens comme AXA, Allianz ou Generali sont directement soumis à la même pression concurrentielle et actionnariale que documente l'Evident AI Index 2026, les poussant à migrer l'IA vers leurs fonctions cœur de souscription et de gestion des sinistres.

BusinessOpinion
1 source
Les tests d'intrusion appliqués à l'IA : définition et enjeux
157AI News 

Les tests d'intrusion appliqués à l'IA : définition et enjeux

Le nombre d'incidents liés à l'intelligence artificielle est passé de 233 en 2024 à 362 en 2026, selon une étude récente, signe que les risques s'accélèrent à mesure que les organisations déploient des systèmes d'IA en production. Face à cette montée des menaces, une pratique héritée de la cybersécurité traditionnelle s'impose désormais dans le domaine de l'IA : le red teaming. Il s'agit de soumettre des modèles, agents et applications à des scénarios d'attaque délibérément adversariaux, injections de prompts, manipulation de données, tentatives de contournement des garde-fous, pour en révéler les failles avant qu'elles ne soient exploitées. Des prestataires spécialisés comme CBIZ Pivot Point Security ou Reply proposent aujourd'hui des services structurés qui combinent tests offensifs manuels, gouvernance et alignement réglementaire, couvrant des architectures complexes telles que les workflows agentiques, les pipelines RAG ou les intégrations via MCP. L'intérêt concret pour les entreprises est multiple. Sur le plan de la sécurité, ces tests exposent les vulnérabilités cachées, notamment les accès non autorisés à des données via des agents connectés à des API, avant que des attaquants réels ne puissent en abuser. Sur le plan réglementaire, les résultats des tests servent de preuves de robustesse auprès des autorités, permettant aux organisations de démontrer leur conformité avec des référentiels comme le NIST AI RMF, l'EU AI Act ou l'ISO 42001. En matière de résilience opérationnelle, les simulations d'attaque permettent aux équipes d'affiner leurs règles de détection et de réduire le temps de réponse lors d'incidents réels. Enfin, des cycles de tests adversariaux continus renforcent la stabilité des systèmes face à des conditions imprévues et à des techniques d'attaque en constante évolution. Le red teaming n'est pas une nouveauté en cybersécurité, des équipes de sécurité offensive testent les infrastructures IT depuis des décennies. Son application à l'IA est en revanche récente, et répond à des défis spécifiques : les modèles de langage ont des surfaces d'attaque radicalement différentes des logiciels traditionnels, avec des comportements difficiles à anticiper face à des entrées malveillantes. L'explosion des agents autonomes connectés à des outils externes a encore complexifié la situation, multipliant les points d'entrée potentiels. L'émergence d'un marché de prestataires spécialisés, au-delà des trois cités dans l'article original, le secteur compte désormais des dizaines d'acteurs, témoigne de la maturité croissante de cette discipline. À mesure que les réglementations comme l'EU AI Act entreront en vigueur, le red teaming devrait passer d'une bonne pratique facultative à une exigence de conformité incontournable pour les systèmes d'IA à haut risque.

UELe red teaming est appelé à devenir une exigence de conformité incontournable pour les systèmes d'IA à haut risque sous l'EU AI Act, concernant directement les entreprises européennes qui déploient des agents ou pipelines RAG en production.

SécuritéOpinion
1 source
Détection des pannes et analyse des causes racines des agents IA avec Strands Evals
158AWS ML Blog 

Détection des pannes et analyse des causes racines des agents IA avec Strands Evals

Amazon a publié Strands Evals, un kit de développement Python conçu pour automatiser le diagnostic des pannes dans les agents IA en production. Disponible via pip install strands-agents-evals et compatible avec Amazon Bedrock, l'outil introduit un système de "détecteurs" capables d'analyser automatiquement les traces d'exécution d'un agent et d'identifier les causes racines des défaillances. Là où les évaluations classiques se contentent d'un score global, "l'agent a réussi 60 % de ses objectifs", Strands Evals descend au niveau de chaque étape individuelle (chaque "span") pour catégoriser les erreurs, mesurer leur gravité par un score de confiance, et retracer la chaîne causale qui a conduit à l'échec. Le pipeline fonctionne en deux phases pilotées par un LLM : une première phase de détection qui passe en revue neuf catégories de pannes (hallucination, mauvaise sélection d'outil, erreurs d'orchestration, non-conformité aux instructions, erreurs d'exécution, problèmes de gestion du contexte, comportements répétitifs, sorties LLM mal formées, et incompatibilités de configuration), puis une seconde phase d'analyse des causes racines qui classe chaque défaillance en primaire, secondaire ou tertiaire et génère des recommandations de correction ciblées. L'enjeu est directement opérationnel : lorsqu'un taux de succès chute de 85 % à 70 % après un déploiement, les ingénieurs passaient jusqu'ici des heures à inspecter manuellement des centaines de traces pour comprendre ce qui avait changé. Strands Evals promet de ramener ce diagnostic de plusieurs heures à quelques minutes. L'outil indique non seulement quelle étape a échoué, mais aussi si la correction doit porter sur le prompt système ou sur la définition des outils, une distinction qui évite des cycles d'itération coûteux. Pour les équipes qui opèrent des agents à grande échelle, intégrer ces détecteurs dans le pipeline d'évaluation automatisé signifie que chaque run de test produit désormais un diagnostic structuré, pas seulement un score. Ce lancement s'inscrit dans la montée en maturité de l'écosystème des agents IA autonomes, où l'observabilité devient aussi critique qu'elle l'est depuis longtemps dans le développement logiciel classique. Amazon Bedrock AgentCore fournit déjà des primitives de sessions, traces et spans ; Strands Evals se positionne comme la couche d'analyse au-dessus. La dépendance à Amazon Bedrock pour faire tourner les LLM d'analyse est une contrainte notable, les équipes utilisant d'autres fournisseurs devront adapter leur infrastructure. La prochaine étape logique pour l'écosystème sera d'étendre ces capacités de diagnostic à des frameworks d'agents tiers, alors que des acteurs comme LangChain, AutoGen ou CrewAI construisent leurs propres couches d'observabilité en parallèle.

OutilsOutil
1 source
Coder à l'intuition peut créer votre pipeline, mais ne l'expliquera pas six mois plus tard
159VentureBeat AI 

Coder à l'intuition peut créer votre pipeline, mais ne l'expliquera pas six mois plus tard

Les agents de codage par IA transforment à grande vitesse l'ingénierie des données en entreprise : ils génèrent des pipelines, des workflows d'orchestration, des tests de validation et des configurations d'infrastructure à partir de simples instructions en langage naturel. Cette pratique, baptisée "vibe coding", permet aux équipes de produire des implémentations isolées en quelques minutes. Mais à mesure que les plateformes de données deviennent plus complexes, fragmentées entre des dizaines de systèmes interconnectés (entrepôts de données, pipelines d'ingestion, couches sémantiques, API, tableaux de bord, modèles ML), une limitation structurelle devient évidente : le contexte qui guide ces outils IA ne survit pas à la conversation qui l'a produit. Pour y répondre, une approche nommée développement piloté par spécification (Spec-Driven Development, ou SDD) commence à s'imposer dans les discussions autour des plateformes de données modernes. Le problème central est celui de la mémoire opérationnelle. Quand un ingénieur utilise un agent IA, il fournit bien plus qu'une simple instruction : hypothèses architecturales, règles métier, contraintes de schéma, dépendances en aval, historique de débogage. Ces informations critiques restent dispersées dans des fils Slack, des tickets Jira, des historiques de conversation et des commentaires de code, plutôt que d'être intégrées au système lui-même. L'organisation perd ainsi progressivement la visibilité sur l'intention architecturale, les hypothèses de validation et la logique métier qui sous-tendent ses propres pipelines. L'implémentation est certes plus rapide, mais l'efficacité globale n'augmente pas proportionnellement : la validation, la coordination inter-équipes et la prise de décision restent entièrement dépendantes du jugement humain. Le SDD propose d'inverser cette logique en faisant des spécifications elles-mêmes des artefacts versionnés et exécutables. Les règles métier, la logique d'orchestration, les validations et les workflows d'implémentation deviennent partie intégrante du système, et non de la conversation qui les a fait naître. Ces spécifications jouent alors le rôle de mémoire opérationnelle persistante, accessible aussi bien aux équipes humaines qu'aux agents IA lors des évolutions futures. L'ingénierie des données en entreprise est particulièrement bien positionnée pour adopter cette approche, car elle repose déjà sur des patterns réutilisables, des pipelines pilotés par métadonnées et des workflows standardisés. En combinant génération assistée par IA et contrats système déterministes, le SDD ambitionne de devenir une nouvelle couche opérationnelle capable de réduire la fragmentation qui s'installe inévitablement dans les plateformes construites par des agents plutôt que par des humains.

OutilsOutil
1 source
WANIWANI lève 8 millions de dollars : après les comparateurs, les agents IA ouvrent une nouvelle bataille de l’intermédiation
160FrenchWeb 

WANIWANI lève 8 millions de dollars : après les comparateurs, les agents IA ouvrent une nouvelle bataille de l’intermédiation

La startup Waniwani vient de boucler un tour de table de 8 millions de dollars, réunissant Seedcamp, Redstone et Plug & Play, ainsi que plusieurs business angels. La société développe une infrastructure destinée à la distribution agentique de produits financiers : un socle technique permettant aux agents IA de recommander et distribuer des services comme l'assurance ou le crédit, tout en respectant les exigences réglementaires. Ce financement traduit une prise de position précoce sur un segment encore émergent de la fintech. L'enjeu est considérable. Si les comparateurs en ligne ont bouleversé la distribution financière dans les années 2010, les agents IA pourraient déclencher une transformation encore plus profonde. Ces systèmes autonomes peuvent comprendre les besoins d'un utilisateur, comparer les offres en temps réel et souscrire directement, sans intervention humaine. Pour les assureurs, banques et courtiers, le point de contact client pourrait basculer entièrement vers des interfaces pilotées par l'IA, remettant en cause les modèles de distribution traditionnels et, avec eux, les flux de commissions qui les alimentent. Waniwani parie que les acteurs financiers auront besoin d'une couche d'infrastructure standardisée pour s'interfacer avec ces agents et gérer la conformité réglementaire. La startup se positionne ainsi en enabler plutôt qu'en distributeur direct, une stratégie qui rappelle celle des fintechs d'infrastructure comme Stripe à leurs débuts. Le marché de l'intermédiation en Europe reste dominé par des acteurs établis, mais l'arrivée des agents IA rouvre la partie pour des challengers capables de se glisser dans ces nouvelles couches techniques.

UEUne startup européenne développe une infrastructure standardisée pour permettre aux agents IA de distribuer des produits financiers (assurance, crédit) en conformité réglementaire, ce qui pourrait redéfinir les modèles d'intermédiation financière en Europe au détriment des comparateurs et courtiers traditionnels.

BusinessOpinion
1 source
L'IRE identifie un autre spécimen de LOTUSLITE
161Microsoft Research 

L'IRE identifie un autre spécimen de LOTUSLITE

Le 28 mai 2026, les chercheurs ont soumis en aveugle un fichier suspect à Project Ire, l'agent autonome de classification de malwares développé par Microsoft. Le fichier, un DLL Windows portant le nom SmartPrintScreen.Print et identifié par le hash SHA-256 47e51e82...e653, s'est révélé être une variante de LOTUSLITE, une backdoor documentée par l'équipe de recherche sur les menaces d'Acronis (TRU). Problème : ce spécimen précis n'apparaissait dans aucune liste d'indicateurs de compromission (IoC) publiée. Au moment de l'analyse, un seul éditeur sur 72 le signalait sur VirusTotal. Une semaine plus tard, le 4 juin, ce chiffre était monté à 7 sur 70, avec Microsoft, Kaspersky et TrendMicro parmi les détecteurs. Les grands noms de la sécurité endpoint, CrowdStrike Falcon, SentinelOne, Sophos, Trellix, Palo Alto et ESET, ne le détectaient toujours pas. Face à cet échec de la détection par signature, Project Ire a produit en une seule passe, sans intervention humaine ni métadonnées contextuelles, un rapport comportemental complet : routine d'installation, structure des paquets de commande-contrôle (C2), identifiants de commandes, mécanisme de persistance et techniques d'obfuscation. Le verdict de l'agent était sans ambiguité : malveillant. Ce résultat illustre l'avantage concret de l'analyse comportementale agentique sur la détection par IoC : une variante peut partager exactement les mêmes tactiques, techniques et procédures (TTP) qu'une famille connue sans déclencher une seule alerte, simplement parce que son hash ou ses serveurs C2 sont différents. Pour les équipes de sécurité, c'est précisément dans cet angle mort que les attaquants opèrent. LOTUSLITE est distribué via une archive ZIP à thème politique, chargée latéralement à travers un lanceur Tencent KuGou renommé. Acronis attribue cette campagne au groupe Mustang Panda, un acteur lié à la Chine, avec un niveau de confiance modéré, sur la base de recoupements d'infrastructure et de la structure loader/DLL. Le rapport Ire pointe également une limite importante de l'analyse pilotée par LLM : l'agent a signalé la présence de la fonction nfapi::nf_unRegisterDriver comme suspecte, mais a explicitement évité de conclure à une interception active de paquets réseau, ce qui aurait été une erreur. La fonction écrit simplement une clé de registre Run pour assurer la persistance. C'est un exemple précis du risque de dérive sémantique : un nom de fonction évocateur peut induire un agent moins rigoureux en erreur, générant de fausses pistes pour les équipes de défense. La publication du rapport complet sur GitHub permet à la communauté de vérifier ce raisonnement pas à pas.

UEMustang Panda, acteur étatique lié à la Chine, cible régulièrement des entités gouvernementales et industrielles européennes ; cet article illustre comment l'analyse comportementale agentique peut combler les angles morts des solutions endpoint classiques pour les équipes SOC en France et en UE.

💬 Quand CrowdStrike et SentinelOne passent à côté et qu'un agent LLM sort le rapport comportemental complet sans une seule IoC connue, tu vois exactement pourquoi la détection par signature est à bout de souffle. Ce qui me retient plus que le verdict, c'est le quasi-raté sur nfapi : l'agent a failli conclure à tort à une interception réseau à partir d'un nom de fonction évocateur, et ne l'a pas fait. C'est sur ce genre de rigueur qu'on va vraiment juger ces systèmes.

SécuritéOpinion
1 source
NanoClaw et JFrog lancent un 'système immunitaire' pour bloquer le téléchargement de code malveillant par les agents IA
162VentureBeat AI 

NanoClaw et JFrog lancent un 'système immunitaire' pour bloquer le téléchargement de code malveillant par les agents IA

NanoCo AI, la startup commerciale fondée par Gavriel Cohen, créateur de l'agent open source NanoClaw, a annoncé un partenariat technique avec JFrog, leader de la gestion de la chaîne d'approvisionnement logicielle, pour lancer une intégration de sécurité commune disponible immédiatement. Le principe est simple : les agents NanoClaw sont désormais configurés pour n'installer des paquets logiciels, des outils CLI et des serveurs MCP qu'à partir des registres certifiés et analysés de JFrog. Si un agent tente de télécharger une bibliothèque compromise, comme une version vulnérable du paquet Axios, le registre JFrog bloque la requête et renvoie une erreur de politique de sécurité 403. Mieux encore, le système ne se contente pas de bloquer la menace : il guide l'agent pour qu'il recherche et installe automatiquement une version approuvée et sûre du paquet demandé. L'intégration est gratuite pour la communauté open source, et les entreprises peuvent la connecter à leurs environnements JFrog déjà sous licence commerciale. Ce partenariat comble un angle mort critique dans l'écosystème des agents autonomes : ces derniers installent fréquemment des paquets en arrière-plan pour étendre leurs capacités, bien souvent à l'insu de leurs opérateurs humains. Comme l'explique Cohen, quand un utilisateur envoie un fichier audio à un agent, celui-ci raisonne seul : « je ne sais pas traiter les notes vocales, je vais télécharger et installer un paquet. » Ce comportement d'auto-amélioration dynamique rend les agents extrêmement puissants, mais aussi très vulnérables aux attaques sur la chaîne d'approvisionnement logicielle. Pour les grandes organisations, l'enjeu est également celui de la conformité : selon Gal Marder, directeur de la stratégie chez JFrog, les entreprises ont besoin d'un registre de toutes les activités des agents, de savoir qui fait tourner quoi, quels paquets sont consommés, quels MCPs sont utilisés. Ce mouvement s'inscrit dans une série d'initiatives de NanoCo AI pour sécuriser son écosystème : l'entreprise avait déjà noué un partenariat avec Vercel pour ajouter des fenêtres de confirmation de permissions dans ses applications, puis avec Docker pour faire tourner les agents NanoClaw dans des conteneurs virtuels isolés. En parallèle, les acteurs malveillants intensifient l'empoisonnement des registres open source avec des paquets frauduleux, exploitant précisément le fait que les agents contournent la vérification humaine. Le marché des agents autonomes d'entreprise est en pleine explosion, et la question de la sécurité de la chaîne d'approvisionnement logicielle devient un enjeu stratégique majeur. En intégrant un système immunitaire directement dans la boucle d'exécution des agents, NanoCo et JFrog positionnent la sécurité non plus comme une couche ajoutée après coup, mais comme un mécanisme natif de correction continue.

UELes organisations européennes déployant des agents IA autonomes sont exposées aux mêmes risques de chaîne d'approvisionnement logicielle, mais ce partenariat ne cible pas spécifiquement le marché ou la réglementation européenne.

SécuritéActu
1 source
Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA
163AI News 

Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA

Coinbase a lancé « Coinbase for Agents », une infrastructure permettant à des agents d'intelligence artificielle d'exécuter des transactions financières directement depuis des portefeuilles utilisateurs. Jusqu'à présent, les grands modèles de langage pouvaient analyser les marchés et formuler des recommandations, mais ils étaient incapables de passer des ordres de manière autonome. La plateforme comble ce fossé en proposant deux modes d'intégration : une interface en ligne de commande destinée aux environnements de développement comme Claude Code ou OpenAI Codex, et le protocole MCP (Model Context Protocol) pour les agents web tels que ChatGPT ou Claude Web, qui ne nécessite aucune clé API ni configuration locale. Un accès MCP distant via authentification unique est également annoncé prochainement. Les agents peuvent ainsi acheter, vendre, gérer des soldes et passer des ordres à cours limité, le tout dans des paramètres définis à l'avance par l'utilisateur. Concrètement, un gestionnaire de portefeuille peut programmer un agent pour maintenir une allocation cible, par exemple 60 % Bitcoin, 20 % Ethereum et 20 % Solana, sur plusieurs mois. L'agent surveille les cours en temps réel et place automatiquement des ordres d'achat lors de baisses de 5, 10 ou 15 % pour profiter des corrections de marché. Il peut également gérer les liquidités dormantes en les déployant pour générer des rendements. Autre cas d'usage illustré : un plan de dollar-cost averaging sur Ethereum, où l'agent analyse trente jours de données horaires, identifie les creux historiques de la journée, puis exécute un achat quotidien de 20 dollars pendant deux semaines à partir d'une seule instruction initiale. La plateforme supporte déjà le trading au comptant et sur dérivés, et prévoit d'étendre son offre aux fonds indiciels, actions d'entreprises, matières premières et marchés de prédiction. Ce lancement s'inscrit dans une dynamique plus large de financiarisation des agents IA. Coinbase avait introduit l'an dernier le protocole x402, un standard de paiement conçu spécifiquement pour les agents logiciels, leur permettant d'acheter de manière autonome des ressources de calcul, des modèles analytiques ou des données de marché propriétaires pour affiner leurs décisions. L'intégration de x402 à Coinbase for Agents étend ce mécanisme à un écosystème financier concret. Pour limiter les risques, les agents opèrent exclusivement dans des portefeuilles isolés, sans accès aux autres actifs de l'utilisateur. La course à « l'infrastructure agentique » s'intensifie, plusieurs acteurs cherchant à devenir le back-end financier de référence pour les agents autonomes, avec Coinbase en position avancée grâce à son infrastructure régulée et ses millions d'utilisateurs existants.

UECoinbase étant agréé sous le règlement MiCA dans l'UE, ce service de trading autonome par agents IA sera soumis aux régulations européennes sur les crypto-actifs, avec des implications pour les investisseurs français souhaitant automatiser leurs portefeuilles.

💬 C'est le vrai saut. Les agents IA qui conseillent de trader, ça existe depuis deux ans, mais là Coinbase leur donne les clés du portefeuille, dans des contraintes que tu fixes à l'avance, et c'est une autre affaire. Reste à voir ce qui se passe le jour où le marché fait un truc que le modèle n'avait pas vu venir.

OutilsOutil
1 source
Moonshot AI lance Kimi Work, un agent de bureau qui exploiterait Kimi K2.6 et un essaim de 300 sous-agents
164MarkTechPost 

Moonshot AI lance Kimi Work, un agent de bureau qui exploiterait Kimi K2.6 et un essaim de 300 sous-agents

Moonshot AI, la startup pékinoise connue pour son modèle Kimi, a lancé cette semaine Kimi Work, un agent IA qui s'installe directement sur l'ordinateur de l'utilisateur. Compatible macOS et Windows, l'application permet de confier des objectifs en langage naturel à un agent capable de lire des fichiers locaux, de piloter le navigateur réel de la machine et d'exécuter des tâches planifiées. Selon des retours de la communauté, Kimi Work tourne sur Kimi K2.6, le modèle phare de Moonshot publié le 20 avril 2026 : un modèle Mixture-of-Experts en accès libre qui active environ 32 milliards de paramètres par token et dispose d'une fenêtre de contexte de 256 000 tokens. L'agent peut orchestrer jusqu'à 300 sous-agents en parallèle pour décomposer des tâches complexes, le modèle K2.6 supportant jusqu'à 4 000 étapes coordonnées. Une extension navigateur appelée WebBridge lui permet d'agir comme un humain sur le web, en héritant des sessions et cookies déjà ouverts. Un moteur de planification intégré (type cron) permet de déclencher des jobs à heure fixe, de manière conditionnelle ou via des scripts Python et shell, avec une option "Keep Computer Awake" pour les tâches nocturnes. Ce positionnement local tranche avec la quasi-totalité des agents IA des deux dernières années, qui s'exécutent dans le cloud sur des serveurs distants avec des navigateurs virtuels isolés. Ici, l'agent accède aux vrais fichiers de l'utilisateur, à ses sessions bancaires ou professionnelles actives, sans avoir à téléverser quoi que ce soit. Moonshot a aussi intégré des données de marché financier en natif, couvrant les actions chinoises A-shares, la Bourse de Hong Kong et les marchés américains, ce qui évite toute configuration d'API personnalisée. Les résultats peuvent être exportés directement en fichiers PowerPoint ou Excel. Pour un analyste ou un cadre qui jongle avec des dizaines de PDF trimestriels, des tableaux de prix boursiers ou des briefings quotidiens, l'outil promet un gain de temps concret sans friction d'intégration. Moonshot AI s'inscrit dans une vague de startups chinoises qui cherchent à rivaliser avec OpenAI et Anthropic sur le segment des agents autonomes, après avoir déjà marqué des points sur les LLMs longue-contexte. Le lancement de K2.6 en open-weight en avril 2026 reflète une stratégie de dissémination rapide pour capter la communauté développeur. L'approche locale soulève néanmoins une question centrale : la sécurité repose entièrement sur l'utilisateur, contrairement aux agents cloud où le vendeur prend en charge l'isolation. À mesure que les agents gagnent en autonomie et en accès aux données sensibles, ce choix d'architecture deviendra un critère de différenciation majeur, aussi bien pour les particuliers que pour les entreprises qui hésitent encore à confier leur environnement de travail réel à un modèle tiers.

OutilsOutil
1 source
NotebookLM de Google intègre désormais un ordinateur cloud avec exécution de code et recherche à base d'agents
165The Decoder 

NotebookLM de Google intègre désormais un ordinateur cloud avec exécution de code et recherche à base d'agents

Google a annoncé une mise à jour majeure de NotebookLM, son outil de recherche et de synthèse documentaire. La nouvelle version tourne désormais sur Gemini 2.5 Flash et dispose d'un ordinateur cloud dédié capable d'exécuter du code directement depuis l'interface. Plus significatif encore, NotebookLM peut désormais trouver ses propres sources de manière autonome via Google Search, sans que l'utilisateur ait à importer manuellement des documents. Lors des tests internes, le nouveau système a surpassé l'ancienne version dans 78,2 % des cas. Ces évolutions transforment NotebookLM d'un simple outil d'analyse documentaire en un véritable agent de recherche autonome. La capacité d'exécution de code ouvre la voie à des analyses de données directement dans l'outil, sans passer par un environnement externe. L'intégration native à Google Search signifie que les utilisateurs n'ont plus besoin de sélectionner manuellement leurs sources : l'outil explore le web et construit lui-même sa base documentaire. Pour les chercheurs, journalistes, consultants ou étudiants, cela réduit considérablement le temps de préparation avant d'obtenir une synthèse exploitable. NotebookLM avait été lancé par Google en 2023 comme outil expérimental de prise de notes augmentée par l'IA, avant de connaître un succès inattendu, notamment grâce à sa fonctionnalité de podcast audio généré automatiquement. Cette montée en puissance vers l'agentique s'inscrit dans la tendance générale des grands acteurs de l'IA à doter leurs outils de capacités d'action autonome. Google positionne ainsi NotebookLM comme un concurrent direct des assistants de recherche comme Perplexity ou les modes "deep research" de ChatGPT et Gemini Advanced.

UELes professionnels et chercheurs en France et en Europe gagnent accès à un agent de recherche autonome capable d'explorer le web et d'exécuter du code, réduisant significativement le temps de préparation documentaire.

OutilsOutil
1 source
Anthropic lance Claude Fable 5 et Claude Mythos 5 : même modèle de base, garde-fous distincts, nouvelle catégorie Mythos
166MarkTechPost 

Anthropic lance Claude Fable 5 et Claude Mythos 5 : même modèle de base, garde-fous distincts, nouvelle catégorie Mythos

Le 9 juin 2026, Anthropic a lancé deux nouveaux modèles d'intelligence artificielle : Claude Fable 5 et Claude Mythos 5. Les deux appartiennent à une nouvelle catégorie baptisée "Mythos-class", positionnée au-dessus de la classe Opus dans la hiérarchie de l'entreprise. Fable 5 est la version grand public, dotée de classifieurs de sécurité complets. Mythos 5 est le même modèle de base, mais avec certains de ces classifieurs désactivés, disponible uniquement en accès restreint. Les deux prennent en charge une fenêtre de contexte d'un million de tokens par défaut, permettent jusqu'à 128 000 tokens en sortie par requête, et sont tarifés à 10 dollars par million de tokens en entrée et 50 dollars par million en sortie, soit moins de la moitié du prix de Claude Mythos Preview lancé en avril. Anthropic positionne Fable 5 comme son modèle le plus performant jamais rendu publiquement disponible, particulièrement adapté au raisonnement complexe et aux tâches agentiques longues. Les résultats concrets le confirment : Stripe, lors d'un accès anticipé, a utilisé Fable 5 pour effectuer une migration à l'échelle d'une base de code Ruby de 50 millions de lignes en une seule journée, une opération qui aurait nécessité plus de deux mois à une équipe humaine. Sur l'évaluation FrontierCode de Cognition, Fable 5 obtient les meilleurs scores parmi les modèles frontier, même à effort moyen. En analyse financière, il dépasse tous les modèles sur le Finance Benchmark de Hebbia, conçu pour simuler le raisonnement de niveau analyste senior. En vision, il est capable de reconstruire le code source d'une application web à partir de captures d'écran seules, et a terminé le jeu Pokémon FireRed avec un dispositif minimal basé uniquement sur la vision. Ces deux modèles s'inscrivent dans la continuité de Claude Mythos Preview, sorti en avril 2026 via le Project Glasswing, qui avait déjà établi un palier supérieur dans les capacités d'Anthropic. La bifurcation en deux versions distinctes, Fable et Mythos, reflète une tension croissante dans le secteur : comment rendre accessibles des modèles extrêmement puissants sans en faciliter les usages malveillants. Les classifieurs de Fable 5, des systèmes IA distincts qui détectent les tentatives de contournement et bloquent les requêtes problématiques, constituent la réponse d'Anthropic à ce dilemme. Mythos 5, lui, reste réservé à des partenaires sélectionnés notamment dans le domaine scientifique : selon Anthropic, il a permis d'accélérer certaines étapes de conception de médicaments d'un facteur dix, et les scientifiques ont préféré ses hypothèses en biologie moléculaire dans 80 % des cas lors de comparaisons en aveugle. Le modèle a également mené une semaine de recherche génomique quasi-autonome, entraînant un modèle sur des données de cellules individuelles couvrant 138 espèces animales, surpassant un modèle récemment publié dans Science malgré une taille cent fois inférieure.

LLMsOpinion
1 source
Cohere publie en open source un agent de code fonctionnant sur un seul H100
167VentureBeat AI 

Cohere publie en open source un agent de code fonctionnant sur un seul H100

Cohere a lancé mardi North Mini Code, un modèle de codage agentique open source de 30 milliards de paramètres au format mixture-of-experts (MoE), avec seulement 3 milliards de paramètres actifs par token. Disponible sur Hugging Face sous licence Apache 2.0, il supporte une fenêtre de contexte de 256 000 tokens et une génération maximale de 64 000 tokens. Sa particularité technique : il tourne sur un seul GPU H100, et Nick Frosst, cofondateur de Cohere, l'a même démontré en fonctionnement sur un Mac Studio via MLX avec 20 Go de RAM. Le modèle a été entraîné via deux phases de fine-tuning supervisé suivies d'apprentissage par renforcement sur plus de 70 000 tâches vérifiables issues d'environ 5 000 dépôts, dédupliqués par rapport à SWE-Bench. Cohere revendique des performances supérieures aux modèles open source jusqu'à quatre fois plus grands, dont des modèles à 120 milliards de paramètres. North Mini Code représente une alternative concrète aux modèles propriétaires pour les équipes d'ingénierie qui veulent déployer des pipelines de codage agentique en interne, sans dépendre d'API externes. Le modèle gère l'orchestration de sous-agents, la cartographie d'architecture, la revue de code sur de larges bases de code multi-fichiers et le travail en environnement terminal. Selon les mesures indépendantes d'Artificial Analysis, il atteint 210 tokens par seconde avec un temps au premier token de 0,25 seconde, contre une médiane de 1,95 seconde pour sa catégorie. Face à Mistral Devstral Small 2 (24 milliards de paramètres dense), Cohere revendique un débit de sortie 2,8 fois supérieur et une latence inter-token réduite de 30 % dans des conditions matérielles identiques. Ces chiffres positionnent le modèle comme une option sérieuse pour des charges de production à volume élevé. Il existe néanmoins un point de vigilance notable : lors des tests de l'Intelligence Index d'Artificial Analysis, North Mini Code a généré 75 millions de tokens en sortie pour compléter l'évaluation, contre une médiane de 25 millions pour les modèles comparables. Cette verbosité excessive peut tripler les coûts d'inférence dans des pipelines agentiques intensifs, là où chaque appel enchaîne plusieurs étapes. Cohere a par ailleurs entraîné le modèle sur trois scaffolds d'agents distincts (SWE-Agent, Mini-SWE-Agent et OpenCode) plutôt qu'un seul, gagnant 10 points de pourcentage sur l'évaluation OpenCode tout en maintenant les performances sur SWE-Agent. Le modèle s'inscrit dans un marché en rapide consolidation face à GitHub Copilot, Cursor et les derniers modèles Mistral, où la capacité à s'auto-héberger sur du matériel standard devient un avantage différenciant majeur pour les entreprises soucieuses de contrôle et de coût.

UELe modèle open source sous licence Apache 2.0 offre aux équipes d'ingénierie européennes une option concrète d'auto-hébergement pour des pipelines de codage agentique, réduisant la dépendance aux API propriétaires américaines dans un contexte de sensibilité croissante à la souveraineté des données.

LLMsOpinion
1 source
Hey Siri, voici l'IA
168Ben's Bites 

Hey Siri, voici l'IA

Apple a officiellement lancé Siri AI, son assistant d'intelligence artificielle nouvelle génération, présenté comme une réponse directe aux assistants conversationnels comme ChatGPT. Décrit par ses concepteurs comme l'équivalent d'un ChatGPT vieux d'environ un an, Siri AI intègre la dictée avancée, l'analyse d'images et une capacité d'interaction avec des applications tierces comme Messages et Maps. Le système repose sur une architecture hybride mêlant modèles locaux et modèles cloud, certains fournis par Google via Gemini, le tout regroupé sous la famille de modèles maison AFM 3. En parallèle, OpenAI a mis à jour le système de mémoire de ChatGPT avec une troisième itération baptisée Dreaming v3, qui améliore le rappel d'informations, respecte mieux les préférences à long terme de l'utilisateur et se corrige au fil du temps. Google, de son côté, a annoncé une refonte de NotebookLM : son interface de chat passe d'un système RAG classique à une architecture agentique baptisée Antigravity, dans laquelle chaque carnet dispose désormais d'un ordinateur cloud dédié capable d'exécuter du code pour analyser les fichiers uploadés, le tout propulsé par les derniers modèles Gemini 3.5. Ces annonces simultanées illustrent l'intensification de la course aux assistants IA dans le grand public. Pour Apple, l'enjeu est considérable : Siri, longtemps moqué pour ses lacunes face aux assistants concurrents, revient avec une architecture modernisée intégrant notamment des modèles Gemini, ce qui marque une rupture symbolique pour une entreprise habituellement centrée sur ses propres technologies. Côté Anthropic, une publication de blog affirme que les développeurs écrivent désormais huit fois plus de code grâce à Claude qu'ils ne le faisaient en 2025, une statistique qui redéfinirait radicalement la productivité dans le secteur logiciel si elle se confirme. L'entreprise révèle également que le code généré par Claude est utilisé pour entraîner les prochaines versions du modèle, une boucle d'amélioration continue qui accélère la progression des capacités. Cursor, l'éditeur de code augmenté par IA, a aussi franchi une étape avec Canvas, une fonctionnalité permettant de créer des applications internes, tableaux de bord et rapports partageables directement depuis l'outil. Cette séquence d'annonces intervient dans un contexte de consolidation rapide du marché. OpenAI a discrètement déposé un S-1 confidentiel auprès des autorités boursières américaines tout en affirmant ne pas être pressé d'entrer en bourse, et a défini trois priorités pour sa prochaine phase : construire un chercheur IA autonome, accélérer la croissance économique et offrir à chaque habitant de la planète un AGI personnel. Ces objectifs ambitieux coexistent avec une pression réglementaire croissante : Anthropic plaide pour la création d'un mécanisme permettant de suspendre le développement de l'IA si des risques l'exigeaient. Le marché des agents IA connaît par ailleurs une structuration accélérée, avec des acteurs comme Firecrawl qui proposent désormais des workflows installables pour automatiser des tâches web répétitives, signalant une industrialisation progressive de l'outillage agentique dans les entreprises.

UELes nouveaux assistants IA d'Apple (Siri AI avec Gemini intégré) et Google (NotebookLM agentique) seront déployés en Europe sous contrainte de l'AI Act et du RGPD, notamment pour le traitement cloud des données personnelles.

💬 Apple qui intègre Gemini dans Siri, c'est une capitulation symbolique habillée en "architecture hybride". Mais au moins ils ne mentent pas sur leur retard : "l'équivalent d'un ChatGPT vieux d'un an", c'est une com' étonnamment lucide pour eux. Reste à voir si l'intégration apps tierces tient hors démo.

Red Hat et NVIDIA dévoilent une nouvelle infrastructure dédiée aux agents IA
169Le Big Data 

Red Hat et NVIDIA dévoilent une nouvelle infrastructure dédiée aux agents IA

Red Hat et NVIDIA ont annoncé le 8 juin 2026, à l'occasion du Red Hat Summit 2026, une série d'évolutions majeures de leur plateforme conjointe Red Hat AI Factory. L'objectif affiché est de permettre aux entreprises de faire passer leurs agents IA autonomes du stade expérimental à la production à grande échelle. Parmi les nouveautés figurent l'intégration d'OpenShell, un projet open source initié par NVIDIA qui fournit un environnement d'exécution isolé pour agents autonomes, ainsi qu'un nouveau modèle MaaS (Model as a Service) gouverné offrant un accès à des modèles comme NVIDIA Nemotron via des interfaces compatibles avec les standards OpenAI. La plateforme embarque également un système de gestion du cycle de vie fondé sur MLflow, qui trace chaque appel aux modèles, les outils sollicités et les étapes de raisonnement des agents. En matière de sécurité, des capacités de calcul confidentiel basées sur NVIDIA Confidential Computing permettent désormais d'exécuter des conteneurs confidentiels au sein de Red Hat OpenShift, disponibles en préversion technologique. Cette annonce s'adresse directement aux entreprises qui butent sur les obstacles concrets à l'adoption industrielle de l'IA agentique : sécurité des données, auditabilité des décisions, conformité réglementaire. Contrairement aux assistants conversationnels classiques, les agents autonomes interagissent avec de multiples systèmes, exécutent des tâches complexes sur la durée et prennent des décisions sans intervention humaine permanente, ce qui exige un cadre de gouvernance nettement plus robuste. La traçabilité offerte par MLflow répond à une demande pressante des directions juridiques et de conformité, qui doivent justifier les actions automatisées de leurs systèmes IA. L'architecture zero-trust et le calcul confidentiel visent quant à eux à protéger les charges de travail sensibles, même dans des environnements cloud hybrides où les données circulent entre infrastructures on-premise et cloud public. Ce partenariat entre Red Hat et NVIDIA s'inscrit dans une compétition croissante entre les grands acteurs du cloud hybride et des semi-conducteurs pour imposer leurs stacks comme infrastructure standard de l'IA d'entreprise. NVIDIA, dont les GPU dominent l'entraînement des modèles, cherche à étendre son influence vers les couches logicielles de déploiement et de gouvernance, tandis que Red Hat apporte son positionnement historique dans les environnements OpenShift et son crédit auprès des DSI des grandes entreprises. La standardisation de la gouvernance des agents via OpenShell est particulièrement stratégique : celui qui contrôle la couche de politique d'exécution des agents contrôle de fait l'ensemble de l'écosystème applicatif qui s'y connecte. Les prochaines étapes passeront par l'intégration native d'OpenShell à l'écosystème Red Hat, avec une disponibilité générale attendue après la préversion actuelle.

UELes entreprises européennes soumises à l'AI Act peuvent s'appuyer sur la traçabilité MLflow et le calcul confidentiel pour répondre aux exigences d'auditabilité et de gouvernance des systèmes d'IA à haut risque.

InfrastructureOpinion
1 source
Les agents IA ancrés dans le monde réel
170Amazon Science 

Les agents IA ancrés dans le monde réel

En 2026, l'intelligence artificielle franchit une étape décisive : les modèles qui se contentaient de "savoir" cèdent la place à des agents capables d'"agir". Les grands modèles de fondation (Foundation Models), entraînés sur des volumes massifs de données, servent désormais de moteurs cognitifs à des agents déployés dans des environnements physiques réels, des entrepôts et usines aux hôpitaux et systèmes de transport. Amazon illustre concrètement ce virage avec le lancement de Project Eluna, un agent IA développé par les équipes Amazon Fulfillment Technology (AFT) en collaboration avec l'Université de Californie à San Diego. Hébergé dans le cloud, Eluna assiste les opérateurs de centres de traitement des commandes via des tableaux de bord numériques : il analyse en temps réel l'état des tapis roulants et des robots, anticipe les goulots d'étranglement et recommande des actions aux responsables logistiques avec un degré d'autonomie croissant. Le principal défi que ces agents doivent surmonter est celui des hallucinations. Dans un environnement virtuel, une IA peut inventer des citations ou produire des erreurs factuelles ; dans un environnement physique, les conséquences deviennent dangereuses. Si un agent propose un itinéraire robotique sans tenir compte de la masse ou de l'élan des objets déplacés, il peut mettre des humains en danger ou endommager des équipements. Pour y répondre, les chercheurs définissent quatre approches d'"ancrage" (grounding), soit l'intégration de données externes, de principes physiques et de simulations numériques dans le raisonnement du modèle. La première, l'apprentissage profond guidé par la physique (PGDL), consiste à intégrer des lois fondamentales comme la conservation de l'énergie ou les équations différentielles du mouvement directement dans la phase de préentraînement, ce qui réduit drastiquement la quantité de données nécessaires. La deuxième, baptisée UQ4CT, dote l'agent d'une conscience de ses propres incertitudes pour qu'il sache reconnaître ce qu'il ne sait pas, condition indispensable dans des contextes critiques où la surconfiance peut être fatale. Ces travaux s'inscrivent dans une dynamique industrielle plus large que l'on désigne sous le terme d'"IA physique". Pendant des années, les LLM ont démontré leur puissance dans les domaines numériques : génération de texte, code, analyse de données. Leur déploiement dans le monde matériel exige une couche supplémentaire de rigueur que les architectures actuelles n'intègrent pas nativement. Amazon, avec la superficie colossale de son réseau logistique mondial, constitue un terrain d'expérimentation idéal pour valider ces approches à grande échelle. Si les quatre piliers proposés font leurs preuves dans les entrepôts, leur portée pourrait s'étendre rapidement à d'autres secteurs industriels, de la robotique chirurgicale à la gestion des réseaux électriques, où erreur et physique ne font jamais bon ménage.

UELes techniques d'ancrage pour l'IA physique (PGDL, UQ4CT) sont directement applicables aux secteurs industriels européens, automobile, aéronautique, santé , , mais aucun acteur européen n'est impliqué dans ces travaux, ce qui souligne un retard stratégique potentiel.

RecherchePaper
1 source
Moonshot AI vise une valorisation de 30 milliards de dollars avec une nouvelle levée de fonds
171Le Big Data 

Moonshot AI vise une valorisation de 30 milliards de dollars avec une nouvelle levée de fonds

Moonshot AI, la startup chinoise à l'origine du chatbot Kimi, mène des discussions préliminaires avec des investisseurs en vue de lever jusqu'à 2 milliards de dollars supplémentaires. Si cette opération aboutit, sa valorisation atteindrait 30 milliards de dollars, contre un peu plus de 4 milliards fin 2025. La société a déjà bouclé récemment un tour mené par la plateforme Meituan valorisant l'entreprise à 20 milliards de dollars. Fondée par Yang Zhilin, ancien chercheur passé par Google, Meta et l'université Tsinghua, Moonshot AI a franchi en avril 2026 la barre des 200 millions de dollars de chiffre d'affaires annuel récurrent (ARR), un seuil symbolique qui témoigne de sa capacité à générer des revenus stables. Son catalogue s'est enrichi avec Kimi Work, un agent IA polyvalent basé sur la série de modèles K2.6, commercialisé auprès des particuliers comme des entreprises. Ces performances commerciales expliquent l'attractivité de Moonshot AI aux yeux des investisseurs. Là où de nombreux acteurs de l'IA peinent à convertir leurs prouesses techniques en revenus récurrents, Moonshot AI démontre une capacité concrète à monétiser ses modèles auprès de segments de clientèle variés, des abonnements grand public jusqu'aux déploiements en entreprise. L'ARR est l'un des indicateurs les plus scrutés dans le secteur technologique car il permet d'évaluer la solidité financière sur le long terme, et dépasser les 200 millions de dollars représente un signal fort pour les investisseurs qui cherchent à miser sur des acteurs capables de rivaliser avec les géants occidentaux comme OpenAI ou Anthropic. Moonshot AI prépare par ailleurs une étape structurante : une introduction en Bourse à Hong Kong. Pour y parvenir, la société est en train de réorganiser sa gouvernance et de démanteler sa structure offshore historique, sous la pression accrue des autorités chinoises sur les cotations à l'étranger. Afin de préserver l'accès aux financements libellés en dollars, l'entreprise envisagerait la mise en place d'une structure de coentreprise. Ce montage illustre le défi central auquel font face les scale-ups technologiques chinoises aujourd'hui : concilier des exigences réglementaires nationales de plus en plus strictes avec la nécessité d'attirer des capitaux internationaux. La réussite de cette double équation pourrait faire de Moonshot AI un modèle de référence pour l'ensemble de l'écosystème IA chinois, à un moment où la compétition mondiale pour la domination de l'intelligence artificielle s'intensifie sur tous les fronts.

UELa montée en puissance de Moonshot AI renforce la compétition mondiale en IA et pourrait influencer les stratégies d'investissement et de positionnement des acteurs européens du secteur.

BusinessActu
1 source
Gemma 4 12B permet des flux de travail multimodaux à base d'agents sur appareil, sans encodeur
172InfoQ AI 

Gemma 4 12B permet des flux de travail multimodaux à base d'agents sur appareil, sans encodeur

Google a présenté Gemma 4 12B, un modèle multimodal de 12 milliards de paramètres conçu pour fonctionner directement sur des machines grand public, ordinateurs portables inclus. Contrairement à ses prédécesseurs, ce modèle adopte une architecture sans encodeur (encoder-free), ce qui réduit la complexité et les ressources nécessaires à l'inférence locale. Combiné à Google AI Edge, Gemma 4 12B permet de construire des workflows agentiques complets en local, sans dépendre du cloud : traitement autonome de données, génération d'analyses visuelles, création de pages web ou exécution d'outils externes. L'enjeu est significatif pour les développeurs et les entreprises soucieuses de confidentialité ou de latence. Disposer d'un modèle multimodal capable de raisonnement agentique sur une machine locale élimine les coûts d'API, les délais réseau et les risques liés à l'envoi de données sensibles vers des serveurs distants. C'est un changement concret pour les cas d'usage professionnels où les données ne peuvent pas quitter l'environnement de travail. Google positionne ainsi Gemma 4 12B dans une course qui oppose désormais plusieurs acteurs majeurs sur le terrain des modèles embarqués : Apple avec ses modèles on-device, Meta avec Llama, et Microsoft avec Phi. L'approche encoder-free de Google représente un pari architectural distinctif pour maximiser l'efficacité à paramètres équivalents. La disponibilité via Google AI Edge laisse également présager une intégration future dans l'écosystème Android et les appareils Pixel, élargissant potentiellement le déploiement à des centaines de millions d'appareils.

UEL'inférence locale sans envoi vers le cloud répond directement aux exigences RGPD pour les entreprises européennes traitant des données sensibles.

💬 Un multimodal agentique qui tourne en local sans encodeur, c'est pas juste un benchmark de plus. Pour les boîtes qui ne peuvent pas envoyer leurs données dans le cloud, ça ouvre des cas d'usage qui étaient bloqués depuis des mois. Reste à voir si les perfs visuelles suivent vraiment sans encodeur, c'est le pari architectural de Google.

LLMsOpinion
1 source
Pourquoi les stablecoins pourraient devenir la monnaie native des agents IA
173FrenchWeb 

Pourquoi les stablecoins pourraient devenir la monnaie native des agents IA

L'essor des agents d'intelligence artificielle autonomes soulève une question concrète que l'économie numérique n'avait jamais eu à résoudre : comment un logiciel peut-il payer un autre logiciel, en temps réel, sans intervention humaine ? Cette problématique, encore théorique il y a trois ans, est désormais au centre des discussions dans les écosystèmes tech et crypto. Les stablecoins, ces cryptomonnaies indexées sur des devises stables comme le dollar, s'imposent comme la réponse la plus sérieuse pour permettre ces transactions machine-à-machine à grande échelle. L'infrastructure bancaire traditionnelle, conçue pour des humains dotés d'une identité légale, est structurellement inadaptée aux besoins des agents IA : délais de règlement incompatibles avec des traitements en millisecondes, exigences KYC inapplicables à un logiciel, montants minimaux de transaction prohibitifs pour des micropaiements de fractions de centimes. Les stablecoins, en revanche, fonctionnent nativement sur des blockchains programmables, permettant des transferts instantanés et quasi-gratuits entre systèmes autonomes, sans intermédiaire humain ni compte bancaire requis. Cette convergence s'inscrit dans l'accélération du mouvement dit "agentic AI", porté activement par Anthropic, OpenAI et Google, dont les agents auront bientôt besoin d'accéder à des API tierces, des services cloud ou d'autres agents spécialisés contre paiement. Les émetteurs de stablecoins comme Circle (USDC) et Tether (USDT) perçoivent ce marché comme un vecteur de croissance considérable, d'autant que la régulation américaine clarifie progressivement le cadre légal de ces instruments, renforçant leur légitimité pour des usages institutionnels et automatisés.

UELe règlement MiCA, déjà en vigueur dans l'UE, encadre les stablecoins comme l'USDC et pourrait faciliter leur adoption par les entreprises européennes développant des agents IA autonomes.

OutilsOpinion
1 source
Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière
174The Decoder 

Avec Qwen3.7-Plus, Alibaba veut transformer l'IA multimodale en agent autonome à part entière

Alibaba a lancé Qwen3.7-Plus, un nouveau modèle d'IA multimodal conçu pour fonctionner comme un agent autonome à part entière. Lors d'une démonstration publiée par l'équipe Qwen, un agent construit sur ce modèle a développé de manière entièrement autonome une application d'apprentissage de vocabulaire, générant plus de 10 000 lignes de code à travers 1 000 appels successifs sur une durée de onze heures. Le modèle intègre dans une seule boucle agentique la perception visuelle, la manipulation d'interfaces graphiques et la génération de code. Ce qui distingue Qwen3.7-Plus est sa capacité à combiner ces trois dimensions sans intervention humaine, ce qui représente un pas concret vers des agents capables de mener des projets logiciels complets de bout en bout. Sur les benchmarks de compréhension d'écran publiés par Alibaba, le modèle arrive en tête, même si ses performances globales restent inégales selon les tâches. Pour les entreprises et développeurs qui cherchent à automatiser des workflows complexes, il offre une alternative crédible aux modèles occidentaux, à un tarif nettement inférieur à ceux de OpenAI ou Anthropic. Qwen3.7-Plus s'inscrit dans la stratégie agressive d'Alibaba pour s'imposer dans la course mondiale aux modèles frontier, une compétition qui oppose désormais directement les laboratoires chinois aux américains. Contrairement à de nombreux modèles Qwen précédents publiés en open source, celui-ci est propriétaire, sans poids disponibles publiquement, ce qui marque un tournant commercial dans l'approche du groupe. La capacité à enchaîner perception, raisonnement et action sur de longues séquences restera un critère clé pour départager les acteurs de ce marché en 2026.

UELes développeurs et entreprises européens disposent d'une alternative significativement moins coûteuse pour automatiser des workflows complexes impliquant perception visuelle et génération de code.

💬 11 heures, 10 000 lignes de code, zéro intervention humaine. C'est le genre de démo qu'on peut facilement balayer d'un revers de main, mais là les trois briques (vision, GUI, code) sont vraiment dans la même boucle, pas juste collées ensemble. Par contre, Alibaba qui passe en proprio avec ce modèle, c'est un signal clair : la phase open source généreuse, c'est terminé pour les modèles qui comptent vraiment.

LLMsOpinion
1 source
Le futuriste IA de Microsoft explique comment il utilise Copilot et les problèmes concrets que les entreprises résolvent avec des agents
175VentureBeat AI 

Le futuriste IA de Microsoft explique comment il utilise Copilot et les problèmes concrets que les entreprises résolvent avec des agents

Lors de sa conférence Build 2026, Microsoft a dévoilé cette semaine une série d'annonces destinées à ancrer les agents d'intelligence artificielle au cœur des systèmes d'entreprise. La firme a présenté Microsoft IQ, une couche contextuelle unifiée couvrant GitHub Copilot, Microsoft Foundry et Copilot Studio, ainsi que des API Work IQ dont le lancement est prévu le 16 juin. S'y ajoutent Fabric IQ pour les données métier structurées, Foundry IQ pour la récupération d'informations à travers les bases de connaissances d'entreprise et le web en temps réel, et Web IQ, un moteur de recherche conçu spécifiquement pour les agents. Microsoft a également introduit Scout, un assistant personnel de travail autonome, et annoncé sept nouveaux modèles maison regroupés sous la famille MAI, dont MAI-Thinking-1, optimisés pour l'efficience en tokens et la personnalisation sur données propriétaires. En parallèle, Claude Opus 4.8 d'Anthropic est désormais disponible sur Azure Foundry, aux côtés des modèles OpenAI GPT, témoignant d'une stratégie délibérée de choix multiple de modèles. Ces annonces marquent un tournant dans la façon dont Microsoft positionne son infrastructure IA : ce n'est plus l'accès à un modèle puissant qui fait la différence, mais la capacité à donner aux agents un contexte fiable, une identité, une mémoire et un accès sécurisé aux données d'entreprise. Pour les DSI et équipes techniques, cela se traduit concrètement par la possibilité de déployer des agents gérés dans Foundry, avec gestion automatique du dimensionnement et de la conteneurisation, sans avoir à construire cette infrastructure from scratch. L'enjeu est de taille : les entreprises qui parviennent à brancher leurs agents sur leurs données internes et leurs workflows existants pourront automatiser des processus complexes à grande échelle, là où les expériences pilotes restaient jusqu'ici cantonnées à des cas d'usage isolés. Marco Casalaina, VP Products Core AI et "AI Futurist" de Microsoft, est au cœur de cette stratégie. Ancien responsable de l'équipe Einstein AI chez Salesforce et diplômé en informatique de Cornell, il a rejoint Microsoft début 2022 pour prendre la tête des Azure Cognitive Services avant d'étendre son périmètre à l'ensemble des outils pour développeurs IA, incluant Foundry, VS Code, GitHub et GitHub Copilot. Son rôle de futuriste a une définition très concrète chez Microsoft : il est systématiquement le premier à tester chaque nouvelle fonctionnalité en provenance de toutes les équipes de la firme. Cette position d'observatoire lui permet de tracer ce qu'il appelle "le futur immédiat", c'est-à-dire l'horizon à douze mois des capacités agentiques. La compétition pour devenir la plateforme de référence des agents d'entreprise est désormais ouverte, avec Google et AWS comme principaux rivaux dans une course où le contexte, la gouvernance et l'intégration des données deviennent les véritables différenciateurs.

UELes entreprises européennes peuvent évaluer les API Work IQ sur Azure (lancement le 16 juin) et les modèles MAI pour l'automatisation de leurs workflows internes, avec des enjeux de souveraineté des données à considérer.

💬 Microsoft assume enfin que la guerre se joue sur la plomberie, pas sur les modèles. Donner aux agents un contexte fiable, une identité et un accès sécurisé aux données internes, c'est précisément ce qui bloquait les pilotes depuis deux ans. Et avoir Claude d'Anthropic sur Azure aux côtés d'OpenAI, c'est malin : un argument de neutralité que Google et AWS n'ont pas encore.

OutilsOutil
1 source
Les 15 meilleurs outils de vibe coding en 2026 : prix, fonctionnalités et cas d'usage
176MarkTechPost 

Les 15 meilleurs outils de vibe coding en 2026 : prix, fonctionnalités et cas d'usage

En 2026, le "vibe coding" s'est imposé comme l'approche dominante du développement logiciel assisté par IA. Le principe, popularisé par Andrej Karpathy, ancien directeur de l'IA chez Tesla et OpenAI, consiste à décrire en langage naturel ce que l'on veut construire, puis à laisser un agent IA générer le code correspondant. Le développeur fixe la direction et valide le résultat, l'agent prend en charge l'essentiel de l'implémentation. Une comparaison récente de quinze outils phares illustre la diversité des approches disponibles : des plateformes agents complètes comme Atoms, qui mobilise une équipe d'agents spécialisés couvrant architecture, SEO et intégration Stripe pour livrer une application prête à déployer, jusqu'aux IDE natifs IA comme Cursor, qui conserve le développeur au coeur du code tout en automatisant les modifications multi-fichiers via son "Agent Mode". D'autres acteurs majeurs figurent dans ce panorama : Replit, environnement entièrement navigateur sans installation locale, idéal pour le prototypage rapide ; Claude Code d'Anthropic, interface en ligne de commande avec mémoire de projet persistante ; GitHub Copilot, désormais capable d'exécuter des tâches complètes depuis une invite en langage naturel ; et Windsurf avec son agent Cascade orienté collaboration en temps réel. Cette évolution réduit concrètement le coût du passage de l'idée au prototype. Un fondateur peut désormais tester un concept sans recruter une équipe d'ingénieurs. Un développeur expérimenté peut déléguer le code répétitif pour se concentrer sur l'architecture. Les cycles d'itération raccourcissent, les boucles de feedback se resserrent. Pour l'industrie, cela signifie que la barrière technique à la création de logiciels s'abaisse significativement, ce qui ouvre le développement à des profils non-ingénieurs tout en augmentant la productivité des développeurs chevronnés. Le choix entre ces outils repose sur un arbitrage central : jusqu'où déléguer à l'agent et combien garder de contrôle sur le code produit. Le vibe coding s'inscrit dans une tendance plus large portée par la montée en puissance des grands modèles de langage, notamment ceux d'Anthropic, OpenAI et Google, qui alimentent la plupart de ces outils. La capacité d'un outil à comprendre une base de code existante, à gérer des projets de grande taille, et à s'intégrer dans des workflows de revue via des pull requests devient un critère de sélection clé, en particulier pour les équipes d'entreprise soumises à des règles strictes en matière de confidentialité des données. La prochaine étape probable est l'automatisation complète de bout en bout, de la spécification produit au déploiement en production, un territoire où Atoms se positionne déjà, mais que Cursor, Copilot et Replit approchent chacun par des voies différentes. Le développeur de 2026 choisit moins son langage que son niveau d'autonomie accordé à la machine.

OutilsOutil
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
177Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch
178The Information AI 

Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch

Meta envisage de lancer un abonnement premium à 199,99 dollars par mois pour son futur agent d'IA grand public, baptisé Hatch en interne. L'information provient de documents internes consultés par The Information ainsi que d'une source proche du dossier. La tarification serait structurée par paliers, le niveau supérieur offrant des limites d'utilisation plus élevées. Les décisions finales sur les prix n'ont pas encore été arrêtées. Un tel positionnement tarifaire placerait Meta en concurrence directe avec les offres haut de gamme des leaders du secteur comme OpenAI, dont le plan ChatGPT Pro est facturé 200 dollars par mois, ou Google avec ses abonnements Gemini Advanced. Pour Meta, dont l'IA grand public a jusqu'ici été proposée gratuitement via ses applications, ce serait un tournant stratégique majeur : la monétisation directe des capacités agentiques représente un levier de revenus entièrement nouveau, distinct de son modèle publicitaire habituel. La course aux agents IA s'est considérablement accélérée en 2025 et 2026, avec l'ensemble des grandes plateformes technologiques cherchant à transformer leurs assistants conversationnels en outils capables d'agir de manière autonome, navigation web, exécution de tâches, gestion de fichiers. Meta, qui a jusqu'ici misé sur l'open source avec sa famille de modèles Llama, semble vouloir occuper le segment premium du marché grand public. Le lancement de Hatch et sa tarification définitive restent à confirmer.

UESi Hatch est lancé en Europe, il sera soumis à l'AI Act (classification agent IA à risque) et au RGPD pour la gestion des données des millions d'utilisateurs français et européens de Meta.

BusinessActu
1 source
Monako : Ces lunettes connectées ne veulent pas filmer vos vacances, elles veulent coder
179Le Big Data 

Monako : Ces lunettes connectées ne veulent pas filmer vos vacances, elles veulent coder

La startup Monako a annoncé des lunettes connectées baptisées Monako Glass, pensées non pas pour le grand public mais spécifiquement pour les développeurs qui travaillent avec des agents de codage comme Claude Code ou OpenAI Codex. Le produit, annoncé le 2 juin 2026 via un tweet de la cofondatrice Candy Liu, se présente comme un ordinateur Linux miniature intégré dans une monture de 48 grammes, compatible avec des verres correcteurs. Le principe : lancer une session de développement sur un ordinateur portable, la transférer vers les lunettes sans interrompre le travail en cours, et laisser l'agent IA continuer à opérer pendant que la caméra intégrée lui fournit du contexte visuel sur l'environnement réel. Une précommande est ouverte à 19 dollars, positionnée davantage comme un ticket d'intérêt que comme une commande ferme, la vidéo complète de présentation n'ayant pas encore été publiée. L'enjeu concret est réel : lorsqu'un agent IA travaille sur une tâche longue, fermer son ordinateur pour se déplacer ou assister à une réunion interrompt brutalement le flux de travail. Ces lunettes promettent une continuité entre le bureau, un atelier, un trajet ou une réunion, en gardant l'agent actif et visible dans le champ de vision. Pour les développeurs qui intègrent de plus en plus ces outils dans leur quotidien, la proposition a du sens. Le poids annoncé de 48 grammes rapproche le produit d'une monture classique, ce qui distingue Monako des tentatives précédentes de lunettes connectées souvent abandonnées après quelques semaines d'usage à cause de leur inconfort. Monako arrive dans un contexte où les agents de programmation autonomes se multiplient et gagnent en sophistication, portés par des modèles comme GPT-4o et Claude 3. L'idée de déporter ces agents sur un dispositif portable s'inscrit dans une tendance plus large : reconfigurer l'ordinateur non plus comme une machine fixe mais comme un assistant intégré au corps et au regard. Pourtant, les questions décisives restent sans réponse : autonomie de la batterie, qualité d'affichage, latence, confidentialité de la caméra, et sécurité des sessions de code potentiellement sensibles. Ces détails séparent une vraie innovation d'un prototype convaincant sur papier. L'histoire des lunettes connectées, des Google Glass aux modèles plus récents, rappelle que le fossé entre la démonstration et l'usage quotidien reste difficile à franchir. Monako a l'avantage d'un positionnement ciblé et crédible, mais devra démontrer que son Linux embarqué tient ses promesses dans des conditions réelles avant de convaincre les développeurs de coder le nez dans leurs verres.

OutilsOutil
1 source
Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI
180AWS ML Blog 

Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI

Amazon Web Services publie un guide technique détaillant comment améliorer la précision des appels d'outils dans les agents IA, en combinant deux techniques d'entraînement, le Supervised Fine-Tuning (SFT) et le Direct Preference Optimization (DPO), sur sa plateforme Amazon SageMaker AI. L'exemple concret porte sur Qwen3 1.7B, un petit modèle de langage, entraîné via des jobs SageMaker AI, un service entièrement géré prenant en charge les configurations multi-GPU et multi-nœuds à la demande. L'objectif est d'apprendre à un modèle à sélectionner le bon outil, dans le bon format, sans briser la chaîne d'actions d'un workflow automatisé. Quand un agent IA appelle le mauvais outil ou formate incorrectement ses paramètres, les conséquences sont directes : délais de traitement allongés, taux d'erreurs en hausse, coûts de support accrus et expérience utilisateur dégradée. Pour les organisations qui font passer leurs applications agentiques du pilote à la production, fiabiliser cette couche d'interaction avec les outils externes est devenu un prérequis non négociable. Le SFT permet d'enseigner au modèle le vocabulaire et les contraintes propres à chaque outil via des exemples explicites. Le DPO, lui, raffine ce comportement en intégrant des préférences directement dans la boucle d'entraînement, sous la forme de paires "réponse préférée / réponse rejetée", sans avoir besoin de fonctions de récompense ni de modèles de récompense distincts, ce qui réduit significativement les ressources et le temps d'entraînement par rapport au reinforcement learning classique. Le DPO s'appuie sur des travaux publiés en 2023 (arXiv:2305.18290) et s'intègre notamment via la bibliothèque HuggingFace TRL, qui prend en entrée des triplets prompt / réponse choisie / réponse rejetée. SageMaker AI ajoute une couche d'infrastructure managée : les clusters haute performance se lancent à la demande, s'arrêtent automatiquement en fin de job, et les métriques d'entraînement remontent vers MLflow intégré à SageMaker pour analyse ultérieure. Cette approche en deux temps, SFT pour la connaissance des outils, DPO pour l'alignement fin sur les comportements souhaités, trace une voie praticable pour les équipes qui veulent construire des agents robustes sans gérer elles-mêmes l'infrastructure d'entraînement. À mesure que les modèles plus petits gagnent en précision grâce à ces techniques, la frontière entre un LLM généraliste et un agent spécialisé fiable en production continue de se réduire.

LLMsTuto
1 source
Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming
181MarkTechPost 

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming

Nous Research a lancé en prévisualisation publique Hermes Desktop, une application native disponible sur macOS, Windows et Linux, qui offre pour la première fois une interface graphique à son agent IA open source Hermes. Jusqu'ici limité à une interface en ligne de commande et à des passerelles de messagerie, Hermes Agent v0.15.2 dispose désormais d'une fenêtre native avec affichage en streaming des réponses, prévisualisation en temps réel des pages web, fichiers et sorties d'outils, un navigateur de fichiers, ainsi que des entrées et sorties vocales. L'application partage entièrement son cœur avec le CLI existant : configuration, clés API, sessions, compétences et mémoire sont communs à toutes les surfaces. Une conversation démarrée dans le bureau peut reprendre dans le terminal, et inversement, sans duplication d'état. Hermes Desktop a été démontré pour la première fois lors du keynote GTC de Jensen Huang avant d'être rendu disponible le 2 juin 2026. Ce lancement marque une étape importante dans l'accessibilité des agents IA autonomes pour le grand public. Hermes n'est pas un simple assistant de chat : c'est un agent qui planifie, exécute des actions et maintient un état persistant entre les sessions. La boucle d'apprentissage fermée le distingue des outils classiques : après une tâche complexe, l'agent génère des compétences réutilisables qui s'améliorent d'elles-mêmes lors des usages ultérieurs. La mémoire est gérée par l'agent lui-même, avec rappel inter-sessions via recherche FTS5 et résumé par LLM. En supprimant le prérequis du terminal, Nous Research ouvre Hermes à une population bien plus large d'utilisateurs non techniques, ce qui pourrait accélérer l'adoption des agents IA dans des flux de travail professionnels quotidiens. Nous Research s'inscrit dans une compétition croissante autour des agents IA autonomes et multiplateformes, face à des acteurs comme Anthropic avec Claude Code ou OpenAI avec ses capacités agentiques. Hermes se connecte à Telegram, Discord, Slack, WhatsApp, Signal, Email et CLI depuis une seule passerelle, avec un planificateur cron intégré et une délégation à des sous-agents isolés. L'exécution est sandboxée via cinq backends : local, Docker, SSH, Singularity et Modal. L'interopérabilité avec le Model Context Protocol (MCP) permet d'intégrer des outils externes. Pour les API, Nous Portal propose quatre niveaux d'abonnement (Free, Plus, Super, Ultra) donnant accès à plus de 300 modèles et à un Tool Gateway unifié qui route la recherche web via Firecrawl, la génération d'images via FAL et la synthèse vocale via OpenAI. Les prochaines questions porteront sur la stabilité hors prévisualisation et sur la capacité de la startup à tenir face aux ressources des géants du secteur.

OutilsOutil
1 source
Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée
182VentureBeat AI 

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Alibaba a lancé cette semaine Qwen3.7-Plus, son dernier grand modèle de langage multimodal, capable de traiter simultanément du texte, des vidéos et des images. Le modèle est proposé à 0,40 dollar par million de tokens en entrée et 1,60 dollar en sortie, soit 60 % moins cher que son prédécesseur Qwen3.7-Max, sorti quelques semaines plus tôt mais limité au texte seul. Avec une fenêtre de contexte d'un million de tokens et jusqu'à 256 000 tokens dédiés au raisonnement interne, Qwen3.7-Plus cible explicitement les usages agentiques complexes, comme la migration de bases de code ou l'analyse automatisée de documents visuels. Le modèle intègre aussi un paramètre API baptisé "preservethinking", qui conserve les blocs de raisonnement internes entre les tours de conversation, évitant à l'agent de perdre le fil de sa logique au milieu d'une tâche longue. La rupture la plus notable n'est pas technique : Qwen3.7-Plus est distribué sous licence commerciale fermée, uniquement via l'API Alibaba Cloud et le service Qwen Chat. C'est un virage stratégique majeur pour un groupe qui avait construit sa réputation internationale sur la publication de modèles open source puissants, proches de l'état de l'art. Des entreprises comme Airbnb s'appuyaient justement sur ces modèles en accès libre. Pour les développeurs et organisations qui avaient intégré l'open source Qwen dans leurs infrastructures, ce changement de cap impose soit de migrer vers l'API payante d'Alibaba, soit de se tourner vers un concurrent. Sur le plan tarifaire, Qwen3.7-Plus reste compétitif face à des modèles comme MiniMax-M3 (0,30/1,20 dollar) ou Gemini 3.1 Flash-Lite de Google (0,25/1,50 dollar), mais il est dépassé en prix bas par DeepSeek-V4-Flash (0,14/0,28 dollar). Ce lancement s'inscrit dans une dynamique de consolidation des stratégies de monétisation chez les grands labos chinois. Après avoir inondé le marché de modèles open source pour gagner en adoption et en réputation, Alibaba suit une trajectoire similaire à celle d'OpenAI ou Anthropic : garder les modèles les plus capables derrière un accès payant. La fonctionnalité "preservethinking" avait déjà été introduite avec la génération Qwen 3.6, sur les modèles open weight Qwen3.6-27B et le Max propriétaire, signe que la stratégie de différenciation entre open et closed s'élabore depuis plusieurs mois. Avec la course aux modèles multimodaux et agentiques qui s'accélère, l'enjeu pour Alibaba est de ne pas perdre les développeurs séduits par l'ouverture, tout en capturant les revenus que seule une offre cloud fermée peut générer à grande échelle.

UELes développeurs et organisations européennes ayant intégré les modèles Qwen open source dans leurs infrastructures devront migrer vers l'API payante d'Alibaba Cloud ou se tourner vers des alternatives, représentant une contrainte opérationnelle et potentiellement financière concrète.

LLMsOpinion
1 source
Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026
183VentureBeat AI 

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines. L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici. Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

UELes entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

OutilsOpinion
1 source
Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore
184AWS ML Blog 

Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore

Baz, une startup spécialisée dans l'automatisation des revues de code, a développé un agent IA capable de vérifier non seulement la qualité technique du code, mais aussi sa conformité aux spécifications produit et aux maquettes de design. Baptisé Spec Review Agent, ce système repose sur Amazon Bedrock et Amazon Bedrock AgentCore, les services d'IA managés d'AWS. Concrètement, l'agent s'active automatiquement à l'ouverture d'une pull request GitHub, interroge simultanément Figma pour récupérer les spécifications visuelles et Jira pour les exigences fonctionnelles, puis décompose l'ensemble en critères vérifiables. Il spawne ensuite des sous-agents parallèles, un par exigence, qui analysent le code source et interagissent avec l'environnement de prévisualisation via l'outil AgentCore Browser Tool, capable d'inspecter le DOM, de simuler des interactions utilisateur et de comparer visuellement l'interface rendue avec les maquettes Figma. L'enjeu est considérable pour les équipes de développement modernes. Jusqu'ici, la vérification qu'une fonctionnalité correspondait réellement à ce que le product owner avait demandé ou que le designer avait conçu reposait entièrement sur des tests manuels effectués par des équipes QA. Ces vérifications prenaient des heures, introduisaient des incohérences d'une release à l'autre et s'appuyaient sur une connaissance interne non documentée et donc fragile. En automatisant cette couche de validation, Baz cherche à supprimer le délai systématique entre la livraison du code et la détection des écarts, réduisant ainsi les régressions et accélérant les cycles de mise en production. Pour les équipes engineering qui travaillent à haute vélocité, c'est potentiellement une transformation profonde du workflow de review, qui passe d'une vérification de syntaxe à une validation de comportement réel. Ce projet s'inscrit dans une tendance plus large d'industrialisation des agents IA dans le cycle de développement logiciel, après l'émergence des assistants de génération de code comme GitHub Copilot. Amazon Bedrock AgentCore, lancé récemment par AWS, propose des primitives spécifiquement conçues pour l'orchestration d'agents multi-étapes en production, incluant la navigation web autonome, la gestion de la mémoire et l'exécution de code dans des environnements isolés. Baz exploite ces capacités pour bâtir une infrastructure d'orchestration déployée sur Amazon EKS, avec un Application Load Balancer en entrée. La prochaine étape logique pour ce type de système sera d'étendre la couverture au-delà des critères d'acceptation Jira et des maquettes Figma, vers des dimensions comme la performance ou l'accessibilité, transformant progressivement la revue de code en audit produit complet piloté par l'IA.

OutilsOutil
1 source
Les nouveaux agents IA de Zip visent à empêcher les équipes financières d'uploader des contrats dans ChatGPT
185VentureBeat AI 

Les nouveaux agents IA de Zip visent à empêcher les équipes financières d'uploader des contrats dans ChatGPT

Zip, la plateforme d'approvisionnement d'entreprise valorisée à 2,2 milliards de dollars, a présenté lundi deux nouvelles offres lors de son AI Summit à New York, réunissant des représentants d'Anthropic, OpenAI, Datadog et Humana. La première est une suite de cinq "Superagents" capables d'analyser des contrats, de coder des factures et de négocier avec des fournisseurs, entièrement dans le cadre de gouvernance de Zip. La seconde est une implémentation du Model Context Protocol (MCP) qui permet de connecter les données de Zip directement à des assistants IA comme Claude ou ChatGPT, tout en préservant les pistes d'audit et les contrôles de conformité. Ces agents ciblent chacun un goulot d'étranglement précis du cycle d'achat, de la demande initiale jusqu'au paiement. Ces annonces répondent à un problème que les directions achats connaissent mais évitent de mentionner publiquement : leurs équipes utilisent déjà l'IA pour des tâches financières sensibles, mais depuis des comptes personnels non surveillés. Des employés téléchargent des données de dépenses dans Claude, relisent des contrats confidentiels dans ChatGPT ou génèrent des analyses financières internes dans Gemini, sans qu'aucune trace n'existe. Les conséquences juridiques sont réelles : les violations de la loi SOX aux États-Unis peuvent entraîner des amendes allant jusqu'à 25 millions de dollars, des peines de prison pour les dirigeants, voire la radiation en bourse pour les sociétés cotées. "Ce travail se passe déjà, avec ou sans gouvernance", a déclaré Lu Cheng, co-fondateur et directeur technique de Zip. "Même les entreprises qui construisent l'IA elles-mêmes veulent que ce travail soit encadré." Le lancement s'inscrit dans une bataille concurrentielle qui s'intensifie sur le marché de l'IA pour les achats en entreprise. SAP vient de présenter sa vision "Autonomous Enterprise" à la conférence Sapphire 2026, avec plus de 50 assistants Joule spécialisés couvrant finance, chaîne d'approvisionnement et achats. Coupa a de son côté lancé sa plateforme Compose lors de l'Inspire 2026 à Las Vegas en mai. Le cabinet Gartner prédit que 40 % des applications d'entreprise intégreront des agents IA spécialisés d'ici fin 2026, contre moins de 5 % aujourd'hui. Face à ces poids lourds, Zip mise sur son positionnement d'orchestrateur transversal : l'entreprise se connecte à SAP, Coupa, ServiceNow et d'autres outils simultanément, ce qui lui donne une visibilité sur l'ensemble du processus d'achat que les solutions isolées ne peuvent pas offrir. C'est cette position de couche centrale, combinée au contrôle de conformité, que Zip cherche à transformer en avantage décisif.

UELes directions achats européennes font face au même risque de shadow IT financier (contrats et données sensibles uploadés dans des outils IA non encadrés), une problématique accentuée par les obligations RGPD et NIS2 qui imposent une traçabilité stricte des traitements de données personnelles.

OutilsOutil
1 source
JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles
186MarkTechPost 

JetBrains lance Mellum2 : un modèle MoE de 12 milliards de paramètres pour les tâches spécialisées dans les pipelines IA multi-modèles

JetBrains a publié Mellum2, un nouveau modèle d'intelligence artificielle open source dont les poids sont disponibles sous licence Apache 2.0. Ce successeur de Mellum, un modèle dense de 4 milliards de paramètres orienté complétion de code, adopte une architecture Mixture-of-Experts (MoE) avec 12 milliards de paramètres au total, dont seulement 2,5 milliards sont activés à chaque token. Le modèle dispose de 64 experts, dont 8 sont sollicités simultanément, ce qui maintient un coût de calcul équivalent à un modèle dense de 2,5B tout en offrant une capacité de spécialisation bien supérieure. Sa fenêtre de contexte atteint 131 072 tokens, étendue après le pré-entraînement grâce à une méthode YaRN sélective par couche. L'entraînement a porté sur environ 10,6 billions de tokens répartis en trois phases progressivement orientées vers du code et des mathématiques, avec l'optimiseur Muon en précision hybride FP8. JetBrains publie six checkpoints couvrant l'ensemble du pipeline : modèle de base, variantes SFT, et modèles affinés par renforcement (RLVR) en versions Instruct et Thinking. Mellum2 ne vise pas à remplacer les modèles frontier comme GPT-4o ou Claude 3.5 Sonnet. JetBrains le positionne explicitement comme un "focal model", une brique rapide et spécialisée destinée à s'intégrer dans des pipelines multi-modèles. La variante Instruct répond directement, sans chaîne de raisonnement externalisée, ce qui la rend adaptée aux tâches à faible latence : appels d'outils, suivi d'instructions, génération de code à la volée. La variante Thinking, elle, produit une trace de raisonnement explicite avant sa réponse finale, utile pour le débogage complexe, la planification multi-étapes ou les flux agentiques. Sur les benchmarks autodéclarés par JetBrains, Mellum2 Instruct obtient 78,4 sur EvalPlus et 66,3 sur BFCL v3 (appels de fonctions), des scores compétitifs face aux modèles open-weight de 4B à 14B paramètres, notamment les Qwen3.5 et Ministral 3. Les résultats en raisonnement mathématique (41,7 sur AIME 2025+2026) et en connaissance générale (78,1 sur MMLU-Redux) restent en retrait par rapport à Qwen3.5 9B, ce qui reflète le choix assumé d'une spécialisation ingénierie logicielle. Ce lancement s'inscrit dans une tendance de fond : les éditeurs d'IDE et d'outils de développement construisent désormais leurs propres modèles plutôt que de dépendre exclusivement des API tierces. JetBrains, dont les produits, IntelliJ, PyCharm, WebStorm, sont utilisés par des millions de développeurs, dispose d'un corpus de code propriétaire et d'une connaissance fine des usages réels qui justifient cet investissement. La mise à disposition sous Apache 2.0 favorise l'adoption communautaire et positionne Mellum2 comme une alternative crédible aux modèles de Microsoft (Phi) ou de Alibaba (Qwen) dans l'écosystème open source. La prochaine étape logique sera l'intégration native dans les IDE JetBrains, transformant ce modèle de recherche en produit distribué à grande échelle.

UEJetBrains, entreprise tchèque basée dans l'UE, publie ce modèle sous Apache 2.0, offrant aux développeurs européens une alternative open source locale aux modèles américains (Microsoft Phi) et chinois (Alibaba Qwen) pour l'assistance au code dans les IDEs.

LLMsOpinion
1 source
MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes
187MarkTechPost 

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

MiniMax a lancé le 1er juin 2026 son nouveau modèle MiniMax M3, successeur du M2.7 dans la série M. La nouveauté architecturale centrale est la MSA (MiniMax Sparse Attention), un mécanisme d'attention creuse qui permet une fenêtre de contexte d'un million de tokens tout en ramenant le coût de calcul par token à seulement 1/20e de celui des modèles M2 précédents à cette longueur. Concrètement, l'étape de préfill est accélérée de plus de 9 fois et le décodage de plus de 15 fois au niveau du million de tokens. M3 intègre nativement la compréhension d'images et de vidéos ainsi que le contrôle de l'ordinateur de bureau, sans modules additionnels. Le modèle est disponible immédiatement via l'API MiniMax, MiniMax Code et le MiniMax Token Plan. Les poids open-weight et le rapport technique complet sont annoncés dans les dix jours suivant la sortie. Sur les benchmarks de programmation autonome, M3 atteint 59 % sur SWE-Bench Pro, surpassant GPT-5.5 et Gemini 3.1 Pro et s'approchant de Claude Opus 4.7. Il obtient également 66 % sur Terminal-Bench 2.1, 74,2 % sur MCP Atlas, le meilleur score parmi les modèles évalués sur Claw-Eval, et 70,06 % de taux de complétion sur OSWorld-Verified, un benchmark de contrôle d'interface utilisateur sur 361 tâches. Pour les développeurs et les équipes d'ingénierie, ces chiffres signifient un modèle capable d'ingérer des bases de code complètes en contexte, de raisonner sur de longues séquences vidéo et de mener des workflows de développement multi-tours sans perdre la cohérence. MiniMax a également conçu un simulateur d'interaction développeur pour l'entraînement, reproduisant des scénarios réels comme l'élaboration d'exigences, les corrections itératives et les changements de tâche en cours de session, afin de réduire l'écart entre performances sur benchmarks statiques et usages réels en production. L'architecture MSA s'attaque à un problème structurel des transformers classiques : la complexité quadratique de l'attention standard, qui rend le traitement de très longs contextes prohibitif en calcul et en mémoire. Là où des approches concurrentes comme DSA ou MoBA proposent des solutions partielles, MiniMax affirme que MSA partitionne le cache KV de manière plus précise, chaque bloc n'étant lu qu'une seule fois avec un accès mémoire contigu grâce à l'approche dite "KV outer gather Q". L'équipe reporte un gain supérieur à 4 fois par rapport aux implémentations open-source de référence comme Flash-Sparse-Attention. M3 s'inscrit dans une compétition intense entre labs pour combiner grande fenêtre de contexte, multimodalité native et capacités agentiques dans un seul modèle open-weight, segment où MiniMax revendique une première mondiale. La publication prochaine des poids permettra à la communauté de vérifier ces affirmations de manière indépendante, ce qui constituera un test décisif pour la crédibilité du modèle face à Gemini 2.5 Pro, aux modèles Claude ou aux futurs lancements de Qwen.

LLMsActu
1 source
OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia
188The Information AI 

OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia

OpenAI envisage de rendre public un outil logiciel développé en interne qui permettrait d'exécuter des charges de travail d'intelligence artificielle sur des puces de différents fabricants, sans se limiter à celles de Nvidia. C'est Sachin Katti, responsable des infrastructures et du calcul chez OpenAI, qui a évoqué cette possibilité lors d'une table ronde. OpenAI a récemment conclu des accords pour utiliser les puces d'Amazon, de Cerebras et d'AMD, tout en développant ses propres puces personnalisées. Katti a décrit cet outil comme une "capacité d'optimisation agentique" et affirmé vouloir "rendre cette capacité disponible pour le monde entier". Il a également indiqué qu'OpenAI disposait déjà d'échantillons précoces des prochaines puces Vera Rubin de Nvidia, dont le déploiement est attendu d'ici fin 2025, et prévoit de les intégrer à ses entraînements d'ici la fin de l'année. Si OpenAI publie effectivement cet outil, les conséquences pour Nvidia pourraient être significatives. L'avantage concurrentiel du géant des semi-conducteurs repose en grande partie sur CUDA, son écosystème propriétaire de compilateurs, de bibliothèques et d'outils d'optimisation que la quasi-totalité des grands développeurs d'IA utilisent pour faire tourner leurs logiciels sur ses puces. Un outil capable d'abstraire cette dépendance, c'est-à-dire de permettre aux équipes d'OpenAI de lancer des charges de travail sans se soucier du matériel sous-jacent, ouvrirait la voie à une concurrence matérielle que Nvidia a jusqu'ici réussi à étouffer grâce à son écosystème logiciel. Katti a également suggéré que l'IA elle-même pourrait générer du code optimisé pour différentes architectures de puces, réduisant encore davantage la valeur de l'exclusivité de CUDA. Cette annonce s'inscrit dans une tendance de fond que l'on observe chez tous les grands laboratoires d'IA : OpenAI, Anthropic et Meta cherchent tous à diversifier leurs fournisseurs de calcul pour ne pas dépendre d'un seul acteur. Katti a résumé cette évolution par une formule claire : "Nous allons nous retrouver dans un monde très hétérogène." PyTorch, le framework développé à l'origine par Meta, avait déjà commencé à éroder l'hégémonie de CUDA en facilitant l'écriture de code pour plusieurs types de puces. Des startups proposent désormais des outils de traduction automatique de ce code vers des instructions bas niveau adaptées directement au matériel. OpenAI, en s'inspirant du système Borg de Google qui permet de gérer des charges de calcul sur des infrastructures hétérogènes, ambitionne d'accélérer ce mouvement à l'échelle de l'ensemble de l'industrie.

UESi cet outil est publié, les laboratoires et entreprises européens pourraient diversifier leurs fournisseurs de puces IA au-delà de Nvidia, réduisant ainsi une dépendance stratégique coûteuse.

InfrastructureOpinion
1 source
AgentOps : déployer des agents IA à grande échelle avec Amazon Bedrock AgentCore
189AWS ML Blog 

AgentOps : déployer des agents IA à grande échelle avec Amazon Bedrock AgentCore

Amazon Web Services a présenté AgentOps, une nouvelle discipline opérationnelle pour déployer, gérer et améliorer les agents IA en production, en s'appuyant sur sa plateforme Amazon Bedrock AgentCore. Publié début juin 2026, ce cadre de référence s'articule autour de quatre piliers : gouvernance et sécurité, construction et opérations, évaluation, et observabilité. Bedrock AgentCore permet de déployer des agents IA compatibles avec n'importe quel modèle de langage et n'importe quel framework open source, en passant du développement local à la production sans gérer d'infrastructure. AWS propose une architecture de référence complète couvrant l'ensemble du cycle de vie DevOps adapté aux agents : planification, développement, construction, test, déploiement et maintenance. Le besoin derrière AgentOps est concret : contrairement aux pipelines classiques, les agents IA prennent des décisions autonomes et non déterministes, ce qui rend le débogage difficile, les coûts imprévisibles et le contrôle qualité complexe. AgentOps répond à ces défis en traitant chaque agent, outil et configuration mémoire comme un artefact versionné avec son propre pipeline CI/CD. L'évaluation s'effectue à quatre niveaux : l'outil individuel, le tour de conversation, le résultat de session et le système global, aussi bien en développement qu'en production. L'observabilité couvre quatre couches de télémétrie pour tracer chaque décision d'agent, surveiller les baisses de qualité et mesurer le coût par interaction. Ce lancement s'inscrit dans une course industrielle autour de l'IA agentique, où AWS, Google, Microsoft et OpenAI cherchent à proposer des plateformes complètes pour industrialiser le déploiement d'agents. La complexité opérationnelle croissante, notamment la gestion des identités d'agents, des protocoles d'authentification inter-agents (A2A), du Model Context Protocol (MCP) et des mécanismes de contrôle humain (human-in-the-loop), pousse les entreprises à chercher des cadres structurés. Amazon Bedrock AgentCore se positionne comme une réponse cloud-native à ces enjeux, en intégrant nativement sécurité, registre d'outils, gestion de l'état et limites d'exécution. Les suites prévisibles incluent l'adoption de ces pratiques AgentOps dans les grandes organisations, ainsi qu'une pression croissante sur les équipes DevOps pour adapter leurs outils et processus à la nature non déterministe des systèmes agentiques.

UELes entreprises françaises et européennes déployant des agents IA sur AWS peuvent adopter ce cadre AgentOps pour structurer leurs pipelines CI/CD et leur observabilité, sans impact réglementaire spécifique à la France ou l'UE.

OutilsActu
1 source
Asana rachète Stack AI pour renforcer ses agents IA no-code
190Le Big Data 

Asana rachète Stack AI pour renforcer ses agents IA no-code

Asana a annoncé l'acquisition de Stack AI, une startup spécialisée dans la création d'agents IA no-code et l'orchestration de workflows entre systèmes d'entreprise. L'opération, dont le montant n'a pas été divulgué, vise à doter la plateforme de gestion de projets d'une couche d'automatisation opérationnelle capable de connecter des environnements aussi divers que Salesforce, Oracle, AWS ou DocuSign. Stack AI s'est bâti une réputation solide dans les secteurs réglementés, santé, services financiers, services professionnels, précisément grâce à ses engagements en matière de gouvernance, de sécurité et de fiabilité des flux automatisés. L'intégration prévue associera les capacités d'exécution de Stack AI au "Work Graph" d'Asana, la couche de données organisationnelles qui structure projets, responsabilités et historiques de collaboration au sein des équipes. Cette acquisition répond à un problème concret que rencontre l'industrie : la plupart des solutions IA actuelles restent cantonnées à des usages individuels, résumer un document, répondre à une question, assister un employé dans une tâche isolée. Elles peinent à orchestrer des processus complets qui traversent plusieurs équipes et plusieurs logiciels. Avec Stack AI, Asana vise à passer du copilote personnel à l'automatisation opérationnelle à grande échelle. Les entreprises pourront concevoir des workflows qui traitent des demandes IT, des processus de conformité, du support client ou des opérations financières sans recourir à du développement logiciel complexe. L'enjeu devient ainsi opérationnel plutôt que conversationnel, ce qui représente un changement de paradigme significatif pour l'ensemble du marché des plateformes de collaboration. Asana se positionne depuis plusieurs mois sur la notion de "human-agent teams", des environnements où des agents IA travaillent collectivement avec des humains, avec validations, transferts de tâches, approbations et mémoire partagée, plutôt que d'opérer comme des outils parallèles déconnectés des opérations réelles. Le PDG Dan Rogers a formulé clairement l'ambition : selon lui, la valeur durable ne résidera pas dans les modèles IA eux-mêmes, mais dans la capacité des plateformes à coordonner outils, données, gouvernance et exécution métier dans un flux cohérent. Cette vision distingue Asana des acteurs focalisés sur les assistants conversationnels généralistes, et la place en concurrence directe avec des plateformes comme ServiceNow ou Microsoft 365 Copilot, qui cherchent eux aussi à devenir le système nerveux central de l'entreprise automatisée. L'intégration de Stack AI dans les produits AI Studio et AI Teammates d'Asana devrait être précisée dans les prochains mois.

UELes entreprises européennes en quête d'automatisation de workflows métier sans développement logiciel pourront à terme bénéficier de nouvelles capacités no-code, sans impact réglementaire direct sur la France ou l'UE.

BusinessOpinion
1 source
Microsoft Build 2026 : ce qu’il faut attendre — et ce qu’il ne faut pas espérer
191Le Big Data 

Microsoft Build 2026 : ce qu’il faut attendre — et ce qu’il ne faut pas espérer

Microsoft Build 2026 ouvre ses portes les 2 et 3 juin au Fort Mason Center de San Francisco, avec un accès en ligne gratuit pour les développeurs du monde entier. Satya Nadella prendra la parole en keynote dès 9h30 heure du Pacifique. L'édition 2026 tourne résolument autour de l'IA agentique : des systèmes capables non plus seulement de répondre à des questions, mais d'agir de manière autonome sur des tâches complexes, en coordonnant plusieurs agents entre eux. Azure AI Foundry est présenté comme le socle technique de ces architectures multi-agents. GitHub Copilot devrait lui aussi franchir un cap, avec des capacités renforcées de débogage, de tests et de correction de code. Reuters signale en parallèle que Microsoft prépare de nouveaux modèles maison, dont un orienté code, pour alimenter Copilot. Côté Windows, Windows AI Foundry permettrait aux applications d'exécuter certains modèles directement sur les PC, via NPU, GPU ou CPU, sans passer par le cloud. Ces annonces dépassent largement le cercle des développeurs. Si les briques agentiques déployées sur Azure finissent intégrées dans Excel, Teams ou Outlook, elles modifieront concrètement les flux de travail de millions d'utilisateurs en entreprise. L'exécution locale des modèles via Windows AI Foundry présente des avantages tangibles : latence réduite, confidentialité améliorée et fonctionnement hors ligne. Microsoft devrait aussi détailler comment réduire les coûts et les délais du passage des prototypes IA à la production, un point de friction majeur pour les équipes qui cherchent à industrialiser ces outils. L'enjeu est de rendre ces technologies utilisables à grande échelle, pas seulement impressionnantes en démonstration. Microsoft Build 2026 s'inscrit dans une course effrénée entre les grands acteurs technologiques pour imposer leurs plateformes comme infrastructure de référence de la prochaine génération d'applications IA. Google, Amazon et Meta jouent la même partition, et chaque Build est aussi une occasion pour Microsoft de montrer que son investissement massif dans OpenAI et dans Azure se traduit en outils concrets pour les développeurs. Le Windows Agent Framework, pressenti pour transformer les agents IA en fonctionnalités système à part entière, et un Windows Agent Store avec un partage de revenus à 85% pour les éditeurs, témoignent d'une ambition claire : faire de Windows une plateforme agentique native. Ce que Build ne montrera probablement pas : du nouveau matériel Surface, un Windows 12 ou des surprises Xbox. L'événement est avant tout une vitrine pour les outils que Microsoft veut mettre dans les mains des développeurs afin de construire la prochaine vague d'applications IA, dont les effets réels se feront sentir sur les mois qui suivent.

UELes développeurs et entreprises européens utilisant Azure et GitHub Copilot seront directement impactés par les nouvelles capacités agentiques, tandis que l'exécution locale de modèles via Windows AI Foundry pourrait faciliter la conformité RGPD en réduisant les transferts de données vers le cloud.

OutilsOutil
1 source
J’ai transformé mon PC en développeur IA avec OpenClaw (et voici combien ça me coûte vraiment)
192Frandroid 

J’ai transformé mon PC en développeur IA avec OpenClaw (et voici combien ça me coûte vraiment)

Un bricoleur passionné mais non-codeur a publié sur Frandroid le récit de son expérience avec OpenClaw, un agent IA autonome installé directement sur son PC personnel. L'auteur, qui bidouille depuis vingt ans sans jamais avoir maîtrisé la programmation, décrit comment cet outil a transformé sa machine en un véritable développeur à demeure : capable de rédiger des scripts sur commande, d'automatiser une veille technologique et de corriger des bugs de manière autonome, y compris pendant la nuit. Ce type de configuration, longtemps réservée aux développeurs, devient accessible à des profils purement amateurs. L'impact est significatif pour une catégorie d'utilisateurs jusqu'ici laissée de côté : les "power users" non-développeurs, ceux qui ont des idées d'automatisation mais butent sur l'obstacle du code. Un agent IA local et autonome efface cette barrière, rendant possible la création d'outils personnalisés sans compétences techniques. Pour l'industrie, cela illustre un basculement concret : l'IA ne sert plus seulement à assister les professionnels, elle démocratise des capacités autrefois réservées à une élite technique. OpenClaw s'inscrit dans une vague d'agents IA autonomes locaux, aux côtés de projets comme Aider ou Open Interpreter, qui misent sur l'exécution directe sur la machine de l'utilisateur plutôt que sur le cloud. Cette approche soulève des questions sur les coûts réels (abonnements LLM, ressources matérielles) et sur la sécurité, puisqu'un agent avec accès système peut agir sans supervision humaine. La popularité croissante de ces outils chez les profils non-techniques suggère que 2025-2026 marque le début d'une adoption grand public de l'IA agentique.

UELes 'power users' non-développeurs en France peuvent désormais accéder à des agents IA locaux autonomes pour automatiser des tâches sans compétences de programmation, abaissant concrètement la barrière technique pour un large public amateur francophone.

💬 Ça fait deux ans qu'on parle de démocratisation de l'IA, et là c'est peut-être la première fois que je vois un cas qui colle vraiment à ce mot. La barrière du code, c'était le dernier verrou, et un agent local qui bricole à ta place la nuit le fait sauter. La question des coûts réels et de l'accès système reste entière, mais le concept tient.

OutilsOutil
1 source
Salesforce : des agents IA ont réduit une migration de 231 jours à 13 jours, avec moins d'incidents
193The Decoder 

Salesforce : des agents IA ont réduit une migration de 231 jours à 13 jours, avec moins d'incidents

Salesforce a annoncé avoir migré l'intégralité de son organisation de développement vers Claude Code, l'assistant de programmation d'Anthropic, sans limites de tokens imposées aux développeurs. Le résultat affiché pour avril 2026 est spectaculaire : une migration qui aurait nécessité 231 jours a été bouclée en 13 jours, soit une réduction de 94 %. Sur la même période, le nombre de pull requests par développeur a bondi de 79 %, tandis que le nombre d'incidents a reculé de 5 %. Ces chiffres ne peuvent pas être vérifiés de manière indépendante. Si ces résultats se confirment, ils illustrent un changement de régime dans le développement logiciel d'entreprise. Des gains de cette ampleur ne relèvent plus de la simple assistance à l'écriture de code, mais d'une réorganisation profonde du flux de travail des ingénieurs. Pour une entreprise de la taille de Salesforce, réduire les délais de migration tout en diminuant les incidents représente un avantage opérationnel et financier considérable, et envoie un signal fort au reste de l'industrie. Cette annonce s'inscrit dans un débat qui fracture la communauté des développeurs : l'IA agentique représente-t-elle une véritable révolution productive, ou accumule-t-elle discrètement une dette technique que les équipes paieront plus tard ? Anthropic, qui positionne Claude Code comme un outil destiné aux grandes organisations, bénéficie d'un témoignage de poids avec Salesforce. Mais l'absence de vérification indépendante des chiffres, combinée aux intérêts croisés entre les deux entreprises, invite à rester prudent avant de généraliser ces résultats.

UELes équipes de développement en France et en Europe pourraient être amenées à évaluer des solutions d'assistance au code agentique pour accélérer leurs migrations logicielles complexes.

💬 231 jours à 13, c'est le genre de chiffre qui ferait taire n'importe quel DSI sceptique dans une réunion. Bon, Salesforce a tout intérêt à ce que ça impressionne, et les chiffres sortent directement d'eux sans audit externe, donc à prendre avec des pincettes. Ce qui m'intéresse vraiment, c'est le recul des incidents de 5 % : si les agents IA brident effectivement la casse en prod, ça change la conversation sur la dette technique accumulée.

OutilsOutil
1 source
Les agents IA entrent dans une phase de refonte face aux problèmes de fiabilité en entreprise
194VentureBeat AI 

Les agents IA entrent dans une phase de refonte face aux problèmes de fiabilité en entreprise

Les agents d'intelligence artificielle d'entreprise entrent dans une phase de refonte profonde. Après une première vague de déploiements rapides, de nombreuses organisations découvrent que la performance des modèles de langage ne suffit pas à garantir la fiabilité en production. Selon Preeti Somal, vice-présidente senior de l'ingénierie chez Temporal Technologies, intervenante lors d'un récent événement AI Impact Series à New York, de nombreuses équipes reviennent aujourd'hui construire une "version 2.0" de leurs agents. "Ils ont dû aller très vite, mais ils n'ont pas pris soin de la plomberie", a-t-elle déclaré. "Les systèmes s'effondrent, et ils se retrouvent à reconstruire avec une fondation fiable." Les difficultés concrètes sont multiples : gestion de l'état d'exécution, récupération après pannes, coordination entre APIs et systèmes d'entreprise, visibilité sur les processus, et maîtrise des coûts d'inférence. Un agent peut enchaîner plusieurs modèles de langage, des systèmes de récupération d'information et des applications externes, en maintenant un état sur plusieurs heures ou jours. L'enjeu est considérable pour les entreprises qui opèrent sous contraintes budgétaires. Redémarrer un processus après une panne peut multiplier les coûts d'inférence, augmenter la latence et dégrader l'expérience client. La distinction entre deux notions souvent confondues devient cruciale : l'état d'exécution, qui indique où en est l'agent dans un processus et à quel point reprendre après une défaillance, et la mémoire contextuelle, qui regroupe les informations transportées d'une interaction à l'autre. Somal cite l'exemple du client Abridge dans le secteur de la santé, où des processus traitent des visites médicales en plusieurs étapes : traitement audio, résumé, appels de modèles et génération de comptes-rendus post-consultation. Ces enchaînements longs et multi-étapes exigent une fiabilité structurelle que les premières architectures n'avaient pas anticipée. Temporal Technologies, dont l'infrastructure d'orchestration est antérieure à la vague actuelle de l'IA agentique, voit dans cette situation un écho direct à une période précédente de l'adoption du cloud en entreprise. Somal compare cette ruée vers l'IA à la stratégie "lift-and-shift" des débuts du cloud : migrer des charges de travail sans repenser les architectures sous-jacentes, pour finalement dépenser davantage sans en tirer la valeur attendue. "Cette précipitation vers l'IA dans un monde où vous n'avez même pas modernisé vos applications me rappelle un peu ce lift-and-shift qui s'est produit dans le cloud", a-t-elle dit. Les problèmes d'ingénierie fondamentaux comme la durabilité d'exécution et la récupération après défaillance n'émergent souvent qu'après le déploiement. L'IA agentique n'invente pas ces problèmes : elle les amplifie, et les entreprises qui n'ont pas modernisé leur socle applicatif risquent de reproduire les mêmes erreurs coûteuses qu'une décennie auparavant.

OutilsOpinion
1 source
Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production
195The Decoder 

Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production

Un article de synthèse publié récemment soutient que le véritable goulot d'étranglement dans le développement d'agents IA autonomes n'est pas le modèle de langage lui-même, mais la couche logicielle qui l'entoure. Baptisée "harness", cette infrastructure regroupe les outils externes, la mémoire persistante, les systèmes de test et les mécanismes de contrôle des permissions. C'est elle, selon les auteurs, qui transforme un modèle stateless en agent opérationnel. Le laboratoire chinois Deepseek a déjà tiré les conclusions pratiques de cette thèse en montant à Pékin une équipe dédiée exclusivement au développement du harness, avec une formule qui résume tout : modèle plus harness égal agent IA. Cela repose la question fondamentale de la valeur dans l'écosystème IA. Si le modèle seul ne suffit pas, les entreprises qui maîtrisent l'orchestration logicielle autour du modèle, et non uniquement l'entraînement, détiennent un avantage concurrentiel décisif. Pour les développeurs et les équipes produit, cela signifie que construire des agents performants exige autant d'ingénierie système que de puissance brute en paramètres. Cette vision s'inscrit dans une tendance plus large où les grands laboratoires et startups investissent massivement dans les frameworks agentiques. LangChain, LlamaIndex, ou encore les outils natifs d'Anthropic et OpenAI illustrent cette course à l'infrastructure plutôt qu'au modèle. Le mouvement de Deepseek, qui structure une équipe entière autour du harness plutôt que de simplement scaler les paramètres, pourrait annoncer une réorganisation profonde des priorités dans la course à l'IA agentique.

InfrastructureOpinion
1 source
Les journaux de requêtes SQL donnent aux agents IA le contexte nécessaire pour éviter les jointures halluccinées
196VentureBeat AI 

Les journaux de requêtes SQL donnent aux agents IA le contexte nécessaire pour éviter les jointures halluccinées

DataHub lance ce jeudi une nouvelle couche baptisée Context Intelligence, conçue pour résoudre l'un des problèmes les plus concrets des agents IA en entreprise : les erreurs de jointure sur des entrepôts de données massifs. Le déclencheur est parlant. Lorsque l'équipe data de Miro a branché ses agents IA directement sur son environnement Snowflake, ceux-ci produisaient de mauvaises réponses dans plus de 65 % des cas. La cause n'était pas le modèle de langage, mais l'absence de contexte : avec plus de 10 000 tables et aucune couche sémantique pour orienter les requêtes, les agents ne pouvaient pas savoir quelles données correspondaient à quelles questions métier. Context Intelligence répond à ce problème en exploitant les journaux de requêtes SQL existants pour construire un index sémantique, exposé ensuite aux agents via MCP, LangChain, le Google Agent Development Kit et CrewAI. La technologie s'appuie sur la même infrastructure d'extraction de logs que DataHub utilise depuis des années pour la traçabilité des données dans ses quelque 3 000 déploiements en production dans le monde. L'enjeu est considérable pour les équipes data des grandes organisations. Aujourd'hui, les agents IA qui génèrent du SQL à la volée n'ont accès qu'aux schémas bruts, sans connaître les jointures qui ont déjà fonctionné, les métriques validées par les équipes métier, ou la logique éprouvée encodée dans des années de requêtes d'analystes. Context Intelligence renverse cette logique : le moteur filtre les journaux de requêtes pour extraire ce que Shirshanka Das, co-fondateur et CTO de DataHub, appelle les "golden queries", c'est-à-dire les requêtes de haute qualité et les pipelines planifiés représentant une logique métier validée. Ces requêtes sont ensuite inversées en définitions textuelles structurées, appelées "semantic anchors", qui constituent la base de récupération dont les agents disposent avant de générer du SQL. Une couche de validation humaine, Context Hub, permet aux experts métier de réviser les définitions proposées, de résoudre les conflits entre équipes qui calculent la même métrique différemment, et de simuler l'impact des changements avant publication. DataHub est une société fondée par l'équipe qui a construit l'outil éponyme en open source chez LinkedIn, où Das a dirigé l'infrastructure data pendant près de onze ans. Le projet open source, mis à disposition du public début 2020 après six ans de développement interne, compte aujourd'hui plus de 15 000 contributeurs. PostgreSQL est la source la plus connectée dans la base mondiale de déploiements DataHub, devant MySQL, Oracle, Snowflake et Google BigQuery, avec plus de 100 sources de métadonnées supportées. Ce capital d'infrastructure est précisément ce qui distingue Context Intelligence d'une solution construite from scratch : les capacités d'extraction et de parsing de requêtes SQL mobilisées ici ont été forgées en production, pas pour ce lancement. "La couche de consommation a changé : ce ne sont plus des humains, ce sont des agents", résume Das. Le cas Miro illustre la suite logique : avec un index sémantique ancré dans l'historique réel des requêtes, les agents ont pu naviguer dans les 10 000 tables Snowflake avec une précision radicalement supérieure.

OutilsOutil
1 source
Fini les templates ? CapCut lance Design Studio 2.0, l’IA qui joue les directrices artistiques
197Le Big Data 

Fini les templates ? CapCut lance Design Studio 2.0, l’IA qui joue les directrices artistiques

CapCut a lancé le 27 mai 2026 Design Studio 2.0, une refonte complète de son studio créatif web qui intègre l'intelligence artificielle comme moteur central de la création visuelle. La nouveauté phare est un "infinite canvas", une surface de travail sans limite où l'utilisateur peut déposer brouillons, images de référence et idées en vrac, tandis qu'un agent IA propose en temps réel des variations, retouches et nouvelles pistes graphiques. L'outil embarque également un système de "pencil prompting" permettant d'annoter ou d'entourer des éléments directement sur le canvas pour déclencher des modifications, une séparation automatique des calques qui rend sujets, textes et arrière-plans éditables sans détourage manuel, et un bouton de génération d'idées instantané qui multiplie les déclinaisons visuelles à partir d'un concept existant. Cette sortie s'attaque à un problème structurel des plateformes créatives grand public : la standardisation des visuels. Sur TikTok, Instagram ou LinkedIn, les contenus produits à partir de templates finissent par se ressembler, faute d'outils permettant une véritable exploration créative rapide. Design Studio 2.0 positionne CapCut comme un outil de direction artistique assistée plutôt qu'un simple générateur de formats prédéfinis. La séparation intelligente des calques et le pencil prompting sont particulièrement significatifs pour les créateurs de contenu professionnels et les équipes marketing qui travaillent sous contrainte de temps, car ils éliminent des étapes techniques longtemps réservées aux logiciels spécialisés comme Photoshop ou Figma. CapCut, propriété du groupe chinois ByteDance, s'est imposé ces dernières années comme l'un des outils de création vidéo et graphique les plus utilisés au monde, notamment grâce à sa gratuité et à son accessibilité. La plateforme opère toutefois dans un contexte de pression réglementaire aux États-Unis, où ByteDance est sous la menace d'une interdiction liée à des préoccupations de sécurité nationale, ce qui rend chaque annonce produit d'autant plus stratégique pour consolider sa base d'utilisateurs internationaux. Sur le plan concurrentiel, ce lancement place CapCut directement face à Adobe Firefly, Canva et des outils comme Figma ou Picsart, qui développent également des fonctionnalités IA avancées. La course pour devenir la plateforme de référence de la création visuelle augmentée par IA s'accélère, et Design Studio 2.0 marque clairement la volonté de CapCut de ne plus se limiter au montage vidéo pour s'imposer dans le design graphique professionnel.

UELes créateurs de contenu et équipes marketing français peuvent utiliser Design Studio 2.0, mais la pression réglementaire citée concerne uniquement le marché américain et aucune réglementation européenne n'est impliquée.

OutilsOutil
1 source
Les agents IA provoquent silencieusement des pannes de type chaos engineering que les entreprises ne détectent pas encore
198VentureBeat AI 

Les agents IA provoquent silencieusement des pannes de type chaos engineering que les entreprises ne détectent pas encore

Les agents d'IA en production génèrent silencieusement une nouvelle catégorie d'incidents d'infrastructure que les équipes d'ingénierie ne savent pas encore nommer. Selon les données disponibles, 79 % des organisations ont aujourd'hui des agents autonomes en production, et 96 % prévoient d'étendre leur usage. Gartner prédit que 33 % des logiciels d'entreprise intégreront de l'IA agentique d'ici 2028, tout en avertissant que 40 % de ces projets seront annulés faute de contrôles de risques adéquats. Mais entre ces deux statistiques se cache un angle mort : des agents actifs, non annulés, qui déclenchent discrètement des événements d'infrastructure que personne ne classe comme incidents à risque. Le scénario type ressemble à ceci : un agent de remédiation détecte une latence élevée sur un microservice et redémarre le cluster, action techniquement justifiée selon ses données d'entraînement. Ce qu'il ignore : trois autres services traitent un pic de trafic, le pool de connexions partagé est à 87 % de capacité, et une base de données exécute une reconstruction d'index en arrière-plan. Le redémarrage déclenche une avalanche de requêtes contre le service en cours de récupération. Ce qui devait être une correction devient une cascade que l'agent n'a jamais été conçu pour modéliser. Ce phénomène touche directement les entreprises qui ont investi dans des programmes de chaos engineering, ces disciplines qui testent la résilience des systèmes de manière contrôlée. Lorsqu'un ingénieur humain initie une expérience de chaos, il effectue un jugement contextuel : il vérifie les tableaux de bord, évalue le taux de consommation du budget d'erreurs, s'assure que les dépendances sont stables. Ce filtre humain, aussi imparfait soit-il, empêche d'ajouter du stress à un système déjà sous pression. Les agents autonomes suppriment ce filtre. L'action de l'agent est un événement de chaos, sans calcul de rayon d'explosion, sans vérification des SLO, sans personne pour se demander si le moment est opportun. L'auteur de cette analyse, ingénieur ayant passé six ans à construire des systèmes d'automatisation d'infrastructure à grande échelle, d'abord chez Cisco sur des plateformes de cycle de vie déployées auprès de plus de vingt clients mondiaux, puis chez Splunk sur des workflows d'observabilité et d'analyse des causes profondes, a également déposé un brevet sur une méthodologie de chaos engineering basée sur l'intention. Son constat central est que les organisations continuent de traiter agents autonomes et chaos engineering comme deux disciplines distinctes, alors qu'elles sont fondamentalement la même. Tant que cette connexion ne sera pas établie dans les processus de gouvernance, les post-mortems continueront de tourner en rond entre équipes, cherchant si la faute incombe à l'agent ou à l'infrastructure, sans jamais poser la bonne question.

💬 Les agents en prod qui font du chaos engineering sans le savoir, c'est exactement le scénario qu'on n'avait pas anticipé. On a blindé les systèmes contre les erreurs humaines, mis en place des runbooks, du monitoring, des SLO, et là un agent redémarre un cluster au pire moment parce que ses données d'entraînement lui disent que c'est la bonne action. Combien de post-mortems vont encore traîner avant que les équipes fassent le lien ?

SécuritéOpinion
1 source
Tutoriel : implémenter GBrain, la couche mémoire auto-câblée de Garry Tan (Y Combinator) pour agents IA
199MarkTechPost 

Tutoriel : implémenter GBrain, la couche mémoire auto-câblée de Garry Tan (Y Combinator) pour agents IA

Garry Tan, président-directeur général de Y Combinator, a publié en open source GBrain, une couche de mémoire persistante conçue pour les agents IA. La version actuelle, v0.38.2.0, est disponible sous licence MIT sur GitHub. Conçu pour alimenter ses propres agents OpenClaw et Hermes, GBrain ingère des notes, e-mails, réunions et tweets, puis construit automatiquement un graphe de connaissances typé, sans aucun appel LLM pour l'extraction des relations. La base de production de Tan contient aujourd'hui 146 646 pages, 24 585 personnes, 5 339 entreprises et 66 tâches cron autonomes. Sur son propre benchmark BrainBench, un corpus de 240 pages en prose dense, GBrain atteint 49,1 % de précision à 5 résultats (P@5) et 97,9 % de rappel à 5 résultats (R@5), soit un gain de 31,4 points de P@5 par rapport au même système sans la couche graphe. Techniquement, il repose sur une base PostgreSQL embarquée (PGLite, Postgres 17 compilé en WASM avec pgvector), sans serveur ni Docker, et combine recherche vectorielle, recherche par mots-clés BM25 et fusion de rangs réciproques (RRF), avec un reclasseur ZeroEntropy. Le problème que GBrain résout est fondamental : aujourd'hui, la quasi-totalité des agents IA recommencent à zéro à chaque session. Aucune mémoire des décisions passées, des personnes rencontrées, des projets en cours. GBrain apporte une mémoire structurée, cohérente et interrogeable, ce qui transforme un agent stateless en système capable de raisonner sur des informations accumulées dans le temps. Le graphe typé, avec des relations comme worksat, founded, investedin ou advises, permet des requêtes sémantiques bien au-delà de la simple similarité vectorielle. Un serveur MCP expose 74 outils qui permettent à Claude Code, Cursor ou Windsurf de lire et écrire directement dans le cerveau de l'agent. Pour les développeurs qui construisent des pipelines d'automatisation ou des assistants personnels, c'est une infrastructure clé en main qui évite de réinventer la persistance. L'initiative s'inscrit dans une tendance plus large : après des années de promesses autour des agents IA autonomes, l'industrie bute sur les problèmes pratiques de mémoire, de contexte et de continuité. Des solutions comme MemGPT ou des frameworks de type RAG ont tenté de combler ce vide, mais restent souvent complexes à déployer. GBrain mise sur la simplicité opérationnelle, un seul processus local sans infrastructure externe, et sur l'absence d'appels LLM coûteux pour la construction du graphe. Le fait que le créateur soit Garry Tan, figure centrale de l'écosystème startup mondial, donne au projet une visibilité et une crédibilité immédiates. La prochaine étape pour la communauté sera de tester GBrain sur des corpus réels à grande échelle et de mesurer ses limites dans des environnements multi-agents partagés.

💬 C'est le genre de projet qui règle un vrai problème sans chercher à faire le buzz. Un graphe de connaissances typé, construit sans appels LLM, sur une base Postgres locale sans Docker, c'est exactement ce qu'on attendait depuis deux ans. Reste à voir si les 49 % de précision tiennent sur un corpus métier réel, parce que les benchmarks maison sont rarement les meilleurs témoins.

OutilsOutil
1 source
Google I/O illustre comment la science pilotée par l'IA change de trajectoire
200MIT Technology Review 

Google I/O illustre comment la science pilotée par l'IA change de trajectoire

Lors du keynote Google I/O de mardi, Demis Hassabis, PDG de Google DeepMind, a déclaré que nous nous trouvons actuellement "au pied des collines de la singularité". Le moment fort de son intervention était une vidéo montrant comment WeatherNext, le logiciel de prévision météorologique de Google, avait fourni une alerte précoce sur l'atterrissage catastrophique de l'ouragan Melissa en Jamaïque l'an dernier, sauvant potentiellement des vies. La même semaine, OpenAI annonçait que l'un de ses modèles avait réfuté une conjecture mathématique importante, ce que certains mathématiciens considèrent comme la contribution la plus significative de l'IA générative aux mathématiques à ce jour. En parallèle, Isomorphic Labs, filiale de Google utilisant AlphaFold pour développer de nouveaux médicaments, levait 2 milliards de dollars en Série B. Ces annonces illustrent une tension croissante au coeur de l'IA scientifique : d'un côté, des outils spécialisés et entraînés pour résoudre des problèmes précis, comme WeatherNext ou AlphaFold (qui a valu le prix Nobel à des chercheurs de DeepMind et dont les prédictions de structures de protéines sont utilisées par plus de trois millions de chercheurs dans le monde) ; de l'autre, des systèmes agentiques basés sur des LLM, capables de mener des projets de recherche de pointe avec une supervision humaine minimale, voire nulle. Cette deuxième vision alimente aujourd'hui une grande part de l'enthousiasme autour de l'IA, notamment autour de l'idée d'une amélioration récursive, où les systèmes d'IA deviendraient les principaux moteurs de leur propre progression. Pushmeet Kohli, chef scientifique de Google Cloud, l'a formulé cette semaine dans la revue Daedalus : "Nous nous dirigeons vers une IA qui ne se contente plus de faciliter la science, mais qui commence à faire de la science." Des signes concrets de réorientation des ressources humaines et budgétaires chez Google confirment cette tendance. Le Los Angeles Times a révélé le mois dernier que John Jumper, le chercheur Google Fellow et co-lauréat du Nobel pour AlphaFold, travaille désormais sur l'IA appliquée au code et non plus sur des outils scientifiques spécialisés. Ce pivot n'est pas anodin : Google subit actuellement une pression concurrentielle de la part d'Anthropic et OpenAI sur le terrain des outils de développement logiciel, et les capacités de codage sont précisément ce qui conditionne le succès des systèmes agentiques de recherche. Si Google ne semble pas abandonner ses outils spécialisés, avec AlphaGenome et AlphaEarth Foundations sortis l'été dernier et une nouvelle version de WeatherNext en novembre, la direction stratégique s'oriente clairement vers une IA capable de faire de la science de manière autonome, un virage qui pourrait redéfinir en profondeur le rôle des chercheurs humains.

UELa réorientation stratégique de Google DeepMind vers une IA autonome capable de faire de la science pourrait fragiliser les laboratoires publics européens qui dépendent d'outils spécialisés comme AlphaFold, utilisé par plus de trois millions de chercheurs dans le monde dont une large part en Europe.

💬 Le vrai signal, c'est pas la vidéo de l'ouragan, c'est John Jumper qui bosse maintenant sur des outils de code. Quand tu déplaces un co-lauréat du Nobel de la recherche spécialisée vers le terrain où Anthropic et OpenAI te talonnent, tu dis quelque chose sur où est la vraie pression en ce moment. Reste à voir si les trois millions de chercheurs qui utilisent AlphaFold au quotidien vont se retrouver avec des outils en pilotage automatique, ou juste moins maintenus.

RecherchePaper
1 source