Aller au contenu principal

Dossier Agents IA — page 9

1550 articles · page 9 sur 31

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

Adobe dévoile Brand Visibility pour le GEO
401Le Big Data OutilsOutil

Adobe dévoile Brand Visibility pour le GEO

Adobe a lancé Brand Visibility, une nouvelle solution destinée à aider les entreprises à mesurer et améliorer leur présence dans les réponses générées par les assistants IA comme ChatGPT, Perplexity ou Microsoft Copilot. L'outil combine les données de Semrush, partenaire de référence en analyse SEO, avec les capacités de la plateforme Adobe LLM Optimizer, déjà intégrée à Adobe Experience Manager. La solution s'appuie sur une base de près de 300 millions de requêtes réelles issues des principales plateformes conversationnelles pour fournir aux équipes marketing une vision précise de leur visibilité dans cet écosystème. Des indicateurs concrets sont proposés : fréquence des citations, part de visibilité par thématique, et comparaison directe avec les concurrents sur des requêtes identifiées. Des agents IA analysent ensuite ces données et génèrent des recommandations priorisées, applicables directement depuis la plateforme, avec une transmission automatique aux modèles d'IA et aux contenus web. L'enjeu est considérable. Entre octobre 2024 et mai 2026, le trafic provenant des interfaces IA vers les sites de e-commerce américains a progressé de 1 324 %, et de 2 215 % dans le secteur du tourisme. Ces chiffres, avancés par Adobe, illustrent la vitesse à laquelle les assistants conversationnels s'imposent comme un nouveau canal d'acquisition. Comme le souligne Anil Chakravarthy, président de l'activité Customer Experience Orchestration chez Adobe, une part croissante des consommateurs interagit désormais avec une IA avant même de visiter directement le site d'une marque. Pour les équipes marketing, cela signifie qu'une absence dans les réponses de ChatGPT ou Copilot peut se traduire par une perte de trafic et de revenus, sans même que la marque en soit consciente. Brand Visibility vise précisément à rendre ce phénomène mesurable et actionnable. Ce lancement s'inscrit dans une tendance de fond : l'émergence du GEO, le Generative Engine Optimization, en miroir du SEO traditionnel. Depuis l'explosion des modèles de langage grand public, les entreprises spécialisées en référencement cherchent à adapter leurs outils à ces nouveaux points de contact. Adobe, dont la plateforme Experience Cloud cible les grandes entreprises, se positionne ainsi en acteur incontournable de cette transition, en intégrant la dimension IA directement dans ses outils de gestion de l'expérience client. La collaboration avec Semrush, qui dispose d'une des plus grandes bases de données de requêtes au monde, renforce la crédibilité de l'approche. La capacité annoncée à relier les optimisations réalisées à des résultats commerciaux mesurables, réservations ou chiffre d'affaires, sera déterminante pour convaincre des directions marketing encore sceptiques sur la maturité du GEO comme levier stratégique.

UELes équipes marketing françaises et européennes disposent désormais d'un outil dédié pour mesurer et optimiser leur visibilité dans les réponses des assistants IA, un canal d'acquisition en forte croissance.

1 source
NVIDIA SkillSpector : analyser les compétences IA pour détecter les risques de sécurité
402MarkTechPost 

NVIDIA SkillSpector : analyser les compétences IA pour détecter les risques de sécurité

NVIDIA a publié SkillSpector, un outil d'analyse statique conçu pour détecter les risques de sécurité dans les "skills" d'intelligence artificielle avant leur déploiement dans des flux de travail réels. Disponible en open source sur GitHub, il s'installe via pip et nécessite Python 3.12 minimum. L'outil s'appuie sur LangGraph, le framework d'orchestration d'agents de LangChain, pour faire tourner un pipeline d'analyse programmatique. Les résultats sont exportables au format SARIF (Static Analysis Results Interchange Format), une norme industrielle utilisée par des outils comme GitHub Advanced Security. Le tutoriel officiel démontre son fonctionnement à travers quatre types de menaces représentatives : un skill inoffensif servant de référence, un script d'exfiltration de variables d'environnement vers un serveur distant, un module d'exécution dynamique de code via exec() et eval(), et un fichier Markdown contenant une tentative d'injection de prompt visant à contourner les consignes de sécurité d'un LLM. La prolifération des agents IA dans les environnements professionnels crée un vecteur d'attaque nouveau et peu documenté : les "skills" ou plugins tiers qu'on branche sur ces agents. Un skill malveillant ou mal écrit peut exfiltrer des secrets, exécuter du code arbitraire, ou manipuler le comportement d'un modèle de langage via du texte caché dans sa documentation. SkillSpector répond directement à ce risque en permettant aux équipes de sécurité et aux développeurs d'auditer automatiquement ces composants avant intégration, sans avoir besoin d'en analyser manuellement le code. L'export SARIF facilite l'intégration dans les pipelines CI/CD existants, ce qui rend l'outil compatible avec les workflows DevSecOps déjà en place dans les grandes organisations. Le contexte est celui d'une industrialisation rapide des architectures agentiques : les entreprises assemblent des systèmes IA en connectant des dizaines de skills et d'outils tiers, souvent sans processus de revue rigoureux. NVIDIA, acteur central de l'infrastructure IA avec ses GPU et son écosystème logiciel NIM, se positionne ici sur la couche sécurité de cette stack. L'initiative s'inscrit dans une tendance plus large où les grands acteurs technologiques, de Microsoft à Google, cherchent à établir des standards autour des agents autonomes. Le format SARIF, déjà adopté par l'écosystème open source, suggère une volonté d'interopérabilité plutôt qu'un outil propriétaire fermé. La prochaine étape naturelle serait l'intégration d'une analyse sémantique par LLM pour détecter des injections de prompt plus sophistiquées, une capacité que le tutoriel évoque explicitement comme extension possible du framework.

UELes équipes de sécurité européennes développant des architectures agentiques peuvent intégrer cet outil open source dans leurs pipelines CI/CD pour auditer les composants tiers, une démarche qui s'aligne avec les exigences de robustesse imposées par l'AI Act pour les systèmes IA à haut risque.

SécuritéOpinion
1 source
Intelligence contextuelle pour vos données et agents IA à grande échelle
403AWS ML Blog 

Intelligence contextuelle pour vos données et agents IA à grande échelle

Amazon Web Services a annoncé lors de l'AWS Summit New York City le lancement prochain d'AWS Context, un nouveau service conçu pour donner aux agents d'intelligence artificielle un accès structuré et gouverné à l'ensemble des données d'une organisation. Le service construit automatiquement un graphe de connaissances en cartographiant les relations entre les sources de données existantes, lacs de données, entrepôts, bases de données, flux en temps réel, et expose ce graphe via des API de recherche agentique et des outils MCP. Les équipes data peuvent gérer ce graphe depuis une console dédiée, valider les relations inférées automatiquement, les promouvoir en production, et y attacher des définitions métier ou des règles d'usage. AWS Context s'appuie sur la technologie qui alimente déjà Amazon QuickSight Q, un graphe de connaissances personnel utilisé quotidiennement par des centaines de milliers d'utilisateurs et traitant des millions de requêtes par jour. La nouveauté : ce graphe devient organisationnel, partagé entre tous les agents et applications d'une entreprise. Les métadonnées clés sont publiées au format Apache Iceberg dans Amazon S3, ce qui les rend interrogeables via Athena, Redshift ou Spark. L'enjeu est fondamental pour les entreprises qui déploient des agents IA en production : un agent ne peut prendre de décisions fiables que s'il dispose du bon contexte au bon moment. Aujourd'hui, ce contexte est dispersé entre des dizaines de systèmes hétérogènes, et une grande partie de la connaissance institutionnelle n'est tout simplement pas écrite. AWS Context vise à combler ce vide en créant une couche de contexte centralisée, gouvernée et accessible en temps réel. Pour les utilisateurs existants d'Amazon QuickSight Q, le bénéfice est immédiat : une fois AWS Context activé, leurs agents accèdent automatiquement au graphe étendu, incluant les relations inter-systèmes et les règles métier qui dépassent ce qu'un graphe personnel peut offrir. AWS Glue Data Catalog, Amazon SageMaker Unified Studio et AWS Lake Formation s'intègrent nativement au service. Ce lancement s'inscrit dans une course industrielle plus large autour de ce qu'AWS appelle l'« intelligence de contexte ». Les grands fournisseurs cloud rivalisent pour proposer des infrastructures permettant aux agents IA de raisonner sur des données d'entreprise réelles, sans que les équipes aient à construire des pipelines de récupération complexes. AWS Context se distingue par deux caractéristiques : son graphe apprend automatiquement de l'usage des agents, propageant les chemins de jointure corrects et les ambiguïtés résolues à l'ensemble de l'organisation sans intervention humaine ; et son architecture ouverte, basée sur Apache Iceberg, garantit que les métadonnées restent portables et auditables, indépendamment des outils choisis. Le service est également conçu pour se connecter à des catalogues tiers, étendant le graphe au-delà de l'écosystème AWS. La disponibilité générale n'a pas encore été précisée.

InfrastructureActu
1 source
Accenture : les consommateurs font de plus en plus confiance aux agents d'achat IA
404AI News 

Accenture : les consommateurs font de plus en plus confiance aux agents d'achat IA

Selon une étude publiée par Accenture en 2026, les consommateurs font désormais davantage confiance à un agent IA personnel qu'à leur meilleur ami pour effectuer un achat à leur place. Cette enquête, baptisée Consumer Pulse Research, a été menée auprès de 25 590 personnes dans 16 pays. Elle révèle que 74 % des répondants sont prêts à déléguer à un agent IA des tâches récurrentes comme la négociation de promotions, la résolution de litiges, le renouvellement d'abonnements ou la commande répétée de produits. Plus loin dans la chaîne de décision, 32 % accepteraient qu'un agent choisisse un produit en leur nom dans des limites prédéfinies, budget, marques autorisées, avant de soumettre l'achat à leur approbation finale. Seuls 9 % des consommateurs seraient toutefois prêts à laisser un agent finaliser un achat de façon entièrement autonome, sans validation humaine. À l'étape du paiement, ce chiffre remonte légèrement à 12 %. Ce basculement dans les comportements d'achat a des conséquences directes pour les marques et les distributeurs. Lorsque ce sont des agents IA qui comparent les offres, c'est la qualité et la lisibilité des données produit qui deviennent déterminantes : prix, disponibilité, conditions de livraison, garanties. L'agent évalue ces attributs de manière structurée, sans être sensible aux campagnes publicitaires classiques. Parmi les consommateurs fidèles à une marque, 37 % déclarent qu'ils autoriseraient leur agent à en changer si celui-ci trouvait une meilleure offre. Par ailleurs, 61 % souhaitent un agent capable de comparer des produits chez plusieurs enseignes, notamment dans l'alimentaire. La fidélité de marque, telle qu'elle était construite jusqu'ici, pourrait donc être remplacée par une fidélité à la performance mesurée en temps réel. Cette étude arrive à un moment où les grandes plateformes technologiques et les géants du commerce en ligne investissent massivement dans des assistants capables d'agir au nom des utilisateurs. Les agents IA ne sont plus de simples chatbots ou moteurs de recherche améliorés : ils peuvent négocier, souscrire, résilier et acheter. Accenture souligne que la confiance des consommateurs reste conditionnelle et calibrée selon la nature de l'achat. Les services récurrents et les achats à faible charge émotionnelle se prêtent davantage à la délégation, tandis que les choix liés à l'identité personnelle, un vêtement, une chambre d'hôtel, une expérience culturelle, restent l'apanage de la décision humaine. Les marques qui ne structureront pas leurs données pour être lisibles par des agents risquent de devenir invisibles dans ce nouveau canal d'achat.

UELes distributeurs et marques européens devront restructurer leurs données produit (prix, disponibilité, garanties, conditions) pour rester visibles face aux agents IA qui compareront les offres au nom des consommateurs, sous peine de perdre des parts de marché dans ce nouveau canal d'achat.

SociétéPaper
1 source
Kimi K2.7-Code réduit les tokens de raisonnement de 30 %, mais les praticiens contestent les benchmarks
405VentureBeat AI 

Kimi K2.7-Code réduit les tokens de raisonnement de 30 %, mais les praticiens contestent les benchmarks

Moonshot AI a publié cette semaine Kimi K2.7-Code, une mise à jour open source de sa famille de modèles de codage K2. Construit sur la même architecture mixture-of-experts à un trillion de paramètres que son prédécesseur K2.6, le modèle est disponible sous licence Modified MIT, téléchargeable sur HuggingFace et déployable via vLLM ou SGLang. Il s'intègre via une API compatible OpenAI, ce qui facilite la migration pour les équipes déjà en production avec K2.6. La principale promesse de Moonshot AI : une réduction de 30 % des tokens de raisonnement ("thinking tokens") par rapport à K2.6, ce qui se traduirait directement par une baisse des coûts d'inférence dans les workflows agentiques. Sur ses propres benchmarks propriétaires, l'entreprise annonce des gains de 21,8 % sur Kimi Code Bench v2, 11 % sur Program Bench et 31,5 % sur MLS Bench Lite. Sur le plan technique, le modèle génère désormais du code bas niveau en l'écrivant directement, là où K2.6 s'appuyait sur des wrappers de bibliothèques existantes, une approche censée améliorer la généralisation sur Rust, Go et Python. Le problème, soulevé immédiatement par des praticiens, est que ces chiffres proviennent exclusivement de benchmarks internes à Moonshot. Le chercheur Elliot Arledge a testé K2.7-Code face à K2.6 et à Claude Fable 5 sur KernelBench-Hard, un benchmark public spécialisé dans l'optimisation de kernels GPU, et a publié ses logs complets. Son verdict : "K2.7 est plus honnête, mais pas plus capable." Sur cinq des six problèmes testés, K2.7-Code a bien produit des kernels Triton réels là où K2.6 utilisait des wrappers, mais deux de ces kernels ont échoué à cause de bugs du modèle lui-même. Sur le kernel MoE, le score a même régressé, passant de 0,222 à 0,157 par rapport à K2.6. Claude Fable 5, lui, "arrive en tête sur chaque cellule où il n'échoue pas honnêtement", note Arledge. Sugumaran Balasubramaniyan, développeur d'un routeur de tâches pour la plateforme Hermes Agent, a interpellé Moonshot directement : "Avec tout le respect dû, chaque modèle 'progresse' de deux chiffres sur sa propre suite de tests." Il a rappelé que K2.6 ne score que 24 % sur DeepSWE, un benchmark indépendant bien plus discriminant, au même niveau que GPT-5.4-mini, et a demandé si K2.7-Code serait soumis au même test. Cette situation illustre un problème structurel dans l'évaluation des modèles de codage : la prolifération des benchmarks propriétaires rend les comparaisons quasi impossibles, tandis que des outils indépendants comme DeepSWE, qui produit un écart de 70 points entre modèles contre seulement 30 pour SWE-Bench Pro, restent sous-utilisés. Moonshot AI avait réussi une percée remarquée en avril lorsque K2.6 était arrivé en tête du classement hebdomadaire d'OpenRouter, fondé sur les décisions réelles de routage des développeurs. K2.7-Code, lui, n'a pas encore été soumis à ce type de validation externe. Pour les équipes en production, la bonne nouvelle est concrète : la réduction des tokens de raisonnement est testable immédiatement via l'API compatible OpenAI, sans refonte d'architecture. Mais la question de savoir si ces gains se maintiennent sur des tâches réelles, et si le modèle dépasse effectivement K2.6 sur des benchmarks indépendants, reste entière.

💬 Tout le monde annonce des gains à deux chiffres sur sa propre suite de tests, et Moonshot ne fait pas exception. La bonne nouvelle, c'est que la réduction de tokens de raisonnement est testable directement via l'API, sans refonte d'archi. K2.6 score 24 % sur DeepSWE au niveau de GPT-5.4-mini, alors avant de migrer, je veux voir K2.7 passer les mêmes épreuves.

LLMsOpinion
1 source
Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA
406AI News 

Coinbase for Agents : automatiser le trading de portefeuille grâce à l'IA

Coinbase a lancé « Coinbase for Agents », une infrastructure permettant à des agents d'intelligence artificielle d'exécuter des transactions financières directement depuis des portefeuilles utilisateurs. Jusqu'à présent, les grands modèles de langage pouvaient analyser les marchés et formuler des recommandations, mais ils étaient incapables de passer des ordres de manière autonome. La plateforme comble ce fossé en proposant deux modes d'intégration : une interface en ligne de commande destinée aux environnements de développement comme Claude Code ou OpenAI Codex, et le protocole MCP (Model Context Protocol) pour les agents web tels que ChatGPT ou Claude Web, qui ne nécessite aucune clé API ni configuration locale. Un accès MCP distant via authentification unique est également annoncé prochainement. Les agents peuvent ainsi acheter, vendre, gérer des soldes et passer des ordres à cours limité, le tout dans des paramètres définis à l'avance par l'utilisateur. Concrètement, un gestionnaire de portefeuille peut programmer un agent pour maintenir une allocation cible, par exemple 60 % Bitcoin, 20 % Ethereum et 20 % Solana, sur plusieurs mois. L'agent surveille les cours en temps réel et place automatiquement des ordres d'achat lors de baisses de 5, 10 ou 15 % pour profiter des corrections de marché. Il peut également gérer les liquidités dormantes en les déployant pour générer des rendements. Autre cas d'usage illustré : un plan de dollar-cost averaging sur Ethereum, où l'agent analyse trente jours de données horaires, identifie les creux historiques de la journée, puis exécute un achat quotidien de 20 dollars pendant deux semaines à partir d'une seule instruction initiale. La plateforme supporte déjà le trading au comptant et sur dérivés, et prévoit d'étendre son offre aux fonds indiciels, actions d'entreprises, matières premières et marchés de prédiction. Ce lancement s'inscrit dans une dynamique plus large de financiarisation des agents IA. Coinbase avait introduit l'an dernier le protocole x402, un standard de paiement conçu spécifiquement pour les agents logiciels, leur permettant d'acheter de manière autonome des ressources de calcul, des modèles analytiques ou des données de marché propriétaires pour affiner leurs décisions. L'intégration de x402 à Coinbase for Agents étend ce mécanisme à un écosystème financier concret. Pour limiter les risques, les agents opèrent exclusivement dans des portefeuilles isolés, sans accès aux autres actifs de l'utilisateur. La course à « l'infrastructure agentique » s'intensifie, plusieurs acteurs cherchant à devenir le back-end financier de référence pour les agents autonomes, avec Coinbase en position avancée grâce à son infrastructure régulée et ses millions d'utilisateurs existants.

UECoinbase étant agréé sous le règlement MiCA dans l'UE, ce service de trading autonome par agents IA sera soumis aux régulations européennes sur les crypto-actifs, avec des implications pour les investisseurs français souhaitant automatiser leurs portefeuilles.

💬 C'est le vrai saut. Les agents IA qui conseillent de trader, ça existe depuis deux ans, mais là Coinbase leur donne les clés du portefeuille, dans des contraintes que tu fixes à l'avance, et c'est une autre affaire. Reste à voir ce qui se passe le jour où le marché fait un truc que le modèle n'avait pas vu venir.

OutilsOutil
1 source
Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS
407AWS ML Blog 

Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS

Amazon Web Services a dévoilé une architecture complète de traitement intelligent de documents reposant sur ses services d'IA générative, notamment Amazon Bedrock Data Automation (BDA). Ce service unifié permet d'extraire des informations structurées depuis des documents multimodaux, PDF, images, vidéos, fichiers audio, avec une capacité allant jusqu'à 3 000 pages et 500 Mo par requête API. Contrairement aux solutions OCR classiques qui se limitent à l'extraction de texte brut, BDA analyse le contexte, classe automatiquement chaque section d'un document dans la bonne catégorie, l'associe au bon modèle de traitement, et fournit des scores de confiance sur les données extraites. L'architecture s'appuie sur quatre couches intégrées : ingestion des fichiers via Amazon S3, extraction et stockage avec DynamoDB, couche d'intelligence sémantique via Amazon Bedrock Knowledge Base, et coordination agentique par des agents spécialisés hébergés sur Amazon Bedrock AgentCore Runtime, orchestrés par AWS Step Functions. Pour les organisations qui traitent chaque jour des millions de documents, contrats juridiques, dossiers médicaux, factures, déclarations d'assurance, cette solution répond à un goulot d'étranglement majeur : l'intervention humaine obligatoire dans les pipelines traditionnels. En automatisant la classification, la normalisation et la validation des données, BDA réduit les coûts opérationnels, accélère les délais de traitement et limite les erreurs de saisie. La capacité à relier plusieurs documents entre eux via une base de connaissances sémantique permet également des analyses croisées impossibles avec les approches OCR conventionnelles, ouvrant la voie à des cas d'usage comme l'audit automatisé de contrats ou l'analyse comparative de rapports financiers. Ce lancement s'inscrit dans une course que se livrent les grands fournisseurs cloud, AWS, Microsoft Azure et Google Cloud, pour proposer des pipelines documentaires clé en main à destination des entreprises. AWS positionne BDA comme une réponse directe aux limites des solutions point-à-point qui nécessitaient jusqu'ici d'assembler manuellement des modèles OCR, des LLM et des orchestrateurs distincts. En intégrant l'ensemble dans une API unifiée au sein de Bedrock, Amazon cherche à réduire la friction technique pour les équipes data et à accélérer l'adoption de l'IA générative dans des secteurs très réglementés comme la finance, la santé et le droit. Les prochaines évolutions attendues concernent l'élargissement des formats supportés et le renforcement des capacités d'analyse de graphiques et de visualisations complexes embarqués dans les documents.

UELes entreprises européennes des secteurs réglementés (finance, santé, droit) peuvent adopter BDA via AWS pour automatiser leurs pipelines documentaires, sous réserve de conformité RGPD quant au stockage des données dans les régions AWS européennes.

OutilsOutil
1 source
MiMo Code de Xiaomi, outil de codage IA open source, surpasse Claude Code sur les tâches de plus de 200 étapes
408VentureBeat AI 

MiMo Code de Xiaomi, outil de codage IA open source, surpasse Claude Code sur les tâches de plus de 200 étapes

Xiaomi a publié le 10 juin 2026 MiMo Code V0.1.0, un assistant de programmation propulsé par IA qui fonctionne directement dans le terminal. L'équipe MiMo de la marque chinoise affirme que cet outil surpasse Claude Code d'Anthropic sur les tâches longues et complexes, notamment celles dépassant 200 étapes successives. Selon des benchmarks publiés dans leur blog technique, MiMo Code couplé au modèle MiMo-V2.5-Pro obtient 82 % sur SWE-bench Verified contre 79 % pour Claude Code avec Claude Sonnet 4.6, 62 % contre 55 % sur SWE-bench Pro, et 73 % contre 69 % sur Terminal Bench 2. L'outil est disponible sur GitHub sous licence MIT, s'installe en une seule commande sur macOS et Linux, et inclut un accès gratuit limité au modèle multimodal MiMo-V2.5, doté d'une fenêtre de contexte d'un million de tokens sans inscription requise. Le projet est un fork d'OpenCode, enrichi par Xiaomi d'une architecture mémoire propriétaire. Ce qui distingue MiMo Code de ses concurrents, c'est précisément sa réponse à un problème bien connu des développeurs utilisant des agents IA sur de longues sessions : la dégradation progressive des performances à mesure que la fenêtre de contexte se remplit. Xiaomi a conçu un système de mémoire persistante à quatre couches, alimenté par SQLite FTS5, couvrant la mémoire projet (un fichier MEMORY.md permanent), des points de contrôle de session, des notes temporaires et des journaux de progression par tâche. L'originalité du système réside dans le déploiement d'un sous-agent indépendant, le "checkpoint-writer", qui prend des notes en temps réel sans interrompre l'agent principal. Deux mécanismes complètent l'ensemble : une commande /dream qui, toutes les sept jours environ, consolide les sessions passées en mémoire long terme, et une fonction "distill" qui identifie les flux de travail répétitifs pour les automatiser. L'arrivée de MiMo Code s'inscrit dans une course mondiale au meilleur agent de programmation, où Anthropic, OpenAI et Google se disputent la première place. Xiaomi, encore peu présent dans l'écosystème des outils développeurs en Occident, tente ici une percée directe sur un segment stratégique. L'approche open source sous licence MIT et l'accès gratuit au modèle sont clairement conçus pour attirer rapidement une base d'utilisateurs et générer des retours terrain. Les chiffres avancés s'appuient toutefois sur une étude interne portant sur 576 développeurs, ce qui appelle une certaine prudence avant validation indépendante. Xiaomi n'a pas publié de comparaisons face à Codex d'OpenAI ni aux outils de Google, deux absences notables qui limitent la portée de ces résultats. La vraie question est désormais de savoir si la communauté open source s'appropriera l'outil et si les performances annoncées résisteront à des audits externes.

UELes développeurs français et européens peuvent installer et tester gratuitement cet agent de codage open source sous licence MIT, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

OutilsOutil
1 source
Perplexity intègre Deep Research dans son agent informatique, en distribuant les sous-tâches sur plus de 20 modèles de pointe
409MarkTechPost 

Perplexity intègre Deep Research dans son agent informatique, en distribuant les sous-tâches sur plus de 20 modèles de pointe

Perplexity a intégré sa fonctionnalité Deep Research à son système d'orchestration multi-modèles baptisé Computer, une évolution majeure annoncée en juin 2026. Là où l'ancienne version exécutait une séquence fixe de recherches, la nouvelle décompose automatiquement chaque question complexe en sous-tâches, qu'elle distribue ensuite à plus de 20 modèles d'IA en parallèle. Le moteur de raisonnement central est Claude Opus 4.6, tandis que des sous-agents spécialisés, dont Gemini, prennent en charge des pans spécifiques de l'analyse. Le résultat n'est plus un simple résumé : Deep Research dans Computer produit des rapports complets avec citations vérifiées, des présentations et des tableurs interactifs, entièrement générés et modifiables au sein de l'environnement Computer. Une capacité distinctive, baptisée Search as Code, permet au modèle d'écrire lui-même le code qui pilote la recherche, exécutant des milliers d'appels de récupération en parallèle dans un environnement sandbox, avec filtrage, déduplication et reclassement des sources à la volée. Les gains de performance publiés par Perplexity illustrent l'ampleur du bond. Sur le benchmark BrowseComp d'OpenAI, qui teste la capacité à retrouver des informations difficiles à localiser par navigation web, le score passe de 40,7 % à 83,8 %, soit plus du doublement. Sur Humanity's Last Exam, un test d'expertise académique pluridisciplinaire conçu par le Center for AI Safety et Scale AI, le taux grimpe de 36,4 % à 50,5 %. Ces chiffres positionnent la nouvelle version comme l'une des solutions de recherche agentique les plus performantes du marché. Concrètement, un professionnel peut demander une comparaison des marges bénéficiaires des grands fabricants de puces IA sur cinq ans, une cartographie des différences entre le RGPD européen et les lois américaines sur la vie privée, ou une synthèse des essais cliniques sur l'impact cardiovasculaire des médicaments amaigrissants, et recevoir en retour un livrable structuré, prêt à l'emploi. Computer avait été lancé fin février 2026 comme plateforme cloud de coordination d'agents IA. L'intégration de Deep Research s'inscrit dans une course effrénée entre les acteurs de la recherche augmentée par l'IA, où Perplexity affronte directement Google, OpenAI et Anthropic sur le terrain de la recherche agentique complexe. La fonctionnalité est disponible pour les abonnés Perplexity Max, mais les développeurs peuvent y accéder de façon programmatique via l'Agent API en mode pay-as-you-go, avec un preset deep-research intégré au SDK officiel et une compatibilité avec le SDK OpenAI via l'endpoint POST /v1/responses. L'ouverture aux développeurs signal que Perplexity positionne cette infrastructure non comme un produit grand public isolé, mais comme une couche de recherche que d'autres applications pourront exploiter directement, ce qui pourrait redéfinir la manière dont les outils professionnels intègrent l'accès à l'information.

UELes professionnels et développeurs européens disposent d'un accès API à une couche de recherche agentique capable de traiter des sujets réglementaires comme le RGPD, sans impact institutionnel ou réglementaire direct sur la France ou l'UE.

OutilsOutil
1 source
☕️ Ubuntu : vers de la reconnaissance vocale pour tous les champs texte
410Next INpact 

☕️ Ubuntu : vers de la reconnaissance vocale pour tous les champs texte

Canonical prévoit d'intégrer la reconnaissance vocale directement dans les champs texte d'Ubuntu, une fonctionnalité annoncée fin mai par Jon Seager, vice-président de l'ingénierie chez Canonical, lors du dernier Ubuntu Summit. Cette capacité, qui permettrait de dicter du texte dans la quasi-totalité des champs de saisie du système, est ciblée pour Ubuntu 26.10, la version attendue en octobre 2026, sous réserve que les tests se déroulent dans les délais. Seager a également mentionné deux autres fonctions dans le même registre : l'amélioration automatique de l'autofocus de la webcam et la qualité audio du microphone. Ces trois fonctionnalités seront traitées localement par un LLM embarqué, sans précision sur le modèle retenu. Techniquement, l'ensemble sera conditionné par un paquet Snap, que l'utilisateur pourra supprimer s'il ne souhaite pas utiliser ces services. L'apport le plus immédiat concerne l'accessibilité : permettre aux personnes ayant des difficultés motrices ou visuelles d'interagir avec n'importe quelle application via la voix, sans dépendre d'un logiciel tiers ou d'un service cloud. En intégrant cette capacité au niveau du système d'exploitation plutôt que de l'application, Canonical contourne la fragmentation habituelle des solutions d'accessibilité sous Linux, où la couverture varie fortement d'un environnement de bureau à l'autre. Pour les utilisateurs ordinaires, la dictée vocale universelle représente également un gain de productivité concret. Le fait que le traitement soit entièrement local élimine les problèmes de confidentialité liés à l'envoi de données audio vers des serveurs distants, ce qui distingue l'approche de Canonical de solutions comme la dictée Google ou Whisper en mode API. Cette annonce s'inscrit dans un contexte plus large de repositionnement de Canonical autour de l'IA, amorcé en avril dernier et accompagné de son lot de scepticisme dans la communauté open source. Le débat central porte sur la compatibilité des modèles d'IA avec les valeurs du logiciel libre : connaître les poids d'un modèle ne suffit pas, selon Seager, à garantir la transparence à laquelle l'écosystème libre est habitué, ce qui implique une attention particulière aux licences. Canonical semble pour l'instant adopter une stratégie prudente, ajoutant des cas d'usage concrets et limités plutôt que de viser immédiatement un "système agentique" comme le suggèrent ses propres éléments de communication. Une question pratique reste ouverte : un modèle local pèse souvent plusieurs gigaoctets, et l'installeur d'Ubuntu ne semble pas prévoir d'étape permettant à l'utilisateur de choisir explicitement quels services IA il souhaite activer, ce qui pourrait alourdir significativement l'empreinte de stockage de l'installation par défaut.

UEUbuntu étant largement déployé dans les administrations publiques et entreprises européennes, l'approche de traitement vocal entièrement local répond directement aux exigences RGPD en évitant l'envoi de données audio vers des serveurs tiers.

OutilsOutil
1 source
Perplexity lance "Search as Code" : les modèles d'IA peuvent désormais écrire leurs propres pipelines de recherche
411The Decoder 

Perplexity lance "Search as Code" : les modèles d'IA peuvent désormais écrire leurs propres pipelines de recherche

Perplexity a dévoilé une nouvelle architecture baptisée "Search as Code" qui redéfinit la façon dont les modèles d'IA effectuent des recherches en ligne. Plutôt que de s'appuyer sur des API de recherche figées aux paramètres prédéfinis, le système permet aux agents IA de rédiger eux-mêmes leurs propres routines de recherche en Python, directement dans un environnement sandbox sécurisé. Le modèle gère en autonomie le filtrage des résultats et la déduplication des sources, sans passer par des interfaces rigides. Résultat annoncé: une réduction des coûts en tokens pouvant atteindre 85%, et des performances supérieures à celles d'OpenAI et d'Anthropic sur plusieurs benchmarks de référence. L'enjeu est considérable pour les entreprises qui intègrent la recherche web dans leurs pipelines d'IA. Jusqu'ici, les agents devaient s'adapter aux contraintes imposées par des APIs standardisées, souvent peu optimisées pour des requêtes complexes ou itératives. En donnant au modèle la main sur sa propre logique de recherche, Perplexity promet des réponses plus précises, moins de redondances et une facture computationnelle drastiquement réduite, ce qui ouvre la voie à des déploiements à grande échelle. Cette annonce s'inscrit dans une course effrénée entre Perplexity, OpenAI et Anthropic autour du "web search" intégré aux LLMs, un marché stratégique depuis que les moteurs de recherche traditionnels voient leur modèle menacé par les assistants IA. Perplexity, valorisé à plusieurs milliards de dollars, mise sur l'innovation architecturale pour se distinguer face à des concurrents disposant de ressources bien supérieures.

UELes développeurs et entreprises européens intégrant la recherche web dans leurs pipelines d'IA pourraient bénéficier d'une réduction significative des coûts computationnels grâce à cette nouvelle architecture.

💬 85% de réduction sur les tokens, c'est le genre de chiffre qui fait lever les yeux au ciel, et pourtant le concept tient la route. Laisser le modèle écrire lui-même sa routine de recherche plutôt que de le contraindre dans une API figée, c'est une idée simple qui résout un vrai problème. Reste à voir ce que ça donne sur des cas limites en prod, parce que les benchmarks contre Anthropic et OpenAI, c'est toujours un peu l'arroseur arrosé.

OutilsOutil
1 source
Bain : les entreprises ratent leurs objectifs d'économies IA à cause des résistances humaines
412The Decoder 

Bain : les entreprises ratent leurs objectifs d'économies IA à cause des résistances humaines

Une étude menée par le cabinet de conseil Bain auprès de 951 entreprises révèle un écart significatif entre les ambitions d'économies liées à l'IA et les résultats réels. Près de 40 % des entreprises interrogées n'ont réalisé que moins de 10 % d'économies grâce à l'IA, alors que la majorité visait entre 11 et 20 %. Ce fossé entre promesses et résultats concrets illustre une désillusion croissante dans les directions financières qui avaient fondé leurs budgets sur ces projections. La principale explication identifiée par Bain est aussi surprenante que révélatrice : seulement 7 % des entreprises font réellement tourner des agents IA en mode pleinement autonome, alors que leurs modèles économiques et leurs calculs de retour sur investissement supposaient exactement ce niveau d'automatisation. En d'autres termes, les humains continuent d'intervenir, de superviser, de corriger, ce qui annule une large partie des gains de productivité anticipés. Chaque étape de validation manuelle réduit mécaniquement les économies escomptées. Ce décalage illustre un phénomène bien connu dans les transformations technologiques : les entreprises surévaluent la vitesse d'adoption réelle. Les agents IA autonomes restent, pour l'heure, un horizon plus qu'une réalité opérationnelle dans la plupart des organisations. Les réticences tiennent à des questions de confiance, de conformité réglementaire et de gestion du risque. À mesure que les modèles gagnent en fiabilité et que les cadres juridiques autour de l'IA se précisent, la proportion de déploiements véritablement autonomes devrait progresser, et avec elle, les économies promises.

UELes entreprises françaises et européennes, confrontées aux mêmes obstacles d'adoption et de conformité réglementaire, devraient revoir à la baisse leurs projections d'économies IA dans leurs budgets stratégiques.

💬 Le vrai sujet, c'est pas les résistances humaines, c'est que les calculs de rentabilité ont été montés sur une hypothèse fausse. Seulement 7 % d'agents vraiment autonomes en prod, alors que les boîtes avaient budgété comme si c'était déjà le standard. Bon, sur le papier l'IA automatise tout, en pratique quelqu'un relit quand même.

BusinessOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
413Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch
414The Information AI 

Meta envisage de facturer jusqu'à 200 dollars par mois pour son agent IA "Hatch

Meta envisage de lancer un abonnement premium à 199,99 dollars par mois pour son futur agent d'IA grand public, baptisé Hatch en interne. L'information provient de documents internes consultés par The Information ainsi que d'une source proche du dossier. La tarification serait structurée par paliers, le niveau supérieur offrant des limites d'utilisation plus élevées. Les décisions finales sur les prix n'ont pas encore été arrêtées. Un tel positionnement tarifaire placerait Meta en concurrence directe avec les offres haut de gamme des leaders du secteur comme OpenAI, dont le plan ChatGPT Pro est facturé 200 dollars par mois, ou Google avec ses abonnements Gemini Advanced. Pour Meta, dont l'IA grand public a jusqu'ici été proposée gratuitement via ses applications, ce serait un tournant stratégique majeur : la monétisation directe des capacités agentiques représente un levier de revenus entièrement nouveau, distinct de son modèle publicitaire habituel. La course aux agents IA s'est considérablement accélérée en 2025 et 2026, avec l'ensemble des grandes plateformes technologiques cherchant à transformer leurs assistants conversationnels en outils capables d'agir de manière autonome, navigation web, exécution de tâches, gestion de fichiers. Meta, qui a jusqu'ici misé sur l'open source avec sa famille de modèles Llama, semble vouloir occuper le segment premium du marché grand public. Le lancement de Hatch et sa tarification définitive restent à confirmer.

UESi Hatch est lancé en Europe, il sera soumis à l'AI Act (classification agent IA à risque) et au RGPD pour la gestion des données des millions d'utilisateurs français et européens de Meta.

BusinessActu
1 source
Snowflake lance Horizon Catalog pour sécuriser l’IA générative en entreprise
415Le Big Data 

Snowflake lance Horizon Catalog pour sécuriser l’IA générative en entreprise

Au Snowflake Summit 2026, tenu à San Francisco début juin, l'éditeur américain Snowflake a présenté Horizon Catalog, une plateforme unifiée conçue pour encadrer le déploiement de l'IA générative en entreprise. La nouveauté phare est Horizon Context, une couche sémantique centralisée qui standardise le contexte métier, données financières, commerciales, opérationnelles, pour garantir que chaque application, utilisateur ou agent IA s'appuie sur une définition commune des indicateurs clés. Le gestionnaire d'actifs BlackRock figure parmi les premiers clients à avoir adopté la solution, pour assurer la cohérence de ses analyses IA à travers ses environnements de données mondiaux. Snowflake complète l'offre avec Semantic Studio et Semantic View Autopilot, des outils qui automatisent la création et la maintenance de vues sémantiques cohérentes, sans exiger de solide expertise SQL. L'enjeu dépasse la simple organisation des données : selon les chiffres avancés par Snowflake, près des deux tiers des organisations citent aujourd'hui la cybersécurité comme le principal frein au déploiement à grande échelle de l'IA générative. Les agents autonomes capables d'accéder à des données sensibles, d'exécuter des actions métier et d'interagir avec plusieurs systèmes internes en même temps exposent des surfaces d'attaque que les modèles de sécurité traditionnels, conçus pour des utilisateurs humains, ne couvrent pas. Snowflake répond avec Agent Identity, un mécanisme qui attribue une identité vérifiée à chaque agent avant tout accès aux données, permettant de tracer, auditer et gouverner chaque action selon des règles définies. Des dispositifs de détection proactive contre les tentatives de jailbreak et autres attaques visant les modèles IA viennent compléter ce cadre. La sortie d'Horizon Catalog s'inscrit dans une compétition intense entre les grandes plateformes de données pour capter les budgets IA des entreprises. Snowflake, historiquement positionné sur l'entrepôt de données cloud, se repositionne comme couche d'infrastructure de confiance pour l'IA, un terrain où il affronte directement Databricks, Microsoft Fabric et Google BigQuery. La promesse d'une "vérité d'entreprise" unifiée répond à un problème concret : dans de nombreuses organisations, les mêmes métriques produisent des chiffres différents selon les outils, ce qui rend les recommandations des agents IA peu fiables, voire contradictoires. En automatisant la gouvernance sémantique et en sécurisant les identités des agents, Snowflake cherche à transformer ce point de friction en argument commercial différenciant, alors que les entreprises passent de l'expérimentation IA à des déploiements en production à grande échelle.

UELes entreprises européennes déployant des agents IA en production pourraient s'appuyer sur ces mécanismes de gouvernance sémantique et d'identité des agents pour répondre aux exigences de conformité RGPD et de l'AI Act.

💬 Le problème ciblé ici, c'est pas du marketing : dans beaucoup d'organisations, la même métrique donne des chiffres différents selon l'outil, et ça rend les agents IA peu crédibles en prod. La partie Agent Identity m'intéresse davantage que la couche sémantique, parce qu'on allait droit dans le mur côté traçabilité avec des agents autonomes qui trifouillent les données sans laisser de traces auditables. BlackRock comme client de référence, c'est bien, mais reste à voir si ça tient quand c'est pas une multinationale avec 50 ingénieurs data pour piloter le déploiement.

OutilsActu
1 source
Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM
416NVIDIA AI Blog 

Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM

NVIDIA a présenté cette semaine NemoClaw lors du GTC Taipei, en marge du salon COMPUTEX, en compagnie d'une douzaine de partenaires logiciels industriels. NemoClaw est un blueprint open source destiné à construire des agents IA autonomes, spécialisés et capables de fonctionner sur de longues durées. Il s'appuie sur OpenShell, un runtime sécurisé qui contrôle l'accès de chaque agent aux fichiers, réseaux et outils via des politiques de sécurité granulaires. La plateforme intègre un routeur de modèles, les bibliothèques NVIDIA NeMo, et supporte plusieurs frameworks d'orchestration comme OpenClaw et Hermes. Elle peut être déployée sur les DGX Spark, en datacenter d'entreprise ou dans le cloud. Cadence, Dassault Systèmes, Siemens et Synopsys figurent parmi les premiers à s'y appuyer pour construire leurs propres agents d'ingénierie. Cadence développe ainsi un agent RTL autonome capable d'orchestrer ChipStack pour la conception et la vérification de circuits numériques, réduisant le temps de vérification RTL de plusieurs semaines à quelques heures. Siemens intègre NemoClaw dans Fuse EDA AI Agent pour les workflows de conception de semi-conducteurs, circuits imprimés et circuits intégrés 3D. Synopsys, de son côté, démontre sur le show floor de COMPUTEX une application à l'optimisation thermique de systèmes de refroidissement GPU avec Ansys Icepak. L'enjeu industriel est considérable : si le calcul accéléré a déjà réduit les temps de simulation de plusieurs semaines à quelques heures, les workflows adjacents, conception assistée par ordinateur, maillage, configuration des simulations, post-traitement, rédaction de rapports, restaient encore largement manuels et chronophages. NemoClaw vise à automatiser cette chaîne complète. Pour les secteurs de l'automobile, de l'aérospatiale, des semi-conducteurs et de la fabrication, la promesse est une compression drastique des cycles de développement produit, avec des agents capables d'explorer des milliers de variantes de conception de manière autonome, de nuit comme de jour, là où une équipe d'ingénieurs aurait besoin de semaines. Au-delà des grands éditeurs, des startups s'emparent également de NemoClaw pour des cas d'usage pointus. Flexcompute utilise OpenShell pour ses agents Tidy3D et PhotonForge dédiés à la conception optique co-packagée, en combinant simulations optiques, électriques et thermiques pour explorer des milliers de variantes et produire des composants plus performants à moindre consommation énergétique, une technologie qu'NVIDIA utilise elle-même pour concevoir ses propres dispositifs photoniques. Luminary s'en sert pour automatiser la génération de données d'entraînement et les boucles d'apprentissage de modèles physiques IA. Neural Concept déploie un agent pour la conception de moteurs électriques enchaînant simulations électromagnétiques, structurelles et vibratoires. Cette mobilisation simultanée d'acteurs majeurs et de startups autour d'une même plateforme signale que NVIDIA cherche à imposer NemoClaw comme standard de facto de l'ingénierie autonome, à l'image de ce que CUDA a représenté pour le calcul GPU.

UEDassault Systèmes, entreprise française de référence dans la CAO industrielle (CATIA, SolidWorks), figure parmi les premiers partenaires de NemoClaw, ce qui pourrait accélérer l'adoption de l'ingénierie autonome dans les filières aérospatiale et automobile européennes.

OutilsActu
1 source
Scout : le nouveau OpenClaw de Microsoft qui automatise tout
417Le Big Data 

Scout : le nouveau OpenClaw de Microsoft qui automatise tout

Microsoft a présenté Scout lors de sa conférence Build 2026, un nouvel assistant IA autonome intégré directement dans l'environnement Microsoft 365. Conçu pour aller bien au-delà du chatbot classique, Scout peut accéder aux e-mails, calendriers et services Microsoft afin d'exécuter des tâches automatiquement : organiser des réunions, préparer des ordres du jour, gérer des tâches administratives courantes. L'outil est actuellement disponible via le programme Frontier de Microsoft, mais nécessite un abonnement GitHub Copilot pour y accéder. Contrairement aux assistants ponctuels, Scout apprend les habitudes de travail de chaque utilisateur au fil du temps : il est personnalisable, peut recevoir un prénom choisi par l'utilisateur, et s'ajuste selon les retours réguliers qu'on lui transmet. Les utilisateurs pourront également créer leurs propres compétences et scénarios d'automatisation pour l'adapter à des besoins métier très spécifiques. L'enjeu pour Microsoft est considérable. Avec des centaines de millions de professionnels qui utilisent quotidiennement la suite Microsoft 365, intégrer un agent capable d'anticiper les besoins et d'agir sans attendre d'instruction représente un changement de paradigme dans la productivité au bureau. Ce n'est plus l'assistant qui répond aux questions, mais celui qui prend des initiatives : surveiller un calendrier surchargé, détecter un conflit de planning, préparer un briefing avant une réunion. Pour les entreprises, les gains de temps potentiels sont réels, mais la question du contrôle se pose immédiatement. Microsoft affirme avoir intégré plusieurs mécanismes de sécurité : un système de vérification continue du respect des règles définies par l'utilisateur et l'organisation, ainsi qu'un journal d'audit enregistrant chaque action significative. Plus un agent gagne en autonomie, plus les conséquences d'une erreur peuvent être lourdes, ce qui rend ces garde-fous essentiels à la crédibilité du produit. Scout s'inscrit dans une tendance de fond qui s'est accélérée depuis le début 2026, portée notamment par OpenClaw, le projet qui a popularisé l'idée d'agents IA agissant de manière vraiment autonome sans attendre d'instructions humaines explicites. Microsoft reprend explicitement cette architecture conceptuelle et l'adapte à son écosystème propriétaire, une stratégie déjà utilisée avec succès pour GitHub Copilot. La bataille dans l'industrie IA ne porte plus sur les chatbots les plus fluides, mais sur les agents les plus capables d'agir dans le monde réel. Google, Amazon et des dizaines de startups travaillent sur des approches similaires. Ce que Scout tente de résoudre, c'est le problème de la confiance : convaincre les utilisateurs professionnels de déléguer une partie de leur organisation quotidienne à un système automatisé, avec suffisamment de transparence et de contrôle pour que cette délégation soit acceptable.

UEL'intégration d'agents autonomes accédant aux e-mails et calendriers dans Microsoft 365, suite utilisée par des millions de professionnels européens, soulève des questions concrètes de conformité RGPD pour les entreprises françaises et européennes.

💬 C'est le genre de truc qu'on attendait depuis deux ans. Microsoft reprend l'idée des agents autonomes, l'ancre dans 365 où les données sont déjà là, et du coup ça tient mieux que les démos sur terminal vide qu'on nous sert depuis 2024. Reste que laisser un agent gérer tes mails et ton calendrier, ça demande un niveau de confiance que la plupart des boîtes françaises ne sont pas encore prêtes à accorder.

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026
418VentureBeat AI 

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines. L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici. Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

UELes entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

OutilsOpinion
1 source
IA d’entreprise : Snowflake et Anthropic renforcent la gouvernance des modèles IA
419Le Big Data 

IA d’entreprise : Snowflake et Anthropic renforcent la gouvernance des modèles IA

Snowflake et Anthropic ont annoncé le 2 juin 2026, lors du Snowflake Summit 2026, un renforcement significatif de leur partenariat autour de l'IA d'entreprise. Concrètement, les modèles Claude d'Anthropic s'intègrent désormais plus profondément dans Snowflake Cortex AI, notamment pour alimenter Snowflake Cortex Code et Snowflake Intelligence. L'objectif est de permettre aux organisations de déployer des agents IA directement dans leur environnement de données existant, sans avoir à externaliser ou déplacer des données sensibles. Des entreprises comme Block, Indeed, Carvana, Notion ou eSentire utilisent déjà cette combinaison en production. Christian Kleinerman, EVP Product chez Snowflake, a indiqué que Snowflake Cortex Code serait devenu le produit à la croissance la plus rapide de toute l'histoire du groupe. L'enjeu central de ce partenariat est la gouvernance : les entreprises des secteurs réglementés, finance, santé, cybersécurité, retail, ne peuvent pas déployer l'IA sur des données critiques sans garanties fortes en matière de sécurité, de conformité et de traçabilité. En combinant la couche de gouvernance et de contrôle d'accès de Snowflake avec les capacités de raisonnement de Claude, les deux groupes proposent une architecture où le modèle devient une extension native de la plateforme data de l'entreprise plutôt qu'un outil externe. Cela change concrètement le profil de risque de l'IA générative pour les décideurs : Block automatise ainsi des workflows de conformité pour Square et Cash App, eSentire automatise des analyses SOC de niveau 1 pour libérer ses analystes humains des tâches répétitives, et Carvana optimise ses opérations logistiques et financières grâce à cette architecture. Ce renforcement s'inscrit dans la continuité d'un accord élargi signé fin 2025, qui avait déjà permis l'intégration native de Claude dans Cortex AI sur les principaux clouds. Le marché de l'IA d'entreprise est en train de basculer d'une phase d'expérimentation vers des déploiements opérationnels à grande échelle, et plusieurs acteurs, Microsoft avec Azure OpenAI, Google avec Vertex AI, AWS avec Bedrock, se livrent une concurrence intense pour capter cette demande. Snowflake, en tant que plateforme data indépendante du cloud, joue une carte différente : celle de la neutralité et de la gouvernance centralisée. Anthropic, de son côté, accélère sa distribution en entreprise via des partenariats stratégiques plutôt que par une offre cloud propriétaire. Les prochaines étapes du partenariat devraient porter sur l'extension de Claude Marketplace au sein de l'écosystème Snowflake, ouvrant la porte à un modèle de distribution plus large pour les modèles d'Anthropic dans les environnements data d'entreprise.

UELes entreprises européennes des secteurs réglementés (finance, santé, cybersécurité) disposent d'une architecture permettant de déployer Claude directement dans leur environnement de données existant, sans externaliser de données sensibles, un argument clé pour la conformité RGPD.

OutilsOpinion
1 source
Microsoft Agent 365 ; la plateforme conçue pour piloter vos assistants IA
420Le Big Data 

Microsoft Agent 365 ; la plateforme conçue pour piloter vos assistants IA

Microsoft a mis en disponibilité générale le 1er mai 2026 sa plateforme Agent 365, un centre de contrôle centralisé conçu pour superviser l'ensemble des agents et assistants IA déployés au sein d'une organisation. Présentée une première fois lors du Microsoft Ignite du 18 novembre 2025, la plateforme s'intègre à la Frontier Suite et à Copilot Studio. Elle repose sur cinq piliers fonctionnels : inventaire des agents actifs, contrôle des opérations, visualisation des activités, interopérabilité entre systèmes, et sécurité des données. L'interface unique agrège toutes ces informations pour les directions informatiques qui gèrent simultanément plusieurs assistants spécialisés, certains dédiés à la relation client, d'autres aux processus internes. L'enjeu est considérable : contrairement aux assistants conversationnels classiques qui se contentent de répondre à des questions, les agents IA de nouvelle génération peuvent exécuter des actions concrètes, interagir avec des applications métiers et prendre des décisions autonomes dans un périmètre défini. Cette autonomie accrue crée un angle mort de gouvernance pour les entreprises qui déploient ces outils à grande échelle : sans cadre centralisé, il devient difficile de savoir ce que font réellement les agents, quelles données ils touchent, et si leurs actions respectent les politiques de conformité. Agent 365 se positionne précisément comme la réponse à ce problème, en permettant d'appliquer des règles de sécurité uniformes à travers tout l'écosystème IA de l'entreprise. La plateforme s'inscrit dans un virage stratégique plus large de Microsoft, qui ne cherche plus seulement à fournir des outils de création d'agents via Copilot Studio, mais aussi à proposer la couche d'administration qui permet de les opérer à l'échelle. Après plusieurs mois de déploiements progressifs et de tests, le passage en disponibilité générale en mai 2026 marque la maturité de cette approche. Microsoft se retrouve ainsi en concurrence directe avec des acteurs comme ServiceNow ou Salesforce, qui développent leurs propres frameworks d'orchestration d'agents. La question qui s'ouvre pour les entreprises est celle du verrouillage : adopter Agent 365 comme plan de contrôle unique, c'est aussi lier davantage son infrastructure IA à l'écosystème Microsoft, au moment même où les agents autonomes commencent à toucher aux processus les plus critiques de l'entreprise.

UELes entreprises européennes déployant Copilot Studio et Microsoft 365 sont directement concernées par cette couche de gouvernance, qui soulève également la question du verrouillage technologique à l'heure où l'UE pousse à la souveraineté numérique.

OutilsOutil
1 source
Microsoft Build 2026 : ce qu’il faut attendre — et ce qu’il ne faut pas espérer
421Le Big Data 

Microsoft Build 2026 : ce qu’il faut attendre — et ce qu’il ne faut pas espérer

Microsoft Build 2026 ouvre ses portes les 2 et 3 juin au Fort Mason Center de San Francisco, avec un accès en ligne gratuit pour les développeurs du monde entier. Satya Nadella prendra la parole en keynote dès 9h30 heure du Pacifique. L'édition 2026 tourne résolument autour de l'IA agentique : des systèmes capables non plus seulement de répondre à des questions, mais d'agir de manière autonome sur des tâches complexes, en coordonnant plusieurs agents entre eux. Azure AI Foundry est présenté comme le socle technique de ces architectures multi-agents. GitHub Copilot devrait lui aussi franchir un cap, avec des capacités renforcées de débogage, de tests et de correction de code. Reuters signale en parallèle que Microsoft prépare de nouveaux modèles maison, dont un orienté code, pour alimenter Copilot. Côté Windows, Windows AI Foundry permettrait aux applications d'exécuter certains modèles directement sur les PC, via NPU, GPU ou CPU, sans passer par le cloud. Ces annonces dépassent largement le cercle des développeurs. Si les briques agentiques déployées sur Azure finissent intégrées dans Excel, Teams ou Outlook, elles modifieront concrètement les flux de travail de millions d'utilisateurs en entreprise. L'exécution locale des modèles via Windows AI Foundry présente des avantages tangibles : latence réduite, confidentialité améliorée et fonctionnement hors ligne. Microsoft devrait aussi détailler comment réduire les coûts et les délais du passage des prototypes IA à la production, un point de friction majeur pour les équipes qui cherchent à industrialiser ces outils. L'enjeu est de rendre ces technologies utilisables à grande échelle, pas seulement impressionnantes en démonstration. Microsoft Build 2026 s'inscrit dans une course effrénée entre les grands acteurs technologiques pour imposer leurs plateformes comme infrastructure de référence de la prochaine génération d'applications IA. Google, Amazon et Meta jouent la même partition, et chaque Build est aussi une occasion pour Microsoft de montrer que son investissement massif dans OpenAI et dans Azure se traduit en outils concrets pour les développeurs. Le Windows Agent Framework, pressenti pour transformer les agents IA en fonctionnalités système à part entière, et un Windows Agent Store avec un partage de revenus à 85% pour les éditeurs, témoignent d'une ambition claire : faire de Windows une plateforme agentique native. Ce que Build ne montrera probablement pas : du nouveau matériel Surface, un Windows 12 ou des surprises Xbox. L'événement est avant tout une vitrine pour les outils que Microsoft veut mettre dans les mains des développeurs afin de construire la prochaine vague d'applications IA, dont les effets réels se feront sentir sur les mois qui suivent.

UELes développeurs et entreprises européens utilisant Azure et GitHub Copilot seront directement impactés par les nouvelles capacités agentiques, tandis que l'exécution locale de modèles via Windows AI Foundry pourrait faciliter la conformité RGPD en réduisant les transferts de données vers le cloud.

OutilsOutil
1 source
L'écosystème cloud IA de NVIDIA s'étend dans le monde entier pour répondre à la demande mondiale en calcul IA
422NVIDIA AI Blog 

L'écosystème cloud IA de NVIDIA s'étend dans le monde entier pour répondre à la demande mondiale en calcul IA

NVIDIA accélère la construction d'une infrastructure mondiale d'« usines à IA », en s'appuyant sur un écosystème croissant de partenaires cloud. Jensen Huang, fondateur et PDG de NVIDIA, a annoncé lors d'une communication officielle que cet écosystème couvre désormais six continents, avec l'arrivée de deux nouveaux partenaires : Cassava en Afrique et Claro en Amérique du Sud. Des acteurs comme CoreWeave, Firmus, IREN et Nscale élargissent leurs capacités pour répondre à la demande des laboratoires d'IA, des entreprises et des gouvernements. En Australie, Firmus Technologies déploie son « Project Southgate », un programme de data centers en Tasmanie, Melbourne, Australie-du-Sud et Nouvelle-Galles du Sud, en privilégiant les énergies renouvelables et les infrastructures modulaires. La société a également ouvert des installations à Singapour en partenariat avec ST Telemedia Global Data Centres. Cet élargissement répond à une explosion de la demande en tokens, l'unité de traitement des modèles de langage, portée par les applications d'IA agentique, les copilotes d'entreprise et les modèles frontières. Pour les nations et industries réglementées, ces clouds régionaux permettent de respecter des exigences de souveraineté numérique et de conformité locale, sans dépendre d'infrastructures centralisées aux États-Unis. Pour les développeurs et startups, ils réduisent la latence et simplifient l'accès aux GPU NVIDIA, combinés aux logiciels d'IA et aux réseaux haute performance de la marque. L'argument économique mis en avant par NVIDIA est le coût par token et le débit par watt, deux métriques déterminantes pour qui exploite des modèles d'IA en production à grande échelle. Cette expansion s'inscrit dans une stratégie plus large de NVIDIA pour s'imposer non plus seulement comme fabricant de puces, mais comme architecte de l'ensemble de la chaîne d'infrastructure IA, du silicium aux logiciels en passant par le cloud. Face à la montée en puissance de concurrents comme AMD et aux investissements massifs des hyperscalers (Google, Microsoft, Amazon) dans leurs propres puces, NVIDIA cherche à verrouiller l'écosystème via des partenariats cloud qui intègrent sa pile technologique complète. Des partenaires comme GMI Cloud, Naver Cloud, Indosat Ooredoo Hutchison ou YTL ancrent cette stratégie dans des marchés à forte croissance : Asie du Sud-Est, Moyen-Orient, Afrique. La prochaine étape sera d'observer si ces capacités régionales parviennent à absorber la demande des grands modèles frontières, dont les coûts d'entraînement continuent de croître exponentiellement.

UELes clouds régionaux NVIDIA permettent aux entreprises et industries réglementées européennes de répondre aux exigences de souveraineté numérique sans dépendre d'infrastructures centralisées aux États-Unis.

InfrastructureActu
1 source
LangSmith sur AWS pour évaluer les agents LLM avancés
423AWS ML Blog 

LangSmith sur AWS pour évaluer les agents LLM avancés

AWS et LangChain ont publié conjointement un guide pratique sur l'évaluation des agents IA complexes en production, en s'appuyant sur l'outil LangSmith déployé sur l'infrastructure AWS. Co-rédigé par Karan Singh, directeur des partenariats chez LangChain, ce guide combine les travaux de LangChain et le guide publié par Anthropic sur la démystification des évaluations d'agents. Il présente cinq patterns d'évaluation, une méthode pour construire des tests hors ligne via pytest et LangSmith, ainsi qu'une configuration de monitoring en production. Le cas d'usage central est un agent "texte vers SQL" fonctionnant sur Amazon Bedrock, utilisant le modèle Amazon Nova 2 Lite, un modèle de raisonnement rapide et économique avec une fenêtre de contexte d'un million de tokens, capable de traiter texte, images, vidéos et documents, et bien adapté aux charges de travail agentiques. Le défi posé par l'évaluation des agents IA est fondamentalement différent de celui des LLMs classiques, pour trois raisons majeures : la non-déterminisme (le même agent peut réussir 90 % du temps et échouer dans 10 % des cas), la propagation d'erreurs (une faute à l'étape 3 peut fausser toutes les étapes suivantes, un agent SQL qui identifie mal le schéma construira un JOIN incorrect et produira une réponse erronée), et la créativité des solutions (les modèles frontières trouvent parfois des chemins valides non anticipés par les concepteurs de tests). Pour mesurer la fiabilité réelle, le guide introduit deux métriques clés : pass@k, qui mesure la probabilité d'au moins un succès en k tentatives, et pass^k, qui mesure la probabilité que toutes les k tentatives aboutissent, permettant ainsi de distinguer les agents capables d'improviser de ceux qui produisent des résultats cohérents et reproductibles. Ce guide s'inscrit dans une tendance de fond : à mesure que les agents IA passent des démonstrations aux déploiements réels, l'absence d'outils d'évaluation rigoureuse est devenue l'un des principaux freins à leur adoption industrielle. LangChain, qui développe l'un des frameworks d'orchestration les plus utilisés, et AWS, qui héberge une part croissante des charges de travail IA via Bedrock, se positionnent ensemble sur ce segment critique. LangSmith est disponible sur AWS Marketplace, ce qui simplifie son intégration dans les environnements cloud existants. Cette collaboration reflète une maturité croissante de l'écosystème : après une phase d'enthousiasme autour des agents autonomes, l'industrie se tourne désormais vers les questions de fiabilité, d'observabilité et de gouvernance, conditions indispensables à un déploiement à grande échelle.

OutilsOutil
1 source
L’orchestration de l’IA : un nouveau paradigme organisationnel
424Le Big Data 

L’orchestration de l’IA : un nouveau paradigme organisationnel

Ofelia, une PME grenobloise spécialisée dans la gestion des processus métiers, anciennement connue sous le nom de Bonitasoft, a mené en 18 mois une transformation organisationnelle profonde autour de l'intelligence artificielle. Sous la direction de son PDG Christophe Bouron, l'entreprise a réorienté l'ensemble de ses pratiques internes sans faire appel à des consultants externes ni procéder à des licenciements. Le pivot central de cette mutation repose sur un concept qu'il nomme "orchestration de l'IA" : coordonner intelligemment agents, systèmes et collaborateurs humains au sein d'une architecture cohérente, plutôt que de laisser chaque employé développer ses propres outils en silo. Selon Bouron, une entreprise de mille salariés qui orchestre correctement son organisation peut atteindre une productivité équivalente à deux mille personnes. Ce modèle répond à un problème concret que Bouron observe dans les grandes structures : l'usage individuel et non coordonné de l'IA générative crée une nouvelle forme de "shadow IT". Chaque collaborateur produit du contenu, automatise ses tâches, génère ses propres standards, mais personne ne peut plus communiquer efficacement sur des sujets transverses. Les réunions s'accumulent sans synthèse, la traçabilité disparaît, et l'efficacité promise se transforme en nouvelle source de complexité. L'orchestration proposée par Ofelia vise à recentraliser cette énergie dispersée : le collaborateur ne disparaît pas, il change de rôle, d'exécutant, il devient superviseur d'agents. Le temps libéré peut alors être réinvesti dans des tâches à haute valeur ajoutée, créativité et analyse critique en tête. Le contexte dans lequel s'inscrit cette vision est celui d'une disruption profonde du marché des logiciels d'entreprise. Bouron anticipe une "SaaSpocalypse" : la montée en puissance de l'IA agentique menace les outils SaaS trop spécialisés, utilisés sporadiquement ou reproduisant des fonctions désormais automatisables par simple interface conversationnelle. Seuls survivront les éditeurs capables de s'intégrer dans des écosystèmes plus larges ou de se réinventer. Ofelia, avec son positionnement historique sur l'automatisation des processus métiers, se place dans cette transformation comme fournisseur de cadre d'orchestration plutôt que comme simple outil. L'entreprise incarne ainsi une thèse plus large : l'IA ne se déploie pas en superposant des couches technologiques, elle exige un "reset" organisationnel complet, comparable aux révolutions qu'ont représenté l'informatisation ou la digitalisation dans les décennies précédentes.

UEOfelia, PME française basée à Grenoble, propose un cadre d'orchestration IA directement applicable aux entreprises françaises cherchant à structurer leur adoption de l'IA générative en évitant le shadow IT agentique.

OutilsActu
1 source
Concevoir des plateformes IA fiables : outils pour la certitude, agents pour la découverte
425InfoQ AI 

Concevoir des plateformes IA fiables : outils pour la certitude, agents pour la découverte

Aaron Erickson, architecte spécialisé dans les systèmes d'intelligence artificielle, a présenté une approche structurée pour concevoir des plateformes IA fiables à grande échelle. Sa réflexion part d'un constat simple : l'ère du "vibe checking", où l'on évalue informellement si un modèle semble fonctionner, touche à ses limites dès qu'il s'agit de déployer des systèmes en production. Il propose à la place des cadres multi-agents rigoureux, combinant des garde-fous logiciels déterministes avec des capacités de découverte agentique, pour obtenir à la fois prévisibilité et flexibilité. L'enjeu pratique est considérable pour les équipes qui industrialisent l'IA. Un système purement agentique manque de garanties, tandis qu'un pipeline entièrement déterministe est trop rigide pour des tâches complexes et ambiguës. La réponse d'Erickson est une architecture hybride : confier aux agents les tâches d'exploration et de raisonnement, tout en encadrant leurs sorties avec des vérifications logicielles classiques. Il insiste également sur l'optimisation des hiérarchies d'agents et l'intégration de modèles de fondation pour séries temporelles, deux leviers souvent négligés dans les architectures de production. Cette présentation s'inscrit dans une tendance de fond qui agite l'industrie depuis l'essor des agents LLM en 2024 : comment passer du prototype impressionnant au système fiable qui tient la charge. Erickson introduit la notion de pyramide d'évaluation, un cadre d'inspection multi-niveaux inspiré des bonnes pratiques du génie logiciel, pour mesurer objectivement la robustesse d'une architecture IA avant qu'elle ne rencontre les contraintes du monde réel.

OutilsOpinion
1 source
L'IA à base d'agents oblige à repenser la structure des organisations
426MIT Technology Review 

L'IA à base d'agents oblige à repenser la structure des organisations

Alors que l'adoption des agents IA en entreprise s'accélère, un fossé béant s'ouvre entre les ambitions affichées et les capacités réelles. Selon une étude récente, 85 % des organisations déclarent vouloir devenir "agentiques" d'ici trois ans, mais 76 % reconnaissent que leurs opérations et infrastructures actuelles ne sont pas en mesure de soutenir cette transition. C'est dans ce contexte que PwC UK Consulting, via son directeur technique mondial Prasun Shah, et la plateforme enterprise Ema, fondée par Surojit Chatterjee, alertent sur une erreur de méthode répandue : coller des agents IA par-dessus des organisations conçues pour des humains, sans repenser le modèle de fond en comble. Shah parle d'une "solution scotch" : on rajoute de la technologie sur un modèle qui se fissure, sans s'attaquer aux fractures structurelles. L'enjeu est considérable. Lorsqu'ils sont déployés à grande échelle, les agents IA seraient capables d'accélérer les processus métier de 30 à 50 %, et de réduire le temps consacré aux tâches à faible valeur ajoutée de 25 à 40 %. Mais ces gains ne se matérialisent que si l'organisation est repensée en profondeur, pas seulement optimisée à la marge. Les agents ne sont pas des assistants qui aident un humain à aller plus vite : ils coordonnent des workflows entiers, prennent des décisions autonomes, s'adaptent aux conditions changeantes et itèrent en continu. Pour débloquer cette valeur, il faut revoir les droits de décision, les indicateurs de performance, les processus et les rôles humains, non pas après coup, mais dès la conception. C'est pour combler ce vide conceptuel qu'Ema a forgé en 2025, en partenariat avec le cabinet HFS Research, le terme "agentic business transformation" (ABT). Ce cadre distingue trois piliers : la pile technologique, la composition de la main-d'oeuvre, et les métriques de succès. Sur le plan technique, Shah insiste sur le fait que les agents IA ne doivent pas être une couche supplémentaire dans un empilement applicatif existant, mais un "tissu conjonctif" capable de circuler entre les systèmes, de contextualiser des données issues de sources multiples et d'en déduire des décisions à haute valeur. C'est précisément là, dit-il, que se jouera "le prochain champ de bataille" compétitif entre les entreprises. La question n'est plus de savoir si les organisations adopteront des agents IA, mais si elles auront la lucidité de se transformer structurellement plutôt que de se contenter de les greffer sur l'existant.

UELes entreprises et organisations européennes font face au même défi de transformation structurelle pour intégrer les agents IA, sans cadre ni accompagnement spécifique à l'UE mentionné.

SociétéOpinion
1 source
Des systèmes d'IA autonomes mettent à l'épreuve la gouvernance dans les environnements physiques
427AI News 

Des systèmes d'IA autonomes mettent à l'épreuve la gouvernance dans les environnements physiques

Le 20 mai dernier, l'Infocomm Media Development Authority (IMDA) de Singapour a publié la version 1.5 de son cadre de gouvernance pour les IA agentiques, au moment où les systèmes d'intelligence artificielle autonomes quittent les environnements logiciels pour s'installer dans les entrepôts, les réseaux de livraison et les espaces publics. Ce cadre définit des lignes directrices pour les organisations qui déploient des agents capables de planifier, décider et agir en plusieurs étapes pour accomplir des objectifs. Parallèlement, lors d'un sommet IA à Singapour la semaine dernière, des acteurs comme Grab ont présenté leurs expériences concrètes : l'entreprise pilote actuellement des véhicules autonomes et des robots de livraison dans le quartier de Punggol, à Singapour. Son directeur technique, Suthen Thomas Paradatheth, a détaillé leur approche : simulation intensive, tests en circuit fermé puis ouvert, et déploiement progressif avant tout passage à l'échelle. L'enjeu central est que les défaillances d'une IA dans le monde physique ont des conséquences bien plus graves que dans le domaine numérique. Le Dr Ya-Qin Zhang, doyen fondateur de l'Institute for AI Industry Research de l'université Tsinghua, a résumé le problème : "Tout risque dans le domaine numérique sera amplifié dans le domaine physique, et le domaine physique aura des conséquences physiques." Les systèmes de transport, les drones, les réseaux logistiques et les infrastructures critiques deviennent des points de vulnérabilité à mesure que l'IA s'intègre plus profondément dans les opérations physiques. Grab a également souligné qu'une longue traîne de problèmes imprévus peut surgir après le déploiement, ce qui rend la surveillance continue non négociable. La plupart des cadres de gouvernance existants se sont concentrés sur les risques en ligne : biais algorithmiques, désinformation, contenus nuisibles. L'émergence des IA incarnées dans des environnements physiques imprévisibles force une refonte de cette approche. Le cadre de l'IMDA préconise des déploiements graduels, une surveillance continue et des tests post-déploiement, reconnaissant explicitement que tous les risques ne peuvent être anticipés avant la mise en service. Les discussions au sommet de Singapour ont pointé vers des modèles de gouvernance fondés sur la télémétrie et les tests itératifs, plutôt que sur une certification unique. L'IMDA recommande aussi d'appliquer le principe du moindre privilège pour les accès des agents, de définir des procédures opérationnelles standard et de prévoir des mécanismes permettant de mettre hors ligne un agent défaillant. La question de la répartition des responsabilités entre développeurs, intégrateurs et opérateurs reste un chantier ouvert dans ce secteur en rapide mutation.

RégulationReglementation
1 source
MDASH : Microsoft chasse les failles IA à l'échelle
428InfoQ AI 

MDASH : Microsoft chasse les failles IA à l'échelle

Microsoft a dévoilé MDASH, une plateforme de sécurité agentique multi-modèles conçue pour automatiser la découverte de vulnérabilités à grande échelle dans Windows et d'autres environnements logiciels de l'entreprise. Le système mobilise plus de 100 agents IA spécialisés qui collaborent pour analyser, valider, débattre et prouver l'existence de failles dans des bases de code complexes. Il s'agit d'une approche radicalement différente des audits de sécurité traditionnels, qui reposaient jusqu'ici sur des équipes humaines réduites face à des millions de lignes de code. L'enjeu est considérable : les grandes entreprises comme Microsoft gèrent des centaines de millions de lignes de code, rendant toute revue manuelle exhaustive impossible. En orchestrant une centaine d'agents capables de se contredire et de valider mutuellement leurs résultats, MDASH vise à réduire les angles morts des audits classiques et à détecter des classes de vulnérabilités qui passeraient autrement inaperçues. Cette automatisation pourrait changer radicalement la vitesse à laquelle des correctifs de sécurité critiques sont identifiés et déployés. Microsoft n'est pas le premier acteur à explorer l'IA pour la recherche de vulnérabilités, Google Project Zero, des startups comme Protect AI ou des initiatives académiques ont déjà testé des approches similaires, mais la mise en production d'un système de cette ampleur par un éditeur majeur marque un tournant. La divulgation publique de MDASH intervient dans un contexte où la pression réglementaire sur la sécurité logicielle s'intensifie, notamment avec le Cyber Resilience Act européen, et où les adversaires étatiques exploitent eux-mêmes l'IA pour accélérer la découverte de failles zero-day.

UELe Cyber Resilience Act européen impose aux éditeurs vendant en UE des obligations de sécurité logicielle renforcées, et l'automatisation à grande échelle de la détection de vulnérabilités que représente MDASH pourrait devenir un benchmark de conformité pour les entreprises européennes soumises à cette réglementation.

💬 Cent agents qui se contredisent pour valider des failles, c'est le vrai truc nouveau ici, pas juste "on a balancé un LLM sur du code". Ça rend aussi définitivement caduque l'idée qu'une petite équipe de chercheurs peut couvrir des centaines de millions de lignes à la main. Reste à voir si les adversaires étatiques, qui font exactement ça depuis des mois, n'ont pas déjà une longueur d'avance.

SécuritéOpinion
1 source
L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable
429Robotics Business Review 

L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable

Hailo, fabricant israélien de processeurs IA dédiés au traitement embarqué (edge computing), publie une analyse positionnant l'IA physique comme la prochaine rupture technologique après les phases perception, génératif et agentique. La thèse centrale: les systèmes robotiques autonomes ne peuvent pas dépendre du cloud pour leur boucle de contrôle en temps réel. L'argument est illustré par un cas concret et délibérément banal: un robot d'entretien qui rencontre une chaussette sur le sol. Les systèmes actuels à base de règles prédéfinies la heurtent et se bloquent, nécessitant une intervention humaine. Les architectures alimentées par vision IA l'évitent. Mais la vraie autonomie, selon Hailo, consiste à identifier l'objet, le ramasser et le déposer à sa place, soit une boucle complète perception-raisonnement-action exécutée localement, sans appel réseau. L'article ne fournit pas de métriques de performance ni de benchmarks chiffrés: c'est un positionnement stratégique, pas une publication technique. L'argument pour l'edge est structurellement solide, même si sa source est directement intéressée. La latence introduite par un aller-retour cloud dans une boucle de contrôle robotique représente un risque opérationnel réel: une coupure réseau ou un pic de latence imprévisible dans un contexte de manipulation physique peut provoquer des accidents ou des arrêts de ligne. Le modèle hybride proposé, entraînement dans le cloud, inférence à la périphérie, correspond à ce que déploient déjà des acteurs comme Boston Dynamics (Spot avec traitement embarqué) ou les AMR d'Exotec en logistique. Pour un COO industriel ou un intégrateur, cela se traduit concrètement: les architectures sans dépendance réseau sont une exigence de sécurité fonctionnelle, pas seulement un choix de performance. L'article contredit implicitement la narrative selon laquelle le cloud suffit pour les robots opérationnels, et rejoint les conclusions de plusieurs déploiements terrain où la connectivité intermittente reste le premier point de défaillance. Hailo, fondé en 2017 à Tel Aviv et introduit en bourse en 2024, commercialise les puces Hailo-8 et Hailo-15 destinées à l'inférence embarquée sur caméras, robots et véhicules. Ses concurrents directs sur ce segment sont NVIDIA avec la gamme Jetson Orin, Qualcomm avec ses plateformes Robotics RB-series, et Intel avec les Myriad X. L'article est publié à l'approche du Robotics Summit and Expo de Boston, prévu début juin 2026, où Hailo sera probablement présent. Sur la question humanoïde, le texte est interrompu avant de développer son argument, mais l'amorce est claire: la course au robot polyvalent anthropomorphe (Figure, 1X, Agility Robotics, Unitree) est freinée non par l'IA, mais par les contraintes mécaniques, énergétiques et de coût du hardware. Un signal que les prochains déploiements industriels à grande échelle passeront probablement par des robots à tâche unique, moins coûteux et plus fiables, plutôt que par des humanoïdes généraux.

UEL'argument edge-first s'applique aux déploiements industriels européens et rejoint la pratique d'acteurs comme Exotec (France), mais l'article reste un positionnement marketing sans impact réglementaire ou stratégique direct sur la France ou l'UE.

💬 La chaussette sur le sol, c'est le meilleur exemple que j'ai lu depuis longtemps pour expliquer pourquoi l'edge est non-négociable. Que Hailo ait un intérêt commercial dans l'affaire, peu importe: une boucle perception-action qui dépend du cloud, c'est un point de défaillance que personne ne veut en prod. Et les humanoïdes polyvalents, c'est bien pour les keynotes, les robots à tâche unique qui tournent vraiment, c'est là que les déploiements industriels se passent aujourd'hui.

RobotiqueOpinion
1 source
L'essor de la créativité à l'ère de l'IA
430MIT Technology Review 

L'essor de la créativité à l'ère de l'IA

La demande de contenu vidéo a atteint un niveau sans précédent : selon un podcast McKinsey, les consommateurs regardent désormais plus de 12 heures de contenu vidéo quotidiennement, souvent sur plusieurs appareils simultanément. Face à cette explosion, les coûts de production restent vertigineux, un film hollywoodien avec un budget de base de 150 millions de dollars revient à environ 1 million par minute de film fini, et les séries de prestige sur les plateformes de streaming se chiffrent en centaines de milliers de dollars par minute. Dans ce contexte, Adobe et ses partenaires corporate avancent une réponse concrète : intégrer l'IA générative directement dans les flux de travail créatifs. Nestlé, qui opère dans 180 pays avec des marques comme Nescafé, KitKat et Purina, a déployé les modèles personnalisés Adobe Firefly dans ses pipelines de production existants, réduisant les cycles de workflow de 50 %. Une étude Adobe révèle par ailleurs que 94 % des créatifs utilisant ces outils produisent du contenu plus rapidement, économisant en moyenne 17 heures par semaine. L'enjeu n'est pas simplement la vitesse : c'est la survie économique des équipes créatives prises dans ce que l'article appelle un "sprint permanent". La durée de vie d'un contenu sur les réseaux sociaux se mesure désormais en heures, non en semaines, et la demande de contenus frais devrait encore quintupler d'ici deux ans selon les projections Adobe. L'IA absorbe les tâches répétitives, déclinaisons de formats, adaptations locales, variations de visuels, pour libérer les équipes vers les décisions stratégiques à haute valeur ajoutée. Le temps récupéré n'est pas présenté comme un gain de productivité brut, mais comme une capacité créative renouvelée. Pour les entreprises opérant à l'échelle mondiale, c'est aussi une question de cohérence de marque : maintenir des milliers de micro-décisions visuelles et éditoriales alignées avec l'identité d'une marque, à travers des dizaines de marchés, devient impossible sans outillage intelligent. Cette transformation s'inscrit dans un moment charnière pour l'industrie créative. Adobe positionne son prochain "Creative Agent" comme un outil de la future ère agentique, capable de raisonner en systèmes entiers plutôt qu'en tâches isolées, orchestrant workflows, applications et processus pour réduire le délai entre l'idée et l'exécution. La question n'est plus de savoir si les entreprises doivent adopter l'IA pour la production de contenu, l'équation économique ne laisse pas d'alternative, selon les auteurs, mais comment le faire sans diluer leur identité de marque ni déresponsabiliser leurs équipes. La provenance des contenus, la transparence sur les outils utilisés et le maintien du jugement humain comme filtre final sont présentés comme les conditions non négociables d'une adoption responsable. Dans ce nouveau paradigme, l'IA amplifie ce qui existe déjà : une stratégie faible reste faible, et l'échelle sans discernement ne produit que du bruit.

UELes équipes créatives des grandes entreprises opérant en Europe, comme Nestlé, pourraient réduire leurs cycles de production de contenu de moitié en intégrant des outils d'IA générative dans leurs pipelines existants.

OutilsOutil
1 source
Optimisation des flux de travail en radiologie grâce aux agents IA
431AWS ML Blog 

Optimisation des flux de travail en radiologie grâce aux agents IA

Des chercheurs et ingénieurs d'Amazon Web Services, en partenariat avec Radiology Partners, ont publié un article technique décrivant un système d'agents IA capables d'optimiser l'attribution des examens radiologiques. Le problème qu'ils cherchent à résoudre est documenté par une étude portant sur 62 hôpitaux et 2,2 millions d'examens : les systèmes traditionnels de liste de travail radiologique provoquent des retards moyens de 17,7 minutes sur les cas urgents, et génèrent des surcoûts estimés entre 2,1 et 4,2 millions de dollars par réseau hospitalier. La solution proposée repose sur Amazon Bedrock AgentCore et le Strands Agents SDK, deux outils AWS permettant de déployer des agents autonomes capables de raisonner sur des données cliniques complexes en temps réel. Le coeur du problème est structurel : les systèmes actuels fonctionnent à partir de règles fixes qui ignorent le contexte opérationnel. Ils ne tiennent pas compte de la spécialisation précise du radiologue disponible, de son niveau de fatigue après plusieurs heures consécutives d'interprétations complexes, ni de la difficulté réelle de l'examen à traiter. Ce déficit d'analyse pousse les radiologues à sélectionner les cas les plus simples ou les mieux rémunérés, laissant les études complexes en attente. Les agents IA proposés évaluent simultanément six facteurs : spécialisation, charge de travail actuelle, schémas de fatigue, complexité du cas, urgence clinique et disponibilité. Contrairement aux moteurs déterministes, le système apprend des historiques d'attribution et s'adapte continuellement, réduisant mécaniquement les comportements de sélection opportuniste. Ce développement s'inscrit dans une tendance plus large de l'IA agentique dans les environnements à forte criticité. Les systèmes de type worklist radiologique existent depuis des décennies, mais leur logique déterministe n'a jamais évolué sans intervention humaine manuelle : quand une règle produit un résultat sous-optimal, le même schéma se répète indéfiniment jusqu'à ce qu'un administrateur modifie le paramétrage. L'introduction d'agents fondés sur des modèles de fondation (foundation models) disponibles via Amazon Bedrock représente un changement de paradigme, passant de la gestion de tâches à une orchestration véritablement autonome. Radiology Partners, l'un des plus grands groupes de radiologie aux États-Unis, a choisi de s'associer à AWS pour déployer cette approche à l'échelle industrielle, signalant que l'IA agentique est désormais considérée comme une capacité opérationnelle critique, et non plus comme un projet expérimental.

OutilsOutil
1 source
Alibaba conçoit des puces IA pour les agents autonomes, ce qui redéfinit les enjeux de la course aux semi-conducteurs
432AI News 

Alibaba conçoit des puces IA pour les agents autonomes, ce qui redéfinit les enjeux de la course aux semi-conducteurs

Alibaba a présenté le Zhenwu M890, un processeur développé par sa filiale semi-conducteur T-Head, conçu spécifiquement pour les agents IA. Selon l'entreprise, la puce offre des performances trois fois supérieures à son prédécesseur, le Zhenwu 810E. Mais la véritable nouveauté n'est pas le bond de puissance brute : le M890 est architecturalement pensé pour les agents IA, ces systèmes logiciels qui doivent maintenir de longs contextes en mémoire, coordonner plusieurs modèles en temps réel et exécuter des tâches complexes à plusieurs étapes avec une intervention humaine minimale. Ces exigences, notamment en bande passante mémoire et en communication inter-modèles, sont fondamentalement différentes de celles des puces d'inférence classiques. En parallèle, Alibaba a annoncé Qwen 3.7-Max, la dernière version de son grand modèle de langage phare, capable de fonctionner en continu jusqu'à 35 heures sans dégradation des performances, une spec qui n'a de sens que si l'on conçoit pour une opération autonome prolongée. Ce qui change vraiment avec cette annonce, c'est la nature de la compétition. Alibaba ne comble pas un vide laissé par les contrôles à l'exportation américains : l'entreprise construit une pile IA intégrée et fermée, avec sa propre puce chez T-Head, son propre modèle chez Qwen, et sa propre plateforme de livraison cloud via Bailian. Le M890 sera disponible aux entreprises chinoises empaqueté dans le Panjiu AL128, un serveur rack intégrant 128 accélérateurs M890. T-Head annonce par ailleurs avoir déjà livré plus de 560 000 unités Zhenwu à plus de 400 clients dans 20 secteurs, dont l'automobile et la finance. Ce n'est pas du matériel de laboratoire : Alibaba dispose déjà de données de déploiement à l'échelle réelle avant même le lancement commercial du M890. La feuille de route publiée simultanément est tout aussi significative. Le M890 sera suivi du V900 au troisième trimestre 2027, promettant un nouveau gain de performances triple, puis du J900 au troisième trimestre 2028. Cette cadence délibérée rappelle les cycles tick-tock de Nvidia, et fait écho à la roadmap similaire dévoilée par Huawei pour sa ligne Ascend l'an dernier. Les deux annonces révèlent la même conclusion stratégique : les grandes entreprises technologiques chinoises ont décidé que dépendre de puces étrangères, même dans un scénario d'allègement des restrictions, représente un risque structurel inacceptable. Cette conviction se traduit en capital : Alibaba a engagé plus de 380 milliards de yuans (environ 53 milliards de dollars) dans l'infrastructure cloud et IA sur trois ans, son plus grand investissement sectoriel à ce jour. Le M890 et ses successeurs sont le résultat direct de cette mise.

UEL'autonomisation accélérée de la Chine en matière de puces IA renforce les tensions géopolitiques sur les semi-conducteurs et accentue la pression sur l'Europe pour consolider sa propre souveraineté technologique dans le cadre de l'EU Chips Act.

InfrastructureOpinion
1 source
L'IA en entreprise : obstacles, feuilles de route, cybersécurité et IA physique au deuxième jour de TechEx
433AI News 

L'IA en entreprise : obstacles, feuilles de route, cybersécurité et IA physique au deuxième jour de TechEx

La deuxième journée de la conférence TechEx North America, tenue au San Jose McEnery Convention Center, a concentré ses sessions sur les obstacles concrets au déploiement de l'IA en entreprise. Les intervenants ont ouvert le programme AI & Big Data en évoquant le "cimetière de l'IA", ces projets pilotes qui affichent de bons résultats en phase de test mais échouent à passer en production réelle. Les discussions ont couvert un large spectre : financement basé sur les tokens, choix entre construire ou acheter une infrastructure physique dédiée, conception de fondations de données adaptées aux agents autonomes, et méthodes pour générer un retour sur investissement durable malgré la multiplicité des variables en jeu. Le problème central identifié par les experts est ce qu'ils appellent l'"effet copilote personnel" : un outil d'IA fonctionne remarquablement bien sur le poste d'un utilisateur unique, notamment quand il s'agit d'un dirigeant dont les gains de productivité créent un enthousiasme généralisé dans l'entreprise, mais cette réussite individuelle ne se transpose pas automatiquement à l'échelle d'un département, et encore moins d'une organisation entière. En parallèle, les sessions cybersécurité ont mis en lumière un "écart de vélocité" : les équipes métier adoptent les systèmes d'IA agentique bien plus vite que les équipes sécurité ne peuvent les gouverner, créant des angles morts critiques. L'IA amplifie à la fois les capacités offensives des attaquants, via des outils de scan automatisé d'exploits, et les risques internes liés à des agents non bornés ou mal supervisés. Le phénomène du "shadow IT" se réinvente sous la forme du "shadow AI" : des collaborateurs utilisent des outils d'IA non approuvés pour traiter des données sensibles, ou des systèmes autorisés fonctionnent sans périmètre clairement défini, élargissant la surface d'attaque à l'insu des équipes de sécurité. Face à ce contexte, le principe du "zéro confiance", refus par défaut pour tout utilisateur humain ou machine, est apparu comme une réponse structurante, imposant une vérification d'identité et de niveau de privilège non seulement aux personnes, mais aussi aux services et agents automatisés. La convergence entre gouvernance des données, supervision des systèmes et cybersécurité s'impose désormais comme l'enjeu organisationnel majeur pour toute entreprise cherchant à industrialiser l'IA sans exposer ses actifs critiques.

UELes entreprises européennes, soumises à l'AI Act et au RGPD, sont directement concernées par les problématiques de gouvernance du 'shadow AI' et d'encadrement des agents autonomes décrites dans cette conférence.

SécuritéActu
1 source
Gemini 3.5 Flash pourrait être assez rapide pour que l'IA générative devienne vraiment utile
434Ars Technica AI 

Gemini 3.5 Flash pourrait être assez rapide pour que l'IA générative devienne vraiment utile

Google a présenté Gemini 3.5 Flash lors de sa conférence I/O 2026, avec un déploiement immédiat sur une large gamme de produits maison. Le modèle succède aux branches 3.0 et 3.1 publiées au cours de l'année écoulée, et Google affirme une fois de plus que sa nouvelle version Flash surpasse le modèle Pro de la génération précédente. Tulsee Doshi, directrice senior de la gestion produit pour Gemini, a précisé que les innovations de Gemini 3.5 Flash sont intégrées dans de multiples produits Google, et que ce lancement n'est qu'un début. Ce qui distingue ce modèle de ses prédécesseurs, selon Google, c'est l'équilibre inédit qu'il atteint entre puissance et efficacité. Gemini 3.5 Flash offrirait un niveau d'intelligence comparable aux meilleurs modèles du marché tout en étant suffisamment économe pour rendre viables les tâches agentiques complexes à grande échelle. Concrètement, cela signifie que des workflows automatisés impliquant plusieurs étapes, de nombreux appels au modèle et un traitement intensif pourraient désormais s'exécuter à un coût et une vitesse acceptables pour un déploiement en production. C'est précisément ce qui avait freiné l'adoption massive des agents IA jusqu'ici. Depuis un an, Google suit une cadence soutenue de mises à jour alternant entre modèles Flash et Pro, chaque nouvelle version Flash étant présentée comme plus performante que le Pro précédent. Cette progression rapide reflète une compétition acharnée avec OpenAI, Anthropic et Meta, tous engagés dans une course à l'efficacité pour rendre l'IA générative économiquement viable à l'échelle industrielle. Le fait que Google intègre Gemini 3.5 Flash directement dans ses produits grand public, plutôt que de le réserver à l'API, suggère une confiance accrue dans la maturité du modèle et une volonté de différencier ses services face à des concurrents qui misent sur des intégrations similaires.

UELes développeurs et entreprises européennes utilisant l'API Gemini bénéficieront de coûts réduits pour les workflows agentiques complexes, sans impact réglementaire ou institutionnel direct.

LLMsOpinion
1 source
Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle
435NVIDIA AI Blog 

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

Lors du Dell Technologies World, Jensen Huang, PDG de NVIDIA, a rejoint sur scène Michael Dell pour présenter une nouvelle génération d'infrastructures dédiées à l'IA agentique. Les deux dirigeants ont annoncé plusieurs serveurs inédits, dont le Dell PowerEdge XE9812, construit autour de la puce NVIDIA Vera Rubin NVL72, qui affiche un coût par token jusqu'à dix fois inférieur à celui de l'architecture Blackwell pour les déploiements d'inférence à grande échelle. À ses côtés, les serveurs PowerEdge XE9880L, XE9885L et XE9882L s'appuient sur les modules NVIDIA HGX Rubin NVL8, premiers systèmes Dell à adopter cette architecture, supportant jusqu'à 144 GPU par rack, avec des noeuds de calcul entièrement refroidis par liquide et des performances jusqu'à 5,5 fois supérieures au HGX B200. Du côté des processeurs, les PowerEdge M9822 et R9822 intègrent le CPU NVIDIA Vera, doté d'une bande passante mémoire de 1,2 To/s, capable d'exécuter des charges agentiques 50 % plus rapidement que les processeurs x86. Dell a également dévoilé le PowerRack, un système entièrement intégré, ainsi qu'une mise à jour de son AI Data Platform incluant le moteur Starburst, qui offre un débit SQL jusqu'à trois fois supérieur sur CPU Vera. Cinq mille entreprises, dont Lilly, Samsung et Honeywell, exploitent déjà des charges de travail IA sur des Dell AI Factories avec NVIDIA. Ces annonces s'inscrivent dans un contexte de demande explosive. Michael Dell a rappelé que les dépenses mondiales en infrastructure IA pourraient atteindre entre 3 000 et 4 000 milliards de dollars d'ici 2030, avec une consommation de tokens projetée en hausse de 3 400 % sur la même période. Jensen Huang a résumé la situation sans détour : "Nous sommes entrés dans l'ère de l'IA utile, c'est pourquoi la demande est parabolique, absolument parabolique." Pour les entreprises, l'enjeu est direct : réduire le coût de l'inférence pour rendre les agents autonomes économiquement viables en production, et non plus seulement dans des environnements pilotes. La vitesse sur les bases de données est particulièrement stratégique, car les agents IA interrogent en continu ces systèmes pour accomplir leurs tâches, rendant la performance CPU aussi critique que celle des GPU. Cette conférence marque une accélération nette dans la course aux infrastructures IA d'entreprise. NVIDIA et Dell s'inscrivent dans une compétition directe avec les géants du cloud -- Amazon, Google, Microsoft -- qui proposent leurs propres puces et services managés. L'argument central de Dell est de permettre aux entreprises de faire tourner leurs modèles frontières et leurs agents autonomes dans leur propre périmètre sécurisé, sans dépendre d'un fournisseur cloud. La génération Rubin succède à Blackwell, lancée en 2024, et la cadence s'accélère : NVIDIA a maintenu un rythme d'une nouvelle architecture tous les un à deux ans. Pour des groupes comme Honeywell ou Lilly, dont les données sont sensibles et les contraintes réglementaires fortes, la promesse d'une IA souveraine et haute performance constitue un argument de poids face aux offres cloud publiques.

UELes entreprises européennes soumises aux contraintes RGPD pourraient tirer parti de l'offre d'IA souveraine on-premise Dell/NVIDIA pour réduire leur dépendance aux clouds publics américains.

InfrastructureActu
1 source
LangSmith Engine automatise le débogage des agents, mais les entreprises multi-modèles ont besoin d'une couche neutre
436VentureBeat AI 

LangSmith Engine automatise le débogage des agents, mais les entreprises multi-modèles ont besoin d'une couche neutre

LangChain a lancé en bêta publique LangSmith Engine, une nouvelle fonctionnalité de sa plateforme de monitoring LangSmith, conçue pour automatiser entièrement la boucle de débogage des agents IA en production. Concrètement, l'outil surveille les traces de production en temps réel et détecte plusieurs types d'anomalies : erreurs explicites, échecs d'évaluateurs, comportements inhabituels comme un agent sollicité hors de son périmètre, ou retours négatifs des utilisateurs. Une fois un problème identifié, LangSmith Engine lit automatiquement le code source, localise la cause racine, génère une pull request corrective et propose un évaluateur sur mesure pour détecter la même défaillance si elle se reproduit. L'intervention humaine n'intervient qu'à l'étape de validation finale. Contrairement aux outils d'observabilité traditionnels comme Weights & Biases, Arize Phoenix ou Honeyhive, qui se limitent à signaler les problèmes, LangSmith Engine prend en charge l'ensemble du cycle de triage sans attendre. Pour les équipes d'ingénierie qui déploient des agents IA à grande échelle, le gain de temps est potentiellement significatif. Aujourd'hui, lorsqu'un agent commet une erreur en production sans supervision humaine à chaque étape, le problème peut se répéter longuement avant d'être identifié et corrigé. Automatiser cette détection et cette remédiation réduit la fenêtre d'exposition aux défaillances et libère les ingénieurs des cycles laborieux de révision manuelle des traces. Mais l'enjeu dépasse la seule efficacité opérationnelle : dans des contextes réglementés, comme la finance ou les ressources humaines, la capacité à produire un audit trail unifié de toutes les décisions prises par des agents IA est devenue une exigence de conformité, pas un luxe. LangSmith Engine arrive dans un marché de plus en plus encombré. Anthropic avec Claude Managed Agents, OpenAI avec Frontier et Google investissent tous dans des plateformes verticalement intégrées qui réunissent déploiement, orchestration et évaluation sous un même toit. Ces géants cherchent à capter les entreprises dans leur écosystème propriétaire, mais cela suppose que celles-ci ne s'appuient que sur un seul fournisseur de modèles. Or, la réalité terrain est différente : de nombreuses organisations utilisent déjà plusieurs modèles en parallèle, par exemple Claude pour l'analyse financière et GPT-4 pour un autre workflow. Dans ce cas, les outils d'observabilité intégrés à chaque provider deviennent des silos incompatibles. C'est précisément le créneau que LangChain tente de défendre : devenir la couche transversale de qualité et de fiabilité qui s'étend à tous les modèles. Pour y parvenir, la plateforme devra convaincre des entreprises encore hésitantes à standardiser leurs workflows sur un tiers indépendant, à un moment où les grands fournisseurs multiplient les incitations à rester dans leur propre écosystème.

UELes entreprises européennes déployant des agents IA dans des secteurs réglementés (finance, RH) pourraient utiliser LangSmith Engine pour produire les audit trails exigés par l'AI Act et les régulateurs sectoriels.

💬 Générer une PR correctrice directement depuis une trace de prod, ça c'est du concret. Le vrai sujet, c'est LangChain qui tente de s'imposer comme couche neutre pendant qu'Anthropic, OpenAI et Google construisent chacun leur forteresse propriétaire. Les équipes multi-modèles en ont besoin, mais faut pas sous-estimer à quel point les gros savent rendre leur écosystème confortable.

OutilsOutil
1 source
Avancées récentes en architectures LLM : partage KV, mHC et attention compressée
437Ahead of AI 

Avancées récentes en architectures LLM : partage KV, mHC et attention compressée

Depuis début avril 2026, une vague de nouveaux modèles de langage open-weight a déferlé, et une tendance architecturale se dégage clairement : l'efficacité sur les contextes longs. Google a ouvert le bal avec sa suite Gemma 4, déclinée en quatre variantes, les modèles compacts E2B et E4B pour appareils embarqués, un modèle mixte d'experts (MoE) à 26 milliards de paramètres, et un modèle dense à 31 milliards. Dans la foulée, ZAYA1-8B, Laguna XS.2 et DeepSeek V4 ont chacun introduit leurs propres innovations internes. Ce que ces modèles ont en commun, c'est un ensemble de techniques nouvelles pour réduire la taille du KV-cache, le trafic mémoire et le coût du mécanisme d'attention, trois goulots d'étranglement devenus critiques à mesure que les modèles de raisonnement et les agents IA manipulent des séquences de plus en plus longues. Ces innovations architecturales ont des conséquences concrètes sur les coûts d'inférence et les capacités des systèmes déployés en production. Le partage de KV entre couches (cross-layer attention), utilisé dans Gemma 4 E2B et E4B, permet aux couches profondes de réutiliser les états clé-valeur calculés dans les couches précédentes, réduisant ainsi la mémoire nécessaire sur de longs contextes sans entraîner de pertes de qualité majeures. Laguna XS.2 adopte une approche différente, en allouant un budget d'attention variable selon les couches, certaines couches traitent l'intégralité du contexte, d'autres utilisent une fenêtre glissante restreinte. ZAYA1-8B intègre une attention convolutionnelle compressée, tandis que DeepSeek V4 combine une attention multi-head compressée (mHC) avec sa propre variante d'attention compacte. Ces techniques sont présentées comme des ajustements discrets dans les schémas d'architecture, mais représentent en réalité des choix de conception non triviaux avec des implications profondes sur la façon dont les modèles gèrent la mémoire à grande échelle. Ces développements s'inscrivent dans une évolution plus large du domaine : les workflows agentiques et les modèles de raisonnement, qui maintiennent des contextes de plusieurs dizaines de milliers de tokens sur de longues interactions, ont rendu les approches d'attention standard trop coûteuses à opérer efficacement. Le KV-cache, qui stocke les états intermédiaires pour éviter de recalculer l'attention à chaque nouveau token, peut consommer plusieurs gigaoctets de VRAM sur de longs contextes, un problème particulièrement aigu pour les déploiements locaux. Le fait que Google, DeepSeek et des acteurs plus modestes comme ZAYA1 et Laguna convergent tous vers des solutions similaires en quelques semaines suggère que l'optimisation de l'attention est devenue la priorité architecturale centrale de 2026, supplantant la simple course aux paramètres.

UELes modèles open-weight à architecture optimisée (Gemma 4, DeepSeek V4) permettent aux entreprises et institutions européennes de déployer des LLMs efficacement en local, réduisant leur dépendance aux infrastructures cloud américaines.

💬 Le KV-cache qui bouffe plusieurs Go de VRAM sur les longs contextes, c'était devenu le vrai goulot d'étranglement, et là on voit tout le monde arriver aux mêmes conclusions en même temps : Google, DeepSeek, Laguna. Quand des acteurs de cette envergure convergent indépendamment vers les mêmes solutions en quelques semaines, c'est pas du hasard. Ça va changer ce qu'on peut faire tourner en local.

LLMsOpinion
1 source
Conseil sur le feedback des agents
438Ben's Bites 

Conseil sur le feedback des agents

Un développeur partage une technique récente pour fluidifier ses échanges avec des agents IA : plutôt que de taper ses retours ou d'utiliser la dictée vocale, il enregistre son écran en commentant à voix haute ce qu'il fait, puis fournit cette vidéo directement à l'agent. Ce dernier analyse les images, transcrit la voix, extrait les moments clés horodatés et génère un rapport HTML structuré, avec des GIFs illustrant les points importants et une liste d'actions à accomplir. La méthode permet aussi de naviguer vers d'autres applications pour montrer des exemples de référence, que l'agent intègre dans son analyse. Ben a formalisé cette approche en une "skill" réutilisable baptisée video-to-html, qui instruit l'agent pour convertir n'importe quelle vidéo en document HTML structuré avec keyframes, horodatages et animations courtes. Les fichiers générés servent également de journal de bord du projet, consultables à tout moment. Cette technique s'attaque à un problème concret dans les workflows avec des agents : la difficulté à communiquer un retour visuel précis et contextualisé. Là où les feedbacks textuels restent abstraits et les captures d'écran statiques, la vidéo permet de montrer l'interface en situation réelle, de naviguer entre applications, et de commenter en temps réel ce qui fonctionne ou non. L'approche consomme davantage de tokens, mais l'auteur note que les agents analysent efficacement les frames extraites, rendant une compression préalable via ffmpeg superflue pour la plupart des usages. Pour les équipes travaillant régulièrement avec des agents de développement ou de design, ce type de boucle de feedback visuel structuré pourrait accélérer les itérations de manière significative, en réduisant les allers-retours d'éclaircissement. Cette semaine apporte également plusieurs annonces importantes pour l'écosystème IA. Anthropic a annoncé un changement de politique à compter du 15 juin : les utilisateurs de Claude via des outils tiers comme Cursor, Zed ou T3 Code disposeront d'un quota distinct, équivalent en valeur à leur abonnement mensuel, sans report possible ni tokens subventionnés au-delà. En compensation, les limites hebdomadaires augmentent de 50 % pendant les deux prochains mois. Vercel, de son côté, a publié un index de production basé sur l'usage réel de son AI Gateway : Anthropic capte 61 % des dépenses (porté par Opus), Google représente 38 % des volumes de tokens (grâce à Flash), et les workloads agentiques constituent désormais 59 % de la totalité des tokens consommés. Notion a lancé une plateforme développeur avec une API markdown permettant la synchronisation de données externes et l'intégration d'agents comme Claude directement dans l'outil, accompagnée d'un CLI nommé ntn. Google a présenté "Gemini Intelligence" pour Android, incluant l'autocomplétion de formulaires et la transformation de notes vocales en texte structuré, à quelques jours de sa conférence I/O.

OutilsOutil
1 source
Les services financiers face aux exigences de données pour l'IA à base d'agents
439MIT Technology Review 

Les services financiers face aux exigences de données pour l'IA à base d'agents

Plus de la moitié des équipes de services financiers ont déjà déployé ou prévoient de déployer une IA agentique, selon Gartner. Ces systèmes, capables de planifier et d'exécuter des tâches de manière autonome plutôt que de simplement générer des réponses, suscitent un intérêt croissant dans le secteur bancaire et assurantiel. Mais selon Steve Mayzak, directeur général mondial du Search AI chez Elastic, leur succès dépend moins de la sophistication des algorithmes que de la qualité des données sous-jacentes. "Tout commence par les données", résume-t-il. Une étude Forrester révèle pourtant que 57 % des organisations financières sont encore en train de développer les capacités internes nécessaires pour exploiter pleinement ces technologies agentiques. L'enjeu est considérable : une IA agentique amplifie autant les forces que les failles de son infrastructure data. Dans un secteur aussi réglementé, les exigences vont bien au-delà de la simple performance. Les entreprises doivent pouvoir tracer et justifier chaque décision prise par le modèle, données d'entrée comprises. "Il ne suffit pas d'expliquer d'où viennent les données et ce qu'elles sont devenues. Il faut une manière auditable et gouvernable d'expliquer quelle information le modèle a retenue et pourquoi elle était pertinente pour l'étape suivante", insiste Mayzak. Les hallucinations, les réponses incohérentes et les décisions difficiles à retracer minent la confiance des régulateurs, des clients et des équipes internes. Pour les transactions, les signaux de risque, les politiques internes ou l'historique client, la donnée doit être indexée, centralisée et accessible, pas enfouie dans des silos séparés. Le défi est structurel autant que technique. Les données financières existent sous des formats hétérogènes, accumulés sur des décennies d'histoire bancaire, mélangeant données structurées (tableurs, bases transactionnelles) et non structurées (notes de conseillers, échanges clients, documents contractuels). Or le langage naturel est, par nature, bien plus ambigu que les données tabulaires, ce qui rend leur nettoyage et leur organisation particulièrement complexes. Mayzak illustre la difficulté : "Il existe de nombreuses façons de décrire comment exécuter un ordre de bourse dans une banque. Dans un monde piloté par des agents IA, ces descriptions doivent être déterministes, donner le même résultat à chaque fois. Pourtant, on construit sur des modèles puissants mais non déterministes. C'est incroyablement délicat, mais pas impossible." Les prochaines années verront les acteurs financiers investir massivement dans la gouvernance des données, condition sine qua non pour transformer l'IA agentique d'outil prometteur en avantage compétitif réel.

UELes banques et assureurs européens, soumis à l'AI Act et à DORA, doivent impérativement résoudre les défis de gouvernance et d'auditabilité des données pour déployer une IA agentique conforme aux exigences réglementaires.

💬 57% des organisations financières encore en train de "construire les capacités" pour l'IA agentique, c'est beaucoup de retard pour un secteur qui prétend se transformer. L'enjeu soulevé par Mayzak est le bon : tu peux avoir le meilleur modèle du monde, si tes données transactionnelles sont éparpillées en silos depuis 30 ans, l'agent va amplifier le chaos, pas le résoudre. Et la vraie tension, celle qu'on évite de nommer, c'est qu'on veut des résultats déterministes avec des modèles qui ne le sont pas.

InfrastructureOpinion
1 source
Ce que j'ai appris en construisant des systèmes multi-agents de zéro
440InfoQ AI 

Ce que j'ai appris en construisant des systèmes multi-agents de zéro

Paulo Arruda, ingénieur chez Shopify, a retracé l'évolution de l'entreprise dans l'IA lors d'une présentation récente, décrivant un passage des simples outils de chat à un essaim d'agents spécialisés. Shopify a abandonné les prompts massifs "tout-en-un" au profit d'une architecture modulaire, où chaque agent microservice se concentre sur une tâche précise. Ce changement architectural a permis de ramener à quelques minutes des tâches qui prenaient auparavant plusieurs heures. Ce gain de vitesse illustre un changement de paradigme dans l'industrie tech, où les gros prompts génériques cèdent la place à des agents légers et spécialisés. Pour les équipes d'ingénierie, l'architecture "en essaim" offre une meilleure maintenance, une montée en puissance plus agile et une réduction des erreurs dues à la surcharge de contexte. À l'échelle d'une plateforme comme Shopify, qui compte des millions de marchands, ces gains se traduisent directement en avantages compétitifs. Arruda propose également une hypothèse pour régler le problème du "context bloat", la saturation progressive du contexte des modèles : utiliser des adaptateurs basés sur le système de fichiers pour alléger la mémoire active des agents. Cette piste s'inscrit dans un débat plus large sur la scalabilité des systèmes agentiques, alors que l'industrie cherche à industrialiser l'IA générative sans perdre en précision. La standardisation des interfaces entre agents reste le prochain défi à relever pour éviter une fragmentation technique difficile à maintenir.

OutilsOutil
1 source
Des agents avec recherche web grâce à Strands et Exa
441AWS ML Blog 

Des agents avec recherche web grâce à Strands et Exa

AWS a publié une intégration native entre son SDK open source Strands Agents et le moteur de recherche Exa, permettant aux agents IA d'accéder au web en temps réel sans couche de post-traitement. Cette combinaison expose deux outils principaux : exasearch, qui effectue des recherches sémantiques avec prise en charge de catégories comme les articles d'actualité, les publications de recherche ou les dépôts de code, et exaget_contents, qui récupère le contenu complet de pages web ciblées. Le SDK Strands Agents, distribué en open source par AWS, repose sur une architecture pilotée par le modèle : plutôt que de définir des workflows figés, le développeur fournit un modèle de langage, un prompt système et une liste d'outils, puis c'est le modèle lui-même qui décide quels outils appeler, dans quel ordre, et quand la tâche est accomplie. Le SDK embarque déjà plus de 40 outils préconstruits couvrant la gestion de fichiers, l'exécution de code, les API AWS, la mémoire et la recherche web. Pour les développeurs qui construisent des agents dédiés à la veille, à la vérification des faits ou à l'intelligence concurrentielle, cette intégration élimine un obstacle persistant : la plupart des API de recherche généralistes renvoient des pages HTML chargées de balisage et des snippets courts optimisés pour la navigation humaine, ce qui oblige à construire des couches supplémentaires de parsing, de nettoyage et de reclassement avant de pouvoir injecter ces données dans une fenêtre de contexte LLM. Exa résout ce problème à la source en fournissant un contenu propre, structuré et directement exploitable. Concrètement, un agent peut enchaîner plusieurs appels de recherche, accumuler les résultats dans son historique de conversation et raisonner sur l'ensemble pour produire une réponse finale, sans que le développeur n'ait à orchestrer chaque étape manuellement. Exa se distingue des moteurs traditionnels par son approche sémantique : une requête comme "startups développant des solutions climatiques" retourne effectivement des entreprises du secteur, même si leurs pages ne contiennent pas cette formulation exacte, car le moteur travaille sur la similarité de sens plutôt que sur la correspondance de mots-clés. Le SDK supporte également le Model Context Protocol (MCP), ce qui facilite l'ajout de tout nouveau serveur d'outils sans travail d'intégration supplémentaire. L'intégration Exa est disponible via le package strands-agents-tools et s'ajoute à la liste d'outils en une ligne de code. Dans un contexte où les agents IA peinent encore à accéder à des informations récentes et fiables, cette combinaison d'un framework agentique piloté par le modèle et d'un moteur de recherche conçu pour les LLM ouvre des perspectives concrètes pour des cas d'usage comme l'analyse de marché, la recherche documentaire automatisée ou le suivi de l'actualité technologique en temps réel.

OutilsOutil
1 source
Claude sur AWS : toute la plateforme d'Anthropic
442Le Big Data 

Claude sur AWS : toute la plateforme d'Anthropic

Anthropic a annoncé ce 11 mai 2026 que l'intégralité de sa plateforme Claude est désormais accessible directement depuis Amazon Web Services, sous forme de disponibilité générale. Concrètement, les clients AWS peuvent désormais utiliser l'ensemble des fonctionnalités de l'API Claude, Claude Managed Agents pour déployer des agents IA à grande échelle, exécution de code Python via API, recherche web intégrée, et un système de Skills permettant à Claude d'apprendre des comportements ou méthodes de travail spécifiques, sans quitter leur environnement cloud habituel. L'intégration couvre l'authentification IAM, la facturation unifiée AWS, les audits via CloudTrail, et un accès immédiat aux nouvelles fonctionnalités au fil de leur sortie. Jusqu'ici, plusieurs capacités avancées de Claude restaient réservées à l'API native d'Anthropic. Pour les équipes techniques en entreprise, le gain est avant tout opérationnel : plus besoin de gérer des systèmes parallèles de connexion, de facturation ou de permissions. Cette simplification réduit la friction à l'adoption et abaisse la barrière d'entrée pour les organisations déjà investies dans AWS. Anthropic précise toutefois que le traitement des données sur cette plateforme s'effectue en dehors de l'infrastructure AWS classique, une nuance importante pour les entreprises soumises à des contraintes strictes de souveraineté ou de conformité. Pour celles-là, Anthropic maintient une offre distincte via Amazon Bedrock, où AWS reste l'opérateur principal et les données demeurent dans l'infrastructure Amazon, deux positionnements qui ciblent deux profils d'entreprises différents. Cette annonce s'inscrit dans une bataille industrielle plus large où les plateformes cloud sont devenues les principales portes d'entrée de l'IA générative. OpenAI pousse ChatGPT Enterprise, Google multiplie les intégrations Gemini dans son écosystème, Microsoft verrouille ses capacités IA dans Azure, et Anthropic devait muscler son jeu pour ne pas rester un fournisseur de modèles sans ancrage infrastructure. Le partenariat entre Anthropic et Amazon, qui s'est matérialisé par un investissement massif d'Amazon dans Anthropic ces dernières années, trouve ici une nouvelle expression concrète. En intégrant Claude profondément dans AWS, Anthropic gagne en distribution et en crédibilité enterprise, tandis qu'Amazon renforce l'attractivité de son cloud pour les projets IA. La prochaine étape sera de voir si cette intégration accélère effectivement l'adoption de Claude dans les grandes organisations, ou si la question non résolue de la localisation des données freinera les déploiements dans les secteurs les plus régulés.

UELes entreprises européennes sur AWS peuvent désormais accéder à l'ensemble de la plateforme Claude sans friction opérationnelle, mais le traitement des données hors infrastructure AWS standard soulève des questions de conformité pour les secteurs soumis aux exigences de souveraineté numérique de l'UE.

OutilsOpinion
1 source
“Legal AI is dead” : pourquoi LEGORA veut transformer les cabinets d’avocats en organisations pilotées par des agents IA
443FrenchWeb 

“Legal AI is dead” : pourquoi LEGORA veut transformer les cabinets d’avocats en organisations pilotées par des agents IA

Lors d'une conférence londonienne en fin de semaine dernière, Max Junestrand, fondateur et CEO de la startup Legora, a prononcé une phrase provocatrice destinée à marquer les esprits : "Legal AI is dead." Ce n'est pas un aveu d'échec, mais un tournant stratégique assumé : pour Junestrand, la première génération d'intelligence artificielle appliquée au droit a atteint ses limites, et il est temps de passer à autre chose. Ce "autre chose", c'est le modèle des agents IA autonomes. Legora ne veut plus vendre des outils d'assistance aux avocats, mais transformer structurellement les cabinets en organisations pilotées par des agents capables d'agir, de raisonner et d'exécuter des tâches juridiques complexes de façon semi-indépendante. L'impact potentiel est considérable : moins de tâches à faible valeur ajoutée pour les juristes, des délais raccourcis, et une reconfiguration profonde des effectifs et des modèles économiques des cabinets. Ce basculement s'inscrit dans une tendance plus large observée dans tout le secteur tech en 2025, où l'IA "générative" classique cède la place aux systèmes agentiques. Dans le secteur juridique, particulièrement conservateur, la résistance au changement a longtemps freiné l'adoption. Des acteurs comme Harvey AI, Clio ou Robin AI se livrent déjà une concurrence intense sur ce terrain. La déclaration de Legora ressemble à un pari sur la prochaine rupture, et une tentative de capter l'attention avant que la vague agentique ne devienne mainstream.

UELegora, startup européenne (suédoise), porte un projet de transformation structurelle des cabinets d'avocats européens via des agents IA autonomes, ce qui pourrait redéfinir les modèles économiques et les effectifs du secteur juridique en Europe.

💬 Le "Legal AI is dead" c'est du marketing, mais la direction derrière est bonne. Passer du copilote qui suggère à l'agent qui exécute, c'est le seul truc qui peut vraiment faire bouger un secteur aussi figé que le droit. Reste à voir si les cabinets, qui ont mis 10 ans à adopter le mail, vont accélérer cette fois.

OutilsOutil
1 source
9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore
444MarkTechPost 

9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore

En 2026, le développement piloté par les spécifications (SDD pour spec-driven development) s'impose comme une réponse structurelle à un problème croissant dans les équipes de développement augmentées par l'IA : générer du code rapidement ne sert à rien si ce code ne correspond pas aux besoins réels du système. Un classement des neuf outils les plus utilisés pour mettre en oeuvre cette approche met en lumière trois acteurs majeurs. AWS Kiro (kiro.dev) est un IDE agentique qui guide les développeurs en trois phases formalisées, Exigences, Design et Tâches, et produit trois artefacts structurés. Il utilise la notation EARS pour les user stories et un système de hooks événementiels qui déclenchent automatiquement des vérifications (tests, mises à jour de documentation, scans de sécurité) à chaque sauvegarde de fichier. Côté modèles, Kiro s'appuie sur un routeur automatique combinant Claude Sonnet, Qwen, DeepSeek, GLM et MiniMax. GitHub Spec Kit (93 000 étoiles, version 0.8.7 publiée le 7 mai 2026) est l'option open source la plus adoptée, compatible avec plus de 30 agents dont Claude Code, Copilot et Gemini CLI. BMAD-METHOD, lui, orchestre plus de 12 agents spécialisés couvrant l'ensemble du cycle de développement logiciel ; sa version 6.6.0, sortie le 29 avril 2026, totalise 46 700 étoiles et 5 500 forks sur GitHub. L'enjeu central de ces outils est de renverser la logique de travail habituelle : au lieu de coder d'abord et d'affiner ensuite, le développeur formalise son intention en amont, et le code devient une sortie générée à partir de cette spécification. Pour les équipes professionnelles, cela réduit significativement le risque de divergence entre ce qui est produit et ce qui était réellement attendu, un problème qui coûte cher en retours arrière et en dette technique. Kiro s'adresse aux équipes qui veulent un environnement familier (il est construit sur Code OSS), tandis que Spec Kit convient aux équipes souhaitant conserver leur IDE existant. BMAD-METHOD cible des projets plus complexes nécessitant une coordination entre rôles distincts (product management, architecture, QA, etc.). Ce mouvement vers le SDD reflète une maturité croissante dans l'usage de l'IA en développement logiciel. La première vague d'outils misait sur la vitesse brute de génération de code ; la deuxième, celle que ces neuf outils incarnent, mise sur la cohérence et la traçabilité. GitHub a résumé la philosophie de Spec Kit en une formule : le code est désormais la sortie de dernier kilomètre, l'intention est la source de vérité. BMAD introduit avec sa V6 une équipe d'agents multi-plateformes, permettant à la même configuration de fonctionner indifféremment sur Claude Code, Cursor ou Codex. La convergence de ces approches suggère que la prochaine bataille dans les outils de développement ne se jouera pas sur la qualité du code généré, mais sur la qualité des spécifications qui le précèdent.

💬 La première vague d'outils IA misait sur la vitesse brute, et on a tous couru après. Bon, résultat : du code généré en 10 minutes qu'on passe 3 heures à corriger parce que la spec était dans la tête du dev et nulle part ailleurs. Kiro et Spec Kit ne règlent pas tout, mais l'idée de formaliser l'intention avant le code, c'est le truc qu'on aurait dû faire dès le départ.

OutilsOutil
1 source
Codex : l'extension Chrome de l'agent OpenAI
445MarkTechPost 

Codex : l'extension Chrome de l'agent OpenAI

OpenAI a lancé une extension Chrome pour Codex, son agent de codage, disponible sur Mac et Windows. Baptisée Codex by OpenAI (version 1.1.4), elle comble une lacune importante dans l'arsenal de l'agent : accéder à des services web qui exigent une session utilisateur authentifiée. Jusqu'ici, Codex disposait d'un navigateur intégré isolé dans l'application desktop, ainsi que d'une bibliothèque de plugins dédiés pour GitHub, Slack, Figma ou Notion. Mais ces deux approches ne suffisaient pas pour opérer sur LinkedIn, Salesforce, Gmail ou des outils internes d'entreprise, qui nécessitent que l'utilisateur soit connecté avec son profil Chrome réel. L'extension n'est pas encore disponible dans l'Union européenne ni au Royaume-Uni, et fonctionne exclusivement avec Chrome, sans support des navigateurs Chromium alternatifs comme Brave, Edge ou Arc. Cette extension redéfinit concrètement ce qu'un agent IA peut faire dans le quotidien d'un professionnel. Codex peut désormais ouvrir Salesforce et mettre à jour un compte à partir de notes d'appel, consulter des fils LinkedIn, trier des emails Gmail, ou interagir avec des outils internes sans que l'utilisateur ait à exporter ou copier-coller manuellement des données. L'agent sélectionne automatiquement le bon niveau d'outil selon la tâche : les plugins dédiés quand ils existent, l'extension Chrome quand un contexte connecté est nécessaire, le navigateur intégré pour les serveurs locaux et pages publiques. L'utilisateur peut aussi invoquer Chrome directement via la syntaxe @Chrome dans ses prompts. Pour ne pas perturber la session active, Codex opère dans des groupes d'onglets séparés, ce qui lui permet de collecter du contexte et d'agir en parallèle sans interrompre le travail en cours. Cette évolution s'inscrit dans une tendance plus large que OpenAI a observée depuis le lancement de "Computer Use" : la majorité des utilisateurs préfèrent travailler dans un navigateur plutôt que via des API ou des plugins. Les agents IA se heurtaient jusqu'ici à une frontière nette, celle de l'authentification, qui réservait de facto certaines tâches à l'humain. En franchissant cette frontière via le profil Chrome de l'utilisateur, OpenAI déplace la question vers la confiance et les permissions : l'extension demande un accès en lecture et modification sur tous les sites web, l'historique de navigation sur tous les appareils connectés, ainsi que la gestion des téléchargements et des groupes d'onglets. OpenAI précise que Codex applique ses propres mécanismes de confirmation par site et une liste d'autorisation/blocage par-dessus ces permissions Chrome. La prochaine étape logique sera l'extension de cette capacité aux marchés européen et britannique, probablement après un examen de conformité réglementaire.

UEL'extension n'est pas encore disponible dans l'UE ni au Royaume-Uni, excluant temporairement les professionnels européens de cette capacité d'automatisation des outils authentifiés, dans l'attente probable d'un examen de conformité réglementaire.

💬 C'est la barrière qui bloquait vraiment les agents depuis le début. Jusqu'ici, Codex pouvait générer du code, ouvrir des PR, mais dès qu'il fallait toucher Salesforce ou trier des mails, l'humain reprenait la main faute de session authentifiée. Maintenant si, et ça ouvre des automatisations utiles, même si les permissions demandées (lecture-écriture sur tous les sites, historique de navigation complet) méritent qu'on y réfléchisse avant de cliquer Autoriser.

OutilsOutil
1 source
Meta : une IA pourrait bientôt faire votre shopping sur Instagram à votre place
446Le Big Data 

Meta : une IA pourrait bientôt faire votre shopping sur Instagram à votre place

Meta développe activement un agent d'intelligence artificielle autonome, baptisé en interne "Hatch", capable de faire du shopping à la place des utilisateurs directement sur Instagram. Basé sur un modèle appelé Muse Spark, cet agent ne se contente pas de répondre à des questions : il peut naviguer entre applications, comparer des prix, interagir avec des services tiers et finaliser des achats sans intervention humaine. L'information a été rapportée le 8 mai 2026 et confirmée par plusieurs sources proches du dossier. Meta testerait d'ores et déjà Hatch avec des plateformes partenaires comme DoorDash et Reddit, dans l'optique de construire un assistant numérique capable d'opérer sur l'ensemble de son écosystème social. L'enjeu est considérable pour l'industrie du commerce en ligne. Instagram est déjà l'une des plateformes de découverte produits les plus puissantes au monde, combinant algorithmes de recommandation, boutiques intégrées, influenceurs et publicités ultra-ciblées. Y greffer un agent capable d'exécuter un achat de bout en bout transformerait radicalement le parcours consommateur : fini la comparaison manuelle, fini le passage par un site marchand externe. Mais cette efficacité soulève une question de neutralité fondamentale. Meta étant financée à plus de 90 % par la publicité ciblée, un agent d'achat opérant dans cet environnement pourrait structurellement favoriser des produits sponsorisés ou des partenaires commerciaux, sans que l'utilisateur en soit conscient. Déléguer ses décisions d'achat à une IA entraînée dans un système publicitaire revient à confier son portefeuille à un conseiller rémunéré à la commission. Ce projet s'inscrit dans une course aux agents IA qui agite toute la Silicon Valley, mais Meta y arrive avec un retard à combler. L'entreprise a tenté de racheter Manus, startup chinoise spécialisée dans les agents autonomes, pour un montant estimé à près de 2 milliards de dollars. La transaction a été bloquée par les autorités chinoises, forçant Meta à accélérer le développement de ses propres solutions en interne. OpenAI avec Operator, Google avec Project Mariner ou encore Anthropic avec Computer Use ont déjà pris position sur ce segment. Pour Meta, Instagram représente un avantage concurrentiel unique : une base de plus de deux milliards d'utilisateurs actifs, des données comportementales extrêmement fines et une infrastructure commerciale déjà mature. La prochaine étape sera de déterminer si les régulateurs, notamment en Europe, laisseront une plateforme publicitaire piloter des décisions d'achat au nom de ses utilisateurs.

UELes régulateurs européens, notamment via le DSA et l'AI Act, pourraient imposer des obligations strictes de transparence sur un agent d'achat autonome opéré par une plateforme publicitaire dominante comme Meta.

💬 L'idée en elle-même est séduisante, un agent qui fait le tour des applis à ta place et finit par commander. Sauf que Meta vit à 90 % de la pub ciblée, et un conseiller rémunéré à la commission qui gère ton portefeuille, c'est structurellement un problème. Les régulateurs européens vont adorer ce sujet.

OutilsOutil
1 source
CopilotKit lance une plateforme d'intelligence pour entreprises dotant les applications à base d'agents d'une mémoire persistante entre sessions et appareils
447MarkTechPost 

CopilotKit lance une plateforme d'intelligence pour entreprises dotant les applications à base d'agents d'une mémoire persistante entre sessions et appareils

CopilotKit a annoncé son Enterprise Intelligence Platform, une nouvelle couche d'infrastructure managée qui dote les applications agentiques d'une mémoire persistante entre les sessions, les utilisateurs et les appareils. Jusqu'ici, chaque nouvelle session forçait l'agent à repartir de zéro : aucun souvenir des échanges précédents, des workflows en cours ou des décisions déjà prises. Pour contourner ce problème, les équipes de développement devaient construire manuellement leur propre couche de stockage, en choisissant une base de données, en sérialisant l'état applicatif et en gérant les identifiants de session avant même d'écrire la moindre ligne de logique produit. La plateforme résout ce problème en fournissant une infrastructure clé en main, compatible avec n'importe quel framework agentique. Elle peut être auto-hébergée sur Kubernetes, avec une option cloud managée en développement, et répond aux exigences de sécurité enterprise : conformité SOC 2 Type II, intégration SSO, contrôle d'accès par rôles, déploiements hors ligne air-gapped et souveraineté totale des données via une base de données personnalisée. L'élément central de l'architecture est le concept de "Thread" : un objet de session persistant et structuré qui survit aux déconnexions, aux changements d'appareils et aux relances d'agent. Contrairement à un simple historique de messages texte stocké en base, un Thread capture six dimensions de l'interaction : les composants d'interface générés dynamiquement par l'agent, les étapes humaines dans la boucle (approbations, corrections, décisions guidées), l'état partagé entre le backend agentique et le frontend, les entrées et sorties vocales, les fichiers uploadés ou générés, et l'ensemble des interactions multimodales au sein d'un objet unique. Concrètement, un workflow complexe démarré par un collaborateur peut être repris exactement là où il s'était arrêté par un autre membre de l'équipe sur un appareil différent, sans perte d'état ni de contexte. CopilotKit est déjà connu pour son SDK open-source dédié au frontend des agents IA, ainsi que pour l'AG-UI Protocol, un standard ouvert qui connecte les agents aux interfaces utilisateur. Cette plateforme Enterprise ne remplace pas le SDK existant : elle l'enrichit avec la couche d'infrastructure qui lui manquait. L'enjeu est considérable pour l'industrie, car la persistance de l'état est l'un des principaux freins au déploiement en production d'applications agentiques dans les entreprises. Les cas d'usage visés, comme la rédaction collaborative de documents juridiques ou la gestion de pipelines de données en plusieurs étapes, illustrent un marché qui commence à dépasser les chatbots pour entrer dans la logique de workflows longs et critiques. La disponibilité d'une infrastructure standardisée pourrait significativement accélérer cette transition.

UELa plateforme propose des options de souveraineté des données (base de données personnalisée, déploiement air-gapped sur Kubernetes) susceptibles de faciliter la conformité RGPD pour les équipes de développement européennes qui adoptent des architectures agentiques.

OutilsOutil
1 source
Claude d'Anthropic introduit une forme de raisonnement prolongé dans ses agents managés
448Ars Technica AI 

Claude d'Anthropic introduit une forme de raisonnement prolongé dans ses agents managés

Lors de sa conférence développeurs "Code with Claude" à San Francisco, Anthropic a dévoilé une nouvelle fonctionnalité expérimentale baptisée "dreaming" pour ses Claude Managed Agents. Concrètement, ce mécanisme consiste en un processus planifié au cours duquel les sessions récentes et les mémoires stockées sont passées en revue, afin d'identifier et de conserver les informations les plus pertinentes pour les tâches futures. La fonctionnalité est actuellement disponible en préversion de recherche et reste limitée aux Managed Agents de la plateforme Claude. Les Managed Agents constituent une couche de haut niveau au-dessus de l'API Messages d'Anthropic, présentée comme un "harnais d'agent préconfiguré et configurable fonctionnant sur une infrastructure gérée". Ils sont conçus pour les cas d'usage où plusieurs agents collaborent sur un même projet pendant plusieurs minutes ou plusieurs heures. L'intérêt du dreaming réside dans la gestion des fenêtres de contexte, intrinsèquement limitées pour tous les grands modèles de langage : sur des projets longs et complexes, des informations cruciales peuvent tout simplement se perdre au fil des échanges. En sélectionnant intelligemment les souvenirs à conserver, Anthropic cherche à rendre ses agents plus cohérents et plus performants sur la durée. Cette innovation s'inscrit dans un effort plus large de l'industrie pour résoudre le problème de la mémoire dans les systèmes d'IA agentiques. Du côté des interfaces de chat, une technique appelée "compaction" est déjà utilisée par de nombreux modèles : les conversations longues sont périodiquement analysées afin de supprimer les informations non essentielles tout en conservant ce qui importe pour le projet en cours. Le dreaming applique une logique similaire à des agents fonctionnant en autonomie sur plusieurs heures. Anthropic, qui fait face à une concurrence croissante d'OpenAI et de Google sur le segment des agents IA, positionne ainsi la plateforme Claude comme un environnement adapté aux flux de travail longs et complexes que les entreprises cherchent à automatiser.

💬 Le problème de la mémoire dans les agents longs, c'est ce qu'on contourne depuis des mois avec des hacks pas glorieux. Là, Anthropic formalise quelque chose de propre : un processus planifié qui trie et consolide les souvenirs utiles, un peu comme la compaction qu'on a déjà côté chat. Reste en preview et limité aux Managed Agents, donc hors de portée pour la plupart des workflows custom pour l'instant.

Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes
449VentureBeat AI 

Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes

SageOX, une startup de Seattle fondée par des vétérans ayant construit l'infrastructure originale d'AWS EC2 et EBS, est sortie du mode furtif en annonçant un tour de financement de 15 millions de dollars mené par Canaan, avec la participation d'A.Capital, Pioneer Square Labs et Founders' Co-op. L'entreprise, dirigée par Ajit Banerjee, ancien ingénieur chez Hugging Face, Meta, Amazon et Apple, commercialise ce qu'elle appelle une "infrastructure de contexte agentique" : un système conçu pour garder les agents IA aussi informés que les employés humains sur les décisions, discussions et objectifs d'une équipe. La suite produit repose sur deux composants principaux : l'Ox Dot, un petit appareil physique placé dans les espaces partagés qui enregistre réunions et séances de travail d'une simple pression, et l'Ox CLI, un outil en ligne de commande open source sous licence MIT qui permet aux assistants de codage comme Claude Code ou Codex d'interroger la mémoire collective de l'équipe avant d'écrire du code. Le problème que SageOX cherche à résoudre est celui du "drift" des agents, c'est-à-dire leur tendance à s'écarter des intentions réelles de l'équipe parce qu'ils démarrent chaque tâche sans historique ni contexte. Si une équipe décide en réunion d'utiliser un schéma d'authentification précis, l'agent de codage l'ignorera complètement, sauf si quelqu'un le lui précise explicitement dans chaque prompt. L'Ox Dot capture audio, transcrit et identifie les intervenants, puis distille ces échanges en une mémoire d'équipe accessible aux humains et aux agents. Sa fonctionnalité "Auto Rewind" permet même de capturer rétrospectivement une conversation informelle qui s'est tenue sans enregistrement, évitant la perte de décisions prises lors d'échanges spontanés. La commande ox agent prime intègre ensuite cet historique directement dans le contexte de travail des agents. Le problème de l'"ingénierie du contexte" est l'un des défis majeurs non résolus de l'ère agentique. À mesure que les grands fournisseurs de modèles comme OpenAI, Anthropic ou Google descendent dans la chaîne de valeur en proposant leurs propres agents métier, la question de comment équiper ces agents d'un contexte riche et fidèle à la réalité d'une organisation reste entière. SageOX parie que la réponse n'est pas dans le prompt engineering ou la documentation statique, mais dans une couche d'infrastructure dédiée qui capte le contexte là où il se forme naturellement : conversations, tableaux blancs, standups. Ryan Snodgrass, CTO et ancien d'Amazon, pousse même plus loin en remettant en question les principes classiques de gestion de code source, estimant que les historiques "propres" de commits sont souvent contre-productifs pour les agents. La startup s'attaque ainsi à un marché encore peu balisé, à l'intersection de la collaboration d'équipe et de l'orchestration agentique.

OutilsOutil
1 source
Un plan d'action pour utiliser l'IA au service de la démocratie
450MIT Technology Review 

Un plan d'action pour utiliser l'IA au service de la démocratie

Depuis l'invention de l'imprimerie jusqu'à l'essor des médias de masse, chaque révolution de l'information a reconfiguré les formes de gouvernance. Nous entrons aujourd'hui dans une transformation d'une ampleur comparable : l'intelligence artificielle est en train de devenir le principal intermédiaire par lequel les citoyens se forment une opinion et participent à la vie démocratique. Les moteurs de recherche sont déjà largement pilotés par des algorithmes, mais la prochaine génération d'assistants IA ira bien plus loin : elle synthétisera l'information, la mettra en cadre et la présentera avec autorité. Pour un nombre croissant de personnes, interroger une IA deviendra le réflexe par défaut pour se faire une opinion sur un candidat, une loi ou une personnalité publique. Parallèlement, les agents IA personnels commencent à agir au nom de leurs utilisateurs : ils mènent des recherches, rédigent des courriers, soutiennent des causes, et peuvent même orienter des décisions aussi concrètes que le vote sur un référendum ou la réponse à un courrier administratif. Ce double mouvement pose des risques considérables pour les démocraties. L'expérience des réseaux sociaux a déjà montré qu'un algorithme optimisé pour l'engagement, sans agenda politique explicite, peut produire polarisation et radicalisation. Un agent IA qui connaît vos préférences et vos angoisses, conçu pour vous garder actif, expose aux mêmes dérives, avec une subtilité supplémentaire : il se présente comme votre allié, parle en votre nom, et gagne précisément en confiance par cette proximité. À l'échelle collective, les effets deviennent encore plus imprévisibles. Des recherches montrent que des agents individuellement neutres peuvent, en interagissant à grande échelle, générer des biais collectifs. Un espace public où chacun dispose d'un agent personnalisé, parfaitement accordé à ses convictions existantes, n'est plus un espace public : c'est un archipel de mondes privés, chacun cohérent en lui-même, mais collectivement hostile à la délibération partagée qu'exige la démocratie. Cette transformation ne s'annonce pas : elle est déjà en cours, portée par des choix de conception effectués aujourd'hui dans les laboratoires et les départements produit des grandes entreprises technologiques. Les institutions démocratiques ont été conçues pour un monde où le pouvoir se construisait différemment, à une vitesse différente. Trois mutations simultanées les bousculent désormais : la façon dont les citoyens accèdent à la vérité, la façon dont ils exercent leur agentivité civique, et la façon dont se structurent les délibérations collectives. Des acteurs comme Google, OpenAI, Anthropic ou Meta façonnent, souvent sans en avoir pleinement conscience, les nouvelles infrastructures de l'opinion publique. La question n'est plus de savoir si l'IA redéfinira la citoyenneté, mais si les sociétés se donneront les moyens d'en orienter les conséquences avant que les règles du jeu ne soient écrites sans elles.

UELes institutions démocratiques européennes doivent adapter leur cadre réglementaire face aux agents IA qui médiatisent l'opinion publique et risquent de fragmenter la délibération civique des citoyens.

💬 Le problème avec les réseaux sociaux, c'était un algo sans visage qui optimisait dans le vide. Là, c'est un agent qui te connaît, qui parle en ton nom, et qui gagne ta confiance précisément parce qu'il est "de ton côté". C'est une marche de plus, et pas la plus petite.

SociétéOpinion
1 source