Aller au contenu principal

Dossier Agents IA — page 10

1550 articles · page 10 sur 31

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

Google lance Open Knowledge Format et ça secoue déjà le web
451Le Big Data OutilsOutil

Google lance Open Knowledge Format et ça secoue déjà le web

Google Cloud a officialisé le 12 juin 2026 un nouveau format ouvert baptisé Open Knowledge Format, ou OKF, conçu pour que les agents IA puissent naviguer dans les savoirs internes d'une organisation sans se perdre dans des piles de documents mal rangés. L'annonce émane de l'équipe Data Cloud de Google, portée par Sam McVeety et Amir Hormati. Le principe est volontairement simple : chaque connaissance d'une organisation, une définition de métrique, une procédure, la description d'une table de base de données, devient un fichier Markdown accompagné d'un en-tête YAML. Le seul champ obligatoire est le type du document, ce qui limite la lourdeur administrative. Ces fichiers peuvent se référencer mutuellement via des liens ordinaires, transformant un dossier plat en graphe consultable. Google fournit également des outils de démonstration concrets : un agent capable de parcourir un jeu de données BigQuery pour générer automatiquement un fichier par table, ainsi qu'un visualiseur qui transforme l'ensemble en graphe interactif. Le problème que vise OKF est bien réel pour quiconque déploie des agents IA en entreprise aujourd'hui. Un modèle de langage, aussi puissant soit-il en génération, ignore tout du contexte interne d'une organisation : les exceptions à une règle, les multiples acceptions d'un même indicateur selon les équipes, les usages non documentés d'une table de données. Avant de produire quoi que ce soit d'utile, l'agent doit reconstruire ce contexte en fouillant wikis, catalogues, notes et documents partagés. OKF propose une alternative structurée : plutôt qu'un sac de documents déversé en vrac dans le contexte, l'agent reçoit une carte lisible et navigable du savoir interne, et peut trouver la bonne information sans tout ingurgiter d'un coup. Pour les équipes data et les développeurs d'agents, c'est un gain de fiabilité et de précision potentiellement significatif. Google ne prétend pas avoir inventé l'idée de zéro. OKF s'inscrit dans le prolongement direct du concept de « LLM Wiki » popularisé par Andrej Karpathy en avril 2026, qui proposait déjà une base Markdown construite et maintenue par un agent. Depuis, les développeurs avaient commencé à bricoler leurs propres conventions, entre AGENTS.md, CLAUDE.md et bases Obsidian connectées à des LLM, sans standard commun. OKF ambitionne d'être cette convention partagée, permettant aux agents de lire ces wikis de manière interopérable. La version publiée reste une v0.1 explicitement présentée comme un point de départ, et le format ne vise pas le web public ni le référencement naturel : il cible exclusivement les connaissances internes des organisations. La vraie question, désormais, est de savoir si l'écosystème des outils IA adoptera ce standard ou continuera de proliférer en dialectes incompatibles.

1 source
Un concurrent d'OpenClaw fait son apparition
452The Information AI 

Un concurrent d'OpenClaw fait son apparition

Hermes, l'outil d'agent IA développé par Nous Research, vient de dépasser OpenClaw sur un indicateur clé : le nombre de nouveaux contributeurs GitHub au cours des 30 derniers jours, selon les données compilées par ClawCharts, qui suit la croissance des agents IA open source. Ce chiffre reflète l'engagement actif des développeurs autour d'un projet, et le fait qu'Hermes y surpasse OpenClaw constitue un signal notable dans un secteur en pleine ébullition. Comme OpenClaw, Hermes est un logiciel d'agent IA qui s'exécute localement sur l'appareil de l'utilisateur, capable d'automatiser des tâches courantes : rédiger du code, effectuer des recherches web, envoyer des emails ou des messages WhatsApp. Nous Research, fondée en 2023, a levé 70 millions de dollars auprès d'investisseurs tels que Paradigm, OSS Capital et Distributed Global. Ce qui distingue Hermes de ses concurrents, c'est sa capacité à s'améliorer automatiquement au fil du temps. L'agent génère lui-même des "compétences", sortes de fiches mémo décrivant comment accomplir une tâche donnée. Ces instructions sont créées automatiquement lorsqu'une tâche nécessite plus de cinq "appels d'outils" (accès au web, à Gmail, à Discord, etc.) ou lorsque l'agent trouve une solution après plusieurs tentatives infructueuses. Ce mécanisme d'apprentissage autonome pourrait représenter un avantage décisif pour les utilisateurs qui répètent régulièrement les mêmes workflows complexes, sans avoir à configurer manuellement leur agent. OpenClaw avait marqué les esprits en début d'année en s'imposant comme une référence open source dans le domaine des agents IA autonomes. Mais le projet peine encore à franchir le cap d'un outil expérimental pour devenir un logiciel fiable et stable, ce qui ouvre la porte à des alternatives sérieuses. Outre Hermes, d'autres concurrents émergent, comme NemoClaw de Nvidia ou Genspark Claw, chacun cherchant à capter une communauté de développeurs en forte croissance. La bataille pour s'imposer comme standard des agents IA locaux ne fait que commencer, et la dynamique des contributeurs GitHub suggère que la domination d'OpenClaw est loin d'être acquise.

OutilsOutil
1 source
Amazon Bedrock Guardrails : protégez vos applications IA à base d'agents avec l'API InvokeGuardrailChecks
453AWS ML Blog 

Amazon Bedrock Guardrails : protégez vos applications IA à base d'agents avec l'API InvokeGuardrailChecks

Amazon Web Services a annoncé une nouvelle interface de programmation pour son service Amazon Bedrock Guardrails : l'API InvokeGuardrailChecks. Disponible dès à présent, elle permet aux développeurs d'appliquer des contrôles de sécurité individuels à n'importe quel point d'une application d'IA agentique, sans avoir à créer et gérer des ressources de guardrail dédiées en amont. Concrètement, l'API fonctionne en mode détection seule et retourne des scores numériques pour chaque vérification effectuée. Les équipes peuvent ensuite définir leurs propres seuils et décider de bloquer, contourner, relancer ou journaliser les résultats selon leurs besoins spécifiques. Cette annonce répond à un problème concret posé par les agents IA modernes, qui fonctionnent en boucles multi-tours plutôt qu'en simples échanges question-réponse. Une session utilisateur peut enchaîner dix, vingt interactions ou davantage, chacune présentant un profil de risque distinct : injection de prompt à l'entrée, contenu nuisible dans la réponse du modèle, données personnelles exposées dans un message de suivi. Jusqu'ici, sécuriser chaque étape de cette boucle supposait de provisionner des ressources de guardrail séparées pour chaque étape, une complexité opérationnelle qui devient ingérable à mesure qu'une organisation déploie des centaines d'agents. L'API InvokeGuardrailChecks supprime cette friction en offrant un contrôle granulaire, requête par requête, sur les vérifications à activer à chaque tour de boucle, sans identifiant de guardrail à suivre ni version à maintenir. Amazon Bedrock Guardrails existe depuis que l'entreprise a cherché à doter sa plateforme de services IA managés de mécanismes de filtrage du contenu, pour protéger aussi bien les entrées utilisateurs que les sorties des modèles fondamentaux. L'essor des architectures agentiques, où des modèles comme ceux d'Anthropic, Meta ou Mistral orchestrent des outils et prennent des décisions en autonomie, a rendu les approches de sécurité monolithiques insuffisantes. Le nouveau schéma de messages structuré, qui attribue un rôle explicite (système, utilisateur, assistant) à chaque bloc de contenu, permet aux vérifications de prendre en compte le contexte précis de chaque interaction dans la boucle. La prochaine étape pour AWS sera vraisemblablement d'étendre la liste des vérifications supportées et d'intégrer l'API plus étroitement avec les frameworks d'orchestration d'agents comme LangChain ou Amazon Bedrock Agents, alors que la sécurité des systèmes autonomes s'impose comme l'un des défis centraux de l'industrie pour 2026.

UELes développeurs européens utilisant Amazon Bedrock peuvent intégrer dès maintenant ces contrôles de sécurité granulaires dans leurs agents IA, ce qui facilite la conformité aux exigences de supervision humaine et de gestion des risques imposées par l'AI Act.

SécuritéOpinion
1 source
Guide Claude Code 2026 : 25 fonctionnalités avec exemples et démo
454MarkTechPost 

Guide Claude Code 2026 : 25 fonctionnalités avec exemples et démo

Un guide complet des 25 fonctionnalités de Claude Code a été publié à destination des ingénieurs IA, développeurs et data scientists, détaillant comment l'outil d'Anthropic a évolué d'un simple assistant en ligne de commande vers un système agentique structuré en couches. L'outil fonctionne dans le terminal, l'application desktop et les IDE, s'appuyant sur une boucle agentique capable de lire des fichiers, exécuter des commandes, modifier du code et appeler des outils externes. Cette architecture s'articule autour de primitives distinctes : les fichiers CLAUDE.md (constitution du projet lue à chaque session), les skills (fichiers SKILL.md invocables via une commande /nom), les sous-agents (instances spécialisées avec leurs propres fenêtres de contexte), les slash commands intégrées comme /init, /compact ou /review, les hooks (scripts déterministes déclenchés à des points précis du cycle de vie), et les serveurs MCP (Model Context Protocol) pour connecter Claude Code à GitHub, des bases de données ou des navigateurs. Les plugins regroupent l'ensemble en un bundle versionné installable en une commande. S'ajoutent des fonctionnalités comme les checkpoints automatiques avec retour arrière (deux appuis sur Échap), le mode Plan pour explorer sans exécuter, les modes de permission graduables, et Auto Mode, actuellement en aperçu recherche, qui utilise un classifieur Sonnet 4.6 distinct pour évaluer chaque action avant de l'autoriser ou de l'escalader. Pour les équipes techniques, cette architecture en couches change concrètement la manière de travailler sur des projets à long terme. Les sous-agents isolent les tâches verbeuses pour préserver la clarté du contexte principal, tandis que l'Agent SDK expose la même boucle de manière programmatique via query(), permettant d'intégrer /code-review ou d'autres commandes dans des scripts. Le mode headless (claude -p "requête") et l'entrée par pipe (cat logs.txt | claude -p) ouvrent la voie à l'intégration dans des pipelines CI, des jobs planifiés et des hooks pre-commit via GitHub Actions, sans terminal interactif. Ce guide s'inscrit dans une montée en puissance rapide de Claude Code depuis ses débuts expérimentaux. Anthropic a progressivement empilé des couches de contrôle, permissions granulaires, sandboxing, compaction de contexte pour les longues sessions, pour rendre possibles des workflows autonomes sans sacrifier les garde-fous. La concurrence s'est densifiée dans ce segment : GitHub Copilot Agent, Cursor et d'autres environnements agentiques se disputent les workflows des développeurs. Dans ce contexte, Claude Code mise sur la compositionnalité comme avantage différenciant, c'est-à-dire la capacité d'assembler des primitives simples (skills, hooks, MCP, plugins) en systèmes d'ingénierie largement automatisés, adaptés aux équipes qui veulent dépasser l'autocomplétion pour atteindre une véritable délégation de tâches.

OutilsOutil
1 source
Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références
455MarkTechPost 

Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références

Microsoft a publié SkillOpt, un framework open source conçu pour optimiser automatiquement les "skills", des prompts structurés qui guident le comportement des modèles de langage. Un tutoriel de référence détaille son implémentation complète sur le benchmark SearchQA, un jeu de questions-réponses fondé sur des extraits de documents. Le pipeline utilise GPT-4o comme modèle optimiseur et GPT-4o-mini comme modèle cible, en s'appuyant sur l'API OpenAI via une compatibilité Azure. Le workflow d'optimisation enchaîne six étapes distinctes : rollout (génération de réponses), reflection (analyse des erreurs), aggregation (consolidation des observations), selection (choix des meilleures améliorations), updating (réécriture du prompt) et validation-based gating (validation avant d'accepter chaque nouvelle version du skill). Le tutoriel tourne avec un échantillon limité à 24 exemples, sur deux epochs avec des batchs de 8, pour contenir les coûts en tokens. Ce que rend possible SkillOpt est significatif : plutôt que d'ajuster les poids d'un modèle par entraînement classique, coûteux et nécessitant des GPU, il optimise uniquement le texte du prompt par itération automatique. Cela permet à n'importe quel développeur d'améliorer les performances d'un modèle sur une tâche précise sans toucher à l'infrastructure d'entraînement. L'outil mesure l'évolution de la précision en "hard accuracy" et "soft accuracy" à chaque cycle, offre un suivi de l'usage cumulatif en tokens, et visualise l'historique des modifications du skill. Cette transparence donne aux équipes un contrôle fin sur le compromis entre coût et gain de performance, un avantage concret pour les produits IA en production. SkillOpt s'inscrit dans une tendance plus large portée par Microsoft Research : l'optimisation automatique de prompts, parfois appelée "prompt engineering automatisé" ou APO (Automatic Prompt Optimization). Des travaux antérieurs comme DSPy de Stanford ou ProTeGi avaient ouvert cette voie, mais SkillOpt mise sur une architecture modulaire et une compatibilité avec les backends Azure OpenAI et OpenAI standard pour maximiser l'adoption en entreprise. La publication du code sur GitHub sous forme de dépôt clonable avec dépendances pip illustre la volonté de Microsoft d'ancrer cet outil dans les workflows MLOps existants. L'enjeu à terme est d'industrialiser l'amélioration continue des agents IA sans intervention humaine à chaque itération, une capacité qui deviendra centrale à mesure que les entreprises déploient des systèmes LLM à grande échelle.

UELes équipes IA européennes déployant des agents LLM sur Azure OpenAI peuvent adopter SkillOpt pour automatiser l'amélioration continue de leurs prompts sans coûts d'entraînement supplémentaires.

OutilsOutil
1 source
OpenAI prépare une refonte majeure de ChatGPT
456Ars Technica AI 

OpenAI prépare une refonte majeure de ChatGPT

OpenAI prépare la refonte la plus ambitieuse de ChatGPT depuis son lancement en novembre 2022. L'entreprise, valorisée à 850 milliards de dollars, entend transformer son chatbot phare en une "superapp" intégrant des outils de programmation, des agents IA autonomes et d'autres produits capables de générer davantage de revenus. Cette réorganisation majeure a été confirmée par plus d'une douzaine d'employés actuels et anciens de la société basée à San Francisco. L'enjeu est directement commercial : OpenAI cherche de nouveaux moteurs de croissance avant une introduction en Bourse prévue cette année. La direction mise sur les clients entreprises, un segment jugé bien plus lucratif que les abonnements grand public, et réoriente ses ressources en conséquence. Le pivot vers une superapp vise à faire de ChatGPT un outil de travail quotidien pour les professionnels, et non plus seulement un assistant conversationnel. Cette transformation s'inscrit dans une concurrence de plus en plus intense avec Anthropic, dont l'assistant Claude gagne rapidement du terrain auprès des entreprises. OpenAI, qui a longtemps dominé le marché grâce à l'effet de surprise de ChatGPT, doit désormais se battre sur le terrain de la productivité professionnelle et de l'automatisation. La course à l'IPO ajoute une pression supplémentaire : les investisseurs attendent une démonstration claire que le modèle économique peut tenir à grande échelle, au-delà de la seule notoriété du produit.

UELes professionnels et entreprises européens utilisant cet assistant au quotidien verront leur outil évoluer vers une superapp professionnelle intégrée, ce qui pourrait modifier leurs décisions d'adoption ou de migration vers des alternatives.

Microsoft Discovery en disponibilité générale sur Azure, alimentant l'IA à base d'agents de la puce quantique Majorana 2
457InfoQ AI 

Microsoft Discovery en disponibilité générale sur Azure, alimentant l'IA à base d'agents de la puce quantique Majorana 2

Microsoft a annoncé la disponibilité générale de Microsoft Discovery, sa plateforme Azure dédiée au déploiement d'équipes d'agents IA autonomes pour la recherche scientifique. C'est cette même plateforme qui a piloté le développement de Majorana 2, une puce quantique topologique affichant une fiabilité multipliée par 1 000 par rapport aux générations précédentes, avec des durées de vie de qubits atteignant 20 secondes. Microsoft fixe désormais à 2029 l'horizon d'un ordinateur quantique opérationnel à grande échelle, soit deux fois plus tôt que son calendrier initial. L'enjeu est considérable : un ordinateur quantique suffisamment fiable permettrait de résoudre des problèmes inaccessibles aux supercalculateurs classiques, notamment en chimie moléculaire, en cryptographie ou en optimisation logistique. En mettant ses agents IA au service de la conception de hardware quantique, Microsoft franchit une étape symbolique forte : l'IA ne se contente plus d'assister les chercheurs humains, elle orchestre elle-même des cycles d'expérimentation scientifique bout en bout. La course au quantique s'intensifie avec Google, IBM et plusieurs startups comme IonQ ou PsiQuantum comme principaux concurrents. Microsoft mise sur une architecture topologique reposant sur les qubits de Majorana, jugés intrinsèquement plus stables que les qubits supraconducteurs privilégiés par ses rivaux. La combinaison de cette approche matérielle distinctive et d'une plateforme IA agentique directement accessible sur Azure positionne Microsoft comme un acteur à double avantage dans la prochaine phase de la compétition quantique mondiale.

UELa disponibilité sur Azure en Europe donne aux laboratoires et entreprises de recherche de l'UE un accès à cette plateforme d'IA agentique pour la recherche scientifique, sans impact réglementaire ou institutionnel direct pour la France.

InfrastructureActu
1 source
ChatGPT : OpenAI prépare sa plus grande transformation depuis son lancement
458Le Big Data 

ChatGPT : OpenAI prépare sa plus grande transformation depuis son lancement

OpenAI prépare une refonte profonde de ChatGPT, son assistant conversationnel lancé en novembre 2022, avec l'ambition de le transformer en une "super-application" multifonction. Selon des informations publiées début juin 2026, la plateforme ne se limiterait plus à la conversation textuelle mais intégrerait de manière renforcée des outils de génération d'images, des capacités d'agents IA autonomes capables d'exécuter des tâches complexes, et des partenariats approfondis avec des services tiers comme Canva ou Booking.com. L'outil de codage Codex, déjà lancé par OpenAI, serait également mis davantage en avant dans cette nouvelle architecture. L'objectif déclaré : faire de ChatGPT un point d'entrée unique pour une large palette d'usages numériques, du travail créatif au développement logiciel en passant par la planification de voyages. Cette transformation répond à une logique économique autant que technologique. Les entreprises représentent déjà près de 40 % des revenus d'OpenAI, et la société vise à accroître cette proportion dans les prochains mois. En centralisant davantage de services au sein d'une seule plateforme, OpenAI espère augmenter l'engagement des utilisateurs professionnels, généralement plus disposés à payer pour des outils qui leur font gagner du temps. Codex, l'assistant dédié au développement informatique, illustre cette stratégie : il gagne rapidement du terrain auprès des développeurs, un segment à forte valeur monétisable. Pour les utilisateurs grand public, l'intégration de partenaires comme Booking.com ou Canva pourrait réduire le besoin de passer d'une application à l'autre, augmentant ainsi la durée et la fréquence d'utilisation de ChatGPT. Cette évolution s'inscrit dans un contexte de concurrence IA intense. Google avec Gemini, Anthropic avec Claude, Meta avec ses modèles open-source et des dizaines de startups se disputent le même espace. OpenAI, valorisé à plus de 300 milliards de dollars lors de sa dernière levée de fonds en 2025, doit justifier cette valorisation auprès d'investisseurs qui attendent une croissance des revenus récurrents, notamment en vue d'une introduction en bourse anticipée. La stratégie de la super-application n'est pas nouvelle dans la tech : WeChat en Chine a démontré qu'un écosystème fermé et centralisé peut générer une dépendance utilisateur extrêmement rentable. Pour OpenAI, l'enjeu est de réussir cette transition sans aliéner sa base d'utilisateurs actuels, habitués à un outil simple et direct, tout en convainquant les entreprises partenaires que l'intégration dans l'écosystème ChatGPT vaut l'investissement.

UELe partenariat avec Booking.com (Amsterdam) illustre l'intégration d'acteurs européens dans l'écosystème ChatGPT, mais l'impact direct sur les entreprises françaises ou les régulations européennes reste diffus.

💬 La stratégie super-application, c'est le WeChat playbook appliqué à l'IA, et sur le papier ça tient la route. Ce qui m'intéresse vraiment là-dedans, c'est moins Booking.com que Codex : si les devs adoptent massivement l'outil, OpenAI touche le segment le plus monétisable qui soit. Reste à voir si les utilisateurs lambda voudront bien troquer la simplicité actuelle contre une plateforme fourre-tout.

OutilsOpinion
1 source
Meta lance Hatch, son premier agent IA payant, jusqu'à 200 dollars par mois
459The Decoder 

Meta lance Hatch, son premier agent IA payant, jusqu'à 200 dollars par mois

Meta prépare un agent IA payant baptisé "Hatch", dont le prix pourrait atteindre 200 dollars par mois. Il s'agirait du premier produit IA payant de l'entreprise, marquant un tournant dans sa stratégie commerciale. Concrètement, l'utilisateur décrit ses besoins en langage courant, et Hatch se charge du reste : créer des outils fonctionnels, planifier des rendez-vous, envoyer des e-mails. Le produit se positionne comme un assistant autonome capable d'agir, et non simplement de répondre. Pour Meta, l'enjeu est considérable. La société, dont l'essentiel des revenus provient de la publicité, cherche à diversifier ses sources de revenus alors qu'elle investit des dizaines de milliards de dollars dans l'infrastructure IA. Un abonnement à 200 dollars par mois cible clairement les professionnels et les entreprises prêts à payer pour gagner en productivité. Si Hatch trouve son marché, il pourrait offrir à Meta un flux de revenus récurrent, plus prévisible que les recettes publicitaires soumises aux cycles économiques. Mark Zuckerberg mise depuis plusieurs années sur l'IA comme axe de transformation de Meta, après avoir englouti des milliards dans le métavers avec des résultats décevants. L'essor des agents IA capables d'effectuer des tâches complexes de façon autonome est devenu le nouveau terrain de compétition entre les géants technologiques. OpenAI, Google et Anthropic ont tous lancé ou annoncé des offres similaires. Avec Hatch, Meta entre directement dans ce marché premium des agents IA, là où les marges sont potentiellement bien plus élevées que dans la publicité classique.

UELes professionnels et PME européens, notamment français, seront concernés par cette offre payante dès son déploiement en Europe, dans un contexte où Meta est déjà soumis à l'AI Act et au DMA.

💬 200 dollars par mois, de la part de la boîte qui t'a habitué au tout-gratuit depuis 20 ans, c'est un vrai pivot. Bon, sur le papier, les agents autonomes OpenAI et Anthropic font ça depuis un moment, donc Meta ne révolutionne rien. Ce qui est intéressant, c'est que Zuckerberg reconnaît enfin que la pub seule ne remboursera pas ses 60 milliards investis dans l'IA.

OutilsOutil
1 source
Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)
460Ahead of AI 

Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)

Un chercheur et auteur spécialisé dans l'IA a publié sa liste de référence des articles de recherche sur les grands modèles de langage pour la période de janvier à mai 2026, dans la continuité d'un exercice similaire mené tout au long de 2025. La sélection, organisée en dix catégories, couvre l'architecture et la conception des modèles, l'entraînement efficace, l'inférence et le cache KV, l'attention sparse et les longs contextes, le raisonnement et le calcul au moment du test, l'apprentissage par renforcement (RLVR), les systèmes d'agents et l'utilisation d'outils, les agents de codage, les modèles de langage par diffusion, ainsi que l'évaluation et les benchmarks. Parmi les publications phares, Nemotron 3 Super de NVIDIA est cité comme lecture incontournable : ce modèle de 120 milliards de paramètres actifs (architecture 120B-A12B) adopte un design hybride alternant couches d'attention classiques et couches Mamba-2, ce qui le rend particulièrement efficace sur les très longs contextes. Une version allégée, Nemotron 3 Nano (4 milliards de paramètres), est également disponible pour l'inférence locale sur du matériel grand public. Ce recensement illustre une tendance lourde de 2026 : la recherche en LLM ne se limite plus à empiler davantage de paramètres dans des architectures transformer classiques. Les travaux se concentrent désormais sur l'efficacité à l'inférence, la gestion des longs contextes et l'intégration dans des systèmes agentiques complexes. L'émergence de harnais d'agents comme OpenClaw force les modèles à traiter des contextes de plus en plus étendus, ce qui fait de l'efficacité mémoire et de la vitesse d'inférence des priorités absolues pour les équipes de recherche comme pour les équipes produit. Pour les développeurs et les entreprises qui déploient ces modèles en production, ces publications constituent une feuille de route pratique des techniques qui passent du laboratoire au monde réel. La publication de telles listes annotées répond à un besoin concret dans un domaine où des dizaines d'articles paraissent chaque jour sur arXiv. En 2025, les préoccupations dominantes portaient sur les modèles de raisonnement et le reinforcement learning ; en 2026, elles s'élargissent aux architectures hybrides (Arcee Trinity, Mamba-3), à l'allocation de capacité dans les modèles mixture-of-experts, aux modèles de langage par diffusion et à l'infrastructure de déploiement à grande échelle. Ce glissement reflète la maturité croissante du secteur, qui passe de la course pure aux performances à la maîtrise des coûts opérationnels et à la fiabilité des systèmes en production. La deuxième moitié de 2026 devrait voir une accélération sur les agents autonomes et les architectures hybrides, deux axes qui concentrent actuellement l'essentiel de l'attention de la communauté de recherche.

💬 Ce genre de synthèse annotée, ça mérite d'être bookmarqué tout de suite. Le vrai signal de 2026, c'est le glissement : on ne court plus après les paramètres bruts, on court après l'efficacité mémoire et l'inférence rapide, ce qui est exactement ce que les déploiements en prod réclamaient depuis deux ans. Nemotron 3 avec son hybride Mamba-2, c'est le genre de truc qu'on surveillait depuis un moment.

RecherchePaper
1 source
Les équipes platform chez LinkedIn déploient MCP et outils multi-agents à grande échelle
461InfoQ AI 

Les équipes platform chez LinkedIn déploient MCP et outils multi-agents à grande échelle

Karthik Ramgopal et Prince Valluri, ingénieurs chez LinkedIn, ont présenté leur approche pour déployer l'intelligence artificielle à grande échelle au sein d'une organisation de plusieurs milliers de développeurs. Plutôt que de laisser chaque équipe construire ses propres solutions en silo, ils ont mis en place une couche d'abstraction commune reposant sur le protocole MCP (Model Context Protocol) pour orchestrer des agents, structurer le contexte et sécuriser l'accès aux outils internes. Cette architecture a permis de déployer concrètement trois types d'agents en production : des agents de génération de code, des agents d'observation système et des agents de test d'interface utilisateur. L'enjeu est considérable pour les grandes entreprises technologiques : sans infrastructure partagée, chaque équipe réinvente la roue et les agents IA restent des expérimentations isolées sans impact à l'échelle. En centralisant l'orchestration et la gestion du contexte via une plateforme commune, LinkedIn parvient à transformer l'IA en véritable moteur d'exécution engineering, capable d'automatiser des tâches complexes comme les tests UI ou la surveillance de systèmes distribués, avec des garanties de sécurité homogènes. Cette initiative s'inscrit dans une tendance de fond : les grandes entreprises tech passent du stade des prototypes d'agents IA à celui des déploiements industriels, ce qui exige des équipes plateformes dédiées. Le protocole MCP, porté initialement par Anthropic et rapidement adopté par l'industrie, s'impose comme standard d'interopérabilité entre agents et outils. LinkedIn, filiale de Microsoft, bénéficie par ailleurs d'un accès privilégié aux modèles GPT-4o via Azure, ce qui accélère ces expérimentations à une échelle que peu d'entreprises peuvent atteindre.

UELes équipes d'ingénierie européennes peuvent s'inspirer de cette architecture MCP pour structurer leurs propres déploiements d'agents IA à l'échelle, le protocole MCP s'imposant comme standard industriel d'interopérabilité.

💬 MCP en prod chez LinkedIn sur des milliers de devs, c'est le signal qu'on attendait pour que le protocole bascule vraiment en standard industriel. Ce qui est intéressant là-dedans, c'est pas la tech en elle-même (Anthropic a bien bossé le design), c'est l'architecture plateforme : une couche commune au lieu que chaque équipe réinvente ses propres outils d'orchestration dans son coin. Reste à voir ce que ça donne pour les boîtes qui n'ont pas Azure et GPT-4o derrière.

InfrastructureOpinion
1 source
The Download : le piratage par IA dépasse Mythos, et l'effet des chatbots sur le cerveau
462MIT Technology Review 

The Download : le piratage par IA dépasse Mythos, et l'effet des chatbots sur le cerveau

Des attaquants ont exploité lundi l'agent IA de support client de Meta pour voler des comptes Instagram : ils ont simplement demandé au système de lier les comptes visés à des adresses e-mail sous leur contrôle, et l'agent a obtempéré. Cette attaque basique mais efficace survient alors que les débats en cybersécurité se concentraient jusqu'ici sur des menaces bien plus sophistiquées, notamment depuis qu'Anthropic a annoncé que son modèle Mythos se montrait trop performant en piratage pour être diffusé au grand public. Pendant ce temps, Anthropic a publiquement appelé à un ralentissement mondial du développement de l'IA, citant les risques d'auto-amélioration des modèles et demandant un plan coordonné au niveau international. Autre signal fort : selon Cloudflare, le trafic web généré par des bots a pour la première fois dépassé celui des humains, atteignant 57,4 % du total, un cap que le PDG de l'entreprise n'anticipait pas avant fin 2027. Le piratage des comptes Instagram illustre une réalité que l'industrie préfère souvent ignorer : à mesure que les entreprises délèguent davantage de tâches à des agents IA, des attaques comparativement rudimentaires deviennent des vecteurs d'exploitation redoutables. Par ailleurs, Gloria Mark, psychologue à l'Université de Californie à Irvine, alerte sur un autre type de dommage collatéral : ses recherches montrent que les technologies numériques ont déjà considérablement réduit les capacités d'attention, générant davantage de stress et affaiblissant les performances. Elle craint que des outils comme ChatGPT ou Claude n'accélèrent ce glissement. « Vous déléguez votre travail cognitif à l'IA, et ce n'est pas bon pour nous », résume-t-elle, évoquant une érosion de la pensée critique et de l'intelligence émotionnelle. La bonne nouvelle : elle estime que cette trajectoire peut encore être corrigée. Ces événements s'inscrivent dans un contexte de montée en puissance des enjeux de gouvernance de l'IA à l'échelle mondiale. Aux États-Unis, des responsables gouvernementaux ont discuté de la possibilité pour l'État de prendre des participations financières dans des entreprises d'IA, une idée que Sam Altman aurait lui-même soumise à la Maison-Blanche l'année dernière. La Maison-Blanche envisage également d'intégrer des IA médicales pour diagnostiquer des maladies et prescrire des traitements, malgré l'absence de preuves solides sur leur efficacité clinique réelle. Le Canada a de son côté lancé sa stratégie nationale IA, avec plus de 2 milliards de dollars de financement et un objectif de 250 000 emplois créés. En Corée du Sud, le ministre du Travail pousse les entreprises technologiques à partager les profits générés par l'IA avec leurs salariés et fournisseurs, un débat qui avait déjà failli déclencher une grève massive chez Samsung. L'IA reconfigure simultanément les infrastructures numériques, les économies et les cerveaux humains, souvent plus vite que les institutions ne peuvent y répondre.

UEL'appel d'Anthropic à un ralentissement mondial du développement de l'IA pourrait influencer le calendrier d'application de l'AI Act européen, tandis que le dépassement du trafic humain par les bots (57,4 %) concerne directement les infrastructures numériques et la cybersécurité européennes.

💬 On s'inquiétait de Mythos, le modèle trop fort en hacking pour être publié, et pendant ce temps quelqu'un a juste demandé poliment à l'agent Meta de lier des comptes Instagram à ses propres adresses mail. C'est ça le vrai risque des agents IA : pas les scénarios de science-fiction, mais l'absence de garde-fous sur des actions basiques que n'importe quel humain refuserait. Reste à voir combien d'entreprises vont continuer à déployer des agents sans politique d'autorisation sérieuse.

SécuritéActu
1 source
OpenAI : Sam Altman voit l'IA proactive comme la prochaine grande étape après les chatbots et les agents
463The Decoder 

OpenAI : Sam Altman voit l'IA proactive comme la prochaine grande étape après les chatbots et les agents

Sam Altman, PDG d'OpenAI, a esquissé sa vision de la prochaine grande étape de l'intelligence artificielle : une "IA proactive" capable d'agir de manière autonome en arrière-plan, sans attendre qu'un utilisateur lui soumette une requête. Contrairement aux chatbots actuels, qui répondent à des questions ponctuelles, ou aux agents IA, qui exécutent des tâches déclenchées par l'humain, cette nouvelle génération d'outils surveillerait en continu l'environnement de travail et prendrait des initiatives de façon indépendante. Altman a également promis d'aider les entreprises à "obtenir plus de valeur pour moins de dépenses", au moment où les budgets IA explosent dans les organisations. Cette vision répond à deux problèmes concrets que rencontrent actuellement les entreprises : la flambée des coûts liés au déploiement de l'IA à grande échelle, et le fait que la majorité des employés ne savent tout simplement pas quoi demander à ces outils. Une IA qui agit sans être sollicitée pourrait contourner ce frein à l'adoption, en rendant les bénéfices accessibles même aux utilisateurs non techniques. L'enjeu est considérable : transformer l'IA d'un outil optionnel en infrastructure permanente du travail quotidien. Ce positionnement s'inscrit dans une course intense entre les grands acteurs du secteur. Google, Microsoft et Anthropic développent tous des systèmes d'agents et d'automatisation de plus en plus autonomes. La promesse d'une IA proactive soulève néanmoins des questions sérieuses sur la supervision humaine, la confidentialité des données et la responsabilité des décisions prises sans intervention humaine, des enjeux que l'industrie devra adresser pour convaincre les entreprises d'aller plus loin.

UELes entreprises européennes devront anticiper des enjeux de conformité RGPD et AI Act face à des systèmes IA agissant en arrière-plan sans déclenchement humain explicite.

LLMsOpinion
1 source
Accenture investit dans AlphaSense pour accélérer l’IA agentique en entreprise
464Le Big Data 

Accenture investit dans AlphaSense pour accélérer l’IA agentique en entreprise

Accenture a annoncé le 3 juin 2026 un investissement dans AlphaSense, plateforme américaine spécialisée dans l'intelligence de marché, simultanément à la clôture d'une levée de fonds de 350 millions de dollars qui valorise la startup à 7,5 milliards de dollars. Le tour de table a été mené par Vitruvian Partners, avec la participation d'Accenture Ventures, J.P. Morgan Growth Equity Partners, D.E. Shaw Ventures et Pinegrove. AlphaSense revendique aujourd'hui plus de 7 000 clients dans le monde, dont 90 % des entreprises du S&P 100, l'ensemble des grandes banques d'investissement mondiales et 92 % des cinquante plus grands groupes pharmaceutiques. La plateforme a franchi le cap des 600 millions de dollars de revenus annuels récurrents, et vient d'être reconnue comme leader dans le premier Magic Quadrant de Gartner consacré aux plateformes de veille concurrentielle et de marché. L'enjeu du partenariat dépasse le simple investissement financier : Accenture et AlphaSense entendent intégrer les capacités analytiques de la plateforme dans les opérations quotidiennes des grandes entreprises via des workflows d'IA agentique. AlphaSense s'appuie sur plus de 500 millions de documents professionnels, rapports financiers, publications réglementaires, études d'analystes, entretiens d'experts, que des modèles d'IA spécialisés peuvent interroger pour produire des recommandations exploitables en temps réel. L'objectif concret est d'automatiser l'exploitation de l'information afin d'accélérer les décisions stratégiques, dans des secteurs où la rapidité d'analyse est directement liée à la compétitivité : services financiers, sciences de la vie, santé, énergie et technologie. Cet investissement s'inscrit dans une stratégie plus large d'Accenture pour industrialiser l'usage de l'IA en entreprise. Selon une étude interne du cabinet, 78 % des dirigeants considèrent désormais l'IA davantage comme un levier de croissance des revenus que comme un outil de réduction des coûts, un changement de paradigme qui déplace la valeur vers la capacité à transformer des données massives et dispersées en décisions opérationnelles. AlphaSense se positionne précisément à cet endroit, à la jonction entre la veille stratégique et l'automatisation des processus, dans un marché où les grands acteurs du conseil cherchent à ancrer leurs clients dans des solutions propriétaires avant que la prochaine vague d'agents IA ne redessine les usages.

UEVitruvian Partners, fonds d'investissement européen, est le principal meneur du tour de table, et les grandes entreprises européennes clientes d'Accenture dans les secteurs financier et pharmaceutique seront parmi les premières exposées à ces workflows d'IA agentique.

BusinessActu
1 source
Meta lance Business Agent pour automatiser les ventes et le support client
465Le Big Data 

Meta lance Business Agent pour automatiser les ventes et le support client

Meta a annoncé le 3 juin 2026 le lancement de Business Agent, un assistant conversationnel alimenté par l'intelligence artificielle conçu pour automatiser les ventes, le support client et certaines tâches opérationnelles sur WhatsApp, Messenger et Instagram. Le groupe déploie également une infrastructure associée, baptisée plateforme Meta Business Agent, qui permet aux entreprises de créer et personnaliser leurs propres agents IA connectés à des outils tiers comme Shopify, Zendesk ou Shopee. Dès le lancement, plus d'un million d'entreprises ont accès à ce dispositif via les canaux de messagerie de Meta. Le déploiement commence gratuitement, avec des formules payantes annoncées pour les prochains mois, adaptées à différentes tailles de structures, des PME aux grands groupes. Avec plus d'un milliard de conversations quotidiennes entre entreprises et consommateurs sur ses plateformes, Meta transforme ces échanges en interfaces commerciales actives. Business Agent peut répondre aux demandes clients, recommander des produits, qualifier des prospects, prendre des rendez-vous et conclure des ventes, tout en s'adaptant à la langue et au ton propre à chaque marque. Contrairement aux chatbots traditionnels limités à des scénarios fixes, cet agent suit une logique d'exécution multi-tâches au sein d'une même conversation, avec la possibilité pour les entreprises de définir à quel moment un collaborateur humain doit reprendre la main. En interne, l'outil génère également des résumés des conversations manquées et des analyses des interactions récentes, réduisant la charge opérationnelle liée aux échanges répétitifs. Cette offensive s'inscrit dans une course accélérée entre les grandes plateformes technologiques pour monétiser leurs audiences via des agents IA. Meta, fort d'une base d'utilisateurs sans équivalent sur la messagerie mondiale, cherche à convertir cette présence en infrastructure commerciale incontournable pour les entreprises. La plateforme concurrence directement des solutions comme Google Business Messages ou les intégrations Salesforce Einstein, en misant sur la simplicité de déploiement et l'ubiquité de WhatsApp, dominant dans de nombreux marchés hors États-Unis. À terme, Meta prévoit d'étendre les capacités de Business Agent à la veille concurrentielle, aux études de marché, à la gestion d'agenda et à l'analyse de données produits, positionnant progressivement cet outil comme un assistant stratégique complet pour les équipes commerciales et marketing.

UELes entreprises françaises utilisant WhatsApp Business, très répandu en France et en Europe, peuvent désormais déployer des agents IA pour automatiser leur service client et leurs ventes directement dans leurs canaux de messagerie existants.

OutilsOutil
1 source
NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
466NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

RobotiqueOpinion
1 source
Amazon Quick au service de la recherche sur les cancers rares : intégration de bases de données biomédicales
467AWS ML Blog 

Amazon Quick au service de la recherche sur les cancers rares : intégration de bases de données biomédicales

Amazon a lancé Amazon Quick Research, un environnement de recherche unifié intégré à sa plateforme Amazon Quick, conçu pour accélérer l'analyse de données biomédicales fragmentées dans des domaines comme la cancérologie rare. L'outil combine des bases de données publiques, PubMed, ClinicalTrials.gov, des revues en accès libre, avec des fichiers internes (PDF, Word, Excel, CSV, JSON et une dizaine d'autres formats) au sein d'espaces de travail appelés Spaces, capables d'indexer jusqu'à 10 000 fichiers. Un agent orchestre la récupération multi-sources, décompose automatiquement une question de recherche en sous-thèmes, génère un plan d'investigation révisable avant exécution, puis produit un rapport structuré avec citations traçables jusqu'à la source. Les rapports sont exportables en PDF ou en Word, et un système de versioning permet d'annoter des passages spécifiques (jusqu'à 400 caractères par commentaire) pour déclencher des révisions ciblées qui incrémentent le numéro de version tout en conservant les versions antérieures. La démonstration publiée par AWS s'appuie sur le sarcome pédiatrique comme domaine d'application. L'enjeu principal est celui du temps perdu avant même que l'analyse commence. En cancérologie rare, les données sont aujourd'hui dispersées entre des pipelines de séquençage génomique, des registres d'essais cliniques, des référentiels de biomarqueurs et la littérature scientifique, des systèmes cloisonnés qui nécessitent habituellement des semaines de travail pour construire les pipelines ETL, réconcilier les schémas et interroger chaque source manuellement. Amazon Quick Research court-circuite cette étape en ingérant et indexant ces sources dès la création du projet, puis en synthétisant les résultats via un grand modèle de langage qui génère des conclusions avec leurs chaînes de preuve exposées via la fonctionnalité "Understand the statement". Pour les chercheurs, le gain est surtout sur la phase de revue de littérature et d'intégration de données, au bénéfice du temps consacré à l'analyse elle-même. Cette annonce s'inscrit dans la tendance plus large des agents IA appliqués à la recherche scientifique, où les grandes plateformes cloud cherchent à se positionner sur le marché des outils d'accélération biomédicale. AWS rejoint ainsi des acteurs comme Elsevier, Semantic Scholar ou plusieurs startups spécialisées qui proposent des outils comparables de synthèse de littérature. Amazon Quick Research reste un service payant avec facturation à l'usage, ce qui limite son accessibilité aux équipes académiques aux budgets serrés. Les développements probables incluent l'intégration de sources propriétaires, de bases cliniques sécurisées conformes au HIPAA, et potentiellement des connecteurs vers des entrepôts de données génomiques comme TCGA ou GEO, des ajouts qui étendraient considérablement la portée de l'outil dans un contexte où l'IA appliquée à l'oncologie de précision connaît une expansion rapide.

UELes chercheurs en oncologie rare en France et en Europe pourraient réduire le temps consacré à l'intégration de données biomédicales fragmentées, bien que la tarification à l'usage constitue un obstacle pour les équipes académiques aux budgets contraints.

OutilsOutil
1 source
Sécuriser les agents IA avec des intercepteurs Policy et Lambda dans la passerelle Amazon Bedrock AgentCore
468AWS ML Blog 

Sécuriser les agents IA avec des intercepteurs Policy et Lambda dans la passerelle Amazon Bedrock AgentCore

Amazon a enrichi son service Bedrock AgentCore Gateway de deux mécanismes de sécurité complémentaires destinés à contrôler le comportement des agents IA en entreprise. Le premier, appelé Policy, permet de définir des règles d'accès aux outils à l'aide de Cedar, un langage déclaratif d'Amazon qui évalue chaque requête selon un principal, une action et une ressource, puis délivre une décision déterministe d'autorisation ou de refus, automatiquement journalisée. Le second mécanisme, les intercepteurs Lambda, permet d'exécuter du code personnalisé avant ou après chaque appel d'outil, pour effectuer de la validation dynamique, de l'enrichissement de payload, des échanges de tokens ou du filtrage de réponses. Pour illustrer ces capacités, Amazon présente un agent de données baptisé "lakehouse data agent", conçu pour une compagnie d'assurance fictive. Cet agent permet à trois types d'utilisateurs, titulaires de contrats, experts en sinistres et administrateurs, d'interroger des données de réclamations stockées dans Amazon S3 Tables au format Apache Iceberg, via Amazon Athena et AWS Lake Formation. L'interface Streamlit authentifie les utilisateurs via Amazon Cognito et transmet des JWT à l'agent, qui expose cinq outils MCP distincts. Les métadonnées de rôles, les mappings IAM par tenant et la géographie des utilisateurs sont stockés dans Amazon DynamoDB. Ces nouvelles fonctionnalités répondent à un problème de gouvernance concret que rencontrent les grandes organisations déployant des agents IA à l'échelle. Contrairement aux applications traditionnelles qui exécutent une logique fixe, les agents pilotés par un LLM décident au moment de l'exécution quels outils invoquer, avec quels arguments et dans quel ordre. Il devient donc impossible d'auditer le graphe d'appels à l'avance. Sur des plateformes unifiées comptant des centaines d'agents et des milliers d'outils MCP répartis entre différentes équipes et unités métier, ce manque de contrôle crée un risque réel. La combinaison Cedar pour l'autorisation déterministe et Lambda pour la validation contextuelle dynamique, notamment basée sur la géographie de l'utilisateur, offre une architecture de sécurité en couches adaptée à cette réalité. Ce développement s'inscrit dans un mouvement plus large d'industrialisation de l'IA agentique au sein des entreprises, où les questions de sécurité et de conformité deviennent aussi critiques que la performance des modèles eux-mêmes. Le Model Context Protocol, promu initialement par Anthropic, s'impose progressivement comme standard d'interopérabilité entre agents et outils, et AWS prend position en intégrant nativement la gouvernance des outils MCP dans Bedrock. Lake Formation assure par ailleurs une sécurité au niveau des lignes et des colonnes directement à l'exécution des requêtes, garantissant que même un agent mal configuré ne puisse pas exfiltrer de données hors de son périmètre autorisé. La prochaine étape probable pour Amazon sera d'étendre ces mécanismes à des scénarios multi-agents, où la chaîne de confiance entre agents orchestrateurs et agents subalternes soulève des défis de sécurité encore plus complexes.

InfrastructureActu
1 source
Optimiser vos budgets IT : Flezi Foundry automatise la chaîne de valeur
469Le Big Data 

Optimiser vos budgets IT : Flezi Foundry automatise la chaîne de valeur

Le groupe informatique vietnamien FPT a lancé Flezi Foundry, une plateforme SaaS qui intègre des agents d'intelligence artificielle spécialisés dans l'ensemble du cycle de vie des projets logiciels. Concrètement, ces agents autonomes prennent en charge le codage, les tests de sécurité et la documentation technique, tandis que les ingénieurs humains conservent un rôle de superviseur pour valider les décisions et garantir la qualité finale. Frank Bignone, haut dirigeant chez FPT, présente cette approche comme le passage à une ère où l'intelligence est intégrée au fonctionnement même des services, et non plus seulement aux outils utilisés. La plateforme ambitionne également d'automatiser entre 60 % et 90 % des demandes de support de premier niveau grâce à un module de services managés capable de trier les alertes et de résoudre les incidents sans intervention humaine, avec un engagement de disponibilité fixé à 99,5 %. L'enjeu central est économique et organisationnel : FPT promet un gain de productivité de 30 % sans augmentation des budgets IT, ce qui représente une proposition directement adressée aux directions informatiques soumises à des pressions croissantes de réduction des coûts. En libérant les ingénieurs des tâches répétitives, l'entreprise mise sur une réaffectation de la valeur humaine vers des problèmes plus complexes. Pour les grandes organisations qui externalisent une partie de leur développement logiciel, ce modèle pourrait modifier en profondeur la structure des contrats de sous-traitance et redéfinir ce qu'on attend d'un prestataire IT. L'infrastructure repose sur un mix cloud privé et ressources propres de FPT, un argument de sécurité destiné à rassurer les directions techniques réticentes à confier des systèmes critiques à des agents automatisés. FPT, dont les centres de compétences sont principalement implantés au Vietnam et au Japon, s'inscrit dans une vague plus large de plateformes d'ingénierie agentique qui émergent en 2025 et 2026, portées par la maturité croissante des grands modèles de langage capables de produire et de déboguer du code de manière autonome. Face aux craintes que suscite l'automatisation massive, le groupe a structuré un parcours d'intégration progressif : analyse des besoins, pilotes en conditions réelles, puis comparaison mesurée des performances avant et après déploiement. Cette approche par étapes vise à limiter les risques perçus et à construire la confiance des clients avant une adoption plus large. FPT positionne ainsi Flezi Foundry comme un modèle potentiellement standard pour la collaboration homme-machine dans l'industrie IT mondiale, dans un marché où Microsoft, Google et des dizaines de startups se livrent une concurrence intense sur le même territoire.

UELes grandes organisations européennes qui externalisent leur développement logiciel pourraient voir la structure de leurs contrats IT évoluer si ce modèle agentique se généralise, mais FPT ne dispose pas de présence significative en France ou en Europe.

OutilsOutil
1 source
Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web
470The Decoder 

Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web

Les principaux agents de recherche IA, dont GPT-5.4 d'OpenAI et Kimi K2.6 de Moonshot AI, n'effectuent pas autant de recherches web réelles qu'ils le laissent entendre. C'est la conclusion d'une étude menée par des chercheurs de l'Institut de technologie de Harbin, qui ont développé un nouveau benchmark temporel appelé LiveBrowseComp. Ce test se distingue des évaluations classiques en ne posant des questions que sur des événements survenus au cours des 90 derniers jours, soit une fenêtre temporelle postérieure aux données d'entraînement des modèles. Les résultats sont révélateurs : dès que les modèles ne peuvent plus s'appuyer sur leur mémoire d'entraînement, leurs performances s'effondrent et les classements habituels sont bouleversés. Cela signifie que ces agents, présentés comme de puissants outils de recherche en ligne, se contentent en réalité d'utiliser le web pour confirmer ce qu'ils savent déjà, plutôt que de véritablement explorer et synthétiser des informations récentes. Pour les entreprises et professionnels qui s'y fient pour une veille ou une analyse d'actualité, c'est une limitation critique. Ce constat intervient alors que les éditeurs d'IA rivalisent pour positionner leurs modèles comme des assistants de recherche autonomes capables de naviguer sur internet. Les benchmarks traditionnels, construits sur des données historiques, masquaient cette faiblesse structurelle. LiveBrowseComp introduit une contrainte temporelle qui force une évaluation plus honnête des capacités réelles de navigation web. L'enjeu est de taille : si les classements sont rebattus sur cette base, la confiance accordée aux agents IA pour des tâches de recherche actuelle devra être sérieusement réévaluée.

UELes entreprises et professionnels européens qui s'appuient sur ces agents pour de la veille ou de l'analyse d'actualité doivent réévaluer leur fiabilité pour tout contenu postérieur aux données d'entraînement.

💬 C'est prouvé maintenant : ces agents ne cherchent pas vraiment, ils confirment ce qu'ils savent. Le benchmark de Harbin est malin, poser uniquement des questions sur les 90 derniers jours c'est une façon élégante de court-circuiter la mémoire d'entraînement, et du coup les classements habituels volent en éclats. Si tu t'appuies là-dessus pour une vraie veille, je te laisse tirer les conclusions.

RecherchePaper
1 source
J’ai transformé mon PC en développeur IA avec OpenClaw (et voici combien ça me coûte vraiment)
471Frandroid 

J’ai transformé mon PC en développeur IA avec OpenClaw (et voici combien ça me coûte vraiment)

Un bricoleur passionné mais non-codeur a publié sur Frandroid le récit de son expérience avec OpenClaw, un agent IA autonome installé directement sur son PC personnel. L'auteur, qui bidouille depuis vingt ans sans jamais avoir maîtrisé la programmation, décrit comment cet outil a transformé sa machine en un véritable développeur à demeure : capable de rédiger des scripts sur commande, d'automatiser une veille technologique et de corriger des bugs de manière autonome, y compris pendant la nuit. Ce type de configuration, longtemps réservée aux développeurs, devient accessible à des profils purement amateurs. L'impact est significatif pour une catégorie d'utilisateurs jusqu'ici laissée de côté : les "power users" non-développeurs, ceux qui ont des idées d'automatisation mais butent sur l'obstacle du code. Un agent IA local et autonome efface cette barrière, rendant possible la création d'outils personnalisés sans compétences techniques. Pour l'industrie, cela illustre un basculement concret : l'IA ne sert plus seulement à assister les professionnels, elle démocratise des capacités autrefois réservées à une élite technique. OpenClaw s'inscrit dans une vague d'agents IA autonomes locaux, aux côtés de projets comme Aider ou Open Interpreter, qui misent sur l'exécution directe sur la machine de l'utilisateur plutôt que sur le cloud. Cette approche soulève des questions sur les coûts réels (abonnements LLM, ressources matérielles) et sur la sécurité, puisqu'un agent avec accès système peut agir sans supervision humaine. La popularité croissante de ces outils chez les profils non-techniques suggère que 2025-2026 marque le début d'une adoption grand public de l'IA agentique.

UELes 'power users' non-développeurs en France peuvent désormais accéder à des agents IA locaux autonomes pour automatiser des tâches sans compétences de programmation, abaissant concrètement la barrière technique pour un large public amateur francophone.

💬 Ça fait deux ans qu'on parle de démocratisation de l'IA, et là c'est peut-être la première fois que je vois un cas qui colle vraiment à ce mot. La barrière du code, c'était le dernier verrou, et un agent local qui bricole à ta place la nuit le fait sauter. La question des coûts réels et de l'accès système reste entière, mais le concept tient.

OutilsOutil
1 source
L’IA crée son propre Shadow IT : les entreprises perdent déjà la trace de leurs agents
472FrenchWeb 

L’IA crée son propre Shadow IT : les entreprises perdent déjà la trace de leurs agents

Un phénomène bien connu refait surface sous une forme nouvelle dans les entreprises : après avoir lutté pendant vingt ans contre le Shadow IT classique, les directions informatiques font face à une variante propulsée par l'intelligence artificielle. Des équipes métier déploient désormais des agents IA, des assistants automatisés et des flux de traitement autonomes sans passer par les circuits de validation informatique habituels. La facilité d'accès aux outils IA grand public, souvent accessibles via un simple abonnement ou une API, accélère cette dispersion incontrôlée. Le risque est considérable. Contrairement à une application SaaS classique, un agent IA peut accéder à des données sensibles, exécuter des tâches en autonomie, interagir avec des systèmes tiers et produire des résultats à grande échelle, le tout hors de tout audit interne. Les entreprises ne savent plus combien d'agents tournent en leur nom, quelles données ils traitent, ni qui en est réellement responsable. Cela expose les organisations à des violations réglementaires, notamment sous le RGPD ou l'AI Act européen, et à des risques de sécurité difficiles à quantifier. Ce phénomène s'inscrit dans une dynamique plus large : la démocratisation rapide des outils IA, portée par OpenAI, Google, Microsoft et des dizaines de startups, a rendu l'expérimentation accessible à n'importe quel salarié. Les DSI, déjà débordés par la transformation numérique, peinent à établir des cadres de gouvernance adaptés à cette nouvelle réalité. Les prochains mois devraient voir émerger des solutions de découverte et d'inventaire d'agents IA, un marché naissant que plusieurs éditeurs de cybersécurité commencent déjà à adresser.

UELes entreprises françaises et européennes sont directement exposées aux risques de non-conformité au RGPD et à l'AI Act en raison de déploiements d'agents IA internes non contrôlés et non audités.

💬 Le Shadow IT, on pensait l'avoir à peu près domestiqué. Mais n'importe quel chef de projet peut maintenant poser un agent en prod avec une carte bleue et un compte OpenAI, sans que la DSI ne le voie passer. La différence avec l'ancienne version, c'est que cet agent agit en autonomie, touche des données sensibles, et sous l'AI Act, si ça déraille, c'est ton entreprise qui morfle, pas l'employé qui a cliqué sur "déployer".

SécuritéOpinion
1 source
Lowe's : les données sémantiques améliorent ses agents IA
473The Information AI 

Lowe's : les données sémantiques améliorent ses agents IA

Lowe's, le géant américain de la distribution de bricolage, a récemment intégré deux outils de gestion des données, une couche sémantique et un graphe de connaissances, pour améliorer les performances de ses agents d'intelligence artificielle. Chandhu Nair, vice-président senior de l'entreprise, a expliqué que ces technologies permettent désormais à l'IA de mieux assister les clients dans le suivi de leurs commandes et d'aider les responsables de magasins à coordonner le travail quotidien des employés. Lowe's exploite un assistant d'achat alimenté par l'IA pour ses clients ainsi qu'un coach commercial intelligent destiné à ses vendeurs, tous deux développés en partenariat avec OpenAI au cours des deux dernières années. La chaîne a également déployé un agent spécialisé pour ses équipes financières, chargé de vérifier l'exactitude du traitement des factures, une priorité compte tenu du volume considérable de transactions que génère son statut de cinquième plus grand importateur aux États-Unis. L'apport concret de la couche sémantique réside dans sa capacité à standardiser les définitions des indicateurs métiers, ce que l'entreprise entend précisément par "revenu" ou "client", afin que l'IA ne travaille pas sur des données ambiguës ou incohérentes. Couplée au graphe de connaissances, qui cartographie les relations entre les différents types de données de l'entreprise, cette approche rend les agents nettement plus fiables et efficaces dans leurs décisions. Pour une enseigne comme Lowe's, qui gère des milliers de références produits, des dizaines de milliers d'employés et des millions de transactions, la précision des données est directement liée à la qualité du service rendu. Cette démarche s'inscrit dans une bataille plus large que se livrent les grands acteurs du logiciel d'entreprise. Microsoft, Databricks et SAP se disputent actuellement le contrôle des couches sémantiques au sein des systèmes d'information des grandes entreprises, conscients que celui qui maîtrise la définition des données maîtrise aussi l'intelligence artificielle qui les exploite. Le cas Lowe's illustre comment les détaillants de grande taille transforment leurs infrastructures de données héritées en socle opérationnel pour une IA agentique déployée à grande échelle.

OutilsOpinion
1 source
Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards
474Latent Space 

Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards

Cognition, le laboratoire spécialisé dans les agents IA, vient de lever 1 milliard de dollars lors d'un tour de table en Série D qui valorise la société à 26 milliards de dollars. Ce financement, annoncé fin mai 2026, représente une valorisation 2,5 fois supérieure à celle obtenue lors de sa Série C en septembre 2025, qui s'élevait à 10 milliards de dollars. Cognition devient ainsi officiellement le plus grand laboratoire d'agents IA indépendant encore en activité. La société projette un chiffre d'affaires annuel récurrent dépassant 1 milliard de dollars d'ici la fin de l'année 2026, une trajectoire alimentée par une clientèle déjà constituée d'acteurs exigeants de l'écosystème startup et entreprise, parmi lesquels Exa et Modal. Cette levée illustre l'appétit persistant des investisseurs pour les agents IA autonomes, segment en train de redéfinir le marché des logiciels d'entreprise. Dans le SaaS, l'ARR est un indicateur retardé de l'utilisation réelle : si Cognition projette ce seuil du milliard, c'est que des déploiements significatifs sont déjà actifs chez ses clients. La dynamique s'inscrit dans une logique de concentration du financement autour de quelques laboratoires indépendants capables de tenir tête aux grandes plateformes que sont OpenAI, Anthropic ou Google DeepMind. Cognition, positionné sur les agents codeurs autonomes, s'impose comme un acteur de référence dans une catégorie dont la valeur potentielle continue d'attirer des capitaux massifs. Cette annonce intervient dans un contexte d'effervescence technique autour de l'inférence et de l'architecture des agents. Sur le front de l'efficacité, plusieurs avancées ont marqué la semaine : EAGLE 3.1 améliore le décodage spéculatif pour les longues séquences, Perplexity a publié en open source un tokeniseur réduisant de 5 à 6 fois la charge CPU, et Qwen3.5 atteindrait 580 tokens par seconde pour des charges de travail agentiques grâce à une collaboration entre Alibaba, NVIDIA et les contributeurs de FlashAttention-4. Parallèlement, LangChain a livré Deep Agents v0.6 avec les Delta Channels, réduisant le stockage des points de contrôle pour une session de codage de 200 tours de 5,3 Go à seulement 129 Mo. La plateforme Trajectory a également été lancée pour permettre aux équipes d'utiliser les traces d'agents et les signaux d'usage produit dans une logique d'apprentissage continu. Ces évolutions techniques signalent un glissement de paradigme : ce n'est plus seulement la qualité du modèle qui fait la différence, mais l'adéquation entre le modèle, son environnement d'exécution et sa mémoire.

💬 26 milliards pour Cognition, ça fait un choc. Mais le chiffre qui compte c'est le milliard d'ARR projeté d'ici décembre : des déploiements déjà actifs chez des clients exigeants, et une valorisation multipliée par 2,5 en six mois pour un labo qui n'existait quasiment pas il y a trois ans. Et l'Europe dans tout ça, elle regarde.

BusinessOpinion
1 source
Amazon Bedrock AgentCore : créer des agents IA pour le support métier
475AWS ML Blog 

Amazon Bedrock AgentCore : créer des agents IA pour le support métier

Works Human Intelligence (WHI), éditeur japonais du système RH intégré "COMPANY" utilisé par de grandes entreprises et organismes publics nippons, a collaboré avec le AWS Generative AI Innovation Center (GenAIIC) pour développer deux agents d'IA reposant sur Amazon Bedrock AgentCore. Le premier, le Commuting Allowance Agent, automatise la validation des demandes d'indemnités de transport lors d'événements comme les déménagements d'employés. Le second, le Browser Operation Agent, accède au système "COMPANY" au nom des clients pour vérifier des contenus, effectuer des opérations et collecter des preuves. Le résultat le plus marquant de cette collaboration est une réduction des coûts allant jusqu'à 97 %, combinée à une amélioration mesurable de l'efficacité opérationnelle des équipes support. Pour les départements RH de grandes organisations, la gestion quotidienne d'un système comme "COMPANY" génère un volume considérable de tâches répétitives : changements organisationnels, révisions des politiques salariales, mises à jour d'informations employés. L'automatisation via des agents d'IA permet de décharger les équipes opérationnelles de ces traitements routiniers, libérant du temps pour des missions à plus forte valeur ajoutée. La réduction de 97 % des coûts illustre concrètement ce que peut apporter une architecture bien conçue : WHI auto-hébergeait auparavant Langfuse pour surveiller ses agents, ce qui entraînait des coûts d'exploitation récurrents. La migration vers AgentCore Observability a supprimé cette charge. Pour l'industrie RH, ce cas démontre qu'il est possible de déployer des agents multi-tenants fiables, avec authentification via Amazon Cognito et gestion des tenants par Amazon DynamoDB, sans infrastructure monolithique difficile à faire évoluer. WHI avait initialement lancé un proof of concept avec LangGraph, Amazon ECS et AWS Fargate, mais la mise en disponibilité générale d'Amazon Bedrock AgentCore en cours de projet a conduit l'équipe à repenser l'architecture. Plutôt que de maintenir un ECS task monolithique où tous les composants s'exécutaient en bloc, la nouvelle architecture décompose les sous-agents pour les faire tourner individuellement sur l'AgentCore Runtime, ce qui facilite leur évolution future indépendante. Slack a été intégré comme point d'entrée, avec une authentification déclenchée au moment de chaque appel. WHI envisage également de remplacer l'agent superviseur actuel par Strands Agents à terme. Ce projet illustre une tendance croissante : les éditeurs de logiciels métier cherchent à enrichir leurs solutions avec des couches d'IA agentique en s'appuyant sur des services cloud managés pour absorber la complexité opérationnelle, plutôt que de maintenir leur propre outillage d'orchestration.

OutilsOutil
1 source
Amazon Bedrock AgentCore au service des stratégies de vente par agents IA
476AWS ML Blog 

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA

AWS a déployé en interne un assistant conversationnel baptisé Field Advisor, construit sur Amazon Bedrock AgentCore, pour résoudre un problème concret apparu dans ses propres équipes commerciales mondiales : la prolifération d'agents IA spécialisés sans coordination centrale. L'organisation AWS Sales utilisait plus de 20 agents distincts couvrant la gestion CRM, la planification de réunions, les recommandations produits, les analyses clients et les vérifications de conformité. Les représentants commerciaux devaient eux-mêmes choisir quel agent invoquer selon la tâche, gérer les changements de contexte entre systèmes fragmentés et assembler manuellement les résultats, une charge cognitive qui réduisait d'autant le temps passé avec les clients. Field Advisor agit comme une couche d'orchestration centrale : les commerciaux posent leurs questions en langage naturel, et le système route automatiquement les requêtes vers l'agent ou l'outil approprié, maintient le contexte conversationnel entre les interactions et livre une réponse unifiée via une interface unique. L'impact est concret pour les équipes de vente : Field Advisor s'intègre directement dans les outils déjà utilisés au quotidien, systèmes CRM, Slack, applications internes, évitant toute rupture de flux de travail. Le système inclut des mécanismes de validation humaine pour les opérations sensibles : avant de modifier des données CRM, il présente les changements proposés et attend une approbation explicite, ce qui préserve la fiabilité des données et la responsabilité des commerciaux. La mémoire persistante, combinant historique de session à court terme et mémoire sémantique à long terme, permet aux représentants de reprendre une conversation là où elle s'était arrêtée sans avoir à répéter le contexte à chaque interaction. L'ensemble de ces fonctionnalités réduit la charge opérationnelle et libère du temps pour les échanges à valeur ajoutée avec les clients. Ce projet illustre un défi structurel qui émerge dans de nombreuses grandes entreprises à mesure que l'adoption des agents IA s'accélère : la multiplication d'agents spécialisés crée paradoxalement une nouvelle complexité si aucune orchestration ne les unifie. AWS a choisi Bedrock AgentCore précisément pour ses capacités natives à l'échelle enterprise, environnements d'exécution isolés pour les opérations multi-locataires sécurisées, passerelle unifiée pour les outils et agents répartis sur plusieurs comptes AWS, propagation d'identité cohérente via OAuth et observabilité intégrée sur les flux complexes. En s'appuyant sur une infrastructure clé en main plutôt que sur du développement sur mesure, l'équipe d'ingénierie a pu concentrer ses efforts sur la logique métier plutôt que sur les fondations techniques. Field Advisor représente ainsi autant un cas d'usage commercial qu'une démonstration de la viabilité d'AgentCore comme substrat pour des déploiements agentiques en production à grande échelle.

OutilsOutil
1 source
OpenRouter franchit 1,3 milliard de dollars de valorisation un an après son lancement
477Le Big Data 

OpenRouter franchit 1,3 milliard de dollars de valorisation un an après son lancement

OpenRouter, une startup américaine spécialisée dans les passerelles d'accès aux modèles d'intelligence artificielle, vient de boucler un tour de table de série B de 113 millions de dollars mené par CapitalG, le fonds de capital-risque d'Alphabet. Cette levée propulse sa valorisation à 1,3 milliard de dollars, soit plus du double des 547 millions estimés lors de son tour de série A de juin 2025, où Andreessen Horowitz, Menlo Ventures et Sequoia avaient déjà investi 40 millions de dollars. En douze mois d'existence, la société affiche désormais 8 millions d'utilisateurs dans le monde et traite environ 100 000 milliards de tokens par mois. Sur les six derniers mois, son volume hebdomadaire est passé de 5 000 milliards à 25 000 milliards de tokens, soit une multiplication par cinq. La plateforme donne accès à plus de 400 modèles d'IA, parmi lesquels ceux d'Anthropic, OpenAI, Google, xAI et DeepSeek. Cette progression illustre un basculement structurel du marché de l'IA générative : après des années centrées sur l'entraînement des modèles, l'industrie se concentre désormais sur l'inférence, c'est-à-dire l'exécution concrète des modèles dans des applications réelles. Les entreprises cherchent à optimiser leurs coûts et leur flexibilité opérationnelle, en pouvant sélectionner dynamiquement le modèle le mieux adapté à chaque tâche, qu'il s'agisse d'un traitement simple ou d'un raisonnement complexe. La montée en puissance des agents IA, ces systèmes autonomes qui enchaînent plusieurs actions et requêtes, renforce encore ce besoin : orchestrer plusieurs modèles spécialisés depuis une interface unique est devenu une nécessité opérationnelle pour de nombreuses équipes techniques. Pendant plusieurs années, l'industrie semblait s'orienter vers une concentration autour de quelques fournisseurs dominants, avec le risque d'un verrouillage technologique comparable à celui qu'ont connu les entreprises avec certains éditeurs cloud ou logiciels d'entreprise. Le succès d'OpenRouter révèle une réalité plus nuancée : les organisations souhaitent conserver leur pouvoir de négociation, limiter les risques de dépendance et s'adapter rapidement aux évolutions rapides du marché. Dans ce contexte, les intermédiaires capables d'agréger et d'orchestrer plusieurs fournisseurs deviennent des infrastructures stratégiques à part entière. La valorisation d'OpenRouter, atteinte en un an seulement, confirme que l'avenir du déploiement de l'IA en entreprise sera résolument multi-modèles.

UELes équipes techniques européennes peuvent adopter OpenRouter pour orchestrer plusieurs modèles IA sans dépendance à un fournisseur unique, mais l'impact direct sur la France ou l'UE reste limité à cet avantage opérationnel indirect.

💬 1,3 milliard en un an, je m'y attendais pas à cette vitesse. OpenRouter a compris avant tout le monde que la vraie bataille, c'est pas qui entraîne les meilleurs modèles, mais qui te permet de tous les orchestrer sans te faire enfermer chez un seul provider. Reste à voir comment les grands fournisseurs vont réagir quand ils réaliseront que leur API est en train de devenir une commodité.

BusinessOpinion
1 source
Sarang Kulkarni : les enseignements du développement d'agents de recherche approfondie en production
478InfoQ AI 

Sarang Kulkarni : les enseignements du développement d'agents de recherche approfondie en production

Sarang Kulkarni, architecte chez Thoughtworks, a présenté lors de l'Arc of AI Conference 2026 les enseignements tirés du déploiement en production de systèmes d'agents de recherche approfondie. Ces systèmes, appelés Deep Research Agentic Systems, sont des agents IA capables de conduire des investigations en plusieurs étapes sur des questions complexes : ils combinent raisonnement dynamique, récupération d'information en chaîne (multi-hop retrieval) et génération de rapports analytiques structurés, allant bien au-delà des chatbots classiques. Ces architectures multi-agents représentent un saut qualitatif pour les entreprises qui ont besoin d'automatiser des tâches de veille, d'analyse concurrentielle ou de recherche documentaire. Là où un LLM standard répond à une question en une passe, un agent de recherche profonde décompose le problème, interroge plusieurs sources, valide ses hypothèses et synthétise un rapport cohérent. Le retour d'expérience de Thoughtworks, cabinet de conseil technologique présent dans le monde entier, est particulièrement précieux car il aborde les réalités du déploiement en production : latence, fiabilité, coûts opérationnels et maintenance des workflows. L'intervention de Kulkarni s'inscrit dans une tendance de fond : après l'engouement pour les LLMs, l'industrie entre dans une phase d'industrialisation des agents IA. Des acteurs comme Google avec Deep Research, Perplexity ou OpenAI ont popularisé le concept, mais les pratiques de déploiement en entreprise restent peu documentées. Les conférences spécialisées comme Arc of AI 2026 deviennent des espaces clés pour partager ce savoir tacite, avant que les standards de l'ingénierie agentique ne se cristallisent.

UELes entreprises européennes déployant des agents IA en production peuvent s'appuyer sur ce retour d'expérience de Thoughtworks pour anticiper les défis de latence, fiabilité et coûts opérationnels.

OutilsOutil
1 source
Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore
479AWS ML Blog 

Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore

AWS a publié un guide technique détaillant comment construire des systèmes d'agents d'IA générative haute performance en combinant trois technologies complémentaires : Strands Agents, le framework multi-agents d'AWS ; NVIDIA NIM, une plateforme d'inférence accélérée par GPU disponible via build.nvidia.com ; et Amazon Bedrock AgentCore, l'environnement d'exécution managé d'Amazon. L'architecture proposée repose sur un système de trois agents spécialisés fonctionnant en parallèle : un agent d'analyse des personas qui évalue le contenu marketing selon différentes audiences et produit des scores de résonance, un agent de validation qui vérifie la conformité légale et de marque, et un agent agrégateur qui consolide les recommandations. Le tout s'articule autour d'un frontend React qui interroge les résultats de manière asynchrone au fur et à mesure que les agents rendent leurs verdicts. Cette combinaison répond à trois problèmes concrets qui freinent le passage des prototypes IA vers la production : la latence d'inférence sous forte charge, la perte de contexte entre les interactions dans les environnements sans état, et le manque de visibilité sur l'exécution des agents. NVIDIA NIM apporte l'accélération GPU via des technologies comme CUDA et TensorRT-LLM, en exposant des API compatibles OpenAI sans adaptation spécifique au modèle. Bedrock AgentCore prend en charge la persistance de la mémoire partagée entre agents, les mécanismes de checkpoint et de récupération sur erreur, ainsi que l'observabilité intégrée. Strands gère l'orchestration parallèle, le contrôle de flux et l'agrégation des résultats. L'ensemble se déploie sous forme de conteneur Docker dans AgentCore Runtime, éliminant la gestion d'infrastructure à mesure que la charge augmente. Le cas d'usage présenté, la revue automatisée de campagnes marketing, n'est qu'un point d'entrée : la même architecture s'applique aux assistants virtuels, aux pipelines RAG et à l'automatisation de processus de validation complexes. Ce guide s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour capter les workloads IA en production. AWS positionne Bedrock AgentCore comme la couche managée qui simplifie le déploiement d'agents à grande échelle, tandis que NVIDIA consolide sa présence dans la chaîne de valeur logicielle via NIM, bien au-delà de la simple vente de GPU. Strands Agents, framework open source lancé par AWS début 2025, cherche à s'imposer face à LangGraph ou AutoGen comme standard d'orchestration multi-agents. La multiplication de ces briques interopérables signale que les architectures agentiques entrent dans une phase d'industrialisation, où la fiabilité et l'observabilité comptent désormais autant que les capacités du modèle lui-même.

OutilsOutil
1 source
Le SaaS est-il mort ?
480Ben's Bites 

Le SaaS est-il mort ?

La question commence à circuler sérieusement dans les cercles tech : le SaaS est-il en train de mourir ? Dans sa newsletter Ben's Bites, l'investisseur et analyste Dan Shipper défend une thèse nuancée mais inquiétante pour les éditeurs de logiciels traditionnels. Le problème ne vient pas de ce que les entreprises peuvent désormais coder leurs propres outils grâce à l'IA, c'est un argument souvent avancé mais qui reste marginal en pratique. Le vrai problème, selon lui, est structurel : les outils SaaS sont conçus pour une base d'utilisateurs massive, ils grossissent en permanence, accumulent des fonctionnalités, modifient leurs interfaces, et finissent par dépasser les besoins réels de leurs clients. L'utilisateur ne voulait qu'une fraction du produit, et se retrouve prisonnier d'un outil qui a outgrown lui. Cette semaine, plusieurs actualités illustrent concrètement cette bascule : OpenAI a sorti du stade expérimental le mode "Goal" de Codex, qui permet d'exécuter des workflows en plusieurs étapes avec un objectif unique en tête. Le protocole MCP reçoit une mise à jour majeure dont la finalisation est prévue pour le 28 juillet, ajoutant le support natif pour les interfaces applicatives, les tâches longues, et des règles de sécurité renforcées. Perplexity a open-sourcé Bumblebee, un scanner de sécurité pour machines de développeurs qui détecte les packages risqués et les configurations d'agents IA sans exécuter les outils inspectés. Ce mouvement a des conséquences directes pour les entreprises qui achètent des logiciels. Si les outils rigides perdent de leur attrait, les architectures composables gagnent en valeur. WorkOS, dont le positionnement officiel est « un ensemble de blocs de construction pour ajouter rapidement des fonctionnalités enterprise à vos applications », et Stripe, qui propose ses services en modules indépendants, incarnent ce nouveau modèle. Pour les professionnels tech, l'enjeu est concret : ils peuvent désormais assembler un éditeur de documents ici, un agent là, et composer un outil sur mesure pour leur usage exact, sans payer pour l'excédent de features qu'ils n'utiliseront jamais. C'est ce que l'auteur appelle l'ère du « logiciel personnalisable ». La montée en puissance des agents IA accélère cette transformation. Un logiciel que l'on ne peut pas piloter par API, CLI ou SDK devient difficile à intégrer dans des workflows automatisés, et donc progressivement obsolète. Les startups qui parient sur cette logique prolifèrent : WorkOS vient de publier auth.md, un protocole ouvert permettant aux agents de s'enregistrer à des services web au nom des utilisateurs. Cloudsail propose des sandboxes Cloudflare fraîches pour agents de code, avec accès shell, Codex et GitHub. Un fondateur solo décrit même dans un billet comment il fait tourner une startup entière avec des agents IA dans les rôles de directeur de cabinet (OpenClaw) et d'ingénieurs (Codex, Devin). L'industrie SaaS n'est peut-être pas morte, mais son modèle monolithique, lui, est sérieusement menacé.

UELes éditeurs SaaS européens et les entreprises françaises acheteuses de logiciels sont directement concernés par ce glissement vers des architectures composables, qui remet en question les modèles d'abonnement monolithiques dominants sur le marché.

OutilsOutil
1 source
De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer
481Latent Space 

De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer

Trois entreprises spécialisées dans l'infrastructure pour l'intelligence artificielle ont atteint simultanément des jalons majeurs cette semaine, signalant une consolidation rapide du secteur. TurboPuffer, moteur de recherche vectorielle, annonce 100 millions de dollars de revenus récurrents annuels tout en étant rentable. Exa, moteur de recherche sémantique pour les agents IA, lève 250 millions de dollars dans un tour de Série C qui valorise l'entreprise à 2,2 milliards de dollars. Modal, plateforme cloud de calcul GPU à la demande, annonce quant à elle 355 millions de dollars levés à une valorisation de 4,7 milliards de dollars en Série C. Ces trois annonces tombent dans la même fenêtre de 48 heures, les 20 et 21 mai 2026. Ces chiffres illustrent une dynamique structurelle : l'explosion de la demande en infrastructure IA n'est plus portée uniquement par les grands hyperscalers comme AWS ou Google Cloud, mais de plus en plus par des acteurs spécialisés capables de répondre précisément aux besoins des développeurs d'agents et de pipelines LLM. Modal permet d'exécuter du code Python avec des GPU en quelques secondes sans gérer de serveurs ; Exa fournit une API de recherche conçue pour les LLM plutôt que pour les humains ; TurboPuffer offre une base de données vectorielle haute performance. Que les trois atteignent ces valorisations en même temps indique que le marché des outils pour construire des applications IA génère désormais des revenus réels et prévisibles, pas seulement des promesses. Ces succès s'inscrivent dans un contexte où l'ingénierie IA est devenue une discipline à part entière, distincte de la recherche fondamentale en machine learning. L'émergence d'une couche d'infrastructure spécialisée, entre les modèles de fondation des grands labs et les applications finales, crée un espace économique autonome. Latent Space, le podcast et newsletter qui suit ces entreprises depuis leurs débuts, note avoir interviewé les fondateurs des trois sociétés bien avant ces valorisations, soulignant à quel point la communauté des praticiens IA identifie tôt les acteurs structurants. La question désormais est de savoir si ces entreprises resteront indépendantes ou deviendront des cibles d'acquisition pour les grandes plateformes cloud, qui cherchent à intégrer verticalement la chaîne de valeur du développement IA.

UELes développeurs français et européens d'applications IA disposent désormais d'une couche d'infrastructure spécialisée (compute GPU à la demande, recherche vectorielle, recherche sémantique pour LLMs) comme alternative aux grands hyperscalers pour leurs pipelines d'agents.

💬 TurboPuffer rentable à 100M ARR, Modal à 4,7 milliards, Exa à 2,2, tout ça en 48h, c'est pas du hasard. J'attendais ce signal pour confirmer que la couche infra entre les grands modèles et les applis génère vraiment de l'argent, pas juste du cashburn déguisé en croissance. Si tu construis des trucs avec des LLMs, ces outils sont soit déjà dans ta stack, soit tu vas y venir.

InfrastructureOpinion
1 source
NVIDIA GTC Taipei au COMPUTEX : les dernières annonces IA en direct
482NVIDIA AI Blog 

NVIDIA GTC Taipei au COMPUTEX : les dernières annonces IA en direct

NVIDIA a remporté plusieurs prix aux COMPUTEX Best Choice Awards 2026, lors du salon GTC Taipei at COMPUTEX qui se tient à Taïwan. Trois produits ont été distingués : le Vera Rubin NVL72, superordinateur IA à l'échelle du rack, a décroché un Golden Award ainsi que le Sustainable Tech Special Award ; la plateforme Jetson Thor pour l'IA embarquée et la robotique a également obtenu un Golden Award ; et l'Alpamayo, plateforme ouverte pour le développement de véhicules autonomes, a remporté le prix de la catégorie Vehicle Technology and Smart Cockpit. Les candidatures ont été évaluées sur leur fonctionnalité, leur innovation et leur potentiel de marché. Jensen Huang, fondateur et PDG de NVIDIA, prononcera un discours inaugural le 1er juin à 11h (heure de Taïwan) au Taipei Music Center. Le Vera Rubin NVL72 concentre l'essentiel des innovations primées. Ce système connecte 36 CPU NVIDIA Vera et 72 GPU NVIDIA Rubin, unifiés via le commutateur NVLink de sixième génération, des SuperNICs ConnectX-9 et des commutateurs optiques Spectrum-X pour la mise à l'échelle. Il affiche jusqu'à 10 fois de meilleures performances d'inférence par watt et un coût par token réduit d'un facteur 10. Associé au NVIDIA Groq 3 LPX, il atteint 35 fois plus de débit par watt pour les modèles à un billion de paramètres. Conçu pour l'IA agentique, le raisonnement et les charges à long contexte, il est entièrement refroidi par liquide à 45 degrés Celsius, sans câbles ni tuyaux ni ventilateurs, réduisant le temps d'assemblage de deux heures à cinq minutes par plateau de calcul. La plateforme Jetson Thor affiche quant à elle 2 070 téraflops FP4, soit 7,5 fois la puissance de calcul et 3,5 fois l'efficacité énergétique de la génération précédente Jetson Orin, dans un module configurable entre 40 et 130 watts. Ces distinctions surviennent alors que COMPUTEX, salon de référence pour la technologie et l'informatique en Asie, accueille cette année le GTC Taipei, la conférence annuelle de NVIDIA dédiée à l'accélération de l'IA. L'événement rassemble développeurs, chercheurs et dirigeants industriels autour des thèmes des usines d'IA, de l'infrastructure à grande échelle, de l'IA physique et des systèmes autonomes. NVIDIA y consolide sa position de fournisseur incontournable pour les centres de données de nouvelle génération, à l'heure où la demande en puissance de calcul pour l'entraînement et l'inférence de grands modèles s'emballe. Les annonces du keynote de Jensen Huang du 1er juin seront scrutées de près par l'ensemble de l'industrie, qui attend des précisions sur la feuille de route de l'entreprise pour les prochains mois.

UELes futurs déploiements des hyperscalers et centres de données européens seront concernés par ces nouvelles architectures, mais aucun impact direct ou immédiat sur la France ou l'UE n'est mentionné.

InfrastructureActu
1 source
Les agents IA en entreprise échouent souvent parce qu'ils ne retiennent pas ce qu'ils ont appris
483VentureBeat AI 

Les agents IA en entreprise échouent souvent parce qu'ils ne retiennent pas ce qu'ils ont appris

Les agents d'intelligence artificielle déployés en entreprise échouent régulièrement dès qu'ils doivent enchaîner des décisions complexes, et la cause est souvent la même : ils oublient ce qu'ils ont appris. C'est le problème que cherche à résoudre Rippletide, une startup gravitant dans l'écosystème Neo4j, avec une architecture appelée "decision context graph". Fondée par Yann Bilien, co-fondateur et directeur scientifique, la société a conçu un système qui dote les agents d'une mémoire structurée, d'un raisonnement ancré dans le temps et d'une logique de décision explicite. L'objectif central : des agents dits "non-régressifs", capables de figer des séquences d'actions validées et de capitaliser dessus au fil du temps. Le problème que Rippletide adresse touche au cœur de la majorité des déploiements d'IA en entreprise. Les architectures RAG (Retrieval-Augmented Generation), qui constituent aujourd'hui le standard, se contentent de récupérer des documents sémantiquement pertinents depuis des sources variées, ERP, bases de données, politiques internes, et de les injecter dans le contexte du modèle. Mais comme le souligne Wyatt Mayham, consultant chez Northwest AI Consulting, cette approche "fonctionne pour les chatbots, mais se brise immédiatement dès qu'un agent doit prendre des décisions et agir". Un document récupéré ne dit pas à l'agent s'il est encore valide, s'il a été remplacé, ou si une règle contradictoire a la priorité. Résultat : des agents qui combinent des règles incompatibles, inventent des contraintes pour combler les vides, et produisent des erreurs difficiles à tracer et à reproduire. À l'échelle d'un workflow multi-étapes, même un faible taux d'erreur par étape devient catastrophique, raison principale pour laquelle la plupart des agents d'entreprise ne sortent jamais de la phase pilote. Le "decision context graph" répond à ce problème en encodant explicitement une carte structurée : quelles règles s'appliquent, dans quel contexte, et à quel moment. Le temps y est traité comme une dimension de premier ordre, chaque règle, décision et exception est délimitée temporellement, permettant à l'agent de distinguer "ce qui était vrai à ce moment-là" de "ce qui est vrai maintenant". Le système repose sur trois piliers : l'applicabilité (le bon contexte est retourné uniquement quand il est pertinent), la mémoire temporelle, et les chemins de décision explicites, l'agent peut expliquer pourquoi il a inclus tel contexte et non un autre. Lors de l'initialisation, les données non structurées sont ingérées puis organisées en ontologie. Ce marché de l'infrastructure agentique en entreprise attire une attention croissante alors que les limitations du RAG seul deviennent un frein réel au passage à l'échelle des systèmes d'IA autonomes.

OutilsOutil
1 source
Étendre la mémoire conversationnelle de Kiro CLI avec Amazon Bedrock AgentCore Memory
484AWS ML Blog 

Étendre la mémoire conversationnelle de Kiro CLI avec Amazon Bedrock AgentCore Memory

Amazon Web Services a présenté une solution pour doter Kiro CLI d'une mémoire conversationnelle persistante entre les sessions, en s'appuyant sur Amazon Bedrock AgentCore Memory. Kiro CLI est l'interface en ligne de commande qui permet aux développeurs d'interagir directement depuis leur terminal avec les agents IA de Kiro, l'IDE agentique d'AWS. Le problème résolu est concret : chaque nouvelle session repart de zéro, forçant le développeur à réexpliquer le contexte de son projet, ses préférences et ses conventions à chaque démarrage. La solution repose sur un serveur MCP (Model Context Protocol) personnalisé, open source et disponible sur GitHub, qui fait le pont entre Kiro CLI et le service managé Bedrock AgentCore Memory. Ce serveur expose trois catégories d'outils : des outils conversationnels pour stocker et retrouver l'historique par sujet ou période, des outils de supervision pour consulter les statistiques d'utilisation mémoire, et des outils d'administration pour supprimer des sessions ou des données ciblées. La récupération du contexte repose sur une stratégie à deux niveaux : une recherche sémantique via l'API retrievememoryrecords d'AgentCore Memory, avec repli automatique sur une correspondance directe dans les contenus bruts si le premier niveau n'a pas encore terminé son indexation. L'impact pour les équipes de développement travaillant sur des bases de code volumineuses est direct. Un développeur qui revient sur un projet après plusieurs jours n'a plus besoin de réexpliquer l'architecture, les contraintes métier ou ses préférences de style à l'agent IA : celui-ci retrouve automatiquement les sessions précédentes, identifiables par des formulations naturelles comme "hier soir" ou "la semaine dernière". Cette continuité de contexte réduit la friction cognitive et le temps perdu en répétition, deux freins majeurs à l'adoption productive des outils IA dans les workflows de développement au quotidien. Amazon Bedrock AgentCore Memory est un service entièrement managé lancé par AWS pour répondre à un besoin croissant dans l'écosystème des agents IA : la persistance de la mémoire à long terme. Jusqu'ici, les agents IA des IDEs et des outils de développement souffraient d'une amnésie structurelle entre les sessions, limitant leur utilité réelle sur des projets complexes et de longue durée. Le Model Context Protocol, standardisé par Anthropic, est devenu le mécanisme central d'extensibilité pour les agents IA, permettant à des services tiers d'exposer des capacités via une interface unifiée. AWS positionne ainsi AgentCore Memory comme une brique d'infrastructure réutilisable pour tout éditeur souhaitant ajouter de la mémoire à ses propres agents MCP-compatibles. La mise à disposition du code source en exemple sur GitHub signale une volonté d'adoption large, au-delà de Kiro, vers l'ensemble des clients AWS qui construisent des outils agentiques sur Bedrock.

OutilsOutil
1 source
Automatiser la génération de schémas pour le traitement intelligent de documents
485AWS ML Blog 

Automatiser la génération de schémas pour le traitement intelligent de documents

Amazon Web Services vient d'enrichir son IDP Accelerator, solution open-source et serverless dédiée au traitement automatisé de documents, d'une nouvelle fonctionnalité baptisée "multi-document discovery". Jusqu'ici, exploiter le traitement intelligent de documents (IDP) exigeait de constituer manuellement un schéma de configuration pour chaque type de document à analyser : définir les classes, identifier des exemples représentatifs, spécifier les champs à extraire. Une contrainte rédhibitoire dès lors qu'une organisation se retrouve avec des milliers de documents non étiquetés et aucune visibilité sur les catégories qui les composent. La nouvelle fonctionnalité répond directement à ce problème : elle analyse une collection de documents inconnus, les regroupe automatiquement par type, puis génère les schémas de configuration prêts à l'emploi. Le pipeline repose sur AWS Step Functions pour l'orchestration, AWS Lambda pour le calcul serverless, Amazon S3 pour le stockage, et les modèles disponibles via Amazon Bedrock pour la génération des schémas, dont le modèle d'embeddings Cohere Embed v4 utilisé par défaut. L'intérêt opérationnel est considérable pour les équipes qui traitent des volumes documentaires hétérogènes. Là où le module Discovery existant nécessitait de connaître ses classes de documents à l'avance et de fournir un exemple par classe, la nouvelle approche supprime ce prérequis. Le système génère d'abord un embedding visuel pour chaque document, en se basant sur la première page uniquement pour les documents multi-pages, puis utilise le score de silhouette pour déterminer automatiquement le nombre de clusters pertinents. Un agent construit avec Strands Agents et un LLM Bedrock analyse ensuite chaque cluster pour identifier le type de document et produire un schéma. Une étape de "réflexion" finale compare l'ensemble des schémas générés pour détecter les chevauchements et incohérences avant validation humaine. Cette approche réduit drastiquement le travail préparatoire qui, à grande échelle, pouvait représenter des semaines de labelling manuel. Le choix des embeddings visuels plutôt que textuels, via OCR, est une décision technique délibérée : la mise en page, le formatage et la structure visuelle d'un document permettent de distinguer des types documentaires même lorsque leur contenu textuel se ressemble. Ce positionnement s'inscrit dans la stratégie plus large d'AWS de faire de Bedrock un socle central pour les workflows d'IA en entreprise, en y adossant des briques comme Strands Agents pour la partie agentique. La solution reste open-source, disponible sur GitHub, ce qui permet aux équipes de l'adapter à leurs propres collections. L'enjeu sous-jacent est de rendre accessibles les initiatives IDP à des organisations qui ne disposent pas des ressources pour classifier manuellement leur patrimoine documentaire avant même de commencer à en extraire de la valeur.

OutilsOutil
1 source
Agent View débarque sur Claude Code : votre armée d’agents IA en une vue
486Le Big Data 

Agent View débarque sur Claude Code : votre armée d’agents IA en une vue

Anthropic a lancé une nouvelle fonctionnalité appelée Agent View pour son outil Claude Code, disponible dès la version 2.1.139 de l'application. Accessible via la commande claude agents dans le terminal, cette interface regroupe l'ensemble des sessions d'agents actives dans un tableau de bord unique intégré directement à l'environnement de développement. Elle est disponible pour tous les abonnements Pro, Max, Team et Enterprise, ainsi que via l'API Claude, dans le respect des limites de débit habituelles. Les administrateurs d'organisation disposent par ailleurs de la possibilité de désactiver la fonctionnalité depuis les paramètres centraux. Chaque ligne du tableau de bord représente une session Claude Code avec son état en temps réel : en cours, en attente de réponse humaine, terminée, inactive, arrêtée ou en échec. Pour les équipes de développeurs qui orchestrent plusieurs tâches simultanées, Agent View change concrètement la façon de travailler. Jusqu'ici, gérer plusieurs agents en parallèle signifiait jongler entre de multiples fenêtres de terminal, sans vue d'ensemble claire sur l'état de chaque processus. Désormais, un développeur peut lancer en parallèle des agents chargés de correctifs, de tests, de revues de code ou de mises à jour, passer de l'un à l'autre sans friction, reprendre une session suspendue à tout moment, et surtout identifier immédiatement les agents qui nécessitent une intervention humaine. Ce gain de visibilité est particulièrement précieux dans les environnements d'intégration continue où le temps perdu à chercher quelle tâche est bloquée peut coûter cher. Cette mise à jour s'inscrit dans une stratégie plus large qu'Anthropic mène depuis plusieurs mois pour transformer Claude Code en véritable plateforme de gestion d'agents IA pour les équipes techniques. L'entreprise avait déjà introduit successivement les sous-agents, les équipes d'agents, les compétences personnalisées, les hooks, les commandes à distance, les tâches programmées et une version web de Claude Code. Agent View est en quelque sorte la pièce qui manquait : elle consolide tous ces blocs épars en une interface cohérente. Anthropic cherche clairement à sortir Claude Code du statut d'assistant à l'écriture de code pour en faire un outil d'orchestration de workflows autonomes, en concurrence directe avec des environnements comme GitHub Copilot Workspace ou les solutions agentiques de Google DeepMind. La question qui reste ouverte est celle de la fiabilité à grande échelle : plus les agents sont nombreux et autonomes, plus la capacité à détecter rapidement les échecs devient critique, et c'est précisément ce que vise Agent View.

OutilsOutil
1 source
L'ingénierie centrée client au service de l'innovation en IA
487MIT Technology Review 

L'ingénierie centrée client au service de l'innovation en IA

Malgré des années d'investissements massifs dans la digitalisation, les grandes entreprises ne capturent en moyenne moins d'un tiers de la valeur attendue, selon une étude McKinsey. Ashish Agrawal, vice-président responsable des technologies de paiement et cartes business chez Capital One, identifie une cause structurelle : la plupart des organisations construisent leurs outils technologiques d'abord, puis cherchent ensuite à les appliquer aux besoins clients. Son équipe a inversé cette logique en adoptant ce qu'il appelle le "customer-back engineering" : partir des attentes, frictions et besoins concrets des utilisateurs, puis remonter vers les solutions techniques. Concrètement, Capital One impose à chaque ingénieur plusieurs points de contact annuels avec les clients : sessions d'empathie digitale pour observer les parcours utilisateurs, immersions au sein du support client, accompagnements terrain aux côtés des équipes commerciales, et hackathons centrés sur de vrais problèmes clients. Cette approche produit un effet multiplicateur sur l'innovation. Quand les ingénieurs sont exposés directement aux difficultés vécues par les utilisateurs, ils développent des solutions que ni les équipes produit ni les équipes commerciales n'auraient imaginées seules, car ils restent naturellement proches des systèmes et des données. L'impact est aussi motivationnel : voir concrètement comment une modification de code améliore la vie d'un client transforme l'engagement des développeurs. Avec l'IA, cet effet est amplifié. Dans le service client de Capital One, des agents conversationnels basés sur l'IA générative peuvent désormais résumer instantanément l'historique d'un échange, fournir au conseiller humain le contexte complet d'une demande et poser automatiquement des questions de suivi ciblées, des tâches qui demandaient auparavant plusieurs minutes de lecture manuelle. Le constat d'Agrawal s'inscrit dans un débat plus large sur la manière dont les grandes entreprises tirent parti de l'IA. Beaucoup ont construit des pipelines de données riches au fil des années sans en exploiter pleinement le potentiel. L'émergence des outils agentiques change la donne : combinés à un écosystème de données de qualité, ils permettent de passer des correctifs incrémentaux à une transformation à haute vélocité. Le véritable frein n'est plus technologique mais organisationnel : rapprocher les ingénieurs des clients demande une discipline managériale forte et une culture délibérément entretenue. Capital One parie que les entreprises qui réussiront à ancrer cette proximité dans leurs pratiques d'ingénierie seront celles capables d'itérer le plus vite, d'identifier les bons problèmes avant leurs concurrents, et donc de transformer l'IA en avantage compétitif durable plutôt qu'en coût technologique supplémentaire.

BusinessOpinion
1 source
OpenAI sort (enfin) l’extension Codex pour Chrome (mais il y a un hic)
488Le Big Data 

OpenAI sort (enfin) l’extension Codex pour Chrome (mais il y a un hic)

OpenAI a lancé le 7 mai 2026 une extension Chrome pour son agent de développement Codex, compatible avec macOS et Windows. L'outil permet à Codex d'opérer directement depuis le navigateur : effectuer des recherches, remplir des formulaires, consulter des tableaux de bord, ou gérer plusieurs tâches en parallèle sur différents onglets, sans mobiliser l'interface principale. L'extension s'intègre notamment avec des plateformes comme LinkedIn, Salesforce ou Gmail, ainsi qu'avec des outils internes d'entreprise qui nécessitent une session déjà authentifiée. Les premiers retours des développeurs sont enthousiastes : l'un d'eux rapporte que Codex a automatiquement détecté et fermé des doublons pour faire passer son nombre d'onglets ouverts de 77 à 42. L'équipe d'OpenAI elle-même a qualifié l'intégration de "miracle". Un bémol notable : l'extension n'est pas encore disponible pour les utilisateurs européens et britanniques, et la version Firefox n'a pas encore été annoncée. Cette extension représente un saut qualitatif dans la manière dont les agents IA s'intègrent au travail quotidien des développeurs et des professionnels. Jusqu'ici, les agents devaient souvent contourner les limitations liées à l'authentification, incapables d'accéder aux plateformes protégées sans sessions actives. En opérant directement dans Chrome, Codex peut désormais agir là où se trouve réellement le travail, c'est-à-dire dans les interfaces web des outils métier. L'agent sélectionne automatiquement le bon mode d'action selon la tâche : il utilise un plugin dédié quand une intégration existe, bascule sur Chrome quand un accès authentifié est requis, et recourt à son navigateur interne pour les environnements locaux. Ce niveau d'autonomie contextuelle réduit considérablement la friction entre l'intention de l'utilisateur et l'exécution réelle, ce qui change la proposition de valeur des agents IA pour les usages professionnels intensifs. Codex est le pari d'OpenAI sur les agents de développement autonomes, un segment en forte compétition avec GitHub Copilot Workspace, Cursor ou encore Devin de Cognition. L'extension Chrome s'inscrit dans une stratégie plus large visant à ancrer Codex dans les workflows réels plutôt que dans des environnements sandbox isolés. Sur le plan de la confidentialité, OpenAI précise ne pas conserver l'historique complet des actions dans Chrome : seuls les éléments utilisés dans le contexte de la conversation sont enregistrés, captures d'écran, textes consultés, appels d'outils. L'entreprise recommande d'éviter de transmettre des informations très sensibles, sauf nécessité vérifiée. Le comportement de l'agent est également conditionné par le paramètre "Mémoires Codex" : activé, il peut s'appuyer sur ses souvenirs enregistrés ; désactivé, il opère sans cet historique. L'absence de disponibilité en Europe reste la principale contrainte à court terme, dans un contexte réglementaire où le RGPD complique le déploiement rapide de ce type d'outil.

UEL'extension n'est pas disponible pour les utilisateurs européens et britanniques, le RGPD compliquant son déploiement rapide dans la région.

💬 L'anecdote des 77 onglets ramenés à 42 fait sourire, mais elle dit quelque chose de vrai : pour la première fois, un agent peut opérer dans les interfaces web avec session active, sans contourner les logins. C'est le verrou qui bloquait tous les agents depuis deux ans. On attendra la disponibilité en Europe, donc.

OutilsOutil
1 source
Sage et AWS veulent démocratiser l’IA agentique dans les PME
489Le Big Data 

Sage et AWS veulent démocratiser l’IA agentique dans les PME

Sage et AWS ont annoncé lors du salon Sage Future à San Francisco un renforcement significatif de leur partenariat stratégique, centré sur l'IA agentique à destination des petites et moyennes entreprises. L'accord porte sur quatre axes concrets : le développement de logiciels financiers cloud enrichis par l'IA, l'intégration des solutions Sage Developer sur Amazon Bedrock AgentCore, la distribution via AWS Marketplace, et l'accélération des migrations des outils de bureau vers le cloud. Concrètement, les agents IA de Sage automatiseront des tâches financières critiques : comptabilité fournisseurs, gestion de trésorerie, paie et rapports de conformité. Steve Hare, PDG de Sage, a résumé la philosophie du projet : "L'IA représente une opportunité majeure pour les PME, mais son adoption dépend avant tout de la confiance, des outils disponibles et de la simplicité d'intégration." Pour les PME, ce partenariat représente un changement de paradigme potentiellement significatif. Aujourd'hui, beaucoup d'entre elles s'appuient encore sur des logiciels financiers installés localement, difficiles à maintenir et inadaptés à l'IA moderne. L'enjeu n'est pas simplement de gagner du temps sur des tâches répétitives : il s'agit de permettre aux dirigeants d'accéder plus rapidement à des données financières fiables pour prendre de meilleures décisions. Via AWS Marketplace, les solutions de Sage pourront être déployées directement dans les environnements que les clients utilisent déjà, sans friction technique supplémentaire. Julia White, directrice marketing d'AWS, estime que les entreprises en croissance "ne devraient plus avoir à choisir entre simplicité et puissance technologique." Ce rapprochement s'inscrit dans une tendance de fond : selon l'International Data Corporation, les dépenses mondiales en IA devraient progresser de 31,9 % par an entre 2025 et 2029. Le marché sort de la phase expérimentale pour entrer dans un déploiement opérationnel à grande échelle, mais les PME restent à la traîne face aux coûts de modernisation et à la complexité des migrations cloud. En combinant l'expertise de Sage dans les logiciels financiers pour PME avec l'infrastructure d'AWS et la puissance de Bedrock AgentCore, les deux groupes cherchent à abaisser ces barrières. Le modèle ouvre également une opportunité aux éditeurs indépendants partenaires de Sage, qui pourront développer des applications compatibles avec AgentCore et les distribuer via la marketplace d'AWS sans reconstruire une infrastructure commerciale de zéro, ce qui pourrait accélérer l'émergence d'un écosystème d'outils financiers agentiques dédiés aux PME.

UESage étant largement déployé dans les PME françaises et européennes, ce partenariat pourrait accélérer la migration vers des logiciels comptables cloud avec IA agentique intégrée, réduisant concrètement les barrières techniques et financières pour les dirigeants de PME en France.

💬 Sage est déjà dans les compta de milliers de PME françaises, c'est ça qui rend l'annonce intéressante. Pas besoin de convaincre quelqu'un de changer d'outil, juste de lui glisser des agents dans ce qu'il utilise déjà. Reste à voir si la promesse "simple à intégrer" tient quand c'est le comptable d'une menuiserie de 12 personnes qui s'y colle.

OutilsOutil
1 source
Construire un assistant de recherche à base d'agents avec Groq, LangGraph, sous-agents et mémoire
490MarkTechPost 

Construire un assistant de recherche à base d'agents avec Groq, LangGraph, sous-agents et mémoire

Un tutoriel publié récemment détaille la construction d'un assistant de recherche agentique fonctionnant sur l'infrastructure d'inférence de Groq, en combinant LangGraph, LangChain et le modèle open source Llama 3.3 70B Versatile de Meta. L'architecture repose sur l'endpoint compatible OpenAI de Groq, disponible gratuitement via console.groq.com, ce qui permet d'utiliser l'interface ChatOpenAI de LangChain sans modifier le code en profondeur, simplement en redirigeant la clé API et l'URL de base. L'agent ainsi construit dispose d'un ensemble d'outils concrets: recherche web via DuckDuckGo, récupération de pages, lecture et écriture de fichiers, exécution de code Python, délégation à des sous-agents spécialisés, et une mémoire persistante entre les sessions. Le tout s'appuie sur des bibliothèques comme BeautifulSoup4 pour le parsing HTML et Pydantic pour la validation des données. Ce qui rend cette approche notable, c'est la combinaison d'une infrastructure gratuite et d'une architecture capable de raisonnement multi-étapes. L'agent ne se contente pas de répondre à une question: il décompose un sujet de recherche en sous-questions, interroge plusieurs sources, croise les informations pour identifier les consensus et les divergences, puis génère des rapports structurés sauvegardés dans un répertoire de sortie. La mémoire à long terme lui permet de réutiliser des connaissances acquises lors d'exécutions précédentes, évitant de recommencer from scratch à chaque session. Pour les développeurs et chercheurs qui cherchent à automatiser des workflows de veille ou d'analyse documentaire, cette architecture offre un point de départ fonctionnel sans coût d'inférence immédiat. Ce tutoriel s'inscrit dans une tendance de fond qui voit LangGraph s'imposer comme framework de référence pour les systèmes agentiques en Python, face à des alternatives comme AutoGen ou CrewAI. Groq, de son côté, mise sur la vitesse d'inférence permise par ses puces LPU propriétaires pour attirer les développeurs avec un tier gratuit généreux, dans l'espoir de les convertir en clients payants à l'échelle. L'utilisation de Llama 3.3 70B, modèle open source de Meta, illustre également la montée en puissance des modèles non propriétaires capables d'exécuter du tool calling fiable, compétence longtemps réservée aux modèles fermés comme GPT-4. La prochaine étape naturelle pour ce type de système serait l'intégration de sources structurées, une mémoire vectorielle plus sophistiquée, ou le déploiement dans des environnements de production avec contrôle des coûts.

OutilsTuto
1 source
☕️ Meta voudrait prendre sa revanche sur OpenClaw avec Hatch
491Next INpact 

☕️ Meta voudrait prendre sa revanche sur OpenClaw avec Hatch

Meta développe en secret une plateforme d'agents IA baptisée Hatch, selon des informations publiées par The Information. Les premiers tests de cet agent autonome débuteraient dès juin 2026, et des simulations ont déjà été réalisées dans des environnements web reproduisant des services populaires comme DoorDash, Etsy, Yelp et Outlook. Hatch aurait été entraîné avec les modèles Claude Opus et Sonnet 4.6 d'Anthropic, avant d'être migré vers Muse Spark, le grand modèle de langage développé en interne par Meta. Les équipes travaillent actuellement sur quatre axes prioritaires : la mémoire de l'agent, sa capacité à prendre des initiatives, la gestion des outils tiers et la compréhension de longues séquences d'informations. L'enjeu dépasse la simple course à la démonstration technologique. Ce que Meta cherche à construire, c'est une infrastructure capable de servir des milliards d'utilisateurs avec des agents qui peuvent agir de manière autonome, comprendre des objectifs complexes et travailler en continu pour les atteindre, c'est exactement la formule qu'avait décrite Mark Zuckerberg lors du dernier point de résultats de l'entreprise. En parallèle, Meta plancherait sur un agent de shopping intégré à Instagram, attendu pour le quatrième trimestre 2026 : les utilisateurs pourraient toucher un produit dans un Reel ou un fil de photos pour obtenir des informations et l'acheter directement sans quitter l'application. Une fonctionnalité de shopping en un clic avait déjà été présentée en mars 2026, Hatch représenterait la couche d'intelligence qui rendrait cette expérience vraiment fluide. Hatch ne sort pas de nulle part. Meta avait tenté d'acquérir OpenClaw, la plateforme d'agents autonomes développée par Peter Steinberger, mais celui-ci a finalement choisi de rejoindre OpenAI en début d'année, emportant son projet avec lui. Privé de cette acquisition stratégique, Meta a décidé de construire sa propre solution. Le défi est considérable : les agents IA actuels restent fragiles, enclins aux hallucinations, aux erreurs sur les prix ou les fiches produit, des imperfections que Zuckerberg a lui-même reconnues publiquement. Sur le front commercial, Meta cherche à rattraper TikTok, dont les fonctions de commerce social sont déjà bien établies. Avec Hatch côté agents et l'agent shopping côté Instagram, le groupe positionne l'IA agentique comme le prochain levier de monétisation de ses plateformes, dans une course où OpenAI, Google et Apple jouent également leurs propres cartes.

UEL'agent Hatch et l'agent shopping Instagram de Meta toucheront directement les millions d'utilisateurs européens des plateformes Meta, avec une conformité obligatoire à l'AI Act pour ces systèmes agentiques.

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative
492AWS ML Blog 

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative

Amazon Web Services a annoncé le support de MLflow version 3.10 sur Amazon SageMaker AI MLflow Apps, son service géré de suivi d'expériences machine learning. Cette mise à jour apporte des améliorations ciblées autour de l'observabilité, de l'évaluation et du développement d'applications d'IA générative. Parmi les nouveautés phares figure une API dédiée à l'évaluation, mlflow.genai.evaluation(), qui mesure automatiquement la qualité des modèles selon des critères de pertinence, de fidélité, d'exactitude et de sécurité. MLflow 3.10 introduit également un traçage amélioré pour les workflows multi-tours complexes, une intégration plus étroite avec les principaux frameworks LLM, ainsi que des tableaux de bord de performance préconfigurés affichant la distribution des latences, le nombre de requêtes, les scores de qualité et la consommation de tokens. Ces améliorations ont un impact direct pour les équipes de data scientists et d'ingénieurs ML qui développent des applications d'IA générative en production. L'API d'évaluation permet de mesurer et maintenir la qualité des modèles de manière systématique tout au long du cycle de développement, depuis l'expérimentation jusqu'au déploiement. Les tableaux de bord intégrés éliminent le besoin de configuration manuelle des graphiques, offrant une visibilité immédiate sur les coûts opérationnels et les performances des charges de travail. La notion de "workspaces" MLflow, introduite dans cette version, permet aux équipes d'organiser leurs artefacts et expériences de façon structurée à l'échelle de projets et de départements entiers, ce qui répond à un besoin croissant de gouvernance dans les organisations qui industrialisent leurs déploiements de modèles. MLflow est un framework open source lancé par Databricks en 2018, devenu une référence pour le suivi d'expériences et la gestion du cycle de vie des modèles ML. La version 3.0, publiée précédemment, avait posé les bases du traçage et de l'observabilité pour l'IA générative ; la 3.10 consolide et étend ces fondations en réponse à la montée en puissance des architectures agentiques et des workflows LLM complexes. AWS positionne SageMaker AI comme une infrastructure de niveau entreprise pour l'IA générative, en intégrant MLflow directement dans SageMaker Studio, accessible via la console AWS, l'AWS CLI ou son API. La configuration par défaut provisionne automatiquement MLflow 3.10 avec un rôle IAM et un bucket S3 préconfigurés, abaissant significativement le seuil d'adoption pour les équipes qui souhaitent passer de l'expérimentation à la production sans infrastructure supplémentaire à gérer.

OutilsOutil
1 source
Découvrez la pile de commerce à base d'agents d'AMEX : contrats d'intention et tokens à usage unique pour sécuriser les transactions IA
493VentureBeat AI 

Découvrez la pile de commerce à base d'agents d'AMEX : contrats d'intention et tokens à usage unique pour sécuriser les transactions IA

American Express développe un système permettant à des agents IA d'effectuer des achats et des paiements au nom des utilisateurs, via un kit développeur baptisé ACE (Agentic Commerce Experiences). Présenté par Luke Gebb, vice-président exécutif et responsable mondial de l'innovation chez Amex, ce dispositif repose sur une architecture en boucle fermée : Amex agit simultanément comme émetteur de carte et réseau de paiement, ce qui lui permet de valider les transactions initiées par des agents IA sans dépendre d'un intermédiaire tiers. Le kit offre aux développeurs un accès à plusieurs services intégrés : enregistrement des agents, activation de compte, gestion des intentions, émission de jetons de paiement à usage unique, contexte du panier d'achat. Amex participe par ailleurs au projet Agent Pay Protocol (AP2) de Google, centré sur l'interopérabilité entre plateformes. Ce système s'attaque à l'un des problèmes fondamentaux du commerce dit "agentique" : la confiance. Aujourd'hui, ni les consommateurs, ni les marchands, ni les banques ne veulent s'exposer aux risques qu'un agent autonome pourrait faire peser sur leurs transactions, achats non autorisés, articles impayés, fraudes ou afflux de contestations. En positionnant Amex comme premier émetteur à entrer dans cette conversation, Gebb revendique un angle mort comblé : "C'est vraiment la première fois qu'un émetteur s'assoit à la table." Contrairement à Visa ou Mastercard, qui opèrent des réseaux sans émettre de cartes elles-mêmes, Amex contrôle l'ensemble du circuit, ce qui lui donne une capacité de validation de bout en bout que ses concurrents n'ont pas. Malgré ces ambitions, le système n'est pas sans zones d'ombre. Raj Ananthanpillai, fondateur et PDG de Trua, un fournisseur de systèmes d'identité et de vérification, souligne que des outils comme ACE, la suite Agentic Commerce de Stripe ou la chaîne de preuve d'intention vérifiable de Google "excellent dans la gestion des preuves et des autorisations vérifiables, mais laissent la validation humaine en amont opaque et peu développée." Sans lien cryptographique clair prouvant qu'un agent agit sous l'autorité explicite d'un humain vérifié, les risques de répudiation, de fraude et de transactions par des personnes sous sanctions restent élevés. Amex affirme que ses agents peuvent soumettre un panier et le confronter à l'intention initiale de l'utilisateur, mais n'a pas divulgué le mécanisme exact de cette validation. C'est précisément ce manque de transparence que l'écosystème du commerce agentique devra résoudre pour atteindre une adoption à grande échelle.

UELes standards de commerce agentique en cours de définition aux États-Unis (Amex ACE, Stripe, Google AP2) pourraient devenir des références que les acteurs européens du paiement devront intégrer pour garantir l'interopérabilité, mais sans impact direct immédiat sur la France ou l'UE.

OutilsOutil
1 source
AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents
494AWS ML Blog 

AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents

Amazon a annoncé le lancement en préversion d'AgentCore Optimization, une nouvelle fonctionnalité intégrée à sa plateforme Amazon Bedrock AgentCore. Cette brique complète ce qu'Amazon appelle la boucle "observer, évaluer, améliorer" pour les agents IA en production. Concrètement, le système analyse automatiquement les traces de production, génère des recommandations d'optimisation pour les prompts système ou les descriptions d'outils, puis propose deux mécanismes de validation : l'évaluation par lot sur des jeux de données prédéfinis, et les tests A/B en conditions réelles via AgentCore Gateway, avec découpage du trafic en production à un pourcentage configurable et résultats assortis d'intervalles de confiance et de signification statistique. NTT DATA, partenaire annoncé lors du lancement, indique que des processus qui nécessitaient auparavant plusieurs semaines d'ajustement manuel de prompts peuvent désormais s'exécuter en cycles rapides et reproductibles. L'enjeu est de taille pour les équipes produit qui déploient des agents IA : la qualité d'un agent se dégrade silencieusement à mesure que les modèles évoluent, que le comportement des utilisateurs change, et que les prompts sont réutilisés dans des contextes imprévus. Jusqu'ici, la remédiation reposait entièrement sur l'intuition du développeur, lire des traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, un cycle qui introduit souvent de nouveaux problèmes en corrigeant les anciens. AgentCore Optimization remplace cette boucle artisanale par un processus systématique fondé sur les données : les recommandations sont générées à partir des traces réelles et validées avant tout déploiement, éliminant la part de pari inhérente aux corrections en aveugle. Amazon Bedrock AgentCore, déjà utilisé par des milliers de développeurs pour construire des agents capables de raisonner et d'agir dans des workflows complexes, s'enrichit ainsi d'une couche d'amélioration continue qui manquait jusqu'à présent à l'écosystème. Les grandes équipes disposent certes d'équipes scientifiques dédiées et de benchmarks centralisés, mais ces dispositifs fonctionnent sur des cycles hebdomadaires ou mensuels, pendant que les agents dérivent en production chaque jour. En intégrant la traçabilité OpenTelemetry, les évaluateurs built-in (taux de succès, précision de sélection d'outils, sécurité), et la possibilité de simuler des jeux de données via un acteur LLM jouant le rôle de l'utilisateur final, Amazon positionne AgentCore comme une plateforme complète pour industrialiser l'optimisation des agents, une capacité qui pourrait devenir un critère de choix déterminant face à des concurrents comme Google Vertex AI ou Microsoft Azure AI Foundry.

UELes équipes européennes déployant des agents IA sur Amazon Bedrock peuvent désormais automatiser l'optimisation de leurs prompts et outils, réduisant des cycles d'ajustement manuel qui duraient plusieurs semaines à des itérations rapides et reproductibles.

OutilsOutil
1 source
RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs
495VentureBeat AI 

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs

RunPod, la plateforme cloud spécialisée dans les GPU haute performance pour le développement IA, a lancé ce jeudi un nouvel outil open source baptisé RunPod Flash. Distribué sous licence MIT, cet outil Python vise à supprimer une contrainte jusqu'ici incontournable dans le développement serverless sur GPU : la conteneurisation Docker. Dans le cycle de développement traditionnel, un développeur devait écrire un Dockerfile, construire une image, la pousser vers un registre, puis attendre que l'environnement se déploie avant qu'une seule ligne de code puisse s'exécuter sur un GPU distant. Flash remplace ce processus par un moteur de build multiplateforme qui génère automatiquement un artefact Linux x86_64 depuis un Mac M-series, détecte la version Python locale, force les wheels binaires, et monte les dépendances directement à l'exécution sur la flotte serverless de RunPod. Le nouveau décorateur @Endpoint, pièce centrale de cette version GA, centralise la configuration de ce pipeline en un seul appel de fonction. L'impact concret est double. Pour les équipes de recherche, la suppression de ce que RunPod appelle la "taxe de packaging" réduit drastiquement les cycles d'itération : plus besoin de rebuilder et repousser une image à chaque modification de code. Pour les applications en production, Flash embarque des fonctionnalités de niveau entreprise, API HTTP avec load balancing basse latence, traitement par lots en file d'attente, stockage persistant multi-datacenter. L'outil permet également de construire des pipelines dits "polyglots" : un endpoint CPU bon marché peut prendre en charge le prétraitement des données avant de router automatiquement vers un GPU NVIDIA H100 ou B200 pour l'inférence. Cette architecture réduit aussi les "cold starts", ces délais à froid qui pénalisent les environnements serverless, en évitant d'initialiser de lourdes images conteneurisées à chaque requête. Derrière Flash se trouve une infrastructure réseau propriétaire SDN/CDN que RunPod a construite pour résoudre ce que son CTO Brennen Smith décrit comme le vrai problème du GPU cloud : non pas les processeurs eux-mêmes, mais le réseau et le stockage qui les relient. L'outil est explicitement conçu pour servir de substrat aux agents IA et assistants de code, Claude Code, Cursor, Cline sont cités nommément, leur permettant d'orchestrer et déployer du matériel distant de façon autonome. "Tout le monde parle d'IA agentique, mais il faut une colle solide pour que ces agents puissent réellement fonctionner", a déclaré Smith à VentureBeat. RunPod entre ainsi en compétition directe avec AWS Lambda et Modal sur le segment du serverless GPU, en pariant que la suppression de la friction de déploiement sera le facteur décisif pour les labs et équipes produit qui multiplient les expérimentations IA.

OutilsActu
1 source
Netomi lève 110 millions de dollars, Accenture et Adobe misent sur l'IA pour le service client
496VentureBeat AI 

Netomi lève 110 millions de dollars, Accenture et Adobe misent sur l'IA pour le service client

Netomi, startup basée à San Francisco spécialisée dans les systèmes d'IA pour le service client en entreprise, a annoncé jeudi avoir levé 110 millions de dollars lors d'un tour de table mené par Accenture Ventures, avec la participation d'Adobe Ventures, WndrCo, Silver Lake Waterman, NAVER Ventures, Metis Strategy et Fin Capital. Jeffrey Katzenberg, cofondateur de DreamWorks et associé directeur de WndrCo, rejoint le conseil d'administration. Ce financement s'ajoute à un premier cercle d'investisseurs prestigieux comprenant Greg Brockman (cofondateur d'OpenAI), Demis Hassabis (cofondateur de Google DeepMind) et Mustafa Suleyman (directeur de Microsoft AI). L'opération ne s'arrête pas à l'apport de capitaux : Accenture a simultanément conclu une alliance mondiale avec Netomi pour déployer la plateforme auprès de ses clients du Fortune 100, mobilisant des centaines de consultants formés à l'outil. Adobe Ventures prévoit quant à elle d'intégrer Netomi dans son écosystème agentique Brand Concierge, donnant à la startup un accès direct à la couche logicielle qu'utilisent déjà de nombreuses grandes marques pour gérer leurs sites web et leurs parcours clients. Ce tour de table révèle une fracture qui se dessine dans l'IA d'entreprise : non plus entre ceux qui disposent d'un chatbot et ceux qui n'en ont pas, mais entre ceux capables de prouver que l'IA fonctionne dans les environnements réels, complexes et fortement encadrés des grandes organisations, et ceux qui brillent surtout en démonstration. Selon le PDG Puneet Mehta, un déploiement type chez un grand compte peut générer un impact de plusieurs dizaines de millions de dollars, certains clients étant sur une trajectoire à plusieurs centaines de millions. Gartner prédit que 40 % des applications d'entreprise intégreront des agents IA spécialisés d'ici fin 2026, contre moins de 5 % en 2025. Le marché autour de Netomi illustre l'intensité des enjeux. Sierra, la startup d'agents IA dirigée par l'ex-co-PDG de Salesforce Bret Taylor, a levé 350 millions de dollars à une valorisation de 10 milliards en septembre 2025 et réalisé trois acquisitions en 2026 à lui seul. Decagon a triplé sa valorisation à 4,5 milliards de dollars en janvier 2026 lors d'une Série D à 250 millions. Salesforce, ServiceNow et Intercom intègrent tous en urgence des agents IA dans leurs plateformes existantes, le Fin AI d'Intercom ayant franchi le seuil de 100 millions de dollars de revenus annuels récurrents à 0,99 dollar par résolution. Dans ce contexte, la levée de Netomi se distingue moins par son montant que par sa construction stratégique : l'alliance entre le réseau de distribution mondial d'Accenture, la présence d'Adobe dans la gestion de l'expérience numérique et le bilan de déploiements en production de Netomi représente une tentative coordonnée d'inscrire l'IA non comme une surcouche de chatbot, mais comme l'intelligence centrale qui gouverne l'ensemble des expériences digitales des entreprises.

UELa généralisation des agents IA spécialisés dans le service client d'entreprise, 40 % des applications d'ici fin 2026 selon Gartner, concerne directement les grandes organisations françaises et européennes qui devront évaluer ces solutions dans leurs stratégies de transformation numérique.

BusinessOpinion
1 source
FlashQLA : Alibaba dévoile une arme secrète qui accélère l’IA jusqu’à 3 fois
497Le Big Data 

FlashQLA : Alibaba dévoile une arme secrète qui accélère l’IA jusqu’à 3 fois

L'équipe Qwen d'Alibaba a présenté le 29 avril 2026 FlashQLA, une bibliothèque de noyaux d'attention linéaire haute performance construite sur TileLang, un langage de programmation optimisé pour le calcul parallèle. Les chiffres avancés sont nets : la propagation avant des modèles est accélérée de 2 à 3 fois, tandis que la rétropropagation, phase critique de l'entraînement, voit sa vitesse pratiquement doubler. L'architecture repose sur une division des calculs en deux noyaux distincts plutôt qu'un bloc unifié, ce qui se traduit par une légère surcharge mémoire mais des performances réelles supérieures sur machines modestes. La rétropropagation bénéficie en particulier d'un pipeline en 16 étapes optimisé au niveau du warp avec des contraintes mémoire très faibles. Ce qui distingue FlashQLA des solutions concurrentes est sa cible explicite : les appareils personnels et l'edge computing, pas les data centers. Alibaba positionne cet outil pour faire tourner des modèles d'IA agentielle directement sur des ordinateurs portables et machines locales, réduisant la dépendance aux serveurs cloud. Les gains sont particulièrement marqués pour les petits modèles et les tâches à contexte long, deux cas d'usage centraux pour l'IA embarquée. Pour les développeurs et les entreprises qui déploient des agents IA en production, cela signifie des coûts d'inférence réduits, des latences plus faibles et une meilleure utilisation de la mémoire sans changement de matériel. FlashQLA s'inscrit dans une tendance de fond qui traverse l'ensemble de l'industrie depuis 2024 : la course à l'efficacité des modèles en dehors du cloud. Face à des coûts d'inférence toujours élevés et à des préoccupations croissantes autour de la souveraineté des données, les grandes entreprises technologiques cherchent à rapprocher la puissance de calcul de l'utilisateur final. Alibaba, via son équipe Qwen déjà connue pour ses modèles ouverts compétitifs face à GPT-4, renforce ici sa position dans l'écosystème open source en proposant une brique d'optimisation bas niveau directement utilisable par la communauté. La publication fait suite à plusieurs annonces similaires dans l'industrie, dont FlashAttention de Tri Dao ou les optimisations kernel de Meta pour Llama. Si FlashQLA tient ses promesses à l'échelle, il pourrait accélérer la migration d'une partie des charges d'inférence vers le local, rééquilibrant durablement le rapport entre cloud centralisé et calcul distribué.

UEL'axe edge computing et réduction de dépendance au cloud s'aligne indirectement avec les objectifs de souveraineté numérique européenne, mais aucun impact direct sur la France ou l'UE n'est identifiable.

InfrastructureOpinion
1 source
Simulations en continu : comment les agents IA font avancer l'ingénierie du sous-sol
498NVIDIA Developer Blog 

Simulations en continu : comment les agents IA font avancer l'ingénierie du sous-sol

L'industrie souterraine, qui englobe l'exploration pétrolière, gazière et géothermique, traverse une transformation numérique majeure portée par l'essor des agents IA capables de fonctionner en continu, 24 heures sur 24 et 7 jours sur 7. Pendant des décennies, exploiter le potentiel des réservoirs souterrains a exigé des ingénieurs spécialisés qui effectuaient manuellement des workflows complexes et chronophages. La croissance exponentielle des volumes de données géologiques et sismiques a creusé un fossé critique entre la vitesse de traitement des machines et la capacité humaine disponible, rendant les simulations à la demande pratiquement impossibles à opérer à grande échelle. L'introduction d'agents IA autonomes dans les boucles de simulation change fondamentalement cette équation. Ces systèmes peuvent enchaîner sans interruption des cycles complets de modélisation de réservoirs, ajuster les paramètres, interpréter les résultats et relancer de nouvelles itérations, sans attendre qu'un expert soit disponible. Pour les opérateurs pétroliers et les équipes d'ingénierie de réservoir, cela se traduit par une réduction drastique des délais de décision et une capacité à explorer un spectre bien plus large de scénarios géologiques en un temps réduit. Ce virage s'inscrit dans une tendance plus large d'automatisation des workflows scientifiques et industriels lourds, où l'IA agentique dépasse le simple rôle d'assistant pour devenir un acteur opérationnel autonome. Le secteur énergétique, sous pression pour optimiser l'extraction tout en réduisant les coûts et l'empreinte carbone, constitue un terrain d'expérimentation privilégié pour ces architectures. Les prochains développements devraient porter sur l'intégration de ces agents dans des pipelines de décision en temps réel, directement connectés aux données de terrain.

UELes acteurs européens du secteur énergétique, notamment dans l'exploration géothermique et pétrolière, pourraient adopter ces architectures agentiques pour réduire leurs coûts opérationnels et accélérer leurs cycles de décision.

OutilsOutil
1 source
Baidu lance GenFlow 4.0 et améliore ses agents de stockage cloud et de bureautique
499Pandaily 

Baidu lance GenFlow 4.0 et améliore ses agents de stockage cloud et de bureautique

Le 27 avril, Baidu a présenté GenFlow 4.0 lors de son événement AI Day, une mise à jour majeure de son système d'agents IA généraliste. Cette nouvelle version est désormais disponible sur les versions PC et mobile de Baidu Netdisk, le service de stockage cloud de l'entreprise, et intègre des agents spécialisés pour les tâches bureautiques sur PowerPoint, Excel et Word. Les utilisateurs peuvent lancer une tâche depuis leur mobile et la faire exécuter sur PC, créant ainsi des flux de travail multi-appareils fluides. Depuis son lancement initial en avril 2025, GenFlow a atteint 100 millions d'utilisateurs actifs mensuels et 200 millions d'exécutions de tâches par mois. La version 4.0 améliore particulièrement la reconnaissance d'intention, la décomposition de tâches complexes, la coordination entre outils et la restitution des résultats. En pratique, GenFlow 4.0 permet des enchaînements bureautiques complets : analyser des données dans Excel, générer automatiquement une présentation PowerPoint à partir des résultats, puis compiler un rapport Word, le tout sans intervention manuelle entre chaque étape. Le système s'étend également à l'édition vidéo, à la gestion de photos et aux usages pédagogiques, en exploitant les fichiers déjà stockés dans le cloud. Pour renforcer la sécurité des données, Baidu introduit une fonctionnalité "espace de travail" qui limite l'accès de l'IA aux seuls fichiers autorisés. Côté entreprise, une fonctionnalité "Team Space" permet la collaboration multi-utilisateurs et la gestion de tâches par agents, déjà adoptée par plus de 10 000 organisations. Cette annonce s'inscrit dans la course acharnée que se livrent les géants technologiques chinois pour intégrer l'IA agentique dans leurs écosystèmes productifs. Baidu, qui doit faire face à une concurrence accrue d'Alibaba, Tencent et de nouveaux acteurs comme DeepSeek, mise sur Netdisk comme point d'ancrage stratégique pour déployer ses agents au quotidien. L'intégration directe dans un service de stockage à 100 millions d'utilisateurs actifs constitue un levier de diffusion considérable, et la direction prise vers l'automatisation de tâches complexes multi-applications pourrait redéfinir les standards attendus des assistants IA en milieu professionnel.

OutilsOutil
1 source
Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM
500MarkTechPost 

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper
1 source