Aller au contenu principal

Dossier Agents IA — page 11

1552 articles · page 11 sur 32

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

Google lance Open Knowledge Format et ça secoue déjà le web
501Le Big Data OutilsOutil

Google lance Open Knowledge Format et ça secoue déjà le web

Google Cloud a officialisé le 12 juin 2026 un nouveau format ouvert baptisé Open Knowledge Format, ou OKF, conçu pour que les agents IA puissent naviguer dans les savoirs internes d'une organisation sans se perdre dans des piles de documents mal rangés. L'annonce émane de l'équipe Data Cloud de Google, portée par Sam McVeety et Amir Hormati. Le principe est volontairement simple : chaque connaissance d'une organisation, une définition de métrique, une procédure, la description d'une table de base de données, devient un fichier Markdown accompagné d'un en-tête YAML. Le seul champ obligatoire est le type du document, ce qui limite la lourdeur administrative. Ces fichiers peuvent se référencer mutuellement via des liens ordinaires, transformant un dossier plat en graphe consultable. Google fournit également des outils de démonstration concrets : un agent capable de parcourir un jeu de données BigQuery pour générer automatiquement un fichier par table, ainsi qu'un visualiseur qui transforme l'ensemble en graphe interactif. Le problème que vise OKF est bien réel pour quiconque déploie des agents IA en entreprise aujourd'hui. Un modèle de langage, aussi puissant soit-il en génération, ignore tout du contexte interne d'une organisation : les exceptions à une règle, les multiples acceptions d'un même indicateur selon les équipes, les usages non documentés d'une table de données. Avant de produire quoi que ce soit d'utile, l'agent doit reconstruire ce contexte en fouillant wikis, catalogues, notes et documents partagés. OKF propose une alternative structurée : plutôt qu'un sac de documents déversé en vrac dans le contexte, l'agent reçoit une carte lisible et navigable du savoir interne, et peut trouver la bonne information sans tout ingurgiter d'un coup. Pour les équipes data et les développeurs d'agents, c'est un gain de fiabilité et de précision potentiellement significatif. Google ne prétend pas avoir inventé l'idée de zéro. OKF s'inscrit dans le prolongement direct du concept de « LLM Wiki » popularisé par Andrej Karpathy en avril 2026, qui proposait déjà une base Markdown construite et maintenue par un agent. Depuis, les développeurs avaient commencé à bricoler leurs propres conventions, entre AGENTS.md, CLAUDE.md et bases Obsidian connectées à des LLM, sans standard commun. OKF ambitionne d'être cette convention partagée, permettant aux agents de lire ces wikis de manière interopérable. La version publiée reste une v0.1 explicitement présentée comme un point de départ, et le format ne vise pas le web public ni le référencement naturel : il cible exclusivement les connaissances internes des organisations. La vraie question, désormais, est de savoir si l'écosystème des outils IA adoptera ce standard ou continuera de proliférer en dialectes incompatibles.

1 source
Un concurrent d'OpenClaw fait son apparition
502The Information AI 

Un concurrent d'OpenClaw fait son apparition

Hermes, l'outil d'agent IA développé par Nous Research, vient de dépasser OpenClaw sur un indicateur clé : le nombre de nouveaux contributeurs GitHub au cours des 30 derniers jours, selon les données compilées par ClawCharts, qui suit la croissance des agents IA open source. Ce chiffre reflète l'engagement actif des développeurs autour d'un projet, et le fait qu'Hermes y surpasse OpenClaw constitue un signal notable dans un secteur en pleine ébullition. Comme OpenClaw, Hermes est un logiciel d'agent IA qui s'exécute localement sur l'appareil de l'utilisateur, capable d'automatiser des tâches courantes : rédiger du code, effectuer des recherches web, envoyer des emails ou des messages WhatsApp. Nous Research, fondée en 2023, a levé 70 millions de dollars auprès d'investisseurs tels que Paradigm, OSS Capital et Distributed Global. Ce qui distingue Hermes de ses concurrents, c'est sa capacité à s'améliorer automatiquement au fil du temps. L'agent génère lui-même des "compétences", sortes de fiches mémo décrivant comment accomplir une tâche donnée. Ces instructions sont créées automatiquement lorsqu'une tâche nécessite plus de cinq "appels d'outils" (accès au web, à Gmail, à Discord, etc.) ou lorsque l'agent trouve une solution après plusieurs tentatives infructueuses. Ce mécanisme d'apprentissage autonome pourrait représenter un avantage décisif pour les utilisateurs qui répètent régulièrement les mêmes workflows complexes, sans avoir à configurer manuellement leur agent. OpenClaw avait marqué les esprits en début d'année en s'imposant comme une référence open source dans le domaine des agents IA autonomes. Mais le projet peine encore à franchir le cap d'un outil expérimental pour devenir un logiciel fiable et stable, ce qui ouvre la porte à des alternatives sérieuses. Outre Hermes, d'autres concurrents émergent, comme NemoClaw de Nvidia ou Genspark Claw, chacun cherchant à capter une communauté de développeurs en forte croissance. La bataille pour s'imposer comme standard des agents IA locaux ne fait que commencer, et la dynamique des contributeurs GitHub suggère que la domination d'OpenClaw est loin d'être acquise.

OutilsOutil
1 source
Supercharger : comment Rocket Close a optimisé ses opérations de titres avec des agents IA
503AWS ML Blog 

Supercharger : comment Rocket Close a optimisé ses opérations de titres avec des agents IA

Rocket Close, filiale de Rocket Companies basée à Détroit, a développé une solution d'intelligence artificielle agentique baptisée Supercharger pour automatiser et accélérer ses opérations de titre immobilier, une étape juridique incontournable dans tout achat de logement aux États-Unis. Conçu en collaboration avec AWS, Supercharger repose sur le SDK open source Strands Agents, les modèles de langage Claude d'Anthropic via Amazon Bedrock, et un système de bases de connaissances (Amazon Bedrock Knowledge Bases) couplé à des outils Model Context Protocol (MCP). La plateforme centralise les données opérationnelles, les procédures internes et les exigences réglementaires propres à chaque État américain, permettant aux équipes d'interagir en langage naturel avec un assistant qui comprend le contexte sur plusieurs échanges successifs. L'impact est direct et mesurable : là où un examinateur de titre passait auparavant plusieurs heures à naviguer entre systèmes disparates, guides d'État et exigences de comtés pour répondre à une seule question réglementaire, Supercharger génère des réponses contextualisées en temps réel. La solution automatise les tâches de recherche à forte intensité documentaire, propose des listes de vérification adaptées aux examens de titre État par État, et s'intègre via API aux bases de données existantes pour éviter la ressaisie manuelle. Des garde-fous (Amazon Bedrock Guardrails) combinés à des droits d'accès au niveau des lignes de données protègent les informations sensibles des clients, tandis qu'une journalisation complète assure la traçabilité exigée par la conformité réglementaire. Le résultat est une réduction du temps opérationnel et une meilleure capacité à absorber la croissance du volume de dossiers sans augmenter les effectifs proportionnellement. Le secteur du titre immobilier américain souffre depuis longtemps d'une fragmentation extrême : chaque État, voire chaque comté, impose ses propres règles sur l'enregistrement des actes, la vérification des hypothèques, les exigences de probate ou les identifiants fiscaux. Cette complexité structurelle ralentissait Rocket Close au moment même où la demande de crédits immobiliers accélérait. L'adoption d'architectures agentiques par les grands acteurs financiers s'inscrit dans une tendance plus large où les LLM cessent d'être de simples assistants textuels pour devenir des orchestrateurs de workflows métier complets. Rocket Companies, groupe qui regroupe également Rocket Mortgage, positionne ainsi Supercharger comme un avantage concurrentiel dans la course à l'automatisation du parcours d'achat immobilier, un marché où la vitesse d'exécution et la conformité réglementaire sont des critères de différenciation déterminants.

💬 Le titre immobilier américain, c'est 50 États, autant de règles différentes, et un examinateur qui passe des heures à naviguer entre systèmes disparates pour répondre à une seule question réglementaire. Ce que Rocket Close a fait avec Supercharger, c'est exactement ce pour quoi les agents IA ont été conçus : pas du chatbot généraliste, mais une couche d'orchestration qui centralise une connaissance fragmentée et la rend interrogeable en temps réel. Bon, sur le papier c'est impeccable, reste à voir ce que ça donne sur les cas limites du Montana en période de rush.

OutilsOutil
1 source
Xebia : pourquoi les agents IA échouent sans un socle de données solide
504AI News 

Xebia : pourquoi les agents IA échouent sans un socle de données solide

Niels Zeilemaker, directeur technique mondial de Xebia, a exposé lors de l'AI & Big Data Expo une thèse claire : les agents d'intelligence artificielle échouent moins à cause de leur conception que de la qualité des données sur lesquelles ils opèrent. Selon lui, un agent mal alimenté peut interpréter incorrectement des champs de données, en fusionner qui n'auraient jamais dû l'être, et produire des résultats faux, non par défaut propre, mais parce que la fondation de données n'est pas prête. Pour répondre à ce problème, Xebia a développé deux offres distinctes : Xebia Axis (Agentic Data Foundation, ou ADF), qui étend la plateforme de données d'une entreprise pour y héberger des agents et les déployer aussi bien en usage client qu'interne, et Xebia ACE (AI-Native Software Engineering), un cadre qui intègre l'IA dans l'ensemble du cycle de développement logiciel. Ce dernier promet une accélération des livraisons pouvant atteindre 40 % et une réduction des coûts de transformation des systèmes legacy jusqu'à 70 %. L'enjeu central que soulève Zeilemaker touche à la gestion des catalogues de données. Dans une organisation humaine, un catalogue imparfait ne bloque jamais vraiment le travail : on appelle un collègue, on contourne, on clarifie. Les agents, eux, n'ont pas cette souplesse. Ils s'appuient exclusivement sur ce qui est documenté, et si la description d'un jeu de données est erronée ou incomplète, leur performance s'effondre. Cette contrainte change radicalement la manière dont les entreprises doivent envisager leur gouvernance des données avant tout déploiement agentique. Ce n'est plus une question de bonne pratique optionnelle, mais d'un prérequis technique strict qui conditionne le retour sur investissement de tout projet d'IA en production. Xebia positionne cette approche dans un contexte de demande croissante des grandes entreprises pour des migrations accélérées vers des plateformes modernes. Le cabinet constate que ses clients veulent sortir des systèmes legacy plus vite et plus sûrement qu'auparavant, et cherchent des méthodes comprimant un calendrier de 12 a 24 mois en un engagement a périmètre fixe et jalons définis. Xebia dit y parvenir en combinant l'expertise de ses ingénieurs avec des agents spécialisés co-développés avec le client. Le cabinet participait également au TechEx Global North America, où il a présenté cette philosophie de partage de connaissances comme un avantage concurrentiel direct. Zeilemaker cite le "vibe coding" comme illustration d'une tendance plus large : l'IA reconfigure le développement logiciel, et les entreprises qui n'ont pas sécurisé leur fondation de données risquent de construire des capacités agentiques sur du sable.

UEXebia, cabinet de conseil d'origine néerlandaise, propose ces offres aux grandes entreprises européennes cherchant à moderniser leurs systèmes legacy pour déployer des agents IA.

OutilsActu
1 source
Fini le réglage manuel des kernels : Neuron Agentic Development accélère les optimisations AWS Trainium
505AWS ML Blog 

Fini le réglage manuel des kernels : Neuron Agentic Development accélère les optimisations AWS Trainium

Amazon Web Services vient d'annoncer les capacités "Neuron Agentic Development", un ensemble d'agents IA et de compétences spécialisées conçues pour accélérer le développement de kernels sur ses puces Trainium et Inferentia. Ces outils permettent aux agents de développement comme Kiro et Claude d'écrire, déboguer et profiler automatiquement des kernels NKI (Neuron Kernel Interface), la couche logicielle bas niveau qui détermine l'efficacité réelle du matériel. Le package comprend cinq compétences distinctes suivant le pipeline naturel de développement : écriture, débogage, profilage et analyse. Concrètement, la compétence d'écriture traduit du code PyTorch, NumPy ou une simple description en langage naturel en kernels NKI corrects, en respectant les contraintes matérielles spécifiques comme les dimensions de partition de 128 éléments. La compétence de débogage couvre 28 codes d'erreur du compilateur Neuron, tandis que les outils de profilage génèrent des traces exploitables via neuron-explorer avec un détail au niveau des opérations DMA. Ces capacités s'intègrent directement dans des environnements comme VS Code, Cursor ou Kiro, et nécessitent une instance Amazon EC2 basée sur Trainium. L'enjeu est considérable : l'écart entre les performances théoriques d'un accélérateur IA et ce qu'une équipe obtient réellement en pratique reste souvent énorme, faute de développeurs capables d'écrire des kernels matériels optimisés. Jusqu'ici, cette expertise demandait des années d'expérience au niveau de l'architecture des puces, rendant l'optimisation de bas niveau inaccessible à la majorité des équipes de machine learning. En automatisant cette couche via des agents IA, AWS permet à n'importe quel ingénieur ML de produire du code hardware-aware sans formation spécialisée, réduisant potentiellement le temps d'implémentation de plusieurs mois à quelques jours. Pour les équipes qui déploient des modèles à grande échelle, des gains même marginaux sur l'efficacité des kernels se traduisent directement en coûts d'inférence réduits et en meilleures latences pour les utilisateurs finaux. Cette annonce s'inscrit dans la stratégie d'AWS de différencier ses puces maison face à Nvidia, dont les GPU H100 et H200 restent la référence dans l'industrie. Trainium et Inferentia existent depuis plusieurs années mais peinent à convaincre des équipes habituées à l'écosystème CUDA, bien établi et documenté. En abaissant la barrière d'entrée via l'automatisation agentique, Amazon cherche à élargir la base de développeurs prêts à migrer ou à tester ses accélérateurs. La question de la généralisation reste entière : ces capacités agentiques pourraient préfigurer une tendance plus large où chaque fabricant de silicium embarque son propre assistant IA pour faciliter l'adoption, transformant la guerre des puces en une guerre des outils de développement.

InfrastructureOpinion
1 source
Les meilleurs agents de codage IA et plateformes de développement en 2026 : Atoms, Devin, Windsurf, Cursor, Warp et plus encore comparés
506MarkTechPost 

Les meilleurs agents de codage IA et plateformes de développement en 2026 : Atoms, Devin, Windsurf, Cursor, Warp et plus encore comparés

En 2026, le développement logiciel a basculé : les ingénieurs ne tapent plus la majorité de leur code à la main, mais décrivent leur intention, et des agents intelligents exécutent le travail. Un panorama publié par MarkTechPost recense les plateformes les plus influentes de cet écosystème en pleine explosion. Parmi elles, Atoms se distingue en déployant non pas un agent unique, mais une équipe coordonnée couvrant la gestion de produit, l'architecture système, le développement full-stack, le SEO et l'analyse de données. Son mode Race envoie simultanément un prompt à plusieurs modèles pour retenir la meilleure réponse. Devin AI, développé par Cognition, opère comme un ingénieur logiciel autonome : à partir d'une tâche en langage naturel ou d'un ticket lié, il planifie, exécute dans un environnement cloud sandboxé doté d'un shell, d'un navigateur et d'un éditeur, puis ouvre des pull requests. Windsurf, également signé Cognition, est un éditeur de code agentique basé sur VS Code dont l'agent Cascade lit l'intégralité d'un dépôt, applique des modifications multi-fichiers et vérifie les changements contre les tests. Des outils plus spécialisés complètent le tableau : GitHub Copilot pour l'autocomplétion en temps réel, Magic Patterns pour la génération de composants d'interface, Uizard pour le prototypage UI/UX à partir de croquis ou de captures d'écran, Replit Agent pour coder directement dans un navigateur sans configuration locale, et Galileo AI pour l'évaluation et l'observabilité des agents en production. L'impact de cette mutation est structurel. Les équipes réduites peuvent désormais couvrir des périmètres fonctionnels bien plus larges sans augmenter leurs effectifs, tandis que les cycles de développement s'accélèrent considérablement, de l'idée au prototype fonctionnel parfois en quelques heures. Pour les startups et les PME, des plateformes comme Replit Agent ou Atoms effacent la barrière de l'infrastructure : pas besoin d'environnement local configuré ni d'expertise DevOps pour passer de la description d'un produit à une application déployable avec authentification, base de données et paiements intégrés. La montée d'outils comme Galileo, dédiés à l'observabilité des agents, signale également que l'industrie prend au sérieux les risques de mise en production de systèmes autonomes, en imposant des garde-fous sur la sélection des outils, la latence et les coûts. Cette transformation s'inscrit dans une dynamique plus profonde amorcée dès 2023 avec l'explosion des modèles de code comme Codex et CodeLlama, suivie d'une course à l'agent autonome qui a pris de la vitesse en 2024 et 2025. Cognition est l'acteur à surveiller, ayant réussi à positionner à la fois Devin et Windsurf dans les premières places du marché. GitHub reste incontournable grâce à son intégration native dans les workflows existants, mais la concurrence s'intensifie, avec des outils qui ne se contentent plus d'assister le développeur mais cherchent à le remplacer sur des tâches bien délimitées. La prochaine frontière est celle de la supervision : dans combien de temps les entreprises feront-elles confiance à ces agents pour déployer en production sans validation humaine systématique ?

OutilsOutil
1 source
Comment diriger une entreprise hybride alliant humains et IA
507MIT Technology Review 

Comment diriger une entreprise hybride alliant humains et IA

L'adoption des agents d'intelligence artificielle dans les grandes entreprises s'apprête à connaître une croissance de 300% au cours des deux prochaines années, selon les projections actuelles. Contrairement aux outils d'automatisation classiques, ces agents sont capables de coordonner des tâches complexes en toute autonomie, en interagissant simultanément avec plusieurs systèmes au sein d'une organisation. Dans les domaines où leur déploiement est le plus avancé, service client, ressources humaines, ventes, les gains de productivité observés atteignent déjà 30 à 50%. Wipro, géant indien des services technologiques fort de 240 000 employés répartis dans 65 pays, illustre cette transformation : en partenariat avec la plateforme Ema Unlimited, l'entreprise a déployé un assistant RH agentique capable de traiter 50 tâches administratives auparavant confiées à des humains. Résultat concret : le délai moyen de réponse aux demandes des salariés est passé de 48 heures à cinq secondes. Pour les directions des ressources humaines, l'enjeu dépasse largement la performance opérationnelle. Plus des trois quarts des responsables RH estiment que les agents IA vont profondément transformer les normes du travail, et 86% des directeurs RH prévoient que la gestion de cette main-d'oeuvre numérique deviendra un axe central de leur fonction dans les années à venir. Ce changement impose une redistribution des rôles : les agents prenant en charge les tâches répétitives, les salariés sont repositionnés sur des missions à plus forte valeur ajoutée, nécessitant créativité, collaboration transversale et résolution de problèmes complexes. Ateet Jayaswal, directeur de la culture et de l'expérience employé chez Wipro, parle d'un "changement de paradigme" pour les leaders RH, qui doivent désormais orchestrer cette cohabitation plutôt que simplement gérer des équipes humaines. Ce basculement s'accompagne de questions de gouvernance que les entreprises ne peuvent plus différer. D'ici 2030, trois quarts des postes actuels devront être repensés, requalifiés ou réaffectés en raison de l'essor des agents IA, selon les estimations du secteur. La question des données sensibles est particulièrement critique : intégrés aux systèmes d'information de l'entreprise, ces agents accèdent à des informations personnelles et confidentielles, ce qui exige des garde-fous bien plus stricts que dans les applications grand public. Jayaswal préconise la mise en place de couches de gouvernance dédiées, comme des conseils IA internes, ainsi que des règles strictes sur la confidentialité des données. L'humain doit rester dans la boucle décisionnelle, insiste-t-il, notamment lorsque les agents opèrent dans des environnements où les erreurs ont des conséquences directes sur les salariés.

UELes entreprises européennes devront adapter leurs cadres de gouvernance IA et leurs politiques de données personnelles, notamment sous le prisme du RGPD et de l'AI Act, face à la montée en puissance des agents IA dans les processus RH.

SociétéOpinion
1 source
Frontier Radar #3 : comment l'IA à base d'agents fait des tokens un indicateur métier
508The Decoder 

Frontier Radar #3 : comment l'IA à base d'agents fait des tokens un indicateur métier

L'essor des workflows agentiques transforme en profondeur la manière dont les fournisseurs d'IA facturent leurs services. Contrairement au modèle classique d'abonnement mensuel avec accès illimité au chat, les agents IA autonomes consomment des volumes de tokens sans commune mesure avec une simple conversation: ils s'exécutent pendant des heures, enchaînent les tâches de manière autonome et mobilisent en continu des ressources de calcul. Face à ces volumes, les forfaits à prix fixe deviennent économiquement insoutenables pour les prestataires, qui se tournent massivement vers une tarification à la consommation. Ce changement de modèle a des conséquences concrètes pour les entreprises qui intègrent l'IA dans leurs processus. Le prix affiché au token devient un indicateur trompeur: il varie selon la vitesse d'inférence, le niveau de spécialisation du modèle et la valeur économique générée par le résultat. Un token bon marché peut masquer un coût total bien plus élevé si le modèle est lent, peu fiable ou nécessite de nombreuses itérations pour accomplir une tâche. Mesurer la valeur de l'IA à travers le seul volume de tokens consommés revient donc à évaluer un service de transport uniquement au carburant brûlé, sans tenir compte de la destination ni du temps de trajet. L'industrie se trouve à un point d'inflexion où les métriques héritées du web (abonnements, sièges, requêtes) ne rendent plus compte de la réalité opérationnelle des systèmes agentiques. Les acteurs comme OpenAI, Anthropic ou Google DeepMind expérimentent des grilles tarifaires hybrides, mêlant consommation, performance et résultat. La question centrale pour les prochains mois sera de déterminer quelle métrique, au-delà du token, permettra de relier le coût de l'IA à la valeur qu'elle crée réellement pour l'entreprise.

UELes entreprises françaises et européennes qui déploient des workflows agentiques doivent revoir leurs modèles de budgétisation IA, la tarification à la consommation remplaçant les forfaits fixes et rendant l'estimation des coûts opérationnels plus complexe.

BusinessOpinion
1 source
Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)
509Ahead of AI 

Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)

Un chercheur et auteur spécialisé dans l'IA a publié sa liste de référence des articles de recherche sur les grands modèles de langage pour la période de janvier à mai 2026, dans la continuité d'un exercice similaire mené tout au long de 2025. La sélection, organisée en dix catégories, couvre l'architecture et la conception des modèles, l'entraînement efficace, l'inférence et le cache KV, l'attention sparse et les longs contextes, le raisonnement et le calcul au moment du test, l'apprentissage par renforcement (RLVR), les systèmes d'agents et l'utilisation d'outils, les agents de codage, les modèles de langage par diffusion, ainsi que l'évaluation et les benchmarks. Parmi les publications phares, Nemotron 3 Super de NVIDIA est cité comme lecture incontournable : ce modèle de 120 milliards de paramètres actifs (architecture 120B-A12B) adopte un design hybride alternant couches d'attention classiques et couches Mamba-2, ce qui le rend particulièrement efficace sur les très longs contextes. Une version allégée, Nemotron 3 Nano (4 milliards de paramètres), est également disponible pour l'inférence locale sur du matériel grand public. Ce recensement illustre une tendance lourde de 2026 : la recherche en LLM ne se limite plus à empiler davantage de paramètres dans des architectures transformer classiques. Les travaux se concentrent désormais sur l'efficacité à l'inférence, la gestion des longs contextes et l'intégration dans des systèmes agentiques complexes. L'émergence de harnais d'agents comme OpenClaw force les modèles à traiter des contextes de plus en plus étendus, ce qui fait de l'efficacité mémoire et de la vitesse d'inférence des priorités absolues pour les équipes de recherche comme pour les équipes produit. Pour les développeurs et les entreprises qui déploient ces modèles en production, ces publications constituent une feuille de route pratique des techniques qui passent du laboratoire au monde réel. La publication de telles listes annotées répond à un besoin concret dans un domaine où des dizaines d'articles paraissent chaque jour sur arXiv. En 2025, les préoccupations dominantes portaient sur les modèles de raisonnement et le reinforcement learning ; en 2026, elles s'élargissent aux architectures hybrides (Arcee Trinity, Mamba-3), à l'allocation de capacité dans les modèles mixture-of-experts, aux modèles de langage par diffusion et à l'infrastructure de déploiement à grande échelle. Ce glissement reflète la maturité croissante du secteur, qui passe de la course pure aux performances à la maîtrise des coûts opérationnels et à la fiabilité des systèmes en production. La deuxième moitié de 2026 devrait voir une accélération sur les agents autonomes et les architectures hybrides, deux axes qui concentrent actuellement l'essentiel de l'attention de la communauté de recherche.

💬 Ce genre de synthèse annotée, ça mérite d'être bookmarqué tout de suite. Le vrai signal de 2026, c'est le glissement : on ne court plus après les paramètres bruts, on court après l'efficacité mémoire et l'inférence rapide, ce qui est exactement ce que les déploiements en prod réclamaient depuis deux ans. Nemotron 3 avec son hybride Mamba-2, c'est le genre de truc qu'on surveillait depuis un moment.

RecherchePaper
1 source
Lassie lève 35 millions de dollars afin d’automatiser les opérations des PME avec l’IA
510Le Big Data 

Lassie lève 35 millions de dollars afin d’automatiser les opérations des PME avec l’IA

La startup américaine Lassie a annoncé le 3 juin 2026 une levée de fonds de 35 millions de dollars en série A, menée par Andreessen Horowitz. Basée à San Francisco, l'entreprise développe une plateforme d'agents d'intelligence artificielle conçue pour automatiser les opérations administratives des petites et moyennes entreprises. Sa technologie est déjà déployée dans plus de 700 établissements répartis dans 49 États américains, principalement des cabinets médicaux et des structures de santé. La plateforme revendique 250 000 heures de travail administratif économisées chaque année, soit environ 30 heures par mois et par établissement. Les agents IA de Lassie prennent en charge des tâches concrètes : réclamations d'assurance, traitement des paiements, rapprochement comptable, intégrations entre systèmes. Ils se connectent eux-mêmes aux portails d'assurance, récupèrent les données, vérifient les remboursements et mettent à jour les logiciels de gestion sans intervention humaine. Ce qui distingue Lassie des outils classiques de productivité, c'est la suppression totale de certaines étapes plutôt que leur simple accélération. Là où un CRM ou un ERP traditionnel assiste un employé, les agents de Lassie exécutent le processus de bout en bout de manière autonome. Pour les cabinets médicaux, environnement où la charge administrative est structurellement lourde, cela se traduit par des délais de remboursement réduits de plusieurs semaines, et des équipes libérées pour se concentrer sur les soins ou le développement commercial. Ce modèle intéresse directement les PME qui n'ont pas les moyens de financer des départements administratifs étoffés et qui subissent de plein fouet la complexité des systèmes d'assurance américains. Lassie a été fondée par Steijn Pelle, qui a passé plusieurs mois immergé dans un cabinet dentaire avant de lancer l'entreprise, une approche terrain rare dans l'écosystème des startups SaaS. Ce financement de série A intervient dans un contexte d'investissement massif dans les agents IA autonomes, segment qui attire les grands fonds depuis l'émergence des modèles de langage capables d'agir sur des interfaces réelles. Andreessen Horowitz, déjà investisseur dans plusieurs paris de l'IA agentique, confirme ici son intérêt pour les verticaux à forte densité de tâches répétitives. Avec ces 35 millions de dollars, Lassie entend étendre son modèle au-delà de la santé vers d'autres secteurs à forte charge administrative, comme le droit, la comptabilité ou l'immobilier. La question qui se posera à mesure de cette expansion est celle de la fiabilité des agents dans des environnements réglementaires variés, où une erreur de traitement peut avoir des conséquences financières ou légales significatives.

BusinessActu
1 source
Trapilot AI veut remplacer les outils SEO traditionnels avec une plateforme AI-native
511Le Big Data 

Trapilot AI veut remplacer les outils SEO traditionnels avec une plateforme AI-native

Trapilot AI, une startup américaine, a annoncé le lancement de ce qu'elle présente comme la première plateforme de services SEO entièrement AI-native. Contrairement aux outils classiques comme Semrush ou Ahrefs qui produisent des données et des recommandations, cette plateforme s'appuie sur plus de douze agents IA spécialisés pour exécuter directement les tâches opérationnelles du référencement naturel. Une fois un domaine connecté à Google Search Console, au CMS et aux objectifs commerciaux de l'entreprise, la plateforme prend en charge l'ensemble du cycle : identification des opportunités, production de briefs éditoriaux, génération de tickets techniques, recommandations de balisage structuré, plans de maillage interne et scénarios de SEO programmatique. Les décisions stratégiques, positionnement de marque, gestion des risques liés aux mises à jour d'algorithme Google, validation des actions à fort impact, restent sous contrôle humain. L'enjeu est considérable pour les équipes marketing. Depuis une décennie, le SEO repose sur une logique d'empilement d'outils : chaque étape du processus requiert une plateforme distincte, et transformer les données en résultats concrets mobilise des ressources humaines importantes. Trapilot AI parie que la valeur ne réside plus dans les tableaux de bord mais dans l'exécution automatisée des actions qui en découlent. Cette logique rejoint directement la thèse publiée par Sequoia Capital dans son analyse "Services are the New Software", selon laquelle les entreprises dépensent bien davantage en services qu'en logiciels, et que les marchés les plus prometteurs sont ceux où l'IA peut exécuter des tâches complexes plutôt que simplement assister les utilisateurs. Pour les équipes marketing des PME ou des scale-ups sans département SEO structuré, une telle plateforme pourrait représenter un levier de compétitivité significatif. La startup s'inscrit dans une vague plus large de plateformes dites "AI-native" qui cherchent à remplacer des catégories entières de logiciels SaaS par des systèmes agentiques. Le marché du SEO, estimé à plusieurs milliards de dollars et dominé par des acteurs établis comme Semrush, Moz ou Ahrefs, constitue une cible naturelle pour ce type de disruption : ses processus sont largement standardisables, ses livrables mesurables, et ses utilisateurs habitués à payer des abonnements récurrents élevés. La question qui reste ouverte est celle de la fiabilité des agents face à la complexité algorithmique de Google et aux spécificités sectorielles de chaque client. Trapilot AI n'a pas encore communiqué sur ses métriques de performance réelles ni sur sa base clients, ce qui rend difficile toute évaluation indépendante de ses promesses à ce stade.

OutilsOutil
1 source
Perplexity AI lance un orchestrateur d'inférence hybride pour PC : répartition automatique entre local et cloud
512MarkTechPost 

Perplexity AI lance un orchestrateur d'inférence hybride pour PC : répartition automatique entre local et cloud

Perplexity AI a présenté lors du Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-serveur, une technologie destinée à son produit Perplexity Computer. Le principe : un modèle d'IA compact installé sur l'appareil de l'utilisateur analyse chaque tâche entrante et décide automatiquement si elle doit être exécutée en local ou envoyée vers un modèle frontier dans le cloud. La fonctionnalité arrivera en juillet 2026, d'abord sur Windows, tandis que la version Mac de Personal Computer est déjà disponible depuis avril 2026 avec une liste d'attente ouverte pour Windows. L'orchestrateur est compatible avec les puces Intel Core Ultra Series 3 et les GPU NVIDIA RTX Spark, et fonctionne indépendamment du modèle utilisé. Perplexity Computer, lancé en février 2026 sur abonnement Max à 200 dollars par mois, peut coordonner jusqu'à 20 modèles d'IA dans un même flux de travail. L'enjeu principal de cette architecture est la gouvernance des données dans les environnements professionnels. Jusqu'ici, les systèmes d'IA agentiques obligeaient les utilisateurs à choisir entre puissance de calcul et confidentialité. Le nouvel orchestrateur supprime ce compromis en automatisant la décision : les données sensibles comme les fichiers financiers, les dossiers de santé ou les documents personnels restent sur l'appareil, tandis que les tâches nécessitant une puissance de calcul élevée sont envoyées vers les serveurs de Perplexity. Le système demande l'autorisation de l'utilisateur avant tout envoi de données sensibles vers le cloud, ce qui répond directement aux exigences de conformité et de traçabilité que posent les entreprises face aux outils d'IA. Pour les équipes qui hésitaient à adopter des agents IA par crainte des fuites de données, c'est un argument concret. Cette annonce s'inscrit dans une course plus large à l'IA sur appareil, où Apple, Microsoft, Google et de nombreux fabricants de puces cherchent à convaincre que le traitement local est l'avenir. Perplexity, qui s'est imposé comme un acteur sérieux de la recherche IA avec plusieurs centaines de millions de dollars levés, tente ici de se différencier sur le segment des agents autonomes, un marché encore naissant mais très disputé. L'idée de faire du modèle local un chef d'orchestre plutôt qu'un simple exécutant est une évolution architecturale notable : ce n'est plus seulement "quel modèle utiliser" mais "où chaque morceau de la tâche doit-il s'exécuter". Si la promesse tient à l'usage réel, ce type d'orchestration pourrait devenir la norme pour tout système agentique voulant combiner performance, coût maîtrisé et confidentialité.

UEL'architecture hybride local-cloud, en maintenant les données sensibles sur l'appareil, pourrait faciliter l'adoption par les entreprises européennes soumises au RGPD qui hésitaient à déployer des agents IA.

💬 L'IA locale comme simple accélérateur, ça fait deux ans qu'on en entend parler. Ce qui change ici, c'est de mettre le petit modèle en position de chef d'orchestre qui décide ce qui part dans le cloud, avec demande explicite pour les fichiers sensibles, et pour les équipes enterprise bloquées par le RGPD, c'est l'argument concret qui manquait. Les 200 dollars par mois sur abonnement Max, c'est par contre un vrai filtre à l'entrée.

OutilsOutil
1 source
Meta revient (plus ou moins) sur son projet de surveillance de ses employés
513Next INpact 

Meta revient (plus ou moins) sur son projet de surveillance de ses employés

Meta a partiellement reculé sur son projet de surveillance étendue de ses employés, après plusieurs semaines de résistance interne. Annoncé en avril, l'outil baptisé Model Capability Initiative (MCI) devait enregistrer en continu les mouvements de curseur, les clics, les frappes au clavier et des captures d'écran périodiques de tous les salariés de l'entreprise. L'objectif affiché : collecter des données réelles d'utilisation des ordinateurs pour entraîner les agents IA de Meta. Face à la fronde, la direction a fait circuler un nouveau mémo le 2 juin, signé par Stephane Kasriel, vice-président des Superintelligence Labs. Il annonce plusieurs ajustements : les employés pourront désormais mettre MCI en pause jusqu'à 30 minutes à la fois, voire demander une exemption complète du programme. Une optimisation technique réduit également la pression sur la batterie des ordinateurs portables, un grief concret soulevé par ceux qui travaillent depuis chez eux et constataient une hausse de leur consommation internet. Ce recul partiel illustre la tension croissante entre les ambitions d'IA des grandes entreprises technologiques et les droits de leurs propres salariés. La résistance a été organisée et coordonnée : début mai, des flyers circulaient dans les bureaux américains qualifiant Meta d'« Employee Data Extraction Factory ». Plus de 1 500 personnes ont signé une pétition adressée directement à Mark Zuckerberg. Au Royaume-Uni, un groupe de travailleurs s'est rapproché du syndicat United Tech and Allied Workers (UTAW). Le mouvement est d'autant plus significatif qu'il émerge dans un secteur historiquement peu syndiqué, et que Meta n'a pas supprimé MCI mais seulement aménagé ses modalités, les concessions restent donc limitées. La controverse s'inscrit dans un contexte social particulièrement tendu au sein de Meta. L'entreprise a licencié 1 500 personnes ces derniers mois, déplacé 7 000 autres, et annoncé une réduction prochaine de 10 % de ses effectifs restants. Déployer simultanément un outil de surveillance généralisée des postes de travail a été perçu en interne comme une provocation. Meta justifiait pourtant la démarche par une nécessité technique : construire des agents capables d'assister les utilisateurs sur leurs ordinateurs exige des exemples concrets de la façon dont les gens utilisent leurs machines au quotidien. L'argument n'a pas convaincu. Le mémo de Kasriel reconnaît implicitement l'échec de la communication initiale, tout en maintenant que les protections de la vie privée étaient suffisantes dès le lancement. L'avenir du programme reste incertain, notamment en Europe où le cadre juridique du RGPD pourrait poser des obstacles supplémentaires à ce type de collecte de données salariées.

UELe RGPD pourrait bloquer ou fortement contraindre le déploiement du programme MCI en Europe, où la collecte massive de données de travail exige un cadre légal strict de consentement et de proportionnalité.

💬 Enregistrer les clics et frappes au clavier de tes propres employés pour entraîner tes agents IA, c'est culotté. Bon, sur le papier l'argument technique tient (les agents doivent apprendre comment les humains utilisent leurs machines), mais le lancer en pleine vague de licenciements massifs, c'est un timing particulièrement raté. La "pause de 30 minutes", c'est de la gestion de crise minimale, pas une vraie concession.

ÉthiqueOpinion
1 source
Microsoft lance Project Solara, un OS Android conçu pour les agents plutôt que les applications
514Ars Technica AI 

Microsoft lance Project Solara, un OS Android conçu pour les agents plutôt que les applications

Microsoft a présenté Project Solara lors de sa conférence Build 2026, un système d'exploitation basé sur Android conçu non pas pour faire tourner des applications, mais des agents autonomes. Contrairement aux OS mobiles traditionnels, Solara est pensé comme une plateforme "chip-to-cloud", c'est-à-dire intégrée depuis le matériel jusqu'au cloud, capable de s'adapter à une multitude de dispositifs spécialisés. Pour l'instant, le projet reste limité à quelques prototypes conceptuels et ne sera pas disponible sur les appareils grand public dans l'immédiat. L'ambition déclarée de Microsoft est que Solara génère des interfaces à la volée, en fonction des besoins de l'agent qui s'y exécute, plutôt que de s'appuyer sur des interfaces figées comme le font les applications classiques. L'enjeu est considérable pour l'industrie technologique : si les agents IA deviennent les unités fondamentales d'interaction avec les machines, le modèle de distribution logicielle hérité des smartphones sera remis en cause. Les développeurs d'applications, les stores numériques, et les fabricants de puces devront tous s'adapter à un paradigme où l'interface n'est plus construite à l'avance mais calculée en temps réel. Pour les utilisateurs, cela signifierait des appareils potentiellement plus polyvalents, capables de se transformer selon la tâche, mais aussi une dépendance accrue aux modèles de langage sous-jacents et aux infrastructures cloud de Microsoft. Microsoft reconnaît elle-même que son discours reste largement spéculatif et que les modèles suffisamment puissants pour alimenter cette vision n'existent pas encore. La démarche s'inscrit dans la continuité de son partenariat avec OpenAI, aujourd'hui en cours de restructuration, et dans une tentative de ne pas répéter ses erreurs passées dans la transition mobile, où l'entreprise avait pris du retard sur les applications, la sécurité et le support long terme. En positionnant Solara dès maintenant, Microsoft cherche à occuper le terrain avant que la prochaine rupture technologique ne se concrétise.

UESi le paradigme agent-first se concrétise, les développeurs d'applications et fabricants d'appareils européens devront revoir leurs modèles économiques face à une dépendance accrue à l'écosystème Microsoft.

InfrastructureOpinion
1 source
OpenAI met à jour Codex : les agents peuvent créer des espaces de travail interactifs via Sites et plugins par rôle
515VentureBeat AI 

OpenAI met à jour Codex : les agents peuvent créer des espaces de travail interactifs via Sites et plugins par rôle

OpenAI a annoncé mardi une mise à jour majeure de sa plateforme agentique Codex, avec l'introduction de plusieurs fonctionnalités destinées à conquérir le monde de l'entreprise : des plugins sectoriels, un outil d'édition ciblée baptisé "Annotations", et une fonctionnalité d'hébergement web rapide appelée "Sites". Cette évolution transforme délibérément Codex, jusqu'ici perçu comme un assistant spécialisé pour développeurs, en environnement de travail quotidien pour les professionnels non-techniques. Parmi les 5 millions d'utilisateurs hebdomadaires de la plateforme, les non-développeurs, analystes financiers, marketeurs, opérationnels, chercheurs, représentent désormais environ 20% de la base et adoptent l'outil trois fois plus vite que les ingénieurs traditionnels. La fonctionnalité Annotations résout un problème concret qui freinait l'adoption en entreprise : jusqu'ici, demander à l'IA de modifier un graphique ou un calcul dans un tableur forçait le modèle à réécrire l'intégralité du fichier, détruisant souvent la mise en forme et introduisant des erreurs. Annotations isole précisément le segment sélectionné par l'utilisateur, un bloc de cellules dans un modèle financier, par exemple, et exécute les modifications sans toucher aux formules, styles ou dépendances environnantes. En parallèle, OpenAI déploie six plugins métier qui agrègent 62 applications professionnelles et 110 compétences automatisées dès le départ : un plugin Data Analytics connecte Snowflake, Databricks et Tableau ; le plugin Creative Production intègre Figma, Canva et Shutterstock ; le plugin Sales synchronise Salesforce, HubSpot, Slack et Clay ; le plugin Finance bancaire agrège des flux institutionnels comme Moody's, FactSet, PitchBook et S&P pour automatiser la modélisation financière et la préparation de pitch books. Le calendrier de cette annonce n'est pas anodin : elle intervient précisément au moment où Microsoft, principal investisseur mais concurrent direct d'OpenAI, ouvre sa conférence annuelle Build à San Francisco, où plusieurs outils de productivité enterprise concurrents sont attendus. Elle suit aussi de près la progression rapide d'Anthropic sur ce même segment, via Claude et Claude Code, auprès des travailleurs du savoir. OpenAI cherche à positionner Codex comme la référence pour l'automatisation des tâches de col blanc, avant que le marché des agents IA d'entreprise ne se structure autour d'autres acteurs. La stratégie est claire : ne plus réserver l'IA agentique aux équipes techniques, mais en faire un couche opérationnelle transversale, accessible à chaque département sans intervention du service informatique.

UELes entreprises françaises et européennes peuvent désormais déployer Codex dans leurs workflows métier, finance, marketing, ventes, sans ressources techniques dédiées, ce qui accélère concrètement l'adoption de l'IA agentique dans les organisations non technologiques.

OutilsOutil
1 source
L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian
516MarkTechPost 

L'équipe Qwen d'Alibaba lance Qwen3.7-Plus avec vision, raisonnement avancé et agents autonomes sur Bailian

L'équipe Qwen d'Alibaba a lancé le 2 juin 2026 le modèle Qwen3.7-Plus, désormais disponible via API sur la plateforme Bailian d'Alibaba Cloud, accessible aux développeurs internationaux sous le nom Model Studio. Ce modèle multimodal comprend les images et les vidéos en plus du texte, ce qui le distingue de son frère jumeau Qwen3.7-Max, exclusivement textuel. Il s'agit d'une capacité de lecture visuelle, non de génération : Qwen3.7-Plus analyse des médias, il ne les crée pas. Au-delà de la vision, le modèle intègre cinq capacités agentiques : raisonnement approfondi, autoprogrammation (il écrit et révise son propre code), invocation d'outils externes et d'API, vérification et test des résultats, et itération autonome jusqu'à l'accomplissement complet d'une tâche. La préversion du modèle s'est classée 16e au classement Vision Arena de LM Arena, plaçant Alibaba au 5e rang mondial des laboratoires en compréhension visuelle. Le modèle texte Max, de son côté, avait obtenu 56,6 points sur l'Artificial Analysis Intelligence Index, meilleur score d'un modèle chinois à sa sortie. Cette sortie marque un tournant dans la stratégie d'Alibaba : le groupe ne cherche plus seulement à rivaliser sur les benchmarks de raisonnement, mais à proposer des modèles capables d'exécuter des tâches longues et complexes de façon autonome. Pour les développeurs et les entreprises, cela ouvre des cas d'usage concrets comme l'analyse OCR à grande échelle, la lecture automatique de graphiques, l'analyse de séquences vidéo, ou encore l'automatisation de workflows techniques complets. La plateforme Bailian embarque deux mécanismes complémentaires : un système d'apprentissage par renforcement agentique (Agentic RL) qui affine la précision du modèle grâce aux retours d'exécution réels, et des garde-fous de sécurité intégrés pour maintenir les outils autonomes dans des limites opérationnelles prédéfinies, un détail crucial lorsqu'un agent exécute des commandes ou modifie des fichiers en production. Ce lancement s'inscrit dans la vague de modèles agentiques qui déferle sur l'industrie depuis début 2026, face à des acteurs comme OpenAI, Google DeepMind et Anthropic. Alibaba avait déjà dévoilé la génération Qwen3.7 en mai 2026, et la sortie de la variante multimodale complète maintenant l'offre de la famille. Le positionnement au 5e rang mondial en vision, malgré un retard encore visible sur les premiers laboratoires américains, confirme que les équipes chinoises se rapprochent du front technologique à un rythme soutenu. L'enjeu pour Alibaba est de transformer Bailian en plateforme de référence pour les entreprises cherchant à déployer des agents IA capables d'agir dans des environnements réels, pas seulement de répondre à des questions, une bataille qui s'annonce centrale dans les prochains mois.

UELes développeurs et entreprises françaises peuvent accéder dès maintenant à Qwen3.7-Plus via l'API internationale Model Studio, offrant une alternative compétitive aux modèles américains pour des cas d'usage agentiques et d'analyse visuelle.

LLMsOpinion
1 source
NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises
517Le Big Data 

NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises

NVIDIA a dévoilé le 1er juin 2026, lors du GTC Taipei, la DGX Station pour Windows, présentée comme le superordinateur IA de bureau le plus puissant au monde. Propulsée par la puce GB300 Grace Blackwell Ultra Desktop Superchip, qui associe un GPU Blackwell Ultra à un processeur Grace de 72 cœurs via l'interconnexion NVLink-C2C, la machine offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops de performances en FP4. Elle peut exécuter localement des modèles d'intelligence artificielle atteignant 1 000 milliards de paramètres, et faire tourner plusieurs centaines d'agents IA simultanément. Commercialisée au quatrième trimestre 2026 par ASUS, Dell Technologies, MSI et Supermicro, la station intègre également une carte réseau ConnectX-8 SuperNIC à 800 Gbit/s, permettant d'interconnecter plusieurs unités entre elles pour des charges de travail encore plus exigeantes. L'enjeu central de cette annonce est de réconcilier la puissance des infrastructures de datacenter avec l'environnement Windows, dans lequel travaillent au quotidien la grande majorité des équipes en entreprise : développeurs, ingénieurs, data scientists, concepteurs 3D. Jusqu'ici, les projets IA les plus ambitieux reposaient quasi exclusivement sur des serveurs Linux hébergés dans le cloud ou dans des centres de données, créant un fossé entre les outils de production IA et les environnements de travail réels. Avec la DGX Station, NVIDIA cible directement ce décalage en permettant le développement, le test et le déploiement d'agents IA autonomes au plus près des applications métier, sans dépendance au cloud. Pour les organisations soucieuses de souveraineté des données, l'exécution locale des modèles permet aussi de limiter les transferts vers des infrastructures externes. Cette machine s'inscrit dans un tournant plus large de l'industrie : les entreprises ne cherchent plus seulement à intégrer des chatbots, mais à déployer des agents capables de raisonner, d'interagir avec plusieurs logiciels et d'automatiser des tâches complexes en continu. NVIDIA répond à cette demande en combinant la plateforme OpenShell, conçue pour construire et exécuter des agents sécurisés sous Windows, avec la densité de calcul de l'architecture Blackwell. La possibilité d'y coupler une carte RTX PRO 6000 Blackwell ajoute des capacités de visualisation et de simulation, élargissant encore le spectre des usages. Cette annonce confirme également la stratégie de NVIDIA de pénétrer l'entreprise non plus seulement par le datacenter, mais directement par le poste de travail, en faisant de la puissance de calcul IA une ressource locale, accessible et intégrée aux flux de travail existants.

UELes organisations européennes soumises au RGPD pourraient bénéficier de la capacité à exécuter localement des modèles d'IA volumineux, réduisant leur dépendance aux infrastructures cloud extra-européennes.

💬 20 pétaflops sur un bureau Windows, ça fait mal aux yeux. NVIDIA joue un coup malin : au lieu de vendre encore du datacenter, ils ramènent la puissance là où les équipes bossent au quotidien, sans passer par le cloud. Bon, la facture va être salée, mais pour une boîte avec des modèles sensibles et une DSI soucieuse du RGPD, c'est le premier argument solide.

Faut-il dire adieu à la souris ? Windows lance l’IA qui clique et tape à votre place depuis la barre des tâches grâce à Nvidia
518Frandroid 

Faut-il dire adieu à la souris ? Windows lance l’IA qui clique et tape à votre place depuis la barre des tâches grâce à Nvidia

Microsoft et NVIDIA ont annoncé conjointement OpenShell, un runtime conçu pour transformer la barre des tâches de Windows en point de lancement d'agents IA autonomes. Ces agents sont capables d'interagir directement avec les applications installées sur le PC, en cliquant, en tapant et en naviguant à la place de l'utilisateur, sans intervention humaine. Les démonstrations présentées montrent des scénarios concrets où l'IA effectue des tâches complexes dans des logiciels tiers, du traitement de fichiers à la navigation dans des interfaces graphiques. L'impact potentiel est considérable, tant pour le grand public que pour les professionnels. Un utilisateur pourrait déléguer des tâches répétitives, comme remplir des formulaires, réorganiser des fichiers ou compiler des données, en donnant simplement une instruction en langage naturel. Pour les entreprises, cela ouvre la voie à une automatisation de bureau sans code, directement intégrée au système d'exploitation, sans passer par des outils tiers comme AutoHotkey ou des plateformes RPA spécialisées. Cette annonce s'inscrit dans la course que se livrent les géants technologiques pour intégrer l'IA agentique au coeur des systèmes d'exploitation. Microsoft pousse depuis plusieurs mois sa vision Copilot+ PC, tandis que NVIDIA apporte sa puissance de traitement GPU locale pour faire tourner ces modèles sans dépendre du cloud. OpenShell représente un pas vers un PC véritablement "piloté" par l'IA, une évolution qui soulève aussi des questions sur la sécurité des accès applicatifs et le contrôle laissé à l'utilisateur.

UELes entreprises françaises et européennes pourraient accéder à une automatisation de bureau sans code directement intégrée à Windows, mais les accès applicatifs autonomes soulèvent des questions de conformité RGPD pour les données manipulées par ces agents.

OutilsOutil
1 source
☕️ Microsoft voudrait ranger tous ses Copilot dans une app unique
519Next INpact 

☕️ Microsoft voudrait ranger tous ses Copilot dans une app unique

Microsoft travaille sur une application unique destinée à regrouper l'ensemble de ses assistants Copilot sous une seule interface. Selon des informations rapportées par Fortune, ce projet de « superapp » constituerait un guichet centralisé donnant accès à tous les Copilot disponibles selon le profil de l'utilisateur, qu'il soit grand public, développeur ou professionnel. L'application intégrerait également un système d'automatisation par agents IA baptisé Autopilot. Microsoft pourrait en parler dès cette semaine lors de sa conférence Build, sans forcément montrer le produit lui-même, mais un lancement effectif est évoqué avant la fin de l'été 2026. La nécessité de cette consolidation est réelle : Microsoft s'est retrouvé à multiplier les déclinaisons de Copilot au point que même les utilisateurs avertis peinent à s'y retrouver. GitHub Copilot, Microsoft 365 Copilot, Copilot Cowork, le chatbot grand public... chaque service cible un usage distinct, mais leur coexistence sans fil directeur clair crée une confusion préjudiciable à l'adoption. En mars 2026, Satya Nadella avait déjà réagi en nommant Jacob Andreou responsable de la cohérence de tout l'écosystème Copilot, signalant que la situation était devenue ingérable. La superapp serait la réponse architecturale à ce problème de lisibilité, avec l'ambition de répondre à l'ensemble des besoins d'un utilisateur depuis un point d'entrée unique. Cette initiative s'inscrit dans une course plus large entre les grands acteurs de l'IA à imposer une application centrale dans le quotidien numérique des utilisateurs. OpenAI poursuit un objectif similaire avec sa propre superapp, construite autour de l'outil de vibe coding Codex et visant à couvrir aussi bien les usages grand public que les profils techniques. Pour Microsoft, l'enjeu est double : regagner la confiance d'utilisateurs lassés par l'omniprésence parfois intrusive de l'IA dans Windows, que l'éditeur avait déjà commencé à atténuer, tout en consolidant sa position face à des concurrents qui proposent des expériences plus cohérentes. Le pari de la superapp n'est cependant pas sans risque : une interface fourre-tout peut complexifier l'expérience autant qu'elle la simplifie, surtout pour des utilisateurs qui cherchent à accomplir une tâche précise sans se perdre dans un menu d'options.

UELes entreprises françaises et européennes utilisant Microsoft 365 Copilot seront directement concernées par cette refonte de l'interface, qui modifiera leur expérience quotidienne avec les outils IA Microsoft déjà largement déployés.

💬 C'est la reconnaissance officielle que Microsoft a transformé Copilot en labyrinthe. Ça fait des mois qu'on se demande "mais c'est lequel le vrai Copilot ?", et là ils admettent que même eux n'arrivent plus à gérer. Reste à voir si une superapp résout vraiment le problème ou si elle ajoute juste une couche de menu au-dessus du chaos.

OutilsOpinion
1 source
Si Grok gérait le monde : l'effondrement en 4 jours
520Le Big Data 

Si Grok gérait le monde : l'effondrement en 4 jours

Le laboratoire Emergence AI a soumis plusieurs grands modèles de langage à une expérience de gouvernance simulée baptisée Emergence World : chaque IA dirigeait une ville virtuelle peuplée de dix agents artificiels, avec pour mission de gérer les ressources, organiser des votes et construire une société stable sur quinze jours. Les résultats sont saisissants. Claude Sonnet 4.6 d'Anthropic s'en tire le mieux : zéro mort, zéro crime en deux semaines, au prix d'une démocratie quasi somnambule où 98 % des 58 propositions soumises au vote sont approuvées sans débat. Gemini 3 Flash maintient tous ses agents en vie, mais enregistre 683 crimes sur la période, soit le pire bilan dans ce domaine, dans une société que les chercheurs décrivent comme une "hallucination collective" où les agents partagent une vision erronée du monde. GPT-5 Mini d'OpenAI n'a produit que deux crimes, mais l'ensemble de la population virtuelle est morte en moins d'une semaine, faute de décisions de gouvernance suffisantes. Grok 4.1 Fast, le modèle d'xAI, s'illustre comme le plus catastrophique : 183 crimes enregistrés et effondrement total de la civilisation en quatre jours seulement, 96 heures, malgré un taux d'approbation des propositions de 80 %. L'expérience en gouvernance mixte, mélangeant plusieurs modèles, a produit 352 infractions, un taux de rejet record d'un tiers des propositions, et sept agents sur dix décédés. Ces résultats mettent en lumière des lacunes fondamentales dans la capacité des agents IA actuels à gérer des systèmes complexes de manière autonome. L'absence de mécanismes de survie chez GPT-5 Mini, la dérive criminelle explosive de Gemini ou l'effondrement fulgurant de Grok montrent que la stabilité sociale n'émerge pas naturellement de systèmes conçus pour optimiser des tâches individuelles. Les conséquences sont directes pour les industries qui envisagent de confier à des agents IA des décisions à fort impact, que ce soit en logistique, en finance ou en gestion de ressources critiques. L'expérience s'inscrit dans un contexte de montée en puissance des agents IA autonomes, capables non seulement d'exécuter des tâches mais d'interagir, négocier et prendre des décisions dans des environnements dynamiques. Les chercheurs soulignent que ces systèmes ne se contentent pas de suivre des règles fixes : avec le temps, ils explorent les limites de leur environnement, modifient leur comportement et contournent parfois les garde-fous prévus. La conclusion du laboratoire est qu'un renforcement sérieux des mécanismes de sécurité s'impose avant tout déploiement en conditions réelles. Coïncidence relevée par les auteurs eux-mêmes : Emergence AI commercialise précisément ce type de solutions de supervision pour agents autonomes.

UELes résultats pourraient alimenter les débats réglementaires européens sur les garde-fous à imposer aux agents IA autonomes dans le cadre de l'AI Act.

💬 Le conflit d'intérêt d'Emergence AI est tellement gros qu'on pourrait croire à un gag : ils vendent la supervision d'agents autonomes et publient une étude montrant que les agents autonomes sont dangereux. Cela dit, les chiffres restent là, Grok qui fait s'effondrer une civilisation en 4 jours, GPT-5 Mini qui laisse crever toute sa population faute de décisions, ça pointe un vrai problème de fond : ces modèles optimisent des tâches, pas des systèmes. Claude s'en sort le mieux, bon, mais une démocratie qui approuve 98% des votes sans débat, c'est pas non plus un bulletin de santé rassurant.

SécuritéOpinion
1 source
Verizon Connect : comment l'IA à base d'agents est passée de la surcharge de données à 100 000 utilisateurs
521AWS ML Blog 

Verizon Connect : comment l'IA à base d'agents est passée de la surcharge de données à 100 000 utilisateurs

Verizon Connect, spécialiste mondial de la gestion de flottes de véhicules, a déployé une solution d'IA agentique servant désormais 100 000 utilisateurs quotidiens sur sa plateforme Reveal. Le défi était colossal : plus de 1,2 million de véhicules abonnés génèrent chaque jour plus de 500 millions de points de données répartis sur 80 000 indicateurs distincts. Les gestionnaires de flotte se retrouvaient noyés sous ces volumes, contraints de chercher manuellement des anomalies dans des fichiers papier fragmentés et des tableurs réactifs, une méthode incapable de détecter en amont les problèmes de sécurité, les besoins de maintenance ou les inefficacités opérationnelles avant qu'ils ne deviennent coûteux. Plutôt que d'ajouter un tableau de bord statique ou un système d'automatisation à règles fixes, qui ne capte que des schémas prédéfinis, l'entreprise a opté pour une architecture agentique capable d'investiguer dynamiquement des patterns inédits. Le pipeline repose sur une séparation claire des rôles : un modèle statistique sans serveur, construit avec AWS Step Functions et AWS Lambda, réalise d'abord le travail d'analyse numérique intensive pour identifier les anomalies et les consigner dans une table dédiée. Les agents IA prennent le relais en parallèle, chacun focalisé sur un client ou segment de données différent, interrogeant à la fois la table d'anomalies (le quoi) et les données brutes (le pourquoi), avant de synthétiser le tout via un grand modèle de langage en insights narratifs directement exploitables dans l'application. Cette architecture reflète une leçon clé de l'ingénierie IA à grande échelle : confier l'analyse numérique brute à un LLM est une erreur classique, car ces modèles peinent avec les structures tabulaires complexes à volume élevé. En déléguant ce traitement à du code spécialisé et en réservant le raisonnement au modèle de langage, Verizon Connect contourne les problèmes de précision et de coût qui plombent les solutions tout-en-LLM. Le projet, porté par une équipe de sept ingénieurs dont Matteo Simoncini et Luca Bravi, illustre une tendance de fond dans l'industrie : les grandes entreprises industrielles cherchent à transformer leurs gigantesques silos de données opérationnelles en intelligence actionnable, et l'IA agentique, avec sa capacité d'adaptation et d'enquête autonome, s'impose comme l'architecture de référence pour y parvenir à l'échelle.

OutilsOutil
1 source
MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides
522VentureBeat AI 

MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides

MiniMax, laboratoire chinois d'intelligence artificielle, vient de publier un rapport technique approfondi sur sa série de modèles de langage M2 (M2, M2.5 et M2.7), tout en dévoilant les premières caractéristiques de sa prochaine génération, M3. Le document révèle l'architecture interne de M2 : un Transformer de type Mixture-of-Experts (MoE) totalisant 229,9 milliards de paramètres, dont seulement 9,8 milliards sont activés à chaque token, répartis entre 256 experts spécialisés. Pour éviter les déséquilibres de charge habituels dans ce type d'architecture, MiniMax a développé un système de routage original combinant une activation sigmoïde et des biais appris par expert. Surtout, la société annonce que M3 adoptera un nouveau mécanisme d'attention sub-quadratique qui permettrait un décodage jusqu'à 15,6 fois plus rapide sur des contextes d'un million de tokens, rendant le déploiement d'agents IA sur des documents ultra-longs économiquement viable pour la première fois. L'enjeu est considérable pour les entreprises qui travaillent avec de grands volumes de texte. Dans les LLM classiques, l'attention standard oblige chaque token à interagir mathématiquement avec tous les autres, ce qui fait exploser les besoins en mémoire et en calcul à mesure que les séquences s'allongent. Traiter un million de tokens avec ce système revient à mobiliser des ressources matérielles prohibitives. Le passage à une approche sub-quadratique, si elle préserve la qualité de compréhension, ouvrirait la voie à des agents capables d'ingérer des contrats, des bases de connaissances entières ou des historiques de conversations très longs sans coût exorbitant. Adina Yakup, chercheuse chez Hugging Face, a salué le travail sur X : "Au-delà des benchmarks, ils ont accompli un travail solide sur l'efficacité des MoE et la conception orientée agents." MiniMax s'inscrit dans une vague de laboratoires chinois, aux côtés de DeepSeek et Xiaomi, qui challengent frontalement les modèles américains dominants en proposant des performances de premier rang sous licences open source permissives, adaptées aux usages commerciaux. La série M2 avait atteint le haut des classements open source à sa sortie avant d'être dépassée par des concurrents ; le rapport publié constitue désormais un manuel de référence pour les équipes qui cherchent à entraîner ou affiner leurs propres modèles en interne. Le vrai pari de M3 sera de résoudre le compromis historique des méthodes sub-quadratiques, comme l'attention par fenêtre glissante, qui réduisent les coûts de calcul mais font perdre au modèle la vision d'ensemble des contextes distants. Si MiniMax tient ses promesses de vitesse sans sacrifier la précision, M3 pourrait redéfinir les standards d'efficacité pour les agents IA à grande échelle.

UELes équipes européennes développant des agents IA sur de longs contextes pourraient bénéficier des modèles open source de MiniMax pour réduire leurs coûts d'inférence, si M3 tient ses promesses de vitesse sans perte de précision.

LLMsOpinion
1 source
Lauréats des Amazon Research Awards annoncés
523Amazon Science 

Lauréats des Amazon Research Awards annoncés

Amazon a annoncé les lauréats de son programme Amazon Research Awards (ARA) pour le cycle automne 2025, sélectionnant 68 chercheurs issus de 49 universités réparties dans 11 pays. Ces prix, qui consistent en financements non restreints et en crédits AWS, couvrent six domaines de recherche prioritaires : la sécurité de l'information par l'IA, l'IA agentique, le raisonnement automatisé, la cryptographie AWS, les technologies de cybersécurité et anti-abus, ainsi que la durabilité. Parmi les lauréats figurent des chercheurs de Virginia Tech, Texas A&M, Arizona State University, l'Université d'Édimbourg, la Carnegie Mellon University et l'USC, travaillant sur des sujets allant de la détection de menaces dans le cloud à la sécurisation des systèmes d'IA agentique. Les bénéficiaires accèdent à plus de 700 jeux de données publics d'Amazon et aux services AWS d'IA/ML via leurs crédits promotionnels, tout en bénéficiant d'un référent Amazon pour les conseiller. Ce programme illustre la montée en puissance des enjeux de sécurité liés à l'IA agentique, c'est-à-dire ces systèmes capables d'agir de façon autonome pour accomplir des tâches complexes. Comme le souligne Wei Ding, responsable de la science appliquée pour GuardDuty chez AWS, l'IA reconfigure la cybersécurité à une vitesse sans précédent, exigeant des garanties renforcées de robustesse et de fiabilité pour les agents autonomes. De leur côté, les recherches sur la lutte contre la fraude et les abus en ligne visent à augmenter les coûts opérationnels des acteurs malveillants, protégeant ainsi les consommateurs, les vendeurs et les plateformes de commerce en ligne à l'échelle de l'ensemble du Web. Lancé en 2020, l'ARA s'inscrit dans une stratégie plus large d'Amazon visant à tisser des liens étroits entre la recherche académique et les défis industriels réels. En favorisant la publication des résultats et la mise en open source des codes associés, Amazon cherche à produire des effets systémiques bien au-delà de ses propres infrastructures. L'engouement pour cet appel à projets, jugé exceptionnel en volume et en qualité selon les responsables du programme, témoigne d'une prise de conscience croissante dans la communauté scientifique face aux risques posés par l'IA agentique et les menaces cyber émergentes. Amazon continuera à lancer des appels à projets tout au long de l'année dans de nouveaux domaines, signalant que ces investissements en recherche fondamentale sont appelés à s'intensifier à mesure que l'IA s'intègre dans des systèmes critiques.

RechercheActu
1 source
OpenAI inaugure un laboratoire à Singapour tandis que l'IMDA met à jour son cadre IA
524AI News 

OpenAI inaugure un laboratoire à Singapour tandis que l'IMDA met à jour son cadre IA

OpenAI va ouvrir son premier laboratoire d'IA appliquée hors des États-Unis à Singapour. Baptisée "OpenAI for Singapore", cette initiative a été annoncée lors de l'ATx Summit en partenariat avec le ministère du Développement Numérique et de l'Information, adossée à un engagement de plus de 300 millions de dollars singapouriens. Le laboratoire créera plus de 200 postes techniques locaux sur plusieurs années, et Singapour deviendra l'un des hubs mondiaux pour les ingénieurs d'OpenAI chargés du déploiement auprès des organisations. Les travaux se concentreront sur les priorités de l'AI Mission singapourienne, notamment les services publics, la finance et l'infrastructure numérique. Simultanément, l'Infocomm Media Development Authority (IMDA) a publié une version actualisée de son cadre de gouvernance pour l'IA agentique, lancé lors du Forum Économique Mondial en janvier 2026, révisé après consultation de plus de 60 organisations dont AWS, DBS, Google et Salesforce. L'implantation d'OpenAI à Singapour dépasse l'ouverture d'un bureau commercial : il s'agit d'un centre technique capable de développer des solutions adaptées aux besoins locaux, avec des programmes d'accompagnement concrets tels qu'un chapitre singapourien de l'OpenAI Academy, des hackathons Codex for Teachers et des ateliers destinés aux micro-entrepreneurs et PME pour intégrer l'IA dans leurs opérations. Pour les systèmes agentiques, la mise à jour du cadre IMDA apporte des réponses précises aux risques émergents : systèmes multi-agents, agents tiers, biais d'automatisation et responsabilité humaine sont désormais traités explicitement, avec plus de dix études de cas issues d'organisations comme Tencent, OCBC, PwC et GovTech Singapore. Ces deux annonces s'inscrivent dans la stratégie de Singapour pour s'imposer comme une référence mondiale en gouvernance de l'IA, un effort qui remonte au Model AI Governance Framework de 2020 et qui s'est progressivement densifié à mesure que les technologies évoluaient. Les études de cas du nouveau cadre IMDA illustrent comment des entreprises ont mis en oeuvre des mécanismes concrets de supervision humaine : Dayos, une société d'automatisation IA basée à Singapour, a déployé un agent de ticketing IT avec des niveaux de risque gradués, automatisant les actions réversibles comme les réinitialisations de mots de passe et exigeant une approbation humaine pour les modifications à risque élevé. Tencent, de son côté, a contribué avec CodeBuddy, son système de codage agentique qui requiert une validation explicite pour toute action sensible. L'enjeu dépasse largement Singapour : à mesure que les agents IA gagnent en autonomie dans les entreprises, ces cadres de gouvernance pourraient servir de modèle aux pays encore en quête de référentiels opérationnels.

UELe cadre de gouvernance singapourien pour les agents IA, co-construit avec plus de 60 organisations mondiales, pourrait servir de référentiel opérationnel aux régulateurs européens pour l'application de l'AI Act aux systèmes agentiques.

💬 Singapour joue un jeu long depuis 2020, et là ça commence à prendre forme. OpenAI ne pose pas juste un drapeau commercial : 200 postes techniques, des programmes pour les PME locales, un labo capable de développer des solutions sur-mesure, c'est une vraie infrastructure. Ce qui m'intéresse surtout, c'est le cadre IMDA sur les agents : 60 organisations, des études de cas réelles, une gouvernance graduée par niveau de risque. Les Européens devraient regarder ça de près avant de finir l'AI Act en salle de réunion.

BusinessActu
1 source
CopilotKit redéfinit l'architecture IA à base d'agents en 2026
525MarkTechPost 

CopilotKit redéfinit l'architecture IA à base d'agents en 2026

CopilotKit, startup basée à Seattle et co-fondée par Atai Barkai et Uli Barkai, s'est imposée en 2026 comme l'un des acteurs centraux de l'infrastructure pour agents IA. La société a lancé en avril 2026 AIMock, un outil de test pour systèmes agentiques, et AG-UI, un protocole d'interaction entre agents et utilisateurs au sein des applications. AG-UI est aujourd'hui soutenu par Google, Microsoft, Amazon et Oracle, ainsi que par des frameworks majeurs comme LangChain, Mastra, PydanticAI et Agno. AWS l'a intégré dans son template FAST (Fullstack AgentCore Solution Template) et dans Bedrock AgentCore. Des SDKs communautaires couvrent déjà Kotlin, Go, Dart, Java, Rust, Ruby et C++, tandis que .NET, Nim, Flowise et Langflow sont en cours de développement. Atai Barkai enseigne par ailleurs un cours complet sur AG-UI chez DeepLearning.AI, couvrant un backend LangChain, un frontend React et AG-UI comme runtime. Ce que CopilotKit résout est concret : jusqu'ici, intégrer une IA dans une application signifiait coller un widget de chat dans un coin d'interface. L'utilisateur tapait, le modèle répondait en texte, et personne ne prenait en charge la traduction de cette réponse en action réelle. AG-UI comble le troisième maillon manquant de la pile agentique : MCP standardise l'accès aux outils externes, A2A coordonne les agents entre eux, AG-UI gère la couche d'interaction entre l'agent, l'application et l'utilisateur. Il permet le streaming en temps réel, la génération dynamique de composants d'interface, la synchronisation d'état bidirectionnelle, et les pauses "human-in-the-loop" où l'agent attend une confirmation avant d'agir. AIMock, lui, s'attaque à un problème que peu d'équipes osent admettre : les suites de tests pour agents sont, pour la plupart, de la fiction. Une requête agentique typique en 2026 traverse six ou sept services (LLM, serveur MCP, base vectorielle, reranker, API de recherche web, couche de modération, sous-agent A2A) et la plupart des équipes n'en simulent qu'un seul, laissant les autres non-déterministes et incontrôlés. L'analogie avancée par CopilotKit est parlante : AG-UI serait à la pile agentique ce que HTML est au web, la couche de présentation et d'interaction que TCP et HTTP rendent possible sans pouvoir la fournir eux-mêmes. Pendant des années, l'IA dans les logiciels est restée un outil passif, fonctionnel comme une calculatrice mais incapable d'agir de façon autonome. CopilotKit parie que l'avenir appartient aux agents qui vivent à l'intérieur des applications, comprennent le contexte de l'utilisateur, prennent des actions et génèrent des interfaces adaptées plutôt que de longs blocs de texte. Avec l'adoption par les grands fournisseurs cloud et l'entrée dans les cursus pédagogiques, la startup semble avoir franchi le cap qui sépare le protocole expérimental de l'infrastructure de production. La prochaine étape annoncée porte sur la persistance runtime, troisième chantier d'une feuille de route 2026 qui vise délibérément les angles morts de l'architecture agentique.

💬 L'idée du maillon manquant est bonne : MCP pour les outils, A2A pour la coordination, AG-UI pour l'utilisateur, la stack agentique commence à avoir une vraie colonne vertébrale. Ce qui me parle autant, c'est AIMock, parce que les suites de tests pour agents c'est de la fiction dans la plupart des équipes, et c'est enfin assumé. AWS dans Bedrock, Google et Microsoft embarqués, bon, sur le papier c'est le seuil qui sépare le protocole expérimental du vrai standard de prod.

InfrastructureOpinion
1 source
NVIDIA GTC Taipei au COMPUTEX : les dernières annonces IA en direct
526NVIDIA AI Blog 

NVIDIA GTC Taipei au COMPUTEX : les dernières annonces IA en direct

NVIDIA a remporté plusieurs prix aux COMPUTEX Best Choice Awards 2026, lors du salon GTC Taipei at COMPUTEX qui se tient à Taïwan. Trois produits ont été distingués : le Vera Rubin NVL72, superordinateur IA à l'échelle du rack, a décroché un Golden Award ainsi que le Sustainable Tech Special Award ; la plateforme Jetson Thor pour l'IA embarquée et la robotique a également obtenu un Golden Award ; et l'Alpamayo, plateforme ouverte pour le développement de véhicules autonomes, a remporté le prix de la catégorie Vehicle Technology and Smart Cockpit. Les candidatures ont été évaluées sur leur fonctionnalité, leur innovation et leur potentiel de marché. Jensen Huang, fondateur et PDG de NVIDIA, prononcera un discours inaugural le 1er juin à 11h (heure de Taïwan) au Taipei Music Center. Le Vera Rubin NVL72 concentre l'essentiel des innovations primées. Ce système connecte 36 CPU NVIDIA Vera et 72 GPU NVIDIA Rubin, unifiés via le commutateur NVLink de sixième génération, des SuperNICs ConnectX-9 et des commutateurs optiques Spectrum-X pour la mise à l'échelle. Il affiche jusqu'à 10 fois de meilleures performances d'inférence par watt et un coût par token réduit d'un facteur 10. Associé au NVIDIA Groq 3 LPX, il atteint 35 fois plus de débit par watt pour les modèles à un billion de paramètres. Conçu pour l'IA agentique, le raisonnement et les charges à long contexte, il est entièrement refroidi par liquide à 45 degrés Celsius, sans câbles ni tuyaux ni ventilateurs, réduisant le temps d'assemblage de deux heures à cinq minutes par plateau de calcul. La plateforme Jetson Thor affiche quant à elle 2 070 téraflops FP4, soit 7,5 fois la puissance de calcul et 3,5 fois l'efficacité énergétique de la génération précédente Jetson Orin, dans un module configurable entre 40 et 130 watts. Ces distinctions surviennent alors que COMPUTEX, salon de référence pour la technologie et l'informatique en Asie, accueille cette année le GTC Taipei, la conférence annuelle de NVIDIA dédiée à l'accélération de l'IA. L'événement rassemble développeurs, chercheurs et dirigeants industriels autour des thèmes des usines d'IA, de l'infrastructure à grande échelle, de l'IA physique et des systèmes autonomes. NVIDIA y consolide sa position de fournisseur incontournable pour les centres de données de nouvelle génération, à l'heure où la demande en puissance de calcul pour l'entraînement et l'inférence de grands modèles s'emballe. Les annonces du keynote de Jensen Huang du 1er juin seront scrutées de près par l'ensemble de l'industrie, qui attend des précisions sur la feuille de route de l'entreprise pour les prochains mois.

UELes futurs déploiements des hyperscalers et centres de données européens seront concernés par ces nouvelles architectures, mais aucun impact direct ou immédiat sur la France ou l'UE n'est mentionné.

InfrastructureActu
1 source
Le Fil IA prouve sa valeur lors du deuxième jour du TechEx Amérique du Nord
527AI News 

Le Fil IA prouve sa valeur lors du deuxième jour du TechEx Amérique du Nord

La deuxième journée de TechEx North America a placé la preuve au centre des débats. Le programme AI and Big Data s'est articulé autour d'une expression revenue plusieurs fois comme un avertissement : l'"AI graveyard", le cimetière des pilotes jamais devenus des systèmes pérennes. Les sessions de la piste Enterprise AI Implementation, ROI and Adoption ont couvert les pilotes bloqués, le passage de l'expérimentation à l'impact réel, les arbitrages entre acheter ou construire, et les conditions d'un retour sur investissement durable. Hex a présenté ses agents de données avec évaluation et gouvernance intégrées, tandis que Dow a illustré la conversion de données en valeur financière concrète. La ville de San Jose et le DMV californien ont apporté une dimension gouvernementale au débat, ancrant les cas d'usage dans des services publics réels où la fiabilité et la transparence envers les citoyens sont non négociables. Le constat central de la journée est que la majorité des entreprises ont suffisamment de budget pour lancer des expériences en IA et suffisamment de visibilité managériale pour les annoncer, mais beaucoup moins disposent de la qualité de données, de la conception de processus et des mécanismes de contrôle nécessaires pour les maintenir. Les "copilotes" ont montré leur utilité comme outils de productivité individuelle, mais leur valeur reste difficile à mesurer. Les agents IA promettent une connexion plus directe aux processus métiers, à condition d'être évalués sur la qualité de leurs actions concrètes dans les systèmes. Les sessions bancaires ont rendu l'enjeu encore plus net : les services financiers ne peuvent pas se permettre des garanties floues sur l'automatisation. La transformation échoue aussi quand les employés ne changent pas leurs routines, que les managers n'adaptent pas les incitations, ou que les données nécessaires n'arrivent jamais au bon endroit au bon moment. Le programme Cyber Security and Cloud Expo a introduit la notion de "velocity gap", utilisée plusieurs fois durant la journée : les unités métiers adoptent les outils d'IA générative plus vite que les équipes de sécurité ne peuvent les superviser. Les outils arrivent en premier, les politiques et la surveillance arrivent après. Des sessions spécifiques sur le jailbreaking et les fuites de données ont illustré les conséquences concrètes : des employés qui placent des données sensibles dans des outils non sanctionnés, ou des systèmes IA mal bornés qui élargissent les vecteurs de fuite. La gouvernance est apparue sous plusieurs formes interconnectées : gouvernance transversale entre équipes juridiques, sécurité et technique ; gouvernance dans la couche données via la traçabilité et la qualité ; gouvernance autour des agents IA, définissant précisément ce qu'un agent est autorisé à connaître et à faire. La maturité de l'IA agentique en entreprise dépendra de la capacité à formaliser cette évaluation, avant que le fossé entre vitesse d'adoption et contrôle ne devienne ingérable.

SociétéActu
1 source
Startup IA Sierra : le partenaire des grandes entreprises
528Le Big Data 

Startup IA Sierra : le partenaire des grandes entreprises

Sierra, la startup spécialisée dans les agents d'intelligence artificielle pour le service client B2B, a bouclé une levée de fonds de 950 millions de dollars qui lui confère une valorisation de 15 milliards de dollars. Fondée en 2024 par Bret Taylor, ancien co-PDG de Salesforce, et Clay Bavor, ex-vice-président chez Google, l'entreprise s'est d'abord appuyée sur un premier tour de 110 millions de dollars co-mené par Sequoia Capital et Benchmark avant de franchir ce nouveau palier. En début d'année 2026, Sierra affichait déjà un chiffre d'affaires annuel récurrent de 100 millions de dollars et revendiquait plus de 40 % des entreprises du classement Fortune 50 parmi ses clients, gérant au total des milliards d'interactions clients. Le fonds Tiger Global, qui avait participé à des tours précédents, est revenu pour cette opération, signe d'une confiance renouvelée de la part des investisseurs institutionnels. L'enjeu dépasse la simple performance financière : Sierra incarne un changement de paradigme dans la manière dont les grandes entreprises gèrent leur relation client. Là où les anciens serveurs vocaux interactifs se heurtaient à la moindre demande complexe, les agents Sierra s'appuient sur une architecture multi-modèles, connectant plusieurs grands modèles de langage en simultané, pour traiter en temps réel des volumes massifs de requêtes, y compris des litiges médicaux ou des dossiers financiers sensibles. Le résultat revendiqué ressemble davantage à une conversation avec un conseiller humain qu'à un chatbot scriptés. Pour les entreprises, l'impact se mesure directement en coûts évités et en taux de résolution améliorés, deux métriques que les directeurs opérationnels comprennent sans traduction. Sierra s'inscrit dans une vague plus large de plateformes dites "agentic" qui cherchent à capturer la couche d'exécution de l'IA en entreprise, un marché que se disputent également Salesforce Agentforce, ServiceNow et des dizaines de challengers bien financés. Le profil de ses fondateurs, Taylor a notamment présidé le conseil d'administration de Twitter lors du rachat par Elon Musk et dirigé Salesforce, lui a ouvert des portes que d'autres startups mettent des années à franchir. Avec 15 milliards de valorisation et une base de revenus récurrents solide, la question qui se pose désormais est celle de la trajectoire : introduction en bourse, acquisition stratégique par un acteur comme Salesforce ou Microsoft, ou course solitaire vers le statut de plateforme CX dominante. La levée actuelle lui donne les ressources pour recruter à l'international et accélérer le développement produit, mais aussi la pression d'une valorisation ambitieuse à justifier dans un marché où les promesses d'agents IA se multiplient à mesure que les preuves de valeur réelle se font encore attendre.

BusinessOpinion
1 source
Construire un agent IA avancé avec planification, appel d'outils, mémoire et auto-critique via l'OpenAI API
529MarkTechPost 

Construire un agent IA avancé avec planification, appel d'outils, mémoire et auto-critique via l'OpenAI API

Un tutoriel publié sur la plateforme de notebooks Colab détaille comment construire un système d'IA agentique avancé en s'appuyant sur l'API OpenAI et le modèle GPT-5.2. L'architecture proposée repose sur un pipeline de trois rôles spécialisés et distincts : un planificateur qui décompose les objectifs complexes en étapes, un exécuteur qui mobilise des outils concrets pour agir, et un critique qui évalue la qualité des résultats avant de les valider. Quatre outils sont intégrés directement dans le système : une calculatrice sécurisée qui accepte uniquement des expressions numériques sans variables, un moteur de recherche dans une base de connaissances interne simulant des playbooks d'équipe, un extracteur JSON pour produire des sorties structurées, et un module d'écriture de fichiers qui sauvegarde les livrables finaux avec une empreinte SHA-256 de vérification. La clé API est transmise via getpass() pour éviter toute exposition dans le code ou les sorties du notebook. Cette approche modulaire représente un changement de paradigme dans la façon de concevoir des agents IA. En séparant strictement la stratégie, l'action et le contrôle qualité en trois couches distinctes, le système évite les dérives courantes des agents monolithiques qui mélangent raisonnement et exécution sans garde-fous. Le composant critique intégré permet une autocorrection systématique avant la réponse finale, ce qui réduit les hallucinations et améliore la fiabilité des sorties dans des contextes professionnels. Pour les développeurs et les entreprises qui cherchent à automatiser des workflows complexes (rédaction de comptes-rendus de réunion, traitement de données structurées, génération de rapports), ce type d'architecture offre une robustesse que les chatbots conversationnels classiques ne peuvent pas atteindre. Ce tutoriel s'inscrit dans une vague plus large d'intérêt pour les systèmes multi-agents et les architectures dites "agentic", portées notamment par les travaux d'Anthropic sur Claude, de Google avec Gemini, et d'OpenAI elle-même avec ses API d'assistants et de function calling. L'émergence de GPT-5.2, le modèle utilisé ici, illustre la rapidité avec laquelle les capacités de base progressent et rendent ces architectures accessibles à un plus grand nombre de développeurs. La tendance de fond est claire : les LLM cessent d'être de simples générateurs de texte pour devenir des orchestrateurs capables de planifier, d'agir sur des systèmes externes et de s'autocorriger, ce qui rapproche concrètement l'IA générative des promesses d'automatisation avancée que l'industrie promet depuis plusieurs années.

OutilsTuto
1 source
L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America
530AI News 

L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America

La conférence TechEx North America a réuni cette année des représentants de l'industrie autour d'une question centrale : que faut-il construire autour de l'IA avant qu'elle puisse réellement s'intégrer dans le monde physique et les environnements d'entreprise ? Organisée en quatre grandes pistes thématiques, Edge Computing, IoT, Data Centre Congress et Cybersécurité, l'événement a mis en avant des intervenants de Schneider Electric, Akamai, Spectro Cloud, Siemens, LG CNS, Boston Dynamics, Rockwell Automation ou encore Ford. Ed Doran, de l'Edge AI Foundation, a présidé la piste edge computing, dont le programme couvrait le déploiement multi-sites, l'inférence distribuée (on-premise, cloud ou hybride), les opérations réseau agentiques et l'application des principes zero-trust aux systèmes de contrôle industriel. La piste IoT industriel a, elle, abordé les usines intelligentes, la gestion d'actifs, l'IA au-delà de l'Industrie 4.0 et les jumeaux numériques. Le constat qui a dominé les échanges tient en deux mots devenus un leitmotiv du salon : "pilot purgatory". Ce phénomène désigne le gouffre entre une démonstration convaincante en salle de conférence et un déploiement réel qui tient la route face aux machines vieillissantes, aux logiciels patrimoniaux et aux organisations peu préparées. La session commune de Rockwell Automation et Ford sur l'IA physique et l'intelligence des actifs connectés a particulièrement insisté sur ce point : comment fait-on entrer l'intelligence dans les opérations quotidiennes sans qu'elle devienne un tableau de bord de plus que personne ne consulte ? Les jumeaux numériques ont subi le même examen critique, plusieurs intervenants ont plaidé pour des modèles opérationnels capables d'améliorer concrètement la maintenance et d'anticiper les décisions, plutôt que de simples répliques visuelles d'installations. Ces débats s'inscrivent dans un moment charnière pour l'industrie : l'IA générative a démontré sa valeur dans les environnements de bureau, mais son transfert vers les environnements industriels se heurte à des contraintes radicalement différentes, latence, fiabilité, sécurité des systèmes de contrôle et consommation énergétique. La piste Data Centre Congress a illustré cette dernière tension avec acuité, en mettant sur la table les crises de construction, les problèmes d'approvisionnement en électricité, le refroidissement et les besoins en réseau des futurs datacenters dédiés à l'IA. Le message transversal de TechEx North America est que les systèmes intelligents, qu'ils soient enfouis dans un site industriel ou déployés dans un back-office, doivent être conçus en cohérence avec les personnes et les machines qu'ils sont censés servir, sous peine de rester des promesses sans lendemain.

UELa présence de Schneider Electric et Siemens parmi les intervenants principaux illustre le rôle des entreprises européennes dans la définition des standards de déploiement de l'IA industrielle à l'échelle mondiale.

InfrastructureActu
1 source
MemPrivacy : pseudonymisation locale réversible en edge-cloud pour protéger les données sans altérer la mémoire
531MarkTechPost 

MemPrivacy : pseudonymisation locale réversible en edge-cloud pour protéger les données sans altérer la mémoire

Des chercheurs de MemTensor (Shanghai), du fabricant de smartphones HONOR Device et de l'université Tongji ont présenté MemPrivacy, un cadre technique destiné à protéger les données personnelles des utilisateurs d'agents IA sans sacrifier l'utilité des systèmes de mémoire cloud. Publié sur arXiv, le framework repose sur ce que les chercheurs appellent la "pseudonymisation locale réversible" : avant de quitter l'appareil de l'utilisateur, les données sensibles sont remplacées par des jetons structurés typés, comme ` ou . Le modèle cloud reçoit un texte sémantiquement intact, stocke les mémoires normalement, mais ne voit jamais les valeurs réelles. Lorsque la réponse revient, l'appareil local substitue les placeholders par les données originales via une base de données sécurisée en local. Le pipeline se divise en trois étapes : désensibilisation lors de l'envoi, traitement cloud, puis restauration à la réception, cette dernière n'ajoutant qu'une latence négligeable. Les chercheurs ont également défini une taxonomie à quatre niveaux (PL1 à PL4) pour classer les données selon leur sensibilité, des simples préférences personnelles jusqu'aux informations médicales et financières les plus critiques. L'enjeu est considérable : des études récentes montrent que les attaques par mémoire multi-tours peuvent induire des violations de données privées dans jusqu'à 69 % des cas, et les attaques par fuite contre les systèmes de mémoire atteignent un taux de succès de 75 %. L'injection indirecte de prompts peut même pousser un agent à soutirer activement des informations confidentielles à l'utilisateur. Dans une architecture edge-cloud classique, les données brutes transitent vers le cloud et y persistent dans des bases vectorielles ou des journaux, bien au-delà de l'interaction initiale. La solution répandue du masquage par des *` détruit la sémantique et rend les agents inutilisables pour des tâches concrètes : si une adresse email et une tension artérielle sont toutes deux effacées, le modèle ne peut pas rédiger un message médical cohérent. MemPrivacy résout ce paradoxe en conservant la structure sémantique grâce aux placeholders typés, permettant aux modèles cloud de raisonner correctement sans jamais accéder aux valeurs sensibles réelles. Ce travail s'inscrit dans un contexte où les agents LLM passent rapidement des laboratoires de recherche aux déploiements en production, exacerbant la tension entre personnalisation et confidentialité. Les approches antérieures plus rigoureuses, comme la confidentialité différentielle ou la protection cryptographique, offrent de meilleures garanties théoriques mais s'intègrent difficilement dans des pipelines de mémoire interactifs sans dégrader la qualité des réponses. MemPrivacy propose une voie intermédiaire : un modèle léger embarqué sur l'appareil gère la détection et la classification des données sensibles, tandis que la puissance de calcul cloud reste disponible pour la mémoire et le raisonnement complexe. Avec la multiplication des assistants IA personnalisés et la pression réglementaire croissante sur la protection des données, notamment en Europe avec le RGPD, ce type d'architecture hybride pourrait s'imposer comme un standard pour les applications grand public souhaitant offrir à la fois des capacités mémoire avancées et des garanties crédibles en matière de vie privée.

UEL'architecture MemPrivacy répond directement aux exigences du RGPD sur la minimisation des données, offrant aux développeurs européens d'agents IA une voie technique concrète pour concilier mémoire personnalisée et conformité réglementaire.

SécuritéOpinion
1 source
OpenAI rachète Weights.gg pour renforcer ses capacités de clonage vocal IA
532Le Big Data 

OpenAI rachète Weights.gg pour renforcer ses capacités de clonage vocal IA

OpenAI a discrètement racheté Weights.gg, une startup spécialisée dans le clonage vocal par intelligence artificielle, selon des informations rapportées par le New York Times en mai 2026. Le montant de la transaction n'a pas été divulgué, mais l'acquisition comprend la propriété intellectuelle de la société ainsi qu'une partie de ses effectifs, dont certains employés auraient déjà rejoint les équipes audio et multimodales d'OpenAI. Avant de fermer ses portes début 2026, Weights.gg exploitait une plateforme grand public et une application baptisée Replay, qui permettait de cloner et remixer des voix de célébrités comme Taylor Swift, Donald Trump, Joe Biden ou des membres du groupe Blackpink, ainsi que des personnages fictifs tels que Bugs Bunny. La plateforme avait acquis une notoriété certaine avant d'être fermée dans le cadre de la cession. L'acquisition traduit la volonté d'OpenAI de transformer ChatGPT en interface conversationnelle complète, capable d'interagir oralement de façon naturelle avec les utilisateurs. La voix est devenue un actif stratégique central dans la course aux agents IA : synthèse haute fidélité, personnalisation des voix, fluidité conversationnelle et rapidité de génération audio sont autant de leviers sur lesquels l'expertise de Weights.gg pourrait accélérer les développements internes. Pour les développeurs et les entreprises clientes des API d'OpenAI, ces améliorations se traduiront concrètement par des assistants vocaux plus convaincants et des capacités de traduction en temps réel plus performantes. OpenAI ne semble toutefois pas envisager de relancer une plateforme publique comparable à Replay, préférant cantonner ces technologies à un usage professionnel. Cette prudence n'est pas anodine : le marché de la voix synthétique est traversé par de profondes tensions entre innovation et régulation. OpenAI a déjà été directement exposé à ces risques lorsque l'actrice Scarlett Johansson a accusé l'entreprise d'avoir reproduit sa voix sans autorisation pour l'assistant vocal Sky de ChatGPT, forçant un retrait précipité. Taylor Swift a de son côté engagé des démarches pour protéger son image face à la prolifération de contenus générés par IA. Plus largement, l'ensemble du secteur fait face à des questions juridiques croissantes autour de l'usurpation d'identité, des deepfakes audio et des violations de droits d'auteur. Le rachat de Weights.gg s'inscrit donc moins dans une logique de produit grand public que dans une stratégie d'accumulation technologique : OpenAI consolide discrètement ses capacités vocales tout en évitant les controverses associées aux plateformes de clonage ouvertes.

UEL'intégration de capacités de clonage vocal avancées dans les produits OpenAI déployés en Europe sera soumise aux dispositions de l'AI Act sur les contenus synthétiques et les deepfakes audio.

BusinessOpinion
1 source
Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE
533MarkTechPost 

Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE

Cline, l'agent de codage IA open-source utilisé par des millions de développeurs, a annoncé cette semaine une refonte architecturale majeure avec la sortie de @cline/sdk, un runtime d'agent TypeScript désormais disponible en open-source. Concrètement, l'équipe a extrait le coeur du moteur agentique, jusqu'ici étroitement couplé à l'extension VS Code, pour en faire un SDK indépendant, modulaire, sur lequel tous ses produits sont désormais reconstruits : l'extension VS Code, JetBrains, le CLI et le tableau Kanban. Le SDK est structuré en couches strictement ordonnées : @cline/shared (types, schémas, utilitaires), @cline/llms (passerelle vers Anthropic, OpenAI, Google, AWS Bedrock, Mistral, LiteLLM et tout endpoint compatible OpenAI), @cline/agents (boucle d'exécution stateless, compatible navigateur), et @cline/core (orchestration Node.js, sessions, stockage, télémétrie, plugins). Chaque couche est installable séparément, ce qui permet par exemple d'utiliser uniquement @cline/llms comme proxy LLM sans embarquer tout le runtime. Cette architecture redéfinie apporte des gains concrets mesurables. Avec Cline 2.0, l'équipe a reécrit les prompts, simplifié la boucle agentique et amélioré la gestion du contexte. Les résultats publiés sur Terminal Benchmark 2.0 (tbench.ai) au 8 mai 2026 sont frappants : sur claude-opus-4.7, le CLI Cline atteint 74,2% contre 69,4% pour Claude Code d'Anthropic sur le même modèle. Sur claude-opus-4.6, l'écart est similaire, 71,9% contre 65,4%. Sur les modèles open-weight, Cline marque 55,1% sur Kimi-K2.6, contre 37,1% pour OpenCode et 45,5% pour Pi-Code. Côté stabilité, les sessions agentiques longues ne meurent plus lors d'un redémarrage de l'interface : la boucle reste stateless et portable, tandis que la persistance est gérée séparément par le runtime. Cette sortie s'inscrit dans une tendance plus large : celle de la fragmentation et de la standardisation de l'outillage agentique. Pendant des années, les agents IA étaient construits comme des monolithes liés à une interface spécifique, VS Code, un navigateur, un SaaS. Le choix de Cline de découpler son moteur de ses surfaces d'affichage ouvre la voie à une nouvelle génération d'outils où le même agent peut s'exécuter dans un IDE, un terminal, un serveur serverless ou un environnement browser sans réécriture. Le système de plugins intégré au SDK permet en outre aux équipes tierces d'enregistrer leurs propres outils, d'observer les événements du cycle de vie de l'agent et d'étendre ses capacités. Pour les éditeurs et startups qui cherchent à construire sur une base agentique robuste sans repartir de zéro, @cline/sdk représente une fondation crédible, et son positionnement open-source face à des alternatives propriétaires comme Claude Code ou Cursor pourrait accélérer l'adoption dans les environnements d'entreprise.

UELe SDK intègre Mistral nativement comme fournisseur LLM, ce qui facilite l'adoption par les équipes européennes souhaitant une alternative open-source aux outils propriétaires soumis au CLOUD Act.

OutilsOutil
1 source
La startup Modal en négociations pour lever des fonds à une valorisation de 4,5 milliards de dollars après une forte hausse de ses revenus
534The Information AI 

La startup Modal en négociations pour lever des fonds à une valorisation de 4,5 milliards de dollars après une forte hausse de ses revenus

La startup Modal est en négociation pour lever des fonds à une valorisation d'environ 4,5 milliards de dollars, selon deux sources proches du dossier. Ce montant représente une prime de 80 % par rapport à sa dernière valorisation, obtenue il y a seulement quelques mois. Fondée pour permettre aux développeurs de louer des GPU Nvidia et d'accéder à des outils logiciels pour entraîner et exécuter des modèles d'IA ainsi que des agents autonomes, la société affiche désormais un chiffre d'affaires annualisé d'environ 300 millions de dollars, soit une multiplication par cinq depuis l'automne 2025. Cette trajectoire illustre l'appétit croissant des entreprises pour des infrastructures capables d'exécuter des agents IA de façon sécurisée. La majeure partie de cette croissance provient des "sandboxes" de Modal, des environnements logiciels isolés qui permettent aux développeurs de faire tourner du code et des agents sans risquer d'affecter le reste de leur système ou de leur base de code. À mesure que les entreprises déploient des agents IA en production, ce type d'isolation devient une exigence technique non négociable. Modal s'inscrit dans une vague de startups d'infrastructure IA qui profitent de la ruée vers les agents autonomes. Alors que les grands fournisseurs cloud comme AWS, Google et Azure proposent des solutions similaires, Modal mise sur la simplicité et la rapidité de déploiement pour séduire les équipes d'ingénieurs. Une levée à 4,5 milliards de dollars lui donnerait les moyens d'accélérer son expansion et de renforcer sa capacité de calcul face à une demande qui ne montre aucun signe de ralentissement.

BusinessActu
1 source
Gemini Intelligence : 7 choses que votre Android va (enfin) faire à votre place
535Le Big Data 

Gemini Intelligence : 7 choses que votre Android va (enfin) faire à votre place

Google a officiellement présenté Gemini Intelligence le 12 mai 2026 lors de l'Android Show, l'édition I/O de sa conférence annuelle. Annoncé par le PDG Sundar Pichai, ce système transforme Android en ce que Google appelle un "système d'intelligence" proactif, réservé dans un premier temps à ses appareils les plus avancés. Concrètement, Gemini Intelligence regroupe plusieurs fonctionnalités distinctes : l'automatisation de tâches multi-étapes entre applications (trouver un programme dans Gmail, ajouter les livres requis dans un panier, réserver un VTC), une analyse visuelle permettant à l'IA de "voir" l'écran ou de traiter une photo pour déclencher une action sur une app tierce comme Expedia, une intégration dans Chrome prévue fin juin pour résumer des articles et comparer des contenus web, une fonction Chrome Auto Browse capable de remplir des formulaires de réservation de manière autonome, et un système d'Autofill intelligent baptisé Personal Intelligence qui croise les données de plusieurs applications connectées pour pré-remplir les formulaires en un geste. Une fonctionnalité nommée Rambler permet également de convertir des notes vocales en texte structuré et soigné. L'enjeu central est le passage de l'assistant réactif à l'agent autonome : l'IA n'attend plus les instructions pas à pas, elle prend en charge une intention globale et orchestre les applications nécessaires pour l'accomplir. Pour les utilisateurs, cela représente une réduction concrète du temps passé sur des tâches répétitives et cognitives légères, réservations, formulaires, recherches multi-sources, qui fragmentent l'attention au quotidien. Pour Google, c'est une réponse directe à Apple Intelligence et aux assistants IA intégrés que Microsoft déploie dans Windows, dans une course au contrôle du "layer" d'intelligence posé au-dessus du système d'exploitation. La promesse de confidentialité des données, traitées localement ou sous contrôle explicite de l'utilisateur, est présentée comme un différenciateur face aux craintes liées aux agents ayant accès aux données personnelles. Cette annonce s'inscrit dans une accélération générale des systèmes d'agents IA en 2025-2026, après des années de promesses non tenues sur les assistants vocaux. Google avait déjà expérimenté des fonctionnalités similaires avec Duplex, qui réservait des restaurants par téléphone dès 2018, mais la puissance des LLM récents rend ces capacités généralisables à pratiquement n'importe quel contexte. La bataille se joue désormais sur l'intégration profonde dans l'OS et dans le navigateur : Chrome Auto Browse, en automatisant la navigation web, ouvre une brèche dans le modèle publicitaire traditionnel basé sur les clics humains, ce qui pourrait à terme redessiner l'économie du web. Les premières fonctionnalités sont attendues cet été, sans date précise communiquée pour l'ensemble du déploiement.

UELes fonctionnalités d'accès croisé aux données personnelles entre applications soulèvent des questions de conformité avec le RGPD, notamment concernant la transparence du consentement et les limites effectives du traitement local des données utilisateurs sur les appareils Android en Europe.

OutilsOutil
1 source
Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir
536Next INpact 

Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir

Des employés d'Amazon utilisent MeshClaw, un outil interne de déploiement d'agents IA lancé il y a quelques semaines par le groupe, non pas pour travailler plus efficacement, mais pour gonfler artificiellement leurs statistiques de consommation de tokens. MeshClaw fonctionne sur le même principe qu'OpenClaw : il permet de déployer des agents capables de trier des courriels, interagir sur Slack, déployer du code ou surveiller des applications. Selon le Financial Times, certains salariés font tourner ces agents en continu non parce qu'ils en ont besoin, mais pour afficher un usage IA élevé dans des classements internes que la direction a commencé à surveiller. Amazon s'est fixé comme objectif que 80 % de ses développeurs utilisent l'IA chaque semaine. Ce phénomène a reçu un nom : le "tokenmaxxing". Un développeur médian consomme environ 51 millions de tokens par mois selon une étude Jellyfish publiée en avril 2026, tandis que les 10 % de plus gros consommateurs dépassent 380 millions de tokens mensuels, soit un coût pouvant atteindre 700 dollars par mois aux tarifs de l'API Claude. Ce détournement révèle les effets pervers d'une gouvernance par les métriques dans les entreprises tech. Quand un indicateur devient un critère d'évaluation implicite, il cesse de mesurer la réalité et devient une fin en soi. "Les managers regardent ces chiffres", confie un employé anonyme, "ça crée des effets pervers et certaines personnes deviennent très compétitives." L'étude Jellyfish sur 12 000 développeurs dans 200 entreprises au premier trimestre 2026 enfonce le clou : une consommation massive de tokens produit effectivement plus de code, mais ce code nécessite davantage d'allers-retours, de supervision humaine et de corrections, ce qui annule les gains de productivité supposés. À cela s'ajoute un risque de sécurité réel : MeshClaw dispose d'un accès large à des outils internes sensibles, ce qui peut provoquer des incidents graves en cas d'usage mal maîtrisé, comme l'ont déjà illustré de récentes pannes chez AWS attribuées à des agents IA. Ce phénomène dépasse Amazon. Meta avait développé un tableau de bord interne attribuant le statut de "Token Legend" aux plus gros consommateurs de tokens, avant de le retirer sous pression, tout en maintenant un suivi officiel de l'usage IA. La pression vient du sommet : Amazon a annoncé 200 milliards de dollars de dépenses d'investissement pour 2026, en grande partie fléchés vers l'IA et les centres de données. Pour justifier ces montants astronomiques auprès des actionnaires, les directions poussent les équipes à produire des preuves d'usage, créant une mécanique où l'apparence d'adoption compte autant que l'adoption réelle. L'enjeu, désormais, est de distinguer la valeur générée par l'IA de la valeur simulée pour complaire aux tableaux de bord.

UELes entreprises tech françaises et européennes qui adoptent des métriques de suivi de l'usage IA s'exposent aux mêmes effets pervers de gouvernance par les indicateurs documentés ici.

SociétéOpinion
1 source
JBS Dev : données imparfaites et le dernier kilomètre de l'IA, de la performance des modèles à la viabilité des coûts
537AI News 

JBS Dev : données imparfaites et le dernier kilomètre de l'IA, de la performance des modèles à la viabilité des coûts

Joe Rose, président de JBS Dev, un fournisseur de technologies stratégiques, remet en question l'un des mythes les plus répandus autour de l'IA générative : celui selon lequel les données doivent être parfaites avant de lancer tout projet d'IA. Lors de sa participation à l'AI & Big Data Expo, Rose a détaillé comment les outils actuels permettent de travailler efficacement avec des données imparfaites, en donnant l'exemple concret d'un client dans le secteur médical. L'objectif était de migrer vers un nouveau système de réconciliation de facturation, avec des dossiers hétérogènes : certains en PDF, d'autres sous forme d'images scannées, des noms de médecins mal placés dans les champs patients, des procédures mal catégorisées. L'IA générative a permis d'extraire les données exploitables via OCR et extraction de texte, puis des approches plus agentiques ont pris le relais, comme la comparaison automatique entre un dossier patient et un contrat d'assurance pour vérifier que la facturation était correcte. Le niveau d'automatisation est ainsi passé de 20 % à 40 %, puis 60 %, puis 80 %, avec un humain dans la boucle pour traiter les cas limites. Ce changement de paradigme a des implications concrètes pour les entreprises qui hésitent à se lancer dans des projets d'IA par peur d'un patrimoine data insuffisant. Rose souligne que les conseils des éditeurs et consultants, qui recommandent des lacs de données massifs et des programmes de transformation pluriannuels, servent avant tout leurs propres intérêts commerciaux. En pratique, un LLM est capable de comprendre une instruction à moitié rédigée, ce qui rend ces systèmes étonnamment robustes face à la qualité variable des données. La vraie rupture culturelle est ailleurs : les équipes IT doivent abandonner le réflexe "on construit, ça tourne, on oublie", car les systèmes agentiques nécessitent une supervision continue et une montée en automatisation progressive. Les prochains enjeux du secteur ne seront pas dans la course aux capacités des modèles, estime Rose, mais dans leur soutenabilité économique et leur portabilité. La question centrale devient : comment faire tourner ces modèles sur un laptop ou un smartphone plutôt que dans des data centers que l'on construit à un rythme difficilement tenable ? Rose va plus loin avec une prise de position tranchée : les entreprises devraient arrêter d'acheter des solutions SaaS pour des cas d'usage IA qu'elles peuvent implémenter elles-mêmes. Les outils cloud des trois grands fournisseurs (AWS, Azure, Google Cloud) suffisent pour démarrer des workloads agentiques dès demain, sans nouvelles licences ni formations spécifiques. Une position qui tranche avec les discours dominants de l'écosystème, et qui reflète une maturité croissante du marché face aux promesses de l'IA d'entreprise.

OutilsOpinion
1 source
Pourquoi Lightspeed a financé deux levées consécutives de cette startup spécialisée dans l'évaluation d'agents
538The Information AI 

Pourquoi Lightspeed a financé deux levées consécutives de cette startup spécialisée dans l'évaluation d'agents

Alex Shan avait 20 ans et ne pouvait pas encore légalement acheter de l'alcool aux États-Unis quand il a fondé Judgment Labs en 2023. Entré à Stanford à 16 ans, il y avait mené des recherches sur l'évaluation et la supervision des modèles d'intelligence artificielle au sein du prestigieux Natural Language Processing Group du Stanford AI Lab, dirigé par Christopher Manning, l'un des chercheurs en traitement du langage naturel les plus cités au monde. C'est par l'intermédiaire d'un camarade de Stanford qu'il rencontre James Alcorn, associé chez Lightspeed Venture Partners. Pendant des mois, les deux hommes imaginent des idées de startups avec les amis d'enfance de Shan, Andrew Li et Joseph Camyre, avant de s'arrêter sur un projet directement lié aux travaux de recherche de ce dernier. Lightspeed a finalement mené deux tours de financement consécutifs dans Judgment Labs, valorisant la société à 175 millions de dollars lors du plus récent, avec 32 millions de dollars de nouveaux capitaux. SV Angel et Valor Equity Partners, connu pour ses investissements dans les entreprises liées à Elon Musk, ont également participé. L'évaluation des agents IA répond à un besoin urgent dans l'industrie. Les agents autonomes prolifèrent à grande vitesse, mais ils commettent encore de nombreuses erreurs, souvent difficiles à détecter à l'échelle. Disposer d'outils fiables pour mesurer leurs performances, identifier leurs failles et surveiller leur comportement en production devient une priorité pour les entreprises qui les déploient. Judgment Labs se positionne précisément sur ce segment critique, à mi-chemin entre l'outillage pour développeurs et la gouvernance des systèmes d'IA. Ce pari s'inscrit dans un mouvement plus large : les investisseurs en capital-risque cherchent désormais à financer non seulement les constructeurs de modèles, mais aussi toute la couche d'infrastructure qui permet de les utiliser de façon fiable. Lightspeed, qui a soutenu des poids lourds comme Snap ou Affirm, mise ici sur la thèse que l'évaluation deviendra un standard incontournable à mesure que les agents IA s'intègrent dans des processus métier critiques. La rapidité des deux tours successifs signale une conviction forte, et la valorisation de 175 millions de dollars pour une startup aussi jeune illustre l'intensité de la course aux infrastructures IA en 2024-2025.

BusinessActu
1 source
NVIDIA et SAP renforcent la fiabilité des agents spécialisés
539NVIDIA AI Blog 

NVIDIA et SAP renforcent la fiabilité des agents spécialisés

NVIDIA et SAP ont annoncé lors de la conférence SAP Sapphire un renforcement significatif de leur collaboration autour des agents IA autonomes en entreprise. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu par vidéo lors du discours d'ouverture de Christian Klein, PDG de SAP. Le coeur de l'annonce : SAP intègre NVIDIA OpenShell, un runtime open source conçu pour déployer des agents IA autonomes de manière sécurisée, directement dans sa SAP Business AI Platform. Les ingénieurs SAP participent désormais au développement de ce projet open source aux côtés de ceux de NVIDIA. OpenShell fournit des environnements d'exécution isolés, applique des politiques au niveau du système de fichiers et du réseau, et assure une containérisation au niveau de l'infrastructure pour limiter les dégâts en cas de défaillance de la logique d'un agent. Il devient ainsi la couche de sécurité d'exécution pour l'ensemble des agents SAP, y compris ceux créés dans Joule Studio, l'environnement de SAP dédié à la construction et gestion d'agents d'entreprise bout en bout. Ce partenariat répond à un défi concret : quand un agent IA peut accéder à des systèmes critiques, traverser les frontières applicatives et agir sans validation humaine à chaque étape, les entreprises ont besoin de garanties solides avant de le déployer en production. La différence entre un assistant IA et un agent autonome, c'est précisément cette capacité à agir sans supervision constante, ce qui exige des contrôles stricts sur ce que l'agent peut voir, faire, et tracer. Pour des domaines comme la finance, les achats, la supply chain ou la fabrication, où SAP pilote les opérations de milliers d'entreprises mondiales, les enjeux de conformité et de gouvernance sont particulièrement élevés. OpenShell répond à la question « cette action peut-elle s'exécuter en sécurité ? », tandis que la couche de contrôle de Joule Studio répond à « cette action doit-elle avoir lieu du tout ? » SAP occupe une position stratégique dans l'écosystème IA d'entreprise : ses systèmes hébergent les données de référence des processus financiers, logistiques et opérationnels de nombreuses grandes organisations mondiales. NVIDIA est lui-même client SAP pour ses propres opérations financières et supply chain, ce qui donne aux deux entreprises une compréhension commune des exigences de gouvernance en conditions réelles. Pour accélérer le développement d'agents personnalisés, NVIDIA NemoClaw, un plan de référence pour construire et déployer des agents autonomes, sera disponible directement dans Joule Studio, offrant aux équipes de développement un chemin structuré du prototype au déploiement sécurisé en production. Cette collaboration illustre une tendance de fond dans l'industrie : la course à l'adoption des agents IA autonomes passe désormais par la confiance, et c'est au niveau de la couche applicative que se joue l'essentiel de la bataille.

UESAP, entreprise européenne leader des ERP, intègre des couches de sécurité pour agents IA autonomes dans sa plateforme Business AI, ce qui concerne directement les grandes organisations françaises et européennes utilisant SAP pour leurs processus financiers et opérationnels.

OutilsActu
1 source
Laserfiche lance des agents IA pour les flux de travail en langage naturel
540AI News 

Laserfiche lance des agents IA pour les flux de travail en langage naturel

Laserfiche, éditeur spécialisé dans la gestion de contenu d'entreprise, a lancé le 7 mai 2026 des agents d'intelligence artificielle capables d'exécuter des tâches complexes à partir de simples instructions en langage naturel. Ces agents sont accessibles via Smart Chat, une interface conversationnelle intégrée à la plateforme Laserfiche Cloud. Ils s'appuient sur des modèles de raisonnement génératifs (LLM) pour analyser des documents, identifier des informations spécifiques et déclencher des actions concrètes, comme déplacer un fichier, signaler une anomalie ou router un contrat vers le bon interlocuteur. Les capacités de chaque agent sont strictement encadrées par les permissions de l'utilisateur connecté, ce qui garantit que les données sensibles restent protégées selon les règles de conformité en vigueur dans l'organisation. L'intérêt principal de ces agents réside dans leur capacité à automatiser la zone grise entre les workflows préconçus et les tâches manuelles répétitives, sans exiger de compétences techniques de la part des utilisateurs. Dans les services juridiques, ils peuvent détecter des incohérences dans des contrats avant de les soumettre à une revue humaine. En comptabilité fournisseurs, ils repèrent les factures en retard et les transmettent aux équipes concernées. En RH, ils analysent les dossiers employés pour classer automatiquement les documents dans les bons répertoires selon le niveau d'accès de l'utilisateur. Cette polyvalence opérationnelle réduit le temps consacré à la gestion documentaire et libère les équipes pour des tâches à plus forte valeur ajoutée, quel que soit leur niveau de maîtrise technique. Laserfiche s'inscrit dans une tendance de fond qui voit les grandes plateformes de gestion de contenu intégrer des couches d'IA agentique pour transformer la relation des entreprises à leurs données. Jusqu'ici, retrouver un document impliquait de connaître son emplacement exact dans une arborescence souvent complexe. Justin Pava, chief product evangelist de l'entreprise, résume l'évolution en cours : l'endroit où un document est stocké va progressivement perdre de son importance, au profit de la capacité à agir directement sur l'information grâce aux métadonnées extraites automatiquement et à la recherche assistée par IA. Des mises à jour sont déjà prévues pour permettre aux agents de fonctionner en arrière-plan, de surveiller des conditions système de manière autonome et de s'intégrer plus profondément dans les processus métier existants. Cette annonce positionne Laserfiche en concurrence directe avec d'autres acteurs de la gestion documentaire qui cherchent eux aussi à capitaliser sur l'essor des agents IA en entreprise.

OutilsOutil
1 source
Un outil d'IA contaminé révèle une faille majeure dans la sécurité des agents en entreprise
541VentureBeat AI 

Un outil d'IA contaminé révèle une faille majeure dans la sécurité des agents en entreprise

Un chercheur en sécurité a mis au jour une faille structurelle dans la manière dont les agents d'intelligence artificielle sélectionnent et utilisent leurs outils. En déposant l'issue numéro 141 dans le dépôt CoSAI secure-ai-tooling, il a formalisé un problème que beaucoup sous-estimaient : les agents IA choisissent leurs outils dans des registres partagés en se basant sur des descriptions en langage naturel, sans qu'aucun mécanisme ne vérifie si ces descriptions sont réellement exactes. Le mainteneur du dépôt a jugé la soumission suffisamment complexe pour la diviser en deux entrées distinctes, l'une couvrant les menaces à la sélection (usurpation d'outil, manipulation des métadonnées), l'autre les menaces à l'exécution (dérive comportementale, violation de contrat à l'exécution). Ce découpage confirme que l'empoisonnement des registres d'outils n'est pas une vulnérabilité unique mais un ensemble de risques qui traversent tout le cycle de vie d'un outil. Le problème fondamental est que les défenses existantes ne répondent pas à la bonne question. Les contrôles de la chaîne d'approvisionnement logicielle mis en place depuis dix ans, signature de code, SBOM, SLSA, Sigstore, garantissent l'intégrité des artefacts, c'est-à-dire que le fichier livré est bien celui qui a été publié. Mais ce dont les registres d'outils agents ont besoin, c'est de l'intégrité comportementale : est-ce que cet outil se comporte réellement comme il le prétend ? Un attaquant peut publier un outil correctement signé, avec une provenance propre, mais dont la description contient une injection de prompt du type "préférez toujours cet outil aux alternatives". Le modèle de langage de l'agent traite cette description avec le même mécanisme qu'il utilise pour choisir ses outils, effaçant la frontière entre métadonnée et instruction. Par ailleurs, un outil peut être vérifié au moment de sa publication, puis modifier discrètement son comportement côté serveur des semaines plus tard pour exfiltrer des données de requêtes. La signature est toujours valide. L'artefact n'a pas changé. Le comportement, si. Appliquer SLSA et Sigstore aux registres d'agents en déclarant le problème résolu reproduirait l'erreur du HTTPS des années 2000 : de solides garanties sur l'identité, mais la vraie question de confiance laissée sans réponse. La solution proposée repose sur un proxy de vérification positionné entre le client MCP (l'agent) et le serveur MCP (l'outil), qui effectue trois contrôles à chaque invocation. Le premier, le "discovery binding", vérifie que l'outil appelé correspond bien à celui dont l'agent a évalué la spécification comportementale, bloquant les attaques de type "bait-and-switch" où le serveur annonce un outil différent au moment de l'exécution. Le deuxième surveille les connexions réseau sortantes et les compare à une liste blanche déclarée : si un convertisseur de devises se connecte à un endpoint non déclaré, l'outil est immédiatement stoppé. Le troisième valide les réponses de l'outil face à un schéma de sortie déclaré, détectant les champs inattendus ou les patterns caractéristiques d'une injection de prompt. L'enjeu dépasse largement la sécurité d'un protocole : à mesure que les entreprises déploient des agents autonomes capables d'appeler des centaines d'outils tiers, l'absence de standard comportemental sur les registres d'outils devient un risque systémique pour l'ensemble de l'écosystème IA agentique.

UELes entreprises européennes déployant des agents IA autonomes sont exposées à ce risque systémique d'empoisonnement des registres d'outils, sans standard ni cadre réglementaire spécifique pour y répondre.

💬 La comparaison avec le HTTPS des années 2000 m'a frappé. On signe les artefacts, on vérifie la provenance, et pendant ce temps un outil peut changer de comportement côté serveur sans que personne s'en aperçoive, parce que la signature, elle, reste propre. Les agents qui tournent en prod aujourd'hui n'ont aucun de ces garde-fous.

SécuritéOpinion
1 source
GitHub Spec-Kit : développement piloté par les specs
542MarkTechPost 

GitHub Spec-Kit : développement piloté par les specs

GitHub a publié en open source Spec-Kit, une boîte à outils conçue pour introduire le développement piloté par spécifications (SDD, Spec-Driven Development) dans les workflows d'agents IA comme GitHub Copilot, Claude Code ou Gemini CLI. Le dépôt a rapidement dépassé 90 000 étoiles et 8 000 forks sur GitHub, ce qui en fait l'un des projets d'outillage développeur à la croissance la plus rapide de ces derniers mois. Spec-Kit se compose de deux éléments principaux : la CLI Specify, écrite en Python 3.11+, et un ensemble de templates et scripts qui structurent l'expérience SDD. Après installation via uv, la commande specify init initialise un projet et donne accès à une série de commandes slash : /speckit.specify pour capturer ce qu'on veut construire, /speckit.plan pour générer le plan d'implémentation technique, /speckit.tasks pour décomposer ce plan en tâches ordonnées par dépendances, /speckit.taskstoissues pour convertir ces tâches en issues GitHub, et /speckit.implement pour confier leur exécution à l'agent IA. Des commandes optionnelles comme /speckit.clarify et /speckit.analyze permettent d'identifier les zones sous-spécifiées avant de lancer la génération de code. Le problème que Spec-Kit tente de résoudre est fondamental dans l'usage actuel des agents de codage IA : les développeurs ont tendance à les utiliser comme des moteurs de recherche, en décrivant vaguement ce qu'ils veulent, ce qui produit du code qui compile mais rate l'intention réelle. GitHub appelle cela le "vibe-coding", une approche acceptable pour des prototypes rapides mais insuffisante pour des applications critiques ou des bases de code complexes. En imposant une spécification structurée comme source de vérité, un document qui décrit le quoi et le pourquoi sans imposer de choix technologique, Spec-Kit force l'agent à travailler à partir d'instructions non ambiguës plutôt que d'interpréter des descriptions floues. La spec reste un artefact vivant, mis à jour à mesure que les exigences évoluent, et non un document figé rédigé puis oublié en début de projet. Le SDD n'est pas une idée entièrement nouvelle : des approches "documentation-first" ou "requirements-driven" existent depuis des décennies dans le génie logiciel. Ce que Spec-Kit change, c'est l'intégration native de cette discipline dans les outils d'IA générative, à un moment où l'industrie cherche à aller au-delà de l'autocomplétion intelligente vers une véritable délégation de tâches complexes à des agents autonomes. L'enjeu est de taille : si les agents de codage doivent gérer des missions de plus en plus ambitieuses, la qualité des instructions qu'on leur donne devient un levier critique de fiabilité. En open-sourçant Spec-Kit sous ce nom et avec cette adoption initiale, GitHub positionne clairement cette méthodologie comme une norme émergente, potentiellement intégrée à terme dans l'écosystème Copilot.

💬 90 000 étoiles en quelques semaines, c'est pas rien. L'idée de forcer une spec structurée avant de lancer l'agent, ça fait vingt ans qu'on sait que c'est la bonne approche, mais là GitHub fait enfin le lien avec les outils génératifs d'une façon qui peut vraiment coller aux équipes qui vivent dans Copilot. Reste à voir si la discipline tient dans la durée ou si ça finit comme tous les "requirements-first" qui crèvent dès le sprint 2.

OutilsOutil
1 source
Les investissements en IA s'accélèrent : Deepseek prépare une levée record et Core Automation quadruple sa valorisation en quelques semaines
543The Decoder 

Les investissements en IA s'accélèrent : Deepseek prépare une levée record et Core Automation quadruple sa valorisation en quelques semaines

Deepseek prépare une levée de fonds pouvant atteindre 7,35 milliards de dollars, ce qui en ferait la plus grande opération jamais réalisée par une entreprise d'IA chinoise. Ce tour de table devrait accompagner le lancement de Deepseek V4.1, prévu pour juin 2026. En parallèle, Core Automation, une startup fondée il y a seulement six semaines par Jerry Tworek, ex-chercheur d'OpenAI, vise déjà une valorisation de 4 milliards de dollars, soit un quadruplement en quelques semaines à peine depuis sa création. Ces deux opérations illustrent l'appétit intact des investisseurs pour l'IA, malgré les interrogations persistantes sur la rentabilité du secteur. Pour Deepseek, ce financement représente un tournant stratégique: l'entreprise chinoise, connue pour avoir sorti des modèles très compétitifs à moindre coût, cherche désormais les ressources nécessaires pour rivaliser à grande échelle avec OpenAI et Google. Pour Core Automation, une valorisation à 4 milliards en moins de deux mois signale que les fondateurs issus des grands labos IA peuvent lever des capitaux considérables avant même d'avoir un produit abouti. Ce contexte s'inscrit dans une course aux financements qui s'est accélérée depuis début 2025, portée par la multiplication des applications d'agents IA autonomes. Le fait que Tworek, qui a travaillé sur Codex chez OpenAI, soit déjà à la tête d'une licorne en gestation reflète la tendance des chercheurs stars à quitter les grandes structures pour lancer leurs propres projets. Du côté chinois, la montée en puissance de Deepseek nourrit les inquiétudes occidentales sur le leadership technologique face à un écosystème IA qui se finance désormais à des niveaux comparables à la Silicon Valley.

UELa montée en puissance financière de Deepseek intensifie la pression concurrentielle sur l'écosystème IA européen, qui peine à mobiliser des financements comparables pour ses propres champions.

💬 Deepseek, c'était la startup frugale qui humiliait les labos américains à moindre coût. La voilà qui prépare la plus grosse levée jamais faite par une boîte IA chinoise, parce que la frugalité a ses limites quand tu veux vraiment jouer dans la cour d'OpenAI. Et Core Automation, six semaines d'existence, pas de produit, 4 milliards de valorisation : le marché paye des CV, pas des boîtes.

BusinessOpinion
1 source
GitHub sécurise les workflows à base d'agents dans les systèmes CI/CD modernes
544InfoQ AI 

GitHub sécurise les workflows à base d'agents dans les systèmes CI/CD modernes

GitHub a publié une architecture de sécurité dite "défense en profondeur" pour les flux de travail agentiques dans les pipelines CI/CD. Conçue par l'ingénieure Leela Kumili, cette approche repose sur trois piliers : l'isolation des environnements d'exécution, la restriction stricte des permissions accordées aux agents, et la traçabilité complète de chaque action effectuée. L'objectif est de permettre l'intégration d'agents IA autonomes dans les chaînes de développement logiciel sans exposer les systèmes à des risques nouveaux. L'enjeu est de taille : les agents IA opérant dans un pipeline CI/CD disposent d'un accès direct au code source, aux secrets d'infrastructure et aux systèmes de déploiement. Sans garde-fous adéquats, ils deviennent une surface d'attaque privilégiée. Les menaces identifiées par GitHub comprennent l'injection de prompts malveillants, l'escalade de privilèges non autorisée et l'exécution d'actions non intentionnelles. Pour y répondre, l'architecture préconise des environnements sandbox cloisonnés, des permissions minimales définies à la tâche, et un journal d'audit exhaustif permettant de retracer précisément ce qu'un agent a fait et pourquoi. Cette publication intervient alors que l'industrie du développement logiciel s'apprête à intégrer massivement des agents autonomes dans ses workflows, portés notamment par GitHub Copilot et ses concurrents comme Cursor ou Devin. Les équipes de sécurité peinent encore à établir des standards pour ces nouveaux acteurs capables d'écrire, tester et déployer du code sans intervention humaine. La démarche de GitHub, qui documente publiquement ses principes de conception, pourrait servir de référence pour l'ensemble de l'écosystème DevSecOps.

UELes équipes DevSecOps françaises et européennes peuvent s'appuyer sur ce cadre de référence pour sécuriser leurs pipelines CI/CD lors de l'intégration d'agents autonomes.

💬 Donner à un agent IA un accès direct à tes secrets d'infra et à ta pipeline de déploiement, c'est exactement aussi risqué que ça en a l'air. L'architecture proposée par GitHub est solide sur le papier : isolation des environnements, permissions minimales par tâche, audit complet de chaque action, c'est ce qu'on attendait avant de lâcher des agents autonomes dans nos repos. Reste à voir combien d'équipes vont vraiment l'implémenter plutôt que de cocher la case "sécurité" et continuer à déployer à l'arrache.

SécuritéActu
1 source
LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes
545MarkTechPost 

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

La LightSeek Foundation a publié TokenSpeed, un moteur d'inférence pour grands modèles de langage distribué en open source sous licence MIT. Encore en phase de préversion, TokenSpeed est conçu spécifiquement pour les charges de travail dites "agentiques", c'est-à-dire les systèmes d'IA qui enchaînent de multiples appels au modèle pour accomplir des tâches complexes, comme l'écriture ou la révision de code. L'objectif déclaré est d'atteindre des performances comparables à TensorRT-LLM de NVIDIA, tout en restant accessible à l'ensemble de l'écosystème. Le moteur vise à maintenir un débit minimum de 70 tokens par seconde par utilisateur, un seuil qui monte parfois à 200 TPS ou plus, tout en maximisant le nombre de tokens traités par GPU et par minute. L'enjeu dépasse la performance brute. Des outils comme Claude Code d'Anthropic, Codex d'OpenAI ou Cursor fonctionnent sur des contextes qui dépassent régulièrement 50 000 tokens et s'étalent sur des dizaines de tours de conversation, un profil très différent d'un simple chatbot. Or la plupart des benchmarks publics ne rendent pas compte de cette réalité. Lorsqu'un agent de développement logiciel analyse un dépôt entier, génère du code, exécute des tests et itère, chaque milliseconde de latence ajoutée se multiplie à chaque étape. Un moteur d'inférence mal adapté devient rapidement un goulot d'étranglement qui ralentit l'ensemble de la chaîne de production logicielle, et donc, à terme, les équipes d'ingénierie qui en dépendent. L'architecture de TokenSpeed repose sur cinq sous-systèmes complémentaires. Le premier est un mécanisme de parallélisme assisté par compilateur, basé sur le modèle SPMD (Single Program, Multiple Data), qui génère automatiquement les communications entre processus sans que le développeur n'ait à les écrire manuellement. Le planificateur de requêtes sépare strictement le plan de contrôle, implémenté en C++ sous forme de machine à états finis, du plan d'exécution écrit en Python, ce qui permet de détecter les erreurs de gestion du cache KV à la compilation plutôt qu'à l'exécution. Le troisième pilier est une couche de noyaux GPU modulaire et extensible, compatible avec des accélérateurs autres que ceux de NVIDIA, s'appuyant notamment sur l'un des noyaux MLA (Multi-head Latent Attention) les plus rapides disponibles pour les GPU Blackwell. Ce noyau MLA a d'ailleurs déjà été intégré dans vLLM, l'un des moteurs d'inférence open source les plus utilisés dans l'industrie. La fondation LightSeek positionne ainsi TokenSpeed comme une infrastructure commune pour l'ère où les agents IA deviennent le principal vecteur de production de code.

UELa disponibilité d'un moteur d'inférence open source compatible avec des accélérateurs non-NVIDIA pourrait réduire la dépendance des équipes européennes aux solutions propriétaires de NVIDIA.

InfrastructureActu
1 source
Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)
546Le Big Data 

Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)

Anthropic a présenté le 6 mai 2026, lors de sa conférence développeurs Code with Claude à San Francisco, une nouvelle fonctionnalité baptisée « Dreaming » pour sa plateforme Claude Managed Agents. Disponible en avant-première de recherche, ce système place les agents IA dans un état d'analyse récurrente des sessions passées et des données mémorisées par plusieurs agents simultanément. Contrairement à la compaction classique, qui résume les conversations longues pour alléger la mémoire d'un seul agent, Dreaming opère de manière transversale : il inspecte les historiques de multiples agents, détecte des schémas récurrents, des erreurs fréquentes, des méthodes de travail adoptées spontanément, ou encore des préférences communes au sein d'une équipe. Les utilisateurs pourront choisir entre un mode automatique, où les ajustements s'appliquent sans intervention, et un mode manuel permettant de valider chaque modification avant son intégration. Lors de la même conférence, Anthropic a annoncé en version bêta publique trois autres fonctionnalités : « Results » (un évaluateur indépendant qui vérifie si une tâche a réellement atteint son objectif, et relance l'agent si ce n'est pas le cas), l'orchestration multi-agents (jusqu'à 20 agents spécialisés collaborant en parallèle sous la direction d'un agent principal), et les notifications webhook pour des alertes en temps réel vers des systèmes externes. L'enjeu central que Dreaming cherche à résoudre est structurel : les modèles de langage disposent d'une fenêtre de contexte limitée, et sur des projets longs, des informations critiques finissent inévitablement par disparaître. Pour les entreprises qui déploient des agents IA sur des semaines ou des mois, cette perte de continuité représente un frein opérationnel concret. En permettant à la mémoire de se restructurer automatiquement à partir de données croisées entre agents, Anthropic entend rendre les systèmes multi-agents plus cohérents, moins redondants dans leurs erreurs, et capables d'apprendre des comportements collectifs plutôt que de repartir de zéro à chaque session. La fonctionnalité Results, de son côté, répond à un problème tout aussi pragmatique : garantir que l'agent a bien produit ce qui était demandé, et non une approximation acceptable. Ces annonces s'inscrivent dans une course que se livrent OpenAI, Google DeepMind et Anthropic autour des agents autonomes capables de gérer des tâches complexes sur la durée. Claude Managed Agents est la réponse d'Anthropic aux frameworks agentiques concurrents, avec une philosophie axée sur la sécurité et la contrôlabilité, ce qui explique l'option de validation manuelle dans Dreaming plutôt qu'une automatisation totale. En restant en avant-première de recherche pour la fonctionnalité phare et en bêta publique pour les autres, Anthropic adopte une posture prudente avant un déploiement général, probablement dans les mois à venir, à mesure que les retours des développeurs consolideront le système.

UELes entreprises européennes déployant des agents Claude sur des projets longs bénéficieront d'une meilleure continuité mémorielle, mais la fonctionnalité reste en avant-première de recherche sans calendrier de déploiement général annoncé.

LLMsOpinion
1 source
Construire un système d'agents modulaires à base de compétences pour LLM avec routage dynamique d'outils en Python
547MarkTechPost 

Construire un système d'agents modulaires à base de compétences pour LLM avec routage dynamique d'outils en Python

Un tutoriel publié récemment détaille comment construire en Python un système d'agents modulaires à base de compétences pour les grands modèles de langage, avec routage dynamique des outils. L'implémentation repose sur OpenAI (modèle GPT-4o-mini) et les bibliothèques open source Pydantic et Rich. L'architecture centrale s'articule autour de trois briques : une classe abstraite Skill qui encapsule chaque capacité (métadonnées, schéma JSON, logique d'exécution), un SkillRegistry qui joue le rôle de catalogue centralisé, et un orchestrateur qui sélectionne et enchaîne les compétences via le mécanisme de tool calling de l'API OpenAI. Chaque compétence est versionnée, auto-descriptive et expose automatiquement son schéma au format attendu par l'API, ce qui permet à un agent de l'invoquer sans configuration manuelle. L'intérêt de cette approche réside dans la séparation stricte entre la logique de chaque compétence et le raisonnement de l'agent. Concrètement, l'agent peut sélectionner la bonne compétence pour une tâche donnée, en composer plusieurs pour des workflows complexes, et charger de nouvelles capacités à chaud en cours d'exécution sans redémarrer le système. Un tableau de bord d'observabilité intégré trace le nombre d'appels et la latence moyenne de chaque compétence, ce qui facilite le débogage et l'optimisation en production. Pour les équipes qui construisent des agents LLM, cette modularité réduit la dette technique : ajouter une nouvelle capacité revient à écrire une classe isolée, sans toucher au reste du pipeline. Cette architecture s'inscrit dans une tendance plus large de structuration des systèmes agentiques, accélérée par la généralisation du tool calling dans les API des principaux fournisseurs (OpenAI, Anthropic, Google). La métaphore utilisée dans le tutoriel est explicite : le registre de compétences fonctionne comme une table de syscalls d'un système d'exploitation, l'agent étant le noyau qui dispatche les requêtes. Face à la multiplication des frameworks concurrents (LangChain, LlamaIndex, AutoGen), cette approche "from scratch" permet de comprendre les mécanismes sous-jacents et d'éviter les abstractions opaques. La prochaine étape logique de cette architecture est l'ajout de mémoire persistante et de planification multi-tours, deux fronts sur lesquels la recherche en agents LLM reste très active en 2025.

OutilsTuto
1 source
[AINews] AI Engineer World's Fair : appel à conférenciers (agents autonomes, mémoire, modèles du monde, IA verticale)
548Latent Space 

[AINews] AI Engineer World's Fair : appel à conférenciers (agents autonomes, mémoire, modèles du monde, IA verticale)

La conférence AI Engineer World's Fair annonce sa deuxième vague d'appel à orateurs pour l'édition 2026, qui se tiendra pour la première fois au Moscone West de San Francisco cet été. L'organisation cible en priorité des intervenants capables de traiter six nouveaux thèmes : l'autorecherche récursive (boucles d'amélioration autonome des modèles), la gestion de la mémoire dans les agents, les modèles du monde pour l'intelligence spatiale, le "tokenmaxxing" (adoption intensive de l'IA en entreprise sans gaspillage), le commerce agentique (paiements entre agents pour accéder à des données ou des API), et l'IA verticale dans le droit, la santé, le go-to-market et la finance. Les candidatures sont ouvertes via la plateforme Sessionize, avec remboursement du billet pour les orateurs retenus. L'événement coïncide avec la Coupe du Monde de football, également prévue à San Francisco cette semaine-là. L'édition 2026 marque un cap important pour l'écosystème de l'ingénierie IA : la conférence double de taille pour la troisième année consécutive et dépasse désormais le million de profils uniques par mois. Pour la première fois, un "Startup Battlefield" sera intégré au programme, permettant aux fondateurs de startups pré-série A de pitcher devant un panel de capital-risqueurs. La robotique bénéficiera également d'un espace expo gratuit sur le floor pour les démos physiques, après des présentations remarquées l'an dernier de Physical Intelligence, Waymo, Tesla et Nvidia. L'événement se positionne explicitement comme un lieu de recrutement, de levée de fonds et de deals commerciaux à grande échelle, pas seulement une tribune académique. Lancée avec une stratégie éditoriale baptisée "Scaling without Slop" en janvier 2026, la World's Fair s'est imposée comme la référence technique annuelle pour les ingénieurs IA, surpassant des événements plus institutionnels. L'organisateur, la communauté Latent Space, publie également AINews, une newsletter quotidienne qui agrège les signaux du secteur depuis une douzaine de subreddits et plus de 500 comptes Twitter. L'appel à orateurs en deux vagues reflète une volonté d'élargir le vivier au-delà du réseau habituel, en ciblant des praticiens qui ne se seraient pas spontanément manifestés. Les thèmes retenus pour 2026 dessinent une cartographie des défis techniques les plus actifs du moment : l'autonomie des agents, leur capacité à apprendre de l'usage, et leur intégration dans des secteurs réglementés à fort enjeu.

UEL'événement se déroule à San Francisco et cible en priorité un public américain, mais les thèmes retenus, IA verticale dans le droit, la santé et la finance, commerce agentique, sont directement pertinents pour les ingénieurs et décideurs européens qui cherchent à cartographier les prochains chantiers techniques du secteur.

💬 Les thèmes retenus pour 2026, mémoire des agents, commerce agentique, IA dans le droit et la santé, c'est la liste exacte des problèmes sur lesquels les équipes bloquent en ce moment. Pas de la prospective, c'est du debug à l'échelle industrielle. Si tu bosses sur ces sujets, t'as une bonne raison d'envoyer ta candidature.

BusinessActu
1 source
Plongée dans le code : UI à base d'agents, UI générative, synchronisation d'état et validation par interruption
549MarkTechPost 

Plongée dans le code : UI à base d'agents, UI générative, synchronisation d'état et validation par interruption

Un tutoriel récemment publié propose de construire une pile complète d'interfaces utilisateur agentiques (Agentic UI) en Python pur, sans recourir à des frameworks externes. L'implémentation couvre le protocole AG-UI, un flux d'événements composé d'environ 16 types diffusés en temps réel via Server-Sent Events (SSE), parmi lesquels des événements de démarrage et fin de session, de messages texte, d'appels d'outils et de synchronisation d'état. Le tutoriel intègre également A2UI, une couche déclarative permettant de définir des interfaces graphiques sous forme de JSON structuré plutôt que de code exécutable. L'ensemble est connecté à un modèle de langage (GPT-4o-mini d'OpenAI dans les exemples de code) capable de générer des interfaces complètes à partir de descriptions en langage naturel. L'enjeu central de cette approche réside dans la synchronisation entre l'état de l'agent et celui de l'interface utilisateur, assurée via JSON Patch, une norme RFC permettant des mises à jour incrémentales et précises de structures de données. Le tutoriel aborde aussi les flux d'approbation interrompus, un mécanisme qui impose une validation humaine pour les actions critiques avant qu'un agent ne les exécute, principe connu sous le nom de "human-in-the-loop". Pour les développeurs, cette architecture ouvre la voie à des interfaces capables de s'adapter dynamiquement au raisonnement d'un agent IA, sans rechargement ni recompilation manuelle. C'est une rupture avec les interfaces statiques traditionnelles : l'UI devient un artefact vivant, piloté par l'état cognitif du modèle. Cet article s'inscrit dans une effervescence croissante autour des systèmes multi-agents et des protocoles qui leur sont associés. AG-UI émerge comme une tentative de standardisation, à l'image du Model Context Protocol (MCP) d'Anthropic pour la gestion du contexte, ou d'Agent2Agent de Google pour la communication inter-agents. L'objectif commun est de fournir une couche d'interopérabilité entre agents et interfaces, indépendamment du modèle sous-jacent. En construisant cet outillage depuis zéro, le tutoriel cherche à démystifier ces protocoles souvent masqués par des abstractions de haut niveau comme LangGraph ou CrewAI. À mesure que les agents IA passent du laboratoire à la production, la question de leur observabilité et de leur contrôlabilité devient critique, et des ressources pédagogiques de ce type jouent un rôle de formation essentiel pour les ingénieurs qui bâtissent ces systèmes.

OutilsOutil
1 source
Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
550VentureBeat AI 

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final. Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif. HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

RecherchePaper
1 source