Aller au contenu principal

Dossier Agents IA — page 3

674 articles · page 3 sur 14

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA
101Le Big Data LLMsActu

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

OpenAI et NVIDIA ont officialisé en avril 2026 un partenariat approfondi autour de GPT-5.5, le dernier grand modèle d'OpenAI déployé sur les infrastructures GB200 NVL72 de NVIDIA. Dès le lancement, plus de 10 000 employés de NVIDIA utilisent GPT-5.5 au quotidien, notamment via Codex, l'agent de développement logiciel d'OpenAI capable de transformer des instructions en langage naturel en actions concrètes sur des bases de code complexes. Les chiffres avancés sont frappants : un gain de débit multiplié par 50 et une réduction des coûts par jeton de l'ordre de 35 fois par rapport aux configurations précédentes. Chez NVIDIA, les cycles de débogage qui prenaient plusieurs jours se ramènent désormais à quelques heures, et des expérimentations autrefois longues de plusieurs semaines aboutissent maintenant en une seule nuit. Ces résultats illustrent un tournant dans l'adoption de l'IA générative en entreprise : la question n'est plus uniquement celle des capacités du modèle, mais de sa viabilité économique et opérationnelle à grande échelle. La réduction drastique des coûts d'inférence rend envisageable le déploiement d'agents IA sur l'ensemble des équipes techniques, et non plus seulement dans des projets pilotes isolés. L'impact dépasse le seul développement logiciel : les agents pilotés par GPT-5.5 interviennent désormais dans l'analyse, la résolution de problèmes et la génération d'idées, touchant le travail intellectuel dans sa globalité. Pour les directions techniques comme pour les décideurs métiers, c'est le signe que ces outils ont franchi le seuil de la maturité industrielle. Ce partenariat s'inscrit dans une relation qui remonte à 2016, lorsque NVIDIA avait livré à OpenAI l'un de ses premiers supercalculateurs DGX-1. Depuis dix ans, les deux entreprises co-construisent une partie essentielle de la chaîne de valeur de l'IA, OpenAI apportant les modèles et NVIDIA l'infrastructure d'inférence. Sur la question de la sécurité, longtemps présentée comme le principal frein à l'adoption en entreprise, le déploiement de Codex intègre des réponses architecturales concrètes : chaque agent opère dans un environnement isolé via des machines virtuelles sécurisées, les accès aux systèmes critiques sont limités en lecture seule, et une politique stricte de non-rétention des données est appliquée. Jensen Huang, PDG de NVIDIA, résume l'ambition commune en affirmant qu'on entre « pleinement dans l'ère de l'IA », une formulation qui traduit moins un effet d'annonce qu'un constat opérationnel : pour des milliers d'ingénieurs, l'IA agentique est déjà une réalité quotidienne.

UELa réduction des coûts d'inférence liée aux nouvelles générations de hardware IA pourrait faciliter l'adoption d'agents IA à grande échelle dans les entreprises européennes, sans impact réglementaire ou institutionnel direct.

1 source
Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte
102The Decoder 

Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte

Anthropic a conduit une expérience interne pendant une semaine en déployant 69 agents d'intelligence artificielle pour négocier et conclure des transactions à la place de ses propres employés au sein d'un marché interne simulé. Le résultat est sans appel : les modèles les plus puissants ont systématiquement obtenu de meilleures conditions que leurs homologues moins avancés. Plus frappant encore, les employés représentés par les agents les plus faibles n'ont pas remarqué qu'ils étaient désavantagés. Ce constat soulève une question économique sérieuse : si les agents IA commencent à gérer de vraies transactions pour de vraies personnes, l'accès à un modèle plus performant pourrait devenir un avantage concurrentiel direct et invisible. Un cadre ou une entreprise disposant d'un abonnement premium obtiendrait mécaniquement de meilleures offres qu'un particulier ou une PME utilisant un modèle standard, sans que personne ne perçoive l'écart en temps réel. Ce type de déséquilibre, opaque et automatisé, est particulièrement difficile à corriger. Cette recherche s'inscrit dans un effort plus large d'Anthropic pour comprendre les comportements émergents de ses modèles dans des contextes multi-agents et économiques. L'entreprise, qui développe la famille de modèles Claude, multiplie les expériences sur l'autonomie des agents depuis 2024. L'enjeu dépasse la performance technique : il touche à la question de savoir qui bénéficiera réellement de la délégation des décisions économiques aux systèmes d'IA, et si les régulateurs auront les outils pour détecter ces nouvelles formes d'inégalités.

UELes régulateurs européens, dans le cadre de l'AI Act, devront développer des outils pour détecter et encadrer les inégalités économiques invisibles générées par des agents IA à deux vitesses.

💬 Le truc qui me frappe, c'est pas que les meilleurs modèles négocient mieux (ça, on s'en doutait depuis un moment), c'est que les perdants ne le voient pas. Une inégalité invisible, automatisée, qui s'installerait dans chaque transaction sans que personne tire la sonnette d'alarme. L'AI Act va avoir du boulot.

SécuritéOpinion
1 source
DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains
103The Verge AI 

DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains

DeepSeek, la startup chinoise d'intelligence artificielle, a dévoilé vendredi une préversion de son prochain modèle phare, baptisé V4. La société affirme que ce modèle open source rivalise avec les systèmes propriétaires des grands acteurs américains, notamment Anthropic, Google et OpenAI. DeepSeek met en avant des progrès significatifs par rapport aux versions précédentes, en particulier dans les capacités de génération de code, un domaine devenu central pour les agents IA et qui a propulsé le succès d'outils comme ChatGPT Codex ou Claude Code. La sortie s'accompagne d'une annonce notable pour l'industrie chinoise des semi-conducteurs : DeepSeek souligne explicitement la compatibilité de V4 avec les puces Huawei fabriquées en Chine. Ce lancement est stratégiquement important à plusieurs titres. Sur le plan technologique, une IA open source capable de tenir tête aux meilleurs modèles fermés du monde redistribue les cartes en matière d'accès et d'adoption. Pour les entreprises et développeurs, cela signifie potentiellement des alternatives performantes sans dépendance aux API américaines. Côté hardware, valider des puces Huawei comme substrat de développement IA de pointe est un signal fort dans un contexte de restrictions américaines à l'exportation de semi-conducteurs vers la Chine. Cette annonce intervient environ un an après que DeepSeek avait secoué la Silicon Valley avec la sortie de ses modèles R1 et V3, provoquant une chute en bourse de plusieurs acteurs du secteur et relançant le débat sur l'efficacité des restrictions technologiques imposées à Pékin. La course entre les États-Unis et la Chine pour la suprématie en IA s'accélère, et DeepSeek s'impose comme l'un des rares laboratoires non américains capable de fixer le rythme du secteur.

UELa disponibilité d'un modèle open source compétitif offre aux entreprises et développeurs européens une alternative crédible aux API américaines, renforçant les ambitions de souveraineté numérique de l'UE.

💬 Ce n'est pas le modèle en lui-même qui m'intéresse, c'est la puce Huawei en dessous. DeepSeek vient de montrer qu'on peut entraîner un concurrent sérieux aux meilleurs modèles du monde sans NVIDIA, ce qui rend les restrictions américaines à l'export beaucoup moins rassurantes pour Washington. Reste à voir si ça tient sur des benchmarks indépendants, mais en un an ils ont forcé la Silicon Valley à revoir ses calculs deux fois.

LLMsOpinion
1 source
Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)
104Latent Space 

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Enregistré quelques jours après la conférence AIE Europe 2026, un épisode spécial du podcast Unsupervised Learning a réuni Jacob Effron et Shawn Wang, plus connu sous le pseudonyme "swyx", figure centrale de la communauté AI engineering, pour faire le point un an après leur premier épisode croisé avec Latent Space. Les deux animateurs ont passé en revue l'ensemble du paysage IA : infrastructure agentique, guerres du code, formation de modèles spécialisés, valorisations débridées, et ce que signifie vendre à des agents plutôt qu'à des humains. Parmi les points saillants : le playbook des "agent labs", qui consiste à démarrer avec des modèles frontier, à se spécialiser sur un domaine, puis à entraîner ses propres modèles une fois que les données, les volumes d'usage et les économies de latence le justifient. Des entreprises comme Cursor et Cognition sont citées comme exemples concrets de cette trajectoire. Ce que l'épisode documente, c'est la maturation accélérée d'un marché encore en phase d'exploration intensive. L'infrastructure IA a contraint ses acteurs à se réinventer chaque année, tandis que les entreprises applicatives ont mieux résisté à la volatilité des modèles en s'ancrant dans des workflows métier précis. La spécialisation de domaine, la distillation et l'amélioration du contexte ("context engineering") émergent comme leviers de différenciation réels, pas de simples arguments marketing. Le marché du coding IA, l'une des catégories à la croissance la plus rapide, illustre cette dynamique : Anthropic, OpenAI, Cursor et Cognition y ont tous prospéré, mais seule une poignée de noms s'impose comme gagnants réels, un mystère que l'épisode laisse en partie ouvert. La mémoire et la personnalisation sont identifiées comme le prochain grand vecteur de différenciation produit, dans un monde où les modèles récompensent encore trop la fréquence de mention plutôt que la pertinence contextuelle. L'épisode s'inscrit dans un moment charnière : les grands labos frontier tentent d'envahir les verticaux comme la finance et la santé, mais laissent encore de l'espace aux entreprises focalisées qui contrôlent le workflow et le "dernier kilomètre" utilisateur. Swyx se dit plus optimiste qu'avant sur l'open source et sur l'émergence de hardware non-Nvidia, soulignant que chaque accélération de 10x en inférence peut débloquer des expériences produit inédites. L'épisode a été enregistré avant l'annonce de l'accord Cursor-xAI, ce qui lui donne rétrospectivement une valeur de document pré-rupture, un instantané du marché juste avant que la consolidation ne s'accélère davantage. Le marché du coding est présenté comme le modèle préfigurant la trajectoire de toutes les autres verticales IA.

UELa conférence AIE Europe 2026 fournit le cadre géographique, mais l'analyse porte essentiellement sur des acteurs américains ; les startups et développeurs européens peuvent s'inspirer du playbook des 'agent labs' pour calibrer leur propre trajectoire de spécialisation.

BusinessOpinion
1 source
Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne
105NVIDIA AI Blog 

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne

OpenAI a déployé GPT-5.5, son dernier modèle frontier, au coeur de Codex, son application de codage agentique. Ce modèle tourne sur les systèmes rack-scale NVIDIA GB200 NVL72, capables de délivrer un coût 35 fois inférieur par million de tokens et un débit 50 fois supérieur par seconde et par mégawatt par rapport à la génération précédente. Plus de 10 000 employés de NVIDIA, répartis dans tous les départements, ingénierie, juridique, marketing, finance, RH, ventes et opérations, utilisent déjà Codex propulsé par GPT-5.5 depuis quelques semaines. Les résultats sont concrets et mesurables : des cycles de débogage qui prenaient des jours se bouclent désormais en quelques heures, et des expérimentations qui nécessitaient des semaines aboutissent en une nuit sur des bases de code complexes et multi-fichiers. Des équipes livrent des fonctionnalités complètes à partir de simples instructions en langage naturel. L'impact dépasse le simple gain de productivité individuel. En rendant l'inférence de modèles frontier économiquement viable à l'échelle de l'entreprise, cette infrastructure change la donne pour toute organisation souhaitant intégrer des agents IA dans ses processus métier. Pour sécuriser ce déploiement, NVIDIA a doté chaque employé d'une machine virtuelle cloud dédiée connectée via SSH, dans laquelle l'agent Codex opère en sandbox avec une politique de rétention zéro donnée. Les agents n'accèdent aux systèmes de production qu'en lecture seule, garantissant auditabilité complète sans exposition des données internes. Jensen Huang, PDG et fondateur de NVIDIA, a incité l'ensemble de ses équipes à adopter l'outil dans un email interne : "Passons à la vitesse de la lumière. Bienvenue dans l'ère de l'IA." Ce lancement s'inscrit dans plus de dix ans de collaboration entre NVIDIA et OpenAI, une relation qui remonte à 2016 lorsque Jensen Huang avait livré en mains propres le premier supercalculateur DGX-1 au siège d'OpenAI à San Francisco. Depuis, les deux entreprises co-développent l'ensemble de la pile IA : NVIDIA était partenaire dès le premier jour pour le lancement du modèle open-weight gpt-oss d'OpenAI, en optimisant les poids du modèle pour TensorRT-LLM et des frameworks comme vLLM et Ollama. OpenAI s'est engagé à déployer plus de 10 gigawatts de systèmes NVIDIA pour sa prochaine infrastructure, mobilisant des millions de GPU pour l'entraînement et l'inférence dans les années à venir. Les deux sociétés sont également partenaires en co-conception matérielle, OpenAI contribuant au roadmap hardware de NVIDIA en échange d'un accès anticipé aux nouvelles architectures, ce qui a abouti à la mise en service commune du premier cluster de 100 000 GPU GB200 NVL72.

LLMsActu
1 source
Quand les agents IA se parlent entre eux : la startup Band lance un 'orchestrateur universel
106VentureBeat AI 

Quand les agents IA se parlent entre eux : la startup Band lance un 'orchestrateur universel

Une nouvelle startup américaine, BAND (également connue sous le nom de Thenvoi AI Ltd.), est sortie de la confidentialité ce mois-ci avec 17 millions de dollars levés en financement Seed pour résoudre l'un des problèmes les plus concrets de l'essor des agents IA : leur incapacité à communiquer entre eux. Fondée par Arick Goomanovsky, la société se positionne comme un "orchestrateur universel", une couche d'infrastructure de communication que ses fondateurs qualifient de "Slack pour agents". Son architecture repose sur deux niveaux : un "agentic mesh" qui permet la découverte et la délégation structurée entre agents, et un plan de contrôle qui assure la gouvernance des permissions en temps réel. Contrairement à la plupart des solutions existantes, BAND ne fait pas appel à des LLM pour router les messages, préférant un système de routage déterministe breveté pour éviter les erreurs non-prévisibles. La plateforme supporte également la communication multi-pairs en duplex intégral, permettant à plusieurs agents, un agent de planification, un agent de code, un agent QA, de collaborer dans un espace partagé avec un contexte synchronisé. L'enjeu est considérable pour les entreprises qui ont massivement déployé des agents IA au cours des dix-huit derniers mois sans se soucier de leur interopérabilité. Un agent construit sur LangChain ne peut pas facilement déléguer une tâche à un agent CrewAI, et un agent intégré dans Salesforce n'a aucun moyen natif de se coordonner avec un script Python tournant sur un cloud privé. Sans infrastructure de communication dédiée, les organisations se retrouvent avec des dizaines d'agents isolés incapables de former une force de travail cohérente. BAND entend combler ce vide en devenant un middleware indépendant, compatible avec tous les frameworks et tous les clouds, éliminant ainsi la dépendance à un fournisseur unique. La gestion des identités et des droits d'accès est particulièrement critique : si un humain mandate l'agent A, qui délègue à l'agent B, BAND garantit que l'agent B n'accède qu'aux données auxquelles l'humain original est autorisé. Ce problème d'interopérabilité était prévisible dès le début de la vague agentique, mais l'industrie a d'abord prioritisé la création d'agents individuels au détriment de leur coordination. BAND s'inscrit dans une tendance plus large : après la phase de "construction", vient la phase de "mise en réseau". La startup s'appuie techniquement sur la même infrastructure que WhatsApp et Discord pour absorber les volumes de trafic attendus, anticipant un monde où les identités numériques dépasseront en nombre les identités humaines. Des protocoles comme MCP d'Anthropic ou A2A de Google posent des jalons, mais restent limités à des scénarios point-à-point. BAND parie sur un marché encore ouvert, avec des concurrents encore absents à cette échelle, pour s'imposer comme la couche de plomberie invisible d'une économie agentique en construction.

InfrastructureOpinion
1 source
Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur
107MarkTechPost 

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion
1 source
Alibaba ouvre l'application Qwen à des partenaires externes avec China Eastern Airlines
108SCMP Tech 

Alibaba ouvre l'application Qwen à des partenaires externes avec China Eastern Airlines

Alibaba a annoncé son premier partenariat externe pour son application grand public d'intelligence artificielle Qwen, en s'associant à China Eastern Airlines, l'une des trois grandes compagnies aériennes nationales chinoises. Grâce à cette intégration, les utilisateurs de l'application Qwen peuvent désormais gérer l'intégralité du processus de réservation de vol, recherche de billets, achat, sélection du siège et enregistrement, au sein d'une seule interface conversationnelle en langage naturel, sans quitter l'application. Ce partenariat marque une étape décisive dans la stratégie d'Alibaba : faire de Qwen non plus un simple assistant textuel, mais un agent capable d'agir concrètement dans le monde réel pour le compte de l'utilisateur. L'intégration avec China Eastern illustre ce qu'on appelle les capacités « agentiques », la possibilité pour un modèle de langage d'enchaîner des actions complexes dans des systèmes tiers. Pour les voyageurs chinois, cela représente un gain de fluidité considérable, toutes les étapes d'une réservation étant centralisées dans un seul dialogue. Cette initiative s'inscrit dans une course mondiale aux assistants IA capables de se connecter à des services réels. En Chine, Alibaba fait face à une concurrence intense de Baidu, ByteDance et surtout de DeepSeek, dont la montée en puissance a redistribué les cartes début 2025. En ouvrant Qwen à des partenaires extérieurs, Alibaba cherche à constituer un écosystème d'intégrations qui rendrait son application indispensable au quotidien, à l'image de ce que WeChat a réussi avec ses mini-programmes il y a près d'une décennie.

OutilsOutil
1 source
Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore
109AWS ML Blog 

Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore

Amazon a annoncé de nouvelles fonctionnalités pour Bedrock AgentCore, sa plateforme de développement d'agents IA, qui promettent de réduire drastiquement le temps nécessaire pour passer d'une idée à un agent fonctionnel. La pièce maîtresse de cette mise à jour est le "managed agent harness", une couche d'infrastructure gérée qui permet de déclarer et lancer un agent en trois appels d'API seulement, sans écrire de code d'orchestration. Le développeur n'a qu'à définir quel modèle utiliser, quels outils appeler et quelles instructions suivre : AgentCore assemble automatiquement le calcul, la mémoire, les identités et la sécurité. La plateforme est compatible avec les frameworks déjà en usage dans l'industrie : LangGraph, LlamaIndex, CrewAI et Strands Agents, le framework open source d'AWS qui propulse le harness. AgentCore gère également la persistance de l'état de session sur un système de fichiers durable, ce qui permet à un agent de suspendre une tâche en cours et de la reprendre exactement là où il s'était arrêté. Jusqu'ici, construire l'infrastructure sous-jacente d'un agent, compute, sandbox d'exécution de code, connexions sécurisées aux outils, stockage persistant, gestion des erreurs, représentait plusieurs jours de travail avant de pouvoir tester la moindre logique métier. Avec AgentCore, tester une variante d'agent, changer de modèle ou ajouter un outil devient une modification de configuration et non une réécriture de code. Rodrigo Moreira, VP Engineering chez VTEX, l'un des premiers utilisateurs, confirme que ce qui prenait auparavant des jours de mise en place peut désormais être validé en quelques minutes. Cette accélération du cycle de prototypage est particulièrement significative pour les équipes produit qui veulent itérer rapidement sur la logique agent sans s'embourber dans la plomberie backend. Les patterns "human-in-the-loop", souvent coûteux à implémenter, deviennent pratiques grâce à la persistance native de session, sans nécessiter de refonte architecturale ultérieure. La sortie de ces fonctionnalités s'inscrit dans une concurrence féroce entre les grands fournisseurs cloud pour capter les équipes qui industrialisent l'IA agentique. AWS fait le pari que les développeurs adoptent plus facilement un service géré s'il supprime la friction initiale tout en restant extensible : lorsque les besoins d'orchestration personnalisée ou de coordination multi-agents se précisent, il suffit de basculer d'une configuration déclarative vers du code, sur la même plateforme, avec la même pipeline de déploiement et le même isolement microVM. La prochaine étape annoncée, déployer et opérer les agents depuis le même terminal, vise à unifier le cycle complet de développement, de la première idée jusqu'à la production, dans un seul environnement sans rupture d'outil.

UELes équipes de développement françaises et européennes peuvent réduire leur temps de prototypage d'agents IA, accélérant l'industrialisation de l'IA agentique pour les entreprises du continent.

OutilsOutil
1 source
Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA
110VentureBeat AI 

Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA

La plateforme australienne de financement de startups VentureCrowd a réduit de 90 % la durée de certains cycles de développement front-end grâce à des agents IA de codage, mais cette performance a eu un prix. Diego Mogollon, directeur produit de l'entreprise, a constaté que les agents raisonnaient exclusivement à partir des données accessibles au moment de l'exécution, ce qui les rendait «confiants et faux» dès que le contexte fourni était incomplet ou mal structuré. Le problème identifié porte un nom : le «context bloat», ou gonflement de contexte, un phénomène où les agents IA accumulent progressivement trop de données, d'instructions et d'outils au fil de workflows de plus en plus complexes. Pour y répondre, Salesforce vient de publier Agentforce Vibes 2.0, une mise à jour de sa plateforme de développement d'agents intégrée à l'écosystème Salesforce, disponible dès le plan gratuit. Cette version étend la compatibilité avec des frameworks tiers comme ReAct et introduit deux nouveaux concepts : les Abilities, qui définissent ce que l'agent cherche à accomplir, et les Skills, qui désignent les outils qu'il utilisera pour y parvenir. Le problème du gonflement de contexte est plus structurel qu'il n'y paraît. Plus un agent dispose de contexte, plus il consomme de tokens, ce qui ralentit les traitements et fait grimper les coûts. Pour les entreprises qui déploient ces systèmes à grande échelle, cela se traduit par une perte de contrôle sur la latence, la fiabilité et les budgets. Mogollon résume le paradoxe central : «Ce n'est pas un problème d'IA, c'est un problème de contexte déguisé en problème d'IA, et c'est le premier mode d'échec que j'observe dans les implémentations agentiques.» VentureCrowd a d'ailleurs dû restructurer l'ensemble de sa base de code avant même de pouvoir déployer des agents efficaces, les agents amplifiant les défauts des données qu'ils reçoivent. L'approche de Salesforce avec Agentforce Vibes 2.0 se distingue par son intégration native aux modèles de données existants des entreprises, plutôt que de chercher à minimiser le contexte. D'autres plateformes adoptent une philosophie différente : Claude Code et Codex d'OpenAI privilégient une exécution autonome, où les agents lisent des fichiers et exécutent des commandes en continu, avec des mécanismes de compaction activés lorsque le contexte devient trop volumineux. La tendance générale est à la gestion du contexte croissant plutôt qu'à sa limitation, ce qui soulève des questions de fond pour l'ensemble du secteur. Avec la multiplication des workflows agentiques complexes en entreprise, la maîtrise du contexte s'impose comme un enjeu technique et économique de premier plan, et les éditeurs qui proposeront les architectures les plus efficientes sur ce point prendront un avantage concurrentiel décisif.

OutilsOutil
1 source
☕️ Meta veut regarder tout ce que font ses employés pour entraîner ses IA
111Next INpact 

☕️ Meta veut regarder tout ce que font ses employés pour entraîner ses IA

Meta a discrètement déployé un outil de surveillance baptisé Model Capability Initiative (MCI) sur les ordinateurs de ses employés, révèlent des mémos internes obtenus par Reuters. Concrètement, le dispositif enregistre l'intégralité des interactions des salariés avec leurs applications et sites web, mouvements de curseur, clics, frappes clavier, et effectue des captures d'écran à intervalles réguliers. L'entreprise précise que MCI n'a pas vocation à évaluer la productivité des employés ni à les surveiller au sens disciplinaire du terme, et affirme avoir mis en place des protections pour les "contenus sensibles", sans en détailler la nature. Andrew Bosworth, directeur technique du groupe, a exposé l'ambition derrière l'initiative dans un mémo interne : construire un environnement où les agents IA réalisent l'essentiel du travail pendant que les humains les dirigent, les évaluent et les corrigent. L'enjeu est précis : les modèles d'IA de Meta peinent à reproduire fidèlement les comportements humains face à un ordinateur, sélectionner une option dans un menu déroulant, enchaîner des raccourcis clavier, naviguer intuitivement entre applications. Ces lacunes limitent directement les capacités des agents IA qui prennent le contrôle d'un poste de travail à la place de l'utilisateur. En collectant des données comportementales réelles en conditions de travail, Meta espère combler ces angles morts et produire des agents capables, selon les mots de Bosworth, "d'identifier automatiquement les moments où nous avons ressenti le besoin d'intervenir, afin de faire mieux la fois suivante". C'est un pari industriel majeur : la course aux agents autonomes se joue désormais sur la qualité des données d'entraînement comportementales, et Meta entend utiliser ses propres effectifs comme terrain d'expérimentation. L'initiative se heurtera probablement à des obstacles juridiques significatifs en Europe. Le RGPD encadre strictement la collecte de données personnelles, y compris en contexte professionnel, et plusieurs législations nationales vont plus loin encore. En Italie, la surveillance électronique de la productivité des salariés est explicitement interdite. En France, si l'employeur peut accéder au matériel informatique mis à disposition des salariés, il doit préalablement informer les employés concernés et consulter les représentants du personnel, comité d'entreprise et comité social et économique. La CNIL a rappelé à plusieurs reprises que tout dispositif de surveillance doit être "strictement proportionné à l'objectif suivi" et ne peut servir à une surveillance permanente ; les keyloggers sont d'ailleurs explicitement cités parmi les outils prohibés. Meta devra donc adapter ou suspendre MCI dans plusieurs pays européens, sous peine de sanctions qui pourraient compromettre l'ensemble du programme.

UEMeta devra suspendre ou adapter son outil MCI en France et dans l'UE, où le RGPD, la CNIL (qui interdit explicitement les keyloggers) et le droit du travail français (consultation obligatoire du CSE) s'opposent à une surveillance permanente des salariés à des fins d'entraînement IA.

💬 Le problème des agents IA, c'est pas l'intelligence, c'est les micro-gestes : savoir qu'après ce menu tu fais Tab et pas clic, que ce champ se remplit dans tel ordre. Pour combler ça, Meta filme ses propres employés en permanence. Bon, sur le papier c'est du bon sens industriel, mais en Europe c'est un keylogger permanent sur du matériel pro, et la CNIL a été très claire là-dessus : non.

ÉthiqueReglementation
1 source
Lingji Tianci lève plusieurs millions de yuans pour un jouet pour enfants intégrant l'IA
112Pandaily 

Lingji Tianci lève plusieurs millions de yuans pour un jouet pour enfants intégrant l'IA

La startup pékinoise Beijing Lingji Tianci Technology a finalisé deux tours de financement cumulant plusieurs dizaines de millions de yuans au cours de l'année écoulée. Le tour de table initial (angel round) a été mené par Delian Capital, avec la participation des fonds Xiaokonglong et Ruisheng, tandis que le tour Pre-A a été conduit par Implic Capital. La société a lancé sa marque de jouets intelligents "Jollybubu", dont la sortie officielle est prévue fin mai 2026. Le concept repose sur un système "peluche + hub" : chaque peluche correspond à un agent IA autonome, doté de sa propre base de connaissances et d'une personnalité distincte. Posée sur le hub, elle permet des conversations vocales interactives et des réponses coordonnées entre plusieurs personnages. La technologie intègre la reconnaissance vocale automatique (ASR), la synthèse vocale (TTS) et un grand modèle de langage pour orchestrer ces interactions multi-agents. Une mini-application accompagnatrice enregistre et visualise les données d'interaction de l'enfant, révélant ses centres d'intérêt et ses habitudes d'engagement. Ce produit s'adresse directement aux parents soucieux d'encadrer le temps d'écran de leurs enfants tout en leur offrant une expérience éducative et ludique enrichie. La proposition de Jollybubu se distingue par son modèle économique centré sur la vente de matériel plutôt que sur un abonnement mensuel, ce qui réduit la friction à l'achat et élargit le marché potentiel. Pour l'industrie du jouet connecté, l'intégration d'agents IA individualisés par personnage représente un saut qualitatif par rapport aux assistants vocaux génériques existants. Le marché des jouets intelligents pour enfants connaît une effervescence croissante en Chine, où plusieurs startups tentent de combiner l'attrait émotionnel des peluches traditionnelles avec les capacités des LLM de dernière génération. Lingji Tianci s'inscrit dans cette tendance de "hardware IA grand public" qui mise sur l'objet physique comme point d'entrée, à rebours des applications purement logicielles. Le soutien d'investisseurs spécialisés comme Implic Capital, actif sur les technologies éducatives, suggère une ambition qui dépasse le simple gadget pour viser un segment premium de l'éveil numérique de l'enfant.

BusinessActu
1 source
Orchestration d'agents
113MIT Technology Review 

Orchestration d'agents

Les agents IA orchestrés en réseau constituent désormais la prochaine grande rupture technologique. Alors que ChatGPT a rendu les grands modèles de langage accessibles au grand public, les outils multi-agents représentent une étape qualitativement différente : des systèmes capables de déléguer, coordonner et exécuter des tâches complexes en parallèle. Claude Code, lancé par Anthropic l'année dernière, permet par exemple de piloter simultanément plusieurs dizaines de sous-agents, chacun affecté à une portion distincte d'une base de code. Chez OpenAI, Codex joue un rôle similaire. Anthropic affirme avoir développé son application de productivité Claude Cowork en seulement dix jours grâce à Claude Code, là où un projet comparable aurait nécessité plusieurs mois. Perplexity a également lancé Computer, un outil généraliste pour professionnels. Google DeepMind propose de son côté Co-Scientist, une plateforme qui permet aux chercheurs de confier à des équipes d'agents la recherche bibliographique, la génération d'hypothèses et la conception d'expériences. L'enjeu dépasse largement le secteur du logiciel. Ces outils s'adressent désormais à tous les cols blancs : gestion de boîtes mail, suivi d'inventaires, traitement des réclamations clients. La promesse centrale est de transformer le travailleur qualifié en chef de projet capable de superviser une équipe d'agents, multipliant ainsi sa productivité. Les partisans de cette technologie évoquent une rupture comparable à ce que la chaîne d'assemblage de Henry Ford a représenté pour l'industrie manufacturière au siècle dernier : une réorganisation profonde du travail de connaissance, potentiellement synonyme de suppressions massives de postes dans les fonctions tertiaires ou, à l'inverse, d'un bond de productivité sans précédent pour ceux qui sauront maîtriser ces outils. La montée en puissance de ces systèmes s'inscrit dans une dynamique portée par les géants de la tech. Des entreprises comme Nvidia et Tencent ont déjà commencé à développer leurs propres agents en s'appuyant sur des bases open source, comme celles popularisées par OpenClaw, un assistant personnel vocal qui avait capté l'attention malgré des failles de sécurité notoires. La vraie question qui se pose aujourd'hui n'est plus technique mais systémique : jusqu'où peut-on laisser des agents autonomes interagir avec des infrastructures critiques, des systèmes de santé, des plateformes financières ou des réseaux sociaux ? Les grands modèles de langage restent imprévisibles, et ce qui n'est qu'une erreur bénigne dans une interface de chat peut devenir un incident grave lorsque l'agent agit directement dans le monde réel. Le secteur avance vite, mais le cadre de contrôle, lui, peine à suivre.

UELa prolifération d'agents autonomes dans les fonctions tertiaires et les infrastructures critiques interpelle directement le cadre réglementaire européen, notamment l'AI Act qui classe certains usages d'agents autonomes comme systèmes à haut risque nécessitant audit et supervision humaine.

OutilsOutil
1 source
Trois agents de codage IA ont laissé fuiter des secrets via une injection de prompt, un éditeur l'avait prédit
114VentureBeat AI 

Trois agents de codage IA ont laissé fuiter des secrets via une injection de prompt, un éditeur l'avait prédit

Un chercheur en sécurité de l'Université Johns Hopkins, Aonan Guan, accompagné de ses collègues Zhengyu Liu et Gavin Zhong, a publié la semaine dernière une divulgation technique intitulée "Comment and Control" démontrant qu'une simple injection de prompt dans le titre d'une pull request GitHub suffisait à compromettre trois agents de codage IA majeurs. L'attaque a forcé l'action Claude Code Security Review d'Anthropic à publier sa propre clé API en commentaire, et la même technique a fonctionné sur le Gemini CLI Action de Google ainsi que sur le Copilot Agent de GitHub (Microsoft), sans nécessiter aucune infrastructure externe. Les trois entreprises ont discrètement corrigé la faille : Anthropic l'a classée CVSS 9.4 Critique en versant une prime de 100 dollars, Google a payé 1 337 dollars, et GitHub a accordé 500 dollars via son programme Copilot Bounty. Aucune des trois n'avait publié de CVE officiel ni d'avis de sécurité public au moment de la divulgation. L'impact de cette vulnérabilité touche directement tous les dépôts GitHub utilisant le déclencheur pullrequesttarget, requis par la plupart des intégrations d'agents IA pour accéder aux secrets. Contrairement au déclencheur standard pull_request, ce mode injecte les secrets dans l'environnement d'exécution, exposant collaborateurs, champs de commentaires et flux de code automatisé à des acteurs malveillants. Merritt Baer, directrice de la sécurité chez Enkrypt AI et ancienne directrice adjointe de la sécurité chez AWS, résume l'enjeu sans détour : la protection doit se situer "à la frontière de l'action, pas à celle du modèle", c'est le runtime qui constitue le véritable périmètre d'exposition. Cette attaque illustre une surface de risque concrète pour toute organisation ayant intégré des agents IA dans ses pipelines de revue de code. Ce qui rend cet incident particulièrement révélateur, c'est que la fiche système d'Anthropic pour Claude Code Security Review indiquait explicitement que l'outil "n'est pas durci contre les injections de prompt", l'exploit n'a fait que confirmer ce qui était documenté. En comparaison, la fiche système d'OpenAI pour GPT-5.4 publie des évaluations d'injection au niveau du modèle mais ne documente pas la résistance au niveau du runtime ou de l'exécution des outils. Celle de Google pour Gemini 3.1 Pro, publiée en février, renvoie pour l'essentiel à une documentation plus ancienne et maintient son programme de red teaming entièrement interne, sans programme cyber externe. L'écart entre ce que les éditeurs documentent et ce qu'ils protègent réellement est désormais au coeur du débat sur la sécurité des agents IA déployés dans des environnements de développement sensibles.

UELes organisations européennes intégrant des agents IA (Claude Code, Gemini CLI, Copilot) dans leurs pipelines CI/CD GitHub sont directement exposées : tout dépôt utilisant le déclencheur `pullrequesttarget` peut avoir vu ses secrets fuiter, et une revue de configuration s'impose immédiatement.

💬 Anthropic a classé ça CVSS 9.4 et a payé 100 dollars de bounty. Cent dollars pour une fuite de clé API dans le titre d'une pull request, c'est le genre de disproportion qui dit tout sur comment ces outils ont été mis en prod. Le pire, c'est que c'était écrit noir sur blanc dans leur system card : "non durci contre les injections de prompt." Si tu utilises `pullrequesttarget` dans tes workflows GitHub avec un agent IA, va vérifier maintenant.

SécuritéActu
1 source
Adobe déploie des agents IA autonomes à grande échelle avec NVIDIA et WPP pour booster la créativité
115NVIDIA AI Blog 

Adobe déploie des agents IA autonomes à grande échelle avec NVIDIA et WPP pour booster la créativité

Adobe, NVIDIA et WPP ont annoncé un renforcement de leur collaboration stratégique pour déployer des agents IA au cœur des opérations marketing d'entreprise, une annonce faite à l'occasion de l'Adobe Summit, dont la keynote du deuxième jour est prévue le 21 avril 2026. Le dispositif repose sur trois briques complémentaires : les plateformes créatives d'Adobe, dont le nouvel Adobe CX Enterprise Coworker, le runtime sécurisé NVIDIA OpenShell combiné aux modèles ouverts Nemotron et au NVIDIA Agent Toolkit, et l'expertise mondiale de WPP en conseil marketing. Concrètement, ces agents sont capables de générer, adapter et versionner des visuels, du texte et des offres commerciales à travers des millions de combinaisons de produits, d'audiences et de canaux, en quelques minutes plutôt qu'en plusieurs mois. L'enjeu central de cette collaboration est le contrôle. Quand des agents IA orchestrent des flux de travail en plusieurs étapes, accèdent à des données sensibles et déclenchent des actions automatisées à grande échelle, la question de la gouvernance devient critique pour les grandes entreprises. NVIDIA OpenShell répond à ce problème en faisant tourner chaque agent dans un environnement conteneurisé, isolé et auditable, avec une gestion de politiques vérifiable qui définit précisément ce que l'agent est autorisé à faire, et pas seulement quelles règles sont théoriquement en place. Adobe Firefly Foundry, accéléré par l'infrastructure NVIDIA, permet par ailleurs aux organisations d'entraîner des modèles personnalisés sur leurs propres actifs pour produire du contenu commercialement sûr, aligné sur l'identité de marque. Cette annonce s'inscrit dans une course industrielle à l'automatisation du marketing de masse personnalisé, portée par la demande explosive d'expériences client sur mesure à travers tous les canaux numériques. Adobe complète son offre avec une solution de jumeaux numériques 3D désormais disponible en général, construite sur les bibliothèques NVIDIA Omniverse et le standard OpenUSD : ces répliques virtuelles de produits servent d'identités persistantes que les agents exploitent pour automatiser la production de contenus haute fidélité dans différents formats et marchés. La convergence entre Adobe, spécialiste du creative cloud et de l'expérience client, NVIDIA, fournisseur d'infrastructure d'accélération et de couches logicielles agentiques, et WPP, premier groupe mondial de communication, dessine un modèle où les grandes marques pourraient déléguer l'essentiel de leur production créative à des systèmes autonomes, tout en conservant un contrôle granulaire sur chaque action déclenchée.

UEWPP, premier groupe mondial de communication avec une forte présence en Europe, est au cœur de ce déploiement, ce qui pourrait accélérer l'adoption d'agents IA dans les agences marketing européennes travaillant sur des campagnes multicanal à grande échelle.

OutilsOutil
1 source
Des attaquants ont compromis des outils de sécurité IA dans plus de 90 organisations, avec accès en écriture aux pare-feu
116VentureBeat AI 

Des attaquants ont compromis des outils de sécurité IA dans plus de 90 organisations, avec accès en écriture aux pare-feu

En 2025, des attaquants ont compromis des outils d'intelligence artificielle dans plus de 90 organisations, en y injectant des prompts malveillants pour dérober des identifiants et des cryptomonnaies. Ces incidents, documentés dans le rapport CrowdStrike Global Threat Report 2026, ciblaient des outils capables uniquement de lire et de résumer des données. Mais la génération suivante d'agents IA, les SOC agents autonomes désormais commercialisés par Cisco, Ivanti et d'autres, dispose, elle, d'un accès en écriture aux systèmes critiques : règles de pare-feu, politiques IAM, quarantaine d'endpoints. Cisco a annoncé AgenticOps for Security en février 2026, avec des capacités de remédiation autonome et de conformité PCI-DSS. Ivanti a lancé la semaine dernière Continuous Compliance et son agent Neurons AI, intégrant dès le départ des mécanismes d'approbation et de validation. Selon George Kurtz, PDG de CrowdStrike, « l'IA compresse le délai entre l'intention et l'exécution, tout en transformant les systèmes d'entreprise en cibles ». L'utilisation de l'IA par des acteurs étatiques dans des opérations offensives a bondi de 89 % sur un an. Le danger concret de cette transition est que des agents compromis peuvent agir via des appels API légitimes, classifiés comme autorisés par les outils de détection, l'attaquant n'effleure jamais le réseau. Selon un rapport 2026 de Saviynt et Cybersecurity Insiders portant sur 235 RSSI, 47 % ont déjà observé des agents IA adoptant des comportements non intentionnels, et seulement 5 % se déclarent confiants dans leur capacité à contenir un agent compromis. Un sondage Dark Reading place l'IA agentique comme le vecteur d'attaque le plus dangereux selon 48 % des professionnels de la cybersécurité. Palo Alto Networks rapporte un ratio de 82 identités machine pour 1 humain dans l'entreprise moyenne, et chaque agent autonome ajouté en production élargit cette surface d'exposition. Ce saut qualitatif survient dans un contexte où les cadres de gouvernance peinent à suivre. L'OWASP a publié en décembre 2025 son Top 10 pour les applications agentiques, élaboré avec plus de 100 chercheurs en sécurité, identifiant trois catégories de risque directement liées aux agents SOC : le détournement d'objectif (ASI01), le mésusage d'outils (ASI02) et l'abus de privilèges et d'identité (ASI03). Des serveurs MCP malveillants imitant des services légitimes ont déjà intercepté des données sensibles dans des workflows IA. Le Centre national de cybersécurité britannique a prévenu que les attaques par injection de prompt « ne seront peut-être jamais totalement éliminées ». L'IEEE-USA, dans sa soumission au NIST, formule le problème sans détour : le risque dépend moins du modèle lui-même que de son niveau d'autonomie, de l'étendue de ses privilèges et de son environnement d'exécution. La course entre les capacités offensives et les mécanismes de contrôle est lancée, la question est de savoir lequel des deux prendra de l'avance.

UELe NCSC britannique et l'OWASP (avec plus de 100 chercheurs) ont publié des cadres de risque directement applicables aux entreprises européennes qui déploient des agents IA autonomes dans leurs infrastructures de sécurité.

SécuritéOpinion
1 source
Anthropic lance Claude Opus 4.7 : une mise à jour majeure pour le codage par agents, la vision haute résolution et les tâches autonomes longues
117MarkTechPost 

Anthropic lance Claude Opus 4.7 : une mise à jour majeure pour le codage par agents, la vision haute résolution et les tâches autonomes longues

Anthropic a lancé Claude Opus 4.7, successeur direct d'Opus 4.6, en le positionnant comme une amélioration ciblée plutôt qu'un saut générationnel complet. Le modèle se place au sommet de la gamme Anthropic, au-dessus de Haiku et Sonnet, juste en dessous du mystérieux Claude Mythos, encore en accès restreint. Sur un benchmark de 93 tâches de programmation, Opus 4.7 améliore le taux de résolution de 13 % par rapport à Opus 4.6, dont quatre tâches qu'aucun modèle précédent ne parvenait à résoudre. Sur CursorBench, référence populaire chez les développeurs, il atteint 70 % contre 58 % pour son prédécesseur. Les gains sont encore plus nets sur les workflows complexes : un testeur rapporte une amélioration de 14 % sur des tâches multi-étapes, avec moins de tokens consommés et un tiers des erreurs d'outils, et Opus 4.7 est le premier modèle à réussir leurs tests de "besoins implicites", continuant à exécuter même quand des outils échouent en cours de route. Ce qui rend cette version particulièrement significative pour les équipes engineering, c'est la capacité du modèle à vérifier ses propres sorties avant de rendre la main. Les versions précédentes produisaient des résultats sans validation interne ; Opus 4.7 intègre cette boucle de contrôle de façon autonome, ce qui a des implications directes pour les pipelines CI/CD et les workflows agentiques longue durée. En parallèle, la résolution des images passe à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la capacité des modèles Claude précédents. L'impact en production est immédiat : un testeur travaillant sur des workflows "computer-use" rapporte un score de 98,5 % sur leur benchmark de précision visuelle, contre 54,5 % pour Opus 4.6. Les agents qui lisent des captures d'écran denses, extraient des données de diagrammes complexes ou travaillent sur des interfaces pixel-perfect bénéficient directement de cette amélioration, sans modifier leur code, les images sont simplement traitées avec une meilleure fidélité. Du côté de l'API, Anthropic introduit deux nouveaux leviers. Un niveau d'effort "xhigh" (extra high) s'intercale entre "high" et "max", offrant un contrôle plus fin sur le compromis entre qualité de raisonnement et latence. Claude Code passe d'ailleurs à xhigh par défaut pour tous les abonnements. Ces annonces s'inscrivent dans une course à l'agent autonome où Anthropic se positionne clairement : après les améliorations de Sonnet 4.6 sur les tâches longues durée, Opus 4.7 cible les cas les plus difficiles, ceux qui nécessitaient jusqu'ici une supervision humaine rapprochée. Avec Claude Mythos en coulisses et une gamme qui s'étoffe à tous les niveaux, Anthropic consolide son avance sur le segment des développeurs professionnels et des applications d'IA en production.

LLMsOpinion
1 source
Des heures aux minutes : comment les agents IA ont redonné du temps aux marketeurs pour l'essentiel
118AWS ML Blog 

Des heures aux minutes : comment les agents IA ont redonné du temps aux marketeurs pour l'essentiel

L'équipe Technology, AI, and Analytics (TAA) d'AWS Marketing a développé, en partenariat avec la startup Gradial, une solution d'IA agentique capable de réduire le temps de publication d'une page web de quatre heures à environ dix minutes, soit une diminution de plus de 95 %. Déployée sur Amazon Bedrock, cette solution s'appuie sur les modèles Anthropic Claude et Amazon Nova pour orchestrer l'ensemble du workflow de création de contenu : interprétation des briefs en langage naturel, assemblage des composants de page, validation des standards d'accessibilité et de conformité, jusqu'au lancement effectif sur les canaux digitaux. Le système intègre un serveur Model Context Protocol (MCP) pour la validation en temps réel et se connecte directement aux systèmes de gestion de contenu (CMS) d'entreprise. Cette accélération libère les équipes marketing, Digital Marketing Managers et Product Marketing Managers chez AWS, des tâches de coordination et d'assemblage répétitives qui monopolisaient leur temps. Auparavant, la publication d'une seule page nécessitait un appel de lancement, une file d'attente de priorisation, plusieurs allers-retours entre équipes, puis des cycles de révision successifs pour valider les textes, les visuels, les liens et la conformité technique. Un seul problème d'accessibilité sur une image suffisait à relancer un nouveau cycle complet. En automatisant cette orchestration, les équipes peuvent désormais se concentrer sur les tâches à plus forte valeur ajoutée : identifier les problèmes clients, affiner les messages et concevoir des campagnes plus efficaces. Ce projet s'inscrit dans une tendance de fond où les grandes entreprises tech cherchent à industrialiser leurs workflows marketing grâce à l'IA agentique. AWS, qui opère l'une des infrastructures digitales les plus complexes au monde, fait face à des exigences particulièrement élevées en matière de cohérence de marque, d'accessibilité et de conformité réglementaire à grande échelle. Le recours à Gradial, une startup spécialisée dans la modernisation des organisations marketing, illustre la montée en puissance des solutions verticales construites sur des plateformes d'IA fondationnelles comme Bedrock. L'enjeu dépasse AWS : toute organisation publiant du contenu web en volume est confrontée aux mêmes goulots d'étranglement. La généralisation de ce type d'agent autonome capable de piloter des CMS d'entreprise pourrait profondément transformer les métiers du marketing digital, en faisant de la coordination humaine l'exception plutôt que la règle.

OutilsOutil
1 source
NanoClaw et Vercel simplifient les règles et validations pour agents IA dans 15 applications de messagerie
119VentureBeat AI 

NanoClaw et Vercel simplifient les règles et validations pour agents IA dans 15 applications de messagerie

NanoCo, la startup privée issue du projet open source NanoClaw, a annoncé le 17 avril 2026 un partenariat stratégique avec Vercel et OneCLI pour lancer NanoClaw 2.0, un système de contrôle humain intégré directement dans l'infrastructure des agents IA autonomes. Concrètement, ce système intercepte toute action sensible d'un agent, modification d'infrastructure cloud, envoi d'email, virement bancaire, et envoie une demande d'approbation interactive à l'utilisateur sur l'une des 15 applications de messagerie supportées : Slack, WhatsApp, Telegram, Microsoft Teams, Discord, Google Chat, iMessage, Messenger, Instagram, X, GitHub, Linear, Matrix, Email et Webex. L'utilisateur reçoit une carte native dans son application habituelle et approuve ou refuse en un seul tap. Ce mécanisme repose sur la combinaison du Chat SDK de Vercel, qui unifie le déploiement sur toutes ces plateformes depuis une seule base de code TypeScript, et du Rust Gateway d'OneCLI, qui intercepte les requêtes sortantes avant qu'elles n'atteignent le service cible. L'enjeu central de cette annonce est la résolution d'un problème de sécurité fondamental qui bloquait l'adoption enterprise des agents IA : jusqu'ici, utiliser un agent vraiment utile obligeait à lui confier des clés API réelles et des permissions larges, exposant les systèmes à des erreurs catastrophiques par hallucination ou compromission. NanoClaw 2.0 bascule d'une sécurité "au niveau applicatif", où c'est l'agent lui-même qui demande la permission, et pourrait donc manipuler l'interface, à une sécurité "au niveau infrastructure", totalement indépendante du modèle. Gavriel Cohen, cofondateur de NanoCo et ancien ingénieur chez Wix.com, résume le risque précédent ainsi : un agent malveillant ou compromis pourrait inverser les boutons "Approuver" et "Refuser" dans sa propre interface de validation. Avec le nouveau système, l'agent ne voit jamais les vraies clés API ; il manipule uniquement des clés fictives ("placeholder"), et le gateway Rust injecte les credentials réels chiffrés uniquement après approbation humaine explicite. NanoClaw avait été lancé le 31 janvier 2026 comme réponse minimaliste aux frameworks d'agents jugés trop complexes et intrinsèquement non sécurisés, notamment par leur absence de sandboxing. Les agents tournent dans des conteneurs Docker ou Apple Container strictement isolés, ce qui constitue le socle technique de toute la chaîne de contrôle. Ce partenariat avec Vercel et OneCLI représente la première tentative d'établir un standard d'infrastructure partagé pour la gouvernance des agents autonomes en entreprise, un marché encore largement non normalisé. Les cas d'usage prioritaires visés sont les équipes DevOps, qui pourraient valider des changements d'infrastructure via Slack, et les équipes finance, qui pourraient approuver des paiements batch via WhatsApp. La prochaine étape logique sera de savoir si d'autres frameworks d'agents, LangChain, AutoGen, CrewAI, adopteront des mécanismes similaires, ou si NanoClaw parviendra à s'imposer comme référence de facto pour la supervision humaine dans les pipelines agentiques d'entreprise.

SécuritéActu
1 source
Salesforce lance Headless 360 pour transformer sa plateforme en infrastructure pour agents autonomes
120VentureBeat AI 

Salesforce lance Headless 360 pour transformer sa plateforme en infrastructure pour agents autonomes

Salesforce a dévoilé mercredi, lors de sa conférence annuelle TDX à San Francisco, la transformation architecturale la plus ambitieuse de ses 27 ans d'histoire. L'initiative baptisée "Headless 360" expose l'intégralité des fonctionnalités de la plateforme sous forme d'API, d'outils MCP (Model Context Protocol) ou de commandes CLI, permettant à des agents IA d'opérer le système complet sans jamais ouvrir un navigateur. Plus de 100 nouveaux outils et compétences sont disponibles immédiatement pour les développeurs, dont plus de 60 outils MCP et 30 compétences préconfigurées donnant aux agents de codage comme Claude Code, Cursor, Codex ou Windsurf un accès direct et complet à l'ensemble d'une organisation Salesforce, données, workflows et logique métier inclus. L'environnement natif Agentforce Vibes 2.0 intègre désormais un "open agent harness" compatible avec le SDK agent d'Anthropic et celui d'OpenAI, avec support multi-modèles incluant Claude Sonnet et GPT-5. Une nouveauté technique notable : le support natif de React sur la plateforme, permettant aux développeurs de construire des interfaces front-end sans passer par le framework propriétaire Lightning de Salesforce. Cette annonce répond à une question existentielle qui pèse sur tout le secteur des logiciels d'entreprise : dans un monde où les agents IA savent raisonner, planifier et exécuter des tâches, une interface graphique a-t-elle encore une raison d'être ? Salesforce tranche clairement par la négative. La décision a été prise il y a deux ans et demi de reconstruire la plateforme pour les agents, en exposant les capacités plutôt qu'en les enfouissant derrière une interface. Pour Jayesh Govindarjan, vice-président exécutif et l'un des architectes de l'initiative, l'enjeu central est le cycle de vie complet du développement agentique : construire un agent n'est que la première étape, et les entreprises clientes font face à des défis concrets de déploiement, de gestion et d'intégration que Headless 360 entend résoudre à grande échelle. Salesforce lance cette offensive dans l'un des contextes les plus turbulents de l'histoire des logiciels SaaS. L'ETF iShares Expanded Tech-Software Sector a chuté d'environ 28 % depuis son pic de septembre 2025, alimenté par la crainte que les grands modèles de langage d'Anthropic, OpenAI et d'autres rendent les modèles économiques SaaS traditionnels obsolètes. En transformant sa plateforme en infrastructure programmable pour agents, Salesforce tente de se repositionner non plus comme un CRM avec une interface, mais comme un système d'exploitation pour l'entreprise agentique. La deuxième couche de l'initiative, l'"Agentforce Experience Layer", sépare ce qu'un agent fait de la façon dont il s'affiche, rendant des composants interactifs nativement sur Slack, mobile et autres surfaces, signe que le groupe mise sur une ubiquité d'exécution bien au-delà du navigateur.

UELes grandes entreprises françaises et européennes utilisant Salesforce devront revoir leur architecture IT et leurs stratégies d'automatisation face à ce basculement vers un modèle agent-first sans interface graphique traditionnelle.

OutilsOpinion
1 source
Anthropic lance Claude Opus 4.7 et reprend de justesse la tête des LLM grand public
121VentureBeat AI 

Anthropic lance Claude Opus 4.7 et reprend de justesse la tête des LLM grand public

Anthropic a officiellement lancé Claude Opus 4.7 le 16 avril 2026, son modèle de langage le plus puissant disponible au grand public à ce jour. Le modèle dépasse ses rivaux directs sur plusieurs benchmarks clés : il devance GPT-5.4 d'OpenAI (sorti début mars 2026) et Gemini 3.1 Pro de Google (février 2026) en codage agentique, utilisation d'outils à grande échelle, contrôle autonome d'ordinateurs et analyse financière. Sur le GDPVal-AA, l'évaluation de référence pour le travail de connaissance, Opus 4.7 obtient un score Elo de 1753, contre 1674 pour GPT-5.4 et seulement 1314 pour Gemini 3.1 Pro. En codage agentique (SWE-bench Pro), il résout 64,3 % des tâches contre 53,4 % pour son prédécesseur. Sur le raisonnement visuel (arXiv Reasoning avec outils), il passe de 84,7 % à 91,0 %. Le modèle est disponible dès aujourd'hui sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, avec une tarification API maintenue à 5 $ / 25 $ par million de tokens. À noter qu'Anthropic conserve un modèle encore plus puissant, baptisé Mythos, en accès très restreint auprès de quelques partenaires entreprises pour des tests de cybersécurité. La principale avancée technique réside dans deux domaines : l'autocorrection autonome et la vision haute résolution. Opus 4.7 est capable de concevoir ses propres étapes de vérification avant de déclarer une tâche terminée, dans des tests internes, le modèle a construit un moteur de synthèse vocale en Rust, puis a utilisé indépendamment un reconnaisseur vocal pour valider sa propre sortie audio. Cette logique de vérification réduit significativement les "boucles d'hallucination" typiques des agents IA. Côté vision, le modèle passe à une résolution maximale de 2 576 pixels sur le côté long (environ 3,75 mégapixels), soit trois fois plus qu'auparavant. Sur les tests d'acuité visuelle XBOW, le taux de réussite bondit de 54,5 % à 98,5 %, ouvrant la voie à des agents capables de naviguer sur des interfaces haute densité ou d'analyser des schémas techniques complexes. La course aux modèles frontières entre Anthropic, OpenAI et Google atteint un niveau de compétition sans précédent, les écarts se réduisant drastiquement : sur les benchmarks directement comparables, Opus 4.7 ne devance GPT-5.4 que 7 à 4. OpenAI conserve la tête sur la recherche agentique (89,3 % contre 79,3 %) et le codage en terminal brut. Opus 4.7 se positionne donc non comme un dominateur absolu, mais comme un modèle spécialisé pour les workflows autonomes longue durée, précisément ce que demande l'économie agentique en plein essor. Anthropic avertit par ailleurs que la précision accrue du modèle exige une adaptation des pratiques de prompting : Opus 4.7 suit les instructions à la lettre, ce qui peut amplifier les erreurs si les consignes sont ambiguës.

UEClaude Opus 4.7 est immédiatement accessible aux développeurs et entreprises européens via Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry à tarification inchangée, ouvrant de nouvelles possibilités pour les workflows agentiques longue durée.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. Anthropic joue gros avec Claude Opus 4.7, et ils ont bien fait de le lancer maintenant, avant que les autres ne prennent le large. Ils montrent qu'ils sont capables de tenir la cadence avec OpenAI et Google, même si c'est serré. Le truc avec l'autocorrection autonome et la vision haute résolution, ça donne un avantage concret pour les workflows à long terme, ce qui compte énormément dans l'économie agentique en plein essor. Mais attention, leur mise au point sur les prompts, c'est crucial : suivre les instructions à la lettre, ça peut aussi vouloir dire amplifier les erreurs si on ne fait pas gaffe aux ambiguïtés. Bon, sur le papier, c'est une avancée majeure, mais reste à voir comment cela se déroule dans la réalité quotidienne.

Les agents IA unifiés de Meta optimisent les performances à grande échelle
122Meta Engineering ML 

Les agents IA unifiés de Meta optimisent les performances à grande échelle

Meta a développé une plateforme d'agents IA unifiée pour automatiser la détection et la résolution des problèmes de performance à l'échelle de son infrastructure mondiale, qui sert plus de 3 milliards d'utilisateurs. Ce programme, baptisé Capacity Efficiency Program, repose sur des agents capables d'encoder l'expertise de ses ingénieurs seniors en compétences réutilisables et composables. Résultat concret : des centaines de mégawatts (MW) de puissance électrique récupérés, soit de quoi alimenter des centaines de milliers de foyers américains pendant un an. L'outil interne FBDetect détecte chaque semaine des milliers de régressions de performance, et les agents IA prennent désormais en charge leur résolution automatisée, compressant environ dix heures d'investigation manuelle en trente minutes. Les agents vont même jusqu'à générer des pull requests prêtes à révision, couvrant l'intégralité du chemin depuis la détection d'une opportunité d'optimisation jusqu'à la correction du code. L'impact est double : économique et opérationnel. Côté défense, chaque régression non résolue rapidement se traduit par une consommation électrique supplémentaire qui s'accumule sur l'ensemble du parc de serveurs de Meta. Côté offensif, les agents permettent désormais d'explorer proactivement des optimisations dans un nombre croissant de domaines produits, des opportunités que les ingénieurs n'auraient jamais le temps de traiter manuellement. Le programme peut ainsi augmenter sa capacité de livraison de mégawatts sans augmenter proportionnellement les effectifs humains, ce qui représente un levier de scalabilité majeur pour une infrastructure de cette taille. Libérés des tâches d'investigation répétitives, les ingénieurs peuvent se concentrer sur l'innovation produit. Ce projet s'inscrit dans une tendance plus large chez les grandes plateformes technologiques : automatiser la gestion de la complexité interne à mesure que l'infrastructure croît plus vite que les équipes humaines. Chez Meta, la découverte clé a été que l'offense (recherche proactive d'optimisations) et la défense (détection de régressions) partagent la même structure de problème, ce qui a permis de construire une plateforme unique plutôt que deux systèmes séparés. L'interface d'outils standardisée est au cœur de l'architecture : elle permet aux agents de combiner investigation de données de profilage, consultation de documentation interne, analyse des déploiements récents et recherche de discussions liées. L'objectif à terme est un moteur d'efficacité autonome où l'IA gère la longue traîne des problèmes de performance, un modèle qui pourrait inspirer d'autres hyperscalers confrontés aux mêmes contraintes d'échelle.

InfrastructureActu
1 source
Créer une couche de mémoire à long terme universelle pour les agents IA avec Mem0 et OpenAI
123MarkTechPost 

Créer une couche de mémoire à long terme universelle pour les agents IA avec Mem0 et OpenAI

Des chercheurs et développeurs s'appuient désormais sur Mem0, une bibliothèque open source compatible avec les modèles OpenAI et la base de données vectorielle ChromaDB, pour construire une couche de mémoire persistante destinée aux agents d'intelligence artificielle. Le principe repose sur une architecture en plusieurs modules : extraction automatique de souvenirs structurés à partir de conversations naturelles, stockage sémantique dans ChromaDB via les embeddings text-embedding-3-small, récupération contextuelle par recherche vectorielle, et intégration directe dans les réponses générées par GPT-4.1-nano. Concrètement, le système segmente les échanges conversationnels en faits durables associés à un identifiant utilisateur, comme les préférences techniques, les projets en cours ou les informations personnelles, puis les rend disponibles lors des interactions futures via une API CRUD complète permettant d'ajouter, modifier, supprimer ou interroger ces souvenirs. Cette approche résout un problème fondamental des agents IA actuels : leur amnésie entre les sessions. Sans mémoire persistante, chaque conversation repart de zéro, obligeant l'utilisateur à reformuler son contexte à chaque échange. Avec ce type d'architecture, un agent peut se souvenir qu'un utilisateur est ingénieur logiciel, qu'il travaille sur un pipeline RAG pour une fintech, et qu'il préfère VS Code en mode sombre, sans que ces informations aient été répétées. Pour les entreprises qui déploient des assistants IA internes, des copilotes de code ou des outils de support client, cela représente un gain de personnalisation et d'efficacité considérable. L'isolation multi-utilisateurs intégrée dans Mem0 garantit par ailleurs que les souvenirs d'un profil ne contaminent pas ceux d'un autre. La mémoire à long terme est l'un des chantiers prioritaires de l'IA générative en 2025-2026, aux côtés du raisonnement et de l'utilisation d'outils. Des acteurs comme OpenAI avec la mémoire de ChatGPT, ou des startups spécialisées telles que Mem0 (anciennement EmbedChain), se positionnent sur ce marché en pleine expansion. L'approche présentée ici est dite "production-ready" : elle exploite ChromaDB en local pour réduire les coûts et la latence, mais reste compatible avec des backends cloud. La tendance de fond est de faire évoluer les agents d'un mode sans état vers une continuité contextuelle, condition nécessaire pour des assistants véritablement utiles sur la durée. Les prochaines étapes probables incluent la gestion de la decay mémorielle (oublier les informations obsolètes) et l'intégration dans des frameworks multi-agents comme LangGraph ou AutoGen.

💬 Le problème de l'amnésie entre sessions, c'est le truc qui rend les agents inutilisables en vrai. Mem0 propose une architecture propre pour ça, avec ChromaDB en local et une isolation multi-utilisateurs qui tient la route, ce qui évite les bricolages maison qu'on voit partout. Bon, "production-ready" ça se vérifie, mais l'approche est solide.

OutilsOutil
1 source
Copilot Studio : Microsoft corrige une injection de prompt, mais les données ont quand même été exfiltrées
124VentureBeat AI 

Copilot Studio : Microsoft corrige une injection de prompt, mais les données ont quand même été exfiltrées

Microsoft a corrigé en janvier 2026 une faille de sécurité critique dans Copilot Studio, sa plateforme de création d'agents IA pour entreprises. Identifiée sous le nom ShareLeak et référencée CVE-2026-21520 (score CVSS 7.5), la vulnérabilité a été découverte le 24 novembre 2025 par la société Capsule Security, confirmée par Microsoft le 5 décembre, puis corrigée le 15 janvier 2026. Le principe d'attaque est simple mais redoutable : un attaquant remplit un champ de commentaire public dans un formulaire SharePoint avec une instruction malveillante. Copilot Studio concatène alors cette entrée directement avec les instructions système de l'agent, sans aucune désinfection. Dans le proof-of-concept de Capsule, le payload injecté prenait le contrôle de l'agent, lui ordonnait d'interroger des listes SharePoint contenant des données clients, puis de les envoyer par Outlook à une adresse email contrôlée par l'attaquant. Le système de sécurité de Microsoft a bien signalé la requête comme suspecte, les données ont quand même été exfiltrées. Le DLP (système de prévention des fuites) n'a jamais déclenché d'alerte, car l'email transitait par une action Outlook considérée comme légitime. Ce type de faille illustre une limite architecturale fondamentale des agents IA : le modèle de langage est incapable de distinguer les instructions de confiance des données non fiables qu'il récupère. Carter Rees, vice-président IA chez Reputation, parle d'un "confused deputy", l'agent agit pour le compte de l'attaquant sans en avoir conscience. L'OWASP classe ce pattern sous le code ASI01 : Agent Goal Hijack. Ce qui rend la situation particulièrement préoccupante, c'est que des correctifs ne peuvent pas éliminer complètement cette classe de vulnérabilités : tant que des agents auront accès à des données non fiables et à des outils d'action (email, API), le risque structurel demeure. La décision de Microsoft d'attribuer un CVE à une injection de prompt dans une plateforme agentique est jugée "hautement inhabituelle" par Capsule, ce qui laisse entrevoir un durcissement des standards de responsabilité pour toute l'industrie. En parallèle, Capsule a découvert PipeLeak, une vulnérabilité identique dans Salesforce Agentforce : un formulaire public de génération de leads suffit à détourner un agent sans aucune authentification, avec une exfiltration de données CRM apparemment illimitée. Naor Paz, CEO de Capsule, a déclaré à VentureBeat : "Nous n'avons atteint aucune limite. L'agent continuait simplement à faire fuiter tout le CRM." Salesforce n'a attribué aucun CVE ni publié d'advisory officiel pour PipeLeak à ce jour, contrairement à Microsoft. La firme de San Francisco avait pourtant déjà patché ForcedLeak (CVSS 9.4, découverte par Noma Labs en septembre 2025) via des listes d'URL de confiance, PipeLeak contourne ce correctif par un canal différent, les actions email de l'agent. Salesforce recommande un contrôle humain dans la boucle comme mesure d'atténuation, une réponse que Capsule juge insuffisante face à l'ampleur du risque.

UELes entreprises européennes utilisant Copilot Studio ou Salesforce Agentforce sont exposées à des risques d'exfiltration de données CRM et SharePoint potentiellement constitutifs d'une violation du RGPD.

SécuritéActu
1 source
Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble
125VentureBeat AI 

Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble

Les agents d'intelligence artificielle peuvent désormais être interconnectés dans des workflows complexes, mais Vijoy Pandey, SVP et directeur général d'Outshift by Cisco, pointe une limite fondamentale : la connexion n'est pas la cognition. Chaque agent repart de zéro à chaque interaction, sans contexte partagé ni alignement sémantique avec ses pairs. Pour résoudre ce problème, l'équipe de Pandey développe trois nouveaux protocoles de communication inter-agents : le Semantic State Transfer Protocol (SSTP), qui opère au niveau du langage pour permettre aux systèmes d'inférer la bonne tâche ; le Latent Space Transfer Protocol (LSTP), capable de transférer l'espace latent complet d'un agent à un autre, en transmettant directement le cache KV pour éviter le coût de la tokenisation ; et le Compressed State Transfer Protocol (CSTP), orienté vers les déploiements en périphérie de réseau où il faut transmettre de grandes quantités d'état de manière précise et compressée. En parallèle, Cisco a collaboré avec le MIT sur le Ripple Effect Protocol, une initiative complémentaire dans cette direction. L'enjeu derrière ces travaux est considérable : atteindre ce que Pandey appelle l'"internet de la cognition", un niveau où des agents peuvent résoudre des problèmes inédits, sans intervention humaine, en partageant véritablement leur intention et leur contexte. Ce saut qualitatif représente selon lui le "grand déblocage" pour les systèmes d'IA de prochaine génération. Sur le plan opérationnel, Cisco a déjà montré des résultats concrets : en déployant plus de vingt agents, dont certains développés en interne et d'autres issus de fournisseurs tiers, l'équipe SRE de Cisco a automatisé plus d'une douzaine de workflows de bout en bout, incluant les pipelines CI/CD, les déploiements Kubernetes et les instanciations EC2. Ces agents accèdent à plus de cent outils via des frameworks comme le Model Context Protocol (MCP), tout en s'intégrant aux plateformes de sécurité de Cisco. Pandey situe cette évolution dans une trajectoire historique plus large : l'intelligence humaine a d'abord émergé individuellement, avant que la communication progressive entre individus ne déclenche une révolution cognitive collective, permettant l'intention partagée, la coordination et l'innovation distribuée. Son équipe reproduit délibérément cette trajectoire dans le silicium, en codifiant l'intention, le contexte et l'innovation collective directement dans l'infrastructure sous forme de règles, d'API et de capacités. L'architecture cible se décompose en trois couches : les protocoles (SSTP, LSTP, CSTP), un tissu de distribution pour synchroniser les états cognitifs entre endpoints, et des "moteurs de cognition" fournissant garde-fous et accélération. Cisco n'est pas seul sur ce terrain : la course à l'infrastructure agentique de nouvelle génération s'intensifie, avec des acteurs comme Anthropic, OpenAI et des startups spécialisées qui poussent chacun leurs propres standards, rendant la bataille des protocoles aussi stratégique que celle des modèles eux-mêmes.

InfrastructureOpinion
1 source
Les bots d'achat IA multiplient remboursements et risques, selon un dirigeant d'Adyen
126The Information AI 

Les bots d'achat IA multiplient remboursements et risques, selon un dirigeant d'Adyen

Les robots d'achat alimentés par l'intelligence artificielle génèrent un taux anormalement élevé de remboursements et de contestations de paiement par carte bancaire. C'est ce qu'indique Carlo Bruno, vice-président produit chez Adyen, l'un des principaux processeurs de paiement au monde. Ce constat met en lumière les risques financiers concrets liés au commerce dit "agentique", où des IA effectuent des achats au nom des consommateurs. Avant que ces agents puissent gérer des transactions en ligne de manière fiable, les entreprises devront trouver des mécanismes pour absorber ce risque accru. La multiplication des litiges pourrait d'ailleurs inciter les processeurs de paiement à envisager des frais plus élevés pour les marchands sur les transactions initiées par des IA, ce qui renchérirait mécaniquement le coût du commerce automatisé pour les vendeurs en ligne. Selon Bruno, le secteur attend un "big bang" qui ne viendra pas : l'adoption de l'IA dans les achats se fera de manière progressive, et non par un basculement soudain où des bots transacteraient massivement pour les consommateurs. Cette prudence reflète un enjeu structurel plus large : les infrastructures de paiement ont été conçues pour des humains, et leur adaptation à des agents autonomes soulève des questions de responsabilité, de fraude et de consentement que ni les plateformes ni les régulateurs n'ont encore pleinement résolues.

UEAdyen étant un acteur néerlandais central dans les paiements européens, les risques de remboursements et surcoûts liés aux agents IA concernent directement les marchands e-commerce français et européens.

BusinessOpinion
1 source
Rede Mater Dei de Saúde surveille ses agents IA dans le circuit de facturation avec Amazon Bedrock AgentCore
127AWS ML Blog 

Rede Mater Dei de Saúde surveille ses agents IA dans le circuit de facturation avec Amazon Bedrock AgentCore

Le réseau hospitalier brésilien Rede Mater Dei de Saúde déploie actuellement une suite de douze agents d'intelligence artificielle pour automatiser l'ensemble de son cycle de facturation médicale, en s'appuyant sur Amazon Bedrock AgentCore, le service d'infrastructure d'agents d'AWS. Cette initiative, développée en partenariat avec le cabinet de données A3Data et le AWS Generative AI Innovation Center, vise à réduire drastiquement le taux de refus de remboursement des assureurs, qui a bondi en 2024 de 11,89 % à 15,89 % dans le secteur hospitalier privé brésilien, selon l'association nationale Anahp, représentant jusqu'à 10 milliards de reais de revenus non perçus pour le secteur. Parmi les premiers agents déployés figurent un agent Contrats, qui centralise les règles contractuelles dispersées dans des documents hétérogènes, un agent Paramétrage, qui traduit automatiquement ces règles dans le système ERP de l'hôpital, et un agent Autorisation, qui automatise les échanges avec les compagnies d'assurance santé. L'enjeu est directement financier et opérationnel. Rede Mater Dei, qui gère des établissements à Belo Horizonte, Salvador, Goiânia, Uberlândia et plusieurs autres villes brésiliennes, faisait face à des centaines d'employés affectés à des tâches manuelles répétitives, à des données fragmentées et à un fort turnover sur ces postes. Chaque erreur dans le cycle de facturation, de l'accréditation des prestataires jusqu'à la facturation finale, se traduisait par des refus de remboursement coûteux et des corrections chronophages. Les agents IA fonctionnent désormais de manière orchestrée et continue, structurés en trois couches : une couche de données (DEL), une couche d'exécution des agents (AEL) et une couche de gouvernance et conformité (TCL), garantissant traçabilité et auditabilité de chaque décision automatisée. Ce projet s'inscrit dans un contexte de pression croissante sur la rentabilité des hôpitaux privés en Amérique latine, où les processus administratifs restent largement manuels et les systèmes d'information souvent morcelés. Rede Mater Dei, fort de 45 ans d'histoire, fait figure de pionnier continental en testant AgentCore Evaluation dans un environnement de production réel à haute criticité. Amazon Bedrock AgentCore, lancé comme service d'exécution serverless pour agents IA, offre nativement la gestion de la mémoire, l'intégration d'outils et l'observabilité en production, des capacités indispensables lorsque des agents autonomes prennent des décisions impactant directement les flux de trésorerie d'un réseau hospitalier. La suite complète de douze agents, une fois déployée intégralement, ambitionne de constituer une véritable "force de travail numérique" capable de percevoir, décider et agir sans intervention humaine sur l'ensemble du cycle de revenus.

OutilsActu
1 source
L'enquête chinoise sur le rachat de Manus par Meta inquiète les startups
128The Information AI 

L'enquête chinoise sur le rachat de Manus par Meta inquiète les startups

Le gouvernement chinois a ouvert une enquête sur la vente de la startup d'agents IA Manus à Meta Platforms, provoquant une onde de choc dans l'écosystème des startups d'intelligence artificielle en Chine. Cette investigation, dont les détails précis restent flous, cible une transaction qui représentait pour de nombreux fondateurs un débouché naturel : être rachetés par un géant technologique américain. Hank Yuan, co-fondateur d'une nouvelle startup basée à Shenzhen qui développe un agent IA pour le marché mondial, résume le sentiment général : « Tous les fondateurs de startups IA que je connais suivent l'affaire Manus de très près. » L'impact est immédiat et concret. Plusieurs startups envisagent désormais de déplacer tout ou partie de leurs opérations vers Singapour, ou de quitter la Chine entièrement. Le choix du financement devient aussi une question stratégique brûlante : lever des fonds en yuan chinois ou en dollars américains implique désormais des conséquences géopolitiques directes sur la capacité à vendre à l'international ou à attirer des investisseurs américains. Comme le formule Yuan, les fondateurs doivent « réfléchir encore plus soigneusement aux marchés visés, à la structure juridique de leur entreprise et à la devise dans laquelle lever des fonds ». Les startups dont l'ambition se limite au marché chinois, financées par du capital-risque local ou asiatique, sont moins exposées à ces tensions. Cette affaire s'inscrit dans une rivalité technologique sino-américaine de plus en plus intense, où les acquisitions transfrontalières d'entreprises IA deviennent des enjeux de souveraineté nationale. Pékin surveille de près les transferts de technologie vers des entreprises américaines, notamment dans le domaine de l'IA agentique, considéré comme stratégique. Pour les fondateurs chinois qui cherchent une sortie vers les grands groupes de la Silicon Valley, la fenêtre se resserre. Singapour, hub neutre entre les deux blocs, s'impose comme la destination de repli privilégiée pour ceux qui veulent préserver à la fois un accès aux marchés occidentaux et une base opérationnelle en Asie.

UELes tensions géopolitiques sino-américaines autour des acquisitions d'IA pourraient inciter l'UE à renforcer sa propre surveillance des transferts technologiques transfrontaliers impliquant des startups chinoises.

BusinessOpinion
1 source
TinyFish lance une plateforme web complète pour agents IA : recherche, fetch, navigateur et agent sous une seule clé API
129MarkTechPost 

TinyFish lance une plateforme web complète pour agents IA : recherche, fetch, navigateur et agent sous une seule clé API

TinyFish, une startup basée à Palo Alto, vient de lancer une plateforme d'infrastructure complète destinée aux agents IA qui doivent interagir avec le web en temps réel. La société propose quatre produits unifiés sous une seule clé API et un système de crédits commun : Web Agent, Web Search, Web Browser et Web Fetch. Web Agent exécute des workflows autonomes en plusieurs étapes sur de vrais sites web, Web Search renvoie des résultats structurés en JSON avec une latence médiane de 488 ms, Web Browser fournit des sessions Chrome furtives avec un démarrage à froid inférieur à 250 ms, et Web Fetch convertit n'importe quelle URL en Markdown, HTML ou JSON propre en supprimant tout le balisage superflu. En parallèle, TinyFish publie un CLI installable via npm et un système de "Skills" qui apprend aux agents comme Claude Code, Cursor ou Codex à utiliser la plateforme sans intégration manuelle de SDK. Ce lancement s'attaque à un problème concret qui plombe les pipelines d'agents IA : la pollution du contexte. Quand un agent utilise un outil de fetch standard, il ingère la page entière, incluant des milliers de tokens de navigation, publicités et code CSS, avant d'atteindre le contenu utile. TinyFish réduit cette charge de 87 %, passant d'environ 1 500 tokens par opération via MCP à seulement 100 tokens via le CLI, grâce à une logique qui écrit les résultats sur le système de fichiers plutôt que de les injecter directement dans la fenêtre de contexte. Sur des tâches complexes en plusieurs étapes, la société rapporte un taux de complétion deux fois supérieur en CLI par rapport à l'exécution via MCP. Côté anti-détection, les 28 mécanismes anti-bot du navigateur sont implémentés au niveau C++, une approche nettement plus robuste que l'injection JavaScript utilisée par la plupart des concurrents, dont les temps de démarrage dépassent 5 à 10 secondes contre moins de 250 ms ici. Le contexte de ce lancement est celui d'un marché des outils pour agents IA en pleine fragmentation : les équipes devaient jusqu'ici assembler des solutions distinctes pour la recherche, l'automatisation de navigateur et la récupération de contenu, chacune avec ses clés, ses SDKs et ses limites. TinyFish parie sur la convergence sous une interface unifiée, une stratégie similaire à ce qu'ont fait des acteurs comme Browserbase ou Firecrawl sur des segments adjacents. En intégrant directement un système de Skills compatibles avec les principaux agents de codage du marché, la startup court-circuite la friction d'adoption qui freine habituellement ces outils. La prochaine étape probable sera l'expansion vers des cas d'usage d'automatisation enterprise, un segment où la capacité à opérer discrètement sur des sites protégés par des systèmes anti-bot représente un avantage compétitif significatif.

OutilsActu
1 source
Kimi de Moonshot AI : l’outil IA de nouvelle génération
130Le Big Data 

Kimi de Moonshot AI : l’outil IA de nouvelle génération

Moonshot AI, startup pékinoise fondée par Yang Zhilin, a lancé fin 2023 un assistant conversationnel nommé Kimi, propulsé par de grands modèles de langage. En 2026, la version Kimi K2.5 s'impose comme une référence dans le domaine de l'IA multimodale : l'outil traite simultanément texte et images, gère des fenêtres contextuelles atteignant 2 millions de caractères, et repose sur une architecture Mixture of Experts (MoE) totalisant environ mille milliards de paramètres. Concrètement, ce modèle n'active qu'une fraction de ses neurones artificiels à chaque requête, ce qui lui permet d'être à la fois massivement capable et relativement efficace en ressources. La version K2.5 marque également l'intégration native d'une dimension visuelle, rendant l'outil capable d'interpréter des images sans module externe. La proposition de valeur centrale de Kimi repose sur sa capacité à traiter des documents de très grande taille sans dégradation de la cohérence : rapports de 200 pages, dossiers juridiques complexes, livres entiers peuvent être analysés en quelques dizaines de secondes, avec extraction de données précises et réponses croisées entre plusieurs fichiers. Là où d'autres modèles perdent le fil ou génèrent des hallucinations sur des contextes longs, Kimi maintient une vision globale stable. Son environnement de développement bilingue chinois-anglais lui confère également une sensibilité culturelle et linguistique que les modèles entraînés principalement sur des corpus anglophones peinent à reproduire, notamment sur les nuances et les références contextuelles non occidentales. Moonshot AI s'inscrit dans la vague des acteurs chinois de l'IA qui défient ouvertement les leaders américains, OpenAI en tête. Si ChatGPT reste la référence pour la polyvalence créative et la notoriété grand public, Kimi se positionne comme concurrent direct sur les tâches techniques avancées, la recherche documentaire approfondie et le codage assisté. Le marché de l'IA générative est désormais structuré autour d'une poignée de modèles ultra-performants issus de plusieurs géographies, avec une compétition intense sur les benchmarks de raisonnement et de traitement long contexte. La montée en puissance de Moonshot AI reflète plus largement l'émergence d'un écosystème IA chinois mature, capable de rivaliser techniquement avec la Silicon Valley, et dont les prochaines versions pourraient intégrer encore davantage de capacités agentiques, notamment l'orchestration de tâches automatisées en parallèle.

LLMsOpinion
1 source
Accio Work d’Alibaba : l’IA autonome au service des PME
131Le Big Data 

Accio Work d’Alibaba : l’IA autonome au service des PME

Alibaba International a lancé Accio Work, une nouvelle plateforme d'intelligence artificielle agentique destinée aux petites et moyennes entreprises. Contrairement aux assistants conversationnels classiques, cet outil ne se contente pas de répondre à des questions : il exécute des tâches opérationnelles complètes de manière autonome, sans que l'utilisateur ait besoin de compétences techniques. Concrètement, plusieurs agents spécialisés travaillent en parallèle dès qu'un objectif est fixé : l'un analyse les données de marché, un autre gère la logistique, un troisième produit des contenus promotionnels. La solution prend aussi en charge les déclarations de TVA et les formalités douanières dans une centaine de pays, mène des négociations tarifaires avec des fournisseurs, et surveille les stocks via des applications de messagerie grand public. Kuo Zhang, président d'Alibaba.com et vice-président d'Alibaba International, résume l'ambition : offrir aux petites structures les mêmes capacités opérationnelles que les multinationales. L'enjeu est considérable pour les PME qui manquent de ressources humaines pour gérer des chaînes d'approvisionnement internationales. Ces entreprises font face à une complexité administrative croissante, réglementations douanières, conformité fiscale multi-pays, négociations fournisseurs, qui mobilise un temps et une expertise disproportionnés par rapport à leur taille. Accio Work promet de compresser ces cycles opérationnels lourds en déléguant l'exécution à une équipe virtuelle coordonnée. Pour limiter les risques d'erreurs, la plateforme s'appuie sur les bases de données transactionnelles internes d'Alibaba plutôt que sur des sources web non vérifiées. Les actions sensibles comme les paiements ou l'accès à des documents confidentiels restent soumises à validation humaine explicite, ce qui maintient un filet de contrôle essentiel pour des décisions engageant la responsabilité de l'entreprise. Accio Work s'inscrit dans une trajectoire rapide : le système est apparu fin 2024 sous la forme d'un simple moteur de recherche dédié à l'approvisionnement, avant de rassembler dix millions d'utilisateurs mensuels en quelques mois. Cette montée en puissance reflète une compétition intense entre les grands acteurs technologiques pour imposer leurs agents IA dans les workflows professionnels. Alibaba joue ici un avantage structurel : son écosystème logistique et commercial mondial lui fournit des données propriétaires que ses concurrents ne peuvent pas répliquer facilement. La question qui se pose désormais est celle de l'adoption à grande échelle par des dirigeants de PME peu habitués à déléguer des décisions opérationnelles à des systèmes automatisés, et de la manière dont les régulateurs, notamment en Europe, encadreront ces agents autonomes agissant au nom d'entreprises dans des transactions commerciales internationales.

UELes PME européennes pourraient bénéficier de la gestion automatisée de la TVA et des formalités douanières dans une centaine de pays, mais le déploiement d'agents autonomes dans des transactions commerciales soulève des questions réglementaires non résolues dans le cadre de l'AI Act.

OutilsOutil
1 source
Anthropic garde un nouveau modèle IA secret après avoir découvert des milliers de failles externes
132AI News 

Anthropic garde un nouveau modèle IA secret après avoir découvert des milliers de failles externes

Anthropic a développé un nouveau modèle d'intelligence artificielle, baptisé Claude Mythos Preview, dont les capacités en cybersécurité sont jugées trop dangereuses pour une diffusion publique. Ce modèle a déjà identifié des milliers de vulnérabilités dans les principaux systèmes d'exploitation et navigateurs web, notamment un bug vieux de 27 ans dans OpenBSD et une faille critique de 17 ans dans FreeBSD, la CVE-2026-4747, permettant à n'importe quel utilisateur non authentifié de prendre le contrôle total d'un serveur exposé sur internet. Cette dernière découverte a été réalisée de manière entièrement autonome, sans intervention humaine après la simple instruction initiale. Plutôt que de commercialiser le modèle, Anthropic a choisi de le confier discrètement à une coalition de partenaires fondateurs incluant Amazon Web Services, Apple, Cisco, Google, Microsoft, Nvidia, CrowdStrike, JPMorganChase et la Linux Foundation, auxquels s'ajoutent plus de 40 organisations gérant des infrastructures logicielles critiques. L'entreprise s'engage à mobiliser jusqu'à 100 millions de dollars en crédits d'utilisation et 4 millions de dollars en dons directs à des organisations de sécurité open source, dont 2,5 millions à Alpha-Omega et OpenSSF via la Linux Foundation, et 1,5 million à la Fondation Apache. L'enjeu dépasse la simple prouesse technique. Mythos Preview est capable de chaîner trois, quatre, voire cinq vulnérabilités distinctes pour construire des exploits sophistiqués, selon Nicholas Carlini, chercheur chez Anthropic, qui déclare avoir trouvé "plus de bugs ces dernières semaines que dans toute sa vie réunie". Le modèle sature désormais les benchmarks de sécurité existants, forçant Anthropic à se concentrer sur des tâches réelles inédites, notamment la découverte de failles zero-day. Newton Cheng, responsable de la Red Team cyber chez Anthropic, est explicite : les retombées d'une diffusion incontrôlée "pour les économies, la sécurité publique et la sécurité nationale pourraient être sévères". Pour les mainteneurs open source, qui gèrent des logiciels critiques sans équipes de sécurité dédiées, l'accès à ce type d'outil représente un rééquilibrage structurel : la sécurité de haut niveau cesse d'être un privilège réservé aux grands groupes. Cette initiative s'inscrit dans un contexte de tensions croissantes autour de l'IA offensive. Anthropic avait précédemment documenté le premier cas avéré d'une cyberattaque conduite majoritairement par des agents IA, un groupe soutenu par l'État chinois ayant infiltré une trentaine de cibles mondiales avec une autonomie tactique quasi totale. Les services de renseignement américains ont été informés en privé des capacités complètes de Mythos Preview et évaluent actuellement son impact potentiel sur les opérations offensives et défensives. Le projet Glasswing représente ainsi le pari d'Anthropic : diffuser les capacités défensives avant que les capacités offensives ne se propagent à des acteurs moins scrupuleux, dans une course contre la montre que la rapidité même des progrès de l'IA rend particulièrement incertaine.

UELes infrastructures open source européennes sont directement exposées aux vulnérabilités découvertes, notamment la CVE-2026-4747 affectant FreeBSD et un bug vieux de 27 ans dans OpenBSD, utilisés dans de nombreux systèmes critiques en Europe.

SécuritéActu
1 source
Anthropic a restreint son modèle d'IA le plus puissant pour des raisons de cybersécurité, puis l'a mis au travail
133AI News 

Anthropic a restreint son modèle d'IA le plus puissant pour des raisons de cybersécurité, puis l'a mis au travail

Anthropic a discrètement lancé Project Glasswing, une initiative de cybersécurité inédite fondée sur son modèle le plus puissant à ce jour, Claude Mythos Preview. Plutôt que de le commercialiser, l'entreprise l'a confié à un consortium de partenaires chargés de sécuriser les infrastructures critiques d'Internet : Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks, auxquels s'ajoutent plus de 40 autres organisations. Anthropic s'engage à hauteur de 100 millions de dollars en crédits d'utilisation pour le modèle, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source, dont 2,5 millions à Alpha-Omega et à l'OpenSSF via la Linux Foundation, et 1,5 million à la Apache Software Foundation. Les résultats déjà obtenus donnent le vertige : Mythos Preview a détecté de manière autonome un bug vieux de 27 ans dans OpenBSD, et a identifié et exploité sans intervention humaine une faille d'exécution de code à distance vieille de 17 ans dans FreeBSD, CVE-2026-4747, permettant à n'importe qui sur Internet de prendre le contrôle total d'un serveur. Nicholas Carlini, chercheur chez Anthropic, résume : « J'ai trouvé plus de bugs ces dernières semaines que dans tout le reste de ma carrière. » La décision de ne pas rendre Mythos Preview accessible au grand public est délibérée et assumée. Le modèle n'a pas été entraîné spécifiquement pour la cybersécurité, ses capacités offensives sont apparues comme une conséquence indirecte de progrès généraux en raisonnement, en code et en autonomie. Newton Cheng, responsable du Frontier Red Team Cyber d'Anthropic, l'explique sans détour : les mêmes améliorations qui rendent le modèle capable de corriger des vulnérabilités le rendent tout aussi capable de les exploiter. Et le risque ne relève pas de la spéculation : Anthropic a précédemment documenté ce qu'elle décrit comme le premier cyberattaque largement exécutée par une IA, menée par un groupe soutenu par l'État chinois qui a infiltré une trentaine de cibles mondiales, les agents IA gérant de manière autonome la majorité des opérations tactiques. Project Glasswing s'inscrit dans un contexte de course entre la diffusion des capacités offensives et la consolidation des défenses. Mythos Preview sature désormais la plupart des benchmarks de sécurité existants, forçant Anthropic à se tourner vers des tâches réelles inédites, notamment des vulnérabilités zero-day. L'initiative cible aussi un angle mort historique : les mainteneurs de logiciels open source, dont le code sous-tend une grande partie des infrastructures mondiales, ont longtemps manqué de ressources en sécurité. Anthropic a en parallèle briefé des responsables haut placés du gouvernement américain sur les capacités complètes du modèle, et les services de renseignement américains évaluent désormais activement comment il pourrait remodeler les opérations de piratage offensif et défensif dans les années à venir.

UELes infrastructures open source européennes (Linux Foundation, Apache Software Foundation) bénéficient de 4 millions de dollars de financements directs pour renforcer leur sécurité, et les systèmes critiques basés sur OpenBSD et FreeBSD utilisés en Europe sont directement concernés par les vulnérabilités zero-day découvertes.

SécuritéActu
1 source
Anthropic lance une infrastructure gérée pour agents IA autonomes
134The Decoder 

Anthropic lance une infrastructure gérée pour agents IA autonomes

Anthropic a lancé "Claude Managed Agents", une infrastructure hébergée permettant aux développeurs de construire et déployer des agents IA autonomes directement sur les serveurs de l'entreprise. Ce service géré prend en charge l'exécution des agents, la gestion des sessions, la mémoire persistante et l'orchestration des tâches longues, sans que les équipes techniques n'aient à gérer elles-mêmes l'infrastructure sous-jacente. Notion et Rakuten font partie des premiers partenaires à avoir adopté la plateforme, intégrant ces agents dans leurs produits pour automatiser des flux de travail complexes. L'enjeu est significatif : jusqu'ici, déployer des agents IA fiables en production exigeait une ingénierie considérable pour gérer les états, les interruptions, les erreurs et la durée de vie des sessions. En proposant cette couche d'infrastructure clé en main, Anthropic abaisse la barrière d'entrée pour les entreprises qui veulent aller au-delà des simples chatbots vers des systèmes capables d'agir de façon autonome sur des tâches multi-étapes, comme la recherche, la rédaction ou l'automatisation de processus métiers. Ce lancement s'inscrit dans une course accélérée entre les grands acteurs de l'IA pour capter le marché des agents. OpenAI a déployé ses propres capacités agentiques via l'API Assistants et les outils de l'opérateur, tandis que Google mise sur Vertex AI Agent Builder. Anthropic, fort d'un financement de plusieurs milliards de dollars notamment d'Amazon et Google, positionne cette offre managée comme un argument commercial direct face aux entreprises qui hésitent à construire leur propre stack agentique.

UELes entreprises européennes peuvent bénéficier de cette infrastructure gérée pour déployer des agents IA sans développer leur propre stack technique, mais aucun acteur ou régulateur européen n'est directement impliqué.

💬 Ce qui bloquait tout le monde jusqu'ici, c'était pas l'agent, c'était la plomberie derrière : états, sessions, interruptions, tâches qui durent des heures. Anthropic prend ça en charge, et j'y vois surtout une arme commerciale directe pour aller chercher les boîtes qui voulaient dépasser le chatbot sans construire leur propre stack. Ça va accélérer fort, et OpenAI va répondre vite.

OutilsOpinion
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
135MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source
Y a-t-il trop de Copilot dans l’avion ?
136Next INpact 

Y a-t-il trop de Copilot dans l’avion ?

Microsoft fait face à une prolifération incontrôlable de sa marque Copilot, comme l'a documenté Key Bannerman, spécialiste IA, qui a recensé pas moins de 78 déclinaisons différentes du produit. Chatbots, applications de bureau, outils pour développeurs, plateformes d'entreprise, intégrations dans d'autres logiciels, assistants sectoriels : Copilot est partout. Depuis ce recensement, deux nouvelles variantes sont apparues, Gaming Copilot pour l'aide en jeu sur PC et Xbox, et Microsoft Dragon Copilot pour le secteur de la santé, auxquels s'ajoute Copilot Health annoncé en mars 2026. L'éditeur est allé jusqu'à créer Microsoft Copilot Studio, un outil permettant de fabriquer... d'autres Copilot. Sur le matériel, les PC Copilot+ embarquent une touche physique dédiée, et le navigateur Edge affiche GitHub Copilot en mode Copilot, le tout dans Microsoft 365 Copilot. Cette inflation de marque soulève une question de fond : à force de tout rebaptiser Copilot, Microsoft brouille le message et dilue la valeur perçue du produit. Pour Key Bannerman, ce réflexe de renommage est avant tout "un instinct de survie" interne : chaque équipe cherche à prouver qu'elle fait partie de "l'histoire de l'IA" pour éviter d'être marginalisée. Parallèlement, une clause discrète dans les conditions d'utilisation de Copilot, modifiée en octobre, a refait surface sur les réseaux sociaux : Microsoft y précise en gras que "Copilot est uniquement destiné à des fins de divertissement" et déconseille de s'y fier pour des "conseils importants". Ce message tranche avec le discours commercial de l'entreprise, qui positionne son IA comme un outil de productivité indispensable pour les particuliers et les entreprises. Microsoft a promis de revoir cette formulation, la qualifiant d'"héritage" de l'époque où Copilot était un simple assistant de recherche dans Bing. La concurrence pratique des stratégies similaires, Google apposant l'étiquette Gemini sur l'ensemble de ses produits, mais la surenchère de Microsoft est particulièrement visible car elle touche à Windows lui-même. La réception glaciale réservée en fin d'année dernière à la vision d'un Windows "agentique" a contraint l'éditeur à réduire ses ambitions : en mars 2026, Microsoft a annoncé la suppression progressive d'intégrations Copilot jugées inutiles dans Windows 11, notamment dans Capture et croquis et Photos. La question de la responsabilité des IA reste entière : Anthropic et OpenAI rappellent eux aussi que leurs modèles "peuvent faire des erreurs", mais aucun ne les présente simultanément comme des outils de divertissement et comme la colonne vertébrale de la productivité professionnelle. L'enjeu pour Microsoft est désormais de rationaliser ce portefeuille fragmenté avant que la confusion ne se retourne contre la marque.

UELes entreprises françaises et européennes déployant Microsoft 365 Copilot en environnement professionnel doivent examiner la clause des CGU stipulant que Copilot est 'uniquement destiné à des fins de divertissement', ce qui soulève des questions concrètes de responsabilité contractuelle et de conformité au RGPD.

BusinessOpinion
1 source
Amazon S3 Files offre aux agents IA un espace de travail fichier natif, mettant fin à la séparation objet/fichier
137VentureBeat AI 

Amazon S3 Files offre aux agents IA un espace de travail fichier natif, mettant fin à la séparation objet/fichier

Amazon Web Services a lancé S3 Files, une nouvelle fonctionnalité qui permet de monter directement un bucket S3 dans l'environnement local d'un agent IA ou d'un développeur, comme s'il s'agissait d'un répertoire ordinaire. Disponible dès maintenant dans la plupart des régions AWS, cette solution repose sur la technologie Elastic File System (EFS) d'Amazon, connectée directement à S3 pour offrir une sémantique de fichiers complète et native. Aucune migration de données n'est nécessaire : les fichiers restent dans S3, accessibles simultanément via l'API objet classique et via le système de fichiers monté. Andy Warfield, vice-président et ingénieur distingué chez AWS, a expliqué à VentureBeat que cette approche a produit "une accélération considérable" pour des outils comme Kiro et Claude Code lors de tests internes. Le problème que S3 Files résout est fondamental pour les pipelines d'IA agentique. Les agents IA fonctionnent naturellement avec des chemins de fichiers et des outils de navigation de répertoires, mais l'essentiel des données d'entreprise réside dans des systèmes de stockage objet comme S3, accessibles uniquement via des appels API. Jusqu'ici, les équipes devaient télécharger les données localement avant que l'agent puisse les traiter, ce qui créait un problème critique de persistance d'état : lorsque l'agent compressait sa fenêtre de contexte, il "oubliait" ce qu'il avait déjà téléchargé, forçant l'utilisateur à répéter les instructions. Dans des pipelines multi-agents, où plusieurs agents doivent accéder simultanément aux mêmes données, la situation devenait ingérable. Avec S3 Files, un développeur peut simplement indiquer le chemin d'un répertoire de logs, et l'agent y accède directement sans étape intermédiaire. AWS annonce que des milliers de ressources de calcul peuvent se connecter simultanément à un même système de fichiers S3. Les tentatives précédentes de combler le fossé entre stockage objet et système de fichiers reposaient sur des couches logicielles dites FUSE (Filesystems in USErspace), comme Mount Point d'AWS, gcsfuse de Google ou blobfuse2 de Microsoft. Ces outils simulaient un système de fichiers en surface, mais butaient sur des limitations profondes : S3 ne supporte pas le déplacement atomique d'objets et ne possède pas de répertoires au sens strict. Ces pilotes bricolaient des métadonnées supplémentaires dans les buckets, cassant la vue API objet, ou refusaient les opérations fichier que le stockage ne pouvait pas exécuter. S3 Files rompt avec cette approche en intégrant directement EFS à S3, sans compromis entre les deux interfaces. Cette évolution s'inscrit dans la course des grands fournisseurs cloud à rendre leurs infrastructures compatibles avec les nouveaux usages de l'IA agentique, où la fluidité d'accès aux données devient un avantage concurrentiel direct.

UEDisponible dès maintenant dans la plupart des régions AWS, cette fonctionnalité est accessible aux développeurs et entreprises européens utilisant S3 pour leurs pipelines d'IA agentique.

InfrastructureActu
1 source
Asylon et Thrive Logic déploient l'IA physique pour la sécurité périmétrique en entreprise
138AI News 

Asylon et Thrive Logic déploient l'IA physique pour la sécurité périmétrique en entreprise

Asylon Robotics et Thrive Logic ont annoncé un partenariat pour déployer ce qu'ils appellent de l'« IA physique » dans la sécurité périmétrique d'entreprise. Asylon, spécialisée dans la robotique de sécurité, opère un centre de commandement baptisé RSOC (Robotic Security Operations Centre) qui gère des patrouilles robotisées autonomes sur les périmètres extérieurs. Thrive Logic, de son côté, propose une plateforme d'intelligence opérationnelle pilotée par des agents IA. Leur intégration commune connecte les flux vidéo captés par les robots d'Asylon directement à l'agent IA de Thrive Logic, qui analyse les incidents en temps réel, déclenche des alertes auprès des équipes concernées et génère automatiquement des procédures de réponse alignées sur les standards opérationnels de chaque site. Le système produit également des rapports horodatés et prêts pour l'audit, pour chaque environnement où il est déployé. L'enjeu dépasse la simple surveillance vidéo. Là où les systèmes traditionnels se contentent d'enregistrer des événements pour une analyse ultérieure, cette solution intervient en continu et de manière proactive : les robots patrouillent, l'IA analyse, et les équipes humaines reçoivent des instructions d'action claires plutôt que de devoir interpréter des heures de footage. Pour les responsables sécurité opérant sur des périmètres étendus, soumis à une forte volatilité des effectifs humains et à des rondes d'agents souvent peu fiables, cela représente un changement de paradigme concret. La cohérence de la réponse aux incidents s'améliore, la friction opérationnelle diminue, et la traçabilité documentaire devient automatique, ce qui facilite les audits de conformité et les reportings internes. Ce partenariat s'inscrit dans une tendance plus large d'intégration entre robotique autonome et IA agentique dans les environnements physiques à risque. Damon Henry, PDG d'Asylon, résume l'objectif ainsi : les responsables sécurité n'ont pas besoin de nouveaux tableaux de bord, mais de couverture fiable, de réponse cohérente et de reporting défendable. Nate Green, PDG de Thrive Logic, insiste sur le fait que l'IA physique transforme la visibilité en action concrète. Pour l'instant, l'intégration est réservée aux grandes entreprises gérant des environnements extérieurs à forte activité, mais les deux sociétés indiquent vouloir étendre l'accès à des organisations de plus petite taille dans un avenir proche. La sécurité périmétrique autonome, longtemps cantonnée aux grandes infrastructures critiques, semble donc amorcer une démocratisation progressive vers l'ensemble du tissu entreprise.

RobotiqueActu
1 source
Pas de Claude pour Claws
139Ben's Bites 

Pas de Claude pour Claws

Anthropic a décidé de couper l'accès à Claude via abonnement Claude Code pour les outils tiers comme OpenClaw, le harness alternatif populaire dans la communauté des développeurs. Concrètement, les utilisateurs qui accédaient à Claude depuis OpenClaw grâce à leur abonnement mensuel ne peuvent plus le faire : ils doivent désormais passer à une facturation à l'usage ou fournir leur propre clé API. Pour atténuer l'impact, Anthropic a offert un crédit unique équivalent à un mois d'abonnement. La décision intervient alors qu'Anthropic surveille de près la consommation de calcul générée par ces usages agentiques via des harnesses tiers, qui s'avère particulièrement gourmande. Parallèlement, Google a publié Gemma 4, une famille de quatre nouveaux modèles open-weights : deux variantes puissantes destinées aux ordinateurs de bureau et portables performants (26B MoE et 31B dense), et deux modèles ultra-légers pour mobile (2B et 4B), particulièrement pertinents pour les entreprises souhaitant les affiner sur leurs propres données. Du côté financier, Anthropic a vu son chiffre d'affaires annualisé atteindre 30 milliards de dollars, contre 9 milliards fin 2025, avec 6 milliards d'ARR ajoutés en février 2026 seulement. Cette restriction d'Anthropic n'est pas anodine : elle révèle une stratégie claire de réorientation des utilisateurs vers les outils propriétaires de l'entreprise -- Dispatch, tâches planifiées, projets, et computer use -- qui recoupent directement les fonctionnalités qu'OpenClaw proposait. Pour la communauté des développeurs, c'est une source de confusion majeure : beaucoup ne savent plus précisément dans quels contextes leur abonnement Claude Code reste utilisable hors du harness officiel. Le fondateur d'OpenClaw, Peter, ne compte pas abandonner pour autant et travaille à intégrer GPT-5.4 dans son outil pour offrir des performances comparables à Opus, profitant du rachat d'OpenClaw par OpenAI. Dans un contexte plus large, plusieurs signaux marquent une accélération de la structuration de l'écosystème IA. OpenAI a racheté TBPN, un podcast influent auprès des professionnels du secteur, un mouvement dont la logique commerciale reste débattue : le podcast est rentable, en croissance, et dispose d'une audience fidèle, ce qui rend l'intérêt mutuel de l'acquisition peu évident selon certains analystes. Sur le plan des outils de développement, Cursor a lancé une version 3 avec une fenêtre autonome dédiée à l'exécution d'agents, incluant des fonctionnalités de transition local-vers-cloud et de travail multi-projets. Enfin, Andrej Karpathy a partagé une approche inédite des bases de connaissances pour agents, organisée thématiquement avec résumés, rétroliens et wikis -- une piste qui intéresse de nombreux développeurs cherchant à structurer la mémoire de leurs systèmes agentiques.

UELes développeurs européens utilisant Claude via des harnesses tiers comme OpenClaw doivent migrer vers une clé API personnelle ou une facturation à l'usage, et peuvent envisager Gemma 4 comme alternative open-weights pour leurs usages agentiques.

OutilsActu
1 source
Block lance Managerbot, un agent Square proactif et la preuve la plus convaincante du pari IA de Jack Dorsey
140VentureBeat AI 

Block lance Managerbot, un agent Square proactif et la preuve la plus convaincante du pari IA de Jack Dorsey

Block a dévoilé le 7 avril 2026 Managerbot, un agent IA intégré à sa plateforme Square et destiné aux petits commerçants. Contrairement au précédent assistant Square AI, qui répondait passivement aux questions des vendeurs, Managerbot surveille en continu l'activité d'un commerce, détecte les problèmes émergents et propose des actions concrètes sans attendre qu'on lui pose de questions. Le produit est en cours de déploiement progressif, avec une disponibilité complète pour l'ensemble des utilisateurs Square prévue dans les prochains mois. Block n'a pas précisé si Managerbot serait facturé séparément ou inclus dans les abonnements existants. L'agent repose sur des modèles frontier d'Anthropic (Claude Sonnet) et d'OpenAI (famille GPT), combinés à un cadre technique propriétaire baptisé "agent harness", lui-même construit sur Goose, le framework open-source de Block. Managerbot intervient aujourd'hui dans trois domaines clés : la gestion des stocks, la planification des équipes et la création de campagnes marketing. Pour les stocks, l'agent croise les niveaux d'inventaire, la vitesse de vente et des signaux externes comme la météo ou les événements locaux afin d'anticiper les ruptures et d'optimiser les achats. Pour les plannings, il analyse les prévisions de ventes et génère automatiquement des grilles horaires qui équilibrent les préférences des employés et les besoins de couverture -- une tâche que Willem Avé, responsable produit de Square chez Block, qualifie de "problème informatique difficile" qui peut mobiliser plusieurs heures par semaine chez un dirigeant de PME. En marketing, Managerbot identifie les tendances de ventes et rédige des campagnes de reconquête ou des promotions ciblées sur les meilleurs segments de clientèle. Block indique observer "une amélioration très significative" des résultats de ces campagnes par rapport à ce que créent certains vendeurs manuellement, sans publier de chiffres précis. Cette annonce s'inscrit dans le pari stratégique assumé par Jack Dorsey, PDG de Block, selon lequel l'IA peut transformer en profondeur la façon dont son entreprise opère et sert les millions de petits commerces qui dépendent de Square au quotidien. La transition du réactif au proactif représente un changement de paradigme majeur pour les outils de gestion destinés aux TPE et PME, qui disposent rarement des ressources humaines pour analyser en continu leurs données opérationnelles. Block mise sur son "agent harness" et sur l'expérience acquise via Money Bot, son agent financier dans Cash App, pour se différencier face aux modèles tiers qu'elle exploite. L'enjeu est de taille : Square équipe des centaines d'outils différents -- facturation, stocks, paie, marketing, planification -- et Managerbot doit naviguer dans cet ensemble de façon cohérente au sein d'une boucle agentique unifiée, ce qui constitue le véritable défi technique derrière la promesse commerciale.

UELes petits commerçants français et européens utilisant Square pourraient bénéficier d'un agent proactif de gestion des stocks, plannings et marketing, mais le calendrier de déploiement en Europe n'est pas précisé.

OutilsOutil
1 source
NeuBird lance Falcon et FalconClaw, des agents IA pour prévenir, détecter et corriger les incidents logiciels
141VentureBeat AI 

NeuBird lance Falcon et FalconClaw, des agents IA pour prévenir, détecter et corriger les incidents logiciels

La startup américaine NeuBird AI a annoncé le lancement de Falcon, son agent autonome de nouvelle génération pour la gestion des infrastructures de production, accompagné d'une levée de fonds de 19,3 millions de dollars. Fondée en 2023, l'entreprise avait déjà déployé un premier agent baptisé Hawkeye, centré sur la résolution d'incidents. Falcon représente une évolution majeure : trois fois plus rapide que son prédécesseur, il atteint en moyenne 92 % de score de confiance selon le PDG Gou Rao. Sa capacité de prédiction s'étend sur une fenêtre de 72 heures, avec une précision qui s'affine à mesure que l'horizon se rapproche, devenant très fiable à 24 heures. Le lancement coïncide avec la publication du rapport 2026 State of Production Reliability and AI Adoption Report, une enquête menée auprès de plus de 1 000 professionnels tech. Ce rapport révèle un fossé alarmant entre direction et terrain : 74 % des dirigeants pensent que leur organisation utilise activement l'IA pour gérer les incidents, contre seulement 39 % des ingénieurs opérationnels. Concrètement, les équipes d'ingénierie consacrent en moyenne 40 % de leur temps à la gestion d'incidents plutôt qu'au développement de nouveaux produits. Plus grave encore, 83 % des organisations ont des équipes qui ignorent ou rejettent des alertes de façon régulière, et 44 % des entreprises ont subi une panne l'an dernier directement liée à une alerte supprimée ou ignorée. Dans certains cas, ce sont les clients qui signalent les défaillances avant que les outils de monitoring ne les détectent. NeuBird positionne Falcon non pas comme un outil de réponse aux incidents, mais comme un système d'évitement des incidents, un changement de paradigme que le COO Venkat Ramakrishnan résume ainsi : "La gestion d'incidents, c'est has been. L'évitement d'incidents, c'est ce que l'IA va rendre possible." NeuBird s'inscrit dans un secteur en pleine mutation, celui du Site Reliability Engineering (SRE) et du DevOps, où la complexité des infrastructures hybrides, microservices et clusters éphémères a rendu la surveillance manuelle structurellement insuffisante. Là où les outils traditionnels se contentent de rendre les interventions plus rapides, Falcon ambitionne de les rendre inutiles grâce à une carte de contexte avancée (Advanced Context Map), une vue en temps réel des dépendances d'infrastructure et de l'état des services. Ancré dans le contexte opérationnel réel de l'entreprise plutôt que dans le seul raisonnement LLM, l'agent cible les équipes on-call surchargées par la fatigue des alertes. Avec 18 mois de déploiements en production à son actif, NeuBird s'apprête à présenter Falcon lors de la conférence HumanX, dans un marché où les géants du cloud et les acteurs spécialisés en observabilité se livrent une concurrence intense sur l'automatisation opérationnelle.

OutilsOutil
1 source
RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch
142MarkTechPost 

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch

RightNow AI a publié AutoKernel, un framework open-source qui automatise l'optimisation des kernels GPU pour n'importe quel modèle PyTorch. Le principe est simple : soumettre un modèle avant de dormir et retrouver au matin des kernels Triton plus rapides, sans avoir à maîtriser la programmation GPU de bas niveau. Le système repose sur une boucle agentique autonome : un agent LLM modifie un fichier kernel.py, un banc de test vérifie la correction puis mesure le débit, et le résultat détermine si la modification est conservée ou annulée via un git reset. Chaque itération dure environ 90 secondes, ce qui permet de réaliser 300 à 400 expériences lors d'une session de 10 heures. L'agent suit un manuel d'optimisation en six niveaux encodé dans un document de 909 lignes, couvrant le réglage des tailles de blocs, les patterns d'accès mémoire, les optimisations de calcul comme TF32, les techniques avancées comme split-K, et les stratégies spécifiques aux architectures Hopper et Ampere de NVIDIA. L'enjeu est considérable pour l'industrie du machine learning. Optimiser un kernel GPU de haute performance exige de raisonner simultanément sur l'intensité arithmétique, la coalescence mémoire, la pression sur les registres, la synchronisation au niveau warp et la sélection des instructions tensor core, un ensemble de compétences qui prend des années à acquérir. Un seul kernel de multiplication matricielle performant peut représenter plus de 200 lignes de code CUDA ou Triton avec des dizaines de paramètres interdépendants. La suite de benchmarks KernelBench, qui évalue les grands modèles de langage sur 250 problèmes de kernels GPU, a montré que même les meilleurs modèles n'égalaient la baseline PyTorch que dans moins de 20 % des cas en génération directe. AutoKernel répond précisément à ce déficit en rendant cette expertise accessible sans spécialiste humain, ce qui pourrait accélérer significativement le développement et le déploiement de modèles d'IA. L'approche s'inspire directement du projet autoresearch d'Andrej Karpathy, dans lequel une boucle keep/revert appliquée à du code d'entraînement LLM avait permis de découvrir 20 optimisations en 700 expériences sur deux jours avec un seul GPU. AutoKernel transpose cette logique à l'espace des kernels, en substituant la loss de validation par un benchmark de correction et de débit comme fonction d'évaluation. La traçabilité est assurée par git, les résultats étant stockés dans un fichier TSV lisible directement par l'agent. Ce type de framework illustre une tendance plus large où les tâches d'ingénierie hautement spécialisées deviennent des cibles pour l'automatisation agentique, réduisant la dépendance aux rares experts en optimisation GPU à mesure que les architectures de modèles continuent d'évoluer.

💬 L'idée de laisser tourner une boucle agentique toute la nuit pour sortir des kernels Triton optimisés au matin, c'est exactement ce qu'on attendait depuis qu'on a vu Karpathy faire la même chose sur du code d'entraînement. La partie vraiment bien foutue, c'est le mécanisme d'évaluation : un benchmark de correction avant tout, et le git reset si ça régresse, ce qui évite de passer des heures à débugger des "optimisations" qui cassent tout. Pour les équipes sans expert CUDA dans les jambes, c'est une vraie bouffée d'air.

OutilsOutil
1 source
Cursor 3 : une armée d’agents IA codeurs à votre service ?
143Le Big Data 

Cursor 3 : une armée d’agents IA codeurs à votre service ?

Cursor a dévoilé la troisième version majeure de son éditeur de code, Cursor 3, marquant un tournant dans l'automatisation du développement logiciel. La nouveauté centrale réside dans l'orchestration simultanée de plusieurs agents IA autonomes, capables de travailler en parallèle sur des tâches distinctes : l'un génère du code, un autre rédige les tests, un troisième produit la documentation. Ces agents fonctionnent aussi bien en local que dans le cloud, grâce à Composer 2, un modèle optimisé pour les itérations rapides de code. L'ensemble converge dans une interface unifiée, conçue dès le départ pour la supervision multi-agents, qui agrège les agents locaux, cloud, mobiles et les intégrations tierces comme Slack ou GitHub. Les agents cloud produisent automatiquement des captures d'écran et des démos, permettant au développeur de vérifier leur travail sans lire chaque ligne de code. Ce changement de paradigme déplace concrètement le rôle du développeur : de l'exécutant qui tape chaque ligne, il devient superviseur stratégique qui valide, ajuste et arbitre. La gestion du cycle complet, du premier commit jusqu'à la pull request, est prise en charge par l'outil, avec une nouvelle vue des modifications qui simplifie la lecture des changements et accélère les validations. Un navigateur intégré permet aux agents d'interagir directement avec des interfaces web locales pour tester des applications sans sortir de l'éditeur. La continuité entre environnements représente également un gain opérationnel majeur : une tâche lancée en local peut se poursuivre dans le cloud si l'ordinateur se ferme, et inversement, un agent cloud peut basculer en local pour des tests précis. Cursor s'inscrit dans une tendance de fond qui traverse tout l'écosystème du développement logiciel depuis 2023 : les éditeurs de code "augmentés" par l'IA, dont GitHub Copilot a été le précurseur, évoluent vers des architectures agentiques où plusieurs modèles collaborent de façon coordonnée. Cursor, fondé en 2022 et basé sur un fork de VS Code, s'est rapidement imposé comme l'un des acteurs les plus agressifs de ce marché, avec une croissance rapide auprès des développeurs professionnels. La version 3 tente de résoudre la principale friction des générations précédentes : la dispersion entre plusieurs interfaces et conversations simultanées. Si la promesse d'une "flotte d'agents" reste encore partiellement tenue, la supervision humaine demeure indispensable, la direction est claire. Les prochaines batailles se joueront sur la fiabilité des agents autonomes, leur capacité à éviter les régressions, et l'intégration avec les pipelines CI/CD des grandes organisations.

OutilsOutil
1 source
Anthropic coupe l'accès aux outils tiers comme OpenClaw pour les abonnés Claude, invoquant une demande insoutenable
144The Decoder 

Anthropic coupe l'accès aux outils tiers comme OpenClaw pour les abonnés Claude, invoquant une demande insoutenable

Anthropic a décidé de bloquer l'accès à Claude via des outils tiers comme OpenClaw pour les clients disposant d'un abonnement standard. La mesure, annoncée début avril 2026, vise à endiguer une consommation jugée insoutenable : certains utilisateurs exploitaient ces connecteurs non officiels pour contourner les limites de leurs forfaits et faire tourner des agents en continu, générant un volume de requêtes sans commune mesure avec ce que prévoyaient les abonnements à tarif fixe. La décision met en lumière une tension structurelle qui frappe l'ensemble du secteur de l'IA : les modèles tarifaires à prix forfaitaire ont été conçus pour un usage humain intermittent, pas pour des agents autonomes capables de solliciter un LLM des milliers de fois par heure. Pour Anthropic, laisser des outils tiers exploiter l'API via les comptes d'abonnés revenait à subventionner un usage industriel au prix d'un accès grand public. Les développeurs qui misaient sur ces intégrations pour leurs workflows automatisés se retrouvent désormais contraints de basculer vers l'API payante à la consommation. OpenClaw et ses équivalents avaient prospéré dans un angle mort de la politique d'utilisation d'Anthropic, offrant une flexibilité que les interfaces officielles ne proposaient pas. Cette fermeture s'inscrit dans un mouvement plus large : à mesure que l'usage agentique explose, les grands laboratoires d'IA revoient leurs conditions d'accès pour séparer clairement les usages personnels des usages programmatiques. OpenAI avait effectué un virage similaire en durcissant les règles d'accès à ChatGPT via des automatisations non sanctionnées. La question du bon modèle économique pour l'IA agentique reste entière.

UELes développeurs français et européens qui utilisaient OpenClaw ou des intégrations similaires pour automatiser leurs workflows doivent désormais migrer vers l'API payante d'Anthropic.

BusinessOpinion
1 source
OpenClaw sur mobile : apps Alibaba JVS Claw, Baidu DuClaw
145Le Big Data 

OpenClaw sur mobile : apps Alibaba JVS Claw, Baidu DuClaw

Alibaba et Baidu ont lancé début 2026 deux applications mobiles d'IA agentique, JVS Claw et DuClaw, toutes deux construites sur le framework open-source OpenClaw. Ce framework, qui a dépassé les 300 000 étoiles sur GitHub en quelques semaines seulement, permet à un smartphone d'exécuter des tâches complexes de manière autonome : remplir des formulaires, trier des e-mails, interagir avec des applications natives, sans que l'utilisateur n'ait à toucher l'écran. L'installation se fait en un seul clic via un APK ou l'App Store d'Alibaba Cloud, sans configuration serveur ni compétence en programmation requise. Alibaba mise sur une intégration cloud puissante pour JVS Claw, ciblant d'abord le marché chinois, tandis que Baidu positionne DuClaw sur une accessibilité web immédiate et une interface volontairement simplifiée. Ce virage marque une rupture nette dans la stratégie des grands laboratoires chinois : après des années à publier des modèles open-source pour asseoir leur influence technique, Alibaba et Baidu pivotent vers des applications propriétaires grand public. Le mobile devient le canal de distribution naturel pour des agents capables de réserver, commander ou planifier à la place de l'utilisateur. Pour les professionnels, c'est l'élimination d'une friction quotidienne réelle : des tâches répétitives auparavant réservées aux développeurs capables d'écrire des scripts d'automatisation deviennent accessibles à n'importe qui possédant un smartphone. L'enjeu de parts de marché est considérable, car celui qui s'impose comme standard de l'agent mobile contrôlera une couche d'interface entre l'utilisateur et ses applications, bien plus stratégique que le moteur de recherche ou l'assistant vocal ne l'ont jamais été. Ce mouvement s'inscrit dans une tendance de fond observable depuis 2024 : la course à l'IA agentique, longtemps cantonnée aux environnements serveurs d'entreprise, descend progressivement vers le terminal personnel. OpenClaw a cristallisé cette dynamique en proposant un standard ouvert autour duquel les acteurs industriels peuvent construire. Le fait que deux géants de Hangzhou et Pékin l'adoptent simultanément comme base de leurs produits grand public valide le framework comme infrastructure commune, comparable à ce qu'Android a représenté pour le mobile classique. La prochaine étape logique sera l'intégration de ces agents directement dans les systèmes d'exploitation mobiles, une bataille où Google et Apple n'ont pas encore montré leur jeu. Le marché chinois, avec son écosystème applicatif fermé et ses habitudes d'ultra-délégation numérique, constitue le banc d'essai idéal avant une éventuelle expansion internationale.

OutilsOutil
1 source
Slack lance 30 nouveautés pour placer Slackbot au cœur du travail
146Le Big Data 

Slack lance 30 nouveautés pour placer Slackbot au cœur du travail

Slack a annoncé plus de 30 nouvelles fonctionnalités pour Slackbot, transformant profondément cet assistant autrefois basique en un véritable coéquipier actif au sein des organisations. Disponible dès maintenant pour les abonnements Business+ et Enterprise+ via une activation dans les paramètres administrateur, cette mise à jour s'inscrit dans la continuité des capacités "agentiques" introduites en janvier. Salesforce, propriétaire de Slack, prévoit d'élargir l'accès aux utilisateurs Free et Pro dès avril, avec un quota limité de conversations pour commencer. Parmi les nouvelles capacités concrètes : Slackbot peut écouter une réunion, prendre des notes en temps réel, afficher automatiquement une fiche client dès qu'un nom est mentionné dans la discussion, puis générer un résumé complet à la fin de l'échange. Depuis mobile, il reconnaît les commandes vocales et peut envoyer des invitations ou mettre à jour un CRM directement. Un agent desktop lui permet également d'analyser ce qui apparaît à l'écran et d'agir depuis Slack sans prise de contrôle de l'ordinateur. Un mode de recherche approfondie baptisé Deep Thoughts lui permet enfin de décomposer un problème complexe, consulter plusieurs sources et produire une synthèse structurée. Ce repositionnement de Slackbot répond à un problème identifié par Slack lui-même : les outils d'IA fonctionnent trop souvent en silo, sans offrir suffisamment de contexte opérationnel aux équipes. En intégrant l'assistant directement dans les flux de travail existants plutôt que de demander aux employés de basculer vers un outil séparé, Slack réduit le fossé entre l'analyse et l'action. Les AI Skills, ensembles d'instructions réutilisables que les équipes configurent une fois puis partagent à toute l'organisation, permettent de standardiser des tâches répétitives comme la rédaction de comptes rendus ou la synthèse d'un pipeline commercial. Pour les PME, des fonctions de gestion client permettent de mettre à jour contacts, opportunités et rapports d'appel directement depuis les conversations Slack, sans interface CRM dédiée. Slack s'inscrit dans une course que se livrent Microsoft (Copilot dans Teams), Google (Gemini dans Workspace) et désormais Salesforce pour faire de leur plateforme de collaboration le point d'entrée unique de l'IA en entreprise. L'adoption du protocole MCP — standard d'interopérabilité entre agents IA — permet à Slackbot de se connecter à Agentforce et aux applications tierces compatibles, renforçant l'écosystème Salesforce. La mémorisation progressive des habitudes utilisateur et le respect strict des permissions administrateur sont présentés comme les garanties d'un déploiement sécurisé en entreprise. La prochaine étape sera de vérifier si cet élargissement aux plans gratuits en avril convertit effectivement les utilisateurs vers les offres payantes, véritable enjeu commercial derrière cette offensive fonctionnelle.

UELes entreprises françaises et européennes utilisant Slack en abonnement Business+ ou Enterprise+ peuvent activer dès maintenant ces fonctionnalités agentiques, avec un accès élargi aux plans gratuits prévu en avril.

OutilsOutil
1 source
Le directeur d'Agentforce quitte Salesforce pour son concurrent Sierra
147The Information AI 

Le directeur d'Agentforce quitte Salesforce pour son concurrent Sierra

Eric Eyken-Sluyters, le cadre de Salesforce responsable d'Agentforce, l'outil d'IA agentique phare de l'entreprise, a quitté le géant du CRM pour rejoindre Sierra, une startup concurrente en pleine ascension. Il y occupera le poste de président des opérations terrain, selon les informations disponibles. Ce départ est significatif car Eyken-Sluyters supervisait directement Agentforce, le produit sur lequel Salesforce mise pour rester compétitif dans la course aux agents IA d'entreprise. Perdre un dirigeant aussi central au profit d'un concurrent direct envoie un signal fort sur les tensions qui traversent le secteur, où les talents spécialisés en IA sont devenus un enjeu stratégique majeur. Sierra a été fondée par Bret Taylor, actuel président du conseil d'administration d'OpenAI et ancien co-PDG de Salesforce lui-même, ce qui rend le mouvement particulièrement symbolique. Taylor connaît intimement les rouages de son ancienne entreprise, et Sierra se positionne directement sur le marché des agents IA conversationnels pour les entreprises, terrain que Salesforce considère comme central à sa stratégie de croissance. Ce recrutement illustre la bataille de plus en plus ouverte entre les acteurs établis et les startups pour capter les profils qui ont construit les produits IA de la génération actuelle.

BusinessOpinion
1 source
Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
148MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source
Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours
149AWS ML Blog 

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours

Amazon a publié dans son SDK Strands Evaluations une fonctionnalité appelée ActorSimulator, destinée à automatiser l'évaluation des agents IA dans des conversations multi-tours. Contrairement aux tests à tour unique — où l'on fournit une entrée, on collecte une sortie et on juge le résultat — les interactions réelles s'étendent sur plusieurs échanges : l'utilisateur pose des questions de suivi, change de direction ou exprime sa frustration face à des réponses incomplètes. Un assistant de voyage qui gère correctement "Réserve-moi un vol pour Paris" peut échouer lorsque le même utilisateur enchaîne avec "En fait, peut-on regarder les trains ?" ou "Qu'en est-il des hôtels près de la tour Eiffel ?". L'ActorSimulator permet de générer des utilisateurs simulés avec des personas structurés et des objectifs définis, puis de les laisser converser naturellement avec un agent sur plusieurs tours, à grande échelle. L'enjeu est considérable pour les équipes qui développent des agents conversationnels en production. Conduire manuellement des centaines de conversations multi-tours à chaque modification d'un agent est insoutenable, et les jeux de données statiques d'entrées/sorties ne capturent pas la dynamique réelle : la "bonne" prochaine question de l'utilisateur dépend entièrement de ce que l'agent vient de répondre. Les approches artisanales consistant à demander à un LLM de "jouer l'utilisateur" sans définition structurée du persona produisent des résultats incohérents d'une exécution à l'autre, rendant impossible la détection fiable de régressions. L'ActorSimulator répond à ce problème en combinant le réalisme d'une conversation humaine avec la reproductibilité et l'échelle des tests automatisés. Ce développement s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'évaluation des agents IA, à mesure que ceux-ci quittent les démos pour entrer dans des usages critiques. AWS positionne Strands Evaluations comme une infrastructure d'évaluation systématique, comparable aux simulateurs de vol ou aux moteurs de jeu qui testent des millions de comportements avant déploiement. La difficulté fondamentale réside dans la croissance combinatoire des chemins de conversation : plus les capacités d'un agent s'étoffent, plus le nombre de scénarios possibles explose au-delà de ce que des équipes humaines peuvent explorer. En permettant la simulation structurée de personas avec des objectifs explicites et un suivi de progression, Strands Evals vise à offrir aux équipes d'évaluation un outil comparable à ce que les testeurs de logiciels ont dans d'autres disciplines d'ingénierie, avec des résultats comparables dans le temps.

OutilsOutil
1 source
Experian révèle un paradoxe de fraude dans l'adoption de l'IA par les services financiers
150AI News 

Experian révèle un paradoxe de fraude dans l'adoption de l'IA par les services financiers

Experian a publié début 2026 son rapport annuel sur les tendances de la fraude, et les chiffres sont édifiants : les consommateurs américains ont perdu plus de 12,5 milliards de dollars à cause de la fraude en 2024, selon les données de la FTC. Sur la même période, près de 60 % des entreprises interrogées par Experian ont signalé une augmentation de leurs pertes liées à la fraude entre 2024 et 2025. En face, les solutions de prévention d'Experian auraient permis à ses clients d'éviter environ 19 milliards de dollars de pertes frauduleuses dans le monde en 2025. Le rapport identifie cinq grandes menaces pour 2026, dont la plus préoccupante est ce que l'entreprise appelle le « machine-to-machine mayhem » : le moment où des agents IA autonomes, conçus pour effectuer des transactions au nom des utilisateurs, deviennent indiscernables des bots que les fraudeurs déploient à exactement les mêmes fins. Ce paradoxe révèle une faille structurelle dans l'adoption de l'IA par le secteur financier. Plus les organisations intègrent des agents capables de décisions autonomes, plus elles offrent aux fraudeurs une surface d'attaque à très grande échelle et à vitesse non humaine. La question de la responsabilité légale reste entière : quand un agent IA initie une transaction qui s'avère frauduleuse, personne ne sait clairement qui est responsable. Kathleen Peters, directrice de l'innovation fraude chez Experian North America, résume l'enjeu : « La technologie accélère l'évolution de la fraude, la rendant plus sophistiquée et plus difficile à détecter. » D'autres menaces identifiées dans le rapport sont tout aussi concrètes : des candidats deepfake infiltrent les processus de recrutement à distance — le FBI et le DOJ ont multiplié les alertes en 2025 sur des opératives nord-coréens ayant ainsi obtenu des postes dans des entreprises américaines. Les bots de type romance scam deviennent émotionnellement convaincants grâce à l'IA générative, tandis que le clonage de sites web par IA surcharge les équipes antifraude avec des domaines usurpés qui ressurgissent même après suppression. Enfin, les appareils connectés — assistants vocaux, serrures intelligentes — ouvrent de nouveaux points d'entrée dans les données personnelles. Ce rapport arrive à un moment charnière : 2026 s'annonce comme l'année où l'industrie sera forcée de trancher des questions de gouvernance sur l'IA agentique que personne n'a encore voulu aborder frontalement. Amazon a déjà bloqué les agents IA tiers de son écosystème, invoquant des raisons de sécurité — un signal précoce de la tension à venir entre innovation et protection. Experian, acteur central du scoring et de la vérification d'identité, se retrouve dans une position ambivalente : vendre des outils IA de défense tout en documentant comment ces mêmes outils alimentent l'offensive. Le secteur financier entre dans une course aux armements algorithmique où la vitesse d'adaptation sera le principal avantage concurrentiel — et où les régulateurs n'ont pas encore de réponse claire à apporter.

UELes institutions financières européennes utilisant des agents IA pour les transactions automatisées sont exposées aux mêmes risques de fraude machine-à-machine, dans un contexte où l'AI Act impose des exigences de gouvernance sur les systèmes IA à haut risque dans le secteur financier.

💬 Le "machine-to-machine mayhem", c'est le vrai sujet, et Experian met le doigt dessus mieux que n'importe qui. Quand ton agent IA légitime et le bot fraudeur font exactement la même chose au même rythme, comment tu distingues les deux ? La question de la responsabilité légale, personne ne veut y répondre pour l'instant, mais en 2026 ça va devenir inévitable, surtout avec l'AI Act qui attend les banques européennes au tournant.

SécuritéActu
1 source