Google DeepMind surveille ses agents IA comme des…

Google DeepMind s'interroge sur les risques liés aux interactions entre des millions d'agents autonomes

48

1MIT Technology Review

Google DeepMind s'interroge sur les risques liés aux interactions entre des millions d'agents autonomes

Google DeepMind vient d'annoncer la création d'un fonds de 10 millions de dollars destiné à financer la recherche sur les risques liés aux systèmes multi-agents. L'initiative réunit Schmidt Sciences, fondation philanthropique d'Eric et Wendy Schmidt, l'agence britannique ARIA, la Cooperative AI Foundation et Google.org. L'objectif : comprendre ce qui se passe lorsque des millions d'agents IA autonomes commencent à interagir entre eux à grande échelle, un scénario que Rohin Shah, directeur de la recherche sur la sécurité de l'AGI chez Google DeepMind, considère comme une nouvelle catégorie de risque encore largement inexploré. Shah estime qu'il reste encore quelques mois avant que les agents soient déployés en nombre suffisant dans l'économie pour que ces risques deviennent une préoccupation concrète, mais il veut prendre de l'avance. La menace principale n'est pas science-fiction : il s'agit d'une version amplifiée des dangers qui existent déjà sur internet. Les chercheurs s'inquiètent notamment des arnaques automatisées à grande échelle, des injections de prompts malveillantes, où un agent IA reçoit des instructions frauduleuses et se transforme en logiciel malveillant autonome, et d'autres formes de cyberattaques pilotées par des agents. James Fox, qui dirige le programme Science of Trustworthy AI chez Schmidt Sciences, résume l'enjeu ainsi : les "communs numériques" sur lesquels repose le fonctionnement de nos sociétés ne doivent pas basculer dans l'anarchie. Le problème est que le comportement de millions d'agents en interaction simultanée ne peut pas se déduire de l'étude d'agents isolés ou en petits groupes. Les modèles de langage ne se comportent pas toujours de façon rationnelle, et la complexité émerge précisément du volume des interactions. Ce financement s'inscrit dans un contexte où Google DeepMind avait fait des outils agentiques le point central de son Google I/O de mai 2026, et où Anthropic venait tout juste de publier des lignes directrices pour déployer des agents IA selon une approche "zero trust" inspirée de la cybersécurité. Le constat partagé par ces acteurs est qu'il n'existe pas encore de champ de recherche constitué autour de la sécurité multi-agents : "Nous aimerions qu'il en existe un", dit Shah. L'argent vise explicitement à stimuler la recherche académique, seule à même de regarder loin dans le futur sans les contraintes des laboratoires industriels. Certains chercheurs, dont une équipe de Google DeepMind elle-même, avancent que l'intelligence artificielle générale pourrait émerger non d'un modèle unique ultra-puissant, mais d'un réseau d'agents dont les capacités collectives dépasseraient la somme des parties, ce qui rend la question de leur comportement en groupe d'autant plus urgente.

UELa recherche financée via ARIA, l'agence britannique pour l'innovation avancée, pourrait nourrir les travaux académiques qui informeront la régulation européenne des systèmes multi-agents dans le cadre de l'AI Act.

SécuritéActu

1 source

Google DeepMind renforce sa vigilance sur les risques biologiques de l'IA

39

2AI News

Google DeepMind renforce sa vigilance sur les risques biologiques de l'IA

Google DeepMind et Isomorphic Labs ont dévoilé les détails d'un programme de bioresilience conçu pour limiter les risques de détournement de l'IA en biologie tout en accélérant la réponse aux épidémies. Lancé discrètement il y a un an, ce programme conjoint compte désormais plus de 15 partenariats avec des organismes gouvernementaux, des structures de biosécurité et des groupes de recherche, dont le Lawrence Livermore National Laboratory, l'UK AI Security Institute, la CEPI et le Francis Crick Institute. DeepMind reconnaît que ses modèles de pointe, dont Gemini, possèdent une compréhension de plus en plus fine de la biologie, une capacité amplifiée par le couplage avec des modèles biologiques spécialisés, des agents comme sa plateforme Antigravity, et des bases de données tierces. Le programme repose sur trois piliers : empêcher les usages malveillants, détecter plus rapidement les épidémies, et organiser la réponse une fois une crise déclenchée. L'entreprise prévoit d'élargir ces partenariats dans les six à douze prochains mois, en se concentrant sur le renseignement sur les menaces, l'évaluation des agents IA et les parades aux tentatives de contournement, tout en coordonnant ces efforts avec le Frontier Model Forum sur la gestion des données d'entraînement sensibles, notamment virologiques. Le cœur du problème tient à un paradoxe : les connaissances qui permettent à un chercheur d'identifier une cible vaccinale pourraient tout autant aider un acteur malveillant à combler ses lacunes techniques. Pour y répondre, DeepMind combine red-teaming par des experts, essais contrôlés randomisés, classificateurs et sondes en temps réel, ainsi que des analyses de journaux pour repérer des schémas d'usage détournés plus subtils. L'entreprise insiste sur le fait qu'aucune de ces mesures n'est aboutie : il s'agit d'un processus continu, pas d'un système figé, ce qui compte directement pour toute organisation qui évaluerait la fiabilité de ces garde-fous en l'état. Un classificateur efficace contre des techniques de contournement connues ne garantit rien face à des méthodes d'attaque inédites apparaissant en conditions réelles, et DeepMind ne prétend pas le contraire. L'un des risques les plus concrets identifiés concerne la synthèse d'ADN : les sociétés membres de l'International Gene Synthesis Consortium filtrent aujourd'hui leurs commandes via des listes de pathogènes et toxines connus, mais ce filtrage commence à montrer ses limites, car l'IA peut désormais concevoir des séquences aux fonctions similaires à un pathogène dangereux sans en reproduire la séquence exacte, échappant ainsi aux filtres existants. Face à cette faille, DeepMind explore une adaptation de SynthID, son système de filigrane devenu une référence pour marquer les contenus générés par IA, texte et image, afin de l'appliquer aux séquences biologiques. Ce chantier reste exploratoire et non un produit prêt à déployer. Cette initiative s'inscrit dans un débat plus large sur la double nature des modèles frontière : les mêmes capacités qui accélèrent la recherche vaccinale ou la détection d'épidémies abaissent aussi les barrières techniques pour des acteurs malintentionnés. En misant sur des partenariats institutionnels plutôt que sur des solutions strictement internes, DeepMind et Isomorphic Labs cherchent à construire une gouvernance partagée avant que la technologie ne devance les garde-fous, un enjeu suivi de près par les régulateurs et les agences de biosécurité à mesure que les modèles gagnent en puissance.

UEImpact indirect sur les débats européens de gouvernance de l'IA et de biosécurité, sans implication directe d'une entreprise française ou d'une réglementation de l'UE.

SécuritéActu

1 source

Google met en garde contre des pages web malveillantes qui empoisonnent les agents IA

55

3AI News

Google met en garde contre des pages web malveillantes qui empoisonnent les agents IA

Des chercheurs de Google ont mis en lumière une menace croissante qui cible directement les agents IA déployés en entreprise : des pages web publiques contiennent des instructions malveillantes cachées, conçues pour détourner le comportement de ces systèmes autonomes. L'alerte est venue après l'analyse du dépôt Common Crawl, une base de données colossale regroupant des milliards de pages web publiques, où les équipes de sécurité ont découvert des pièges numériques dissimulés dans du code HTML ordinaire. Ces commandes invisibles, rédigées en texte blanc sur fond blanc ou enfouies dans les métadonnées, restent dormantes jusqu'au moment où un agent IA consulte la page pour en extraire des informations. L'agent ingère alors le contenu sans distinguer le texte légitime des instructions malveillantes, et exécute ces dernières avec ses propres privilèges d'accès aux systèmes internes de l'entreprise. Le danger concret est illustré par un scénario précis : un agent IA chargé par un département RH d'analyser le portfolio en ligne d'un candidat ingénieur pourrait se voir ordonner, via une instruction cachée dans ce même site, d'envoyer l'annuaire interne de l'entreprise à une adresse IP externe, puis de rédiger un avis positif sur le candidat. Ce type d'attaque, appelé injection de prompt indirecte, contourne intégralement les défenses existantes. Les pare-feux, les systèmes de détection d'intrusion et les plateformes de gestion des accès ne voient rien d'anormal : l'agent dispose de credentials légitimes, opère sous un compte de service autorisé, et ses actions ressemblent trait pour trait à ses opérations habituelles. Les tableaux de bord d'observabilité IA du marché, qui surveillent l'utilisation des tokens ou la latence des réponses, n'offrent quant à eux aucune visibilité sur l'intégrité des décisions prises. Cette vulnérabilité s'inscrit dans une transformation profonde de la cybersécurité à l'ère des systèmes agentiques. Les chercheurs de Google proposent plusieurs contre-mesures architecturales : déployer un modèle "sanitiseur" isolé, sans privilèges, pour récupérer et nettoyer le contenu web avant de le transmettre au moteur de raisonnement principal ; appliquer les principes du zéro-trust aux agents eux-mêmes, en cloisonnant strictement leurs droits selon leur mission (un agent de veille concurrentielle ne devrait jamais avoir accès en écriture au CRM interne) ; et construire des pistes d'audit capables de retracer la généalogie exacte de chaque décision prise par un système IA. L'enjeu dépasse la simple sécurité informatique : à mesure que les entreprises confient des tâches critiques à des agents autonomes connectés au web, la surface d'attaque s'élargit de façon inédite, sans que les outils de défense traditionnels ne soient en mesure de suivre.

UELes entreprises européennes déployant des agents IA sont directement exposées à ce vecteur d'attaque, qui pourrait entraîner des exfiltrations de données personnelles soumises au RGPD sans laisser de trace dans les outils de détection traditionnels.

💬 On a filé des accès aux systèmes internes à des agents qui naviguent librement sur le web, et on s'étonne maintenant que ça pose un problème. Le truc redoutable dans l'injection indirecte, c'est que tout a l'air normal de l'extérieur : credentials légitimes, compte autorisé, actions qui ressemblent aux opérations habituelles, les outils de détection ne voient rien. Le modèle sanitiseur isolé, c'est du bon sens, mais combien d'équipes vont vraiment l'implémenter avant qu'un agent RH envoie l'annuaire interne à une adresse inconnue ?

SécuritéOpinion

1 source

Google DeepMind identifie six vulnerabilites capables de detourner des agents IA autonomes

55

4The Decoder

Google DeepMind identifie six vulnerabilites capables de detourner des agents IA autonomes

Des chercheurs de Google DeepMind ont publié la première cartographie systématique des attaques capables de détourner des agents IA autonomes dans des environnements réels. L'étude recense six grandes catégories de vulnérabilités, baptisées « pièges », que des sites web, documents ou API malveillants peuvent exploiter pour manipuler, tromper ou prendre le contrôle d'un agent opérant de façon indépendante. Ces travaux interviennent alors que les agents IA commencent à être déployés à grande échelle pour naviguer sur le web, gérer des boîtes mail et exécuter des transactions sans supervision humaine. L'enjeu est considérable : contrairement à un simple chatbot, un agent autonome dispose de capacités d'action réelles, il peut envoyer des e-mails, effectuer des achats, modifier des fichiers. Si son comportement est détourné par une instruction malveillante cachée dans une page web ou un document (technique dite d'injection de prompt indirect), les conséquences peuvent dépasser le simple biais de réponse pour atteindre des actes concrets et potentiellement irréversibles. L'étude offre aux développeurs un cadre commun pour anticiper et corriger ces failles avant déploiement. Ce travail s'inscrit dans une préoccupation croissante autour de la sécurité des systèmes agentiques, un domaine encore jeune mais en expansion rapide. OpenAI, Anthropic et Microsoft ont tous lancé leurs propres frameworks d'agents ces derniers mois, sans qu'existe jusqu'ici de taxonomie partagée des risques. En formalisant ces six catégories d'attaques, Google DeepMind pose les bases d'un standard de sécurité pour l'ensemble de l'industrie, à l'heure où la question de la supervision humaine des agents devient un sujet de régulation émergent en Europe et aux États-Unis.

UELa formalisation d'une taxonomie des vulnérabilités agentiques par Google DeepMind fournit un cadre de référence directement utilisable par les régulateurs européens travaillant sur la supervision des agents IA dans le cadre de l'AI Act.

💬 Six catégories, enfin du concret. Depuis que tout le monde sort ses frameworks d'agents, on parle beaucoup de ce qu'ils peuvent faire, beaucoup moins de ce qui peut mal tourner quand un site malveillant glisse une instruction cachée dans une page web. L'injection de prompt indirect sur un agent qui peut envoyer des mails ou passer des commandes, c'est pas un bug académique. Reste à voir si l'industrie adopte cette taxonomie ou si chacun continue dans son coin à réinventer sa propre checklist de sécurité.

SécuritéActu

1 source

Google DeepMind surveille ses agents IA comme des employés à risque ayant accès aux locaux

À lire aussi

Google DeepMind s'interroge sur les risques liés aux interactions entre des millions d'agents autonomes

Google DeepMind renforce sa vigilance sur les risques biologiques de l'IA

Google met en garde contre des pages web malveillantes qui empoisonnent les agents IA

Google DeepMind identifie six vulnerabilites capables de detourner des agents IA autonomes