Aller au contenu principal
Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche
RechercheMarkTechPost3h

Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche

Résumé IASource uniqueImpact UE
Source originale ↗·

Une étude conjointe de Harvard et de Perplexity publiée en juin 2026 apporte les premières preuves empiriques à grande échelle sur ce que les agents d'intelligence artificielle font réellement dans le cadre du travail intellectuel. Les chercheurs ont analysé 90 jours de données de production, du 27 février au 27 mai 2026, en comparant deux produits Perplexity utilisés par les mêmes personnes : Search, un moteur de réponse conversationnel, et Computer, un agent capable de planifier et d'exécuter des tâches de bout en bout. À partir de 10 000 paires de sessions quasi-identiques, définies par une similarité cosinus supérieure à 0,99, ils ont mesuré ce que chaque mode accomplit concrètement. Le résultat le plus saillant : Computer effectue en moyenne 26 minutes de travail machine autonome par session, contre 33 secondes pour Search, soit un écart de 48 fois. En médiane, l'écart reste net : 9 minutes contre 14 secondes. Sur certains domaines locaux, le ratio atteint 75 fois.

L'impact sur la productivité est considérable. En reconstituant un scénario de référence "humain avec Search", les chercheurs estiment qu'un professionnel aurait besoin de 269 minutes pour accomplir la même tâche qu'un agent en 36 minutes, soit 87 % de temps en moins et 94 % de coût total réduit. Ces économies de coût dépassent les économies de temps parce que les salaires amplificateurs du domaine entrent en ligne de compte. Le coût modèle de Computer s'élève à 4 à 10 dollars par tâche, contre environ 0,05 dollar pour Search, mais son coût marginal par étape est de 0,16 dollar contre 2,05 dollars pour l'humain seul. La satisfaction est également au rendez-vous : le taux d'insatisfaction mesurable après une session Computer est de 1,3 %, contre 2,9 % pour Search, une réduction de 55 %. Loin de remplacer la recherche traditionnelle, l'agent la stimule : adopter Computer a augmenté de 1,05 le nombre de requêtes Search quotidiennes des utilisateurs, signe d'une complémentarité plutôt que d'une substitution.

Cette étude s'inscrit dans un débat plus large sur la véritable nature de la transformation que les agents IA font subir au travail. Les chercheurs montrent que l'autonomie ne se limite pas à accélérer des tâches existantes : elle change lesquelles sont tentées. Les sessions Computer franchissent plus souvent les frontières entre métiers, avec 59 % de requêtes inter-occupations contre 50 % pour Search. Perplexity Computer a été lancé deux jours avant l'ouverture de la fenêtre d'observation, et ses volumes ont déjà atteint 84 fois leur niveau de la première semaine. Des entretiens utilisateurs rapportent des gains allant de 5 à 300 fois, corroborés par une évaluation indépendante par LLM qui retrouve 84 % de gain de temps et 93 % de gain de coût. Ces chiffres posent une question structurante pour les entreprises : le point de rupture économique se situe à moins de 20 minutes de travail manuel, en dessous duquel l'humain seul reste compétitif.

Impact France/UE

Les entreprises européennes disposent d'un premier benchmark empirique pour calibrer leur adoption des agents IA, avec un point de rupture économique identifié à moins de 20 minutes de travail manuel.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir
1VentureBeat AI 

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir

Des chercheurs du Mind Lab et de plusieurs universités ont publié une technique appelée delta-mem, conçue pour doter les agents d'intelligence artificielle d'une mémoire de travail persistante sans modifier les paramètres du modèle sous-jacent. Le principe : comprimer l'historique des interactions d'un agent en une matrice de taille fixe, appelée OSAM (Online State of Associative Memory), mise à jour dynamiquement au fil des échanges. Le module résultant n'ajoute que 0,12 % des paramètres du modèle de base, contre 76,40 % pour la solution concurrente la plus répandue, tout en surpassant cette dernière sur les benchmarks exigeants en mémoire. Lors de la génération, le système ne réinjecte pas de texte brut dans le contexte : l'état caché du modèle est projeté dans la matrice pour récupérer les informations passées, ce qui réduit la latence et évite de saturer la fenêtre de contexte. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, un assistant de code qui perd le fil d'une session de débogage, ou un agent d'analyse de données qui réingère les mêmes informations à chaque étape, génère des coûts en tokens, de la latence et des workflows fragiles. Les deux solutions habituelles, élargir la fenêtre de contexte ou multiplier les appels RAG, montrent leurs limites dès que les interactions s'étalent sur de longues séquences : le coût computationnel de l'attention croit de façon quadratique avec la longueur de la séquence, et les modèles souffrent de ce que les chercheurs appellent le "context rot", une dégradation effective de la mémorisation malgré des fenêtres théoriques d'un million de tokens. Delta-mem offre une troisième voie : une mémoire interne, compacte et continuellement mise à jour, sans dépendance à un module externe. Ce travail s'inscrit dans un débat plus large sur l'architecture des agents autonomes. Les approches existantes se répartissent en trois catégories : la mémoire textuelle, limitée par la taille de la fenêtre et sujette à la perte d'information ; le RAG, qui introduit de la latence et des problèmes d'alignement ; et les adaptateurs paramétriques, statiques après l'entraînement et incapables d'intégrer de nouvelles informations en temps réel. Delta-mem se positionne comme une quatrième voie, paramétrique mais dynamique, opérant à l'intérieur du modèle gelé. Jingdi Lei, co-auteur de l'article, cite des cas concrets : un assistant de code qui doit retenir les conventions d'un projet, les étapes de débogage récentes ou les préférences d'un développeur sur toute la durée d'un workflow ; un agent d'analyse qui doit maintenir des hypothèses et des observations intermédiaires sur plusieurs appels d'outils successifs. La technique reste pour l'instant au stade de la recherche, mais elle pointe vers une architecture d'agent où la mémoire de travail est un composant de première classe, aussi central que le modèle lui-même.

RecherchePaper
1 source
2VentureBeat AI 

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Des chercheurs de Meta et de plusieurs universités ont présenté un nouveau cadre d'agents autonomes baptisé "hyperagents", conçu pour surmonter les limites des systèmes d'IA auto-améliorants actuels. Contrairement aux architectures existantes, comme la Darwin Gödel Machine (DGM) de Sakana AI, qui ne fonctionnent efficacement que sur des tâches de programmation, les hyperagents peuvent réécrire et optimiser leur propre logique de résolution de problèmes dans des domaines non techniques comme la robotique, l'analyse documentaire ou la revue d'articles scientifiques. Le système est dit "entièrement autoréférentiel" : il peut analyser, évaluer et modifier n'importe quelle partie de lui-même sans contraintes liées à sa configuration initiale. Les hyperagents inventent de façon autonome des capacités génériques comme la mémoire persistante ou le suivi automatisé des performances, sans intervention humaine. L'enjeu est considérable pour les entreprises qui cherchent à déployer des agents IA dans des environnements de production réels, où les tâches sont imprévisibles et variables. Jusqu'ici, les systèmes auto-améliorants étaient bridés par un "meta-agent" statique, conçu par des ingénieurs humains et incapable d'évoluer plus vite que ces derniers ne pouvaient le maintenir. Jenny Zhang, co-auteure de l'article, résume le problème ainsi : "Chaque fois que quelque chose change ou se casse, une personne doit intervenir pour mettre à jour les règles ou la logique." Les hyperagents brisent ce "mur de maintenance" en découplant la capacité à améliorer les tâches de la capacité à modifier le code sous-jacent, deux compétences fondamentalement distinctes. Le résultat est un système qui non seulement s'améliore sur les tâches, mais optimise également le cycle d'auto-amélioration lui-même, accélérant les progrès de façon exponentielle avec moins de prompt engineering manuel. Ce travail s'inscrit dans une course plus large à l'automatisation de l'ingénierie des agents IA, un domaine en pleine effervescence depuis les succès de DGM sur les benchmarks de programmation en 2025. La DGM avait démontré qu'une amélioration récursive et ouverte était techniquement réalisable, mais uniquement lorsque la tâche elle-même était du code. Meta franchit une étape supplémentaire en généralisant ce principe à des domaines où l'évaluation des performances et la réécriture du comportement requièrent des compétences radicalement différentes, comme l'analyse textuelle subjective ou l'exploration de données métier. Si les hyperagents tiennent leurs promesses à l'échelle, ils pourraient réduire drastiquement la dépendance aux équipes d'ingénierie spécialisées pour adapter les agents à chaque nouveau contexte, ouvrant la voie à des systèmes véritablement capables de s'adapter seuls aux environnements d'entreprise en constante évolution.

RecherchePaper
1 source
3VentureBeat AI 

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples

Une équipe de recherche de Databricks a publié des résultats montrant que les agents multi-étapes surpassent systématiquement les systèmes RAG classiques lorsque les questions nécessitent de croiser données structurées et contenu non structuré. Testés sur neuf tâches de connaissance d'entreprise, les agents multi-étapes affichent des gains de 20% ou plus sur le benchmark STaRK de Stanford, qui couvre trois domaines semi-structurés : les données produits Amazon, le Microsoft Academic Graph et une base de connaissances biomédicale. Sur ce dernier domaine, l'écart de performance atteint 38%. Pour s'assurer que ces gains ne s'expliquent pas simplement par la qualité du modèle sous-jacent, Databricks a réexécuté les baselines STaRK publiées en utilisant un modèle de fondation plus récent et plus puissant : ce modèle plus fort a quand même perdu face à l'agent multi-étapes, confirmant que le problème est architectural. Le problème fondamental des systèmes RAG à passage unique est leur incapacité à décomposer une requête hybride, c'est-à-dire une question qui mélange un filtre structuré précis avec une recherche sémantique ouverte. Une question telle que "Quels produits ont vu leurs ventes baisser ces trois derniers mois, et quels problèmes connexes remontent dans les avis clients ?" exige d'interroger simultanément un entrepôt SQL et des documents non structurés, puis de combiner les résultats. Un système RAG classique ne peut pas scinder cette requête, router chaque partie vers la bonne source de données et synthétiser le tout. Michael Bendersky, directeur de la recherche chez Databricks, résume ainsi la limite : "RAG fonctionne, mais ça ne passe pas à l'échelle. Si vous voulez comprendre pourquoi vos ventes baissent, il faut aider l'agent à voir les tables et les données commerciales. Votre pipeline RAG sera incompétent pour cette tâche." Pour répondre à ce problème, Databricks a conçu le Supervisor Agent, implémentation concrète de cette approche de recherche. Son architecture repose sur trois mécanismes : la décomposition parallèle des outils, où l'agent lance simultanément des requêtes SQL et des recherches vectorielles avant d'analyser les résultats combinés ; l'auto-correction, qui lui permet de détecter un échec de récupération, de reformuler la requête et d'emprunter un autre chemin, comme lorsqu'il exécute une jointure SQL pour trouver un auteur ayant exactement 115 publications sur un sujet précis ; et une configuration déclarative en langage naturel, qui permet de connecter n'importe quelle nouvelle source de données sans ré-entraînement. Ces travaux s'appuient sur les recherches antérieures de Databricks sur les retrievers instruits, qui avaient déjà amélioré la récupération sur données non structurées via des requêtes enrichies de métadonnées, et marquent une extension logique vers les sources relationnelles que les entreprises utilisent le plus au quotidien.

RecherchePaper
1 source
Le cofondateur milliardaire de Databricks et Perplexity incite les chercheurs en IA à éviter les géants de la tech
4The Information AI 

Le cofondateur milliardaire de Databricks et Perplexity incite les chercheurs en IA à éviter les géants de la tech

Andy Konwinski, co-fondateur milliardaire de Databricks et de Perplexity AI, mène depuis plusieurs mois une campagne active pour convaincre les chercheurs en intelligence artificielle de ne pas rejoindre les grandes entreprises technologiques. Il a exposé sa vision lors de la conférence AI de l'Association for Computing Machinery à San Jose, plaidant pour que les académiques continuent à publier leurs travaux en accès libre plutôt que de rejoindre des laboratoires privés qui gardent leurs avancées secrètes. Son appel intervient dans un contexte de fermeture croissante de l'écosystème de recherche en IA. Un rapport de Stanford publié en 2026 a documenté qu'OpenAI, Anthropic et Google ne divulguent désormais plus les détails sur les logiciels utilisés pour entraîner leurs modèles, la puissance de calcul mobilisée, ni la taille de leurs jeux de données, des informations pourtant essentielles pour que d'autres chercheurs puissent reproduire et améliorer ces résultats. Cette opacité croissante prive la communauté scientifique mondiale des briques de connaissance nécessaires pour progresser collectivement. Pour Konwinski, l'enjeu dépasse la simple compétition industrielle : "Il existe de nombreuses raisons, fondamentales, sociétales, pour défendre la démocratie, qui font que la recherche ouverte doit survivre." Ce débat s'inscrit dans une tension structurelle entre academia et industrie qui s'est considérablement accentuée avec la montée en puissance des grands modèles de langage. Le tournant illustratif reste le célèbre article de recherche publié par Google en 2017, le papier "Attention Is All You Need" sur l'architecture Transformer, qui est devenu la base de pratiquement tous les modèles et chatbots d'IA modernes. Ce travail, rendu public à l'époque, a permis à l'ensemble de l'industrie d'avancer. La question qui se pose aujourd'hui est de savoir si un tel partage serait encore possible dans un environnement où la recherche est devenue un avantage concurrentiel jalousement protégé.

UELa fermeture progressive de la recherche IA par OpenAI, Anthropic et Google fragilise les exigences de transparence et d'auditabilité portées par l'AI Act européen.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour