Le cofondateur milliardaire de Databricks et…

Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche

46

1MarkTechPost

Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche

Une étude conjointe de Harvard et de Perplexity publiée en juin 2026 apporte les premières preuves empiriques à grande échelle sur ce que les agents d'intelligence artificielle font réellement dans le cadre du travail intellectuel. Les chercheurs ont analysé 90 jours de données de production, du 27 février au 27 mai 2026, en comparant deux produits Perplexity utilisés par les mêmes personnes : Search, un moteur de réponse conversationnel, et Computer, un agent capable de planifier et d'exécuter des tâches de bout en bout. À partir de 10 000 paires de sessions quasi-identiques, définies par une similarité cosinus supérieure à 0,99, ils ont mesuré ce que chaque mode accomplit concrètement. Le résultat le plus saillant : Computer effectue en moyenne 26 minutes de travail machine autonome par session, contre 33 secondes pour Search, soit un écart de 48 fois. En médiane, l'écart reste net : 9 minutes contre 14 secondes. Sur certains domaines locaux, le ratio atteint 75 fois. L'impact sur la productivité est considérable. En reconstituant un scénario de référence "humain avec Search", les chercheurs estiment qu'un professionnel aurait besoin de 269 minutes pour accomplir la même tâche qu'un agent en 36 minutes, soit 87 % de temps en moins et 94 % de coût total réduit. Ces économies de coût dépassent les économies de temps parce que les salaires amplificateurs du domaine entrent en ligne de compte. Le coût modèle de Computer s'élève à 4 à 10 dollars par tâche, contre environ 0,05 dollar pour Search, mais son coût marginal par étape est de 0,16 dollar contre 2,05 dollars pour l'humain seul. La satisfaction est également au rendez-vous : le taux d'insatisfaction mesurable après une session Computer est de 1,3 %, contre 2,9 % pour Search, une réduction de 55 %. Loin de remplacer la recherche traditionnelle, l'agent la stimule : adopter Computer a augmenté de 1,05 le nombre de requêtes Search quotidiennes des utilisateurs, signe d'une complémentarité plutôt que d'une substitution. Cette étude s'inscrit dans un débat plus large sur la véritable nature de la transformation que les agents IA font subir au travail. Les chercheurs montrent que l'autonomie ne se limite pas à accélérer des tâches existantes : elle change lesquelles sont tentées. Les sessions Computer franchissent plus souvent les frontières entre métiers, avec 59 % de requêtes inter-occupations contre 50 % pour Search. Perplexity Computer a été lancé deux jours avant l'ouverture de la fenêtre d'observation, et ses volumes ont déjà atteint 84 fois leur niveau de la première semaine. Des entretiens utilisateurs rapportent des gains allant de 5 à 300 fois, corroborés par une évaluation indépendante par LLM qui retrouve 84 % de gain de temps et 93 % de gain de coût. Ces chiffres posent une question structurante pour les entreprises : le point de rupture économique se situe à moins de 20 minutes de travail manuel, en dessous duquel l'humain seul reste compétitif.

UELes entreprises européennes disposent d'un premier benchmark empirique pour calibrer leur adoption des agents IA, avec un point de rupture économique identifié à moins de 20 minutes de travail manuel.

RecherchePaper

1 source

49

2MarkTechPost

Perplexity AI publie WANDR, un benchmark ouvert pour évaluer les agents de recherche capables d'explorer largement et en profondeur

Perplexity AI a publié WANDR (Wide ANd Deep Research), un nouveau benchmark ouvert conçu pour évaluer les agents de recherche capables à la fois d'explorer largement un sujet et d'investiguer chaque piste en profondeur. L'outil comprend 500 tâches réalistes de collecte de données, construites autour d'une architecture appelée "qualification key hierarchy", qui combine recherche large (identifier un grand nombre d'entités correspondant à des critères) et recherche approfondie (documenter chaque entité avec des preuves vérifiables). Un exemple concret illustre le principe : la tâche "ceocfoappointments" demande de recenser au moins 70 entreprises américaines ayant annoncé la nomination d'un nouveau PDG ou directeur financier entre le 1er mars et le 30 avril 2026, chacune accompagnée d'une page source faisant autorité, soit 140 enregistrements vérifiables au total. Les tâches ont été générées à partir de schémas d'usage réels et anonymisés, via un pipeline en quatre étapes (amorçage, rédaction, validation, curation) combinant génération automatique et vérification croisée. Au total, les 500 tâches de WANDR exigent 170 495 enregistrements sourcés, avec une médiane de 50 entités et 245 preuves par tâche, réparties en trois niveaux de difficulté à peu près égaux. Ce benchmark comble un vide important dans l'évaluation des agents d'intelligence artificielle dédiés à la recherche documentaire. Jusqu'ici, la plupart des outils de mesure testaient la capacité d'un agent à produire une réponse unique et bien rédigée, sans vérifier s'il pouvait réellement rassembler et vérifier un grand volume d'informations factuelles. Or de plus en plus d'entreprises délèguent à ces agents des tâches de cartographie concurrentielle, de vérification préalable (due diligence) ou de revue de littérature, des travaux qui exigent précisément cette combinaison d'ampleur et de rigueur. Chaque affirmation soumise par l'agent est revérifiée automatiquement par un système qui récupère la page citée, contrôle qu'elle est pertinente et vérifie que les extraits sélectionnés confirment bien la réponse fournie, avant de calculer des scores de précision et de rappel à différents niveaux de la hiérarchie. WANDR est présenté comme le pendant "large" du benchmark DRACO, déjà développé par Perplexity pour évaluer la qualité de rapports longs et approfondis. Dans les premiers tests, six systèmes de production ont été évalués sur l'ensemble des 500 tâches, et c'est la propre architecture "Search as Code" de Perplexity qui obtient le meilleur score, avec un F1 souple de 0,363. Aucun système, cependant, ne parvient à résoudre la totalité du benchmark, ce qui souligne l'écart qui subsiste entre les capacités actuelles des agents de recherche et les exigences réelles du travail de connaissance à grande échelle.

💬 Ce qui me frappe, c'est que Perplexity teste enfin ce qui compte pour un usage pro : pas "écrire une belle réponse", mais aller chercher 140 preuves vérifiables sur 70 boîtes différentes. Et le meilleur score du marché plafonne à 0,363 sur leur propre benchmark, ce qui dit clairement que la recherche automatisée à grande échelle reste loin d'être fiable pour de la vraie due diligence. Bon, sur le papier ça tire tout le monde vers le haut, reste à voir si les autres labos adoptent ce genre de mesure au lieu de continuer à vendre du "agent qui répond bien".

RecherchePaper

1 source

46

3The Decoder

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

Une étude portant sur 34 000 compétences réelles utilisées par des agents d'intelligence artificielle révèle que ces modules spécialisés, censés améliorer les performances des systèmes autonomes, n'apportent en pratique que des gains marginaux. Les chercheurs ont testé des "skills", ces instructions modulaires que les agents peuvent activer à la volée pour accéder à des connaissances spécifiques, dans des conditions proches du déploiement réel. Résultat : non seulement les améliorations sont négligeables dans des scénarios réalistes, mais les modèles les plus faibles voient leurs performances se dégrader lorsqu'ils y ont recours, comparé à une utilisation sans ces modules. Ce constat remet en question une hypothèse fondamentale du développement des agents IA : l'idée qu'enrichir un modèle avec des compétences externes suffit à le rendre plus capable. Pour les entreprises qui investissent dans des architectures agentiques complexes, notamment dans les secteurs de l'automatisation, du service client ou de la productivité, ce résultat soulève des doutes sur la valeur réelle de ces surcouches techniques. Les benchmarks standards, souvent utilisés pour vendre ces solutions, semblent masquer des lacunes significatives dès que les conditions expérimentales se rapprochent de la réalité. Cette étude s'inscrit dans un débat plus large sur la fiabilité des agents IA en production. Depuis l'essor des frameworks agentiques comme LangChain ou AutoGPT, la communauté cherche à comprendre pourquoi ces systèmes échouent là où les démonstrations semblent prometteuses. L'écart entre performance en laboratoire et comportement en conditions réelles reste l'un des obstacles majeurs à l'adoption industrielle des agents autonomes, et ces travaux pourraient pousser les développeurs à revoir leurs méthodes d'évaluation.

RecherchePaper

1 source

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

38

4Le Big Data

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

Adrian de Wynter, chercheur chez Microsoft, a publié un article scientifique au titre volontairement provocateur : « Si les LLM possèdent des attributs humains, alors Age of Empires II aussi ». Pour étayer sa thèse, il n'a pas eu recours à des serveurs de calcul ni à des GPU dernier cri, mais aux chèvres virtuelles du célèbre jeu de stratégie sorti en 1999. En utilisant l'éditeur de scénarios intégré au jeu, il a réussi à transformer ces animaux numériques en composants logiques fonctionnels, reproduisant des portes élémentaires comme NAND, XNOR et AND, les briques de base de tout système informatique. Ces mécanismes lui ont ensuite permis de construire un perceptron, la forme la plus simple de réseau de neurones artificiels. De Wynter surnomme affectueusement ses créatures les « bit-goats », contraction de « bit » et « goat ». La démonstration n'est pas un simple tour de passe-passe : elle pointe une faille fondamentale dans les débats actuels sur la conscience des IA. Personne ne dispose aujourd'hui d'une méthode universellement reconnue pour mesurer ou prouver l'existence d'une conscience chez un système artificiel. Les affirmations en ce sens reposent donc sur des intuitions, des métaphores et des analogies difficiles à vérifier scientifiquement. En montrant que les mêmes mécanismes logiques qui sous-tendent les LLM modernes peuvent être reproduits dans un jeu vidéo avec des chèvres pixellisées, de Wynter illustre que le substrat, c'est-à-dire le support physique ou logiciel sur lequel tourne un système, ne suffit pas à lui conférer des propriétés particulières. Ce n'est pas parce qu'un modèle tourne sur une infrastructure sophistiquée qu'il pense, et ce n'est pas parce qu'un système repose sur quelque chose d'improbable qu'il en est incapable. Ce travail s'inscrit dans un débat qui divise la communauté scientifique depuis l'émergence de ChatGPT fin 2022. D'un côté, des chercheurs comme ceux associés à des projets de « conscience artificielle » estiment que les grands modèles de langage représentent les prémices d'une intelligence générale. De l'autre, une majorité de spécialistes y voient des systèmes statistiques sophistiqués qui prédisent des mots sans rien comprendre. Le problème central, que l'expérience des bit-goats expose avec humour, est que notre cerveau associe spontanément le langage fluide à la conscience : quand une machine s'exprime de manière convaincante, nous lui prêtons naturellement compréhension et réflexion. Adrian de Wynter ne tranche pas la question de savoir si les IA sont conscientes, mais démontre que les outils conceptuels dont on dispose pour y répondre sont, pour l'instant, largement insuffisants.

💬 Les "bit-goats" d'Age of Empires II posent la vraie question : si un perceptron construit avec des chèvres pixellisées d'un jeu de 1999 satisfait les mêmes critères logiques qu'un LLM, sur quoi se basent ceux qui affirment que les LLM "pensent" ? On n'a aucun critère mesurable pour définir la conscience artificielle, et ce travail le prouve avec plus de rigueur que la plupart des tribunes publiées depuis 3 ans. J'attends de voir si ça met fin aux grandes déclarations sur "l'IA qui ressent".

RecherchePaper

1 source

Le cofondateur milliardaire de Databricks et Perplexity incite les chercheurs en IA à éviter les géants de la tech

À lire aussi

Une nouvelle étude de Harvard et Perplexity révèle que les agents IA effectuent 26 minutes de travail autonome par session, contre 33 secondes pour la recherche

Perplexity AI publie WANDR, un benchmark ouvert pour évaluer les agents de recherche capables d'explorer largement et en profondeur

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft