Aller au contenu principal
RechercheThe Decoder2h· 1 min de lecture

L'IA ne deviendra un vrai collègue que lorsqu'elle finira les tâches au lieu de se contenter de répondre

Source originale ↗·

Une équipe de chercheurs de Tencent et de plusieurs universités chinoises a publié un article de synthèse qui cartographie la trajectoire des systèmes d'intelligence artificielle vers ce qu'ils appellent le "collègue numérique". Leur constat central : les assistants IA actuels restent fondamentalement limités parce qu'ils répondent à des questions plutôt qu'ils ne terminent des tâches. Pour franchir ce seuil, deux conditions sont nécessaires : des environnements de travail persistants, dans lesquels l'agent conserve un état entre deux interactions, et des compétences réutilisables, c'est-à-dire des séquences d'actions que le système peut mobiliser sans les réapprendre à chaque fois.

L'enjeu est considérable pour les entreprises qui misent sur l'automatisation. Un agent capable uniquement de générer du texte reste un outil consultatif. Un agent qui peut ouvrir un fichier, modifier une base de données, envoyer un e-mail et vérifier le résultat le lendemain est un exécutant autonome. Cette distinction change radicalement le périmètre de ce que l'IA peut remplacer ou augmenter dans les environnements professionnels réels.

Ce travail s'inscrit dans une vague de recherche sur les agents IA dits "long-horizon", capables de maintenir un objectif sur plusieurs étapes et plusieurs sessions. Des laboratoires comme Google DeepMind, Anthropic et OpenAI travaillent sur des architectures similaires, mais la feuille de route proposée ici par Tencent offre un cadre structuré pour évaluer la maturité de ces systèmes. La course au "vrai" agent de travail est désormais l'un des fronts les plus disputés de l'IA appliquée.

Impact France/UE

Cette feuille de route proposée par Tencent pour évaluer la maturité des agents IA peut servir de référence aux entreprises françaises et européennes qui investissent dans l'automatisation par agents.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft
1Le Big Data 

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

Adrian de Wynter, chercheur chez Microsoft, a publié un article scientifique au titre volontairement provocateur : « Si les LLM possèdent des attributs humains, alors Age of Empires II aussi ». Pour étayer sa thèse, il n'a pas eu recours à des serveurs de calcul ni à des GPU dernier cri, mais aux chèvres virtuelles du célèbre jeu de stratégie sorti en 1999. En utilisant l'éditeur de scénarios intégré au jeu, il a réussi à transformer ces animaux numériques en composants logiques fonctionnels, reproduisant des portes élémentaires comme NAND, XNOR et AND, les briques de base de tout système informatique. Ces mécanismes lui ont ensuite permis de construire un perceptron, la forme la plus simple de réseau de neurones artificiels. De Wynter surnomme affectueusement ses créatures les « bit-goats », contraction de « bit » et « goat ». La démonstration n'est pas un simple tour de passe-passe : elle pointe une faille fondamentale dans les débats actuels sur la conscience des IA. Personne ne dispose aujourd'hui d'une méthode universellement reconnue pour mesurer ou prouver l'existence d'une conscience chez un système artificiel. Les affirmations en ce sens reposent donc sur des intuitions, des métaphores et des analogies difficiles à vérifier scientifiquement. En montrant que les mêmes mécanismes logiques qui sous-tendent les LLM modernes peuvent être reproduits dans un jeu vidéo avec des chèvres pixellisées, de Wynter illustre que le substrat, c'est-à-dire le support physique ou logiciel sur lequel tourne un système, ne suffit pas à lui conférer des propriétés particulières. Ce n'est pas parce qu'un modèle tourne sur une infrastructure sophistiquée qu'il pense, et ce n'est pas parce qu'un système repose sur quelque chose d'improbable qu'il en est incapable. Ce travail s'inscrit dans un débat qui divise la communauté scientifique depuis l'émergence de ChatGPT fin 2022. D'un côté, des chercheurs comme ceux associés à des projets de « conscience artificielle » estiment que les grands modèles de langage représentent les prémices d'une intelligence générale. De l'autre, une majorité de spécialistes y voient des systèmes statistiques sophistiqués qui prédisent des mots sans rien comprendre. Le problème central, que l'expérience des bit-goats expose avec humour, est que notre cerveau associe spontanément le langage fluide à la conscience : quand une machine s'exprime de manière convaincante, nous lui prêtons naturellement compréhension et réflexion. Adrian de Wynter ne tranche pas la question de savoir si les IA sont conscientes, mais démontre que les outils conceptuels dont on dispose pour y répondre sont, pour l'instant, largement insuffisants.

💬 Les "bit-goats" d'Age of Empires II posent la vraie question : si un perceptron construit avec des chèvres pixellisées d'un jeu de 1999 satisfait les mêmes critères logiques qu'un LLM, sur quoi se basent ceux qui affirment que les LLM "pensent" ? On n'a aucun critère mesurable pour définir la conscience artificielle, et ce travail le prouve avec plus de rigueur que la plupart des tribunes publiées depuis 3 ans. J'attends de voir si ça met fin aux grandes déclarations sur "l'IA qui ressent".

RecherchePaper
1 source
Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?
2MIT Technology Review 

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?

Le 21 mai 2026, MIT Technology Review a réuni trois de ses journalistes spécialisés, le rédacteur en chef Mat Honan, le senior editor IA Will Douglas Heaven et la reporter Grace Huckins, pour une table ronde enregistrée consacrée à une question centrale du moment : les IA peuvent-elles apprendre à véritablement comprendre le monde physique ? La discussion s'inscrit dans un mouvement de fond où les grands laboratoires misent sur les "world models", des systèmes capables de se représenter l'environnement réel plutôt que de simplement traiter du texte. L'enjeu est de taille : les grands modèles de langage (LLM) actuels montrent des limites structurelles dès qu'il s'agit d'interagir avec le monde physique, de planifier des actions ou d'anticiper les conséquences de décisions dans des environnements dynamiques. Les world models visent à combler ce fossé, en permettant à des robots, véhicules autonomes ou agents IA d'opérer avec une compréhension spatiale et causale du réel, une capacité que les LLM seuls ne possèdent pas. Le sujet mobilise des figures majeures de la recherche en IA, à commencer par Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une architecture alternative aux transformers pour atteindre cette intelligence "du monde réel". Des applications concrètes émergent déjà, comme l'utilisation des données de Pokémon Go pour offrir aux robots livreurs une cartographie centimètre par centimètre de l'environnement urbain. Le débat sur les world models est désormais au coeur des stratégies des grands acteurs de l'industrie.

UELe chercheur français Yann LeCun est l'une des figures centrales du débat sur les world models, un paradigme qui intéresse les laboratoires européens travaillant sur la robotique et les agents autonomes.

RecherchePaper
1 source
ADeLe : prédire et expliquer les performances de l'IA selon les tâches
3Microsoft Research 

ADeLe : prédire et expliquer les performances de l'IA selon les tâches

Des chercheurs de Microsoft, en collaboration avec l'Université de Princeton et l'Universitat Politècnica de València, ont publié dans la revue Nature une méthode inédite d'évaluation des modèles d'IA baptisée ADeLe — pour AI Evaluation with Demand Levels. Présentée dans l'article « General Scales Unlock AI Evaluation with Explanatory and Predictive Power », cette approche évalue simultanément les tâches et les modèles selon 18 capacités fondamentales — attention, raisonnement, connaissances de domaine, métacognition, entre autres — en leur attribuant un score de 0 à 5. Appliquée à 15 grands modèles de langage dont GPT-4o et Llama-3.1, la méthode permet de prédire les performances sur des tâches inédites avec une précision d'environ 88 %. Les travaux ont bénéficié du programme de financement AFMR (Accelerating Foundation Models Research) de Microsoft. L'apport concret d'ADeLe réside dans sa capacité à dépasser les scores agrégés des benchmarks classiques, qui mesurent ce qu'un modèle réussit sans expliquer pourquoi il échoue ni anticiper ses comportements sur de nouvelles tâches. En construisant un profil de capacités pour chaque modèle — une cartographie structurée de ses forces et faiblesses — et en le confrontant aux exigences précises d'une tâche donnée, ADeLe identifie les lacunes spécifiques à l'origine des erreurs. La méthode révèle également que de nombreux benchmarks largement utilisés donnent une image incomplète, voire trompeuse : un test censé mesurer le raisonnement logique peut en réalité dépendre fortement de connaissances spécialisées ou de métacognition, faussant ainsi l'interprétation des résultats. Pour les équipes qui développent ou déploient des LLMs, cette granularité change radicalement la façon d'interpréter une évaluation. L'évaluation des LLMs souffre depuis plusieurs années d'un problème structurel : les benchmarks standard comme MMLU ou HumanEval mesurent des performances globales sur des jeux de tests fixes, sans permettre de généraliser ni de diagnostiquer. ADeLe s'inscrit dans une tendance plus large de la communauté de recherche à vouloir rendre l'évaluation plus explicable et plus prédictive, à mesure que les modèles deviennent des composants critiques dans des systèmes professionnels. La publication dans Nature — une revue généraliste de premier rang, inhabituelle pour ce type de travaux en IA — signale l'ambition scientifique du projet. Les prochaines étapes pourraient inclure l'extension du cadre à des modalités au-delà du texte, et son adoption par des organismes d'évaluation indépendants cherchant des alternatives aux classements simplistes.

UELa co-participation de l'Universitat Politècnica de València positionne ADeLe comme candidat naturel pour les organismes d'évaluation européens chargés de mettre en œuvre les exigences de l'AI Act sur la transparence et la robustesse des modèles.

💬 Les benchmarks classiques te donnent un score global, mais zéro explication sur ce qui foire et pourquoi. ADeLe décompose ça en 18 capacités mesurables, confronte le profil du modèle aux exigences précises de la tâche, et prédit les perfs à 88% sur des cas inédits, ce qui est franchement solide pour de la recherche académique. Publication dans Nature en plus, c'est le genre de signal qui dit que l'évaluation des LLMs commence enfin à être traitée comme un vrai problème scientifique.

RecherchePaper
1 source
4VentureBeat AI 

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Des chercheurs de Meta et de plusieurs universités ont présenté un nouveau cadre d'agents autonomes baptisé "hyperagents", conçu pour surmonter les limites des systèmes d'IA auto-améliorants actuels. Contrairement aux architectures existantes, comme la Darwin Gödel Machine (DGM) de Sakana AI, qui ne fonctionnent efficacement que sur des tâches de programmation, les hyperagents peuvent réécrire et optimiser leur propre logique de résolution de problèmes dans des domaines non techniques comme la robotique, l'analyse documentaire ou la revue d'articles scientifiques. Le système est dit "entièrement autoréférentiel" : il peut analyser, évaluer et modifier n'importe quelle partie de lui-même sans contraintes liées à sa configuration initiale. Les hyperagents inventent de façon autonome des capacités génériques comme la mémoire persistante ou le suivi automatisé des performances, sans intervention humaine. L'enjeu est considérable pour les entreprises qui cherchent à déployer des agents IA dans des environnements de production réels, où les tâches sont imprévisibles et variables. Jusqu'ici, les systèmes auto-améliorants étaient bridés par un "meta-agent" statique, conçu par des ingénieurs humains et incapable d'évoluer plus vite que ces derniers ne pouvaient le maintenir. Jenny Zhang, co-auteure de l'article, résume le problème ainsi : "Chaque fois que quelque chose change ou se casse, une personne doit intervenir pour mettre à jour les règles ou la logique." Les hyperagents brisent ce "mur de maintenance" en découplant la capacité à améliorer les tâches de la capacité à modifier le code sous-jacent, deux compétences fondamentalement distinctes. Le résultat est un système qui non seulement s'améliore sur les tâches, mais optimise également le cycle d'auto-amélioration lui-même, accélérant les progrès de façon exponentielle avec moins de prompt engineering manuel. Ce travail s'inscrit dans une course plus large à l'automatisation de l'ingénierie des agents IA, un domaine en pleine effervescence depuis les succès de DGM sur les benchmarks de programmation en 2025. La DGM avait démontré qu'une amélioration récursive et ouverte était techniquement réalisable, mais uniquement lorsque la tâche elle-même était du code. Meta franchit une étape supplémentaire en généralisant ce principe à des domaines où l'évaluation des performances et la réécriture du comportement requièrent des compétences radicalement différentes, comme l'analyse textuelle subjective ou l'exploration de données métier. Si les hyperagents tiennent leurs promesses à l'échelle, ils pourraient réduire drastiquement la dépendance aux équipes d'ingénierie spécialisées pour adapter les agents à chaque nouveau contexte, ouvrant la voie à des systèmes véritablement capables de s'adapter seuls aux environnements d'entreprise en constante évolution.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic