Aller au contenu principal
Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA
RechercheThe Decoder2h· 1 min de lecture

Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA

Source originale ↗·

Un chercheur de Microsoft a construit un réseau de neurones fonctionnel dans l'éditeur de cartes d'Age of Empires II, en utilisant des chèvres, des ponts et des rampes de glace. Le système reproduit fidèlement les opérations mathématiques d'un réseau de neurones artificiel classique, avec des unités logiques remplacées par des animaux qui se déplacent selon des règles précises. Ce qui ressemble à une expérience absurde est en réalité une démonstration délibérément provocatrice.

L'objectif est de mettre en lumière un biais méthodologique profond dans la recherche sur l'IA. En analysant 315 articles scientifiques, le chercheur a constaté que plus de la moitié d'entre eux présupposaient des traits humains chez les modèles de langage avant même que l'expérience ne commence. Or, si l'on remplace une interface de chat par des chèvres errantes, les mathématiques sous-jacentes ne changent pas, mais l'impression de dialoguer avec une entité consciente disparaît immédiatement. C'est précisément ce sentiment, et non les données, qui influence les conclusions de nombreuses études.

Cette démonstration s'inscrit dans un débat scientifique plus large sur l'anthropomorphisation des systèmes d'IA. Depuis l'émergence des grands modèles de langage comme GPT-4 ou Gemini, une partie de la communauté académique tend à projeter des capacités cognitives humaines sur des systèmes qui ne font qu'optimiser des probabilités statistiques. En montrant qu'un troupeau de chèvres peut réaliser les mêmes calculs qu'un réseau neuronal, le chercheur pousse ses pairs à interroger leurs cadres d'interprétation avant de publier des conclusions sur la "compréhension" ou la "conscience" des modèles.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon
1MarkTechPost 

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Des chercheurs de Tilde Research ont publié Aurora, un nouvel optimiseur pour l'entraînement de réseaux de neurones qui corrige un défaut structurel présent dans Muon, l'un des optimiseurs les plus adoptés par la communauté depuis 2024. Le problème découvert est frappant : dans les matrices de poids "tall", comme celles des couches MLP basées sur l'architecture SwiGLU, Muon tue silencieusement une fraction importante des neurones au fil de l'entraînement. Dès la 500e étape d'entraînement, plus d'un neurone sur quatre est effectivement mort et ne se réveille plus. Aurora propose une correction mathématique rigoureuse, accompagnée d'un benchmark validé sur un modèle de 1,1 milliard de paramètres, d'un nouveau record sur le classement modded-nanoGPT speedrun, et d'un code publié en accès libre. Ce bug discret a des conséquences concrètes sur la qualité des modèles entraînés avec Muon. Le mécanisme central de Muon repose sur le calcul d'un "facteur polaire" à partir du gradient, ce qui produit une mise à jour quasi-orthogonale des poids. Mais pour les matrices tall, il est mathématiquement impossible de rester orthogonal tout en maintenant des mises à jour uniformes entre les neurones : l'optimiseur finit par sur-mettre à jour certains neurones et en ignorer d'autres. Les neurones sous-alimentés reçoivent de moins en moins de signal, entrent dans une spirale de mort, et cessent de contribuer au calcul. Cette inactivité se propage aux couches suivantes, privant tout le réseau d'une partie de sa capacité de représentation, sans qu'aucun signal d'erreur ne l'indique clairement. Muon avait attiré l'attention de la communauté ML en surpassant AdamW en vitesse de convergence sur le benchmark nanoGPT speedrun, une compétition mesurant la rapidité d'entraînement d'un modèle de type GPT. Depuis, plusieurs groupes de recherche travaillant à l'échelle frontier l'ont adopté. Une variante intermédiaire, NorMuon, avait tenté d'améliorer Muon en normalisant les lignes du gradient, mais visait la mauvaise cible : elle imposait une norme de 1 à chaque ligne, alors que la valeur mathématiquement correcte pour une matrice tall est √(n/m). Tilde Research a d'abord formalisé cette correction sous le nom U-NorMuon, qui élimine complètement la mort neuronale à 340 millions de paramètres, avant de développer Aurora comme solution complète préservant à la fois l'uniformité des mises à jour et la précision du facteur polaire. La publication en code ouvert ouvre la voie à une adoption rapide dans les pipelines d'entraînement existants.

UELes équipes de recherche et labs ML français et européens entraînant des modèles avec Muon peuvent adopter Aurora directement pour éliminer la mort neuronale silencieuse et améliorer la qualité de leurs modèles.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
2MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
3MarkTechPost 

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Des chercheurs de Google Research ont publié un article présentant Vantage, un système d'évaluation basé sur des grands modèles de langage (LLM) conçu pour mesurer trois compétences humaines longtemps considérées comme impossibles à tester à grande échelle : la collaboration, la créativité et la pensée critique. L'étude, conduite auprès de 188 participants âgés de 18 à 25 ans recrutés via la plateforme Prolific, a généré 373 transcriptions de conversations entre humains et groupes d'agents IA. Chaque session durait 30 minutes et impliquait des tâches collaboratives structurées, comme la conception d'une expérience scientifique ou un débat argumenté. Les modèles utilisés sont Gemini 2.5 Pro pour les modules de collaboration et Gemini 3 pour la créativité et la pensée critique. L'apport technique central de Vantage est ce que les chercheurs appellent l'architecture "Executive LLM" : plutôt que de faire fonctionner un agent IA distinct pour chaque participant simulé, un seul LLM orchestre tous les personnages artificiels de la conversation. Ce modèle coordinateur a accès à la rubrique d'évaluation en temps réel et s'en sert activement pour piloter les échanges vers des situations révélatrices. Si la compétence ciblée est la résolution de conflits, l'Executive LLM peut faire exprimer un désaccord par l'un de ses personnages et le maintenir jusqu'à ce que le participant humain réagisse. Les tests ont montré que cette approche surpasse significativement une configuration où des agents indépendants interagissent sans coordination : sans pilotage, les conversations peuvent se dérouler sans jamais créer les conditions nécessaires à l'évaluation d'une compétence donnée. Les scores attribués automatiquement par le système ont atteint un niveau de fiabilité comparable à celui d'experts humains formés à la notation. Ce travail s'attaque à un problème de mesure vieux de plusieurs décennies. Les tests standardisés classiques, comme le PISA 2015 sur la résolution collaborative de problèmes, ont tenté de simuler le travail en groupe via des interfaces à choix multiples avec des coéquipiers scriptés, sacrifiant l'authenticité au profit du contrôle. Les évaluations humaines réelles font l'inverse, mais ne passent pas à l'échelle. Google positionne les LLM comme la première technologie capable de satisfaire simultanément ces deux exigences contradictoires : produire des interactions conversationnelles naturelles tout en maintenant des conditions reproductibles et comparables. Les implications dépassent largement le cadre académique : cette approche pourrait transformer les recrutements en entreprise, les certifications professionnelles ou les outils pédagogiques adaptatifs. Avec des entreprises comme Google, Microsoft et OpenAI qui investissent massivement dans les agents conversationnels, Vantage illustre une nouvelle frontière où les LLM ne servent plus seulement à produire du texte, mais à modéliser et évaluer le comportement humain lui-même.

UECe système d'évaluation automatisée pourrait influencer les pratiques de recrutement et les certifications professionnelles en Europe, ainsi que les outils pédagogiques utilisés dans les systèmes éducatifs européens.

RecherchePaper
1 source
Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
4MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic