Un chercheur Microsoft crée un réseau neuronal à…

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

38

1Le Big Data

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

Adrian de Wynter, chercheur chez Microsoft, a publié un article scientifique au titre volontairement provocateur : « Si les LLM possèdent des attributs humains, alors Age of Empires II aussi ». Pour étayer sa thèse, il n'a pas eu recours à des serveurs de calcul ni à des GPU dernier cri, mais aux chèvres virtuelles du célèbre jeu de stratégie sorti en 1999. En utilisant l'éditeur de scénarios intégré au jeu, il a réussi à transformer ces animaux numériques en composants logiques fonctionnels, reproduisant des portes élémentaires comme NAND, XNOR et AND, les briques de base de tout système informatique. Ces mécanismes lui ont ensuite permis de construire un perceptron, la forme la plus simple de réseau de neurones artificiels. De Wynter surnomme affectueusement ses créatures les « bit-goats », contraction de « bit » et « goat ». La démonstration n'est pas un simple tour de passe-passe : elle pointe une faille fondamentale dans les débats actuels sur la conscience des IA. Personne ne dispose aujourd'hui d'une méthode universellement reconnue pour mesurer ou prouver l'existence d'une conscience chez un système artificiel. Les affirmations en ce sens reposent donc sur des intuitions, des métaphores et des analogies difficiles à vérifier scientifiquement. En montrant que les mêmes mécanismes logiques qui sous-tendent les LLM modernes peuvent être reproduits dans un jeu vidéo avec des chèvres pixellisées, de Wynter illustre que le substrat, c'est-à-dire le support physique ou logiciel sur lequel tourne un système, ne suffit pas à lui conférer des propriétés particulières. Ce n'est pas parce qu'un modèle tourne sur une infrastructure sophistiquée qu'il pense, et ce n'est pas parce qu'un système repose sur quelque chose d'improbable qu'il en est incapable. Ce travail s'inscrit dans un débat qui divise la communauté scientifique depuis l'émergence de ChatGPT fin 2022. D'un côté, des chercheurs comme ceux associés à des projets de « conscience artificielle » estiment que les grands modèles de langage représentent les prémices d'une intelligence générale. De l'autre, une majorité de spécialistes y voient des systèmes statistiques sophistiqués qui prédisent des mots sans rien comprendre. Le problème central, que l'expérience des bit-goats expose avec humour, est que notre cerveau associe spontanément le langage fluide à la conscience : quand une machine s'exprime de manière convaincante, nous lui prêtons naturellement compréhension et réflexion. Adrian de Wynter ne tranche pas la question de savoir si les IA sont conscientes, mais démontre que les outils conceptuels dont on dispose pour y répondre sont, pour l'instant, largement insuffisants.

💬 Les "bit-goats" d'Age of Empires II posent la vraie question : si un perceptron construit avec des chèvres pixellisées d'un jeu de 1999 satisfait les mêmes critères logiques qu'un LLM, sur quoi se basent ceux qui affirment que les LLM "pensent" ? On n'a aucun critère mesurable pour définir la conscience artificielle, et ce travail le prouve avec plus de rigueur que la plupart des tribunes publiées depuis 3 ans. J'attends de voir si ça met fin aux grandes déclarations sur "l'IA qui ressent".

RecherchePaper

1 source

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

43

2MarkTechPost

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Des chercheurs de Tilde Research ont publié Aurora, un nouvel optimiseur pour l'entraînement de réseaux de neurones qui corrige un défaut structurel présent dans Muon, l'un des optimiseurs les plus adoptés par la communauté depuis 2024. Le problème découvert est frappant : dans les matrices de poids "tall", comme celles des couches MLP basées sur l'architecture SwiGLU, Muon tue silencieusement une fraction importante des neurones au fil de l'entraînement. Dès la 500e étape d'entraînement, plus d'un neurone sur quatre est effectivement mort et ne se réveille plus. Aurora propose une correction mathématique rigoureuse, accompagnée d'un benchmark validé sur un modèle de 1,1 milliard de paramètres, d'un nouveau record sur le classement modded-nanoGPT speedrun, et d'un code publié en accès libre. Ce bug discret a des conséquences concrètes sur la qualité des modèles entraînés avec Muon. Le mécanisme central de Muon repose sur le calcul d'un "facteur polaire" à partir du gradient, ce qui produit une mise à jour quasi-orthogonale des poids. Mais pour les matrices tall, il est mathématiquement impossible de rester orthogonal tout en maintenant des mises à jour uniformes entre les neurones : l'optimiseur finit par sur-mettre à jour certains neurones et en ignorer d'autres. Les neurones sous-alimentés reçoivent de moins en moins de signal, entrent dans une spirale de mort, et cessent de contribuer au calcul. Cette inactivité se propage aux couches suivantes, privant tout le réseau d'une partie de sa capacité de représentation, sans qu'aucun signal d'erreur ne l'indique clairement. Muon avait attiré l'attention de la communauté ML en surpassant AdamW en vitesse de convergence sur le benchmark nanoGPT speedrun, une compétition mesurant la rapidité d'entraînement d'un modèle de type GPT. Depuis, plusieurs groupes de recherche travaillant à l'échelle frontier l'ont adopté. Une variante intermédiaire, NorMuon, avait tenté d'améliorer Muon en normalisant les lignes du gradient, mais visait la mauvaise cible : elle imposait une norme de 1 à chaque ligne, alors que la valeur mathématiquement correcte pour une matrice tall est √(n/m). Tilde Research a d'abord formalisé cette correction sous le nom U-NorMuon, qui élimine complètement la mort neuronale à 340 millions de paramètres, avant de développer Aurora comme solution complète préservant à la fois l'uniformité des mises à jour et la précision du facteur polaire. La publication en code ouvert ouvre la voie à une adoption rapide dans les pipelines d'entraînement existants.

UELes équipes de recherche et labs ML français et européens entraînant des modèles avec Muon peuvent adopter Aurora directement pour éliminer la mort neuronale silencieuse et améliorer la qualité de leurs modèles.

RecherchePaper

1 source

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

42

3MarkTechPost

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper

1 source

44

4MarkTechPost

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Des chercheurs de Google Research ont publié un article présentant Vantage, un système d'évaluation basé sur des grands modèles de langage (LLM) conçu pour mesurer trois compétences humaines longtemps considérées comme impossibles à tester à grande échelle : la collaboration, la créativité et la pensée critique. L'étude, conduite auprès de 188 participants âgés de 18 à 25 ans recrutés via la plateforme Prolific, a généré 373 transcriptions de conversations entre humains et groupes d'agents IA. Chaque session durait 30 minutes et impliquait des tâches collaboratives structurées, comme la conception d'une expérience scientifique ou un débat argumenté. Les modèles utilisés sont Gemini 2.5 Pro pour les modules de collaboration et Gemini 3 pour la créativité et la pensée critique. L'apport technique central de Vantage est ce que les chercheurs appellent l'architecture "Executive LLM" : plutôt que de faire fonctionner un agent IA distinct pour chaque participant simulé, un seul LLM orchestre tous les personnages artificiels de la conversation. Ce modèle coordinateur a accès à la rubrique d'évaluation en temps réel et s'en sert activement pour piloter les échanges vers des situations révélatrices. Si la compétence ciblée est la résolution de conflits, l'Executive LLM peut faire exprimer un désaccord par l'un de ses personnages et le maintenir jusqu'à ce que le participant humain réagisse. Les tests ont montré que cette approche surpasse significativement une configuration où des agents indépendants interagissent sans coordination : sans pilotage, les conversations peuvent se dérouler sans jamais créer les conditions nécessaires à l'évaluation d'une compétence donnée. Les scores attribués automatiquement par le système ont atteint un niveau de fiabilité comparable à celui d'experts humains formés à la notation. Ce travail s'attaque à un problème de mesure vieux de plusieurs décennies. Les tests standardisés classiques, comme le PISA 2015 sur la résolution collaborative de problèmes, ont tenté de simuler le travail en groupe via des interfaces à choix multiples avec des coéquipiers scriptés, sacrifiant l'authenticité au profit du contrôle. Les évaluations humaines réelles font l'inverse, mais ne passent pas à l'échelle. Google positionne les LLM comme la première technologie capable de satisfaire simultanément ces deux exigences contradictoires : produire des interactions conversationnelles naturelles tout en maintenant des conditions reproductibles et comparables. Les implications dépassent largement le cadre académique : cette approche pourrait transformer les recrutements en entreprise, les certifications professionnelles ou les outils pédagogiques adaptatifs. Avec des entreprises comme Google, Microsoft et OpenAI qui investissent massivement dans les agents conversationnels, Vantage illustre une nouvelle frontière où les LLM ne servent plus seulement à produire du texte, mais à modéliser et évaluer le comportement humain lui-même.

UECe système d'évaluation automatisée pourrait influencer les pratiques de recrutement et les certifications professionnelles en Europe, ainsi que les outils pédagogiques utilisés dans les systèmes éducatifs européens.

RecherchePaper

1 source

Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA

À lire aussi

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

Tilde Research présente Aurora, un optimiseur qui corrige la mort neuronale cachée dans Muon

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique