RechercheLe Big Data2h· 2 min de lecture

L’IA est-elle consciente ? La réponse insolite d’un chercheur de Microsoft

Adrian de Wynter, chercheur chez Microsoft, a publié un article scientifique au titre volontairement provocateur : « Si les LLM possèdent des attributs humains, alors Age of Empires II aussi ». Pour étayer sa thèse, il n'a pas eu recours à des serveurs de calcul ni à des GPU dernier cri, mais aux chèvres virtuelles du célèbre jeu de stratégie sorti en 1999. En utilisant l'éditeur de scénarios intégré au jeu, il a réussi à transformer ces animaux numériques en composants logiques fonctionnels, reproduisant des portes élémentaires comme NAND, XNOR et AND, les briques de base de tout système informatique. Ces mécanismes lui ont ensuite permis de construire un perceptron, la forme la plus simple de réseau de neurones artificiels. De Wynter surnomme affectueusement ses créatures les « bit-goats », contraction de « bit » et « goat ».

La démonstration n'est pas un simple tour de passe-passe : elle pointe une faille fondamentale dans les débats actuels sur la conscience des IA. Personne ne dispose aujourd'hui d'une méthode universellement reconnue pour mesurer ou prouver l'existence d'une conscience chez un système artificiel. Les affirmations en ce sens reposent donc sur des intuitions, des métaphores et des analogies difficiles à vérifier scientifiquement. En montrant que les mêmes mécanismes logiques qui sous-tendent les LLM modernes peuvent être reproduits dans un jeu vidéo avec des chèvres pixellisées, de Wynter illustre que le substrat, c'est-à-dire le support physique ou logiciel sur lequel tourne un système, ne suffit pas à lui conférer des propriétés particulières. Ce n'est pas parce qu'un modèle tourne sur une infrastructure sophistiquée qu'il pense, et ce n'est pas parce qu'un système repose sur quelque chose d'improbable qu'il en est incapable.

Ce travail s'inscrit dans un débat qui divise la communauté scientifique depuis l'émergence de ChatGPT fin 2022. D'un côté, des chercheurs comme ceux associés à des projets de « conscience artificielle » estiment que les grands modèles de langage représentent les prémices d'une intelligence générale. De l'autre, une majorité de spécialistes y voient des systèmes statistiques sophistiqués qui prédisent des mots sans rien comprendre. Le problème central, que l'expérience des bit-goats expose avec humour, est que notre cerveau associe spontanément le langage fluide à la conscience : quand une machine s'exprime de manière convaincante, nous lui prêtons naturellement compréhension et réflexion. Adrian de Wynter ne tranche pas la question de savoir si les IA sont conscientes, mais démontre que les outils conceptuels dont on dispose pour y répondre sont, pour l'instant, largement insuffisants.

Dans nos dossiers

Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA

Un chercheur de Microsoft a construit un réseau de neurones fonctionnel dans l'éditeur de cartes d'Age of Empires II, en utilisant des chèvres, des ponts et des rampes de glace. Le système reproduit fidèlement les opérations mathématiques d'un réseau de neurones artificiel classique, avec des unités logiques remplacées par des animaux qui se déplacent selon des règles précises. Ce qui ressemble à une expérience absurde est en réalité une démonstration délibérément provocatrice. L'objectif est de mettre en lumière un biais méthodologique profond dans la recherche sur l'IA. En analysant 315 articles scientifiques, le chercheur a constaté que plus de la moitié d'entre eux présupposaient des traits humains chez les modèles de langage avant même que l'expérience ne commence. Or, si l'on remplace une interface de chat par des chèvres errantes, les mathématiques sous-jacentes ne changent pas, mais l'impression de dialoguer avec une entité consciente disparaît immédiatement. C'est précisément ce sentiment, et non les données, qui influence les conclusions de nombreuses études. Cette démonstration s'inscrit dans un débat scientifique plus large sur l'anthropomorphisation des systèmes d'IA. Depuis l'émergence des grands modèles de langage comme GPT-4 ou Gemini, une partie de la communauté académique tend à projeter des capacités cognitives humaines sur des systèmes qui ne font qu'optimiser des probabilités statistiques. En montrant qu'un troupeau de chèvres peut réaliser les mêmes calculs qu'un réseau neuronal, le chercheur pousse ses pairs à interroger leurs cadres d'interprétation avant de publier des conclusions sur la "compréhension" ou la "conscience" des modèles.

RecherchePaper

1 source

2MarkTechPost

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper

1 source

3The Information AI

Le cofondateur milliardaire de Databricks et Perplexity incite les chercheurs en IA à éviter les géants de la tech

Andy Konwinski, co-fondateur milliardaire de Databricks et de Perplexity AI, mène depuis plusieurs mois une campagne active pour convaincre les chercheurs en intelligence artificielle de ne pas rejoindre les grandes entreprises technologiques. Il a exposé sa vision lors de la conférence AI de l'Association for Computing Machinery à San Jose, plaidant pour que les académiques continuent à publier leurs travaux en accès libre plutôt que de rejoindre des laboratoires privés qui gardent leurs avancées secrètes. Son appel intervient dans un contexte de fermeture croissante de l'écosystème de recherche en IA. Un rapport de Stanford publié en 2026 a documenté qu'OpenAI, Anthropic et Google ne divulguent désormais plus les détails sur les logiciels utilisés pour entraîner leurs modèles, la puissance de calcul mobilisée, ni la taille de leurs jeux de données, des informations pourtant essentielles pour que d'autres chercheurs puissent reproduire et améliorer ces résultats. Cette opacité croissante prive la communauté scientifique mondiale des briques de connaissance nécessaires pour progresser collectivement. Pour Konwinski, l'enjeu dépasse la simple compétition industrielle : "Il existe de nombreuses raisons, fondamentales, sociétales, pour défendre la démocratie, qui font que la recherche ouverte doit survivre." Ce débat s'inscrit dans une tension structurelle entre academia et industrie qui s'est considérablement accentuée avec la montée en puissance des grands modèles de langage. Le tournant illustratif reste le célèbre article de recherche publié par Google en 2017, le papier "Attention Is All You Need" sur l'architecture Transformer, qui est devenu la base de pratiquement tous les modèles et chatbots d'IA modernes. Ce travail, rendu public à l'époque, a permis à l'ensemble de l'industrie d'avancer. La question qui se pose aujourd'hui est de savoir si un tel partage serait encore possible dans un environnement où la recherche est devenue un avantage concurrentiel jalousement protégé.

UELa fermeture progressive de la recherche IA par OpenAI, Anthropic et Google fragilise les exigences de transparence et d'auditabilité portées par l'AI Act européen.

RecherchePaper

1 source

4Le Big Data

GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic

OpenAI a présenté le 16 avril 2026 GPT-Rosalind, un modèle d'intelligence artificielle de nouvelle génération conçu spécifiquement pour la recherche en biologie, la découverte de médicaments et la médecine translationnelle. Baptisé en hommage à la chimiste Rosalind Franklin, ce modèle est accessible en version test via ChatGPT, Codex et l'API d'OpenAI, mais uniquement pour un cercle restreint d'organisations américaines sélectionnées. Ses capacités couvrent la génomique, l'ingénierie des protéines et la chimie moléculaire : il croise des données complexes, formule des hypothèses biologiques et conçoit des protocoles expérimentaux complets. Sur BixBench, référence sectorielle en bioinformatique, il se classe premier parmi tous les modèles ayant publié leurs résultats. Sur LABBench2, il surpasse GPT-5.4 sur six tâches sur onze, avec une performance particulièrement nette sur CloningQA, un exercice de conception de réactifs pour protocoles de clonage moléculaire. En collaboration avec Dyno Therapeutics, le modèle a été testé sur des séquences d'ARN inédites : ses propositions ont dépassé 95 % des experts humains en prédiction de protéines, et atteint le 84e percentile pour la génération de séquences. Pour la recherche biomédicale, l'enjeu est considérable. Des tâches qui mobilisaient des équipes entières pendant des années peuvent désormais être accélérées par un modèle capable de raisonner sur des structures biologiques complexes. La gratuité pendant la phase de test lève la barrière financière pour les laboratoires, leur permettant d'expérimenter sans contrainte de budget. Si les performances observées se confirment en conditions réelles, GPT-Rosalind pourrait compresser significativement les cycles de développement de médicaments, dont les délais se comptent actuellement en décennies et les coûts en milliards de dollars. OpenAI a choisi une stratégie d'accès délibérément restrictive, justifiée par la sensibilité des domaines concernés. Les organisations candidates subissent une vérification approfondie : leurs travaux doivent présenter un impact collectif identifiable et positif. Les bénéficiaires acceptent des conditions d'usage strictes et s'engagent à mettre en place des mécanismes contre les détournements. Cette prudence n'est pas anodine : un modèle capable de manipuler des concepts biologiques avancés, comme la conception de protéines ou la modification de séquences génétiques, soulève des questions de biosécurité que la communauté scientifique et les régulateurs scrutent de près. Le lancement de GPT-Rosalind s'inscrit dans une course plus large entre OpenAI, Google DeepMind et des acteurs spécialisés comme Insilico Medicine pour dominer l'IA appliquée aux sciences de la vie, un marché estimé à plusieurs centaines de milliards de dollars d'ici 2030.

UELes laboratoires et chercheurs européens sont exclus de l'accès à GPT-Rosalind, réservé à un cercle restreint d'organisations américaines, creusant l'écart avec les acteurs américains dans la course à l'IA biomédicale.

RechercheOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic