Aller au contenu principal
RechercheMicrosoft Research22min

L'IA comme prolongement de l'intelligence humaine

Résumé IASource uniqueImpact UE
Source originale ↗·

Une nouvelle approche théorique publiée dans le cadre d'une collaboration interdisciplinaire propose de revoir fondamentalement la façon dont on comprend les systèmes d'intelligence artificielle. Intitulée "The Origins of Artificial Intelligence in Natural Intelligence", cette recherche soutient que les grands modèles de langage ne sont ni des esprits humains en devenir, ni de simples outils statistiques sophistiqués, mais des extensions des structures cognitives propres à l'être humain. S'appuyant sur la phénoménologie du philosophe Edmund Husserl, les auteurs avancent que le langage humain contient déjà des structures sédimentées de compréhension du monde, et que les modèles d'IA apprennent précisément à modéliser et prolonger ces structures. Ce cadre théorique rejoint des travaux récents comme "The Blind Spot" d'Adam Frank, Marcelo Gleiser et Evan Thompson, ou encore "The Abstraction Fallacy" du chercheur de DeepMind Alexander Lerchner, qui posent tous la même question de fond : et si l'IA fonctionnait parce qu'elle s'appuie sur ce que les humains ont déjà construit ?

Cette perspective permet d'expliquer à la fois les performances remarquables des modèles actuels et leurs limites récurrentes. Les LLM peuvent produire des textes cohérents dans des domaines très variés parce qu'ils ont appris les relations statistiques entre concepts à travers des milliards de textes humains. Mais ils hallucinent parce qu'ils étendent des patterns à l'intérieur du langage, sans être ancrés dans un rapport direct au monde. Là où un humain est constamment corrigé par l'expérience, un modèle prolonge des configurations linguistiques sans pouvoir vérifier leur rapport à la réalité. Cela explique aussi le "compositionality gap" documenté par la recherche : les modèles progressent beaucoup plus vite en fluidité et en rappel factuel qu'en raisonnement compositionnel véritable, c'est-à-dire la capacité à combiner des concepts de façon réellement nouvelle. Ce n'est pas simplement une limite d'ingénierie, disent les auteurs, mais une frontière structurelle.

Sur le plan des implications, cette théorie déplace le débat sur la sécurité de l'IA : plutôt que de s'inquiéter d'une "IA renégate" qui surpasserait l'intelligence humaine, elle invite à traiter la sécurité comme un défi de système, relevant à la fois de l'ingénierie et de la gouvernance. Concevoir l'IA comme une extension de l'intelligence humaine, et non comme son remplacement, offre un cadre plus opérationnel pour construire des systèmes fiables. Dans un contexte où les investissements dans les LLM atteignent des niveaux records et où les débats sur l'alignement et les risques existentiels monopolisent l'attention, cette approche phénoménologique propose une voie plus sobre : comprendre ce que l'IA est vraiment avant de décider ce qu'elle pourrait devenir.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper
1 source
Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles
2The Decoder 

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Trois figures majeures de l'intelligence artificielle ont exprimé des visions radicalement divergentes sur l'état actuel de la technologie. Yann LeCun, directeur de la recherche en IA chez Meta, affirme que les systèmes actuels ne sont pas véritablement intelligents. Demis Hassabis, PDG de Google DeepMind, pense au contraire que l'humanité se trouve déjà "dans les contreforts de la singularité". Oriol Vinyals, co-responsable du projet Gemini chez Google DeepMind, propose une lecture intermédiaire : les modèles d'aujourd'hui auraient semblé être une AGI il y a sept ans, mais ils demeurent incapables d'apprendre par l'expérience ou de produire de réelles percées scientifiques. Ce désaccord entre chercheurs de premier plan révèle une fracture profonde sur la trajectoire réelle de l'IA. La question n'est pas anodine : selon que l'on adopte la vision de LeCun ou celle de Hassabis, les priorités de recherche, les stratégies d'investissement et les cadres réglementaires changent radicalement. Des milliards de dollars et la crédibilité des grands laboratoires, OpenAI, Anthropic, Google DeepMind, Meta AI, sont directement en jeu. Ce débat s'inscrit dans une réflexion plus large sur ce que signifie réellement l'intelligence artificielle générale. LeCun critique depuis longtemps les grandes architectures de type transformeur, jugées insuffisantes pour atteindre une compréhension réelle du monde. Hassabis, lui, a prédit que l'AGI pourrait émerger d'ici quelques années. La position nuancée de Vinyals suggère que si les progrès sont indéniables, les verrous fondamentaux, notamment l'adaptation continue et la découverte autonome, demeurent entiers.

UELe débat sur la trajectoire réelle de l'IA influence indirectement le calibrage réglementaire européen, notamment les seuils de risque et les obligations de transparence prévus par l'AI Act.

💬 LeCun et Hassabis se contredisent frontalement, et c'est en fait le signal le plus intéressant de cette actu. Quand les deux personnes qui orientent des milliards de dollars de recherche n'arrivent pas à se mettre d'accord sur l'état actuel de l'IA, tous les cadres réglementaires qui essaient de calibrer des "niveaux de risque" reposent sur du vent. La position de Vinyals, nos modèles auraient bluffé tout le monde en 2019 mais les vrais verrous restent entiers, c'est la seule qui ressemble à quelque chose de solide.

RechercheOpinion
1 source
3VentureBeat AI 

De l'entraînement à l'inférence : comment optimiser votre budget de calcul IA de bout en bout

Des chercheurs des universités du Wisconsin-Madison et de Stanford ont publié un cadre théorique appelé Train-to-Test (T²) scaling laws, qui remet en question les règles d'entraînement des grands modèles de langage en vigueur depuis des années. Leur approche démontre qu'il est plus efficace, sur le plan computationnel, d'entraîner des modèles nettement plus petits sur des volumes de données bien plus importants que ce que préconisent les standards actuels, puis d'utiliser les ressources ainsi économisées pour générer plusieurs échantillons de raisonnement au moment de l'inférence. La règle Chinchilla, référence dominante du secteur depuis 2022, recommande environ 20 tokens d'entraînement par paramètre de modèle. Les concepteurs de familles comme Llama, Gemma ou Qwen s'en écartent déjà délibérément en surinformant leurs modèles compacts, mais sans cadre rigoureux pour calibrer ce surplus. Le framework T² comble précisément ce vide en traitant comme une équation unifiée trois variables jusqu'ici étudiées séparément : la taille du modèle (N), le volume de tokens d'entraînement (D) et le nombre d'échantillons générés à l'inférence (k). L'impact concret est significatif pour les entreprises qui développent leurs propres modèles ou déploient des workflows agentiques complexes. Comme l'explique Nicholas Roberts, co-auteur de l'article, la pile d'inférence se grippe lorsque chaque appel individuel est coûteux, ce qui arrive systématiquement avec de grands modèles nécessitant un échantillonnage répété. Avec des modèles plus compacts mais surinformés, ce même échantillonnage multiple devient accessible à une fraction du coût. Pour les développeurs d'applications d'IA en entreprise, cela signifie qu'il n'est pas nécessaire de s'appuyer sur des modèles frontières onéreux pour obtenir des performances élevées sur des tâches complexes : des modèles plus petits, correctement entraînés et utilisés avec des stratégies d'inférence adaptées, peuvent surpasser des modèles bien plus larges tout en maintenant des coûts par requête maîtrisables. Ce travail s'inscrit dans une tension croissante entre deux écoles de pensée dans la recherche sur les LLM : celle qui mise sur l'augmentation continue de la taille des modèles à l'entraînement, et celle qui explore le potentiel du calcul au moment de l'inférence. Les lois d'échelle de préentraînement et de test-time scaling avaient jusqu'ici été développées en silo, malgré leur interdépendance fondamentale : la taille et la durée d'entraînement d'un modèle déterminent directement la qualité et le coût de chacun de ses échantillons d'inférence. Le framework T² introduit une passerelle mathématique entre ces deux domaines, notamment en reliant la métrique de perte continue utilisée à l'entraînement aux métriques de performance réelles utilisées au déploiement, comme le pass@k. Les suites probables incluent une adoption progressive par les équipes qui construisent des agents autonomes multi-étapes, pour lesquels le coût d'inférence est souvent le principal facteur limitant.

RecherchePaper
1 source
NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement
4NVIDIA AI Blog 

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour