Aller au contenu principal
Comprendre les réseaux neuronaux à travers des circuits sparse
RechercheOpenAI Blog31sem· 1 min de lecture

Comprendre les réseaux neuronaux à travers des circuits sparse

Source originale ↗·

OpenAI étudie l'interprétabilité mécanistique pour comprendre comment les réseaux neuronaux raisonnent. Une nouvelle approche basée sur des circuits épars pourrait rendre les systèmes d'IA plus transparents et favoriser un comportement plus sûr et fiable.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?
1MIT Technology Review 

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?

Le 21 mai 2026, MIT Technology Review a réuni trois de ses journalistes spécialisés, le rédacteur en chef Mat Honan, le senior editor IA Will Douglas Heaven et la reporter Grace Huckins, pour une table ronde enregistrée consacrée à une question centrale du moment : les IA peuvent-elles apprendre à véritablement comprendre le monde physique ? La discussion s'inscrit dans un mouvement de fond où les grands laboratoires misent sur les "world models", des systèmes capables de se représenter l'environnement réel plutôt que de simplement traiter du texte. L'enjeu est de taille : les grands modèles de langage (LLM) actuels montrent des limites structurelles dès qu'il s'agit d'interagir avec le monde physique, de planifier des actions ou d'anticiper les conséquences de décisions dans des environnements dynamiques. Les world models visent à combler ce fossé, en permettant à des robots, véhicules autonomes ou agents IA d'opérer avec une compréhension spatiale et causale du réel, une capacité que les LLM seuls ne possèdent pas. Le sujet mobilise des figures majeures de la recherche en IA, à commencer par Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une architecture alternative aux transformers pour atteindre cette intelligence "du monde réel". Des applications concrètes émergent déjà, comme l'utilisation des données de Pokémon Go pour offrir aux robots livreurs une cartographie centimètre par centimètre de l'environnement urbain. Le débat sur les world models est désormais au coeur des stratégies des grands acteurs de l'industrie.

UELe chercheur français Yann LeCun est l'une des figures centrales du débat sur les world models, un paradigme qui intéresse les laboratoires européens travaillant sur la robotique et les agents autonomes.

RecherchePaper
1 source
LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte
2Apple Machine Learning 

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

Une étude présentée au workshop "Memory for LLM-Based Agentic Systems" de la conférence ICLR 2025 s'attaque à une question fondamentale pour les petits modèles de langage (SLM) : que doivent-ils apprendre lors du préentraînement, et que doivent-ils déléguer à des sources externes ? Les chercheurs ont développé LaCy, un cadre théorique et expérimental qui questionne la fonction de perte standard utilisée pour entraîner ces modèles, en montrant qu'optimiser uniquement la vraisemblance des données n'est pas suffisant pour des SLM efficaces et fiables. Le problème est structurel : contrairement aux grands modèles comme GPT-4 ou Llama 3, les SLM disposent d'une capacité paramétrique limitée, ce qui les contraint à faire des choix sur les connaissances à mémoriser. Sans mécanisme adapté, ils génèrent des faits incorrects plutôt que d'admettre leur ignorance et de consulter une base de données ou un modèle plus puissant. LaCy propose de reformuler ce que le modèle "devrait" apprendre en tenant compte explicitement de la disponibilité de sources externes, comme des documents récupérés par RAG ou des API spécialisées. Ce travail s'inscrit dans la tendance croissante à déployer des agents IA embarqués sur des appareils à faible puissance, où les gros modèles ne peuvent pas tourner localement. Alors que des entreprises comme Google, Apple ou Mistral misent sur des SLM pour l'edge computing et les assistants embarqués, la question de la frontière entre mémoire paramétrique et mémoire externe devient stratégique. LaCy ouvre la voie à des entraînements plus ciblés, où le modèle apprend à savoir ce qu'il ne sait pas.

UEMistral, entreprise française en pointe sur les petits modèles pour l'edge computing, est directement concernée par les conclusions de LaCy sur l'optimisation de l'entraînement des SLM.

RecherchePaper
1 source
États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet
3MarkTechPost 

États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet

Des chercheurs en physique computationnelle explorent une approche inédite pour simuler les systèmes quantiques frustrés : l'utilisation d'architectures Transformer, les mêmes qui propulsent les grands modèles de langage, comme ansatz variationnel pour représenter des fonctions d'onde quantiques. Concrètement, l'implémentation s'appuie sur NetKet et JAX pour résoudre la chaîne de spins de Heisenberg J1-J2, un système dit "frustré" où les interactions magnétiques concurrentes entre premiers voisins (J1) et seconds voisins (J2) génèrent des corrélations quantiques extraordinairement complexes. Le modèle Transformer utilisé comporte 6 couches d'attention, 4 têtes d'attention et une dimension cachée de 96, entraîné par Monte Carlo variationnel (VMC) avec reconfiguration stochastique, un analogue du gradient naturel adapté à l'optimisation de fonctions d'onde. L'enjeu est fondamental pour la physique de la matière condensée. Les méthodes classiques d'exacte diagonalisation atteignent rapidement leurs limites face à la croissance exponentielle de l'espace de Hilbert : un système de N spins 1/2 requiert 2^N états de base. Les États Quantiques Neuronaux (NQS) introduits par cette approche permettent de représenter des fonctions d'onde hautement expressives en paramétrant leur amplitude complexe log-Ψ via un réseau de neurones, contournant cette explosion combinatoire. Les Transformers sont particulièrement adaptés : leur mécanisme d'attention globale capture naturellement les corrélations à longue portée entre spins, là où les réseaux convolutifs classiques peinent à dépasser quelques voisins. Les résultats sont benchmarkés contre la diagonalisation exacte de Lanczos, permettant de quantifier la précision de l'approximation variationnelle. Cette convergence entre apprentissage profond et physique quantique s'inscrit dans un mouvement plus large amorcé en 2017 avec les travaux pionniers de Carleo et Troyer, qui ont démontré pour la première fois qu'un réseau de neurones pouvait rivaliser avec les meilleures méthodes numériques en physique quantique. Depuis, les architectures se sont sophistiquées : réseaux récurrents, machines de Boltzmann restreintes, et désormais Transformers. L'écosystème logiciel autour de NetKet, développé principalement par des groupes européens, et de JAX/Flax de Google DeepMind, démocratise ces techniques auparavant réservées à quelques laboratoires spécialisés. Les perspectives sont considérables : simuler des matériaux quantiques réels comme les supraconducteurs à haute température ou les isolants topologiques, là où les méthodes traditionnelles restent bloquées par la "malédiction de la dimensionnalité".

UEL'écosystème NetKet, développé principalement par des groupes européens, renforce la compétitivité de la recherche quantique européenne dans la simulation de matériaux complexes comme les supraconducteurs à haute température.

RecherchePaper
1 source
4InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic