Aller au contenu principal
États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet
RechercheMarkTechPost6sem

États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs en physique computationnelle explorent une approche inédite pour simuler les systèmes quantiques frustrés : l'utilisation d'architectures Transformer, les mêmes qui propulsent les grands modèles de langage, comme ansatz variationnel pour représenter des fonctions d'onde quantiques. Concrètement, l'implémentation s'appuie sur NetKet et JAX pour résoudre la chaîne de spins de Heisenberg J1-J2, un système dit "frustré" où les interactions magnétiques concurrentes entre premiers voisins (J1) et seconds voisins (J2) génèrent des corrélations quantiques extraordinairement complexes. Le modèle Transformer utilisé comporte 6 couches d'attention, 4 têtes d'attention et une dimension cachée de 96, entraîné par Monte Carlo variationnel (VMC) avec reconfiguration stochastique, un analogue du gradient naturel adapté à l'optimisation de fonctions d'onde.

L'enjeu est fondamental pour la physique de la matière condensée. Les méthodes classiques d'exacte diagonalisation atteignent rapidement leurs limites face à la croissance exponentielle de l'espace de Hilbert : un système de N spins 1/2 requiert 2^N états de base. Les États Quantiques Neuronaux (NQS) introduits par cette approche permettent de représenter des fonctions d'onde hautement expressives en paramétrant leur amplitude complexe log-Ψ via un réseau de neurones, contournant cette explosion combinatoire. Les Transformers sont particulièrement adaptés : leur mécanisme d'attention globale capture naturellement les corrélations à longue portée entre spins, là où les réseaux convolutifs classiques peinent à dépasser quelques voisins. Les résultats sont benchmarkés contre la diagonalisation exacte de Lanczos, permettant de quantifier la précision de l'approximation variationnelle.

Cette convergence entre apprentissage profond et physique quantique s'inscrit dans un mouvement plus large amorcé en 2017 avec les travaux pionniers de Carleo et Troyer, qui ont démontré pour la première fois qu'un réseau de neurones pouvait rivaliser avec les meilleures méthodes numériques en physique quantique. Depuis, les architectures se sont sophistiquées : réseaux récurrents, machines de Boltzmann restreintes, et désormais Transformers. L'écosystème logiciel autour de NetKet, développé principalement par des groupes européens, et de JAX/Flax de Google DeepMind, démocratise ces techniques auparavant réservées à quelques laboratoires spécialisés. Les perspectives sont considérables : simuler des matériaux quantiques réels comme les supraconducteurs à haute température ou les isolants topologiques, là où les méthodes traditionnelles restent bloquées par la "malédiction de la dimensionnalité".

Impact France/UE

L'écosystème NetKet, développé principalement par des groupes européens, renforce la compétitivité de la recherche quantique européenne dans la simulation de matériaux complexes comme les supraconducteurs à haute température.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Latent Space 

Entraîner des Transformers pour résoudre le taux d'échec de 95 % des essais cliniques contre le cancer : Ron Alfa et Daniel Bear, Noetik

La startup Noetik, cofondée par Ron Alfa et Daniel Bear, vient de signer un accord de 50 millions de dollars avec le géant pharmaceutique GSK pour sa technologie d'intelligence artificielle appliquée à l'oncologie. Au cœur de cet accord se trouve TARIO-2, un transformer autorégressif entraîné sur l'un des plus grands ensembles de données de transcriptomique spatiale tumorale au monde. Ce modèle est capable de prédire une carte génomique d'environ 19 000 gènes à partir d'une simple biopsie H&E colorée, l'examen histologique standard que reçoit déjà chaque patient atteint de cancer. L'accord avec GSK comprend également un contrat de licence à long terme aux termes non divulgués, ce qui représente un engagement envers la plateforme logicielle de Noetik plutôt que vers un médicament spécifique, un modèle rare dans le secteur biotech. Le problème que Noetik tente de résoudre est brutal : 95 % des traitements contre le cancer échouent lors des essais cliniques, engloutissant entre 20 et 30 milliards de dollars par an en dépenses mondiales de recherche. L'hypothèse centrale de Ron Alfa est que beaucoup de ces traitements fonctionnent réellement, mais qu'ils sont testés sur les mauvais patients. Le cancer n'est pas une seule maladie mais potentiellement des milliers de pathologies distinctes, chacune avec sa propre biologie tumorale. Si l'on pouvait identifier avec précision quels patients portent quelles tumeurs et lesquelles répondront à quels traitements, les taux de succès pourraient augmenter radicalement, avec des thérapies qui existent déjà, comme les inhibiteurs de points de contrôle immunitaires Keytruda et Opdivo, les thérapies CAR-T ou les conjugués anticorps-médicament comme le Trastuzumab. La transcriptomique spatiale complète est la méthode la plus précise pour lire une tumeur, mais elle est quasiment inexistante en soins standards : TARIO-2 permet désormais d'en simuler les résultats à partir d'examens déjà réalisés. Noetik a passé près de deux ans à constituer une base de données massive, acquérant des milliers de tumeurs humaines réelles avec des ensembles de données multimodaux. Cette approche tranche avec la majorité des initiatives IA en biotechnologie, qui se concentrent sur la découverte de nouvelles molécules et finissent généralement par transformer les éditeurs d'outils en laboratoires pharmaceutiques. L'accord GSK, lui, est un contrat de licence logicielle pur, signalant un changement de posture de la part des grands groupes pharma, de plus en plus prêts à payer pour des plateformes d'analyse plutôt que pour des candidats médicaments. Dans un contexte où des acteurs comme Boltz ou Isomorphic Labs gagnent également en visibilité, l'appétit de l'industrie pour les outils IA en développement thérapeutique semble enfin atteindre un point de bascule.

UELe groupe pharmaceutique britannique GSK, acteur majeur en Europe, adopte une plateforme IA pour affiner la sélection des patients en oncologie, ce qui pourrait accélérer et améliorer les essais cliniques menés sur le continent.

💬 95 % d'échec en essais cliniques, pas parce que les traitements sont nuls, mais parce qu'on les teste sur les mauvais patients, c'est le genre de problème qu'on sait depuis longtemps et qu'on fait semblant de ne pas voir. Ce qui m'intéresse chez Noetik, c'est que le deal avec GSK est un contrat de licence logicielle, pas un rachat de molécule : les pharmas commencent vraiment à payer pour des outils d'analyse, c'est un vrai signal. Reste à voir si ça tient à l'échelle des essais multi-sites, mais sur le papier, c'est l'une des applications IA en bio les plus solides que j'ai vues depuis un moment.

RecherchePaper
1 source
Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
2MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
3MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source
GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot
4arXiv cs.RO 

GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot

Des chercheurs ont publié sur arXiv (référence 2604.25670) un système d'apprentissage automatique capable de reconstituer l'activité musculaire d'un individu à partir de simples capteurs de mouvement portables, sans recourir aux électrodes d'électromyographie traditionnelles. L'architecture proposée, baptisée GEGLU-Transformer, combine un encodeur de type Transformer avec des unités linéaires à porte d'erreur gaussienne (GEGLU) pour estimer en continu les enveloppes d'activation neuromusculaire des membres inférieurs. Testée selon un protocole strict dit "leave-one-subject-out" sur un jeu de données biomécanique multi-conditions, elle atteint une corrélation r = 0,706 sans aucune adaptation individuelle, puis r = 0,761 avec seulement 0,5 % des données spécifiques au sujet utilisées pour la personnalisation, soit une amélioration significative à partir d'un volume d'entraînement négligeable. Ces résultats ouvrent une voie concrète pour déployer des exosquelettes et des prothèses robotiques en dehors des laboratoires. L'électromyographie de surface, qui mesure l'activité électrique des muscles via des électrodes cutanées, est aujourd'hui indispensable au contrôle adaptatif de ces dispositifs, mais elle reste fragile : les signaux varient selon la transpiration, le placement des électrodes ou les caractéristiques physiologiques propres à chaque utilisateur. Remplacer ces capteurs par des centrales inertielles, accéléromètres et gyroscopes déjà intégrés dans la plupart des appareils portables grand public, permettrait de rendre ces systèmes nettement plus robustes, moins contraignants à calibrer et potentiellement accessibles à une population bien plus large de patients ou d'utilisateurs industriels. Le problème de la variabilité inter-individuelle est l'un des grands obstacles non résolus de la robotique neuromusculaire depuis plusieurs années. Les approches classiques nécessitaient des sessions de calibration longues et répétées pour chaque nouvel utilisateur, ce qui rendait leur usage clinique difficile à grande échelle. L'introduction d'architectures à base d'attention, popularisées par les grands modèles de langage, dans le domaine biomécanique reflète une tendance plus large à recycler des paradigmes issus du traitement du langage naturel vers des signaux physiologiques temporels. La capacité du modèle à se personnaliser rapidement avec très peu de données ouvre la perspective de dispositifs qui s'adaptent à leur porteur en quelques secondes, sans intervention d'un clinicien.

UELes fabricants européens d'exosquelettes et de prothèses pourraient bénéficier de cette approche pour réduire les contraintes de calibration clinique et élargir l'accès aux dispositifs d'assistance motrice.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour