Aller au contenu principal

Recherche — page 8

671 articles · page 8 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points
351arXiv cs.RO RechercheActu

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points

Des chercheurs ont publié sur arXiv une nouvelle méthode de détection de fermeture de boucle pour les robots mobiles autonomes équipés de capteurs LiDAR, sous le nom de code MapClosures. Le système résout un problème fondamental de la cartographie robotique : lorsqu'un robot repasse par un endroit déjà visité, il doit reconnaître ce lieu et corriger l'accumulation d'erreurs de positionnement, un phénomène appelé dérive globale. La pipeline présentée génère des cartes locales à partir des nuages de points LiDAR, les aligne avec un module dédié à la gestion du terrain, puis produit des projections à vue aérienne en préservant la densité des points. Des descripteurs de caractéristiques ORB sont extraits de ces projections et stockés dans un arbre de recherche binaire pour accélérer les requêtes. Un mécanisme d'élagage par auto-similarité permet d'éviter les faux positifs dans les environnements répétitifs, comme des couloirs ou des rangées d'arbres. Le code source est disponible en open source sur GitHub, dans le dépôt PRBonn/MapClosures. L'impact de cette approche est particulièrement significatif pour les applications de robotique en extérieur, livraison autonome, inspection industrielle, véhicules tout-terrain, où la précision cartographique sur de longues distances est critique. Contrairement à de nombreuses solutions existantes qui dépendent d'un type précis de capteur ou d'un profil de mouvement spécifique, MapClosures fonctionne avec des LiDAR aux résolutions, champs de vision et patterns de scan très différents. Cela réduit considérablement les coûts d'intégration pour les équipes qui changent de matériel ou déploient plusieurs types de robots sur un même système. Le SLAM (Simultaneous Localization and Mapping) est un défi ouvert depuis plusieurs décennies en robotique, et la fermeture de boucle en est l'un des maillons les plus fragiles, surtout en environnements non structurés. Les travaux proviennent du laboratoire PRBonn, associé à l'Université de Bonn, acteur reconnu dans la recherche en perception robotique. En rendant la méthode agnostique au capteur et en publiant le code librement, les auteurs visent une adoption large dans la communauté académique et industrielle. Les prochaines étapes pourraient inclure l'intégration avec des systèmes de fusion multi-capteurs et des tests à plus grande échelle dans des environnements dynamiques urbains.

UEIssu du laboratoire PRBonn de l'Université de Bonn (Allemagne), ce travail open source renforce la compétitivité européenne en robotique mobile et peut bénéficier directement aux équipes françaises et européennes développant des robots autonomes ou des véhicules LiDAR.

1 source
De la scène à l'objet : prédiction du double regard guidée par le texte
352arXiv cs.RO 

De la scène à l'objet : prédiction du double regard guidée par le texte

Des chercheurs ont présenté DualGaze-VLM, un nouveau cadre d'apprentissage automatique conçu pour prédire avec précision où un conducteur dirige son regard, non plus à l'échelle de la scène globale, mais objet par objet. Pour entraîner ce système, l'équipe a constitué G-W3DA, un jeu de données inédit qui décompose les traditionnelles cartes de chaleur macroscopiques en masques d'objets distincts, grâce à la combinaison d'un grand modèle de langage multimodal et de SAM3 (Segment Anything Model 3). Soumis au benchmark W3DA, DualGaze-VLM dépasse les meilleurs modèles existants sur les métriques d'alignement spatial, avec jusqu'à 17,8 % de gain en similarité (SIM) dans les situations critiques pour la sécurité. Un test de Turing visuel complémentaire révèle que 88,22 % des évaluateurs humains ont jugé les cartes d'attention générées indiscernables de celles produites par de vrais conducteurs. Cette avancée s'attaque à un verrou fondamental de la conduite autonome : pour qu'un véhicule prenne des décisions humainement compréhensibles, il ne suffit pas de détecter des objets, il faut modéliser l'intention cognitive du conducteur. Savoir que le système "regarde" un piéton précis plutôt qu'une zone floue de la chaussée permet de justifier une décision de freinage ou d'évitement de façon auditable. C'est un enjeu direct pour la sécurité, la certification réglementaire et la confiance des passagers dans les systèmes autonomes de niveau 3 et au-delà. Le problème central que résout cet article est celui du "découplage texte-vision" : les modèles vision-langage existants peinent à ancrer leur raisonnement sémantique sur des zones spatiales précises lorsque les données d'entraînement ne fournissent que des annotations globales. L'architecture DualGaze-VLM contourne cela via un module SE-Gate conditionné par les requêtes sémantiques, qui module dynamiquement les features visuelles. Cette approche s'inscrit dans une tendance de fond où les grands modèles multimodaux sont progressivement intégrés aux pipelines de perception automobile, une direction suivie de près par des acteurs comme Waymo, Tesla et les laboratoires universitaires qui alimentent les roadmaps réglementaires de l'UE sur l'IA embarquée.

UELes progrès en modélisation du regard conducteur objet par objet alimentent directement les exigences de certification réglementaire de l'UE pour les systèmes autonomes de niveau 3, un enjeu central des roadmaps européennes sur l'IA embarquée.

RecherchePaper
1 source
Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM
353arXiv cs.RO 

Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM

Des chercheurs ont publié un article (arXiv:2604.19775) présentant un nouveau cadre d'interprétabilité pour les agents basés sur des grands modèles de langage (LLM). Baptisé "conformal interpretability framework for temporal tasks", ce système combine la modélisation des récompenses étape par étape avec la prédiction conforme, une méthode statistique rigoureuse, pour étiqueter les représentations internes du modèle à chaque instant : succès, échec ou dérive du raisonnement. Des sondes linéaires sont ensuite entraînées sur ces représentations afin d'identifier des directions latentes dans l'espace d'activation du modèle, des vecteurs qui correspondent à des notions cohérentes de réussite ou d'échec. Les expériences ont été menées sur deux environnements interactifs simulés, ScienceWorld et AlfWorld, et confirment que ces concepts temporels sont linéairement séparables. Cette capacité à "lire" ce qui se passe à l'intérieur d'un agent LLM en cours d'action représente une avancée concrète pour la fiabilité des systèmes autonomes. Jusqu'ici, les agents capables de planification multi-étapes restaient des boîtes noires : impossible de savoir, avant la fin d'une tâche, si le modèle était en train de dériver ou de raisonner correctement. Ce cadre ouvre la voie à une détection précoce des défaillances, mais aussi à des interventions actives : les auteurs montrent des résultats préliminaires indiquant qu'il est possible de "piloter" l'agent vers les directions de succès identifiées, améliorant ainsi ses performances en cours d'exécution. L'interprétabilité des LLM est devenue l'un des chantiers les plus actifs de la recherche en IA, notamment sous la pression des exigences de transparence portées par des régulateurs comme la Commission européenne. Ce travail s'inscrit dans un mouvement plus large qui cherche à dépasser la simple observation des sorties pour comprendre les mécanismes internes, en particulier dans des tâches séquentielles où l'erreur peut se propager et s'amplifier. Les outils développés ici pourraient à terme être intégrés dans des systèmes de supervision d'agents déployés dans des contextes critiques, que ce soit en robotique, en assistance médicale ou en automatisation industrielle.

UECe cadre d'interprétabilité pourrait faciliter la conformité à l'AI Act européen, qui impose des exigences de transparence et d'explicabilité pour les systèmes d'IA à haut risque déployés dans l'UE.

RecherchePaper
1 source
Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires
354arXiv cs.RO 

Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires

Des chercheurs ont publié sur arXiv un nouveau cadre d'apprentissage par renforcement basé sur un modèle, conçu pour contrôler de manière optimale des systèmes robotiques non linéaires. L'approche repose sur la théorie de l'opérateur de Koopman, un outil mathématique qui permet de représenter des dynamiques non linéaires complexes sous une forme linéaire dans un espace de dimension supérieure. Ce modèle linéarisé est ensuite intégré dans une architecture acteur-critique classique afin d'optimiser la politique de contrôle. Pour limiter les coûts de calcul et éviter l'accumulation d'erreurs lors des simulations en plusieurs étapes, les gradients de politique sont estimés à partir de prédictions à un seul pas de temps, ce qui permet un entraînement en ligne sur des mini-lots de données issues d'interactions en continu. Le cadre a été évalué sur plusieurs benchmarks de contrôle simulés ainsi que sur deux plateformes matérielles réelles : un bras robotique Kinova Gen3 et un robot quadrupède Unitree Go1. Les résultats expérimentaux montrent que cette approche surpasse les méthodes d'apprentissage par renforcement sans modèle en termes d'efficacité d'échantillonnage, tout en offrant de meilleures performances de contrôle que les méthodes par renforcement basées sur un modèle classiques. Elle atteint même un niveau comparable aux méthodes de contrôle traditionnel qui nécessitent une connaissance exacte des dynamiques du système, un avantage considérable, car ces connaissances sont rarement disponibles dans des applications réelles. La robotique reste l'un des terrains les plus exigeants pour l'apprentissage automatique : les systèmes physiques sont non linéaires, les interactions avec le monde réel coûteuses, et les erreurs de modèle peuvent endommager le matériel. L'opérateur de Koopman suscite depuis plusieurs années un intérêt croissant dans la communauté du contrôle automatique, précisément parce qu'il permet de réconcilier la puissance expressive des modèles non linéaires avec la tractabilité des méthodes linéaires. En l'intégrant directement dans une boucle d'apprentissage par renforcement, ce travail ouvre la voie à des robots capables d'apprendre des comportements complexes avec moins d'essais et sans nécessiter un modèle analytique complet du système, une propriété clé pour le déploiement industriel à grande échelle.

RecherchePaper
1 source
AdaTracker : politique adaptative pour le suivi visuel actif sur différents robots
355arXiv cs.RO 

AdaTracker : politique adaptative pour le suivi visuel actif sur différents robots

Des chercheurs ont publié le 29 avril 2026 sur arXiv un article présentant AdaTracker, un nouveau cadre d'apprentissage conçu pour résoudre un problème persistant en robotique : permettre à un seul modèle d'assurer le suivi visuel actif d'une cible sur des plateformes robotiques radicalement différentes. Aujourd'hui, chaque type de robot, qu'il s'agisse d'un drone, d'un bras manipulateur ou d'un robot mobile, requiert son propre modèle entraîné séparément, car les contraintes physiques et les dynamiques de mouvement varient considérablement d'une machine à l'autre. AdaTracker propose une architecture unifiée articulée autour de deux composants clés : un Embodiment Context Encoder, qui infère les contraintes spécifiques à chaque robot à partir de son historique de mouvements, et un Context-Aware Policy, qui ajuste dynamiquement les actions de contrôle en conséquence. Les expériences menées en simulation et dans le monde réel montrent que ce système surpasse les méthodes existantes en termes de généralisation inter-plateformes, d'efficacité d'échantillonnage et d'adaptation sans données d'entraînement préalables, ce que les chercheurs appellent l'adaptation zéro-shot. L'enjeu est considérable pour l'industrie robotique : développer et maintenir des modèles distincts pour chaque morphologie de robot est coûteux, peu scalable et freine le déploiement à grande échelle. AdaTracker pourrait permettre à un seul modèle d'être déployé sur une flotte hétérogène de robots sans réentraînement, réduisant drastiquement les coûts de développement. La capacité d'adaptation zéro-shot est particulièrement significative : le système peut contrôler un robot qu'il n'a jamais vu auparavant, en inférant ses contraintes physiques uniquement à partir de quelques interactions récentes. Ce travail s'inscrit dans une tendance de fond visant à construire des modèles fondationnels pour la robotique, à l'image de ce que des projets comme RT-2 de Google ou OpenVLA ont tenté pour la manipulation. Le suivi visuel actif, capacité fondamentale pour les drones de surveillance, les robots d'inspection ou les systèmes de sécurité, reste un défi technique non résolu dans sa dimension multi-plateforme. AdaTracker ouvre une voie vers des systèmes robotiques plus généraux et plus facilement transférables, une priorité alors que les déploiements industriels de robots diversifiés s'accélèrent.

RechercheActu
1 source
Planification kinodynamique ultra-rapide par échantillonnage via la platitude différentielle
356arXiv cs.RO 

Planification kinodynamique ultra-rapide par échantillonnage via la platitude différentielle

Des chercheurs ont développé FLASK, un nouveau cadre de planification de mouvement cinodynamique pour robots, capable de générer des trajectoires dynamiquement réalisables en quelques microsecondes à quelques millisecondes seulement. Présenté dans un preprint arXiv mis à jour (arXiv:2603.16059v2), le système s'applique à une large classe de robots dits "différentiellement plats", incluant les bras manipulateurs à plusieurs degrés de liberté, les véhicules terrestres et les drones. L'approche repose sur une transformation mathématique du problème de planification depuis l'espace d'état classique vers un "espace de sortie plat", où les équations de trajectoire admettent une solution analytique en forme fermée, éliminant ainsi le recours à des résolutions numériques itératives. La planification cinodynamique, qui intègre les contraintes physiques réelles du robot dans le calcul des trajectoires, est un verrou majeur pour le déploiement sûr de robots en environnements encombrés ou dynamiques. Les approches existantes exigent soit de résoudre des problèmes aux valeurs limites à deux points (BVP), soit de propager les équations de dynamique pas à pas, deux méthodes coûteuses en temps de calcul qui peuvent ralentir drastiquement la planification. FLASK contourne ce goulot d'étranglement en exploitant la platitude différentielle pour obtenir une solution analytique exacte, puis en la validant massivement en parallèle via le paradigme SIMD ("single instruction, multiple data"). Le résultat : un planificateur exact, compatible avec n'importe quel algorithme d'échantillonnage existant, et assorti de garanties théoriques formelles sur l'exhaustivité probabiliste et l'optimalité asymptotique. La planification de mouvement sous contraintes dynamiques est un défi fondamental en robotique depuis des décennies, notamment pour les manipulateurs industriels et les robots mobiles autonomes amenés à opérer près des humains. Les planificateurs géométriques rapides, bien qu'efficaces en millisecondes grâce à la parallélisation GPU, ignorent la dynamique réelle et produisent des trajectoires que le robot ne peut pas toujours suivre fidèlement. FLASK comble cet écart en combinant la vitesse de l'échantillonnage massif parallèle avec la rigueur des trajectoires physiquement faisables. Les expériences menées en simulation et en conditions réelles dans des environnements encombrés et dynamiques confirment l'efficacité de l'approche, ouvrant la voie à des robots industriels, chirurgicaux ou autonomes capables de planifier en temps réel sans compromis sur la sécurité.

RechercheActu
1 source
Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action
357arXiv cs.RO 

Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2504.20472) une nouvelle approche pour améliorer la fiabilité des modèles de robotique dits vision-language-action (VLA), capables d'interpréter simultanément des images, du langage et des actions physiques. Le problème qu'ils adressent est celui de la calibration de l'incertitude dans les tâches séquentielles : lorsqu'un robot exécute une tâche en plusieurs étapes, à quel point ses estimations de succès sont-elles fiables à chaque instant, sachant que le résultat final n'est connu qu'en fin d'épisode ? Les auteurs formalisent ce problème et introduisent une extension séquentielle du score de Brier, une mesure classique de calibration probabiliste, adaptée aux trajectoires partielles. Ils démontrent que, dans le cas de résultats binaires, le minimiseur de risque de ce score coïncide mathématiquement avec la fonction de valeur de la politique VLA, concept central en apprentissage par renforcement. Concrètement, ils proposent d'utiliser l'estimation de valeur par différence temporelle (TD), technique issue du reinforcement learning, comme mécanisme de calibration. Les expériences menées sur des données de robots simulés et réels montrent que cette approche surpasse les méthodes de calibration actuelles. Ce travail a des implications directes pour le déploiement de robots dans des environnements réels. Un robot mal calibré peut surestimer sa confiance et poursuivre une tâche vouée à l'échec, ou au contraire s'arrêter prématurément. Améliorer la calibration permet donc d'accroître la sécurité et la robustesse des systèmes autonomes, un enjeu critique à mesure que ces modèles quittent les laboratoires pour intégrer des usines, des entrepôts ou des environnements domestiques. Le résultat le plus surprenant de l'étude est que, une fois calibrées par TD, les probabilités d'action à chaque pas isolé du modèle VLA suffisent à produire des estimations d'incertitude compétitives, contrairement à ce que des travaux récents utilisant d'autres méthodes de calibration avaient conclu. Ce résultat s'inscrit dans une dynamique plus large d'intégration entre l'apprentissage par renforcement et les grands modèles multimodaux appliqués à la robotique. Les modèles VLA, popularisés par des projets comme RT-2 de Google DeepMind ou OpenVLA, sont devenus un axe de recherche majeur ces deux dernières années, mais la question de leur fiabilité probabiliste était restée en marge. En établissant un pont formel entre calibration et RL, les auteurs ouvrent une voie méthodologique qui pourrait influencer la conception de futurs systèmes robotiques, notamment ceux devant opérer en autonomie prolongée sans supervision humaine.

RecherchePaper
1 source
ALAS : synthèse adaptative d'actions à long terme par séparation de flux asynchrones
358arXiv cs.RO 

ALAS : synthèse adaptative d'actions à long terme par séparation de flux asynchrones

Des chercheurs ont publié ALAS (Adaptive Long-Horizon Action Synthesis), un nouveau cadre d'apprentissage pour la robotique présenté dans un préprint arXiv (2604.20721). Ce système s'attaque à un problème central : permettre à un agent robotique d'accomplir des tâches longues et multi-étapes dans des scènes variées, ce qu'on appelle les tâches à "horizon long" dans le domaine de l'interaction humain-scène. Lors des tests comparatifs, ALAS affiche une amélioration moyenne de 23 % du taux de réussite par sous-tâche et de 29 % de l'efficacité d'exécution par rapport aux méthodes existantes. Ces résultats comptent parce que la robotique bute depuis des années sur un plafond de généralisation : les agents actuels apprennent à enchaîner des sous-tâches pré-entraînées, mais échouent dès que l'environnement ou la combinaison de compétences change légèrement. Un robot qui sait ranger une table dans un bureau peut se retrouver paralysé dans une cuisine. ALAS rompt cette dépendance en séparant explicitement la compréhension de l'environnement de l'exécution motrice, ce qui autorise le transfert vers des scènes et des compétences inédites sans tout réapprendre depuis zéro. Pour les applications industrielles et domestiques, cela rapproche concrètement la perspective d'un robot polyvalent capable de s'adapter sans reconfiguration lourde. L'architecture d'ALAS s'inspire du cerveau humain, plus précisément de la distinction neurologique entre les voies "où" et "quoi" du cortex visuel. Elle repose sur deux modules distincts : l'un dédié à la compréhension spatiale de la scène (fonctions des objets, relations géométriques, sémantique de l'environnement), l'autre au traitement des états moteurs de l'agent (degrés de liberté des articulations, schémas de mouvement). Ce découplage complet entre perception environnementale et contrôle moteur est la clé du transfert inter-domaines. La recherche en robotique s'oriente de plus en plus vers ces architectures bio-inspirées pour dépasser les limites du simple apprentissage par imitation, et ALAS constitue une étape notable dans cette direction, même si des validations sur des systèmes physiques réels restent à venir.

RecherchePaper
1 source
MATT-Diff : suivi actif de cibles multimodal par politique de diffusion
359arXiv cs.RO 

MATT-Diff : suivi actif de cibles multimodal par politique de diffusion

Des chercheurs du laboratoire CINAPS ont publié MATT-Diff, un système de contrôle permettant à un agent mobile autonome de pister plusieurs cibles simultanément dans des environnements inconnus. Présenté dans un article arXiv (2511.11931), le système repose sur une politique de diffusion, une approche inspirée des modèles génératifs d'images, pour piloter le comportement de l'agent selon trois modes distincts : exploration de zones inconnues, suivi de cibles détectées, et réacquisition de cibles perdues. L'ensemble du système fonctionne sans connaissance préalable du nombre de cibles, de leurs positions ou de leurs dynamiques de déplacement. Ce qui distingue MATT-Diff des approches existantes, c'est sa capacité à gérer le compromis fondamental en robotique de surveillance : quand explorer pour trouver des cibles encore inconnues, et quand exploiter l'information déjà disponible pour réduire l'incertitude sur les cibles déjà repérées. Le modèle utilise un vision transformer pour tokeniser les cartes égocentrées de l'agent, et un mécanisme d'attention pour intégrer des estimations variables des cibles représentées sous forme de densités gaussiennes. Entraîné comme un modèle de diffusion, il apprend à générer des séquences d'actions multimodales via un processus de débruitage, ce qui lui permet d'adopter des comportements variés face à une même situation, là où les politiques classiques produiraient une seule réponse déterministe. Pour constituer les données d'entraînement, les chercheurs ont combiné les démonstrations de trois planificateurs experts distincts : un planificateur à base de frontières pour l'exploration, un planificateur hybride basé sur l'incertitude alternant entre exploration et suivi via l'algorithme RRT*, et un planificateur hybride temporel déclenchant la réacquisition selon le temps écoulé depuis la dernière détection. Cette diversité des sources d'apprentissage explique la richesse comportementale du système final. Les évaluations montrent des performances supérieures aux autres baselines d'apprentissage dans des environnements inédits. Le code est disponible publiquement sur GitHub, ouvrant la voie à des applications en surveillance autonome, recherche et sauvetage, ou gestion de drones en milieu complexe.

RecherchePaper
1 source
Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme
360arXiv cs.RO 

Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme

Des chercheurs ont publié sur arXiv un nouveau cadre algorithmique, baptisé EEAgent (Evolvable Embodied Agent), conçu pour doter les robots d'une capacité d'adaptation continue sans nécessiter de réentraînement lourd. Le système s'appuie sur des modèles de vision et de langage (VLMs) de grande taille pour interpréter l'environnement et planifier les actions du robot. Sa pièce maîtresse est un mécanisme appelé LSTRO (Long Short-Term Reflective Optimization), qui affine dynamiquement les instructions en combinant les expériences passées et les leçons récemment apprises. Évalué sur six tâches du benchmark VIMA-Bench, EEAgent établit un nouvel état de l'art et surpasse significativement les systèmes concurrents, notamment dans les scénarios les plus complexes. Ce travail s'attaque à un obstacle central de la robotique moderne : la généralisation. Les approches traditionnelles nécessitent des données d'entraînement massives et peinent à transférer leurs compétences d'une tâche à une autre, tout en restant difficiles à interpréter. EEAgent contourne ce problème en remplaçant le réentraînement par une réflexion structurée sur l'expérience accumulée, une approche analogue à ce qu'un opérateur humain ferait naturellement. La distinction court terme / long terme dans LSTRO permet au robot de ne pas simplement mémoriser ses erreurs récentes, mais d'en distiller des principes généraux réutilisables, améliorant les taux de réussite sur des tâches variées sans intervention humaine supplémentaire. La course à la robotique généraliste s'est intensifiée ces dernières années, portée par des acteurs comme Boston Dynamics, Figure, Physical Intelligence ou Google DeepMind. Tous cherchent à créer des systèmes capables d'opérer dans des environnements non structurés sans reprogrammation constante. L'apprentissage par prompts, que EEAgent pousse plus loin avec LSTRO, s'affirme comme une alternative légère aux pipelines d'apprentissage par renforcement classiques, coûteux en calcul et en données. Si les résultats sur VIMA-Bench sont encourageants, la prochaine étape sera de valider ce type de système dans des environnements physiques réels, là où la robustesse et l'adaptabilité sont véritablement mises à l'épreuve.

RechercheOpinion
1 source
Planification de trajectoires multi-robots et détection de comportements aberrants
361arXiv cs.RO 

Planification de trajectoires multi-robots et détection de comportements aberrants

Des chercheurs ont publié une nouvelle méthode permettant de détecter automatiquement les comportements anormaux dans des flottes de robots autonomes hétérogènes, dans un article référencé arXiv:2510.17261. Le système repose sur deux piliers : un cadre de génération de données structurées baptisé Nets-within-Nets (NWN), qui coordonne les actions des robots à partir de spécifications de mission formalisées en logique temporelle linéaire (LTL), et un pipeline de détection d'anomalies basé sur l'architecture Transformer. L'objectif est d'identifier les exécutions dites "spurious", c'est-à-dire les séquences de tâches incorrectes, les violations de contraintes spatiales, les incohérences temporelles ou les écarts par rapport à la sémantique attendue d'une mission. Les performances mesurées sont significatives : le système atteint 91,3 % de précision pour détecter les inefficacités d'exécution, 88,3 % pour les violations centrales de mission, et 66,8 % pour les anomalies adaptatives liées aux contraintes. Ces résultats positionnent l'approche comme une solution viable pour la supervision en temps réel de flottes robotiques dans des environnements complexes, notamment dans l'industrie, la logistique automatisée ou les missions de secours, où une mauvaise exécution peut avoir des conséquences coûteuses voire dangereuses. La capacité à classer automatiquement une trajectoire comme normale ou anormale sans intervention humaine représente un gain opérationnel concret. Ce travail s'inscrit dans un mouvement de fond visant à rendre les systèmes multi-robots plus fiables et plus auditables, à mesure que leur déploiement s'accélère dans des contextes industriels critiques. La logique temporelle linéaire est depuis longtemps utilisée en vérification formelle de logiciels, mais son application à la supervision de trajectoires robotiques en temps réel reste un terrain de recherche actif. L'usage de Transformers pour cette tâche, couplé à une étude d'ablation sur les représentations d'embedding, suggère que les architectures issues du traitement du langage naturel trouvent une seconde vie dans la robotique multi-agents. Les prochaines étapes naturelles porteraient sur des tests en conditions réelles et l'extension à des missions plus dynamiques.

RecherchePaper
1 source
Réseau de Rodrigues pour l'apprentissage des actions robotiques
362arXiv cs.RO 

Réseau de Rodrigues pour l'apprentissage des actions robotiques

Des chercheurs en robotique et apprentissage automatique ont proposé une nouvelle architecture neuronale baptisée RodriNet, décrite dans un article pré-publié sur arXiv (arXiv:2506.02618). L'équipe introduit d'abord un composant fondamental, le Neural Rodrigues Operator, une généralisation apprenante de l'opération classique de cinématique directe, qui permet d'encoder la structure géométrique des systèmes articulés directement dans le calcul neuronal. Sur deux tâches synthétiques de prédiction cinématique et de mouvement, RodriNet affiche des gains significatifs par rapport aux architectures standard comme les MLPs et les Transformers. Les auteurs valident ensuite l'approche sur deux applications concrètes : l'apprentissage par imitation sur des bancs d'essai robotiques en combinant RodriNet avec la Diffusion Policy, et la reconstruction 3D d'une main à partir d'une seule image. L'enjeu central est celui du biais inductif : les réseaux classiques traitent les actions articulées comme des vecteurs numériques quelconques, sans tenir compte du fait qu'un bras robotique ou une main humaine obéissent à des contraintes géométriques précises, celles de la cinématique. En intégrant ces contraintes directement dans l'architecture, RodriNet apprend plus efficacement à partir de données limitées et généralise mieux aux configurations inédites. Pour l'industrie de la robotique, cela représente une voie vers des politiques de contrôle plus robustes sans nécessiter de jeux de données massifs, ce qui est particulièrement précieux dans le cadre du déploiement de robots en environnements réels. Cette contribution s'inscrit dans une tendance plus large visant à réintroduire des connaissances physiques et géométriques dans les architectures d'apprentissage profond, après une décennie dominée par des modèles généralistes sans a priori structurels. La Diffusion Policy, utilisée ici comme cadre d'imitation, est elle-même une approche récente qui modélise les trajectoires robotiques comme des processus de diffusion. Le couplage de ces deux innovations suggère que la prochaine frontière en robotique apprenante passe par des architectures hybrides, à la fois flexibles et ancrées dans la physique du corps articulé.

RecherchePaper
1 source
ParaRNN : RNNs non linéaires à grande échelle, entraînables en parallèle
363Apple Machine Learning 

ParaRNN : RNNs non linéaires à grande échelle, entraînables en parallèle

Des chercheurs d'Apple ont publié ParaRNN, une méthode qui permet d'entraîner en parallèle des réseaux de neurones récurrents (RNN) non linéaires à grande échelle. Historiquement, les RNN se heurtaient à un obstacle fondamental : leur calcul séquentiel rendait impossible de les entraîner efficacement sur des milliards de paramètres, contrairement aux architectures basées sur l'attention comme les Transformers. ParaRNN contourne cette limitation en débloquant la parallélisation de l'entraînement, ouvrant pour la première fois la voie à des RNN comparables en taille aux grands modèles de langage actuels. L'enjeu est considérable pour l'industrie de l'IA. Les RNN ont un avantage majeur à l'inférence : ils consomment beaucoup moins de mémoire et de calcul que les Transformers, ce qui les rend particulièrement attractifs pour les déploiements sur appareils contraints, smartphones, wearables, systèmes embarqués. Jusqu'ici, cette efficacité à l'inférence était contrebalancée par l'impossibilité de les entraîner à l'échelle. ParaRNN change cette équation et élargit concrètement le choix d'architectures disponibles aux praticiens qui conçoivent des LLM pour des environnements à ressources limitées. Ce travail s'inscrit dans un effort plus large de l'industrie pour trouver des alternatives aux Transformers, dont les coûts computationnels explosent avec la taille. Des architectures comme Mamba, RWKV ou les modèles d'état linéaires (SSM) ont déjà relancé l'intérêt pour les approches séquentielles. Qu'Apple s'engage sur ce terrain avec une contribution de recherche fondamentale signale un intérêt stratégique évident pour des modèles embarqués performants, en cohérence avec son positionnement autour de l'IA on-device dans ses produits.

RecherchePaper
1 source
Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?
364VentureBeat AI 

Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?

Des chercheurs de l'université de Stanford ont publié une étude qui remet en cause l'un des dogmes les plus répandus dans le développement IA en entreprise : l'idée que les systèmes multi-agents seraient intrinsèquement supérieurs aux architectures à agent unique pour les tâches complexes. Menée par Dat Tran et Douwe Kiela, la recherche a soumis les deux types d'architectures à des tâches de raisonnement en chaîne ("multi-hop reasoning"), c'est-à-dire des problèmes nécessitant de relier plusieurs informations disparates pour parvenir à une conclusion. Le protocole clé : imposer un budget identique de "tokens de réflexion", les tokens utilisés exclusivement pour le raisonnement intermédiaire, hors prompt initial et réponse finale. Résultat : dans la majorité des cas, un agent unique dispose du même budget surpasse ou égale un système multi-agents. L'enjeu est considérable pour les équipes d'ingénierie qui investissent massivement dans des architectures complexes. Les systèmes multi-agents, qu'il s'agisse d'agents planificateurs, de systèmes en débat ou d'essaims de modèles, génèrent des traces de raisonnement plus longues et multiplient les appels LLM, consommant mécaniquement davantage de ressources. Le problème soulevé par Stanford est que la plupart des comparaisons publiées jusqu'ici n'étaient pas à budget égal : les gains affichés par le multi-agent reflétaient souvent une simple dépense de calcul supplémentaire, et non un avantage architectural réel. Autrement dit, les entreprises pourraient payer une "taxe essaim" sans bénéfice net. La seule situation où le multi-agent conserve un avantage légitime est celle où le contexte d'un agent unique devient trop long ou corrompu, atteignant une limite physique. Pour aller plus loin, les chercheurs ont introduit une technique baptisée SAS-L (single-agent system with longer thinking), conçue pour corriger un comportement fréquent : les agents uniques abandonnent parfois leur raisonnement interne prématurément, laissant du budget de calcul inexploité. La solution proposée est purement structurelle, sans surcoût architectural : reformuler le prompt pour encourager explicitement le modèle à dépenser son budget disponible en analyse pré-réponse, en identifiant les ambiguïtés et les hypothèses intermédiaires avant de conclure. Cette approche s'inscrit dans une tendance de fond qui pousse le domaine à reconsidérer la complexité comme valeur en soi. Alors que les frameworks multi-agents prolifèrent et que les coûts d'inférence restent élevés, Stanford offre un argument empirique solide pour privilégier la simplicité, et ne recourir à l'orchestration multi-agents qu'une fois le plafond de l'agent unique véritablement atteint.

UELes équipes d'ingénierie en France et en Europe qui déploient des systèmes multi-agents peuvent directement réduire leurs coûts d'inférence en simplifiant leurs architectures, en s'appuyant sur les conclusions empiriques de cette étude pour justifier ce choix en interne.

RecherchePaper
1 source
AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques
365Microsoft Research 

AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques

Des chercheurs de Microsoft Research ont publié AutoAdapt, un cadre automatisé destiné à adapter les grands modèles de langage (LLM) à des domaines spécialisés à forts enjeux, comme le droit, la médecine ou la gestion d'incidents cloud. Présenté dans un article intitulé "AutoAdapt: An Automated Domain Adaptation Framework for Large Language Models", le système prend en entrée un objectif défini en langage naturel, des données de domaine et des contraintes pratiques (latence, matériel, budget, confidentialité), puis construit automatiquement un pipeline d'adaptation complet et reproductible. Pour y parvenir, AutoAdapt s'appuie sur trois composants : un graphe de configuration appelé Adaptation Configuration Graph (ACG) qui cartographie l'espace des possibles, un agent planificateur qui sélectionne et séquence les bonnes étapes, et une boucle d'optimisation budgétaire nommée AutoRefine qui affine le résultat dans les limites imposées. L'enjeu est considérable pour les équipes qui déploient des LLM en production. Aujourd'hui, spécialiser un modèle généraliste implique de choisir manuellement entre des approches comme la génération augmentée par récupération (RAG), le fine-tuning supervisé ou des méthodes à efficacité paramétrique comme LoRA, puis d'ajuster des dizaines d'hyperparamètres dans un espace de décision vaste et peu lisible. Ce processus prend des semaines, sans garantie de résultat reproductible. Pour une équipe qui gère une panne critique, un modèle qui dérive de ses exigences de domaine n'est tout simplement pas une option. AutoAdapt transforme ce tâtonnement coûteux en un pipeline exécutable en une fraction du temps, rendant les LLM fiables et prévisibles dans des contextes où les erreurs ont des conséquences réelles. Cette publication s'inscrit dans une tendance de fond qui vise à industrialiser le déploiement des LLM, au-delà de la simple performance sur des benchmarks génériques. Les entreprises qui adoptent ces modèles dans des secteurs régulés ou techniques se heurtent systématiquement au même mur : la spécialisation est longue, chère et fragile. Microsoft Research, qui présente ce travail dans le cadre de son Microsoft Research Forum, positionne AutoAdapt comme une réponse structurée à ce goulot d'étranglement. Le système ouvre la voie à une standardisation des pratiques d'adaptation, là où chaque équipe réinventait jusqu'ici sa propre méthode. La prochaine étape logique sera de voir si ce cadre peut être intégré directement dans des plateformes cloud comme Azure AI Studio, ce qui accélérerait son adoption à grande échelle.

UELes entreprises européennes déployant des LLM dans des secteurs réglementés (santé, droit, finance) pourraient réduire significativement leurs coûts et délais de spécialisation grâce à ce type de framework d'adaptation automatisé.

RecherchePaper
1 source
Un laboratoire robotisé mène 50 000 expériences et atteint 27 % d'efficacité pour les cellules solaires
366Interesting Engineering 

Un laboratoire robotisé mène 50 000 expériences et atteint 27 % d'efficacité pour les cellules solaires

Des chercheurs de la Hong Kong Polytechnic University ont mis au point un système robotique autonome capable de mener des recherches scientifiques en boucle fermée, sans intervention humaine, pour le développement de cellules solaires à base de pérovskite. Le dispositif repose sur une architecture d'intelligence artificielle à sept couches qui lit la littérature scientifique existante, génère de nouvelles formules chimiques et les traduit directement en instructions pour les machines. En l'espace d'une campagne expérimentale, le système a réalisé 50 764 expériences, contrôlé plus de 4 300 paramètres et généré 578 millions de tokens de données. Résultat: une efficacité de conversion énergétique record de 27,0%, avec une valeur certifiée indépendamment de 26,5%, plaçant ces cellules parmi les plus performantes jamais fabriquées de manière autonome. L'enjeu est considérable pour la filière photovoltaïque. La pérovskite est un matériau à fort potentiel, mais son développement bute depuis des années sur un processus d'essais et d'erreurs épuisant: plus de 100 000 recettes expérimentales ont déjà été testées dans le monde, avec des cycles de cristallisation extrêmement sensibles aux conditions environnementales et difficiles à reproduire. Les robots existants peuvent collecter des données rapidement, mais sont incapables d'interpréter les résultats ou d'ajuster les recettes en temps réel. Le nouveau système brise ce plafond en intégrant un modèle de langage spécialisé, le Recipe Language Model, qui traite en continu données de littérature et résultats expérimentaux pour affiner les formules chimiques, pendant que 11 modules robotiques interconnectés assurent la fabrication physique: stockage des produits chimiques, dépôt par centrifugation, traitement laser, caractérisation optique en temps réel. Ce travail s'inscrit dans une tendance de fond qui voit l'automatisation gagner les laboratoires de recherche en matériaux, domaine traditionnellement artisanal et fragmenté. La particularité de ce système réside dans sa capacité à transformer des opérations de boîtes à gants isolées en une chaîne de fabrication unifiée, pilotée par un jumeau numérique. Publié dans la revue Engineering, ce projet ouvre la voie à ce que ses auteurs appellent la "materials intelligence": une recherche scientifique pilotée par des agents autonomes capables d'apprendre, de raisonner et d'optimiser sans supervision humaine permanente. À plus long terme, une telle approche pourrait permettre de déployer des capacités de fabrication avancée dans des environnements extrêmes ou des zones isolées, là où la présence humaine est impraticable, de l'espace aux infrastructures offshore.

UECette avancée dans l'automatisation de la recherche sur les matériaux photovoltaïques pourrait à terme accélérer les programmes européens de développement de cellules solaires à pérovskite, dans le cadre des objectifs de souveraineté énergétique de l'UE.

RecherchePaper
1 source
Recherches en apprentissage automatique d'Apple à l'ICLR 2026
367Apple Machine Learning 

Recherches en apprentissage automatique d'Apple à l'ICLR 2026

Apple participe cette semaine à la quatorzième édition de l'International Conference on Learning Representations (ICLR 2026), qui se tient à Rio de Janeiro, au Brésil. L'entreprise y est présente en tant que sponsor officiel et y envoie plusieurs de ses chercheurs pour présenter des travaux couvrant un large spectre de sujets en apprentissage automatique et en intelligence artificielle. Ces contributions sont publiées et partagées avec la communauté scientifique internationale, conformément à la politique de diffusion ouverte qu'Apple a renforcée ces dernières années. Cette présence illustre l'ambition croissante d'Apple dans la recherche fondamentale en IA, un domaine où l'entreprise a longtemps été perçue comme moins visible que ses concurrents Google DeepMind, Meta AI ou Microsoft Research. Publier à l'ICLR, l'une des conférences les plus sélectives au monde en apprentissage profond, constitue un signal fort adressé à la communauté académique et au marché des talents, dans un contexte de recrutement intensément compétitif entre les grandes entreprises technologiques. Apple a sensiblement accéléré ses publications scientifiques depuis 2017, après avoir longtemps gardé ses recherches entièrement confidentielles. Cette ouverture progressive vise à attirer des chercheurs de haut niveau qui, dans d'autres structures, peuvent publier librement leurs travaux. L'ICLR 2026 intervient alors qu'Apple intègre davantage de fonctionnalités d'IA générative dans ses produits via Apple Intelligence, ce qui rend ses avancées en ML directement pertinentes pour des centaines de millions d'utilisateurs à travers le monde.

RecherchePaper
1 source
L'IA au MIT
368MIT Technology Review 

L'IA au MIT

Au MIT, l'intelligence artificielle a cessé d'être un domaine spécialisé pour devenir l'infrastructure invisible de la recherche scientifique. Sili Deng, professeure associée en génie mécanique, illustre ce basculement : arrivée en 2019 pour étudier la cinétique de combustion, elle s'est tournée vers le machine learning pendant la pandémie de covid-19, contrainte d'interrompre les rénovations de son laboratoire. Son groupe a depuis développé un "jumeau numérique" capable de modéliser en temps réel le comportement de systèmes de combustion de carburant. Zachary Cordero, professeur associé en aérospatiale, a suivi une trajectoire différente : en 2024, sur recommandation de John Hart, directeur du département de génie mécanique, il a collaboré avec Faez Ahmed, spécialiste du machine learning, sur un projet financé par la DARPA. Ensemble, ils ont conçu un outil d'IA capable d'optimiser la composition matérielle d'un "blisk", disque à aubes central dans les turbines de moteurs à réaction et de fusées, avec des retombées directes sur la fiabilité des lanceurs réutilisables lourds. Ces cas ne sont pas des exceptions. Dans chaque département du MIT, l'IA transforme la recherche : développement de médicaments, neurosciences, métallurgie, robotique, préservation de la faune. Angela Koehler, professeure de bioingénierie et responsable du MIT HEALS, affirme que 90 % des comités de thèse auxquels elle participe comportent désormais une composante IA significative, contre une minorité cinq ans auparavant. Son propre groupe utilise des modèles d'IA pour cibler des molécules longtemps considérées comme "indruggables", comme les facteurs de transcription ou les cytokines. Ian Waitz, vice-président pour la recherche au MIT, résume : "Je ne connais pas un seul domaine de recherche ici qui n'ait pas été impacté par l'IA." Ce déploiement massif s'inscrit dans une histoire longue : le MIT est l'un des berceaux historiques de la recherche en IA, mais la vague actuelle marque une rupture qualitative. Les outils comme le machine learning, les grands modèles de langage et les réseaux de neurones ne servent plus seulement à des projets dédiés à l'IA, ils amplifient des disciplines qui n'avaient pas, jusqu'ici, de rapport direct avec l'informatique. Le professeur Ju Li pousse la réflexion plus loin : si on accorde à l'IA l'autonomie de mener des expériences, d'échouer et d'apprendre, elle pourrait évoluer vers quelque chose de proche de l'intelligence humaine. L'enjeu n'est plus de savoir si l'IA va transformer la science, mais à quelle vitesse les institutions sauront structurer cette transformation sans en perdre le contrôle.

RecherchePaper
1 source
Des scientifiques artificiels
369MIT Technology Review 

Des scientifiques artificiels

Les grandes entreprises d'intelligence artificielle ont longtemps brandi la promesse d'une science révolutionnée pour justifier leurs investissements massifs. Cette promesse prend aujourd'hui une forme concrète : en octobre 2025, OpenAI a lancé une équipe dédiée à l'IA pour la science et vient d'annoncer GPT-Rosalind, premier d'une série de modèles scientifiques spécialisés. Anthropic a simultanément dévoilé plusieurs fonctionnalités Claude orientées vers les sciences biologiques. Google DeepMind, pionnier dans ce domaine, avait déjà décroché le Nobel de chimie 2024 avec AlphaFold, le système de prédiction de structures protéiques développé par Demis Hassabis et John Jumper. En février 2026, Google publiait son propre outil de co-scientifique IA. Sous le capot, ces systèmes combinent généralement plusieurs agents spécialisés : l'outil de Google mobilise un agent superviseur, un agent de génération et un agent de classement pour produire hypothèses et plans de recherche à partir d'un objectif fourni par un chercheur humain. Des chercheurs de Stanford ont de leur côté créé un "laboratoire virtuel" multi-agents capable de concevoir de nouveaux fragments d'anticorps se liant au SARS-CoV-2. L'enjeu dépasse la simple assistance : OpenAI a officiellement désigné la construction d'un chercheur autonome comme sa "North Star". En février, la société a connecté GPT-5 aux laboratoires biologiques automatisés de Ginkgo Bioworks, permettant au système de proposer des expériences et d'interpréter les résultats avec une intervention humaine minimale. Résultat : après un volume d'expériences massif, le système a mis au point un protocole réduisant de 40 % le coût de synthèse d'une protéine spécifique. Cette capacité à itérer à grande vitesse, sans les contraintes physiques ou cognitives d'une équipe humaine, représente un avantage compétitif considérable pour les laboratoires pharmaceutiques, biotechs et centres de recherche fondamentale. Mais une étude publiée dans Nature apporte une nuance importante : si les scientifiques individuels tirent avantage de l'IA dans leur carrière, la science dans son ensemble pourrait en pâtir. En effet, les modèles d'IA excellent dans l'analyse de bases de données existantes et de littérature établie, ce qui pousse les chercheurs qui les utilisent à se concentrer sur des domaines déjà bien documentés, au détriment de territoires moins balisés mais potentiellement décisifs. Le risque est une homogénéisation progressive des sujets de recherche, laissant en jachère des problèmes complexes moins compatibles avec les approches algorithmiques. Pour que l'IA amplifie réellement la science plutôt que de l'uniformiser, la communauté scientifique devra coordonner activement ses efforts pour préserver la diversité et l'originalité de la recherche à l'ère des agents autonomes.

UEGoogle DeepMind, basé à Londres, est pionnier mondial de l'IA scientifique avec AlphaFold et son outil de co-scientifique, ce qui positionne l'Europe comme acteur clé dans la course à l'automatisation de la recherche scientifique.

RecherchePaper
1 source
Modèles du monde
370MIT Technology Review 

Modèles du monde

Les systèmes d'intelligence artificielle maîtrisent aujourd'hui le monde numérique avec une aisance impressionnante, mais le monde physique reste un défi d'une tout autre nature. Pour franchir ce cap, de nombreux chercheurs misent sur une approche appelée "modèle du monde", une représentation interne que l'IA se construit de son environnement pour anticiper les conséquences de ses actions. Google DeepMind et World Labs, la startup fondée par Fei-Fei Li, professeure à Stanford, travaillent activement sur ces systèmes. Yann LeCun, jusqu'ici figure centrale de Meta, a quant à lui quitté l'entreprise pour fonder une startup entièrement dédiée à cette approche. OpenAI a également redirigé des ressources issues de la fermeture de son application vidéo Sora vers ce qu'elle appelle la "recherche en simulation du monde à long terme". L'enjeu est de taille : les grands modèles de langage actuels présentent des lacunes profondes dès qu'il s'agit de raisonner sur le monde réel. Une étude révélatrice a montré que des modèles entraînés sur des millions de trajets de taxis new-yorkais peuvent donner des itinéraires corrects dans Manhattan, mais échouent complètement dès qu'on leur impose un détour. Ce type de fragilité est fondamentalement incompatible avec des applications robotiques, où l'imprévu est la règle. Un vrai modèle du monde permettrait à un agent IA de se représenter son environnement avec suffisamment de fidélité pour prédire ce qui se passe si on pousse une tasse du bord d'une table, ou si on change de route en cours de chemin, exactement comme le fait le cerveau humain. Les applications concrètes émergent progressivement. Niantic, le studio derrière Pokémon Go, exploite les milliards d'images collectées par les joueurs du jeu pour construire les premières briques d'un modèle du monde destiné à guider des robots de livraison. Google DeepMind et World Labs concentrent actuellement leurs efforts sur la génération d'environnements virtuels 3D interactifs à partir de textes, d'images et de vidéos, des outils utiles pour la conception de jeux vidéo ou d'expériences en réalité virtuelle, mais encore limités dans leur portée. Les véritables percées viendront probablement de l'intégration de ces systèmes dans des agents autonomes capables de modéliser leur environnement, d'anticiper les effets de leurs actions et de décider en conséquence. Li et LeCun voient dans cette direction la clé pour des robots capables d'explorer les grands fonds marins ou d'assister le personnel soignant, un horizon encore lointain, mais qui mobilise désormais les acteurs les plus influents du secteur.

RecherchePaper
1 source
Les États-Unis utilisent le premier supercalculateur exascale mondial pour modéliser des supernovae et des réacteurs à fusion
371Interesting Engineering 

Les États-Unis utilisent le premier supercalculateur exascale mondial pour modéliser des supernovae et des réacteurs à fusion

Des scientifiques américains du laboratoire national d'Oak Ridge (ORNL), rattaché au Département de l'Énergie, ont utilisé Frontier, le superordinateur exascale le plus puissant du monde, pour modéliser la turbulence magnétohydrodynamique (MHD) dans les plasmas. Capable d'effectuer plus de deux quintillions de calculs par seconde, Frontier est classé troisième superordinateur le plus rapide au monde, derrière Aurora et El Capitan. L'équipe, dirigée par le doctorant Semih Kacmaz sous la supervision d'Eliu Huerta, scientifique computationnel à l'Argonne National Laboratory, a développé une approche en deux étapes combinant un opérateur neuronal informé par la physique et un modèle de diffusion génératif. Ensemble, ces deux systèmes d'IA produisent des prédictions de turbulences très détaillées en quelques secondes, avec une réduction des erreurs de plus de moitié par rapport aux méthodes conventionnelles. Ce résultat représente une avancée majeure dans un domaine que les physiciens considèrent comme l'un des plus récalcitrants de leur discipline. La turbulence MHD régit le comportement des gaz ionisés soumis à des champs magnétiques, des phénomènes omniprésents dans l'univers : éruptions solaires, explosions de supernovæ, magnétosphère terrestre. Les méthodes traditionnelles, comme l'approche Reynolds-Averaged Navier-Stokes (RANS), reposent sur des équations simplifiées qui lissent les détails fins et ne capturent pas toute la physique en jeu. Le nouveau cadre IA, lui, reconstruit les petits tourbillons et fluctuations rapides qui définissent les écoulements turbulents, ouvrant la voie à des modèles de supernovæ bien plus précis et à la conception de réacteurs à fusion nucléaire plus efficaces. "C'est la première fois que l'IA parvient à modéliser fidèlement la turbulence magnétisée dans des conditions aussi extrêmes", a déclaré Huerta. La turbulence dans les plasmas constitue un obstacle de longue date pour deux domaines stratégiques : l'astrophysique, qui cherche à comprendre les explosions stellaires, et la fusion nucléaire, dont la viabilité industrielle dépend en partie de la maîtrise du comportement des plasmas à haute énergie. Des projets comme ITER ou les réacteurs privés de Commonwealth Fusion Systems se heurtent précisément à ces instabilités. En mobilisant l'allocation de temps de calcul sur Frontier pour générer des milliers de simulations haute-fidélité servant à entraîner leurs modèles, les chercheurs ont démontré que les supercalculateurs exascale peuvent débloquer des problèmes jugés hors de portée. L'équipe prévoit désormais d'étendre le modèle à des simulations plasma en 3D complètes et à des environnements astrophysiques plus complexes, ce qui pourrait accélérer à la fois la recherche fondamentale sur la dynamique des étoiles et le développement applicatif de la fusion comme source d'énergie décarbonée.

UELes avancées dans la modélisation de la turbulence des plasmas bénéficient directement au projet ITER, dont le réacteur expérimental est en construction à Cadarache (France) et qui se heurte précisément aux instabilités plasma décrites dans l'article.

RecherchePaper
1 source
372MarkTechPost 

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément. Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite. La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

UEL'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

RecherchePaper
1 source
Les grands modèles de langage comprennent-ils vraiment le contexte ?
373Apple Machine Learning 

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper
1 source
374Latent Space 

Entraîner des Transformers pour résoudre le taux d'échec de 95 % des essais cliniques contre le cancer : Ron Alfa et Daniel Bear, Noetik

La startup Noetik, cofondée par Ron Alfa et Daniel Bear, vient de signer un accord de 50 millions de dollars avec le géant pharmaceutique GSK pour sa technologie d'intelligence artificielle appliquée à l'oncologie. Au cœur de cet accord se trouve TARIO-2, un transformer autorégressif entraîné sur l'un des plus grands ensembles de données de transcriptomique spatiale tumorale au monde. Ce modèle est capable de prédire une carte génomique d'environ 19 000 gènes à partir d'une simple biopsie H&E colorée, l'examen histologique standard que reçoit déjà chaque patient atteint de cancer. L'accord avec GSK comprend également un contrat de licence à long terme aux termes non divulgués, ce qui représente un engagement envers la plateforme logicielle de Noetik plutôt que vers un médicament spécifique, un modèle rare dans le secteur biotech. Le problème que Noetik tente de résoudre est brutal : 95 % des traitements contre le cancer échouent lors des essais cliniques, engloutissant entre 20 et 30 milliards de dollars par an en dépenses mondiales de recherche. L'hypothèse centrale de Ron Alfa est que beaucoup de ces traitements fonctionnent réellement, mais qu'ils sont testés sur les mauvais patients. Le cancer n'est pas une seule maladie mais potentiellement des milliers de pathologies distinctes, chacune avec sa propre biologie tumorale. Si l'on pouvait identifier avec précision quels patients portent quelles tumeurs et lesquelles répondront à quels traitements, les taux de succès pourraient augmenter radicalement, avec des thérapies qui existent déjà, comme les inhibiteurs de points de contrôle immunitaires Keytruda et Opdivo, les thérapies CAR-T ou les conjugués anticorps-médicament comme le Trastuzumab. La transcriptomique spatiale complète est la méthode la plus précise pour lire une tumeur, mais elle est quasiment inexistante en soins standards : TARIO-2 permet désormais d'en simuler les résultats à partir d'examens déjà réalisés. Noetik a passé près de deux ans à constituer une base de données massive, acquérant des milliers de tumeurs humaines réelles avec des ensembles de données multimodaux. Cette approche tranche avec la majorité des initiatives IA en biotechnologie, qui se concentrent sur la découverte de nouvelles molécules et finissent généralement par transformer les éditeurs d'outils en laboratoires pharmaceutiques. L'accord GSK, lui, est un contrat de licence logicielle pur, signalant un changement de posture de la part des grands groupes pharma, de plus en plus prêts à payer pour des plateformes d'analyse plutôt que pour des candidats médicaments. Dans un contexte où des acteurs comme Boltz ou Isomorphic Labs gagnent également en visibilité, l'appétit de l'industrie pour les outils IA en développement thérapeutique semble enfin atteindre un point de bascule.

UELe groupe pharmaceutique britannique GSK, acteur majeur en Europe, adopte une plateforme IA pour affiner la sélection des patients en oncologie, ce qui pourrait accélérer et améliorer les essais cliniques menés sur le continent.

💬 95 % d'échec en essais cliniques, pas parce que les traitements sont nuls, mais parce qu'on les teste sur les mauvais patients, c'est le genre de problème qu'on sait depuis longtemps et qu'on fait semblant de ne pas voir. Ce qui m'intéresse chez Noetik, c'est que le deal avec GSK est un contrat de licence logicielle, pas un rachat de molécule : les pharmas commencent vraiment à payer pour des outils d'analyse, c'est un vrai signal. Reste à voir si ça tient à l'échelle des essais multi-sites, mais sur le papier, c'est l'une des applications IA en bio les plus solides que j'ai vues depuis un moment.

RecherchePaper
1 source
375Import AI 

Import AI 454 : automatiser la recherche sur l'alignement, étude de sécurité d'un modèle chinois, HiFloat4

Des chercheurs de Huawei ont publié une étude démontrant la supériorité de HiFloat4, leur format de précision 4 bits propriétaire, face à MXFP4, le standard ouvert développé par l'Open Compute Project. Les tests ont été conduits sur des puces Ascend de Huawei avec trois architectures de modèles : OpenPangu-1B, Llama3-8B et Qwen3-MoE-30B. Les résultats sont clairs : HiFloat4 atteint une erreur relative d'environ 1,0 % par rapport à une baseline BF16 pleine précision, contre 1,5 % pour MXFP4. Fait notable, cet avantage se creuse à mesure que les modèles grossissent. HiFloat4 n'a besoin que d'une seule technique de stabilisation (RHT) pour atteindre ce niveau, là où MXFP4 exige trois mécanismes combinés. Par ailleurs, des chercheurs du programme Anthropic Fellows ont publié une étude montrant que des agents Claude sont capables d'automatiser la recherche en sécurité IA : ces agents proposent des idées, mènent des expériences et itèrent de façon autonome sur un problème ouvert, en l'occurrence la supervision "weak-to-strong", soit la capacité d'un modèle moins puissant à superviser efficacement un modèle plus capable. Résultat : les agents ont surpassé deux chercheurs humains qui avaient pourtant travaillé sept jours sur le même problème. Ces deux avancées ont des implications concrètes et distinctes. Côté Huawei, disposer d'un format de précision réduite plus efficace signifie tirer davantage de performance des puces Ascend sans augmenter la consommation électrique, un enjeu critique pour l'entraînement et l'inférence à grande échelle. Pour l'industrie, cela confirme qu'une alternative sérieuse aux formats occidentaux existe et peut fonctionner sur un écosystème matériel entièrement indépendant. Côté Anthropic, la démonstration que Claude peut conduire de la recherche en alignement de manière autonome est un signal précoce mais significatif : si des agents IA peuvent progresser sur les problèmes de sécurité plus vite que des humains, cela ouvre la voie à une accélération massive de ce champ de recherche, encore largement sous-doté face à la vitesse de développement des capacités. Le format HiFloat4 s'inscrit dans la continuité de HiFloat8, présenté précédemment, et reflète une tendance de fond chez les acteurs chinois du hardware : face aux restrictions américaines d'exportation qui coupent la Chine de l'accès aux puces Nvidia H100 en volume suffisant, Huawei et ses pairs investissent massivement dans l'optimisation logicielle et les formats de données propriétaires pour compenser ce déficit. C'est une réponse structurelle aux sanctions, pas un simple exercice académique. Du côté d'Anthropic, l'automatisation de la recherche en alignement répond à une urgence : le rythme de progression des capacités des LLMs dépasse celui des travaux de sécurité, et si des agents peuvent combler cet écart, ils pourraient devenir un outil central dans la course à rendre l'IA plus fiable avant qu'elle ne devienne incontrôlable.

UEL'émergence de HiFloat4 comme alternative propriétaire aux formats ouverts (MXFP4) illustre la fragmentation des standards matériels IA, un enjeu stratégique pour les entreprises européennes qui devront naviguer entre écosystèmes incompatibles dans leurs choix d'infrastructure.

RecherchePaper
1 source
OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard
376MarkTechPost 

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

Un développeur indépendant nommé Kye Gomez a publié sur GitHub un projet open-source appelé OpenMythos, une reconstruction théorique de l'architecture supposée de Claude Mythos d'Anthropic, écrite entièrement en PyTorch. Anthropic n'ayant jamais publié de documentation technique sur Mythos, Gomez a travaillé à partir de la littérature académique existante pour formuler une hypothèse concrète et vérifiable. Le projet n'est ni un modèle fuité, ni un fine-tune, ni une distillation, c'est une conjecture rendue exécutable. L'architecture proposée repose sur ce que la recherche appelle les Recurrent-Depth Transformers (RDT), également appelés Looped Transformers. Contrairement à un transformer classique comme LLaMA ou GPT, où chaque couche possède ses propres poids indépendants, un RDT applique le même bloc de poids de façon itérative, jusqu'à T=16 fois par passe. OpenMythos structure cela en trois parties : un Prélude, un Bloc Récurrent et une Coda. Le Bloc Récurrent intègre une couche Mixture-of-Experts inspirée de DeepSeekMoE, avec sélection dynamique d'experts à chaque itération, ainsi que le mécanisme Multi-Latent Attention de DeepSeek-V2, qui compresse les tenseurs KV et réduit la mémoire nécessaire d'un facteur 10 à 20. Résultat : 770 millions de paramètres qui, selon l'auteur, rivalisent avec un transformer standard de 1,3 milliard. Ce qui distingue fondamentalement cette architecture est que le raisonnement se déroule entièrement dans un espace latent continu, sans émission de tokens intermédiaires entre les étapes de boucle. Des travaux académiques récents, notamment Saunshi et al. (2025) et le projet COCONUT (2024), montrent formellement que chaque itération d'un RDT équivaut fonctionnellement à une étape de chain-of-thought, mais dans l'espace des vecteurs réels plutôt que des tokens discrets. Cette distinction est capitale : le modèle peut encoder plusieurs alternatives en parallèle à chaque passe, là où le chain-of-thought classique force un chemin unique et séquentiel. En pratique, cela permettrait d'obtenir des capacités de raisonnement profondes avec nettement moins de paramètres stockés, la profondeur étant une fonction du nombre d'itérations à l'inférence, et non de la taille du modèle. OpenMythos s'inscrit dans une tendance croissante de reverse engineering public des grands modèles propriétaires. Anthropic, comme OpenAI, publie peu sur ses choix architecturaux, ce qui pousse la communauté à reconstruire ces systèmes par inférence à partir des brevets, des papiers cités et des comportements observés. Les RDT ne sont pas nouveaux, des travaux de Universal Transformers (Dehghani et al., 2018) aux recherches récentes sur les looped networks, mais leur application à l'échelle des modèles commerciaux reste peu documentée. Si l'hypothèse de Gomez s'avère correcte ou même partiellement juste, elle aurait des implications importantes sur la façon dont l'industrie envisage le rapport entre taille de modèle et capacité de raisonnement, ouvrant potentiellement la voie à des architectures plus efficaces accessibles à des acteurs disposant de moins de ressources computationnelles.

RecherchePaper
1 source
377MarkTechPost 

TabPFN : comment l'apprentissage en contexte surpasse Random Forest et CatBoost sur les données tabulaires

TabPFN-2.5, un modèle de fondation pour données tabulaires développé par Prior Labs, s'impose comme un concurrent sérieux face aux références historiques du machine learning structuré que sont Random Forest, XGBoost et CatBoost. Contrairement à ces modèles entraînés spécifiquement sur chaque jeu de données, TabPFN est pré-entraîné sur des millions de tâches synthétiques générées à partir de processus causaux. Lors des tests comparatifs sur un jeu de données de classification binaire contenant 5 000 échantillons et 20 variables (dont 10 informatives et 5 redondantes), TabPFN surpasse les modèles à base d'arbres de décision en termes de précision tout en éliminant la phase d'entraînement itératif classique. Il obtient ses prédictions directement, sans ajustement des hyperparamètres, en s'appuyant uniquement sur ce qu'il a déjà appris. Ce changement de paradigme est significatif pour les praticiens du machine learning. Pendant des années, les modèles à arbres ont dominé les données tabulaires, la forme la plus répandue en entreprise, de la santé à la finance, car les réseaux de neurones profonds n'arrivaient pas à les battre de manière cohérente sur ce format. TabPFN-2.5 renverse cette tendance en appliquant le principe d'apprentissage en contexte aux données structurées, à l'image de ce que font les grands modèles de langage pour le texte. Il se montre compétitif face à des systèmes d'ensemble puissants comme AutoGluon, tout en réduisant drastiquement le temps et l'effort de mise en oeuvre. Pour les équipes data qui passent des heures à optimiser des pipelines ML, c'est une promesse concrète de gain de productivité. Les données tabulaires représentent la grande majorité des cas d'usage réels en machine learning industriel, un domaine longtemps considéré comme l'apanage des modèles classiques. L'essor des modèles de fondation généralistes, d'abord dans le langage, puis dans l'image, laissait entrevoir cette évolution vers le tabular, mais les tentatives précédentes restaient limitées en taille et en performance. TabPFN-2.5 franchit un cap en prenant en charge des jeux de données plus larges et plus complexes que ses versions antérieures. Prior Labs propose également une approche de distillation permettant de convertir les prédictions de TabPFN en modèles plus légers (réseaux de neurones ou ensembles d'arbres), préservant l'essentiel de la précision tout en accélérant l'inférence pour la production. La prochaine étape sera de valider ces résultats à grande échelle sur des benchmarks industriels diversifiés, mais la direction est claire : les modèles de fondation s'attaquent désormais au coeur du machine learning appliqué.

UEPrior Labs, entreprise allemande, porte cette avancée depuis l'UE, offrant aux équipes data européennes un outil réduisant significativement le temps de développement de pipelines ML sur données tabulaires.

RecherchePaper
1 source
378MarkTechPost 

Google AI publie Auto-Diagnose : un système basé sur des LLM pour diagnostiquer les échecs de tests d'intégration à grande échelle

Une équipe de chercheurs de Google a publié Auto-Diagnose, un outil basé sur le modèle Gemini 2.5 Flash qui analyse automatiquement les logs d'échecs de tests d'intégration, identifie la cause racine et poste un diagnostic structuré directement dans l'interface de revue de code interne de Google, appelée Critique. Évalué manuellement sur 71 pannes réelles couvrant 39 équipes distinctes, l'outil a correctement identifié la cause racine dans 90,14 % des cas. À grande échelle, il a déjà tourné sur 52 635 tests défaillants distincts, représentant 224 782 exécutions sur 131 130 changements de code écrits par 22 962 développeurs différents. Le taux de retours négatifs ("Not helpful") n'atteint que 5,8 %, tandis que 84,3 % des 517 retours reçus correspondent à des demandes "Please fix" de la part de reviewers, signe que les diagnostics sont jugés suffisamment fiables pour déclencher une action immédiate. L'enjeu est concret : diagnostiquer un échec de test d'intégration est structurellement plus difficile que de déboguer un test unitaire. Dans une enquête interne menée auprès de 116 développeurs Google, 38,4 % des échecs de tests d'intégration prenaient plus d'une heure à diagnostiquer, et 8,9 % plus d'une journée, contre respectivement 2,7 % et 0 % pour les tests unitaires. La raison est simple : les logs du pilote de test n'exposent généralement qu'un symptôme générique, un timeout ou une assertion échouée, tandis que l'erreur réelle est enfouie dans l'un des nombreux composants du système testé. Auto-Diagnose résout ce problème en agrégeant tous les logs, les triant par horodatage en un flux unique, puis en guidant le modèle via un protocole explicite étape par étape pour remonter à la source réelle de l'échec. Sur le plan technique, le système fonctionne sans fine-tuning : Gemini 2.5 Flash est appelé avec une température de 0,1 pour des résultats quasi-déterministes, à partir d'un prompt d'ingénierie pur incluant des contraintes négatives strictes, par exemple l'interdiction de tirer une conclusion si les logs du composant fautif sont absents. Chaque exécution consomme en moyenne 110 617 tokens en entrée et produit 5 962 tokens en sortie, avec une latence médiane de 56 secondes et un 90e percentile à 346 secondes, suffisamment rapide pour que le développeur voie le diagnostic avant de changer de contexte. Ce travail illustre une tendance plus large chez les grands groupes technologiques : utiliser les LLM non pas pour écrire du code, mais pour absorber la complexité observationnelle des systèmes distribués, là où l'humain peine à tenir l'ensemble des signaux en tête simultanément.

RecherchePaper
1 source
379VentureBeat AI 

De l'entraînement à l'inférence : comment optimiser votre budget de calcul IA de bout en bout

Des chercheurs des universités du Wisconsin-Madison et de Stanford ont publié un cadre théorique appelé Train-to-Test (T²) scaling laws, qui remet en question les règles d'entraînement des grands modèles de langage en vigueur depuis des années. Leur approche démontre qu'il est plus efficace, sur le plan computationnel, d'entraîner des modèles nettement plus petits sur des volumes de données bien plus importants que ce que préconisent les standards actuels, puis d'utiliser les ressources ainsi économisées pour générer plusieurs échantillons de raisonnement au moment de l'inférence. La règle Chinchilla, référence dominante du secteur depuis 2022, recommande environ 20 tokens d'entraînement par paramètre de modèle. Les concepteurs de familles comme Llama, Gemma ou Qwen s'en écartent déjà délibérément en surinformant leurs modèles compacts, mais sans cadre rigoureux pour calibrer ce surplus. Le framework T² comble précisément ce vide en traitant comme une équation unifiée trois variables jusqu'ici étudiées séparément : la taille du modèle (N), le volume de tokens d'entraînement (D) et le nombre d'échantillons générés à l'inférence (k). L'impact concret est significatif pour les entreprises qui développent leurs propres modèles ou déploient des workflows agentiques complexes. Comme l'explique Nicholas Roberts, co-auteur de l'article, la pile d'inférence se grippe lorsque chaque appel individuel est coûteux, ce qui arrive systématiquement avec de grands modèles nécessitant un échantillonnage répété. Avec des modèles plus compacts mais surinformés, ce même échantillonnage multiple devient accessible à une fraction du coût. Pour les développeurs d'applications d'IA en entreprise, cela signifie qu'il n'est pas nécessaire de s'appuyer sur des modèles frontières onéreux pour obtenir des performances élevées sur des tâches complexes : des modèles plus petits, correctement entraînés et utilisés avec des stratégies d'inférence adaptées, peuvent surpasser des modèles bien plus larges tout en maintenant des coûts par requête maîtrisables. Ce travail s'inscrit dans une tension croissante entre deux écoles de pensée dans la recherche sur les LLM : celle qui mise sur l'augmentation continue de la taille des modèles à l'entraînement, et celle qui explore le potentiel du calcul au moment de l'inférence. Les lois d'échelle de préentraînement et de test-time scaling avaient jusqu'ici été développées en silo, malgré leur interdépendance fondamentale : la taille et la durée d'entraînement d'un modèle déterminent directement la qualité et le coût de chacun de ses échantillons d'inférence. Le framework T² introduit une passerelle mathématique entre ces deux domaines, notamment en reliant la métrique de perte continue utilisée à l'entraînement aux métriques de performance réelles utilisées au déploiement, comme le pass@k. Les suites probables incluent une adoption progressive par les équipes qui construisent des agents autonomes multi-étapes, pour lesquels le coût d'inférence est souvent le principal facteur limitant.

RecherchePaper
1 source
GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic
380Le Big Data 

GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic

OpenAI a présenté le 16 avril 2026 GPT-Rosalind, un modèle d'intelligence artificielle de nouvelle génération conçu spécifiquement pour la recherche en biologie, la découverte de médicaments et la médecine translationnelle. Baptisé en hommage à la chimiste Rosalind Franklin, ce modèle est accessible en version test via ChatGPT, Codex et l'API d'OpenAI, mais uniquement pour un cercle restreint d'organisations américaines sélectionnées. Ses capacités couvrent la génomique, l'ingénierie des protéines et la chimie moléculaire : il croise des données complexes, formule des hypothèses biologiques et conçoit des protocoles expérimentaux complets. Sur BixBench, référence sectorielle en bioinformatique, il se classe premier parmi tous les modèles ayant publié leurs résultats. Sur LABBench2, il surpasse GPT-5.4 sur six tâches sur onze, avec une performance particulièrement nette sur CloningQA, un exercice de conception de réactifs pour protocoles de clonage moléculaire. En collaboration avec Dyno Therapeutics, le modèle a été testé sur des séquences d'ARN inédites : ses propositions ont dépassé 95 % des experts humains en prédiction de protéines, et atteint le 84e percentile pour la génération de séquences. Pour la recherche biomédicale, l'enjeu est considérable. Des tâches qui mobilisaient des équipes entières pendant des années peuvent désormais être accélérées par un modèle capable de raisonner sur des structures biologiques complexes. La gratuité pendant la phase de test lève la barrière financière pour les laboratoires, leur permettant d'expérimenter sans contrainte de budget. Si les performances observées se confirment en conditions réelles, GPT-Rosalind pourrait compresser significativement les cycles de développement de médicaments, dont les délais se comptent actuellement en décennies et les coûts en milliards de dollars. OpenAI a choisi une stratégie d'accès délibérément restrictive, justifiée par la sensibilité des domaines concernés. Les organisations candidates subissent une vérification approfondie : leurs travaux doivent présenter un impact collectif identifiable et positif. Les bénéficiaires acceptent des conditions d'usage strictes et s'engagent à mettre en place des mécanismes contre les détournements. Cette prudence n'est pas anodine : un modèle capable de manipuler des concepts biologiques avancés, comme la conception de protéines ou la modification de séquences génétiques, soulève des questions de biosécurité que la communauté scientifique et les régulateurs scrutent de près. Le lancement de GPT-Rosalind s'inscrit dans une course plus large entre OpenAI, Google DeepMind et des acteurs spécialisés comme Insilico Medicine pour dominer l'IA appliquée aux sciences de la vie, un marché estimé à plusieurs centaines de milliards de dollars d'ici 2030.

UELes laboratoires et chercheurs européens sont exclus de l'accès à GPT-Rosalind, réservé à un cercle restreint d'organisations américaines, creusant l'écart avec les acteurs américains dans la course à l'IA biomédicale.

RechercheOpinion
1 source
États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet
381MarkTechPost 

États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet

Des chercheurs en physique computationnelle explorent une approche inédite pour simuler les systèmes quantiques frustrés : l'utilisation d'architectures Transformer, les mêmes qui propulsent les grands modèles de langage, comme ansatz variationnel pour représenter des fonctions d'onde quantiques. Concrètement, l'implémentation s'appuie sur NetKet et JAX pour résoudre la chaîne de spins de Heisenberg J1-J2, un système dit "frustré" où les interactions magnétiques concurrentes entre premiers voisins (J1) et seconds voisins (J2) génèrent des corrélations quantiques extraordinairement complexes. Le modèle Transformer utilisé comporte 6 couches d'attention, 4 têtes d'attention et une dimension cachée de 96, entraîné par Monte Carlo variationnel (VMC) avec reconfiguration stochastique, un analogue du gradient naturel adapté à l'optimisation de fonctions d'onde. L'enjeu est fondamental pour la physique de la matière condensée. Les méthodes classiques d'exacte diagonalisation atteignent rapidement leurs limites face à la croissance exponentielle de l'espace de Hilbert : un système de N spins 1/2 requiert 2^N états de base. Les États Quantiques Neuronaux (NQS) introduits par cette approche permettent de représenter des fonctions d'onde hautement expressives en paramétrant leur amplitude complexe log-Ψ via un réseau de neurones, contournant cette explosion combinatoire. Les Transformers sont particulièrement adaptés : leur mécanisme d'attention globale capture naturellement les corrélations à longue portée entre spins, là où les réseaux convolutifs classiques peinent à dépasser quelques voisins. Les résultats sont benchmarkés contre la diagonalisation exacte de Lanczos, permettant de quantifier la précision de l'approximation variationnelle. Cette convergence entre apprentissage profond et physique quantique s'inscrit dans un mouvement plus large amorcé en 2017 avec les travaux pionniers de Carleo et Troyer, qui ont démontré pour la première fois qu'un réseau de neurones pouvait rivaliser avec les meilleures méthodes numériques en physique quantique. Depuis, les architectures se sont sophistiquées : réseaux récurrents, machines de Boltzmann restreintes, et désormais Transformers. L'écosystème logiciel autour de NetKet, développé principalement par des groupes européens, et de JAX/Flax de Google DeepMind, démocratise ces techniques auparavant réservées à quelques laboratoires spécialisés. Les perspectives sont considérables : simuler des matériaux quantiques réels comme les supraconducteurs à haute température ou les isolants topologiques, là où les méthodes traditionnelles restent bloquées par la "malédiction de la dimensionnalité".

UEL'écosystème NetKet, développé principalement par des groupes européens, renforce la compétitivité de la recherche quantique européenne dans la simulation de matériaux complexes comme les supraconducteurs à haute température.

RecherchePaper
1 source
382MarkTechPost 

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper
1 source
383VentureBeat AI 

Les modèles de pointe échouent une fois sur trois en production et deviennent plus difficiles à auditer

Les modèles d'IA les plus avancés échouent encore environ une fois sur trois dans des conditions réelles, selon le neuvième rapport annuel de l'AI Index publié par Stanford HAI. Sur τ-bench, un benchmark qui évalue des agents sur des tâches concrètes impliquant des échanges utilisateurs et des appels à des API externes, les meilleurs modèles actuels, dont Claude Opus 4.5, GPT-5.2 et Qwen3.5, n'atteignent qu'entre 62,9 % et 70,2 % de réussite. Pourtant, ces mêmes systèmes ont réalisé des progrès spectaculaires ailleurs : les performances sur Humanity's Last Exam ont progressé de 30 % en un an, les scores sur MMLU-Pro dépassent désormais 87 %, et la réussite sur SWE-bench Verified, qui mesure la capacité à résoudre de vrais bugs logiciels, est passée de 60 % à près de 100 % en douze mois. Sur WebArena, un environnement web simulé pour agents autonomes, le taux de succès est passé de 15 % en 2023 à 74,3 % début 2026. En cybersécurité, les modèles frontières résolvent désormais 93 % des problèmes de Cybench, contre 15 % l'an dernier. Ce décalage entre capacité et fiabilité constitue, selon Stanford HAI, le défi opérationnel central pour les directions informatiques en 2026. L'adoption de l'IA en entreprise a atteint 88 %, et les usages se multiplient dans des domaines à haute exigence d'exactitude : traitement fiscal, finance d'entreprise, droit, traitement de prêts hypothécaires, avec des taux de précision oscillant entre 60 et 90 %. Le problème n'est pas l'absence de progrès, mais leur caractère imprévisible. Les chercheurs reprennent le concept de "jagged frontier" de l'universitaire Ethan Mollick pour décrire cette frontière instable : un modèle peut décrocher une médaille d'or à l'Olympiade Internationale de Mathématiques, comme l'a fait Gemini Deep Think en 2025, résolvant cinq des six problèmes en langage naturel en moins de 4h30, et simultanément être incapable de lire l'heure de façon fiable. Ce rapport intervient dans un contexte de course aux capacités qui ne montre aucun signe de ralentissement. Stanford HAI est explicite : "Les capacités de l'IA ne plafonnent pas. Elles s'accélèrent." Les progrès en génération vidéo illustrent cette tendance : Veo 3 de Google DeepMind, testé sur plus de 18 000 vidéos générées, a démontré une capacité à simuler la flottabilité et à résoudre des labyrinthes sans entraînement spécifique sur ces tâches, suggérant que certains modèles commencent à modéliser le fonctionnement du monde physique. La question qui se pose désormais n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais comment garantir une fiabilité suffisante pour des déploiements critiques, et comment auditer des systèmes dont la complexité croissante rend l'interprétabilité de plus en plus difficile.

UELes entreprises européennes déployant l'IA dans des secteurs réglementés (finance, droit, fiscal) doivent intégrer ce taux d'échec de 30 % dans leurs stratégies de déploiement, avec des implications directes pour la conformité à l'AI Act qui exige des garanties de fiabilité pour les systèmes à haut risque.

RecherchePaper
1 source
384VentureBeat AI 

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Des chercheurs de Meta et de plusieurs universités ont présenté un nouveau cadre d'agents autonomes baptisé "hyperagents", conçu pour surmonter les limites des systèmes d'IA auto-améliorants actuels. Contrairement aux architectures existantes, comme la Darwin Gödel Machine (DGM) de Sakana AI, qui ne fonctionnent efficacement que sur des tâches de programmation, les hyperagents peuvent réécrire et optimiser leur propre logique de résolution de problèmes dans des domaines non techniques comme la robotique, l'analyse documentaire ou la revue d'articles scientifiques. Le système est dit "entièrement autoréférentiel" : il peut analyser, évaluer et modifier n'importe quelle partie de lui-même sans contraintes liées à sa configuration initiale. Les hyperagents inventent de façon autonome des capacités génériques comme la mémoire persistante ou le suivi automatisé des performances, sans intervention humaine. L'enjeu est considérable pour les entreprises qui cherchent à déployer des agents IA dans des environnements de production réels, où les tâches sont imprévisibles et variables. Jusqu'ici, les systèmes auto-améliorants étaient bridés par un "meta-agent" statique, conçu par des ingénieurs humains et incapable d'évoluer plus vite que ces derniers ne pouvaient le maintenir. Jenny Zhang, co-auteure de l'article, résume le problème ainsi : "Chaque fois que quelque chose change ou se casse, une personne doit intervenir pour mettre à jour les règles ou la logique." Les hyperagents brisent ce "mur de maintenance" en découplant la capacité à améliorer les tâches de la capacité à modifier le code sous-jacent, deux compétences fondamentalement distinctes. Le résultat est un système qui non seulement s'améliore sur les tâches, mais optimise également le cycle d'auto-amélioration lui-même, accélérant les progrès de façon exponentielle avec moins de prompt engineering manuel. Ce travail s'inscrit dans une course plus large à l'automatisation de l'ingénierie des agents IA, un domaine en pleine effervescence depuis les succès de DGM sur les benchmarks de programmation en 2025. La DGM avait démontré qu'une amélioration récursive et ouverte était techniquement réalisable, mais uniquement lorsque la tâche elle-même était du code. Meta franchit une étape supplémentaire en généralisant ce principe à des domaines où l'évaluation des performances et la réécriture du comportement requièrent des compétences radicalement différentes, comme l'analyse textuelle subjective ou l'exploration de données métier. Si les hyperagents tiennent leurs promesses à l'échelle, ils pourraient réduire drastiquement la dépendance aux équipes d'ingénierie spécialisées pour adapter les agents à chaque nouveau contexte, ouvrant la voie à des systèmes véritablement capables de s'adapter seuls aux environnements d'entreprise en constante évolution.

RecherchePaper
1 source
385InfoQ AI 

La compression TurboQuant de Google pourrait accélérer l'inférence sans perte de précision sur du matériel moins puissant

Google Research a dévoilé TurboQuant, un nouvel algorithme de quantification conçu pour compresser les caches Key-Value (KV) des grands modèles de langage jusqu'à six fois leur taille originale. Cette technique permet d'atteindre une compression à 3,5 bits avec une perte de précision quasi nulle, et sans nécessiter de réentraînement du modèle. Les premiers benchmarks communautaires confirment des gains d'efficacité substantiels, permettant aux développeurs de faire tourner des fenêtres de contexte très larges sur du matériel bien moins puissant qu'auparavant. L'enjeu est considérable : le cache KV est l'un des principaux goulots d'étranglement en mémoire lors de l'inférence de LLM, surtout lorsque les contextes atteignent des centaines de milliers de tokens. En réduisant l'empreinte mémoire de ces caches par un facteur pouvant atteindre 6x, TurboQuant ouvre la voie à des déploiements sur des GPU grand public ou des serveurs moins coûteux, ce qui représente une réduction directe des coûts d'inférence pour les entreprises et les développeurs indépendants. La compression des caches KV est un domaine de recherche actif, avec des travaux concurrents comme KVQuant ou StreamingLLM déjà publiés ces dernières années. L'originalité de TurboQuant réside dans sa capacité à atteindre ce niveau de compression sans phase de fine-tuning, ce qui facilite son intégration dans des pipelines existants. Google Research n'a pas encore précisé de calendrier de disponibilité dans ses produits, mais cette publication s'inscrit dans la course plus large à réduire le coût computationnel des modèles toujours plus grands comme Gemini.

UELes développeurs et entreprises européens pourraient bénéficier indirectement d'une réduction des coûts d'inférence LLM en déployant des modèles à large contexte sur du matériel grand public ou des serveurs moins coûteux.

RecherchePaper
1 source
Modèles personnalisés d'Amazon Nova améliorent la prédiction des propriétés moléculaires dans la découverte de médicaments
386Amazon Science 

Modèles personnalisés d'Amazon Nova améliorent la prédiction des propriétés moléculaires dans la découverte de médicaments

Les chercheurs de l'Amazon Generative AI Innovation Center et de l'organisation Artificial General Intelligence (AGI) ont collaboré avec Nimbus Therapeutics pour adapter les grands modèles linguistiques (LLMs) à la découverte de médicaments. Traditionnellement, les réseaux neuronaux graphiques (GNNs) sont employés dans le domaine de la prédiction des propriétés moléculaires pour la R&D pharmaceutique en raison de leur précision solide sur des tâches bien définies. Cependant, cette approche nécessite le développement et la maintenance coûteux de multiples GNNs spécialisés pour différentes propriétés moléculaires. L'équipe a adopté une nouvelle stratégie qui combine l'exactitude des GNNs avec la généralisation et le raisonnement des LLMs grâce à la mise à finement supérieur (SFT) et au mise à finement par renforcement (RFT). En personnalisant un LLM de purpose général, ils ont obtenu des résultats comparables à ceux obtenus avec plusieurs GNNs, mais en beaucoup moins de temps et d'efforts. Les LLMs ainsi affinés simplifient considérablement le processus, permettant aux chimistes de soumettre une seule requête pour obtenir des prédictions sur toutes les propriétés moléculaires d'intérêt, plutôt que de gérer plusieurs modèles dissociés. Cette approche ouvre la possibilité d'une assistance interactive qui unifie à la fois la prédiction et la génération des propriétés moléculaires, ce que l'équipe considère comme le prochain pas idéal pour la conception assistée par IA des médicaments. Ces modèles personnalisés permettent aux équipes biotech de moindre envergure de collaborer efficacement avec des systèmes d'IA qui comprennent leur langage scientifique spécialisé. Le développement d'un seul médicament prend généralement 10 à 15 ans et coûte en moyenne plus de 2 milliards de dollars, avec seulement environ 8 % des candidats médicaments qui entrent dans les essais cliniques recevant l'approbation de la FDA. Les assistants d'IA prometteurs pourraient améliorer considérablement la productivité dans les premières étapes du pipeline, où les chimistes conçoivent des molécules avec des propriétés pharmaceutiques, augmentant ainsi les chances de livrer un médicament sûr et efficace aux essais cliniques. L'étude s'est concentrée sur trois catégories de propriétés cruciales pour le développement des médicaments : lipophilicité, permeabilité et clairance. La lipophilicité détermine si une molécule peut traverser les membranes biologiques, influençant l'absorption et la distribution du médicament, ainsi que d'autres caractéristiques. La permeabilité mesure la facilité avec laquelle un médicament pénètre dans le corps via le sang, tandis que la clairance indique la rapidité avec laquelle le corps élimine le médicament. Ces propriétés varient sur des plages de valeurs différentes et présentent des dépendances complexes, posant des défis pour optimiser les candidats médicaments efficaces et sûrs.

UECette collaboration entre Amazon, AGI et Nimbus Therapeutics pour adapter les grands modèles linguistiques aux besoins spécifiques de la découverte de médicaments pourrait accélérer considérablement le processus R&D pharmaceutique en France, facilitant ainsi l'accès à des outils plus efficaces et moins coûteux.

💬 Remplacer une batterie de GNNs spécialisés par un seul LLM affiné, c'est le genre de simplification qui paraît évidente après coup mais qui demande un travail de fond sérieux. Les résultats semblent tenir la route, et pour les petites équipes biotech qui n'ont pas les ressources pour maintenir dix modèles maison, c'est une vraie bouffée d'air. Amazon s'installe tranquillement dans la pharma, et ça ne fait que commencer.

RechercheActu
1 source
387AI News 

L'écart entre les États-Unis et la Chine en IA s'est réduit, mais pas sur l'IA responsable

Le rapport annuel sur l'intelligence artificielle publié cette semaine par l'Institut pour l'IA centrée sur l'humain de l'Université Stanford dresse un état des lieux qui contredit plusieurs certitudes dominantes. Ce document de 423 pages couvre les performances des modèles, les flux d'investissement, la recherche académique et la sécurité de l'IA. Parmi les conclusions les plus saillantes : l'écart de performance entre les modèles américains et chinois s'est pratiquement refermé. En février 2025, DeepSeek-R1 a brièvement égalé le meilleur modèle américain, et en mars 2026, le modèle de pointe d'Anthropic ne devance son équivalent chinois que de 2,7 %. Les États-Unis produisent encore davantage de modèles de premier rang (50 en 2025 contre 30 pour la Chine) et conservent un avantage en brevets à fort impact, mais la Chine domine désormais en volume de publications, en citations et en dépôts de brevets. Sa part dans les 100 articles d'IA les plus cités est passée de 33 en 2021 à 41 en 2024. La Corée du Sud, fait notable, détient le premier rang mondial pour les brevets IA par habitant. Ce rééquilibrage des forces a des implications directes pour les entreprises et les gouvernements qui fondent leur stratégie sur une supposée suprématie technologique américaine durable : cette hypothèse n'est plus solide. Le rapport pointe également une vulnérabilité structurelle majeure : les États-Unis abritent 5 427 centres de données, soit plus de dix fois tout autre pays, mais la quasi-totalité des puces IA qui les font fonctionner est fabriquée par une seule entreprise, TSMC, dont le site principal se trouve à Taïwan. Une expansion de TSMC sur le sol américain a certes démarré en 2025, mais la dépendance reste critique. Par ailleurs, les incidents documentés liés à l'IA ont bondi à 362 en 2025 contre 233 en 2024, et moins de 100 par an avant 2022, selon l'AI Incident Database. Le moniteur de l'OCDE a enregistré un pic de 435 incidents mensuels en janvier 2026. Ce qui rend ces chiffres d'autant plus préoccupants, c'est l'absence quasi totale d'évaluation publique en matière de sécurité responsable. Le rapport constate que presque tous les développeurs de modèles publient leurs résultats sur des benchmarks de capacité, mais que les benchmarks de sécurité, d'équité et de factualité restent en grande partie vides. Seul Claude Opus 4.5 renseigne plus de deux indicateurs de sécurité responsable parmi ceux suivis par le rapport ; seul GPT-5.2 rapporte le benchmark StrongREJECT. Les laboratoires font bien du red-teaming et des tests d'alignement en interne, mais ces efforts sont rarement divulgués via un référentiel commun et comparable. Résultat : toute comparaison externe sur les dimensions de sécurité est impossible pour la majorité des modèles. Selon une enquête conjointe du rapport et de McKinsey, la part des organisations évaluant leur gestion des incidents IA comme "excellente" est en recul, signalant que la gouvernance interne ne suit pas le rythme de déploiement.

UEL'UE doit reajuster sa strategie d'autonomie technologique face a la quasi-parite sino-americaine en IA, et l'absence de benchmarks publics de securite responsable complique directement l'evaluation de conformite prevue par l'AI Act.

💬 L'écart à 2,7% entre le meilleur modèle US et son équivalent chinois, oui, c'est notable. Mais le chiffre qui m'a arrêté, c'est que pendant que les incidents IA grimpent à 362 en 2025, presque aucun labo ne publie ses données sur les benchmarks de sécurité (seul Claude Opus 4.5 renseigne plus de deux indicateurs dans le rapport). On compare les capacités dans tous les sens, et on construit sur des fondations qu'on refuse de montrer.

RecherchePaper
1 source
388VentureBeat AI 

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples

Une équipe de recherche de Databricks a publié des résultats montrant que les agents multi-étapes surpassent systématiquement les systèmes RAG classiques lorsque les questions nécessitent de croiser données structurées et contenu non structuré. Testés sur neuf tâches de connaissance d'entreprise, les agents multi-étapes affichent des gains de 20% ou plus sur le benchmark STaRK de Stanford, qui couvre trois domaines semi-structurés : les données produits Amazon, le Microsoft Academic Graph et une base de connaissances biomédicale. Sur ce dernier domaine, l'écart de performance atteint 38%. Pour s'assurer que ces gains ne s'expliquent pas simplement par la qualité du modèle sous-jacent, Databricks a réexécuté les baselines STaRK publiées en utilisant un modèle de fondation plus récent et plus puissant : ce modèle plus fort a quand même perdu face à l'agent multi-étapes, confirmant que le problème est architectural. Le problème fondamental des systèmes RAG à passage unique est leur incapacité à décomposer une requête hybride, c'est-à-dire une question qui mélange un filtre structuré précis avec une recherche sémantique ouverte. Une question telle que "Quels produits ont vu leurs ventes baisser ces trois derniers mois, et quels problèmes connexes remontent dans les avis clients ?" exige d'interroger simultanément un entrepôt SQL et des documents non structurés, puis de combiner les résultats. Un système RAG classique ne peut pas scinder cette requête, router chaque partie vers la bonne source de données et synthétiser le tout. Michael Bendersky, directeur de la recherche chez Databricks, résume ainsi la limite : "RAG fonctionne, mais ça ne passe pas à l'échelle. Si vous voulez comprendre pourquoi vos ventes baissent, il faut aider l'agent à voir les tables et les données commerciales. Votre pipeline RAG sera incompétent pour cette tâche." Pour répondre à ce problème, Databricks a conçu le Supervisor Agent, implémentation concrète de cette approche de recherche. Son architecture repose sur trois mécanismes : la décomposition parallèle des outils, où l'agent lance simultanément des requêtes SQL et des recherches vectorielles avant d'analyser les résultats combinés ; l'auto-correction, qui lui permet de détecter un échec de récupération, de reformuler la requête et d'emprunter un autre chemin, comme lorsqu'il exécute une jointure SQL pour trouver un auteur ayant exactement 115 publications sur un sujet précis ; et une configuration déclarative en langage naturel, qui permet de connecter n'importe quelle nouvelle source de données sans ré-entraînement. Ces travaux s'appuient sur les recherches antérieures de Databricks sur les retrievers instruits, qui avaient déjà amélioré la récupération sur données non structurées via des requêtes enrichies de métadonnées, et marquent une extension logique vers les sources relationnelles que les entreprises utilisent le plus au quotidien.

RecherchePaper
1 source
AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA
389Amazon Science 

AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA

Amazon Web Services (AWS) et l'université Johns Hopkins ont annoncé le lancement de l'Antibody Developability Benchmark, une base de données publique destinée à accélérer la conception d'anticorps thérapeutiques par intelligence artificielle. Ce jeu de données est 20 fois plus diversifié que les benchmarks existants dans la littérature scientifique, couvrant 50 anticorps de référence, plusieurs formats structuraux, cibles et profils biophysiques. Le projet est né d'une collaboration entre l'équipe Amazon Bio Discovery d'AWS et le Gray Lab du département de génie chimique et biomoléculaire de Johns Hopkins, dirigé par le professeur Jeffrey Gray, créateur original de RosettaDock, un outil de référence pour la prédiction de structures de complexes protéiques. Ce benchmark comble un manque critique qui freinait depuis des années le développement d'outils d'IA fiables pour la découverte de médicaments. Les modèles de langage protéique (pLM) et les architectures de deep learning structurel promettent de prédire la "développabilité" des anticorps, c'est-à-dire leur capacité à être fabriqués, stabilisés et administrés sans danger comme médicament. Or, comme l'a souligné Jeffrey Gray, les benchmarks internes de son laboratoire montraient que les modèles actuels échouaient encore à prédire des propriétés critiques comme la solubilité ou la spécificité. Sans données publiques suffisamment larges, diversifiées et collectées dans des conditions standardisées, il était impossible d'évaluer rigoureusement ces outils, ni de les améliorer de manière fiable. La nouvelle base de données répond directement à cette contrainte en fournissant des mesures biophysiques et biochimiques à grande échelle pour un espace de séquences représentatif du travail réel d'ingénierie des anticorps. Depuis 1986, date à laquelle la FDA américaine a approuvé son premier anticorps thérapeutique, les progrès ont été réels mais les délais et coûts de développement restent prohibitifs. Les pandémies récentes ont mis en lumière l'urgence de disposer d'outils capables d'identifier et d'optimiser rapidement ces molécules. Les modèles de fondation biologiques (BioFM) représentent une voie prometteuse, mais leur crédibilité repose sur leur capacité à être évalués contre des données expérimentales solides. Les datasets publics existants souffraient d'un biais structurel majeur : ils se concentraient sur un seul format d'anticorps, une seule cible, ou ne contenaient que des molécules naturelles ou cliniquement avancées, peu représentatives des défis réels de conception. En rendant publique cette base de données hétérogène et à grande échelle, AWS et Johns Hopkins espèrent catalyser une nouvelle génération d'outils in silico capables de raccourcir significativement les timelines de découverte, avec des implications directes pour la réponse aux crises sanitaires futures.

UELes laboratoires pharmaceutiques et équipes de recherche européens pourront exploiter ce benchmark public pour évaluer et améliorer leurs propres modèles d'IA appliqués à la conception d'anticorps thérapeutiques.

RecherchePaper
1 source
390MarkTechPost 

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Des chercheurs de Google Research ont publié un article présentant Vantage, un système d'évaluation basé sur des grands modèles de langage (LLM) conçu pour mesurer trois compétences humaines longtemps considérées comme impossibles à tester à grande échelle : la collaboration, la créativité et la pensée critique. L'étude, conduite auprès de 188 participants âgés de 18 à 25 ans recrutés via la plateforme Prolific, a généré 373 transcriptions de conversations entre humains et groupes d'agents IA. Chaque session durait 30 minutes et impliquait des tâches collaboratives structurées, comme la conception d'une expérience scientifique ou un débat argumenté. Les modèles utilisés sont Gemini 2.5 Pro pour les modules de collaboration et Gemini 3 pour la créativité et la pensée critique. L'apport technique central de Vantage est ce que les chercheurs appellent l'architecture "Executive LLM" : plutôt que de faire fonctionner un agent IA distinct pour chaque participant simulé, un seul LLM orchestre tous les personnages artificiels de la conversation. Ce modèle coordinateur a accès à la rubrique d'évaluation en temps réel et s'en sert activement pour piloter les échanges vers des situations révélatrices. Si la compétence ciblée est la résolution de conflits, l'Executive LLM peut faire exprimer un désaccord par l'un de ses personnages et le maintenir jusqu'à ce que le participant humain réagisse. Les tests ont montré que cette approche surpasse significativement une configuration où des agents indépendants interagissent sans coordination : sans pilotage, les conversations peuvent se dérouler sans jamais créer les conditions nécessaires à l'évaluation d'une compétence donnée. Les scores attribués automatiquement par le système ont atteint un niveau de fiabilité comparable à celui d'experts humains formés à la notation. Ce travail s'attaque à un problème de mesure vieux de plusieurs décennies. Les tests standardisés classiques, comme le PISA 2015 sur la résolution collaborative de problèmes, ont tenté de simuler le travail en groupe via des interfaces à choix multiples avec des coéquipiers scriptés, sacrifiant l'authenticité au profit du contrôle. Les évaluations humaines réelles font l'inverse, mais ne passent pas à l'échelle. Google positionne les LLM comme la première technologie capable de satisfaire simultanément ces deux exigences contradictoires : produire des interactions conversationnelles naturelles tout en maintenant des conditions reproductibles et comparables. Les implications dépassent largement le cadre académique : cette approche pourrait transformer les recrutements en entreprise, les certifications professionnelles ou les outils pédagogiques adaptatifs. Avec des entreprises comme Google, Microsoft et OpenAI qui investissent massivement dans les agents conversationnels, Vantage illustre une nouvelle frontière où les LLM ne servent plus seulement à produire du texte, mais à modéliser et évaluer le comportement humain lui-même.

UECe système d'évaluation automatisée pourrait influencer les pratiques de recrutement et les certifications professionnelles en Europe, ainsi que les outils pédagogiques utilisés dans les systèmes éducatifs européens.

RecherchePaper
1 source
391InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source
392MIT Technology Review 

Comprendre l'état actuel de l'IA : ces graphiques sont essentiels

Le rapport annuel AI Index 2026 de l'Institut HAI de l'Université Stanford, publié ce mois-ci, dresse un bilan saisissant de l'état de l'intelligence artificielle mondiale. Malgré les prédictions d'un essoufflement technologique, les modèles de pointe continuent de progresser à un rythme sans précédent. Sur le benchmark SWE-bench Verified, qui mesure les capacités en ingénierie logicielle, les meilleurs scores sont passés d'environ 60 % en 2024 à près de 100 % en 2025. Les modèles atteignent désormais ou dépassent les performances d'experts humains sur des tests de niveau doctorat en sciences, mathématiques et compréhension du langage. L'adoption de l'IA par le grand public progresse plus vite que celle du PC ou d'Internet en leur temps, et les entreprises du secteur génèrent des revenus plus rapidement que lors de n'importe quel autre boom technologique de l'histoire. Le tout, en dépensant des centaines de milliards de dollars en centres de données et en puces électroniques. Cette accélération a des conséquences concrètes et massives. Les centres de données IA dans le monde peuvent désormais consommer 29,6 gigawatts d'électricité, soit l'équivalent de la consommation maximale de l'État de New York. La seule utilisation de GPT-4o d'OpenAI pourrait dépasser annuellement les besoins en eau potable de 12 millions de personnes. La chaîne d'approvisionnement en semi-conducteurs représente une vulnérabilité stratégique majeure : les États-Unis concentrent la majorité des centres de données mondiaux, mais une seule entreprise taïwanaise, TSMC, fabrique la quasi-totalité des puces IA de pointe. Par ailleurs, les benchmarks censés mesurer les progrès de l'IA, les cadres réglementaires et le marché du travail peinent à suivre un secteur qui avance bien plus vite qu'eux. Sur le plan géopolitique, la course entre les États-Unis et la Chine est désormais au coude à coude. En début d'année 2023, OpenAI dominait nettement avec ChatGPT, mais l'écart s'est resserré en 2024 avec l'arrivée des modèles de Google et Anthropic. En février 2025, DeepSeek R1, développé par un laboratoire chinois, a brièvement égalé ChatGPT. En mars 2026, Anthropic prend la tête du classement Arena, suivi de près par xAI, Google et OpenAI, tandis que DeepSeek et Alibaba ne sont qu'à faible distance. Si les États-Unis disposent de modèles plus puissants, de davantage de capitaux et de 5 427 centres de données (dix fois plus que tout autre pays), la Chine domine en publications scientifiques, brevets et robotique. La transparence, elle, recule : OpenAI, Anthropic et Google ne divulguent plus leurs codes d'entraînement ni la taille de leurs modèles, compliquant le travail des chercheurs indépendants en matière de sécurité de l'IA.

UELes cadres réglementaires européens, dont l'AI Act, peinent à suivre le rythme d'accélération de l'IA décrit dans le rapport Stanford HAI 2026, soulevant des interrogations sur la capacité de l'UE à encadrer efficacement un secteur qui évolue bien plus vite que ses institutions.

💬 SWE-bench à presque 100% en un an, des modèles qui surpassent des experts sur des tests de doctorat, une adoption plus rapide qu'Internet en son temps. Les chiffres Stanford HAI 2026 sont là, vérifiables, pas du storytelling de keynote. Ce qui coince, c'est que pendant que les perfs s'envolent, OpenAI, Anthropic et Google ont discrètement arrêté de publier tailles de modèles et codes d'entraînement, laissant les chercheurs en sécurité IA travailler de plus en plus dans le noir.

RecherchePaper
1 source
393Import AI 

Import AI 453 : failles dans les agents IA, MirrorCode et dix perspectives sur la perte progressive de contrôle

METR et Epoch AI, deux organisations spécialisées dans la mesure des capacités de l'IA, ont publié MirrorCode, un benchmark inédit conçu pour évaluer la capacité des modèles à réimplémenter de manière autonome des logiciels complexes existants. Le principe est simple mais exigeant : l'agent IA reçoit un accès en exécution seule à un programme en ligne de commande, ainsi qu'un ensemble de tests visibles, mais sans accès au code source original. Il doit ensuite reproduire fidèlement le comportement du programme. Le benchmark couvre plus de 20 programmes cibles dans des domaines variés : utilitaires Unix, outils de sérialisation de données, bioinformatique, interpréteurs, analyse statique, cryptographie et compression. Le résultat le plus frappant : Claude Opus 4.6 a réussi à réimplémenter gotree, un toolkit de bioinformatique représentant environ 16 000 lignes de code Go et plus de 40 commandes, une tâche qu'un ingénieur humain sans assistance IA aurait mis entre 2 et 17 semaines à accomplir. Ces résultats suggèrent que les systèmes d'IA actuels ont déjà atteint, sur certaines tâches précises, le niveau d'un développeur expérimenté travaillant à plein temps. La capacité à rétro-ingénierer un logiciel complexe en se basant uniquement sur ses sorties est un exercice que seule une fraction des programmeurs humains pourrait réaliser, et en y consacrant plusieurs jours. MirrorCode documente aussi un phénomène important : les performances s'améliorent avec la puissance de calcul allouée à l'inférence, ce qui signifie que des projets encore hors de portée aujourd'hui pourraient devenir accessibles en augmentant simplement les ressources. Pour les entreprises tech, cela redéfinit concrètement ce qu'un agent IA peut accomplir en autonomie sur des projets de longue haleine, bien au-delà de la simple complétion de code. Ce benchmark s'inscrit dans un effort plus large pour mesurer précisément les capacités réelles des grands modèles de langage, souvent sous-estimées ou surestimées selon les contextes. METR, connue pour ses évaluations d'autonomie des agents IA, et Epoch AI, spécialisée dans les tendances de progression du domaine, combinent ici leurs expertises pour produire une méthodologie plus proche des scénarios professionnels réels. Les auteurs soulignent eux-mêmes les limites : les programmes ciblés produisent des sorties canoniques facilitant la vérification, certains résultats sur les programmes simples pourraient s'expliquer par de la mémorisation, et le benchmark ne couvre qu'une fraction de l'univers logiciel. Néanmoins, la trajectoire est claire : à mesure que les modèles progressent et que les budgets de calcul augmentent, la frontière entre ce qu'un agent IA peut faire seul et ce qui nécessite un humain continue de se déplacer rapidement.

UELes équipes de développement logiciel en France et en Europe doivent réévaluer leurs processus d'ingénierie face à des agents IA capables de réimplémenter des projets complexes de manière autonome, redéfinissant le périmètre et la valeur du travail des développeurs.

RecherchePaper
1 source
Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA
394Le Big Data 

Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA

Une start-up londonienne, General Reasoning, a publié une étude baptisée « KellyBench » qui met en lumière les limites des grandes intelligences artificielles face à un défi financier concret : les paris sportifs. Huit modèles issus de Google, OpenAI, Anthropic et xAI ont été soumis à une simulation de la saison 2023-2024 de la Premier League anglaise. Chaque système disposait de données historiques, de statistiques d'équipes et de joueurs, et devait élaborer des stratégies de mise capables de générer des profits tout en limitant les risques, sans accès à Internet et en s'adaptant aux informations fournies au fil des matchs. Les résultats sont sans appel : aucun des modèles testés n'a réussi à rester rentable sur la durée. Le meilleur performer, Claude Opus 4.6 d'Anthropic, affiche tout de même une perte moyenne de 11 %, avec une seule tentative frôlant l'équilibre. Grok 4.20 de xAI a fait faillite dès son premier essai, tandis que Gemini 3.1 Pro de Google a enregistré un gain ponctuel de 34 % avant de s'effondrer lors d'une autre tentative. Plusieurs systèmes ont accumulé des pertes importantes, et tous ont performé en dessous de participants humains placés dans les mêmes conditions simulées. Ces résultats éclairent une limite fondamentale des IA actuelles : leur efficacité chute dès qu'elles quittent les environnements stables et bien définis. Si ces systèmes excellent sur des tâches structurées comme la programmation, l'analyse de données ou les examens standardisés, ils peinent à gérer des dynamiques imprévisibles sur le long terme, là où les variables changent en permanence et où les décisions doivent intégrer du risque réel. Pour les investisseurs, les parieurs ou toute personne envisageant de déléguer des décisions financières à une IA, le message est clair : la robustesse affichée dans les benchmarks classiques ne se traduit pas en performance dans des contextes réels et mouvants. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, souligne que l'engouement actuel pour l'automatisation tend à masquer cette réalité plus nuancée. Les benchmarks traditionnels, trop statiques, ne capturent pas la complexité du monde réel, ce qui crée une illusion de compétence universelle. Cette étude, encore non évaluée par des pairs, s'inscrit dans un débat plus large sur la façon dont on mesure les capacités des IA : les tests actuels favorisent les domaines où ces systèmes brillent, tout en occultant leurs lacunes sur des tâches dynamiques et à haute incertitude. La prochaine étape pour le secteur sera de concevoir des évaluations plus représentatives, capables de révéler non seulement ce que les IA savent faire, mais aussi ce qu'elles ne maîtrisent pas encore.

UECette étude avertit les entreprises et investisseurs européens contre la délégation de décisions financières à des IA, dont les performances réelles restent inférieures aux capacités humaines dans des contextes dynamiques et incertains.

RecherchePaper
1 source
L'élagage des données d'entraînement améliore la mémorisation des faits
395Apple Machine Learning 

L'élagage des données d'entraînement améliore la mémorisation des faits

Des chercheurs ont présenté une nouvelle approche pour améliorer la mémorisation des faits dans les grands modèles de langage, dans un article accepté au workshop "Navigating and Addressing Data Problems for Foundation Models" de la conférence ICLR 2026. Leur travail démontre que les LLMs peinent systématiquement à encoder les connaissances factuelles dans leurs paramètres lorsque la quantité d'information contenue dans les données d'entraînement dépasse la capacité du modèle. En formalisant ce problème sous un angle théorique de l'information, ils établissent une limite quantifiable au-delà de laquelle la précision factuelle se dégrade inévitablement. La solution proposée est contre-intuitive : plutôt que d'augmenter la taille des données d'entraînement, il faut les élaguer. En réduisant la redondance et en sélectionnant plus rigoureusement les exemples factuels, les modèles mémorisent mieux les informations critiques. Ce mécanisme de pruning améliore directement les performances sur les tâches intensives en connaissances et réduit les hallucinations, l'un des défauts les plus coûteux des LLMs en production. Ce travail s'inscrit dans une prise de conscience croissante au sein de la communauté autour de la qualité des données d'entraînement, au-delà de la simple quantité. Des initiatives comme FineWeb ou DCLM ont déjà montré que le filtrage intelligent des corpus améliore les benchmarks, mais ce papier apporte une justification théorique solide au phénomène. Les implications sont importantes pour les futures générations de modèles, où les budgets de calcul et les limites de capacité imposent des arbitrages stricts sur ce qu'un modèle peut réellement retenir.

UELes équipes européennes développant des corpus d'entraînement filtrés, comme HuggingFace (France) avec FineWeb, disposent désormais d'une justification théorique solide pour renforcer leurs stratégies de pruning de données.

RecherchePaper
1 source
396MarkTechPost 

Meta AI et KAUST proposent des ordinateurs neuronaux réunissant calcul, mémoire et entrées-sorties dans un seul modèle

Des chercheurs de Meta AI et de l'Université des sciences et technologies du roi Abdallah (KAUST) ont publié un article proposant un nouveau paradigme informatique qu'ils appellent les "Neural Computers" (NC). Contrairement à un agent IA classique qui s'appuie sur un système d'exploitation, des API et des terminaux existants, un Neural Computer est un réseau de neurones qui joue lui-même le rôle de l'ordinateur en cours d'exécution. L'équipe présente un cadre théorique formel ainsi que deux prototypes fonctionnels basés sur la génération vidéo : NC CLIGen, qui simule une interaction en ligne de commande, et NC GUIWorld, qui modélise des interfaces graphiques. Ces deux systèmes ont été construits sur Wan2.1, le modèle de génération vidéo de référence au moment des expériences. L'entraînement de NC CLIGen sur un jeu de données de près de 824 000 flux vidéo (environ 1 100 heures d'enregistrements de terminaux) a nécessité environ 15 000 heures de calcul sur GPU H100. Les résultats montrent une précision au niveau des caractères passant de 0,03 en début d'entraînement à 0,54 après 60 000 étapes, avec une qualité de reconstruction atteignant un PSNR moyen de 40,77 dB. L'enjeu central de cette recherche est de savoir si une machine apprenante peut commencer à assumer le rôle de l'ordinateur lui-même, plutôt que de simplement s'exécuter par-dessus lui. Dans un Neural Computer, l'état latent du modèle porte ce que la pile logicielle classique gère habituellement en dehors du modèle : le contexte d'exécution, la mémoire de travail et l'état de l'interface. L'objectif à long terme, baptisé "Completely Neural Computer" (CNC), vise un système Turing-complet, universellement programmable, cohérent dans son comportement sauf reprogrammation explicite, et respectant des sémantiques proches des architectures machines traditionnelles. Une exigence clé est un contrat run/update : les entrées ordinaires doivent exécuter les capacités installées sans les modifier silencieusement, tandis que tout changement de comportement doit passer par une interface de programmation explicite, traçable et réversible. Ce travail s'inscrit dans une trajectoire de recherche plus large qui cherche à repenser fondamentalement la frontière entre logiciel et modèle d'intelligence artificielle. Les chercheurs prennent soin de distinguer leur approche des Neural Turing Machines et des Differentiable Neural Computers des années 2010, qui visaient eux une mémoire externe différentiable plutôt qu'une fusion complète calcul-mémoire-interface. Meta AI, qui investit massivement dans la recherche fondamentale en IA depuis plusieurs années, s'associe ici à une institution académique du Golfe de plus en plus présente dans les publications de premier plan. Les prototypes actuels fonctionnent encore en mode ouvert, sans interaction en temps réel avec un environnement live, ce qui souligne le caractère exploratoire de la démarche. Si ce paradigme venait à mûrir, il pourrait remettre en question des décennies d'architecture logicielle en dissolvant la distinction entre programme et modèle.

RecherchePaper
1 source
397The Decoder 

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

Une étude portant sur 34 000 compétences réelles utilisées par des agents d'intelligence artificielle révèle que ces modules spécialisés, censés améliorer les performances des systèmes autonomes, n'apportent en pratique que des gains marginaux. Les chercheurs ont testé des "skills", ces instructions modulaires que les agents peuvent activer à la volée pour accéder à des connaissances spécifiques, dans des conditions proches du déploiement réel. Résultat : non seulement les améliorations sont négligeables dans des scénarios réalistes, mais les modèles les plus faibles voient leurs performances se dégrader lorsqu'ils y ont recours, comparé à une utilisation sans ces modules. Ce constat remet en question une hypothèse fondamentale du développement des agents IA : l'idée qu'enrichir un modèle avec des compétences externes suffit à le rendre plus capable. Pour les entreprises qui investissent dans des architectures agentiques complexes, notamment dans les secteurs de l'automatisation, du service client ou de la productivité, ce résultat soulève des doutes sur la valeur réelle de ces surcouches techniques. Les benchmarks standards, souvent utilisés pour vendre ces solutions, semblent masquer des lacunes significatives dès que les conditions expérimentales se rapprochent de la réalité. Cette étude s'inscrit dans un débat plus large sur la fiabilité des agents IA en production. Depuis l'essor des frameworks agentiques comme LangChain ou AutoGPT, la communauté cherche à comprendre pourquoi ces systèmes échouent là où les démonstrations semblent prometteuses. L'écart entre performance en laboratoire et comportement en conditions réelles reste l'un des obstacles majeurs à l'adoption industrielle des agents autonomes, et ces travaux pourraient pousser les développeurs à revoir leurs méthodes d'évaluation.

RecherchePaper
1 source
398MarkTechPost 

MIT, NVIDIA et Zhejiang University proposent TriAttention, une compression du cache KV à débit 2,5 fois supérieur

Des chercheurs du MIT, de NVIDIA et de l'université du Zhejiang ont présenté TriAttention, une nouvelle méthode de compression du cache KV qui résout l'un des goulots d'étranglement les plus critiques des grands modèles de langage actuels. Publiés dans un article disponible sur arXiv (référence 2504.04921), leurs travaux montrent que TriAttention atteint la même précision que l'attention complète sur le benchmark de raisonnement mathématique AIME25 avec des séquences de 32 000 tokens, tout en offrant un débit 2,5 fois supérieur ou une réduction de la mémoire KV d'un facteur 10,7. Les meilleures méthodes concurrentes, comme SnapKV, H2O ou R-KV, n'atteignent qu'environ la moitié de cette précision pour un niveau d'efficacité équivalent. L'enjeu est considérable pour tous ceux qui déploient des modèles de raisonnement avancés comme DeepSeek-R1 ou Qwen3. Ces modèles peuvent générer des dizaines de milliers de tokens avant de produire une réponse, et chaque token doit être stocké dans le cache KV, une structure mémoire qui grossit jusqu'à saturer complètement la mémoire GPU sur du matériel grand public. Les méthodes existantes tentent de compresser ce cache en évictant les tokens jugés peu importants, mais elles opèrent dans l'espace post-RoPE, après application du schéma d'encodage positionnel rotatif utilisé par la quasi-totalité des LLM modernes (Llama, Qwen, Mistral). Ce mécanisme fait pivoter les vecteurs Query et Key selon la position, rendant les requêtes anciennes inutilisables pour estimer l'importance des tokens récents. La fenêtre d'observation efficace se réduit alors à environ 25 requêtes, ce qui conduit à l'éviction définitive de tokens qui deviendront pourtant essentiels plus tard dans la chaîne de raisonnement. L'innovation de TriAttention repose sur une observation faite dans l'espace pré-RoPE, avant que la rotation positionnelle ne soit appliquée. Les chercheurs ont constaté que sur Qwen3-8B, environ 90 % des têtes d'attention présentent un indice de concentration R supérieur à 0,95, signifiant que leurs vecteurs Query et Key se regroupent de façon quasi parfaite autour de centres fixes et stables, indépendants de la position ou de la séquence d'entrée. Cette propriété, qu'ils appellent concentration Q/K, permet d'estimer la pertinence des tokens sans être perturbé par l'encodage positionnel. Le résultat est particulièrement important pour les têtes de récupération, ces composants spécialisés dans l'extraction d'informations factuelles précises depuis de longs contextes, qui étaient les premières victimes des méthodes post-RoPE. En préservant les tokens réellement utiles sur l'ensemble de la fenêtre de contexte, TriAttention maintient l'intégrité des longues chaînes de pensée là où les approches précédentes échouaient.

RecherchePaper
1 source
399Ars Technica AI 

Les modèles d'IA sont mauvais pour parier sur le football, Grok en tête

Une étude publiée cette semaine par la startup londonnienne General Reasoning révèle que les grands modèles d'IA de Google, OpenAI, Anthropic et xAI ont tous perdu de l'argent en pariant virtuellement sur les matchs de Premier League de la saison 2023-2024. Le rapport, baptisé "KellyBench", a soumis huit systèmes d'IA à une reconstitution virtuelle complète de la saison, en leur fournissant des données historiques détaillées sur chaque équipe et chaque rencontre. Les modèles avaient pour mission de construire des stratégies maximisant les rendements tout en gérant le risque, une tâche à laquelle tous ont échoué, le modèle Grok d'xAI s'illustrant particulièrement mal. Ce résultat met en lumière une limite structurelle des IA actuelles : leur incapacité à raisonner de manière fiable sur des problèmes complexes du monde réel sur de longues périodes. Là où ces mêmes systèmes excellent dans des tâches bien délimitées comme l'écriture de code ou la génération de texte, la prévision sportive exige une intégration de facteurs dynamiques, d'incertitudes cumulées et d'un jugement probabiliste soutenu que les modèles peinent à maintenir sur une saison entière. L'étude KellyBench s'inscrit dans un débat plus large sur les véritables capacités de raisonnement des LLM. Alors que les benchmarks traditionnels sont régulièrement saturés par les nouveaux modèles, General Reasoning cherche à concevoir des épreuves qui résistent dans le temps et mesurent des compétences cognitives authentiques. Les paris sportifs, imprévisibles par nature et impossibles à mémoriser par entraînement, constituent un terrain de test particulièrement révélateur des lacunes réelles de ces systèmes.

💬 Ça paraît anecdotique, mais c'est en fait un des benchmarks les plus honnêtes qu'on ait vus depuis longtemps : tu enlèves la possibilité de mémoriser les réponses pendant l'entraînement, et là les modèles se plantent dans les grandes largeurs. Ce que ça révèle, c'est pas qu'ils sont "mauvais au foot", c'est qu'ils tiennent pas sur la durée dès que le problème est dynamique et bruité. Grok en lanterne rouge, c'est la cerise.

RecherchePaper
1 source
400MarkTechPost 

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper
1 source