Recherche — page 3

671 articles · page 3 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

Recherche — page 3

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Les LLM persistent à croire des affirmations fausses même après avoir été explicitement avertis

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable

Sakana AI propose DiffusionBlocks : un cadre d'entraînement par blocs qui convertit les réseaux résiduels en modules de débruitage indépendants

Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes

ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)

Lauréats des Amazon Research Awards annoncés

NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code

L'IA comme prolongement de l'intelligence humaine

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

FineVLA : alignement fin des instructions pour des politiques VLA pilotables

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Claude Mythos résout un vieux problème d'Erdős

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Les traces de raisonnement variées améliorent la prise de décision des LLM

Concevoir un pipeline RLVR multimodal complet : Open-MM-RL, prompting vision-langage, scoring des récompenses et export GRPO

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Modèles vision-langage-action (VLA) efficaces pour les longues séquences via découplage statique-dynamique

IA incarnée : de la perception à la prise de décision

INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA

X-DiffVLA : têtes d'action par diffusion pour modèles VLA multi-corps

HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Guide : implémenter et comparer FedAvg et FedProx en apprentissage fédéré sur CIFAR-10 non-IID avec NVIDIA FLARE

AlphaProof Nexus de Google DeepMind résout des problèmes mathématiques vieux de plusieurs décennies pour quelques centaines de dollars

Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources

Le suivi de points améliore les modèles d'action du monde

$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Des chercheurs ont laissé Claude Code découvrir des algorithmes d'IA qu'un humain n'aurait probablement pas conçus

NVIDIA publie Gated DeltaNet-2 : une couche d'attention linéaire qui dissocie effacement et écriture dans la règle Delta

Les agents IA ont besoin d'un terminal, pas seulement d'une base vectorielle

Google I/O illustre comment la science pilotée par l'IA change de trajectoire

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit

EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs

VSAS-Bench : évaluation en temps réel des modèles d'assistants visuels en flux continu

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir