SIA : l'agent open source qui s'améliore lui-même

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

39

1MarkTechPost

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

Ant Group, via sa filiale dédiée à l'IA incarnée Robbyant, a mis en open source le 8 juillet 2026 LingBot-Vision, une famille de Vision Transformers auto-supervisés conçus pour la perception spatiale dense. Les poids sont publiés sous licence Apache-2.0 sur Hugging Face en quatre tailles : ViT-giant, ViT-large, ViT-base et ViT-small, accompagnés d'un rapport technique et d'un code d'inférence. Le modèle phare, ViT-g/16, compte environ 1,1 milliard de paramètres et a été entraîné avec un nouvel objectif baptisé masked boundary modeling, sur un corpus soigneusement sélectionné d'environ 161 millions d'images issues d'un ensemble web de 2 milliards d'images, sans aucune annotation humaine, sans détecteur de contours externe, et sans backbone pré-entraîné pour amorcer l'apprentissage. Le corpus est dix fois plus petit que le LVD-1689M utilisé par DINOv3, et le modèle consomme moins d'un tiers du nombre d'exemples d'entraînement de ce dernier. Pour les déploiements à budget réduit, ce modèle principal est distillé en versions ViT-L (300 millions de paramètres), ViT-B (86 millions) et ViT-S, chacune en tête des tâches de prédiction dense dans sa catégorie de taille. L'enjeu est que la plupart des modèles de vision actuels sont entraînés pour l'invariance sémantique : ils apprennent à identifier ce qui figure dans une image tout en négligeant précisément la structure spatiale fine (contours d'objets, discontinuités de profondeur) dont dépendent les robots et autres systèmes physiquement incarnés. LingBot-Vision inverse cette priorité en traitant les frontières comme un signal natif d'entraînement plutôt que comme un simple résultat en aval. Le résultat est un modèle de seulement 1 milliard de paramètres qui égale ou dépasse des modèles jusqu'à sept fois plus gros sur des tâches de perception spatiale dense, y compris le DINOv3 à 7 milliards de paramètres. Pour l'industrie de la robotique et des systèmes embarqués, cela ouvre la voie à des modèles de vision plus légers, moins coûteux à entraîner et à déployer, sans sacrifier la précision géométrique nécessaire à la navigation, la manipulation d'objets ou l'interaction physique avec l'environnement. Sur le plan technique, la méthode s'appuie sur le paradigme d'auto-distillation DINO/iBOT, où un modèle enseignant (une copie EMA de l'élève) génère des cibles que l'élève doit retrouver à partir de vues masquées. Contrairement au masquage aléatoire classique, qui traite les zones de contours comme n'importe quelle autre région alors qu'elles sont les plus riches en information, LingBot-Vision force les tokens porteurs de frontières dans le masque et leur attribue une cible géométrique explicite en plus de la cible sémantique. Les frontières sont modélisées comme un champ dense de segments, discrétisé en 32 catégories par canal pour transformer la prédiction en classification stable, avec un effet secondaire élégant : un test statistique sans paramètre permet de valider chaque frontière détectée par rapport à l'hypothèse nulle d'absence de structure. Cette approche s'inscrit dans une tendance plus large de l'IA incarnée, où des acteurs comme Ant Group cherchent à doter les robots de représentations visuelles plus proches de la géométrie réelle du monde, un terrain où des concurrents comme Meta (DINOv3) restent des références mais pourraient désormais être challengés par des modèles nettement plus économes en données et en calcul.

💬 Robbyant bat DINOv3 avec un modèle sept fois plus petit et dix fois moins de données d'entraînement, juste en changeant ce qu'on apprend au réseau plutôt qu'en le gonflant. On a passé des années à bourrer les modèles de vision de paramètres pour qu'ils reconnaissent des chats, alors qu'un robot a surtout besoin de contours nets et de profondeur. Bon, sur le papier c'est solide pour la perception dense, reste à voir si ça tient une fois embarqué sur du matériel bas coût plutôt que sur un banc de test.

RechercheActu

1 source

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

46

2MarkTechPost

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper

1 source

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

37

3MarkTechPost

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto

1 source

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

45

4MarkTechPost

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

OpenAI a publié LifeSciBench, un benchmark de 750 tâches conçu pour évaluer la capacité des modèles d'IA à raisonner comme de vrais scientifiques en sciences du vivant. Contrairement aux benchmarks biologiques classiques, qui posent des questions fermées à réponse unique, LifeSciBench soumet les modèles à des problèmes ouverts rédigés par 173 experts titulaires d'un doctorat et issus de l'industrie biotechnologique ou pharmaceutique. Chaque tâche couvre l'un des sept flux de travail scientifiques, analyse de données, conception expérimentale, raisonnement, validation, traduction et communication, et l'un des sept domaines biologiques, de la génomique à la chimie médicinale en passant par la médecine translationnelle. Environ 53 % des tâches s'accompagnent d'artefacts (séquences ADN, figures, tableaux, structures chimiques), et 79 % exigent en moyenne quatre étapes de raisonnement enchaînées. La qualité du benchmark a été validée par 453 relecteurs indépendants, dont 97 % docteurs, avec un taux d'accord global supérieur à 96 %. Les résultats révèlent un écart considérable entre les capacités actuelles des modèles et les exigences du travail scientifique réel. GPT-Rosalind, le modèle spécialisé d'OpenAI, obtient le meilleur score normalisé (0,576) et le taux de réussite par tâche le plus élevé (36,1 %), contre 25,7 % pour GPT-5.5, 23,6 % pour Gemini 3.1 Pro, 20,7 % pour GPT-5.4 et seulement 13,0 % pour Grok 4.3. Autrement dit, même le modèle le plus performant échoue sur près des deux tiers des tâches. Le système de notation s'appuie sur 19 020 critères granulaires, soit environ 25 par tâche, et un seuil de réussite fixé à 70 % du score normalisé. Les points faibles sont nets : GPT-Rosalind chute de 45,1 % de réussite sur les tâches textuelles à 28,1 % dès que des artefacts entrent en jeu, et les workflows de conception et d'optimisation restent particulièrement résistants, avec un taux de passage de seulement 30,7 %. LifeSciBench s'inscrit dans une dynamique plus large où l'industrie pharmaceutique et la recherche biomédicale sont identifiées comme des terrains d'application prioritaires pour les grands modèles de langage. Alors que des entreprises comme Isomorphic Labs, Recursion ou Insilico Medicine déploient déjà des IA dans le pipeline de découverte de médicaments, la question de leur fiabilité sur des tâches complexes et multi-étapes n'avait pas encore de réponse standardisée. Ce benchmark comble ce vide en proposant une évaluation qui reflète la réalité du travail de laboratoire, et non des QCM académiques. Le fait qu'aucun modèle ne dépasse 37 % de réussite signale que le secteur est loin de la saturation, et que des spécialisations domaine par domaine, comme GPT-Rosalind, représentent une piste sérieuse. Le benchmark est publié en accès ouvert, ce qui devrait accélérer la compétition entre laboratoires pour progresser sur ces tâches.

UELes laboratoires pharmaceutiques et instituts de recherche biomédicale européens peuvent s'appuyer sur ce benchmark en accès ouvert pour évaluer objectivement leurs modèles d'IA dans les pipelines de découverte de médicaments.

RecherchePaper

1 source

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

À lire aussi

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant