Aller au contenu principal

Recherche — page 9

671 articles · page 9 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

401MarkTechPost RecherchePaper

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts. Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues. Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

1 source
Le Québec mobilise des fonds pour faire de Montréal un leader mondial de l’intelligence artificielle
402Le Big Data 

Le Québec mobilise des fonds pour faire de Montréal un leader mondial de l’intelligence artificielle

Le gouvernement du Québec a annoncé un investissement de 36 millions de dollars en faveur de Mila, l'Institut québécois d'intelligence artificielle basé à Montréal. Ce financement s'inscrit dans une stratégie d'innovation quinquennale dotée d'un budget total de 7,5 milliards de dollars, dans le cadre de laquelle Québec s'était engagé à verser jusqu'à 80 millions de dollars à Mila sur cinq ans à compter de 2018. Au total, depuis 2017, la province a injecté plus de 700 millions de dollars dans la recherche, le développement et l'intégration de l'IA dans divers secteurs économiques. En parallèle, ScaleAI, une supergrappe fédérale installée à Montréal, a mobilisé des fonds supplémentaires pour accélérer l'adoption de l'IA par les entreprises locales, notamment en augmentant les capacités de calcul et en attirant des chercheurs internationaux. Cet engagement financier positionne Montréal comme prétendant sérieux au titre de capitale mondiale de l'IA, aux côtés de San Francisco, Londres et Singapour. Pour Mila, l'un des pôles de recherche en apprentissage automatique les plus réputés au monde, ce financement représente la possibilité de renforcer son rôle d'institut de recherche de référence et d'intensifier son accompagnement des entreprises québécoises dans leur transformation numérique. Au-delà de la recherche pure, les retombées sont concrètes : l'IA est déjà intégrée dans la finance, les services publics, la santé et d'autres secteurs stratégiques. L'écosystème montréalais bénéficie également d'une offre de formation en expansion, d'un réseau académique solide et de la capacité à recruter des talents étrangers, trois atouts que cet investissement est destiné à amplifier. Montréal n'est pas novice dans la course à l'IA. La ville s'est imposée dès les années 2010 comme un centre mondial en apprentissage automatique, portée notamment par les travaux de Yoshua Bengio, cofondateur de Mila et figure pionnière du deep learning. La stratégie québécoise s'appuie sur cet héritage académique pour construire une filière industrielle complète, alliant recherche fondamentale, formation de haut niveau et déploiement sectoriel. L'ambition est clairement géopolitique : dans un contexte où les États-Unis, la Chine et l'Union européenne se livrent une concurrence féroce pour dominer l'IA, le Québec entend faire valoir sa spécificité, notamment son approche ancrée dans l'éthique et la recherche ouverte. Les prochaines années seront déterminantes pour savoir si Montréal parvient à transformer ses avantages académiques en leadership économique durable face à des écosystèmes disposant de ressources financières bien supérieures.

UELa montée en puissance de Montréal comme concurrent direct des hubs européens de recherche en IA intensifie la pression sur l'UE pour consolider ses propres écosystèmes et éviter une fuite des talents vers l'Amérique du Nord.

RechercheOpinion
1 source
Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs
403InfoQ AI 

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs

Les systèmes RAG agentiques hiérarchiques représentent une nouvelle approche pour automatiser l'analyse de données complexes en entreprise. Dans un article publié récemment, Abhijit Ubale détaille comment ces architectures coordonnent des agents spécialisés, chacun dédié à un type de source ou de raisonnement, sous la supervision d'un orchestrateur central. Le cadre présenté, appelé Protocol-H, illustre concrètement ce modèle : les requêtes sont acheminées de façon déterministe vers les bons agents, qui peuvent interroger simultanément des bases vectorielles, des documents structurés ou des données multimodales comme des images et des tableaux. Ce qui distingue cette approche des RAG classiques, c'est la capacité de récupération autonome en cas d'erreur. Lorsqu'un agent produit un résultat insuffisant ou incohérent, le système déclenche automatiquement une boucle de réessai réflexif sans intervention humaine. Pour les équipes analytiques en entreprise, cela réduit drastiquement les interruptions de pipeline et améliore la fiabilité des réponses sur des requêtes complexes à sources multiples. La traçabilité est également renforcée : chaque décision de routage est journalisée, ce qui facilite l'auditabilité des workflows. Ce type d'architecture s'inscrit dans une tendance de fond qui dépasse les RAG simples pour aller vers des systèmes multi-agents capables de raisonner sur des données hétérogènes. Alors que les entreprises cherchent à déployer des pipelines IA fiables en production, les questions de robustesse, de contrôle et d'explicabilité deviennent centrales. Protocol-H propose une réponse concrète, mais sa généralisation dépendra de la capacité des équipes à maintenir des orchestrateurs complexes à grande échelle.

RecherchePaper
1 source
Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique
404MarkTechPost 

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique

Les réseaux de neurones profonds peuvent être compris comme des systèmes géométriques : chaque couche transforme l'espace d'entrée pour construire des frontières de décision de plus en plus complexes. Une étude comparative récente explore comment deux fonctions d'activation fondamentales, Sigmoid et ReLU (Rectified Linear Unit), influencent cette géométrie interne et, par conséquent, l'efficacité des modèles lors de l'inférence. L'expérience repose sur un jeu de données synthétique classique, le "two-moons", généré avec scikit-learn : 400 points répartis en deux classes non linéairement séparables, avec un bruit de 0,18 pour simuler des conditions réalistes. Les deux architectures sont strictement identiques, même nombre de couches, même largeur, seule la fonction d'activation diffère, ce qui permet une comparaison propre et isolée. Le constat central est le suivant : Sigmoid compresse toutes les valeurs d'entrée dans un intervalle étroit entre 0 et 1. Conséquence directe, les points éloignés des frontières de décision deviennent indiscernables les uns des autres, car l'information sur leur distance à ces frontières est effacée couche après couche. Ce phénomène, appelé perte de contexte géométrique, affaiblit la capacité du réseau à construire des représentations riches en profondeur. ReLU, à l'inverse, conserve la magnitude des entrées positives : l'information de distance continue de circuler à travers les couches, permettant au réseau de rester expressif sans nécessiter une largeur excessive ni une puissance de calcul démesurée. En pratique, cela se traduit par des modèles ReLU plus efficaces à l'inférence et mieux adaptés au passage à l'échelle. Ces observations s'inscrivent dans une évolution plus large du domaine du deep learning. ReLU a progressivement remplacé Sigmoid comme fonction d'activation standard dans les réseaux profonds dès les années 2010, notamment grâce aux travaux fondateurs d'Hinton, LeCun et Bengio sur le problème de la disparition du gradient. Sigmoid souffrait en effet d'un double problème : saturation des gradients lors de la rétropropagation, et perte d'information géométrique lors de la propagation avant. L'étude actuelle met l'accent précisément sur ce second aspect, moins souvent discuté que le premier. Avec la montée en puissance des grands modèles de langage et des architectures à des centaines de milliards de paramètres, l'efficacité à l'inférence est devenue un enjeu industriel majeur. Des variantes de ReLU comme GELU ou SwiGLU, utilisées dans GPT-4 ou LLaMA, héritent de cette même propriété de préservation de l'information, confirmant que le choix de la fonction d'activation reste un levier critique pour la performance et l'économie de calcul des systèmes d'IA modernes.

RecherchePaper
1 source
Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale
405La Tribune 

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
406MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte
407Apple Machine Learning 

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

Une étude présentée au workshop "Memory for LLM-Based Agentic Systems" de la conférence ICLR 2025 s'attaque à une question fondamentale pour les petits modèles de langage (SLM) : que doivent-ils apprendre lors du préentraînement, et que doivent-ils déléguer à des sources externes ? Les chercheurs ont développé LaCy, un cadre théorique et expérimental qui questionne la fonction de perte standard utilisée pour entraîner ces modèles, en montrant qu'optimiser uniquement la vraisemblance des données n'est pas suffisant pour des SLM efficaces et fiables. Le problème est structurel : contrairement aux grands modèles comme GPT-4 ou Llama 3, les SLM disposent d'une capacité paramétrique limitée, ce qui les contraint à faire des choix sur les connaissances à mémoriser. Sans mécanisme adapté, ils génèrent des faits incorrects plutôt que d'admettre leur ignorance et de consulter une base de données ou un modèle plus puissant. LaCy propose de reformuler ce que le modèle "devrait" apprendre en tenant compte explicitement de la disponibilité de sources externes, comme des documents récupérés par RAG ou des API spécialisées. Ce travail s'inscrit dans la tendance croissante à déployer des agents IA embarqués sur des appareils à faible puissance, où les gros modèles ne peuvent pas tourner localement. Alors que des entreprises comme Google, Apple ou Mistral misent sur des SLM pour l'edge computing et les assistants embarqués, la question de la frontière entre mémoire paramétrique et mémoire externe devient stratégique. LaCy ouvre la voie à des entraînements plus ciblés, où le modèle apprend à savoir ce qu'il ne sait pas.

UEMistral, entreprise française en pointe sur les petits modèles pour l'edge computing, est directement concernée par les conclusions de LaCy sur l'optimisation de l'entraînement des SLM.

RecherchePaper
1 source
OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour
408MarkTechPost 

OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour

Une équipe de chercheurs issue du MIT, de l'UIUC, de CMU, USC, UVA et UC Berkeley a publié OSGym, un nouveau framework d'infrastructure conçu pour entraîner des agents IA capables d'utiliser un ordinateur comme le ferait un humain. Ces agents, appelés "computer use agents", observent une capture d'écran du bureau, décident d'une action (cliquer, taper du texte, ouvrir un fichier) et l'exécutent via clavier et souris. OSGym permet de gérer plus de 1 000 répliques d'environnements OS simultanément, pour un coût d'environ 0,23 dollar par réplique et par jour, contre environ 300 dollars par jour pour 128 répliques avec une approche naïve, soit une réduction de coût d'un facteur proche de 100. L'enjeu est considérable pour la recherche académique, qui ne dispose pas des budgets des grands laboratoires commerciaux. Entraîner un agent à naviguer dans un vrai système d'exploitation nécessite des centaines, voire des milliers d'environnements virtuels tournant en parallèle, chacun avec son propre disque bootable (environ 24 Go), son allocation CPU et RAM, et sa pile graphique. OSGym résout deux problèmes majeurs : le coût prohibitif de ces environnements, et leur instabilité (crashs, sessions qui expirent, applications gelées). En utilisant des conteneurs Docker plutôt que des machines virtuelles complètes, et en optimisant la densité de répliques par serveur, le système exploite un insight clé : au-delà d'un certain seuil, le goulot d'étranglement passe du CPU à la RAM, qui coûte dix à vingt fois moins cher. Chaque réplique dispose par ailleurs de son propre gestionnaire d'état, exposant une API inspirée d'OpenAI Gym (reset, step, shutdown), ce qui évite qu'une panne en cascade paralyse l'ensemble du système. Les agents de type "computer use" constituent l'une des frontières les plus actives de la recherche en IA. Des modèles commerciaux comme Claude Computer Use d'Anthropic ou Operator d'OpenAI ont montré que la direction est prometteuse, tandis que des projets académiques comme UI-TARS, Agent-S2 ou CogAgent repoussent les limites techniques. Mais l'accélération de ces travaux bute depuis longtemps sur un mur infrastucturel : générer suffisamment de données d'interaction réelles dans des environnements OS complets est trop coûteux pour la plupart des équipes universitaires. OSGym s'attaque directement à ce verrou en proposant une infrastructure open source et économiquement viable. Si le framework tient ses promesses à grande échelle, il pourrait démocratiser significativement la recherche sur les agents autonomes et accélérer le développement de systèmes capables d'exécuter des tâches complexes sur ordinateur sans intervention humaine.

UELes équipes de recherche académiques européennes pourraient bénéficier directement de cette infrastructure open source pour mener des travaux sur les agents autonomes sans les budgets des grands laboratoires commerciaux.

RecherchePaper
1 source
Cette IA prédit l’insuffisance cardiaque… 5 ans avant qu’elle n’arrive
409Le Big Data 

Cette IA prédit l’insuffisance cardiaque… 5 ans avant qu’elle n’arrive

Des chercheurs de l'Université d'Oxford ont mis au point un algorithme d'intelligence artificielle capable de prédire l'insuffisance cardiaque jusqu'à cinq ans avant l'apparition des premiers symptômes. L'outil analyse des scanners cardiaques classiques, mais avec une approche originale : plutôt que d'examiner directement le muscle cardiaque, il étudie le tissu graisseux qui l'entoure, dans lequel se cachent des signaux d'inflammation et d'anomalies invisibles à l'œil humain. À partir de cette analyse, le système génère un score de risque individuel pour chaque patient. Entraîné sur 72 000 patients suivis pendant dix ans au sein du NHS britannique, l'algorithme atteint une précision de 86 % sur une fenêtre de prévision de cinq ans. Les patients classés à haut risque présentent une probabilité jusqu'à vingt fois supérieure de développer la maladie, et un quart d'entre eux seraient effectivement touchés dans les cinq années suivantes. Les résultats ont été publiés dans le Journal of the American College of Cardiology. L'enjeu est considérable : l'insuffisance cardiaque touche des dizaines de millions de personnes dans le monde et reste aujourd'hui trop souvent diagnostiquée tardivement, parfois lors d'une hospitalisation d'urgence, quand le muscle cardiaque est déjà sérieusement endommagé et les options thérapeutiques réduites. En identifiant les patients à risque bien en amont, cet outil permettrait aux médecins de renforcer la surveillance, d'adapter les traitements préventifs et de réserver les interventions les plus lourdes aux profils les plus exposés, tout en évitant des examens inutiles pour les patients à faible risque. La British Heart Foundation souligne que ce changement de temporalité dans le diagnostic pourrait transformer radicalement les perspectives pour des milliers de patients chaque année. L'outil présente également un avantage logistique décisif : il fonctionne de manière entièrement automatisée, sans intervention humaine pour l'interprétation des images, et peut donc s'intégrer directement dans les flux de travail des services de radiologie existants sans modifier les pratiques cliniques. L'équipe d'Oxford travaille déjà à étendre la technologie à l'ensemble des scanners thoraciques, y compris ceux réalisés pour des raisons sans lien avec le cœur, ce qui multiplierait considérablement le nombre de patients potentiellement dépistés. La prochaine étape est l'obtention des autorisations réglementaires pour un déploiement au sein du NHS, avec l'ambition d'ajouter cette analyse aux examens de routine. Si ce feu vert est accordé, d'autres systèmes de santé à l'international pourraient rapidement emboîter le pas, faisant de cet algorithme un outil standard de prévention cardiaque à l'échelle mondiale.

UEL'algorithme d'Oxford, développé sur des données NHS, pourrait être adopté par les systèmes de santé européens pour dépister précocement l'insuffisance cardiaque, transformant les protocoles de prévention cardiaque à grande échelle.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
410VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source
Un quart des citations dans les réponses des chatbots IA provient du journalisme, selon une étude Muckrack
411The Decoder 

Un quart des citations dans les réponses des chatbots IA provient du journalisme, selon une étude Muckrack

Une étude publiée par Muckrack, plateforme spécialisée dans les relations presse, a analysé 15 millions de citations produites par les trois principaux chatbots d'intelligence artificielle, ChatGPT, Claude et Gemini. Résultat : une référence sur quatre renvoie à une source journalistique. Les publications spécialisées et les journalistes sectoriels sont les plus cités, tandis que les grands médias généralistes apparaissent moins fréquemment dans les réponses des modèles. Ce constat a des implications concrètes pour l'industrie des médias. Les publications de niche et les titres spécialisés, tech, santé, finance, droit, semblent tirer un bénéfice disproportionné de la montée en puissance des assistants IA, qui les utilisent comme sources de référence fiables. Pour les annonceurs et les équipes de relations presse, cela signifie que la visibilité dans les chatbots passe désormais par la presse spécialisée autant que par les grands portails d'information. Cette étude s'inscrit dans un débat plus large sur la relation entre les modèles de langage et le journalisme. Plusieurs grands groupes de presse, dont The New York Times, ont engagé des poursuites judiciaires contre OpenAI pour utilisation non autorisée de leurs contenus à des fins d'entraînement. D'autres éditeurs ont préféré signer des accords de licence avec les laboratoires d'IA. La question de savoir si cette exposition dans les réponses des chatbots constitue une forme de valeur compensatoire, ou au contraire un détournement de trafic, reste au coeur des négociations en cours entre médias et acteurs de l'IA générative.

UELes éditeurs de presse français et européens, déjà engagés sur les droits voisins, peuvent s'appuyer sur ces données pour renforcer leurs positions dans les négociations de licences avec les labs d'IA.

RecherchePaper
1 source
Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises
412MarkTechPost 

Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises

Les équipes de recherche de Meta AI ont présenté EUPE (Efficient Universal Perception Encoder), une famille d'encodeurs visuels compacts de moins de 100 millions de paramètres capables de rivaliser avec des modèles spécialisés sur des tâches variées : classification d'images, segmentation dense, et questions-réponses visuelles. La publication, disponible sur arXiv sous la référence 2503.22387, expose une approche radicalement différente des méthodes existantes, notamment face à AM-RADIO et RADIOv2.5, les références actuelles en distillation multi-enseignants. Là où RADIOv2.5-B, sa variante à l'échelle ViT-B, accuse des écarts notables face aux experts de domaine sur les tâches denses, EUPE parvient à combler ces lacunes dans un format adapté aux appareils embarqués comme les smartphones ou les casques de réalité augmentée. L'enjeu est concret : déployer plusieurs encodeurs spécialisés en parallèle sur un appareil mobile est trop coûteux en calcul, mais n'en déployer qu'un seul signifie accepter des performances dégradées sur la plupart des tâches. EUPE change cette équation. Un seul modèle léger peut désormais gérer simultanément la compréhension visuelle globale, la détection de structures spatiales précises au niveau du pixel, et l'interaction avec des systèmes de langage visuel. Pour les développeurs d'applications mobiles, les fabricants de dispositifs AR ou les ingénieurs travaillant sur des pipelines d'IA embarquée, cela représente un gain substantiel en ressources sans sacrifice de polyvalence. La difficulté centrale que résout EUPE tient à un problème de capacité. Les modèles comme CLIP, SigLIP 2, DINOv2 ou SAM ont chacun été entraînés avec des objectifs distincts : paires texte-image pour les premiers, apprentissage auto-supervisé structurel pour le second, segmentation massive pour le troisième. Les tentatives précédentes de fusionner ces expertises par distillation agglomérative, où un modèle étudiant imite plusieurs enseignants spécialistes simultanément, donnaient de bons résultats sur de grands encodeurs dépassant 300 millions de paramètres, mais échouaient sur les architectures efficientes. La solution proposée par Meta suit un principe en deux temps : agrandir d'abord, puis réduire. Un modèle intermédiaire de grande taille absorbe les représentations des différents enseignants, avant d'être distillé à son tour dans l'encodeur compact final. Cette étape intermédiaire fournit au petit modèle une représentation unifiée et déjà réconciliée, plutôt qu'une collection brute de signaux contradictoires. La publication positionne EUPE comme une brique fondamentale pour la prochaine génération d'IA on-device, dans un contexte où Apple, Google et Qualcomm intensifient également leurs efforts pour faire tourner des modèles multimodaux directement sur le matériel utilisateur.

💬 Le problème des encodeurs visuels embarqués, c'est exactement ça : soit tu empiles plusieurs spécialistes et ça explose ton budget calcul, soit tu fais des compromis douloureux. L'approche "agrandir puis distiller" de Meta est maline, parce qu'elle donne au petit modèle une représentation déjà digérée plutôt que de lui coller des signaux contradictoires à réconcilier lui-même. Reste à voir ce que ça donne sur du vrai hardware, pas juste sur les benchmarks arXiv.

RecherchePaper
1 source
SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires
413Apple Machine Learning 

SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires

Des chercheurs ont présenté SQUIRE (Slot QUery Intermediate REpresentations), un nouveau système d'assistance à la création d'interfaces utilisateur conçu pour aider les développeurs front-end à prototyper plus efficacement. L'outil s'appuie sur l'IA générative mais introduit une couche intermédiaire structurée, les "slot queries", entre l'intention du développeur et le code produit, afin de rendre la génération plus prévisible et plus contrôlable. Le problème que SQUIRE cherche à résoudre est bien réel : les assistants IA actuels, qui fonctionnent via une interface de chat, offrent beaucoup de flexibilité mais peu de précision. Le langage naturel reste ambigu, et les modèles peuvent répondre de façon imprévisible, forçant les développeurs à itérer longuement avant d'obtenir un résultat satisfaisant. En introduisant des représentations intermédiaires explicites, SQUIRE permet à l'utilisateur de spécifier ses intentions de manière plus structurée, réduisant ainsi les allers-retours et accélérant le cycle de prototypage. Cette approche s'inscrit dans une tendance plus large de la recherche en interaction homme-machine : plutôt que de confier entièrement la génération à un modèle de langage via un prompt libre, on intercale des étapes de structuration qui préservent le contrôle humain. Des systèmes similaires ont émergé dans d'autres domaines de la génération de code, et SQUIRE applique ce principe au domaine spécifique des interfaces graphiques, où la précision visuelle et fonctionnelle est particulièrement exigeante. Les suites potentielles incluent une intégration dans des environnements de développement existants comme Figma ou VS Code.

RecherchePaper
1 source
MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter
414MarkTechPost 

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Une équipe internationale de chercheurs, impliquant notamment les Instituts Gladstone (maladies cardiovasculaires, neurologiques, sciences des données) et l'Université de Californie San Francisco, a développé MaxToki, un modèle d'intelligence artificielle capable de prédire l'évolution dans le temps de l'état génétique des cellules humaines. Contrairement aux modèles existants qui analysent les cellules comme des instantanés figés, MaxToki intègre une dimension temporelle, essentielle pour comprendre comment les cellules vieillissent. Le modèle repose sur une architecture de type transformer décodeur -- la même famille que les grands modèles de langage -- et a été entraîné sur des données de séquençage d'ARN unicellulaire. Il existe en deux versions : 217 millions et 1 milliard de paramètres. Son entraînement s'est déroulé en deux étapes, la première s'appuyant sur Genecorpus-175M, un corpus d'environ 175 millions de transcriptomes unicellulaires issus de 10 795 jeux de données publics, générant quelque 290 milliards de tokens. Une particularité technique clé est l'encodage par rang : plutôt que d'injecter des comptages bruts d'expression génique, chaque cellule est représentée par une liste de gènes classés selon leur expression relative, ce qui rend le modèle plus robuste face aux biais techniques des données biologiques. MaxToki ouvre des perspectives concrètes dans l'étude du vieillissement cellulaire et des maladies qui en découlent -- insuffisance cardiaque, maladie d'Alzheimer, fibrose pulmonaire -- des pathologies qui se développent sur des décennies à travers des changements progressifs dans les réseaux de gènes. Pouvoir modéliser ces trajectoires, et non plus seulement l'état instantané d'une cellule, représente un saut qualitatif pour la recherche biomédicale. La capacité à prédire "où va" une cellule pourrait accélérer l'identification de cibles thérapeutiques et la mise au point d'interventions capables de ralentir ou d'inverser ces processus dégénératifs, avant même l'apparition de symptômes cliniques. Le projet s'inscrit dans une vague plus large de fondation models appliqués à la biologie, une discipline où des acteurs comme NVIDIA (partenaire de ce projet), Google avec son modèle Evo, et plusieurs startups de biotech cherchent à reproduire le succès des LLMs dans le domaine du vivant. La plupart des modèles existants peinent à capturer la dynamique temporelle des systèmes biologiques, limitant leur utilité pour les maladies chroniques. MaxToki répond à ce manque en étendant notamment sa fenêtre de contexte de 4 096 à 16 384 tokens via la technique RoPE scaling, et en excluant délibérément les cellules cancéreuses et lignées immortalisées de l'entraînement pour ne pas biaiser l'apprentissage des dynamiques normales. Des institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) et japonaises (Université de Kyoto, Centre iPS) contribuent également, signe que la course aux modèles fondationnels en biologie est désormais pleinement internationale.

UEDes institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) participent au projet, positionnant l'Europe comme contributeur dans la course aux modèles fondationnels biologiques.

RecherchePaper
1 source
Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles
415The Decoder 

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles

Une équipe de chercheurs a développé Know3D, une méthode qui permet de contrôler l'apparence du dos des objets 3D générés à partir d'une seule image, en utilisant de simples commandes textuelles. Le système exploite les connaissances du monde réel encodées dans les grands modèles de langage pour inférer et diriger ce qui doit apparaître sur les faces cachées d'un objet tridimensionnel, sans que l'utilisateur ait besoin de fournir d'autres références visuelles. Cette avancée s'attaque à l'un des angles morts les plus persistants de la génération 3D à partir d'une image unique : la reconstruction des zones non visibles. Jusqu'ici, les modèles généraient ces faces cachées de manière aléatoire ou incohérente, produisant des objets 3D inutilisables en production professionnelle. Avec Know3D, un designer peut écrire une instruction comme "dos plat avec texture bois" pour obtenir un résultat cohérent et maîtrisé, ce qui ouvre des perspectives concrètes pour la création de contenus dans les jeux vidéo, la réalité augmentée et le commerce en ligne. La génération 3D à partir d'une image reste un problème ouvert très actif en recherche, avec des acteurs comme Stability AI, Luma AI ou encore des équipes académiques qui multiplient les approches concurrentes. L'originalité de Know3D réside dans le recours aux LLM non pas pour générer du texte, mais comme base de connaissance spatiale et sémantique sur la forme des objets du monde réel. Si les résultats se confirment sur des géométries complexes, cette technique pourrait s'intégrer rapidement dans les pipelines de création 3D assistée par IA déjà en cours de déploiement dans l'industrie.

RecherchePaper
1 source
Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts
416MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source
TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
417MarkTechPost 

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv. Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites ` et ` — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène. La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

UELes poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

RecherchePaper
1 source
Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic
418Le Big Data 

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper
1 source
L'IA d'un jeune professionnel détecte des troubles de santé mentale
419IEEE Spectrum AI 

L'IA d'un jeune professionnel détecte des troubles de santé mentale

Abhishek Appaji, professeur associé en ingénierie de l'électronique médicale au B.M.S. College of Engineering de Bengaluru, en Inde, vient d'être désigné lauréat du prix IEEE Theodore W. Hissey Outstanding Young Professional Award 2026, qui sera remis ce mois-ci lors de la cérémonie IEEE Honors à New York. Membre senior de l'IEEE, ce chercheur de 36 ans a consacré sa carrière au développement d'outils diagnostiques alimentés par l'intelligence artificielle destinés aux communautés les moins bien desservies. Parmi ses réalisations déployées dans des zones reculées de l'Inde figurent une machine d'analyse rétinienne capable de détecter diverses pathologies, ainsi qu'un lit connecté surveillant en continu les constantes vitales des patients. Il est également co-fondateur de Glucotek, une startup basée à Brisbane, en Australie, née d'un bootcamp entrepreneurial au MIT en 2017, dont l'objectif initial était de mettre au point un dispositif non invasif de mesure de la glycémie pour gérer le diabète gestationnel. L'impact de ses travaux dépasse largement le cadre académique. En ciblant délibérément les populations éloignées des grands centres hospitaliers, Appaji cherche à combler le fossé entre innovation technologique et accès aux soins. Ses outils permettent à des médecins généralistes ou à du personnel paramédical de réaliser des diagnostics qui nécessitaient auparavant des équipements coûteux ou des spécialistes absents de ces régions. Sa thèse de doctorat, soutenue à l'Université de Maastricht aux Pays-Bas et portant sur les méthodes computationnelles d'analyse des vaisseaux rétiniens, ouvre une piste diagnostique particulièrement prometteuse : les altérations microvasculaires visibles dans la rétine refléteraient les changements neurovasculaires associés à des troubles psychiatriques comme la schizophrénie ou le trouble bipolaire, offrant potentiellement un moyen de dépistage non invasif de ces conditions. Le parcours d'Appaji illustre une tendance de fond dans la recherche en santé numérique : l'exploitation de l'IA et du deep learning pour transformer des signaux biologiques subtils en outils diagnostiques accessibles et précis. Formé en Inde avant de passer par le MIT et Maastricht, il incarne le profil du chercheur-entrepreneur capable de faire le pont entre laboratoire et marché. Son engagement bénévole au sein de l'IEEE Young Professionals Bangalore Section, où il a mis en place des programmes de mentorat et des ateliers technologiques, témoigne d'une vision plus large : former la prochaine génération d'ingénieurs à produire un impact concret. Alors que les systèmes de santé des pays à revenus intermédiaires cherchent à intégrer l'IA sans exploser leurs budgets, les approches développées par Appaji pourraient servir de modèle pour une médecine de précision véritablement inclusive.

RecherchePaper
1 source
Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun
420Latent Space 

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Moonlake AI, une startup cofondée par Chris Manning (professeur à Stanford et co-auteur de travaux fondateurs en NLP) et Fan-Yun Sun, propose une approche radicalement différente des modèles de monde actuels. Présentée notamment lors de la Game Developers Conference 2026, l'entreprise mise sur des modèles causaux, multimodaux et efficaces, capables de simuler des environnements interactifs avec de multiples joueurs simultanés, une durée de vie indéfinie et une physique cohérente. Moonlake vient de lancer une Creator Cup dotée de 30 000 dollars pour stimuler l'adoption de ses outils par la communauté de développeurs. L'approche repose sur le bootstrapping à partir de moteurs de jeu existants et l'entraînement d'agents personnalisés, permettant de simuler des environnements, prédire des résultats et planifier sur des horizons longs. Là où des systèmes comme Genie 3 de Google souffrent de limitations significatives — clipping de terrain, absence d'interactivité réelle, immersion plafonnée à 60 secondes — Moonlake s'attaque à ces défauts structurels par une philosophie différente : la structure et la causalité plutôt que la mise à l'échelle aveugle. Comme le soulignent Manning, Sun et Ian Goodfellow dans leur article "Towards Efficient World Models", les modèles état-de-l'art présentent encore des incohérences physiques flagrantes — objets solides flottant dans les airs ou se traversant mutuellement. Leur argument central : pour planifier une action, une vue en haute résolution pixel par pixel est rarement nécessaire. Des représentations partielles combinées à une compréhension sémantique suffisent dans la quasi-totalité des cas, ce qui rend les architectures actuelles surdimensionnées et inefficaces pour la plupart des tâches à valeur économique réelle. Ce projet s'inscrit dans une course intense autour des modèles de monde, où Nvidia, Waymo, Tesla et Google ont chacun publié leurs propres approches ces derniers mois. Yann LeCun a parallèlement levé 1 milliard de dollars pour AMI et publié LeWorldModel, témoignant de l'enjeu stratégique majeur que représente cette technologie pour l'IA incarnée et la robotique. Moonlake se distingue en choisissant les moteurs de jeu comme point de départ d'abstraction, jugeant qu'ils sont mieux adaptés que l'apprentissage pur pour extraire des relations causales fiables entre actions et observations. La présence de l'équipe au GDC 2026 et la diversité des mondes déjà construits par la communauté avec leurs outils suggèrent que cette approche suscite un intérêt concret bien au-delà du cercle académique.

RecherchePaper
1 source
Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain
421Le Big Data 

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Meta a présenté le 26 mars 2026 TRIBE v2 (Trimodal Brain Encoder), un modèle d'intelligence artificielle open source capable de prédire l'activité cérébrale humaine en réponse à une image, un son ou un texte. Entraîné sur plus de 500 heures d'enregistrements IRM fonctionnelle issus de plus de 700 participants, le modèle simule l'activation de près de 70 000 voxels cérébraux — des unités tridimensionnelles qui traduisent les variations de flux sanguin dans le cerveau. Son architecture repose sur trois étages : des encodeurs spécialisés par modalité (V-JEPA pour la vision, Wav2Vec2-BERT pour l'audio, Llama 3.x pour le texte), un module Transformer qui aligne ces signaux dans le temps pour tenir compte du délai entre perception et activation cérébrale, puis une couche de projection qui produit une carte prédictive des activations. Les performances annoncées sont deux à trois fois supérieures aux approches antérieures, et le modèle fonctionne en zero-shot : il prédit l'activité d'un nouveau sujet sans recalibrage individuel préalable, ce qui est rare dans ce domaine. Cette capacité de généralisation change la donne pour la recherche en neurosciences cognitives. Jusqu'ici, tout travail d'exploration cérébrale exigeait un accès à un scanner IRM, une infrastructure lourde et coûteuse. TRIBE v2 ouvre la possibilité de simuler des réponses cérébrales à grande échelle, à partir de n'importe quel contenu numérique, sans contrainte matérielle. Pour les chercheurs en perception sensorielle, en troubles cognitifs ou en interfaces cerveau-machine, cela représente un accélérateur potentiel considérable. Dans l'industrie, le modèle pourrait être utilisé pour évaluer l'impact attentionnel d'un contenu publicitaire, d'une interface ou d'un environnement sonore — des applications qui posent déjà des questions éthiques sur l'usage de modèles prédictifs du comportement cérébral. TRIBE v2 s'inscrit dans une trajectoire entamée avec la première version du modèle, qui avait remporté l'Algonauts 2025 Brain Encoding Challenge, une compétition internationale de référence sur la prédiction de l'activité cérébrale. Meta franchit ici une étape qualitative en passant d'un modèle sujet-spécifique à un modèle généraliste, capable de capturer des régularités cérébrales communes à travers une population large et diversifiée. La décision de publier TRIBE v2 en open source reflète la stratégie globale de Meta AI en matière de recherche fondamentale : rendre les outils disponibles à la communauté scientifique pour accélérer l'adoption et positionner l'entreprise comme acteur central de l'IA cognitive. Reste à voir comment la communauté s'emparera de ces capacités, et quels garde-fous encadreront des usages potentiellement intrusifs de la modélisation cérébrale prédictive.

UELes chercheurs européens en neurosciences cognitives peuvent accéder librement à TRIBE v2 pour simuler des réponses cérébrales à grande échelle sans infrastructure IRM, ouvrant de nouvelles perspectives pour la recherche sur les troubles cognitifs et les interfaces cerveau-machine.

💬 Le zero-shot sur des prédictions d'activité cérébrale, c'est le truc qui m'impressionne ici, pas la com' de Meta. Jusqu'ici, tout modèle de ce genre demandait un recalibrage par sujet, une IRM, une infra complète — là, tu balances un contenu, le modèle te sort une carte d'activation sans scanner. La question c'est pas si la recherche en neurosciences va s'en emparer, c'est si les équipes pub' vont l'utiliser avant elles.

RecherchePaper
1 source
Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes
422Apple Machine Learning 

Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes

Des chercheurs ont proposé une nouvelle méthode d'alignement des grands modèles de langage (LLM) baptisée Personalized Group Relative Policy Optimization (P-GRPO), conçue pour adapter le comportement des modèles aux préférences individuelles plutôt qu'à un objectif global unique. Le travail s'attaque directement aux limites du GRPO standard, l'un des cadres d'apprentissage par renforcement les plus utilisés aujourd'hui, dont la normalisation par groupe suppose implicitement que tous les exemples d'entraînement sont interchangeables. Ce postulat pose un problème fondamental : en pratique, des utilisateurs différents ont des attentes radicalement différentes, et les méthodes actuelles comme le RLHF (Reinforcement Learning from Human Feedback) lissent ces divergences au profit d'une réponse moyenne. Le résultat est un modèle techniquement performant mais incapable de s'adapter à un médecin, un étudiant ou un développeur qui n'attendent pas du tout la même chose d'un assistant IA. P-GRPO cherche à corriger cela en traitant séparément les distributions de récompenses propres à chaque profil utilisateur. L'enjeu dépasse la simple personnalisation de surface. Alors que l'industrie s'oriente vers des assistants IA déployés dans des contextes très variés — santé, éducation, entreprise — la capacité à aligner finement un modèle sur des groupes hétérogènes devient un avantage compétitif majeur. Ce travail s'inscrit dans une tendance de fond : après avoir maximisé les capacités générales des LLM, les laboratoires de recherche cherchent maintenant à affiner leur adéquation aux besoins réels des utilisateurs finaux.

RecherchePaper
1 source
Améliorer la qualité et la robustesse des systèmes de synthèse vocale basés sur les LLM
423Amazon Science 

Améliorer la qualité et la robustesse des systèmes de synthèse vocale basés sur les LLM

Les chercheurs d'Amazon ont publié le 1er avril 2026 une série d'avancées techniques destinées à résoudre trois problèmes persistants dans les systèmes de synthèse vocale basés sur des grands modèles de langage (LLM) : la fuite d'accent en mode polyglotte, le manque d'expressivité, et les défaillances de fiabilité. Pour corriger la fuite d'accent — phénomène où la voix clonée d'un locuteur anglophone garde un accent étranger en passant au français ou à l'allemand — l'équipe a appliqué une technique d'adaptation à faible rang (LoRA) pour affiner leurs modèles sur des données fortement pondérées vers les langues cibles. Pour l'expressivité, ils ont eu recours au guidage sans classifieur (CFG), une méthode issue des modèles de diffusion, pour générer des échantillons audio de référence synthétiques plus expressifs, utilisés ensuite comme conditionnement à l'inférence. Les résultats, mesurés selon le protocole d'écoute MUSHRA, montrent une amélioration de 5 % à 20 % sur neuf paramètres régionaux couvrant l'anglais, le français, l'italien, l'allemand et l'espagnol, par rapport à la génération de modèles précédente. Ces améliorations ont des implications concrètes pour tous les acteurs qui déploient des assistants vocaux, des systèmes de navigation, ou des outils d'accessibilité à l'échelle internationale. La possibilité de cloner une voix enregistrée dans une seule langue et de la déployer nativement dans plusieurs autres — sans perte d'identité vocale ni accent résiduel — réduit drastiquement les coûts de production de contenu audio multilingue. Le troisième axe de travail, la fiabilité, s'attaque à un défaut structurel des LLM : leur génération autorégressive, token par token, sans modélisation explicite de la durée, provoque des répétitions hallucinées, des coupures inattendues et des prononciations incohérentes. Amazon indique travailler sur ce point, bien que les détails techniques associés n'aient pas encore été entièrement divulgués. La synthèse vocale neuronale a franchi un cap majeur ces deux dernières années avec l'émergence de systèmes capables de cloner une voix à partir de quelques secondes d'audio. Des acteurs comme ElevenLabs, OpenAI avec sa voix Vox, ou encore Microsoft ont largement popularisé cette technologie, mais la barrière multilingue reste un point faible commun. Amazon, via ses divisions Alexa et AWS Polly, a un intérêt commercial direct à résoudre ce problème à grande échelle pour ses marchés européens et latino-américains. L'approche LoRA pour le fine-tuning ciblé par locale permet de mutualiser un modèle de base tout en l'adaptant à faible coût — une architecture qui pourrait devenir standard dans le secteur. Les prochaines étapes probables incluent l'extension à des langues à tons comme le mandarin ou le japonais, où la fuite d'accent pose des défis encore plus complexes.

UELes améliorations du clonage vocal multilingue (français, allemand, italien, espagnol) réduisent directement les coûts de production audio pour les entreprises et services européens déployant des assistants vocaux ou outils d'accessibilité.

💬 La fuite d'accent, c'était le truc qu'on acceptait comme une fatalité dans le clonage vocal multilingue, et ça m'a toujours semblé être un problème évitable. Amazon montre que LoRA + un dataset bien pesé règle une bonne partie du problème, et les +5 à 20 % sur MUSHRA, tu peux pas ignorer ça. Le volet fiabilité reste flou (les hallucinations audio, c'est un vrai sujet en prod), mais sur la partie multilingue, ils livrent enfin du concret.

RecherchePaper
1 source
ADeLe : prédire et expliquer les performances de l'IA selon les tâches
424Microsoft Research 

ADeLe : prédire et expliquer les performances de l'IA selon les tâches

Des chercheurs de Microsoft, en collaboration avec l'Université de Princeton et l'Universitat Politècnica de València, ont publié dans la revue Nature une méthode inédite d'évaluation des modèles d'IA baptisée ADeLe — pour AI Evaluation with Demand Levels. Présentée dans l'article « General Scales Unlock AI Evaluation with Explanatory and Predictive Power », cette approche évalue simultanément les tâches et les modèles selon 18 capacités fondamentales — attention, raisonnement, connaissances de domaine, métacognition, entre autres — en leur attribuant un score de 0 à 5. Appliquée à 15 grands modèles de langage dont GPT-4o et Llama-3.1, la méthode permet de prédire les performances sur des tâches inédites avec une précision d'environ 88 %. Les travaux ont bénéficié du programme de financement AFMR (Accelerating Foundation Models Research) de Microsoft. L'apport concret d'ADeLe réside dans sa capacité à dépasser les scores agrégés des benchmarks classiques, qui mesurent ce qu'un modèle réussit sans expliquer pourquoi il échoue ni anticiper ses comportements sur de nouvelles tâches. En construisant un profil de capacités pour chaque modèle — une cartographie structurée de ses forces et faiblesses — et en le confrontant aux exigences précises d'une tâche donnée, ADeLe identifie les lacunes spécifiques à l'origine des erreurs. La méthode révèle également que de nombreux benchmarks largement utilisés donnent une image incomplète, voire trompeuse : un test censé mesurer le raisonnement logique peut en réalité dépendre fortement de connaissances spécialisées ou de métacognition, faussant ainsi l'interprétation des résultats. Pour les équipes qui développent ou déploient des LLMs, cette granularité change radicalement la façon d'interpréter une évaluation. L'évaluation des LLMs souffre depuis plusieurs années d'un problème structurel : les benchmarks standard comme MMLU ou HumanEval mesurent des performances globales sur des jeux de tests fixes, sans permettre de généraliser ni de diagnostiquer. ADeLe s'inscrit dans une tendance plus large de la communauté de recherche à vouloir rendre l'évaluation plus explicable et plus prédictive, à mesure que les modèles deviennent des composants critiques dans des systèmes professionnels. La publication dans Nature — une revue généraliste de premier rang, inhabituelle pour ce type de travaux en IA — signale l'ambition scientifique du projet. Les prochaines étapes pourraient inclure l'extension du cadre à des modalités au-delà du texte, et son adoption par des organismes d'évaluation indépendants cherchant des alternatives aux classements simplistes.

UELa co-participation de l'Universitat Politècnica de València positionne ADeLe comme candidat naturel pour les organismes d'évaluation européens chargés de mettre en œuvre les exigences de l'AI Act sur la transparence et la robustesse des modèles.

💬 Les benchmarks classiques te donnent un score global, mais zéro explication sur ce qui foire et pourquoi. ADeLe décompose ça en 18 capacités mesurables, confronte le profil du modèle aux exigences précises de la tâche, et prédit les perfs à 88% sur des cas inédits, ce qui est franchement solide pour de la recherche académique. Publication dans Nature en plus, c'est le genre de signal qui dit que l'évaluation des LLMs commence enfin à être traitée comme un vrai problème scientifique.

RecherchePaper
1 source
Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas
425VentureBeat AI 

Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas

Des chercheurs de Meta ont publié une technique de prompting structuré baptisée « raisonnement semi-formel », conçue pour améliorer significativement la capacité des grands modèles de langage à analyser du code sans l'exécuter. Dans leurs expériences, cette approche a permis d'atteindre jusqu'à 93 % de précision sur certaines tâches d'analyse de code, contre des performances bien inférieures avec les méthodes classiques. Concrètement, la technique oblige l'agent IA à remplir un « certificat logique » structuré : avant de répondre, il doit énoncer explicitement ses prémisses, tracer des chemins d'exécution concrets fonction par fonction, et formuler une conclusion basée uniquement sur des preuves vérifiables tirées du code source. L'agent ne peut plus se contenter de deviner le comportement d'une fonction à partir de son nom — il doit réellement suivre les appels et les flux de données. Pour l'industrie du développement logiciel, l'enjeu est considérable. Déployer des agents IA à l'échelle d'un dépôt entier — pour détecter des bugs, vérifier des patches ou conduire des revues de code — exige aujourd'hui de créer des environnements d'exécution isolés pour chaque projet, une infrastructure coûteuse et lourde à maintenir. Le raisonnement semi-formel contourne ce problème en permettant une analyse sémantique fiable sans jamais exécuter le code. Pour les équipes d'ingénierie qui utilisent l'IA dans leurs workflows CI/CD ou leurs processus de revue, cela représente une réduction drastique des coûts d'infrastructure tout en maintenant — voire en améliorant — la fiabilité des résultats. La technique réduit également les hallucinations, un problème chronique des LLM confrontés à du code complexe multi-fichiers. Le problème que Meta cherche à résoudre n'est pas nouveau. Deux approches dominent actuellement le domaine : les évaluateurs LLM non structurés, rapides mais sujets aux affirmations non fondées, et la vérification formelle mathématique (via des langages comme Lean ou Coq), rigoureuse mais totalement impraticable sur des bases de code d'entreprise mêlant dizaines de frameworks et de langages. Le raisonnement semi-formel se positionne délibérément entre ces deux extrêmes — plus rigoureux que le prompting libre, mais sans exiger la traduction du code en logique mathématique. Meta a évalué la technique sur trois catégories de tâches : vérification d'équivalence de patches, localisation de fautes, et questions-réponses sur des bases de code. Les résultats suggèrent une approche potentiellement généralisable à de nombreux domaines de l'ingénierie logicielle automatisée, à condition que les modèles soient suffisamment capables pour respecter les contraintes des templates structurés.

RecherchePaper
1 source
Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place
426MIT Technology Review 

Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place

Les systèmes d'intelligence artificielle sont presque universellement évalués par des benchmarks qui mesurent leurs performances face à des humains sur des tâches isolées — précision sur des scans médicaux, résolution de problèmes mathématiques, génération de code. Ces tests produisent des scores impressionnants : 98 % de précision, vitesses record, résultats spectaculaires. Sur la base de ces chiffres, gouvernements et entreprises décident d'adopter des modèles en y engageant des ressources financières et techniques considérables. Mais une fois déployés dans des environnements réels, l'écart entre le score du benchmark et la performance effective devient rapidement visible. Des chercheurs comme Ari Ezra Waldman, qui étudie le déploiement de l'IA dans des PME, des hôpitaux, des ONG et des universités aux États-Unis, au Royaume-Uni et en Asie depuis 2022, documentent ce fossé de manière systématique. L'exemple de la radiologie médicale est particulièrement révélateur. Des modèles d'IA approuvés par la FDA lisent des scanners plus vite et plus précisément que des radiologues experts — sur le papier. Dans des hôpitaux en Californie et à Londres, le personnel utilisant ces outils hautement classés constatait qu'il lui fallait du temps supplémentaire pour interpréter les sorties de l'IA en fonction des normes de reporting propres à chaque établissement et des exigences réglementaires nationales. Ce qui devait être un outil de productivité introduisait en réalité des délais. La raison est structurelle : les benchmarks testent l'IA en vase clos, tandis que les décisions médicales réelles émergent de équipes pluridisciplinaires — radiologues, oncologues, infirmières — qui débattent collectivement sur plusieurs jours ou semaines, en intégrant les préférences des patients et des compromis complexes entre standards professionnels et bien-être à long terme. Aucun benchmark actuel ne capture cette dynamique. Ce constat dépasse le seul secteur médical et touche à une question fondamentale pour l'ensemble de l'industrie de l'IA. Les benchmarks actuels, même les plus récents qui tentent d'aller au-delà des tests statiques vers des méthodes d'évaluation plus dynamiques, évaluent toujours l'IA hors du contexte humain et organisationnel où ses performances réelles se jouent. Le problème est systémique : en optimisant les modèles pour des classements déconnectés du terrain, on risque d'adopter des technologies inadaptées, de sous-estimer des risques systémiques et de se tromper sur les conséquences économiques et sociales de l'IA. La solution proposée — baptisée HAIC, pour Human–AI, Context-Specific Evaluation — consiste à évaluer les systèmes d'IA sur des horizons temporels plus longs, au sein de vraies équipes et de vrais flux de travail. Une refonte profonde de la façon dont l'industrie mesure ce qu'elle construit.

UELes régulateurs et entreprises européens qui s'appuient sur des benchmarks pour certifier ou déployer des systèmes IA dans des secteurs réglementés (santé, finance) au titre de l'AI Act pourraient prendre des décisions d'adoption inadaptées si ces métriques ne reflètent pas les performances réelles en contexte opérationnel.

RecherchePaper
1 source
Toutes les IA échouent à ce test d’humanité
427Numerama 

Toutes les IA échouent à ce test d’humanité

Le 27 mars 2026, l'organisation ARC Prize a publié ARC-AGI-3, la troisième itération de son benchmark conçu pour mesurer la progression des systèmes d'IA vers une intelligence artificielle générale. Contrairement aux versions précédentes, ce nouveau test cible spécifiquement les IA dites « agentiques » — capables d'agir en séquences, d'explorer un environnement et d'apprendre en cours de tâche. Les meilleurs modèles actuels, y compris les systèmes de raisonnement d'OpenAI et de Google DeepMind, obtiennent des scores encore très inférieurs aux capacités humaines moyennes. Ce résultat révèle une limite fondamentale des architectures actuelles : les grands modèles de langage excellent à reproduire des patterns vus en entraînement, mais peinent à généraliser dans des contextes inédits et interactifs. ARC-AGI-3 est conçu précisément pour être trivial pour un humain — quelques minutes suffisent — mais résistant aux techniques d'optimisation brute que l'industrie utilise pour doper ses benchmarks. Il mesure ce que Chollet appelle « l'efficience de généralisation », une capacité que les LLMs actuels ne possèdent pas structurellement. ARC-AGI a été créé par François Chollet, ingénieur chez Google et auteur de Keras, qui défend depuis des années l'idée que les benchmarks standards sont saturés et trompeurs. La première version date de 2019 ; ARC-AGI-2, publié en 2025, avait déjà mis en difficulté les meilleurs modèles. ARC Prize, l'organisation derrière le projet, offre des récompenses financières pour inciter la communauté à trouver de nouvelles approches algorithmiques. Ce troisième volet marque une accélération du défi : tant que les IA échouent ici, les proclamations d'AGI restent prématurées.

UELe benchmark est l'œuvre de François Chollet, ingénieur français chez Google, dont les conclusions sur les limites structurelles des LLMs pourraient peser dans les débats européens sur la définition réglementaire de l'AGI dans le cadre de l'AI Act.

💬 Je l'attendais, celle-là. Les meilleurs modèles du monde battus par n'importe quel humain en quelques minutes sur un truc conçu pour être trivial, ça remet les pieds sur terre quand tu lis les annonces AGI de la semaine. Chollet a raison depuis le début : on optimise des benchmarks, pas de l'intelligence.

RecherchePaper
1 source
ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
428Apple Machine Learning 

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture. L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom. Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.

RecherchePaper
1 source
Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x
429MarkTechPost 

Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x

Salesforce AI Research a publié VoiceAgentRAG, une architecture open source à double agent conçue pour résoudre l'un des problèmes les plus critiques des assistants vocaux : la latence de récupération des données. Dans un système RAG (Retrieval-Augmented Generation) classique, chaque requête vers une base vectorielle distante introduit entre 50 et 300 millisecondes de délai réseau — un délai qui, pour la voix, consume la totalité du budget disponible avant même que le modèle de langage commence à générer une réponse. VoiceAgentRAG réduit ce délai de récupération de 316 fois, passant de 110 ms à 0,35 ms, grâce à un cache sémantique local. Sur 200 requêtes testées avec Qdrant Cloud comme base vectorielle distante, le système atteint un taux de cache hit global de 75 % (79 % sur les tours de conversation où le cache est déjà chaud), économisant 16,5 secondes de temps de récupération au total. Ce gain de performance change fondamentalement ce qui est possible dans les interfaces vocales alimentées par l'IA. Maintenir une conversation naturelle exige une réponse en moins de 200 millisecondes — contrainte que les systèmes RAG standards ne peuvent pas respecter en production. En découplant la récupération des documents de la génération de réponse, VoiceAgentRAG permet aux agents vocaux d'accéder à une base de connaissances étendue sans sacrifier la fluidité conversationnelle. L'architecture est compatible avec les principaux fournisseurs LLM (OpenAI, Anthropic, Gemini, Ollama) et les systèmes d'embedding courants, ce qui facilite son intégration dans des stacks existants. Les scénarios de conversation thématiquement cohérents, comme la comparaison de fonctionnalités, atteignent jusqu'à 95 % de cache hit ; les scénarios plus volatils descendent à 45-55 %. L'architecture repose sur deux agents parallèles coordonnés par un bus d'événements asynchrone. Le « Fast Talker » gère le chemin critique : il interroge d'abord un cache FAISS en mémoire, et ne fait appel à la base distante qu'en cas d'échec, avant de mettre le résultat en cache pour les tours suivants. Le « Slow Thinker » opère en arrière-plan : il analyse une fenêtre glissante des six derniers tours de conversation pour anticiper trois à cinq sujets probables et pré-charger les documents correspondants avant que l'utilisateur ne pose sa prochaine question. Une subtilité technique notable : le Slow Thinker génère des descriptions stylistiquement proches des documents sources plutôt que des questions, alignant ainsi les embeddings de prédiction sur ceux des textes réels dans la base. Le cache utilise un seuil de similarité cosinus de 0,40 pour les correspondances et une politique d'éviction LRU avec une durée de vie de 300 secondes. Publié en open source sur arXiv (2603.02206), VoiceAgentRAG marque une étape concrète vers des agents vocaux capables de raisonner sur des bases documentaires larges en temps réel.

RecherchePaper
1 source
Cette IA peut créer de nouveaux génomes
430Sciences et Avenir Tech 

Cette IA peut créer de nouveaux génomes

Evo 2 est un modèle d'IA générative développé par l'Arc Institute en collaboration avec NVIDIA, entraîné sur 9,3 trillions de nucléotides provenant de plus de 128 000 organismes. Capable de lire, comprendre et reproduire le langage génétique, il peut désormais générer des séquences d'ADN entièrement nouvelles — des génomes fonctionnels qui n'existent pas dans la nature — avec une précision sans précédent à l'échelle du génome complet. Cette capacité représente un tournant pour la biologie de synthèse et la médecine. Concevoir des génomes sur mesure ouvre la voie à la création de micro-organismes capables de produire des médicaments, décomposer des polluants ou synthétiser des matériaux biologiques complexes. Pour la recherche médicale, cela accélère potentiellement la découverte de thérapies géniques ciblées, en permettant aux chercheurs d'explorer des espaces génétiques que l'évolution naturelle n'a jamais atteints. Ce développement s'inscrit dans une vague de modèles de fondation biologiques — après AlphaFold pour les protéines, l'IA s'attaque désormais à l'ADN lui-même. La course implique des acteurs comme Google DeepMind, Genentech et plusieurs startups de biotech computationnelle. Les enjeux éthiques sont considérables : la capacité de synthétiser des génomes inédits soulève des questions de biosécurité qui poussent déjà régulateurs et scientifiques à débattre de cadres de gouvernance adaptés.

UELes enjeux de biosécurité soulevés par la synthèse de génomes inédits poussent déjà les régulateurs européens à envisager des cadres de gouvernance spécifiques, potentiellement intégrés à l'AI Act ou à la législation biotech de l'UE.

RecherchePaper
1 source
IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle
431FrenchWeb 

IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle

L'apprentissage par imitation — imitation learning en anglais — s'impose comme l'un des paradigmes les plus prometteurs de l'intelligence artificielle appliquée, notamment dans la robotique et les systèmes autonomes. Contrairement au reinforcement learning classique, qui oblige un agent à explorer son environnement par essais-erreurs en accumulant récompenses et pénalités, l'imitation learning repose sur un principe radicalement différent : un modèle apprend en observant des démonstrations réalisées par un expert humain ou un autre système. Deux grandes variantes coexistent — le clonage comportemental, qui imite directement les actions observées, et l'apprentissage inverse par renforcement, qui tente d'inférer la fonction de récompense sous-jacente au comportement de l'expert. L'impact concret est significatif dans les domaines où définir une fonction de récompense explicite reste difficile ou coûteux. En robotique industrielle, des bras manipulateurs apprennent à effectuer des tâches de précision — assemblage, tri, chirurgie assistée — à partir de quelques démonstrations humaines, sans programmer chaque geste manuellement. Dans les véhicules autonomes, des systèmes comme ceux de Waymo ou Tesla intègrent des mécanismes proches pour capturer des comportements de conduite complexes directement depuis des données réelles. Cette approche s'inscrit dans un mouvement plus large vers des IA capables d'acquérir des compétences sans supervision dense. Des laboratoires comme DeepMind, OpenAI ou le CNRS explorent activement ses limites, notamment le problème de distribution shift — le modèle échoue dès qu'il rencontre une situation hors du corpus d'imitation. Des hybrides combinant imitation learning et reinforcement learning, comme DAgger, cherchent à dépasser cette fragilité fondamentale.

UELe CNRS est cité parmi les laboratoires qui explorent activement l'imitation learning, positionnant la recherche française dans ce paradigme émergent.

RecherchePaper
1 source
A-Evolve : l'équivalent PyTorch pour les systèmes d'agents autonomes, remplaçant le réglage manuel par la mutation d'état automatisée et l'auto-correction
432MarkTechPost 

A-Evolve : l'équivalent PyTorch pour les systèmes d'agents autonomes, remplaçant le réglage manuel par la mutation d'état automatisée et l'auto-correction

Une équipe de chercheurs affiliés à Amazon a publié A-Evolve, une infrastructure universelle conçue pour automatiser le développement d'agents IA autonomes. Le framework repose sur un moteur de mutation qui modifie directement les fichiers de configuration, les prompts et le code d'un agent — regroupés dans une structure appelée Agent Workspace — pour en améliorer les performances de façon itérative, sans intervention humaine. Le cycle de fonctionnement s'articule en cinq étapes : l'agent tente une tâche, le système observe les résultats, un moteur d'évolution identifie les points de défaillance et modifie les fichiers, un module de validation vérifie qu'aucune régression n'est introduite, puis l'agent redémarre avec le workspace mis à jour. Chaque mutation est taguée sous Git (evo-1, evo-2…) pour permettre un rollback automatique si nécessaire. Les tests initiaux ont été conduits sur des modèles de la série Claude d'Anthropic, sur des benchmarks exigeants dont SWE-bench, le standard de référence pour évaluer la résolution autonome de tickets GitHub. L'enjeu est de taille : aujourd'hui, construire un agent IA performant exige un travail manuel intensif. Quand un agent échoue sur une tâche, l'ingénieur doit inspecter les logs, diagnostiquer la logique défaillante, réécrire les prompts et recommencer — un cycle chronophage qui freine le passage à l'échelle. A-Evolve automatise précisément cette boucle, ce que ses créateurs comparent à l'impact qu'a eu PyTorch sur le deep learning en 2016 : PyTorch avait éliminé le calcul manuel des gradients et démocratisé l'entraînement de réseaux de neurones ; A-Evolve ambitionne de faire de même pour la conception d'agents, en remplaçant le tuning artisanal par un processus systématique et reproductible. Pour les équipes d'ingénierie IA en entreprise, cela pourrait réduire drastiquement le temps de développement et permettre de déployer des agents spécialisés dans des domaines variés sans expertise pointue à chaque itération. Le projet s'inscrit dans une course plus large à l'automatisation de l'automatisation elle-même — ce que la communauté appelle parfois le "méta-apprentissage" ou l'auto-amélioration des systèmes IA. Amazon n'est pas seul sur ce terrain : OpenAI, DeepMind et plusieurs startups explorent des approches similaires d'optimisation automatique d'agents. Ce qui distingue A-Evolve est son architecture modulaire de type "Bring Your Own" : l'utilisateur peut brancher n'importe quelle architecture d'agent (ReAct, multi-agent), n'importe quel environnement d'exécution (sandbox de code, CLI cloud) et n'importe quel algorithme d'évolution (mutation pilotée par LLM ou par renforcement). Le code est disponible sur GitHub sous le compte A-EVO-Lab. La vraie question reste celle de la généralisation : les gains de performance observés sur SWE-bench se traduiront-ils sur des tâches métier réelles, moins standardisées ? C'est le prochain test que l'industrie imposera à ce type de framework.

💬 La comparaison avec PyTorch, c'est gonflé, mais pas complètement faux. Automatiser la boucle debug-réécriture-test sur des agents, c'est exactement ce qui bloque la mise à l'échelle aujourd'hui, et le fait que ça soit testé sur SWE-bench avec Claude donne du crédit. La vraie question c'est si ça tient sur des tâches métier réelles, moins propres qu'un benchmark standard.

RecherchePaper
1 source
MetaClaw entraîne des agents IA pendant vos réunions en consultant Google Calendar
433The Decoder 

MetaClaw entraîne des agents IA pendant vos réunions en consultant Google Calendar

Des chercheurs issus de quatre universités américaines ont mis au point MetaClaw, un framework conçu pour entraîner des agents d'intelligence artificielle de manière continue, sans interrompre leur utilisation. La particularité du système : il consulte le calendrier Google de l'utilisateur pour identifier les créneaux d'inactivité — réunions, pauses, déplacements — et en profite pour lancer des cycles d'apprentissage en arrière-plan. L'entraînement se déroule donc pendant que l'utilisateur est occupé, sans mobiliser de ressources au moment où il sollicite l'agent. Cette approche résout un problème fondamental des agents IA déployés en production : l'amélioration continue sans interruption de service. Jusqu'ici, mettre à jour un modèle impliquait soit de l'arrêter, soit d'accepter des dégradations temporaires de performance. MetaClaw permet d'optimiser l'agent en temps réel, en s'adaptant au rythme de travail réel de l'utilisateur. Pour les entreprises qui dépendent d'assistants IA dans leurs workflows quotidiens, cela représente un gain notable de fiabilité et d'efficacité opérationnelle. Ce travail s'inscrit dans un courant de recherche croissant autour de l'apprentissage continu (continual learning) et des agents IA adaptatifs — deux domaines en pleine effervescence depuis la multiplication des assistants déployés en environnement professionnel. L'intégration d'un signal aussi concret que l'agenda personnel pour orchestrer l'entraînement illustre une tendance plus large : ancrer les systèmes IA dans les contraintes réelles des utilisateurs plutôt que dans des cycles de mise à jour planifiés. La publication n'a pas encore précisé de date de diffusion du code ni de calendrier de déploiement commercial.

💬 L'idée est maline : utiliser les trous de calendrier pour entraîner l'agent en arrière-plan, sans jamais couper le service. C'est exactement le genre de contrainte qu'on contourne en prod à grands coups de maintenances nocturnes. Bon, pas de code dispo pour l'instant, donc on attend de voir si ça tient hors conditions de labo.

RecherchePaper
1 source
Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières
434The Decoder 

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Naver, le géant sud-coréen d'internet concurrent de Google en Corée du Sud, a présenté le "Seoul World Model", un modèle vidéo capable de simuler des environnements urbains réalistes à partir de données géométriques concrètes. Pour l'entraîner, l'entreprise a exploité plus d'un million d'images issues de son propre service Street View, permettant au modèle de s'ancrer dans la structure réelle des villes plutôt que dans des représentations approximatives. L'enjeu central est celui des hallucinations géographiques : les modèles génératifs ont tendance à inventer des bâtiments, des rues ou des configurations urbaines qui n'existent pas, rendant leur usage peu fiable pour des applications comme la navigation autonome, la simulation urbaine ou la planification architecturale. En contraignant le modèle avec des données de Street View réelles, Naver ancre les générations visuelles dans une géométrie vérifiable. Autre avantage notable : le modèle se généralise à d'autres villes sans nécessiter de fine-tuning spécifique, ce qui réduit considérablement les coûts de déploiement dans de nouveaux contextes géographiques. Cette approche s'inscrit dans une course plus large entre les acteurs de la cartographie et ceux de l'IA générative pour produire des jumeaux numériques urbains fiables. Naver, qui gère l'une des infrastructures cartographiques les plus denses d'Asie, dispose d'un avantage structurel rare : des données propriétaires à grande échelle. Google, avec Street View mondial, et des startups spécialisées comme Wayve ou Waymo sont également actifs sur ce terrain, où la qualité des données d'entraînement devient le facteur différenciant principal.

RecherchePaper
1 source
Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer
435The Decoder 

Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer

Des chercheurs de Meta, en collaboration avec plusieurs universités, ont développé ce qu'ils appellent des « hyperagents » — des systèmes d'IA capables non seulement d'accomplir des tâches, mais aussi d'optimiser activement le mécanisme même par lequel ils s'améliorent. Cette architecture dépasse le cadre classique de l'apprentissage par renforcement ou du fine-tuning : l'agent agit sur deux niveaux simultanément, en résolvant des problèmes tout en affinant sa propre stratégie d'amélioration. Les résultats ont été présentés dans le cadre de travaux impliquant plusieurs équipes académiques aux côtés de Meta. Cette capacité à « s'améliorer en s'améliorant » représente un changement de paradigme potentiel dans la conception des systèmes d'IA agentiques. Là où les agents actuels nécessitent des cycles humains de rétroaction ou de supervision pour progresser, les hyperagents pourraient théoriquement accélérer leur propre développement de manière autonome. L'approche fonctionne sur plusieurs domaines de tâches différents, ce qui suggère une généralisation plutôt qu'une spécialisation étroite — un critère déterminant pour une adoption plus large dans des applications réelles. Ce travail s'inscrit dans une course intense entre les grands laboratoires pour développer des agents IA toujours plus autonomes. Meta, qui a misé massivement sur l'IA agentique avec ses modèles Llama et ses recherches en raisonnement, cherche à rattraper OpenAI et Google sur ce terrain. Le concept d'IA auto-accélératrice soulève également des questions profondes sur la sécurité et la contrôlabilité : si un système peut modifier sa propre dynamique d'apprentissage, la supervision humaine devient structurellement plus difficile à maintenir.

RecherchePaper
1 source
OPINION. « Quand le chat avalera le perroquet »
436La Tribune 

OPINION. « Quand le chat avalera le perroquet »

Les grands modèles de langage actuels, souvent comparés à des perroquets stochastiques capables de reproduire du texte sans le comprendre, pourraient bientôt être supplantés par une nouvelle génération d'intelligences artificielles. Cette tribune d'opinion, publiée dans la rubrique Homo Numericus, avance que la prochaine rupture technologique ne portera pas sur la maîtrise du langage — déjà largement acquise — mais sur la capacité des IA à modéliser le monde physique et causal, à en comprendre les mécanismes profonds plutôt que d'en imiter la surface. L'enjeu est considérable : une IA capable de construire des représentations internes du monde réel, et non plus seulement de ses descriptions textuelles, ouvrirait la voie à des systèmes autonomes fiables dans des domaines critiques — robotique, sciences, médecine, ingénierie. Ce saut qualitatif marquerait le passage d'un outil de génération à un véritable agent de raisonnement. Cette perspective s'inscrit dans un débat de fond qui traverse la recherche en IA depuis des années : les architectures transformer actuelles ont-elles les capacités structurelles pour atteindre une compréhension causale du monde, ou faut-il des paradigmes radicalement nouveaux ? Des chercheurs comme Yann LeCun défendent depuis longtemps cette limite fondamentale des LLMs, et l'article semble s'inscrire dans ce courant critique qui anticipe un changement de paradigme majeur.

RecherchePaper
1 source
NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle
437MarkTechPost 

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper
1 source
IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée
438VentureBeat AI 

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Des chercheurs de l'Université Tsinghua et de Z.ai ont mis au point une technique appelée IndexCache, capable d'accélérer jusqu'à 1,82 fois le temps de génération du premier token et d'augmenter de 1,48 fois le débit de génération pour des contextes de 200 000 tokens. Concrètement, IndexCache supprime jusqu'à 75 % des calculs redondants dans les modèles d'attention sparse, et s'applique aux architectures utilisant DeepSeek Sparse Attention (DSA), notamment les familles de modèles DeepSeek et GLM. Des tests préliminaires ont déjà été conduits sur GLM-5, un modèle de 744 milliards de paramètres, avec des résultats probants en conditions de production. Cette optimisation répond à un problème fondamental des grands modèles de langage : le mécanisme d'auto-attention, qui calcule les relations entre chaque token et tous les précédents, voit sa complexité computationnelle croître de façon quadratique avec la longueur du contexte. L'attention sparse — dont DSA est une implémentation efficace introduite avec DeepSeek-V3.2 — résout en partie ce problème en ne traitant qu'un sous-ensemble de tokens pertinents, réduisant la complexité de quadratique à linéaire. Mais les chercheurs ont identifié un goulot d'étranglement résiduel : le module d'indexation léger présent à chaque couche du modèle, chargé de sélectionner ces tokens importants, restait lui-même quadratique, ralentissant considérablement la phase de préfill lors du traitement initial du prompt. IndexCache s'attaque précisément à ce verrou en exploitant une propriété empirique : les couches adjacentes du transformer sélectionnent entre 70 % et 100 % des mêmes tokens. Le système désigne donc un petit nombre de couches "complètes" qui calculent et mettent en cache les indices de tokens, tandis que les couches "partagées" réutilisent simplement ces indices sans recalcul. Contrairement aux techniques classiques de compression du KV cache qui visent à réduire l'empreinte mémoire, IndexCache attaque directement le coût computationnel. L'enjeu est considérable pour les entreprises qui déploient des modèles à grande échelle. Le traitement de longs contextes — documents volumineux, workflows agentiques multi-étapes, raisonnements en chaîne de pensée étendue — représente aujourd'hui l'un des principaux freins économiques à l'adoption des LLM en production, où chaque milliseconde et chaque token coûtent. La course à l'efficacité de l'inférence s'est intensifiée ces derniers mois, avec des approches concurrentes comme la distillation de modèles, la quantification ou la compression du KV cache. IndexCache se positionne comme une technique orthogonale et complémentaire, exploitable sans modification de l'architecture de base. Avec DeepSeek déjà en pointe sur l'optimisation des coûts d'inférence et Z.ai directement impliqué dans ces travaux, la technique a de bonnes chances d'être intégrée rapidement dans les prochaines versions des modèles GLM et DeepSeek, élargissant la fenêtre de contexte praticable sans explosion des coûts.

UELes entreprises et laboratoires européens déployant des modèles DeepSeek ou GLM pourraient bénéficier de gains d'efficacité substantiels sur les inférences longues, réduisant les coûts opérationnels sans modification d'architecture.

RecherchePaper
1 source
Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur
439Frandroid 

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

Yann LeCun, chercheur français et directeur scientifique de Meta AI, reconnu comme l'un des pères fondateurs de l'intelligence artificielle moderne, a dévoilé avec son équipe un nouveau système baptisé LeWorldModel. La particularité revendiquée de ce modèle est sa capacité à fonctionner sur un seul GPU, une contrainte matérielle bien plus accessible que les clusters de milliers de puces utilisés par les grands modèles actuels. Les premiers résultats expérimentaux sont décrits comme très encourageants par les chercheurs. Si la promesse tient, LeWorldModel représenterait une avancée significative dans la démocratisation de l'IA : rendre possible une compréhension contextuelle du monde physique sans infrastructure colossale ouvre la voie à des déploiements embarqués, sur des robots, des véhicules autonomes ou des appareils grand public. Cela réduirait aussi la dépendance aux géants du cloud pour qui souhaite développer des applications d'IA perceptuelle. LeWorldModel s'inscrit dans la vision de long terme de LeCun, qui critique depuis plusieurs années les grands modèles de langage (LLM) pour leur incapacité à raisonner sur le monde réel. Il défend l'approche des "world models" — des systèmes capables de simuler et anticiper les états du monde physique, inspirés du fonctionnement cognitif humain. Cette annonce relance le débat sur la voie vers une IA plus robuste, face aux approches dominantes de type GPT portées par OpenAI et Google.

UEYann LeCun, chercheur français à la tête de Meta AI, porte une vision qui pourrait orienter la recherche européenne en IA vers des approches embarquées moins dépendantes des infrastructures cloud américaines.

RecherchePaper
1 source
TRIBE v2 : Meta lance une IA capable de simuler les réactions du cerveau
440Numerama 

TRIBE v2 : Meta lance une IA capable de simuler les réactions du cerveau

Le 26 mars 2026, Meta a présenté TRIBE v2, un modèle d'intelligence artificielle open source conçu pour prédire l'activité cérébrale humaine en réponse à des stimuli visuels, sonores ou textuels — sans recourir à un scanner IRM. Le système est capable de simuler les schémas d'activation neuronale déclenchés par presque n'importe quel contenu multimédia, à partir des données seules. L'enjeu est considérable pour la recherche en neurosciences et pour l'industrie : un tel outil permettrait d'étudier la perception humaine à grande échelle, sans l'infrastructure coûteuse et contraignante des études en laboratoire. Pour les concepteurs de contenus, d'interfaces ou de publicités, cela ouvre la voie à une optimisation algorithmique des stimuli en fonction de leur impact cognitif réel — une capacité aux implications éthiques directes sur la manipulation attentionnelle. TRIBE v2 s'inscrit dans une tendance plus large où les géants technologiques investissent massivement dans la modélisation du cerveau humain, à l'intersection de l'IA et des neurosciences computationnelles. Meta, en publiant le modèle en open source, positionne cette technologie comme infrastructure de recherche partagée, tout en alimentant le débat sur les limites à fixer à la simulation comportementale et neurologique par des systèmes privés.

UELes chercheurs européens en neurosciences peuvent accéder librement au modèle open source, mais la capacité d'optimiser des stimuli selon leur impact cognitif soulève des questions réglementaires directes dans le cadre de l'AI Act, notamment sur l'interdiction des systèmes de manipulation comportementale subliminale.

RecherchePaper
1 source
TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche
441Next INpact 

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

Des chercheurs de Google ont publié un ensemble d'algorithmes de quantification baptisé TurboQuant, annoncé officiellement le 24 mars 2026, bien que le papier de recherche soit disponible sur arXiv depuis le 28 avril 2025. Ces algorithmes permettent une compression massive des modèles de langage (LLM) en réduisant significativement leur empreinte mémoire, en particulier lors de l'inférence générative. La recherche a été acceptée pour présentation à la conférence ICLR 2026, qui se tiendra du 23 au 27 avril à Rio de Janeiro — l'une des références mondiales en apprentissage automatique. Le problème résolu est concret et coûteux : les LLM modernes s'appuient sur des fenêtres contextuelles de plus en plus larges et des milliards de paramètres, ce qui exige des quantités croissantes de RAM pour fonctionner efficacement. La quantification vectorielle existait déjà comme technique de compression, mais elle introduisait systématiquement un surcoût mémoire cumulatif qui en limitait les bénéfices. TurboQuant prétend répondre à ce problème de façon « optimale » au sens information-théorique du terme — une référence directe aux travaux de Shannon sur la compression sans perte. Si les résultats tiennent à l'échelle, cela pourrait réduire les coûts d'infrastructure pour les entreprises déployant des LLM en production, et rendre des modèles plus puissants accessibles sur du matériel moins onéreux. La sortie de TurboQuant s'inscrit dans une course intense à l'optimisation mémoire, alors que le prix et la disponibilité des GPU et de la RAM VRAM haute performance constituent des goulets d'étranglement majeurs pour l'industrie. Des approches comme GPTQ, AWQ ou bitsandbytes ont déjà popularisé la quantification à 4 ou 8 bits, mais chacune implique des compromis en précision ou en vitesse. Google entre sur ce terrain avec une approche fondée sur la théorie de l'information, ce qui lui confère une légitimité académique solide. La prochaine étape sera l'adoption par la communauté open source et la validation sur des modèles de grande taille en dehors des laboratoires Google.

UEImpact indirect : si les résultats sont confirmés à grande échelle, les entreprises européennes déployant des LLM en production pourraient réduire significativement leurs coûts d'infrastructure GPU/VRAM.

RecherchePaper
1 source
TRIBE v2 (Meta) : l'IA qui lit le cerveau humain
442MarkTechPost 

TRIBE v2 (Meta) : l'IA qui lit le cerveau humain

Meta FAIR publie TRIBE v2, un modèle qui anticipe les zones cérébrales activées en regardant une vidéo, écoutant un son ou lisant un texte. Architecture trimodale (LLaMA 3.2-3B + V-JEPA2 + Wav2Vec) entraînée sur 80 sujets. Performances supérieures aux versions séparées : c'est l'ouverture d'une IA qui « voit » dans le cerveau.

RecherchePaper
1 source
L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états
443Apple Machine Learning 

L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états

Des chercheurs ont publié une étude démontrant une limite fondamentale des State Space Models (SSMs), la famille d'architectures neuronales considérée comme la principale alternative aux Transformers pour le traitement de séquences longues. Leur résultat théorique, formellement prouvé, établit qu'aucun SSM ne peut résoudre avec précision ce qu'ils appellent un problème de "génération véritablement longue" — c'est-à-dire des tâches nécessitant de maintenir et manipuler de l'information sur des contextes dépassant la capacité effective de leur mémoire fixe. Cette conclusion s'applique aux architectures SSM dans leur forme standard, indépendamment de leur taille ou de leur entraînement. Cette découverte fragilise l'argument central qui faisait la réputation des SSMs : leur efficacité sur les longues séquences. Contrairement aux Transformers, dont la complexité computationnelle croît quadratiquement avec la longueur du contexte, les SSMs fonctionnent en mémoire fixe avec une complexité linéaire — ce qui les rendait théoriquement supérieurs pour les tâches longue portée. Si cette limite est confirmée, elle remet en question l'usage des SSMs dans des applications critiques comme la synthèse de documents longs, le raisonnement multi-étapes ou la génération de code étendu. Les chercheurs proposent néanmoins une solution : doter les SSMs d'un accès interactif à des outils externes. Cette approche, qui s'inscrit dans la tendance plus large du "tool use" en IA, permettrait aux modèles de contourner leur contrainte mémoire en déléguant certaines opérations à des systèmes externes. Les SSMs rejoignent ainsi les Transformers dans une convergence vers des architectures hybrides augmentées d'outils, suggérant que la prochaine génération de modèles efficaces ne sera pas définie par l'architecture seule, mais par sa capacité à s'interfacer avec son environnement.

RecherchePaper
1 source
Athena : représentations intermédiaires pour la génération itérative d'applications guidée par LLM
444Apple Machine Learning 

Athena : représentations intermédiaires pour la génération itérative d'applications guidée par LLM

Générer automatiquement le code d'une interface utilisateur complète à partir d'un grand modèle de langage (LLM) reste un défi technique majeur. Des chercheurs ont développé Athena, un système qui introduit des représentations intermédiaires pour décomposer et guider ce processus de génération de manière itérative. Le problème central est que les interfaces applicatives modernes sont constituées de multiples fichiers interdépendants — écrans, flux de navigation, modèles de données — dont la cohérence est difficile à maintenir dans une seule requête adressée à un LLM. La génération directe produit typiquement un fichier monolithique, peu lisible et difficile à maintenir. Athena change d'approche en introduisant une étape de structuration intermédiaire avant la génération finale du code. Plutôt que de demander à un LLM de tout produire en une seule passe, le système décompose la tâche en représentations abstraites qui servent d'échafaudage — d'où le terme "scaffolded generation". Cela permet au modèle de raisonner sur l'architecture de l'application avant d'écrire la moindre ligne de code, réduisant les incohérences entre composants. Cette recherche s'inscrit dans un mouvement plus large visant à rendre les LLMs réellement utilisables pour le développement logiciel complet, au-delà des simples snippets de code. Les outils actuels de génération de code — GitHub Copilot, Cursor, ou encore Claude — peinent encore à produire des applications entières et cohérentes. Athena propose une piste concrète pour franchir ce cap, en s'inspirant des pratiques de décomposition utilisées par les développeurs humains eux-mêmes. Les suites naturelles incluent l'intégration de ce type d'approche dans des environnements de développement intégrés et des agents de codage autonomes.

RecherchePaper
1 source
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
445Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
446Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel
447Numerama 

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure centrale de l'intelligence artificielle moderne, publie avec un consortium de chercheurs LeWorldModel, un modèle de prédiction du monde capable de s'entraîner directement à partir de pixels bruts — sans prétraitement ni encodage intermédiaire — tout en maintenant une stabilité d'entraînement inédite à cette échelle. Le modèle repose sur 15 millions de paramètres et tourne sur un seul GPU, ce qui le rend accessible bien au-delà des grands laboratoires disposant de clusters massifs. L'enjeu est considérable pour la robotique et l'IA incarnée : pour qu'un robot puisse interagir de façon autonome avec son environnement physique, il doit d'abord modéliser le monde visuel tel qu'il est, image après image, sans dépendre d'annotations humaines. LeWorldModel ouvre cette voie en apprenant directement depuis la donnée visuelle brute, là où les approches précédentes échouaient souvent à converger ou nécessitaient des architectures beaucoup plus lourdes. C'est un pas concret vers une IA qui « comprend » le monde réel plutôt que de simplement le classifier. Cette publication intervient dans un contexte particulier : LeCun vient de cofonder AMI Labs, une startup basée en France dont les premiers travaux ne sont pas encore dévoilés. Depuis plusieurs années, il défend publiquement une vision alternative aux grands modèles de langage — il milite pour des systèmes d'IA basés sur la prédiction du monde physique plutôt que sur la génération de texte. LeWorldModel s'inscrit directement dans cette feuille de route, et pourrait constituer une brique fondamentale de l'architecture JEPA (Joint Embedding Predictive Architecture) qu'il développe chez Meta depuis 2022.

UELa cofondation par LeCun d'AMI Labs, startup basée en France, ancre directement ces travaux dans l'écosystème français de l'IA et pourrait constituer un pôle de recherche européen sur l'IA incarnée.

RecherchePaper
1 source
Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde
448TechCrunch AI 

Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde

Paragraphe 1: Le 28 avril dernier, Deccan AI, un concurrent de Mercor, a annoncé une levée de fonds de 25 millions de dollars pour renforcer sa présence en Inde. Cette entreprise s'est spécialisée dans l'embauche de professionnels locaux pour gérer la qualité dans un marché naissant et dispersé d'entraînement en intelligence artificielle (IA). Paragraphe 2: Cette initiative est cruciale car elle permet à Deccan AI de tirer parti des compétences pointues en IA de l'Inde, un pays qui a rapidement gagné en réputation dans ce domaine. En concentrant ses ressources humaines localisées, Deccan vise à se démarquer dans un marché fragmenté où la qualité et l'efficacité sont essentielles pour attirer des clients. Cette stratégie pourrait non seulement renforcer sa position concurrentielle face à Mercor, mais aussi contribuer au leadership global de l'Inde dans l'industrie de l'IA. Paragraphe 3: Ce mouvement se produit alors que l'intérêt mondial pour les solutions d'IA continue de croître, avec un accent particulier sur la qualité et l'efficacité des systèmes d'apprentissage automatique. En s'appuyant sur le talent local, Deccan AI cherche à répondre efficacement à cette demande croissante tout en renforçant sa propre capacité innovante dans un secteur de plus en plus compétitif.

RechercheReglementation
1 source
Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
449Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
450MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source