Aller au contenu principal
Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b
RechercheMarkTechPost1h

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign, de l'UC Berkeley et de la startup Chroma ont publié Harness-1, un agent de recherche documentaire de 20 milliards de paramètres construit sur le modèle gpt-oss-20b et entraîné par apprentissage par renforcement. Sa particularité : contrairement aux agents de recherche classiques où le modèle gère simultanément les décisions de recherche et la mémoire de session, Harness-1 opère à l'intérieur d'un "harnais" logiciel à état qui prend en charge toute la comptabilité interne. Le modèle ne répond pas directement aux questions : il produit un ensemble classé de documents pertinents pour un modèle de réponse en aval. Les poids et le code source sont publiés en accès libre. L'entraînement supervisé a utilisé 899 trajectoires générées par GPT-5.4, avec affinage par renforcement via la méthode CISPO, sur des requêtes financières issues de la SEC, avec une limite de 40 tours par épisode, sur un cluster de calcul baptisé Tinker.

Le coeur de l'approche repose sur un principe que les chercheurs appellent "décharge cognitive à état" : au lieu de demander au modèle de tout mémoriser et décider en même temps, le harnais maintient un pool de documents compressés et dédupliqués, un ensemble curé de 30 documents maximum tagués par importance (veryhigh, high, fair, low), un graphe de preuves et un extracteur d'entités nommées. Le modèle dispose de huit outils distincts (fanoutsearch, searchcorpus, grepcorpus, readdocument, reviewdocs, curate, verify, endsearch) et émet une action structurée par tour, que le harnais exécute avant de rendre la prochaine observation. Cette séparation des responsabilités permet à l'apprentissage par renforcement de se concentrer uniquement sur les décisions sémantiques. Un bonus de diversité d'outils s'est révélé critique : sans lui, l'agent s'effondrait en boucles de recherches répétitives et le rappel curé plafonnait à 0,53 ; avec le bonus, il atteint 0,60.

Harness-1 s'inscrit dans une tendance de fond visant à rendre les agents de recherche plus fiables sur des tâches complexes et multi-sources. Évalué sur huit benchmarks couvrant le web, la finance, les brevets et le raisonnement multi-saut, il affiche un rappel curé moyen de 0,730, un résultat notable pour un modèle open source de cette taille face à des systèmes propriétaires bien plus grands. L'enjeu est significatif car les architectures RAG (retrieval-augmented generation) sont au coeur de nombreux systèmes d'IA en production, notamment en entreprise. La publication ouverte des poids et du harnais ouvre la voie à des adaptations dans des domaines où la précision documentaire est critique, comme le droit, la médecine ou la veille scientifique. Les prochaines étapes naturelles incluent l'extension à d'autres corpus et l'intégration à des pipelines de réponse complets.

Impact France/UE

Les entreprises et institutions européennes travaillant sur des systèmes RAG en droit, médecine ou veille scientifique peuvent s'appuyer sur les poids ouverts de Harness-1 pour des adaptations sectorielles à faible coût.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM
1Apple Machine Learning 

BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM

Des chercheurs ont présenté BalCapRL, un nouveau cadre d'entraînement par apprentissage par renforcement (RL) conçu pour améliorer la génération automatique de légendes d'images par les grands modèles de langage multimodaux (MLLM). Face aux limites des méthodes RL existantes, BalCapRL cherche à équilibrer plusieurs dimensions de qualité simultanément dans la description d'images, une tâche considérée comme fondamentale en vision par ordinateur et qui a gagné en importance avec l'essor des MLLM. Les approches RL actuelles pour la génération de légendes souffrent d'un défaut structurel : en optimisant une métrique unique orientée utilité, elles produisent des descriptions trop longues, bruitées ou carrément hallucinées. Ces travers ont des conséquences concrètes pour les applications industrielles qui dépendent de légendes fiables, comme l'accessibilité numérique, l'indexation d'images ou les moteurs de recherche visuelle. BalCapRL propose un cadre plus équilibré qui préserve plusieurs critères de qualité en même temps, évitant les compromis indésirables qu'introduisent les métriques d'évaluation trop étroites. La génération de légendes d'images a connu un regain d'intérêt avec l'essor de modèles comme GPT-4V, LLaVA ou Gemini, capables de décrire des scènes visuelles en langage naturel. L'application du RL à ces modèles, popularisée par les travaux sur le RLHF dans les LLM textuels, est devenue une piste prometteuse mais difficile à maîtriser. BalCapRL s'inscrit dans cette dynamique en cherchant à corriger les biais induits par des objectifs d'optimisation trop réducteurs, un enjeu central pour l'alignement des modèles multimodaux à mesure qu'ils s'imposent dans les usages professionnels.

RecherchePaper
1 source
Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
2MarkTechPost 

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification. L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production. L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
3MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
Système automatique de prévention des collisions au sol par apprentissage par renforcement
4arXiv cs.RO 

Système automatique de prévention des collisions au sol par apprentissage par renforcement

Des chercheurs ont publié sur arXiv une étude évaluant un système automatique d'évitement de collision avec le sol (AGCAS) basé sur l'intelligence artificielle et l'apprentissage par renforcement, conçu spécifiquement pour les avions d'entraînement avancés. Le système, développé pour répondre aux contraintes temporelles strictes du vol militaire, repose sur des requêtes de ligne de visée vers un serveur de terrain pour calculer en temps réel la trajectoire de récupération optimale. L'approche se distingue par sa capacité à fonctionner dans un espace d'observation limité, ce qui représente un défi technique majeur pour les systèmes embarqués soumis à des ressources de calcul contraintes. L'enjeu est directement opérationnel : les collisions avec le relief en vol dit CFIT (Controlled Flight Into Terrain) restent l'une des principales causes de pertes d'appareils militaires, y compris lors de phases d'entraînement. Un AGCAS efficace peut déclencher une manoeuvre de redressement automatique lorsque le pilote est incapacité, désorienté ou distrait, sans nécessiter d'intervention humaine. L'intégration de l'apprentissage par renforcement permet au système d'adapter ses décisions à des configurations de terrain variées et imprévues, là où les systèmes à règles fixes atteignent leurs limites. Pour les forces aériennes utilisant des jets d'entraînement avancés comme le T-38 ou des équivalents, une telle technologie pourrait réduire significativement les accidents évitables. Ce travail s'inscrit dans une tendance de fond : l'armée américaine et plusieurs agences de défense occidentales investissent massivement dans l'IA embarquée pour l'aviation militaire depuis plusieurs années, avec des programmes comme le DARPA Air Combat Evolution (ACE). L'AGCAS n'est pas un concept nouveau, la version traditionnelle équipe déjà certains F-16 de l'USAF, mais son adaptation par apprentissage par renforcement ouvre la voie à des systèmes plus génériques et adaptables. La prochaine étape sera de valider ces résultats en simulation haute-fidélité, puis potentiellement en vol réel, avant toute intégration sur des plateformes opérationnelles.

UELes armées de l'air européennes, dont l'armée de l'Air et de l'Espace française, pourraient s'appuyer sur ces travaux pour développer des systèmes anti-collision terrain plus adaptatifs sur leurs appareils d'entraînement militaires.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour