Les sous-titres détaillés surpassent le volume…

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

51

1VentureBeat AI

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper

1 source

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

46

2MarkTechPost

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine. Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine. L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

UELes laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

💬 C'est le genre de résultat qui remet tout à plat. On partait du principe depuis des années que générer des images et comprendre des images, c'étaient deux métiers différents, deux familles de modèles séparées. Google vient de montrer que le générateur apprend la géométrie et la profondeur en chemin, sans qu'on lui demande, et qu'un petit instruction-tuning suffit à reformater ça pour battre SAM 3 ou Depth Anything. Si le parallèle avec les LLM tient vraiment à grande échelle, on va économiser beaucoup de modèles spécialisés.

RecherchePaper

1 source

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

40

3Apple Machine Learning

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper

1 source

47

4MarkTechPost

Google Research présente SensorFM, un modèle de fondation santé portable entraîné sur mille milliards de minutes de données de capteurs

Google Research a dévoilé SensorFM, un modèle de fondation destiné aux données de capteurs portables, entraîné sur plus d'un trillion de minutes de données, soit plus de deux milliards d'heures, collectées auprès de cinq millions de participants consentants entre septembre 2024 et septembre 2025. Le corpus couvre plus de cent pays, les cinquante États américains et plus de vingt modèles de montres Fitbit et Pixel Watch. Le modèle ingère trente-quatre caractéristiques agrégées par minute, issues de cinq capteurs (photopléthysmographie, accéléromètre, activité électrodermale, température cutanée et altimètre), organisées en sept catégories sur une fenêtre de contexte de vingt-quatre heures. Son architecture repose sur un encodeur ViT-1D entraîné selon un objectif d'auto-encodeur masqué, avec quatre variantes allant de 138 740 à plus de 110 millions de paramètres, chacune associée à un volume de données proportionnel. L'évaluation s'appuie sur près de 14 000 sujets répartis dans trois études prospectives approuvées par un comité d'éthique, portant sur la santé métabolique, cardiaque et respiratoire, le sommeil et la santé mentale, pour un total de trente-cinq tâches prédictives. Cette approche change la donne pour un secteur où chaque nouvel indicateur de santé nécessitait jusqu'ici l'entraînement d'un modèle dédié, une méthode intenable dès qu'il faut couvrir plusieurs dizaines de pathologies ou de comportements à la fois, faute d'annotations rétrospectives disponibles. Les résultats montrent que la taille du modèle compte réellement : la version la plus grande, entraînée sur les cinq millions de sujets, réduit la perte de reconstruction de 31 % par rapport à la plus petite variante et remporte trente-trois des trente-cinq tâches évaluées, avec une aire sous la courbe ROC moyenne passant de 0,664 à 0,752 selon la taille du modèle. Autre apport clé, une technique de masquage adaptatif nommée AIM permet de gérer nativement les données manquantes, très fréquentes lors des périodes de charge ou de retrait du bracelet, sans recourir à l'imputation classique. Elle améliore de 74,8 % la reconstruction en cas d'imputation aléatoire et de 83,7 % en cas de signal de capteur manquant. Ce travail s'inscrit dans une course plus large des géants technologiques pour transformer les objets connectés grand public en outils de dépistage médical préventif, en misant sur l'échelle plutôt que sur des labels cliniques coûteux à produire. Google s'appuie ici sur son expérience acquise avec les modèles LSM, dont hérite la technique de masquage AIM, et sur sa base installée de montres Fitbit et Pixel Watch pour constituer un corpus d'entraînement difficile à égaler pour des concurrents sans écosystème matériel équivalent. Les auteurs notent toutefois que la courbe de performance ne montre encore aucun signe de saturation, laissant présager des versions futures entraînées sur des volumes plus importants encore.

💬 Google confirme ce que je pressentais depuis un moment : la santé connectée passe d'un modèle "un capteur, un algo" à un modèle de fondation unique, et ça change l'échelle du problème. Le vrai apport ici c'est le masquage adaptatif, parce que dans la vraie vie les gens enlèvent leur montre pour charger ou dormir, et gérer ça nativement plutôt qu'en imputant des données bidon, c'est ce qui manquait pour passer du gadget au vrai dépistage. Reste un point qui coince : Google est quasiment seul à avoir la base installée de montres pour nourrir ce genre de modèle, donc ça se transforme vite en avantage concurrentiel verrouillé plutôt qu'en avancée ouverte pour tout le secteur.

RechercheActu

1 source

Les sous-titres détaillés surpassent le volume brut pour entraîner des générateurs d'images efficaces, selon Lens de Microsoft Research

À lire aussi

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Google Research présente SensorFM, un modèle de fondation santé portable entraîné sur mille milliards de minutes de données de capteurs