Aller au contenu principal
Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3
RechercheMarkTechPost3h

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

1 source couvre ce sujet·Source originale ↗·

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine.

Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine.

L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

Impact France/UE

Les laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

À lire aussi

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage
1MarkTechPost 

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Microsoft a publié OpenMementos, un jeu de données conçu pour entraîner des modèles de langage capables de raisonnement long, structuré et compressible. Le dataset, disponible sur HuggingFace sous l'identifiant microsoft/OpenMementos, organise chaque trace de raisonnement en une série de blocs délimités par des tokens spéciaux (<|blockstart|>, <|blockend|>) accompagnés chacun de leur résumé condensé, appelé memento, encadré par <|summarystart|> et <|summaryend|>. Un tutoriel technique détaillé, conçu pour fonctionner directement dans Google Colab, montre comment accéder au dataset en mode streaming sans le télécharger intégralement, analyser sa structure interne, mesurer les taux de compression bloc-par-bloc sur 500 exemples répartis selon le domaine et la source, puis préparer les données pour un fine-tuning supervisé. L'ensemble du pipeline repose sur des bibliothèques Python standard : HuggingFace Datasets, Transformers, Pandas et Matplotlib. La valeur centrale d'OpenMementos réside dans son architecture de compression. Chaque réponse longue d'un modèle de raisonnement est découpée en blocs discrets, puis chaque bloc est automatiquement réduit à un memento de quelques phrases. Le tutoriel mesure ce rapport de compression en caractères et en mots par domaine, révélant à quel point les mementos permettent de préserver l'essentiel du raisonnement avec une fraction du volume textuel. Cette structure est directement exploitable pour l'entraînement : plutôt que de forcer un modèle à reproduire intégralement des chaînes de pensée verbeuses, on peut l'entraîner à produire des résumés intermédiaires compacts, ce qui réduit les coûts de calcul à l'inférence tout en maintenant la cohérence logique sur des problèmes complexes. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires d'IA depuis fin 2024 : comment rendre les modèles de raisonnement économiquement viables. Les approches chain-of-thought et les architectures de type "thinking model", popularisées par OpenAI avec o1 puis par DeepSeek-R1 et Qwen-QwQ, génèrent des traces de raisonnement extrêmement longues et coûteuses à stocker, transmettre et inférer. Microsoft répond à ce défi avec une solution de compression supervisée des traces, en annotant explicitement les résumés intermédiaires au niveau des blocs. OpenMementos fournit ainsi une base d'entraînement structurée pour des modèles capables de "penser de façon compacte", une propriété qui pourrait devenir déterminante à mesure que les applications industrielles exigent des latences et des coûts d'inférence maîtrisés sur des tâches de raisonnement multi-étapes.

RecherchePaper
1 source
Yong Wang transforme l'information en connaissances
2IEEE Spectrum AI 

Yong Wang transforme l'information en connaissances

Yong Wang, assistant professeur en informatique et science des données à l'Université Technologique de Nanyang à Singapour, vient de recevoir le prix Significant New Researcher Award 2025 du comité technique visualisation et graphiques de l'IEEE Computer Society. Cette distinction, l'une des plus prestigieuses pour les chercheurs en début de carrière dans le domaine de la visualisation de données, récompense ses travaux sur l'utilisation des techniques de visualisation pour rendre les outils d'intelligence artificielle plus compréhensibles et accessibles. Wang, membre IEEE et éditeur associé d'IEEE Transactions on Visualization and Computer Graphics, concentre ses recherches sur l'interaction humain-ordinateur et la collaboration humain-IA, deux champs en pleine expansion à mesure que le volume de données mondiales dépasse la capacité d'interprétation humaine. Ce prix met en lumière une contribution qui dépasse le cadre académique : si les interfaces de visualisation sont bien conçues, elles peuvent démocratiser l'accès aux technologies avancées pour des publics non spécialistes. Dans un contexte où l'IA pénètre rapidement l'entreprise, la médecine et la recherche, la capacité à rendre lisibles des modèles complexes devient un enjeu stratégique. Les travaux de Wang s'inscrivent directement dans cette problématique : comment permettre à un plus grand nombre de personnes de comprendre, d'interroger et de collaborer avec des systèmes d'IA sans nécessiter une expertise technique approfondie. Son influence grandissante sur ces questions lui vaut d'être désormais reconnu parmi les figures montantes de son domaine à l'échelle internationale. Le parcours de Wang illustre une trajectoire peu ordinaire. Né dans un village agricole de la province du Hunan, dans le sud-ouest de la Chine, il a grandi dans un foyer sans ordinateur, où la télévision elle-même était considérée comme un objet de valeur. Ses parents, sans formation universitaire, ont néanmoins soutenu ses études, son père finançant une partie de sa scolarité grâce à des emplois en usine et sur des chantiers en ville. Attiré par la robotique et l'informatique après avoir découvert ces domaines à la télévision, Wang a intégré l'Institut de Technologie de Harbin, réputé pour ses programmes d'ingénierie, où il a obtenu une licence en automatisme en 2011. Il a ensuite poursuivi ses études à l'Université des Sciences et Technologies de Huazhong à Wuhan, puis à l'Université des Sciences et Technologies de Hong Kong, avant de rejoindre Singapour. Sa trajectoire, des rizières du Hunan aux laboratoires de recherche en IA, incarne précisément la vision qu'il défend : donner à davantage de personnes les outils pour participer à la science et à l'innovation.

RecherchePaper
1 source
Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles
3MarkTechPost 

Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles

Google DeepMind a présenté Decoupled DiLoCo (Distributed Low-Communication), une nouvelle architecture d'entraînement distribué conçue pour entraîner de grands modèles de langage sur plusieurs centres de données géographiquement éloignés, sans nécessiter la synchronisation permanente que demandent les approches classiques. L'architecture divise le calcul en groupes de puces indépendants, appelés "learner units", qui s'entraînent de manière semi-autonome avant de partager un signal de gradient compressé avec un optimiseur central. Le gain en bande passante est spectaculaire : là où l'entraînement distribué standard exige environ 198 Gbps de connectivité entre huit centres de données, Decoupled DiLoCo n'en requiert que 0,84 Gbps, soit une réduction de plusieurs ordres de grandeur compatible avec une infrastructure réseau ordinaire. Lors de simulations impliquant 1,2 million de puces soumises à des taux de pannes élevés, le système a maintenu un "goodput" (fraction du temps effectivement consacrée à l'entraînement utile) de 88%, contre seulement 27% pour les méthodes parallèles classiques. Ces chiffres révèlent un changement profond dans la manière dont on peut envisager l'entraînement à grande échelle. La principale fragilité des architectures actuelles tient à leur synchronisation bloquante : à chaque étape, toutes les puces doivent attendre la plus lente avant de passer à la suivante, ce qui rend un cluster de milliers d'accélérateurs extrêmement vulnérable aux défaillances matérielles. Decoupled DiLoCo rompt avec cette logique en rendant la synchronisation asynchrone : si un groupe de puces tombe en panne ou ralentit, les autres continuent à s'entraîner. L'équipe a poussé le test jusqu'à la "chaos engineering", une méthode qui consiste à introduire délibérément des pannes artificielles pendant un entraînement en cours. Le système a non seulement survécu à la perte de learner units entiers, mais les a réintégrés automatiquement à leur retour, un comportement qualifié d'"auto-réparation". Decoupled DiLoCo s'appuie sur deux travaux antérieurs de Google : Pathways, un système d'IA distribué fondé sur des flux de données asynchrones permettant à différentes ressources de calcul d'avancer à leur propre rythme, et DiLoCo, qui avait déjà démontré qu'il était possible de réduire drastiquement les communications inter-centres de données en multipliant les étapes locales avant chaque synchronisation. La combinaison des deux ouvre la voie à un entraînement véritablement planétaire, où des centres de données situés sur des continents différents peuvent contribuer à un même modèle sans infrastructure réseau dédiée. Dans un contexte où les modèles frontières mobilisent des centaines de milliards de paramètres et des dizaines de milliers de puces, cette résilience architecturale pourrait devenir une condition sine qua non pour qui veut maintenir des entraînements longs sans interruptions catastrophiques.

UELes laboratoires européens travaillant sur l'entraînement de grands modèles pourraient adopter cette approche pour mutualiser des centres de calcul géographiquement dispersés sans infrastructure réseau dédiée coûteuse.

RechercheOpinion
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
4arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

RechercheOpinion
1 source