RechercheMarkTechPost · 25 avr. 2026, 10:44· 2 min de lecture

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Résumé IASource uniqueImpact UE Take éditorial

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine.

Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine.

L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

Impact France/UE

Les laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

💬 L'analyse de Mathieu

C'est le genre de résultat qui remet tout à plat. On partait du principe depuis des années que générer des images et comprendre des images, c'étaient deux métiers différents, deux familles de modèles séparées. Google vient de montrer que le générateur apprend la géométrie et la profondeur en chemin, sans qu'on lui demande, et qu'un petit instruction-tuning suffit à reformater ça pour battre SAM 3 ou Depth Anything. Si le parallèle avec les LLM tient vraiment à grande échelle, on va économiser beaucoup de modèles spécialisés.

Dans nos dossiers

Google DeepMind

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Google Deepmind affirme que les générateurs vidéo possèdent déjà les modèles du monde qui manquaient à la vision par ordinateur

Voici l'article traduit et reformaté selon les consignes : Google DeepMind a présenté GenCeption, un système qui détourne un générateur vidéo de son usage habituel pour lui faire accomplir des tâches classiques de vision par ordinateur, comme l'estimation de profondeur ou la segmentation d'images. Le modèle atteint des performances comparables aux meilleurs systèmes spécialisés actuels, alors qu'il a été entraîné avec beaucoup moins de données. Fait notable, son entraînement s'est appuyé presque exclusivement sur des vidéos synthétiques plutôt que sur des images réelles, une approche qui réduit considérablement les besoins en données annotées manuellement. Cette prouesse technique alimente un débat déjà vif dans la communauté de l'intelligence artificielle : les générateurs vidéo, conçus à l'origine pour produire des images animées réalistes, contiendraient-ils déjà, en creux, une forme de modèle universel du monde physique ? Si cette hypothèse se confirme, les implications sont importantes pour l'industrie de la vision par ordinateur, qui pourrait voir converger deux familles de systèmes jusqu'ici séparées, les modèles génératifs et les modèles de perception. Cela ouvrirait la voie à des architectures plus polyvalentes, capables à la fois de générer et de comprendre le monde visuel, réduisant les coûts de développement pour des applications comme la robotique, la conduite autonome ou l'analyse d'images médicales. Le débat sur les modèles du monde occupe une place centrale dans la recherche en IA depuis plusieurs années, porté notamment par des chercheurs comme Yann LeCun chez Meta, qui plaide pour des architectures capables d'apprendre une représentation implicite de la physique et de la causalité plutôt que de simplement prédire des pixels. Les résultats de Google DeepMind suggèrent que les générateurs vidéo, entraînés uniquement à prédire des séquences d'images plausibles, développent malgré tout une compréhension exploitable de la structure du monde réel. Reste à savoir si cette capacité se généralise à d'autres tâches de vision plus complexes, et si les grands laboratoires d'IA, entre Google, Meta et OpenAI, orienteront davantage leurs futurs modèles vers cette convergence entre génération et perception.

💬 L'idée que les générateurs vidéo pourraient déjà contenir un modèle du monde, c'est le genre de truc qu'on attendait depuis 2 ans. Ce qui me frappe, c'est le coût : entraîné quasi exclusivement sur du synthétique, sans annoter des masses d'images à la main, ça change la donne économique de la vision par ordinateur. Reste à voir si ça généralise au-delà de l'estimation de profondeur, mais si LeCun avait raison sur les modèles du monde, ce serait ironique que ce soit un générateur d'images qui lui donne raison plutôt qu'une architecture pensée pour ça.

RecherchePaper

1 source

2The Decoder

Les sous-titres détaillés surpassent le volume brut pour entraîner des générateurs d'images efficaces, selon Lens de Microsoft Research

Microsoft Research a publié Lens, un modèle de génération d'images à partir de texte doté de seulement 3,8 milliards de paramètres, capable de rivaliser avec des modèles bien plus volumineux sur les benchmarks standard, à une fraction du coût d'entraînement habituel. La clé de cette performance réside dans les données : au lieu de s'appuyer sur les descriptions alternatives vagues issues du web, l'équipe a généré 800 millions de légendes d'images très détaillées à l'aide de GPT-4.1. Le code source et les poids du modèle ont été publiés sous licence open source. Ce résultat remet en question une hypothèse dominante dans l'industrie de l'IA : celle selon laquelle il faudrait toujours plus de paramètres et de données brutes pour obtenir de meilleures performances. Lens démontre qu'un modèle compact, nourri de données de haute qualité, peut égaler des modèles propriétaires bien plus lourds. Pour les équipes disposant de ressources limitées, cela ouvre la voie à des pipelines de génération d'images performants sans investissement massif en infrastructure. Cette publication s'inscrit dans une tendance qui valorise la qualité des données d'entraînement plutôt que leur quantité brute, une philosophie déjà portée par des modèles comme Phi chez Microsoft lui-même. L'utilisation de GPT-4.1 pour générer des descriptions riches et précises rappelle les approches de recaptioning adoptées par Stability AI ou Adobe Firefly. En rendant Lens accessible à tous, Microsoft Research contribue à démocratiser la recherche en génération visuelle, et pourrait accélérer l'émergence de modèles spécialisés plus efficaces dans des domaines comme le design, la médecine ou l'éducation.

UELa publication open source de Lens permet aux équipes de recherche et startups européennes de développer des pipelines de génération d'images performants sans infrastructure coûteuse.

RecherchePaper

1 source

3The Decoder

Sam Altman affirme que toute une génération de chercheurs a freiné l'IA en sous-estimant le potentiel du passage à l'échelle

Lors d'une conférence à Stanford, Sam Altman a pris la défense du scaling des grands modèles de langage et s'en est pris directement aux chercheurs sceptiques, affirmant qu'une génération entière de scientifiques a freiné l'avancement de l'IA en sous-estimant ce que l'augmentation de la puissance de calcul et des données pouvait produire. Pour étayer son propos, le PDG d'OpenAI a cité un résultat récent de son entreprise : la réfutation automatisée d'une conjecture mathématique, un type de raisonnement abstrait longtemps considéré hors de portée des systèmes actuels. Cette prise de position tranche dans un débat qui agite le monde de la recherche depuis plusieurs années. De nombreux académiciens et chercheurs avaient soutenu que le scaling seul ne suffirait pas à produire une intelligence générale, et que des approches fondamentalement différentes seraient nécessaires. Si Altman a raison, ces voix critiques n'ont pas seulement eu tort sur le plan technique : elles ont activement ralenti les investissements et les orientations de recherche vers une voie qui s'avère productive. L'enjeu dépasse la fierté intellectuelle, il touche à l'allocation de milliards de dollars en R&D. Le contexte est celui d'une période charnière pour OpenAI, qui multiplie les démonstrations de capacités avancées pour justifier sa valorisation dépassant les 300 milliards de dollars. Les lois de scaling, théorisées notamment par les chercheurs de DeepMind et OpenAI autour de 2020, avaient déjà divisé la communauté. La sortie de modèles comme o3 et GPT-4o relance la question : le scaling est-il un plafond ou une rampe, et qui avait vraiment raison ?

💬 Altman a raison, même si c'est très pratique de le dire quand on vaut 300 milliards. Les paris de recherche se paient cash : sous-estimer le scaling pendant dix ans, c'est des milliards réorientés vers des impasses et des années brûlées pour tout le secteur. La conjecture mathématique réfutée automatiquement, c'est le genre de résultat qui rend le débat difficile à esquiver.

RecherchePaper

1 source

4MarkTechPost

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic