RechercheThe Decoder8sem

Google unifie texte, image, vidéo et audio dans un espace vectoriel unique avec Gemini Embedding 2

Résumé IASource uniqueImpact UE

Google lance Gemini Embedding 2, son premier modèle d'embedding nativement multimodal, capable de représenter texte, images, vidéos, audio et documents dans un espace vectoriel unifié. Cette approche élimine le besoin de modèles séparés pour chaque modalité dans les pipelines IA. Une avancée significative pour simplifier les architectures de recherche et de récupération multimodale.

Dans nos dossiers

Gemini

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles

Google a lancé Gemini Embedding 2, un modèle d'intégration multimodal de deuxième génération capable de convertir texte, images, vidéos, audio et PDF en un espace vectoriel unifié — sans pipelines séparés. Il supporte des entrées combinées (jusqu'à 8 192 tokens, 6 images, 120 secondes de vidéo, 80 secondes d'audio) et utilise le Matryoshka Representation Learning (MRL) pour compresser intelligemment les vecteurs en 768, 1 536 ou 3 072 dimensions selon les besoins de performance. Cette architecture permet aux systèmes RAG de faire une première recherche rapide sur des vecteurs courts, puis un reclassement précis sur les vecteurs complets.

LLMsOutil

1 source

2Numerama

Google a peut-être réglé la crise de la mémoire vive (RAM) avec un algorithme

Google a dévoilé TurboQuant, un nouvel algorithme de quantification capable de diviser par six les besoins en mémoire vive des modèles d'intelligence artificielle. Cette avancée mathématique s'attaque directement à l'un des principaux goulots d'étranglement du secteur : la consommation colossale de RAM exigée par les IA modernes. L'impact potentiel est considérable. En réduisant drastiquement l'empreinte mémoire, TurboQuant pourrait permettre de faire tourner des modèles bien plus puissants sur du matériel existant, démocratisant ainsi l'accès à des IA avancées sans nécessiter d'investissements matériels massifs. L'essor des grands modèles de langage a provoqué une pression sans précédent sur les infrastructures GPU et CPU. La crise de la RAM est devenue un enjeu stratégique majeur pour l'ensemble de l'industrie.

UEUne réduction par six des besoins en RAM des modèles IA pourrait permettre aux entreprises et laboratoires européens de déployer des modèles plus puissants sur leur infrastructure existante, abaissant la barrière d'entrée pour la recherche et l'industrie IA en Europe.

RecherchePaper

1 source

3MarkTechPost

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine. Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine. L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

UELes laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

💬 C'est le genre de résultat qui remet tout à plat. On partait du principe depuis des années que générer des images et comprendre des images, c'étaient deux métiers différents, deux familles de modèles séparées. Google vient de montrer que le générateur apprend la géométrie et la profondeur en chemin, sans qu'on lui demande, et qu'un petit instruction-tuning suffit à reformater ça pour battre SAM 3 ou Depth Anything. Si le parallèle avec les LLM tient vraiment à grande échelle, on va économiser beaucoup de modèles spécialisés.

RecherchePaper

1 source

4MarkTechPost

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

Ce tutoriel implémente une version du framework AutoResearch d'Andrej Karpathy dans Google Colab, créant un pipeline d'expérimentation automatisé qui modifie programmatiquement les hyperparamètres de train.py, lance des itérations d'entraînement et évalue les modèles via la métrique bits-per-byte. La boucle de recherche autonome clone le dépôt AutoResearch, ajuste des paramètres comme MAXSEQLEN, DEPTH ou DEVICEBATCHSIZE, puis enregistre chaque expérience dans un tableau structuré. L'objectif est de reproduire le concept de recherche ML autonome — tester, évaluer, conserver les meilleures configurations — sans infrastructure spécialisée ni GPU dédié.

RechercheTuto

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour