Aller au contenu principal
Google unifie texte, image, vidéo et audio dans un espace vectoriel unique avec Gemini Embedding 2
RechercheThe Decoder14sem· 1 min de lecture

Google unifie texte, image, vidéo et audio dans un espace vectoriel unique avec Gemini Embedding 2

Source originale ↗·

Google lance Gemini Embedding 2, son premier modèle d'embedding nativement multimodal, capable de représenter texte, images, vidéos, audio et documents dans un espace vectoriel unifié. Cette approche élimine le besoin de modèles séparés pour chaque modalité dans les pipelines IA. Une avancée significative pour simplifier les architectures de recherche et de récupération multimodale.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles
1MarkTechPost 

Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles

Google a lancé Gemini Embedding 2, un modèle d'intégration multimodal de deuxième génération capable de convertir texte, images, vidéos, audio et PDF en un espace vectoriel unifié — sans pipelines séparés. Il supporte des entrées combinées (jusqu'à 8 192 tokens, 6 images, 120 secondes de vidéo, 80 secondes d'audio) et utilise le Matryoshka Representation Learning (MRL) pour compresser intelligemment les vecteurs en 768, 1 536 ou 3 072 dimensions selon les besoins de performance. Cette architecture permet aux systèmes RAG de faire une première recherche rapide sur des vecteurs courts, puis un reclassement précis sur les vecteurs complets.

LLMsOutil
1 source
Google a peut-être réglé la crise de la mémoire vive (RAM) avec un algorithme
2Numerama 

Google a peut-être réglé la crise de la mémoire vive (RAM) avec un algorithme

Google a dévoilé TurboQuant, un nouvel algorithme de quantification capable de diviser par six les besoins en mémoire vive des modèles d'intelligence artificielle. Cette avancée mathématique s'attaque directement à l'un des principaux goulots d'étranglement du secteur : la consommation colossale de RAM exigée par les IA modernes. L'impact potentiel est considérable. En réduisant drastiquement l'empreinte mémoire, TurboQuant pourrait permettre de faire tourner des modèles bien plus puissants sur du matériel existant, démocratisant ainsi l'accès à des IA avancées sans nécessiter d'investissements matériels massifs. L'essor des grands modèles de langage a provoqué une pression sans précédent sur les infrastructures GPU et CPU. La crise de la RAM est devenue un enjeu stratégique majeur pour l'ensemble de l'industrie.

UEUne réduction par six des besoins en RAM des modèles IA pourrait permettre aux entreprises et laboratoires européens de déployer des modèles plus puissants sur leur infrastructure existante, abaissant la barrière d'entrée pour la recherche et l'industrie IA en Europe.

RecherchePaper
1 source
Les agents IA ont besoin d'un terminal, pas seulement d'une base vectorielle
3VentureBeat AI 

Les agents IA ont besoin d'un terminal, pas seulement d'une base vectorielle

Des chercheurs de plusieurs universités ont publié une étude proposant une nouvelle approche pour améliorer les capacités des agents d'intelligence artificielle : la "Direct Corpus Interaction" (DCI). Plutôt que de passer par une base de données vectorielle classique, cette technique permet aux agents d'interagir directement avec les données brutes via des outils en ligne de commande standard comme grep, find, cat ou des scripts Python légers. L'idée centrale est simple : donner à l'agent un accès terminal plutôt qu'un index sémantique figé, lui permettant de chercher des chaînes exactes, des codes d'erreur, des numéros de version ou des chemins de fichiers que les systèmes RAG traditionnels peinent à retrouver fidèlement. L'impact concret est significatif pour les environnements d'entreprise où les données évoluent en permanence. Les index vectoriels représentent toujours un instantané d'un moment passé, coûteux à reconstruire et jamais tout à fait à jour. En présence de rapports financiers quotidiens, de logs en direct, de commits de code ou de tickets de support, un agent DCI raisonne sur l'état actuel du système plutôt que sur l'index d'hier. Les chercheurs proposent deux variantes : DCI-Agent-Lite, conçu comme une solution légère, et une version plus complète pour des tâches plus complexes. L'agent peut enchaîner des commandes shell en pipeline pour combiner plusieurs indices faibles, vérifier une hypothèse immédiatement en inspectant les lignes entourant un résultat, ou filtrer des fichiers selon plusieurs critères simultanément, ce qu'un retriever sémantique ne peut pas faire en une seule passe. La recherche met le doigt sur une limite structurelle des systèmes RAG : la compression de l'accès à l'information en une seule étape de similarity search crée un goulot d'étranglement. Si une preuve critique est éliminée lors de ce filtrage initial, aucune capacité de raisonnement en aval, aussi sophistiquée soit-elle, ne peut la récupérer. C'est particulièrement problématique dans les workflows multi-étapes où l'agent doit réviser ses hypothèses dynamiquement après avoir observé des résultats partiels. DCI ne remplace pas nécessairement les embeddings pour le rappel sémantique large, mais comble un angle mort précis : les détails de longue traîne, les contraintes lexicales exactes, les données à forte volatilité. À mesure que les agents IA s'intègrent dans des environnements de production réels, cette distinction entre "ce que le modèle sait raisonner" et "ce que le système d'accès lui laisse voir" devient un enjeu central pour les équipes d'ingénierie.

💬 On passe des mois à tuner des embeddings pour du RAG, et la solution c'est... donner un terminal à l'agent. Bon, sur le papier c'est un peu gros dit comme ça, mais le problème pointé est réel : quand tes logs changent toutes les heures, ton index vectoriel est déjà périmé au moment où tu l'interroges. C'est le genre de truc que les équipes infra savent depuis longtemps, content de voir la recherche en faire une approche formelle.

RecherchePaper
1 source
Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3
4MarkTechPost 

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine. Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine. L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

UELes laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

💬 C'est le genre de résultat qui remet tout à plat. On partait du principe depuis des années que générer des images et comprendre des images, c'étaient deux métiers différents, deux familles de modèles séparées. Google vient de montrer que le générateur apprend la géométrie et la profondeur en chemin, sans qu'on lui demande, et qu'un petit instruction-tuning suffit à reformater ça pour battre SAM 3 ou Depth Anything. Si le parallèle avec les LLM tient vraiment à grande échelle, on va économiser beaucoup de modèles spécialisés.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic