Aller au contenu principal
LLMsMarkTechPost2sem

Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Google a lancé Gemini Embedding 2, un modèle d'intégration multimodal de deuxième génération capable de convertir texte, images, vidéos, audio et PDF en un espace vectoriel unifié — sans pipelines séparés. Il supporte des entrées combinées (jusqu'à 8 192 tokens, 6 images, 120 secondes de vidéo, 80 secondes d'audio) et utilise le Matryoshka Representation Learning (MRL) pour compresser intelligemment les vecteurs en 768, 1 536 ou 3 072 dimensions selon les besoins de performance. Cette architecture permet aux systèmes RAG de faire une première recherche rapide sur des vecteurs courts, puis un reclassement précis sur les vecteurs complets.

Google expanded its Gemini model family with the release of Gemini Embedding 2 . This second-generation model succeeds the text-only gemini-embedding-001 and is designed specifically to address the high-dimensional storage and cross-modal retrieval challenges faced by AI developers building production-grade Retrieval-Augmented Generation (RAG) systems. The Gemini Embedding 2 release marks a significant technical shift in how embedding models are architected, moving away from modality-specific pipelines toward a unified, natively multimodal latent space. Native Multimodality and Interleaved Inputs The primary architectural advancement in Gemini Embedding 2 is its ability to map five distinct media types— Text, Image, Video, Audio, and PDF —into a single, high-dimensional vector space. This eliminates the need for complex pipelines that previously required separate models for different data types, such as CLIP for images and BERT-based models for text. The model supports interleaved inputs , allowing developers to combine different modalities in a single embedding request. This is particularly relevant for use cases where text alone does not provide sufficient context. The technical limits for these inputs are defined as: Text: Up to 8,192 tokens per request. Images: Up to 6 images (PNG, JPEG, WebP, HEIC/HEIF). Video: Up to 120 seconds of video (MP4, MOV, etc.). Audio: Up to 80 seconds of native audio (MP3, WAV, etc.) without requiring a separate transcription step. Documents: Up to 6 pages of PDF files. By processing these inputs natively, Gemini Embedding 2 captures the semantic relationships between a visual frame in a video and the spoken dialogue in an audio track, projecting them as a single vector that can be compared against text queries using standard distance metrics like Cosine Similarity . Efficiency via Matryoshka Representation Learning (MRL) Storage and compute costs are often the primary bottlenecks in large-scale vector search. To mitigate this, Gemini Embedding 2 implements Matryoshka Representation Learning (MRL) . Standard embedding models distribute semantic information evenly across all dimensions. If a developer truncates a 3,072-dimension vector to 768 dimensions, the accuracy typically collapses because the information is lost. In contrast, Gemini Embedding 2 is trained to pack the most critical semantic information into the earliest dimensions of the vector. The model defaults to 3,072 dimensions , but Google team has optimized three specific tiers for production use: 3,072: Maximum precision for complex legal, medical, or technical datasets. 1,536: A balance of performance and storage efficiency. 768: Optimized for low-latency retrieval and reduced memory footprint. Matryoshka Representation Learning (MRL) enables a ‘short-listing’ architecture. A system can perform a coarse, high-speed search across millions of items using the 768-dimension sub-vectors, then perform a precise re-ranking of the top results using the full 3,072-dimension embeddings. This reduces the computational overhead of the initial retrieval stage without sacrificing the final accuracy of the RAG pipeline. Benchmarking: MTEB and Long-Context Retrieval Google AI’s internal evaluation and performance on the Massive Text Embedding Benchmark (MTEB) indicate that Gemini Embedding 2 outperforms its predecessor in two specific areas : Retrieval Accuracy and Robustness to Domain Shift . Many embedding models suffer from ‘domain drift,’ where accuracy drops when moving from generic training data (like Wikipedia) to specialized domains (like proprietary codebases). Gemini Embedding 2 utilized a multi-stage training process involving diverse datasets to ensure higher zero-shot performance across specialized tasks. The model’s 8,192-token window is a critical specification for RAG. It allows for the embedding of larger ‘chunks’ of text, which preserves the context necessary for resolving coreferences and long-range dependencies within a document. This reduces the likelihood of ‘context fragmentation,’ a common issue where a retrieved chunk lacks the information needed for the LLM to generate a coherent answer. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/ Key Takeaways Native Multimodality : Gemini Embedding 2 supports five distinct media types— Text, Image, Video, Audio, and PDF —within a unified vector space. This allows for interleaved inputs (e.g., an image combined with a text caption) to be processed as a single embedding without separate model pipelines. Matryoshka Representation Learning (MRL) : The model is architected to store the most critical semantic information in the early dimensions of a vector. While it defaults to 3,072 dimensions , it supports efficient truncation to 1,536 or 768 dimensions with minimal loss in accuracy, reducing storage costs and increasing retrieval speed. Expanded Context and Performance : The model features an 8,192-token input window ,

À lire aussi

1The Decoder22min

OpenAI : Sam Altman évoque en interne un modèle "très puissant" capable d'"accélérer vraiment l'économie

OpenAI aurait achevé le pré-entraînement de son prochain grand modèle d'IA, dont le nom de code interne est « Spud ». Le PDG Sam Altman l'a décrit en interne comme « très puissant » et capable d'« accélérer vraiment l'économie ». Si ces déclarations se confirment, ce modèle marquerait un nouveau palier dans les capacités des IA génératives, avec des implications potentiellement significatives pour la productivité économique à grande échelle. OpenAI enchaîne les sorties de modèles à un rythme soutenu, dans un contexte de concurrence intense avec Google, Anthropic et les acteurs chinois comme DeepSeek.

UEUn nouveau modèle OpenAI de cette envergure pourrait accélérer l'adoption de l'IA en Europe et renforcer la pression réglementaire dans le cadre de l'AI Act.

LLMsActu
1 source
2Siècle Digital4h

Anthropic transforme Claude en assistant autonome capable d’agir sur votre ordinateur

Anthropic a doté Claude d'une fonctionnalité appelée « computer use », lui permettant d'agir de manière autonome sur un ordinateur sans intervention humaine. Cette avancée marque un tournant majeur dans l'utilisation des IA, ouvrant la voie à des assistants capables d'exécuter des tâches concrètes directement sur les systèmes des utilisateurs. Cette évolution transforme profondément la façon dont les professionnels peuvent déléguer des tâches à l'intelligence artificielle.

UELes professionnels et entreprises européens peuvent désormais déléguer des tâches informatiques complexes à Claude, avec des implications potentielles pour la réglementation sur les agents IA autonomes dans le cadre de l'AI Act.

LLMsActu
1 source
3Frandroid5h

La prochaine version de Siri pourrait tout copier sur ChatGPT

Apple prépare une nouvelle version de Siri qui s'inspirerait fortement de ChatGPT, annoncée lors de la WWDC 2026. Après des années de difficultés dans le domaine de l'IA, Apple cherche à redonner un rôle central à son assistant vocal historique.

LLMsOpinion
1 source
401net5h

Apple : une nouvelle version de Siri en juin, pour de vrai cette fois ?

Apple prévoit de présenter le "vrai" nouveau Siri en juin 2026, après de nombreux reports depuis l'annonce d'une version dopée à l'IA lors de la WWDC 2024. Le projet a connu une crise interne et un changement de moteur complet, nécessitant une refonte totale. Un lancement sur les appareils Apple serait envisagé pour septembre.

UELe nouveau Siri touchera des millions d'utilisateurs européens d'appareils Apple dès septembre 2026.

LLMsOpinion
1 source