Aller au contenu principal
Bienvenue à Gemma d'EmbeddingGoogle, le nouveau modèle d'embedding efficace de Google
RechercheHuggingFace Blog41sem· 1 min de lecture

Bienvenue à Gemma d'EmbeddingGoogle, le nouveau modèle d'embedding efficace de Google

Source originale ↗·

Bien sûr, voici une traduction et un résumé en français :

Titre : Bienvenue à EmbeddingGemma, le nouveau modèle d'embedding efficace de Google

Google a dévoilé EmbeddingGemma, un nouveau modèle d'embedding conçu pour être plus efficace et économe en ressources. Ce modèle, conçu pour les applications de traitement du langage naturel (NLP), offre des performances compétitives tout en nécessitant moins de mémoire et de temps de calcul par rapport aux modèles précédents comme BERT ou RoBERTa. EmbeddingGemma est mis au point pour réduire la consommation d'énergie et les coûts de déploiement tout en maintenant ou en améliorant la précision dans diverses tâches de compréhension du langage.

Impact France/UE

Google introduit EmbeddingGemma, un nouveau modèle d'embedding efficace, impactant les entreprises françaises et européennes utilisant le traitement du langage naturel, en réduisant la consommation d'énergie et les coûts tout en maintenant ou en améliorant la précision, en conformité potentielle avec le AI Act.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité
1Ars Technica AI 

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper
1 source
Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît
2The Decoder 

Un nouveau modèle d'IA baptisé "Count Anything" compte tout ce qu'on lui montre, et c'est plus difficile qu'il n'y paraît

Un nouveau modèle d'intelligence artificielle baptisé « Count Anything » vient d'être présenté comme le premier système capable de dénombrer des objets dans n'importe quel type d'image, qu'il s'agisse de foules humaines, de cellules observées au microscope ou de tout autre sujet visuel. Son fonctionnement repose sur une simple invite textuelle : l'utilisateur décrit ce qu'il souhaite compter, et le modèle s'exécute. Lors de tests comparatifs, Count Anything divise par deux le taux d'erreur par rapport aux systèmes précédents, ce qui représente un bond significatif en termes de précision. Les applications potentielles couvrent des secteurs très différents. En médecine, compter automatiquement des cellules ou des bactéries sur des échantillons accélère le diagnostic et réduit la charge des techniciens de laboratoire. En gestion des foules, les organisateurs d'événements ou les forces de l'ordre pourraient estimer des effectifs en temps réel à partir d'une simple photo. Tout domaine nécessitant un inventaire visuel rapide, de l'agriculture au contrôle qualité industriel en passant par l'écologie, pourrait bénéficier d'un tel outil universel. Le comptage d'objets en vision par ordinateur est un problème ancien et difficile : les approches traditionnelles nécessitaient des modèles entraînés spécifiquement pour chaque catégorie d'objets. L'ambition de Count Anything est de briser cette fragmentation avec un modèle généraliste piloté par le langage naturel, dans la lignée des grands modèles multimodaux comme GPT-4V ou Gemini. Des limites subsistent néanmoins : le modèle peine encore face à des scènes très denses ou lorsque les termes de la requête restent ambigus, deux points que de futures versions devront améliorer.

💬 Le comptage visuel, c'est le genre de tâche basique que les grands modèles multimodaux gèrent encore mal, et ça bloque des applications médicales ou industrielles pourtant simples à imaginer. Un modèle généraliste piloté par texte qui divise le taux d'erreur par deux, ça mérite mieux qu'un simple communiqué de recherche. J'attends de voir ça tourner sur des images de labo en conditions réelles, pas juste sur des benchmarks.

RecherchePaper
1 source
Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution
3The Decoder 

Un nouveau test mathématique révèle que les modèles d'IA résolvent avec assurance des problèmes sans solution

Un consortium de 64 mathématiciens a conçu SOOHAK, un nouveau benchmark destiné à évaluer les capacités des modèles d'IA en mathématiques de recherche. L'outil comprend 439 problèmes rédigés à la main, dont 99 délibérément sans solution valide. Sur les problèmes de niveau recherche, Gemini 3 Pro de Google arrive en tête avec un score de 30 %. En revanche, aucun modèle ne dépasse 50 % lorsqu'il s'agit d'identifier les problèmes insolubles, autrement dit, tous les systèmes testés échouent à reconnaître qu'une question n'a pas de réponse. Ce résultat pointe une faille fondamentale : davantage de puissance de calcul améliore la capacité à résoudre des problèmes, mais n'améliore pas la capacité à admettre qu'un problème est sans issue. Pour un outil censé assister des chercheurs, cette lacune est critique. Un modèle qui répond avec assurance à une question mal posée ou insoluble est potentiellement plus dangereux qu'un modèle qui avoue ses limites, il peut induire en erreur des équipes entières. SOOHAK s'inscrit dans un effort plus large pour dépasser les benchmarks saturés ou trop faciles à "tricher", qui donnent une impression trompeuse des capacités réelles des IA. La communauté scientifique cherche à mesurer non seulement la performance brute, mais aussi la métacognition, savoir ce qu'on ne sait pas. Avec des scores plafonnant à 30 % sur des tâches de recherche authentique, SOOHAK confirme que les modèles actuels restent loin d'un niveau de raisonnement mathématique avancé, malgré les annonces régulières de progrès spectaculaires.

💬 La vraie info ici, c'est pas le 30 % de Gemini, c'est le moins de 50 % sur les problèmes sans solution. Aucun modèle ne sait dire "cette question est mal posée", et c'est exactement le genre de bug silencieux qui peut planter un projet de recherche entier. Reste à voir combien d'équipes scientifiques utilisent ces outils sans savoir ça.

RecherchePaper
1 source
SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation
4Meta Engineering ML 

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Meta a présenté SilverTorch, un nouveau système de recommandation qui transforme en profondeur la façon dont les plateformes comme Instagram ou Facebook sélectionnent les contenus affichés dans les fils d'actualité et les sections Reels. Accepté au programme complet de la conférence SIGIR 2026, ce travail de recherche introduit un paradigme inédit baptisé "Index as Model" : l'ensemble du pipeline de récupération de contenus est réuni dans un seul réseau de neurones, là où existaient auparavant une douzaine de microservices distincts. Dans une évaluation portant sur 80 millions d'éléments, SilverTorch a traité 23,7 fois plus de requêtes par seconde qu'une architecture traditionnelle multi-services construite sur la même base de modèle, tout en améliorant l'efficacité du coût total d'exploitation d'un facteur 20,9 par rapport à une solution CPU classique, et ce sans dépasser le seuil critique de 100 millisecondes de latence imposé par les contraintes temps réel. L'enjeu est considérable pour des plateformes servant des milliards d'utilisateurs quotidiens. Le système de récupération est l'étape qui réduit un catalogue de millions de contenus à quelques milliers de candidats pertinents avant de les transmettre aux algorithmes de classement final, le tout en moins de 100 millisecondes. L'architecture à base de microservices atteignait un plafond structurel : chaque saut entre services entraînait des pertes de latence et limitait la complexité des modèles qu'il était possible d'utiliser. En intégrant dans un même réseau de neurones la recherche par similarité d'intérêts, le filtrage d'éligibilité géographique et linguistique, puis le réordonnancement multi-tâches selon les probabilités d'engagement, SilverTorch rend pratiques des opérations qui étaient auparavant hors de portée dans ce budget de latence. Le résultat concret : une qualité de recommandation sensiblement supérieure, directement visible dans ce que les utilisateurs voient en premier lorsqu'ils ouvrent leurs applications. Les systèmes de recommandation industriels ont longtemps été construits comme des maillages de microservices hétérogènes, chacun avec son propre cycle de déploiement et souvent son propre langage de programmation, héritage de l'ère CPU où cette fragmentation était un avantage opérationnel. Avec la montée en puissance des GPU et des modèles de deep learning de plus en plus complexes, ce modèle architectural montrait ses limites : la fragmentation créait des frictions et bridait l'innovation. SilverTorch représente une réponse directe à cette contrainte en traitant les index d'items, autrefois gérés comme des bases de données séparées, comme de simples tenseurs à l'intérieur du modèle. Cette approche ouvre la voie à des systèmes de recommandation encore plus sophistiqués et pourrait influencer l'ensemble du secteur, qui fait face aux mêmes compromis entre complexité des modèles, latence et coûts d'infrastructure à très grande échelle.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic