Aller au contenu principal
Bienvenue à Gemma 3 : le nouveau grand langage modèle multimodal, multilingue et contextuel à longue portée de Google
LLMsHuggingFace Blog66sem· 1 min de lecture

Bienvenue à Gemma 3 : le nouveau grand langage modèle multimodal, multilingue et contextuel à longue portée de Google

Source originale ↗·

Bienvenue à Gemma 3, le nouveau modèle multimodal, multilingue et à grande capacité de contexte développé par Google, qui représente une avancée significative dans le domaine des grands langages ouverts (LLM).

Faits clés: - Gemma 3 est un modèle multimodal qui peut traiter et générer à la fois du texte et des données visuelles. - Il est multilingue, ce qui signifie qu'il peut comprendre et produire du contenu dans plusieurs langues. - Le modèle est conçu pour gérer des contextes longs, permettant une meilleure compréhension et génération de texte en tenant compte de l'ensemble du discours plutôt que de fragments isolés. - Google annonce que Gemma 3 offre des améliorations notables par rapport aux modèles précédents en termes de précision, de cohérence et de capacité à gérer des tâches complexes.

Chiffres: - Bien que des détails spécifiques sur les performances ne soient pas fournis dans l'article, on mentionne que Gemma 3 surpasse les modèles existants dans divers benchmarks.

Noms importants: - Google - le développeur du modèle Gemma 3.

Impact France/UE

Google présente Gemma 3, un modèle multimodal, multilingue et contextuel à longue portée, offrant des avancées significatives pour les entreprises françaises et européennes en améliorant la précision et la cohérence dans des tâches complexes, tout en respectant les exigences du RGPD et potentiellement aidant à naviguer dans le cadre de l'AI Act.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM
1Ars Technica AI 

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google a annoncé le lancement de Gemma 4 12B, un nouveau modèle de langage open source conçu pour fonctionner sur des ordinateurs portables grand public disposant de 16 Go de RAM ou de VRAM. Ce modèle vient combler un vide dans la gamme Gemma 4 lancée en avril 2026, qui comprenait deux modèles optimisés pour mobile (E2B et E4B) et deux modèles pour usages intensifs (26B Mixture of Experts et 31B Dense). Avec ses 12 milliards de paramètres, Gemma 4 12B se positionne entre ces deux extrêmes et adopte la licence Apache 2.0 ouverte introduite lors du lancement de la famille. Ce modèle représente une avancée concrète pour quiconque souhaite faire tourner un LLM performant en local sans investir dans du matériel spécialisé. Son empreinte mémoire est environ deux fois inférieure à celle du Gemma 4 26B MoE, et Google affirme que ses performances sur les benchmarks restent proches de ce modèle plus lourd. Pour les développeurs, chercheurs, ou professionnels qui veulent expérimenter avec l'IA générative en dehors du cloud, sans dépenser des dizaines de milliers d'euros en accélérateurs matériels dédiés, Gemma 4 12B ouvre une porte que les modèles précédents laissaient fermée. Le contexte est celui d'une course à la puissance de calcul qui a fait exploser les prix de la mémoire vive, une dynamique à laquelle Google contribue directement avec ses propres infrastructures cloud. Mais en parallèle, plusieurs grands acteurs de l'IA, dont Meta avec sa famille Llama, misent aussi sur des modèles locaux légers pour élargir l'adoption. Google se positionne dans cette tendance avec des modèles Gemma pensés pour tourner sans connexion et sans coût d'inférence. La prochaine étape sera d'observer comment la communauté open source s'empare de Gemma 4 12B, notamment via des plateformes comme Hugging Face ou Ollama, pour affiner, tester et intégrer ce modèle dans des applications concrètes.

UELes développeurs et chercheurs européens peuvent désormais faire tourner un LLM performant en local sur un ordinateur grand public de 16 Go de RAM, sans frais cloud ni matériel spécialisé.

LLMsActu
1 source
Gemini Omni : le modèle IA multimodal de Google
2VentureBeat AI 

Gemini Omni : le modèle IA multimodal de Google

Google a officiellement dévoilé Gemini Omni lors de sa conférence annuelle I/O à Mountain View, en Californie, bien que le modèle ait déjà été repéré par des utilisateurs avertis plusieurs semaines auparavant. Il s'agit du premier modèle nativement multimodal de Google, capable d'accepter en entrée n'importe quelle combinaison de texte, d'images, d'audio et de vidéo, et de produire des résultats dans ces mêmes formats depuis un seul et même système. Le premier modèle de la famille, Gemini Omni Flash, est accessible dès aujourd'hui pour les abonnés individuels à partir de 20 dollars par mois via le plan "AI Plus", sur le site Gemini, les applications mobiles, la suite d'édition vidéo Flow et YouTube Shorts. Une API destinée aux entreprises est annoncée, mais n'est pas encore disponible. Google n'a publié aucun benchmark officiel pour l'instant. L'enjeu principal de Gemini Omni est d'effacer la frontière entre les différents outils génératifs spécialisés, génération d'images, vidéo, audio, texte, en les fusionnant dans un seul modèle de fondation. Concrètement, cela signifie que le modèle raisonne à travers les modalités en un seul passage, ce qui se traduit par des éditions plus cohérentes, moins d'artefacts de pipeline et une surface API bien plus simple pour les développeurs. Pour les équipes créatives en entreprise, notamment celles qui produisent des visuels techniques, des supports marketing, des formations ou des contenus commerciaux, ce type de modèle unifié représente un gain de productivité significatif. L'absence d'API professionnelle à ce stade retarde toutefois toute intégration à grande échelle dans les systèmes d'entreprise. Ce lancement s'inscrit dans une tendance initiée par OpenAI en mai 2024 avec GPT-4o, premier modèle "omni" nativement multimodal du secteur, capable de traiter texte, code, images et audio, mais sans génération vidéo. Google construit Gemini Omni sur les bases de son modèle de génération d'images Nano Banana, sorti il y a environ un an. L'une des différences notables avec GPT-4o réside dans le paradigme d'interaction : Gemini Omni mise sur l'édition vidéo conversationnelle, où chaque instruction s'appuie sur la précédente pour faire évoluer le contenu de manière cohérente au fil des échanges. Google insiste également sur la restitution améliorée des lois physiques, gravité, dynamique des fluides, énergie cinétique, un détail technique qui distingue un rendu crédible d'un simple artefact visuel. La disponibilité via API pour les entreprises, et les premiers benchmarks indépendants, seront les prochains indicateurs déterminants pour évaluer la maturité réelle du modèle.

UELes entreprises européennes produisant des contenus multimodaux (marketing, formation, vidéo) pourraient bénéficier d'une plateforme unifiée, mais l'absence d'API professionnelle et de benchmarks indépendants retarde toute évaluation sérieuse d'adoption.

LLMsOpinion
1 source
Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public
3Le Big Data 

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google a lancé le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle multimodal conçu pour fonctionner sur des ordinateurs grand public disposant de seulement 16 Go de mémoire vive. Contrairement aux grands modèles qui nécessitent des infrastructures cloud coûteuses, ce modèle intermédiaire de la famille Gemma est capable de traiter simultanément du texte, des images et de l'audio directement en local. Selon Google, ses performances sur plusieurs benchmarks se rapprochent de celles du modèle Gemma 26B, pourtant bien plus imposant. Le modèle est d'ores et déjà accessible via des outils populaires comme LM Studio, Ollama, les applications Google AI Edge Gallery et AI Edge Eloquent, ainsi qu'une interface en ligne de commande nommée LiteRT-LM. Les poids préentraînés sont disponibles sur Hugging Face et Kaggle. L'enjeu principal est la souveraineté des données et l'accessibilité de l'IA avancée. En permettant l'exécution locale d'un modèle multimodal capable de transcrire, reformater ou traduire du contenu vocal sans connexion internet, Google ouvre la voie à des cas d'usage concrets pour les professionnels et particuliers soucieux de ne pas envoyer leurs données vers des serveurs distants. L'analyse de documents, les assistants personnels et l'automatisation de tâches deviennent envisageables sur une machine ordinaire, sans abonnement cloud. C'est un changement de paradigme potentiellement significatif pour les entreprises de taille moyenne, les développeurs indépendants et les utilisateurs dans des environnements à connectivité limitée. Cette annonce s'inscrit dans une tendance de fond qui voit les grands acteurs de l'IA rivaliser sur le segment des modèles compacts et open, face à la montée de concurrents comme Meta avec Llama, Mistral ou encore Microsoft. La véritable originalité architecturale de Gemma 4 12B réside dans l'abandon des encodeurs séparés pour le traitement visuel et audio : au lieu d'assembler plusieurs briques spécialisées, le modèle intègre nativement ces modalités dans son réseau principal, réduisant les calculs intermédiaires et la consommation mémoire. Cette approche, techniquement délicate à mettre en oeuvre sans sacrifier les performances, représente aussi la première fois qu'un modèle intermédiaire de la gamme Gemma gère nativement l'audio. Google positionne ainsi Gemma 4 12B comme une brique de base pour des applications dites agentiques, capables d'agir de manière autonome sur l'appareil de l'utilisateur, un segment sur lequel la compétition entre laboratoires devrait s'intensifier dans les prochains mois.

UELes entreprises et développeurs européens peuvent désormais exécuter un modèle multimodal en local sans transférer leurs données vers des serveurs américains, une avancée directement pertinente pour la conformité RGPD.

💬 C'est le genre de modèle qu'on attendait : multimodal, 16 Go de RAM, dispo sur Ollama maintenant. L'audio natif sans encodeur séparé, c'est la vraie nouveauté technique, et ça change quelque chose pour qui veut traiter de la voix en local sans envoyer ses données quelque part. Reste à voir si les perfs tiennent dans les vrais usages, mais j'ai déjà lancé le pull.

LLMsOpinion
1 source
Google I/O : nouveaux modèles, agent cloud permanent et refonte de l'application Gemini
4The Decoder 

Google I/O : nouveaux modèles, agent cloud permanent et refonte de l'application Gemini

Lors de sa conférence développeurs Google I/O, tenue cette semaine, Google a dévoilé plusieurs annonces majeures dans le domaine de l'intelligence artificielle. Au programme : un nouveau modèle de langage baptisé Gemini 3.5 Flash, conçu pour allier rapidité et efficacité, un modèle multimodal nommé Gemini Omni capable de traiter simultanément texte, images, audio et vidéo, ainsi qu'un agent personnel cloud appelé Gemini Spark, pensé pour fonctionner en continu, vingt-quatre heures sur vingt-quatre. L'application Gemini bénéficie par ailleurs d'une refonte visuelle et fonctionnelle complète. L'introduction de Gemini Spark marque un tournant dans la vision de Google pour l'IA personnelle. Contrairement aux assistants classiques qui se contentent de répondre à des requêtes ponctuelles, un agent cloud permanent peut exécuter des tâches de façon autonome, anticiper des besoins, surveiller des données ou déclencher des actions sans intervention humaine. Pour les développeurs comme pour les utilisateurs grand public, cela ouvre la voie à une nouvelle catégorie d'assistants proactifs, toujours disponibles et potentiellement connectés à l'ensemble des services Google. Ces annonces s'inscrivent dans une course effrénée à l'IA agentique que se livrent Google, OpenAI et Microsoft depuis début 2025. Google cherche à reprendre l'initiative après avoir été perçu comme en retrait face aux avancées de GPT-4o et des agents d'OpenAI. Avec cette vague de lancements, l'entreprise signale sa volonté de positionner Gemini non plus comme un simple chatbot, mais comme une infrastructure d'IA omniprésente, ancrée dans le cloud et intégrée à l'ensemble de son écosystème.

UELes nouveaux modèles Gemini et l'agent cloud permanent seront accessibles aux développeurs et entreprises européens, accélérant l'adoption de l'IA agentique dans l'écosystème Google en Europe.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic