Aller au contenu principal
Grâce à Lyria 3 Pro, l’IA Gemini de Google peut maintenant créer de la musique de 3 minutes
LLMsPresse-citron13sem· 1 min de lecture

Grâce à Lyria 3 Pro, l’IA Gemini de Google peut maintenant créer de la musique de 3 minutes

Source originale ↗·

Google franchit une nouvelle étape dans la génération musicale par IA avec le lancement de Lyria 3 Pro, une version améliorée de son modèle Lyria 3 sorti en février dernier. Intégré directement à Gemini, l'assistant IA de Google, ce nouveau modèle est capable de composer des morceaux d'une durée allant jusqu'à 3 minutes — une avancée significative par rapport aux générations précédentes limitées à des extraits courts.

Cette évolution s'inscrit dans une course effrénée entre les géants technologiques sur le terrain de la création musicale automatisée. Proposer des compositions de 3 minutes change fondamentalement l'usage : on passe d'un simple générateur d'ambiances à un outil capable de produire des titres complets, exploitables dans des projets audiovisuels, des podcasts ou des créations indépendantes. L'intégration dans Gemini positionne Google face à des concurrents comme Suno et Udio, qui dominent aujourd'hui ce segment.

Lyria 3 Pro est réservé aux abonnés payants de Gemini, ce qui reflète la stratégie de Google de monétiser ses capacités IA avancées via ses offres premium. Le modèle succède à Lyria 3, lancé en février 2026, et constitue la déclinaison haute performance de la famille Lyria — le programme de recherche musicale de Google DeepMind.

La cadence de mise à jour — moins de deux mois entre Lyria 3 et Lyria 3 Pro — témoigne de l'intensité du développement dans ce domaine. Si Google ne détaille pas encore publiquement les capacités stylistiques précises de ce nouveau modèle, la durée étendue et la qualité attendue d'une version "Pro" laissent entrevoir un outil qui pourrait séduire créateurs de contenu et professionnels du secteur audiovisuel.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt
1Frandroid 

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Google a élargi les capacités de Lyria, son modèle d'intelligence artificielle dédié à la génération audio, en portant la durée maximale des compositions musicales à trois minutes à partir d'un simple prompt textuel. Cette mise à jour, annoncée début 2026, représente un bond significatif par rapport aux extraits courts que l'outil produisait jusqu'alors, et positionne Lyria comme un concurrent direct des solutions de génération musicale longue durée déjà sur le marché. Cette évolution ouvre des possibilités concrètes pour les créateurs de contenu, les développeurs de jeux vidéo, les réalisateurs indépendants et les professionnels du marketing qui cherchent à générer rapidement des habillages sonores sans faire appel à des compositeurs. Trois minutes correspondent à la durée standard d'une chanson pop ou d'un générique, ce qui rend l'outil directement exploitable dans des productions réelles, sans post-traitement nécessaire. Lyria s'inscrit dans la course effrénée que se livrent les grandes entreprises technologiques sur le terrain de la création audio générative. Suno et Udio avaient ouvert la voie avec des titres complets incluant paroles et voix, tandis que Meta et OpenAI développent également leurs propres approches. Google, fort de ses décennies de recherche en traitement du signal et de ses infrastructures TPU, cherche à s'imposer comme la référence professionnelle du secteur, notamment via son intégration dans l'écosystème YouTube et Google Cloud.

UELes créateurs de contenu, réalisateurs indépendants et développeurs de jeux européens disposent désormais d'un outil de génération musicale complète (3 minutes) directement exploitable dans leurs productions sans recourir à des compositeurs.

OutilsOutil
1 source
Gemini Omni : le modèle IA multimodal de Google
2VentureBeat AI 

Gemini Omni : le modèle IA multimodal de Google

Google a officiellement dévoilé Gemini Omni lors de sa conférence annuelle I/O à Mountain View, en Californie, bien que le modèle ait déjà été repéré par des utilisateurs avertis plusieurs semaines auparavant. Il s'agit du premier modèle nativement multimodal de Google, capable d'accepter en entrée n'importe quelle combinaison de texte, d'images, d'audio et de vidéo, et de produire des résultats dans ces mêmes formats depuis un seul et même système. Le premier modèle de la famille, Gemini Omni Flash, est accessible dès aujourd'hui pour les abonnés individuels à partir de 20 dollars par mois via le plan "AI Plus", sur le site Gemini, les applications mobiles, la suite d'édition vidéo Flow et YouTube Shorts. Une API destinée aux entreprises est annoncée, mais n'est pas encore disponible. Google n'a publié aucun benchmark officiel pour l'instant. L'enjeu principal de Gemini Omni est d'effacer la frontière entre les différents outils génératifs spécialisés, génération d'images, vidéo, audio, texte, en les fusionnant dans un seul modèle de fondation. Concrètement, cela signifie que le modèle raisonne à travers les modalités en un seul passage, ce qui se traduit par des éditions plus cohérentes, moins d'artefacts de pipeline et une surface API bien plus simple pour les développeurs. Pour les équipes créatives en entreprise, notamment celles qui produisent des visuels techniques, des supports marketing, des formations ou des contenus commerciaux, ce type de modèle unifié représente un gain de productivité significatif. L'absence d'API professionnelle à ce stade retarde toutefois toute intégration à grande échelle dans les systèmes d'entreprise. Ce lancement s'inscrit dans une tendance initiée par OpenAI en mai 2024 avec GPT-4o, premier modèle "omni" nativement multimodal du secteur, capable de traiter texte, code, images et audio, mais sans génération vidéo. Google construit Gemini Omni sur les bases de son modèle de génération d'images Nano Banana, sorti il y a environ un an. L'une des différences notables avec GPT-4o réside dans le paradigme d'interaction : Gemini Omni mise sur l'édition vidéo conversationnelle, où chaque instruction s'appuie sur la précédente pour faire évoluer le contenu de manière cohérente au fil des échanges. Google insiste également sur la restitution améliorée des lois physiques, gravité, dynamique des fluides, énergie cinétique, un détail technique qui distingue un rendu crédible d'un simple artefact visuel. La disponibilité via API pour les entreprises, et les premiers benchmarks indépendants, seront les prochains indicateurs déterminants pour évaluer la maturité réelle du modèle.

UELes entreprises européennes produisant des contenus multimodaux (marketing, formation, vidéo) pourraient bénéficier d'une plateforme unifiée, mais l'absence d'API professionnelle et de benchmarks indépendants retarde toute évaluation sérieuse d'adoption.

LLMsOpinion
1 source
Google I/O 2026 : Google tease une IA ultra-puissante. Le coup de grâce face à OpenAI ?
3Le Big Data 

Google I/O 2026 : Google tease une IA ultra-puissante. Le coup de grâce face à OpenAI ?

Google a tenu sa conférence annuelle I/O le 19 mai 2026 à l'amphithéâtre Shoreline de Mountain View, en Californie. Dans les heures précédant l'événement, la firme a orchestré un teasing appuyé autour d'une nouvelle génération de modèles Gemini. Les fuites liées au projet Antigravity mentionnent deux variantes principales : Gemini 3.2 et Gemini 5 Flash, capables selon les rumeurs de traiter plus de 900 jetons par seconde, soit des vitesses de réponse quasi instantanées même sur des requêtes complexes. Sundar Pichai, PDG de Google, a lui-même alimenté l'anticipation en publiant sur X une courte vidéo générée par IA évoquant l'univers Gemini. Plusieurs observateurs sectoriels ont également mentionné un modèle baptisé Gemini Omni, conçu pour fusionner texte, image, audio et vidéo en temps réel, avec la capacité de transformer des images en vidéos et de créer des avatars numériques interactifs. Une rumeur particulièrement notable suggère que Google aurait entraîné le plus grand modèle de son histoire, au point que celui-ci aurait produit des comportements inattendus lors des tests internes. Ces annonces, si elles se confirment, placent Google en concurrent direct et sérieux face à OpenAI sur le terrain des modèles de fondation. Une vitesse de traitement supérieure à 900 jetons par seconde représenterait un bond significatif par rapport aux performances actuelles du marché, réduisant drastiquement la latence pour les applications professionnelles et grand public. La dimension multimodale de Gemini Omni, si elle est effective, répondrait à une demande croissante des développeurs cherchant à intégrer différents formats de données dans un seul pipeline. L'agent personnel Spark, évoqué par l'analyste Andrew Curran, signalerait en outre une ambition directe de Google sur le marché des assistants autonomes, segment où OpenAI et son partenaire Microsoft sont actuellement bien installés. Google I/O 2026 s'inscrit dans une séquence compétitive particulièrement tendue. Depuis le lancement de ChatGPT fin 2022, Google a dû accélérer sa stratégie IA après avoir été pris de court, enchaînant les sorties de Bard puis des différentes versions de Gemini. Cette conférence arrive quelques semaines après la Build de Microsoft et plusieurs annonces d'OpenAI, dans un contexte où chaque acteur cherche à affirmer sa domination sur les modèles de nouvelle génération. La mention de comportements inattendus lors des tests internes du plus grand modèle de Google soulève également des questions sur la maîtrise de ces systèmes, un sujet que la communauté de la sécurité IA surveille de près. Le keynote de deux heures prévu ce soir devait clarifier jusqu'où Google est prêt à aller dans cette course à la puissance.

UELes nouveaux modèles Gemini, une fois disponibles via Google Cloud et l'API Gemini, impacteront directement les développeurs et entreprises européennes qui les intègrent dans leurs produits et pipelines IA.

💬 900 jetons par seconde, si le chiffre tient, ça change vraiment les usages pro, la latence c'est souvent là que les applis IA décrochent. Ce que je retiens surtout, c'est quand même ce détail sur les comportements inattendus en test interne, parce que ce genre de truc ne se glisse pas par hasard dans un teasing. Google joue gros ce soir.

LLMsOpinion
1 source
Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour
4The Decoder 

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour

Google a dévoilé Gemini 3.1 Flash Live, son nouveau modèle vocal conçu pour des conversations en temps réel plus naturelles et plus fluides. Annoncé en mars 2026, ce modèle s'inscrit dans la gamme Flash, orientée vers la rapidité et l'efficacité. Les développeurs disposent d'un curseur permettant d'arbitrer entre qualité vocale et vitesse de réponse selon les besoins de leur application. La tarification reste alignée sur celle de Gemini 2.5, sans surcoût pour cette nouvelle génération. Ce lancement représente une avancée notable dans la course à la voix conversationnelle naturelle. Pour les développeurs d'assistants vocaux, d'applications de service client ou d'interfaces mains libres, disposer d'un modèle à la fois rapide et naturel à coût constant constitue un argument concret. La fluidité perçue de l'IA vocale est aujourd'hui un facteur décisif dans l'adoption par le grand public. Google intensifie ainsi la compétition face à OpenAI et ses modèles vocaux en temps réel, intégrés à ChatGPT, ainsi qu'à d'autres acteurs comme ElevenLabs. La stratégie Flash — modèles légers, rapides, peu coûteux — s'impose comme une approche clé pour démocratiser l'IA dans des usages à fort volume. Les prochaines versions pourraient continuer à affiner ce compromis vitesse/qualité, un équilibre qui deviendra central dans les interfaces conversationnelles de demain.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic