Grâce à Lyria 3 Pro, l’IA Gemini de Google peut…

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

44

1Frandroid

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Google a élargi les capacités de Lyria, son modèle d'intelligence artificielle dédié à la génération audio, en portant la durée maximale des compositions musicales à trois minutes à partir d'un simple prompt textuel. Cette mise à jour, annoncée début 2026, représente un bond significatif par rapport aux extraits courts que l'outil produisait jusqu'alors, et positionne Lyria comme un concurrent direct des solutions de génération musicale longue durée déjà sur le marché. Cette évolution ouvre des possibilités concrètes pour les créateurs de contenu, les développeurs de jeux vidéo, les réalisateurs indépendants et les professionnels du marketing qui cherchent à générer rapidement des habillages sonores sans faire appel à des compositeurs. Trois minutes correspondent à la durée standard d'une chanson pop ou d'un générique, ce qui rend l'outil directement exploitable dans des productions réelles, sans post-traitement nécessaire. Lyria s'inscrit dans la course effrénée que se livrent les grandes entreprises technologiques sur le terrain de la création audio générative. Suno et Udio avaient ouvert la voie avec des titres complets incluant paroles et voix, tandis que Meta et OpenAI développent également leurs propres approches. Google, fort de ses décennies de recherche en traitement du signal et de ses infrastructures TPU, cherche à s'imposer comme la référence professionnelle du secteur, notamment via son intégration dans l'écosystème YouTube et Google Cloud.

UELes créateurs de contenu, réalisateurs indépendants et développeurs de jeux européens disposent désormais d'un outil de génération musicale complète (3 minutes) directement exploitable dans leurs productions sans recourir à des compositeurs.

OutilsOutil

1 source

Gemini Omni : le modèle IA multimodal de Google

44

2VentureBeat AI

Gemini Omni : le modèle IA multimodal de Google

Google a officiellement dévoilé Gemini Omni lors de sa conférence annuelle I/O à Mountain View, en Californie, bien que le modèle ait déjà été repéré par des utilisateurs avertis plusieurs semaines auparavant. Il s'agit du premier modèle nativement multimodal de Google, capable d'accepter en entrée n'importe quelle combinaison de texte, d'images, d'audio et de vidéo, et de produire des résultats dans ces mêmes formats depuis un seul et même système. Le premier modèle de la famille, Gemini Omni Flash, est accessible dès aujourd'hui pour les abonnés individuels à partir de 20 dollars par mois via le plan "AI Plus", sur le site Gemini, les applications mobiles, la suite d'édition vidéo Flow et YouTube Shorts. Une API destinée aux entreprises est annoncée, mais n'est pas encore disponible. Google n'a publié aucun benchmark officiel pour l'instant. L'enjeu principal de Gemini Omni est d'effacer la frontière entre les différents outils génératifs spécialisés, génération d'images, vidéo, audio, texte, en les fusionnant dans un seul modèle de fondation. Concrètement, cela signifie que le modèle raisonne à travers les modalités en un seul passage, ce qui se traduit par des éditions plus cohérentes, moins d'artefacts de pipeline et une surface API bien plus simple pour les développeurs. Pour les équipes créatives en entreprise, notamment celles qui produisent des visuels techniques, des supports marketing, des formations ou des contenus commerciaux, ce type de modèle unifié représente un gain de productivité significatif. L'absence d'API professionnelle à ce stade retarde toutefois toute intégration à grande échelle dans les systèmes d'entreprise. Ce lancement s'inscrit dans une tendance initiée par OpenAI en mai 2024 avec GPT-4o, premier modèle "omni" nativement multimodal du secteur, capable de traiter texte, code, images et audio, mais sans génération vidéo. Google construit Gemini Omni sur les bases de son modèle de génération d'images Nano Banana, sorti il y a environ un an. L'une des différences notables avec GPT-4o réside dans le paradigme d'interaction : Gemini Omni mise sur l'édition vidéo conversationnelle, où chaque instruction s'appuie sur la précédente pour faire évoluer le contenu de manière cohérente au fil des échanges. Google insiste également sur la restitution améliorée des lois physiques, gravité, dynamique des fluides, énergie cinétique, un détail technique qui distingue un rendu crédible d'un simple artefact visuel. La disponibilité via API pour les entreprises, et les premiers benchmarks indépendants, seront les prochains indicateurs déterminants pour évaluer la maturité réelle du modèle.

UELes entreprises européennes produisant des contenus multimodaux (marketing, formation, vidéo) pourraient bénéficier d'une plateforme unifiée, mais l'absence d'API professionnelle et de benchmarks indépendants retarde toute évaluation sérieuse d'adoption.

LLMsOpinion

1 source

Google I/O 2026 : Google tease une IA ultra-puissante. Le coup de grâce face à OpenAI ?

49

3Le Big Data

Google I/O 2026 : Google tease une IA ultra-puissante. Le coup de grâce face à OpenAI ?

Google a tenu sa conférence annuelle I/O le 19 mai 2026 à l'amphithéâtre Shoreline de Mountain View, en Californie. Dans les heures précédant l'événement, la firme a orchestré un teasing appuyé autour d'une nouvelle génération de modèles Gemini. Les fuites liées au projet Antigravity mentionnent deux variantes principales : Gemini 3.2 et Gemini 5 Flash, capables selon les rumeurs de traiter plus de 900 jetons par seconde, soit des vitesses de réponse quasi instantanées même sur des requêtes complexes. Sundar Pichai, PDG de Google, a lui-même alimenté l'anticipation en publiant sur X une courte vidéo générée par IA évoquant l'univers Gemini. Plusieurs observateurs sectoriels ont également mentionné un modèle baptisé Gemini Omni, conçu pour fusionner texte, image, audio et vidéo en temps réel, avec la capacité de transformer des images en vidéos et de créer des avatars numériques interactifs. Une rumeur particulièrement notable suggère que Google aurait entraîné le plus grand modèle de son histoire, au point que celui-ci aurait produit des comportements inattendus lors des tests internes. Ces annonces, si elles se confirment, placent Google en concurrent direct et sérieux face à OpenAI sur le terrain des modèles de fondation. Une vitesse de traitement supérieure à 900 jetons par seconde représenterait un bond significatif par rapport aux performances actuelles du marché, réduisant drastiquement la latence pour les applications professionnelles et grand public. La dimension multimodale de Gemini Omni, si elle est effective, répondrait à une demande croissante des développeurs cherchant à intégrer différents formats de données dans un seul pipeline. L'agent personnel Spark, évoqué par l'analyste Andrew Curran, signalerait en outre une ambition directe de Google sur le marché des assistants autonomes, segment où OpenAI et son partenaire Microsoft sont actuellement bien installés. Google I/O 2026 s'inscrit dans une séquence compétitive particulièrement tendue. Depuis le lancement de ChatGPT fin 2022, Google a dû accélérer sa stratégie IA après avoir été pris de court, enchaînant les sorties de Bard puis des différentes versions de Gemini. Cette conférence arrive quelques semaines après la Build de Microsoft et plusieurs annonces d'OpenAI, dans un contexte où chaque acteur cherche à affirmer sa domination sur les modèles de nouvelle génération. La mention de comportements inattendus lors des tests internes du plus grand modèle de Google soulève également des questions sur la maîtrise de ces systèmes, un sujet que la communauté de la sécurité IA surveille de près. Le keynote de deux heures prévu ce soir devait clarifier jusqu'où Google est prêt à aller dans cette course à la puissance.

UELes nouveaux modèles Gemini, une fois disponibles via Google Cloud et l'API Gemini, impacteront directement les développeurs et entreprises européennes qui les intègrent dans leurs produits et pipelines IA.

💬 900 jetons par seconde, si le chiffre tient, ça change vraiment les usages pro, la latence c'est souvent là que les applis IA décrochent. Ce que je retiens surtout, c'est quand même ce détail sur les comportements inattendus en test interne, parce que ce genre de truc ne se glisse pas par hasard dans un teasing. Google joue gros ce soir.

LLMsOpinion

1 source

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour

43

4The Decoder

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour

Google a dévoilé Gemini 3.1 Flash Live, son nouveau modèle vocal conçu pour des conversations en temps réel plus naturelles et plus fluides. Annoncé en mars 2026, ce modèle s'inscrit dans la gamme Flash, orientée vers la rapidité et l'efficacité. Les développeurs disposent d'un curseur permettant d'arbitrer entre qualité vocale et vitesse de réponse selon les besoins de leur application. La tarification reste alignée sur celle de Gemini 2.5, sans surcoût pour cette nouvelle génération. Ce lancement représente une avancée notable dans la course à la voix conversationnelle naturelle. Pour les développeurs d'assistants vocaux, d'applications de service client ou d'interfaces mains libres, disposer d'un modèle à la fois rapide et naturel à coût constant constitue un argument concret. La fluidité perçue de l'IA vocale est aujourd'hui un facteur décisif dans l'adoption par le grand public. Google intensifie ainsi la compétition face à OpenAI et ses modèles vocaux en temps réel, intégrés à ChatGPT, ainsi qu'à d'autres acteurs comme ElevenLabs. La stratégie Flash — modèles légers, rapides, peu coûteux — s'impose comme une approche clé pour démocratiser l'IA dans des usages à fort volume. Les prochaines versions pourraient continuer à affiner ce compromis vitesse/qualité, un équilibre qui deviendra central dans les interfaces conversationnelles de demain.

LLMsActu

1 source

Grâce à Lyria 3 Pro, l’IA Gemini de Google peut maintenant créer de la musique de 3 minutes

À lire aussi

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Gemini Omni : le modèle IA multimodal de Google

Google I/O 2026 : Google tease une IA ultra-puissante. Le coup de grâce face à OpenAI ?

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour