Aller au contenu principal
OutilsThe Verge AI3h

Google Lyria 3 Pro permet de générer des chansons IA plus longues

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Google a annoncé une mise à jour majeure de son intelligence artificielle musicale Lyria avec le lancement de Lyria 3 Pro. La nouveauté principale : la durée maximale des morceaux générés passe de 30 secondes à 3 minutes, soit une multiplication par six des capacités précédentes. L'outil s'intègre désormais à plusieurs produits Google et permet aux utilisateurs de spécifier des éléments précis comme les introductions, refrains et ponts pour mieux contrôler la structure des compositions. Lyria 3 Pro représente une avancée significative pour la création musicale assistée par IA, en rapprochant Google des leaders du secteur comme Suno et Udio. La possibilité de générer des morceaux complets — et non plus de simples extraits — ouvre la voie à une utilisation réelle dans des projets créatifs. L'outil peut produire des paroles à partir d'une description textuelle, voire d'une photo de référence, ce qui élargit considérablement ses cas d'usage. Google entre ainsi plus directement en compétition avec les plateformes de génération musicale déjà établies, dans un secteur en pleine expansion où la frontière entre création humaine et automatisée continue de se redéfinir.

Six times the slop. | Image: The Verge Google is expanding the capabilities of its Lyria 3 music-making AI, enabling it to create tracks up to three minutes long and from within multiple other Google Products. Until now, Lyria had been limited to 30-second clips. Lyria 3 Pro not only increases the maximum length sixfold, it also allows the user to prompt for specific elements like intros, choruses, and bridges for greater control over arrangements. Lyria 3 Pro works much like other popular music generation tools, such as Suno and Udio. Describe a mood, style, or instrumentation, and it spits out a track. It can also generate lyrics based on your prompt, or even a reference photo … Read the full story at The Verge.

À lire aussi

1AWS ML Blog13min

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
2AWS ML Blog17min

Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1

Amazon Web Services et Pipecat ont publié un guide détaillé sur le déploiement d'agents vocaux intelligents en production, s'appuyant sur la nouvelle infrastructure Amazon Bedrock AgentCore Runtime. La solution combine Pipecat, un framework open source spécialisé dans les pipelines audio temps réel, avec l'environnement serverless d'AWS pour permettre des conversations vocales naturelles sur le web, le mobile et la téléphonie. L'architecture prend en charge trois protocoles de transport réseau : WebSockets, WebRTC et l'intégration téléphonique classique. Chaque session de conversation tourne dans des microVMs isolées, avec une capacité de session continue allant jusqu'à 8 heures, et une mise à l'échelle automatique face aux pics de trafic. Le runtime impose l'usage de conteneurs ARM64 (Graviton), ce qui nécessite que les images Docker soient compilées spécifiquement pour l'architecture linux/arm64. Ce que change cette combinaison est significatif pour les équipes qui déploient des agents en production : elle élimine plusieurs problèmes récurrents liés aux architectures vocales temps réel, notamment la gigue audio, les contraintes de montée en charge, et les coûts liés au sur-provisionnement. La facturation à l'usage actif — et non à la capacité réservée — réduit directement les coûts d'infrastructure inactive. Sur le plan technique, la latence reste le défi central : une conversation naturelle exige une réponse inférieure à une seconde de bout en bout. Pour y parvenir, le système mise sur le streaming bidirectionnel à deux niveaux — entre le client et l'agent d'une part, et entre l'agent et les modèles de langage d'autre part. Le choix du modèle est déterminant : AWS recommande Amazon Nova Sonic pour les pipelines speech-to-speech, ou Nova Lite dans une approche en cascade (STT → LLM → TTS), tous deux optimisés pour minimiser le Time-to-First-Token. La plateforme intègre également de l'observabilité native pour tracer le raisonnement de l'agent et ses appels d'outils. Ce premier volet d'une série de publications s'adresse aux développeurs déjà familiers des architectures vocales en cascade et speech-to-speech. Il fait suite à un article précédent d'AWS comparant Amazon Nova Sonic aux approches en cascade, et pose les bases techniques pour les déploiements Pipecat sur AgentCore Runtime.

OutilsTuto
1 source
3The Decoder1h

MolmoWeb, l'agent web entièrement open source d'AI2, navigue sur internet à partir de captures d'écran

L'Allen Institute for AI (AI2) a publié MolmoWeb, un agent web open source capable de naviguer sur internet en utilisant uniquement des captures d'écran. Disponible en deux versions de 4 et 8 milliards de paramètres, cet agent surpasse plusieurs systèmes propriétaires bien plus grands sur les benchmarks standard. C'est une avancée notable car la plupart des agents web performants s'appuient sur des modèles fermés et massifs. MolmoWeb démontre qu'une approche entièrement ouverte, avec des modèles compacts, peut rivaliser avec des systèmes commerciaux — rendant cette technologie accessible à la recherche et aux développeurs sans dépendre de services propriétaires. AI2, connu pour ses travaux open source en IA, s'inscrit dans une tendance plus large où les modèles légers et transparents réduisent l'écart avec les géants du secteur.

UELes chercheurs et développeurs européens peuvent adopter MolmoWeb sans dépendre de services propriétaires américains, réduisant ainsi les coûts et les contraintes de souveraineté numérique.

OutilsActu
1 source
4AWS ML Blog1h

Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique

Amazon Bedrock, la plateforme cloud d'IA d'AWS, propose depuis décembre 2025 le Reinforcement Fine-Tuning (RFT), une méthode avancée de personnalisation de modèles de langage. Le service a d'abord été lancé avec les modèles Nova d'Amazon, avant d'être étendu en février 2026 aux modèles open source comme OpenAI GPT OSS 20B et Qwen 3 32B. Concrètement, le RFT permet d'entraîner un modèle à partir d'un petit ensemble de prompts — sans avoir besoin de milliers d'exemples étiquetés — en lui faisant générer plusieurs réponses possibles, puis en lui attribuant des scores selon la qualité de chaque réponse. Le modèle apprend ensuite à privilégier les stratégies qui produisent les meilleurs résultats. L'exemple utilisé dans le tutoriel est le dataset mathématique GSM8K, appliqué au modèle gpt-oss-20B hébergé sur Bedrock. Ce qui distingue le RFT du fine-tuning supervisé classique, c'est sa capacité d'apprentissage en boucle fermée : le modèle génère lui-même les réponses sur lesquelles il s'entraîne, plutôt que de mémoriser des paires entrée-sortie figées. Cette approche est particulièrement puissante pour des tâches vérifiables comme les mathématiques ou la génération de code, où la correction peut être évaluée automatiquement sans intervention humaine. Au fil de l'entraînement, le modèle rencontre naturellement des scénarios de plus en plus complexes, ce qui lui permet de s'améliorer en continu sans que l'équipe doive constituer et annoter un dataset massif en amont. Le résultat : des gains de performance significatifs sur des tâches complexes comme le raisonnement logique ou les conversations multi-tours. Le Reinforcement Learning appliqué aux LLMs est la technique qui a permis à des modèles comme ChatGPT d'aligner leurs réponses sur les préférences humaines — une méthode connue sous le nom de RLHF. Amazon Bedrock l'industrialise ici en automatisant tout le pipeline, de l'authentification au déploiement d'une fonction de récompense via Lambda, jusqu'à l'inférence sur le modèle personnalisé.

OutilsTuto
1 source