Aller au contenu principal
LLMsMarkTechPost6sem

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Des chercheurs de NVIDIA et de l'Université du Maryland ont publié Audio Flamingo Next (AF-Next), le modèle le plus puissant de la série Audio Flamingo et l'un des grands modèles audio-langage (LALM) open source les plus avancés à ce jour. AF-Next est disponible en trois variantes spécialisées : AF-Next-Instruct pour les questions-réponses générales, AF-Next-Think pour le raisonnement multi-étapes complexe, et AF-Next-Captioner pour la description détaillée de contenus audio. L'architecture repose sur quatre composants : un encodeur audio AF-Whisper (basé sur Whisper, pré-entraîné sur un corpus plus large incluant de la parole multilingue), un adaptateur MLP à deux couches, un backbone LLM Qwen-2.5-7B à 7 milliards de paramètres avec une fenêtre de contexte étendue à 128 000 tokens, et un module de synthèse vocale en streaming. Une innovation clé est l'introduction des Rotary Time Embeddings (RoTE), qui ancrent chaque token audio à son horodatage réel plutôt qu'à sa position dans la séquence, ce qui améliore significativement le raisonnement temporel sur de longs enregistrements. L'entraînement a mobilisé plus d'un million d'heures de données audio.

AF-Next représente une avancée concrète pour toutes les applications nécessitant une compréhension fine de l'audio : transcription de réunions longues, analyse de podcasts, surveillance sonore, ou encore assistants vocaux capables de raisonner sur le contexte temporel d'une conversation. La technique dite de Temporal Audio Chain-of-Thought oblige le modèle à ancrer chaque étape de raisonnement à un timestamp précis avant de produire une réponse, ce qui réduit les hallucinations et améliore la fiabilité sur des enregistrements longs. Pour entraîner cette capacité, les chercheurs ont constitué AF-Think-Time, un jeu de données d'environ 43 000 exemples issus de bandes-annonces, résumés de films, histoires à suspense et conversations multi-participants, avec une moyenne de 446 mots par chaîne de raisonnement.

L'audio a toujours été le parent pauvre du multimodal : là où les modèles vision-langage comme GPT-4V ou LLaVA ont rapidement mûri, les équivalents audio peinaient à traiter simultanément parole, sons environnementaux et musique, surtout sur de longues durées. AF-Next s'attaque directement à cette lacune en proposant une architecture unifiée et entièrement ouverte, à l'heure où les grands laboratoires comme OpenAI et Google gardent leurs modèles audio les plus puissants propriétaires. En publiant les poids du modèle et le dataset AF-Think-Time, NVIDIA et l'Université du Maryland offrent à la communauté de recherche une base solide pour faire progresser l'audio compréhension ouverte, un domaine stratégique pour les prochaines générations d'interfaces vocales et d'agents autonomes capables d'agir sur des flux audio en temps réel.

💬 Le point de vue du dev

L'audio était vraiment le grand oublié du multimodal, et là c'est NVIDIA qui comble le trou avec une architecture ouverte. Les Rotary Time Embeddings pour ancrer les tokens à leur timestamp réel, c'est le genre de détail qui change tout quand tu travailles sur des enregistrements longs. Reste à voir si les 128k tokens de contexte tiennent vraiment en pratique, mais les poids sont là, le dataset aussi, bonne base.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
1MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents
2VentureBeat AI 

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

La startup américaine Poolside, fondée à San Francisco en 2023, a lancé ce 28 avril 2026 deux nouveaux modèles de langage sous la marque Laguna, conçus spécifiquement pour les tâches de codage agentique. Le premier, Laguna M.1, est un modèle propriétaire de 225 milliards de paramètres au format Mixture of Experts (MoE), avec 23 milliards de paramètres actifs, destiné aux environnements d'entreprise et gouvernementaux à hautes exigences de sécurité. Le second, Laguna XS.2, est un modèle open source sous licence Apache 2.0 de 33 milliards de paramètres (3 milliards actifs), téléchargeable et exécutable localement sur un simple GPU de bureau ou d'ordinateur portable, sans connexion internet. Poolside accompagne ces deux modèles d'un agent de codage en ligne de commande baptisé "pool" et d'un environnement de développement web mobile appelé "shimmer". Temporairement, même le plus grand modèle M.1 est accessible gratuitement via l'API Poolside et des partenaires comme OpenRouter, Ollama et Baseten. L'arrivée de Laguna XS.2 en open source représente un signal fort dans un secteur dominé soit par des modèles propriétaires coûteux comme Claude d'Anthropic ou GPT-5.5 d'OpenAI, soit par des modèles chinois à licence ouverte comme ceux de DeepSeek. Poolside offre ici une alternative américaine, exécutable entièrement hors ligne, ce qui répond à un besoin critique pour les agences gouvernementales et les entreprises opérant dans des environnements ultra-sécurisés. L'ingénieur post-entraînement George Grigorev a précisé que Poolside peut "livrer des poids dans des environnements totalement isolés on-premises, sans connexion réseau", un avantage décisif face aux solutions cloud d'Anthropic ou Google. Par ailleurs, les deux modèles Laguna ont été entraînés intégralement from scratch, contrairement à plusieurs laboratoires américains qui s'appuient sur les modèles de base Qwen d'Alibaba, ce qui leur confère une indépendance technique notable. Poolside s'est jusqu'ici concentrée sur des contrats gouvernementaux et de défense, construisant ses modèles dans un environnement interne appelé "Model Factory", dont le moteur central est un logiciel maison nommé Titan. L'entreprise utilise également un optimiseur d'entraînement appelé Muon, qui accélère l'apprentissage d'environ 15% par rapport aux méthodes standards, un avantage compétitif non négligeable en termes de coûts et de délais. En s'ouvrant maintenant à la communauté des développeurs et à la recherche publique, Poolside change de stratégie et entre de plein pied dans la bataille de l'open source agentique, à un moment où les entreprises tech cherchent à réduire leur dépendance aux API propriétaires pour des raisons de coût, de confidentialité et de souveraineté technologique.

UELes organisations européennes en environnement isolé (défense, administration) peuvent déployer localement un modèle de codage agentique open source américain sans dépendance cloud, renforçant leur autonomie technologique.

LLMsActu
1 source
NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace
3NVIDIA Developer Blog 

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace

NVIDIA a dévoilé Nemotron-N-Nano-3B-Omni, un modèle multimodal compact capable de traiter simultanément du texte, des images, des vidéos et de l'audio au sein d'une seule architecture unifiée. Conçu pour l'inférence efficace, ce modèle de 3 milliards de paramètres est publié en open weights, ce qui permet à n'importe quel développeur de le télécharger, le modifier et le déployer sans dépendre des serveurs NVIDIA. Il prend en charge le raisonnement agentique, c'est-à-dire la capacité à enchaîner des perceptions et des actions dans une boucle autonome, couvrant aussi bien l'analyse de documents que l'interprétation d'écrans ou la compréhension vocale. L'intérêt principal de ce modèle réside dans sa conception monolithique : là où les systèmes agentiques actuels assemblent des chaînes de modèles spécialisés distincts pour la vision, l'audio et le texte, Nemotron Nano Omni gère l'ensemble dans un seul passage d'inférence. Cela réduit significativement la latence, la complexité d'orchestration et le coût de calcul, tout en maintenant une cohérence contextuelle entre les modalités. Pour les entreprises qui déploient des agents IA en production, c'est une réduction directe de la facture cloud et des points de défaillance. Ce lancement s'inscrit dans la stratégie plus large de NVIDIA de dominer non seulement le matériel GPU, mais aussi la couche logicielle et les modèles fondamentaux pour l'IA d'entreprise. La série Nemotron, qui comprend également des modèles plus grands comme Nemotron-4, vise à offrir des alternatives performantes aux modèles propriétaires d'OpenAI ou d'Anthropic. Avec la montée en puissance des agents autonomes capables d'interagir avec des interfaces graphiques, des fichiers et des flux audio, un modèle omnimodal efficace et ouvert représente une brique stratégique pour la prochaine génération d'assistants et d'automatisations.

UELes développeurs et entreprises européennes peuvent déployer cet agent IA multimodal open weights directement sur leur propre infrastructure, réduisant la dépendance aux API cloud américaines et renforçant la souveraineté numérique.

LLMsOpinion
1 source
OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel
4MarkTechPost 

OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel

L'équipe OpenMOSS, en collaboration avec MOSI.AI et le Shanghai Innovation Institute, a publié MOSS-Audio, un modèle de fondation open source conçu pour unifier dans un seul système toutes les tâches de compréhension audio. Disponible en quatre variantes, MOSS-Audio-4B-Instruct, 4B-Thinking, 8B-Instruct et 8B-Thinking, il repose sur les modèles de langage Qwen3-4B et Qwen3-8B, atteignant respectivement environ 4,6 et 8,6 milliards de paramètres. Le modèle est capable de transcrire de la parole avec alignement temporel au niveau du mot, d'identifier les caractéristiques d'un locuteur, d'analyser ses émotions, de détecter des événements acoustiques, d'interpréter des sons d'ambiance, d'analyser des contenus musicaux et de répondre à des questions précisément ancrées dans le temps, du type "qu'a dit l'intervenant à la deuxième minute". Les variantes Instruct sont optimisées pour des sorties structurées en production, tandis que les variantes Thinking sont conçues pour le raisonnement en plusieurs étapes, grâce à un entraînement par chaîne de pensée et par apprentissage par renforcement. Jusqu'ici, accomplir l'ensemble de ces tâches nécessitait d'assembler plusieurs systèmes spécialisés distincts, chacun dédié à une modalité précise. MOSS-Audio supprime ce besoin d'orchestration en offrant un seul modèle polyvalent utilisable sans commutation. Pour les développeurs et les entreprises qui traitent des flux audio complexes, des réunions enregistrées ou des podcasts, cela représente un gain d'infrastructure significatif. Les capacités de raisonnement temporel, c'est-à-dire la possibilité de répondre à des questions référencées dans le temps sur un enregistrement, ouvrent aussi des cas d'usage qui n'étaient pas accessibles avec des architectures séparées, notamment l'analyse automatisée de contenus longs. L'architecture de MOSS-Audio repose sur trois composants : un encodeur audio, un adaptateur de modalité et un grand modèle de langage. L'encodeur, entraîné de zéro plutôt qu'emprunté à une solution existante, produit des représentations temporelles continues à 12,5 Hz. Une innovation clé baptisée DeepStack permet d'injecter des caractéristiques issues des couches intermédiaires de l'encodeur directement dans le modèle de langage, en plus de la couche finale, ce qui préserve les informations acoustiques de bas niveau comme la prosodie ou les événements transitoires. Le modèle s'inscrit dans une dynamique d'open source audio qui s'accélère depuis 2024, portée par des acteurs chinois cherchant à combler l'écart avec les laboratoires occidentaux dans le domaine du traitement multimodal. Le code source est disponible sur GitHub sous licence publique.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour