Aller au contenu principal
ElevenLabs présente Flows Agent, une IA qui construit les workflows toute seule
CréationLe Big Data1h

ElevenLabs présente Flows Agent, une IA qui construit les workflows toute seule

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

ElevenLabs a lancé le 4 juin 2026 Flows Agent, un agent conversationnel intégré à sa plateforme ElevenCreative capable de concevoir et d'exécuter automatiquement des workflows créatifs complexes à partir d'une simple description textuelle. Concrètement, l'utilisateur explique ce qu'il souhaite produire, une campagne publicitaire multilingue, une série de visuels adaptés à plusieurs marchés, un contenu vidéo avec narration, et l'agent sélectionne lui-même les modèles appropriés, connecte les outils entre eux et lance les générations. La plateforme sous-jacente, ElevenCreative Flows, donne accès à plus de cinquante modèles d'image et de vidéo réunis dans un seul espace de travail, auxquels s'ajoutent les technologies vocales maison d'ElevenLabs ainsi que la génération musicale et les effets sonores. L'outil est d'ores et déjà disponible sans étape d'inscription supplémentaire pour les utilisateurs de la plateforme.

Ce qui distingue Flows Agent d'un simple générateur de pipelines, c'est sa capacité à évoluer après la création initiale. Une fois le workflow construit, l'utilisateur peut dialoguer avec l'agent pour demander des ajustements précis, remplacer une voix, modifier un arrière-plan, changer un paramètre de génération, sans avoir à reconstruire manuellement l'ensemble du pipeline. L'agent modifie uniquement les noeuds concernés et relance les générations correspondantes. Pour les studios de production, les agences créatives ou les équipes marketing qui jonglent quotidiennement avec des chaînes de production multi-formats, ce gain de temps est substantiel : la reconfiguration manuelle de workflows complexes représente aujourd'hui une friction considérable qui freine l'adoption des outils génératifs par les non-techniciens.

ElevenLabs s'inscrit avec ce lancement dans une course plus large que se livrent les plateformes d'IA créative pour capter les workflows professionnels. La société, connue principalement pour ses outils de clonage et synthèse vocale, étend ainsi son périmètre bien au-delà de l'audio pour devenir un environnement de production multimédia intégré. L'approche conversationnelle qu'elle adopte suit une tendance de fond dans le secteur : après des mois d'annonces autour des agents autonomes de la part d'OpenAI, Anthropic ou Google, les éditeurs cherchent désormais à résoudre des problèmes métier concrets plutôt que de proposer des démos génériques. En ciblant spécifiquement la complexité des workflows créatifs, ElevenLabs parie que la prochaine bataille ne se jouera pas sur la qualité brute des modèles, mais sur la fluidité avec laquelle les professionnels peuvent les orchestrer ensemble, sans passer par une interface de programmation visuelle que peu maîtrisent.

💬 Le point de vue du dev

ElevenLabs qui construit des workflows créatifs tout seul, c'est le genre d'annonce où on attend le bug en prod. Mais la partie qui m'intéresse vraiment, c'est la modification ciblée des noeuds : tu changes une voix ou un arrière-plan, l'agent reconfigure juste ce qui doit l'être sans tout rebâtir, et c'est là que ça devient utile en agence, pas juste en démo. ElevenLabs passe de "l'outil vocal" à "l'OS multimédia", et franchement, ils le font par la bonne porte.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Music v2 : l’IA d’ElevenLabs qui compose vos chansons (presque) toute seule
1Le Big Data 

Music v2 : l’IA d’ElevenLabs qui compose vos chansons (presque) toute seule

ElevenLabs vient de lancer Music v2, une nouvelle version de son modèle de génération musicale par intelligence artificielle. Cette mise à jour améliore significativement la qualité globale des morceaux produits à partir de simples instructions textuelles : voix plus naturelles, arrangements plus travaillés, transitions cohérentes entre genres musicaux au sein d'un même titre. L'une des fonctionnalités les plus notables est l'inpainting, qui permet de modifier une section précise d'un morceau (un refrain, un pont, une transition) sans devoir tout régénérer depuis le début. Music v2 intègre également un meilleur support multilingue, avec des voix synthétiques plus convaincantes dans d'autres langues que l'anglais, point sur lequel les outils concurrents butent encore régulièrement. ElevenLabs annonce par ailleurs une baisse de tarifs sur Music v1 et v2 pour plusieurs de ses plateformes. L'impact de cette version va bien au-delà du hobbyiste qui veut produire un morceau depuis son salon. ElevenLabs structure son offre autour de trois services distincts : ElevenMusic pour la création et le remix grand public, ElevenAPI pour les développeurs souhaitant intégrer la génération musicale dans leurs propres produits, et ElevenCreative ciblant les marques et producteurs de contenu. Ce dernier segment est particulièrement stratégique : il permet de produire rapidement de la musique utilisable dans des publicités, vidéos ou campagnes de marque, court-circuitant les processus classiques d'acquisition de licences musicales, souvent longs et coûteux. Pour les agences créatives et les studios de production de contenu, c'est un changement concret de pipeline de travail. ElevenLabs s'est imposé ces deux dernières années comme l'un des acteurs les plus agressifs de l'IA générative appliquée à l'audio, avec son moteur de clonage vocal déjà très utilisé dans les médias et le divertissement. Music v2 s'inscrit dans une course plus large entre plateformes comme Suno, Udio et désormais des géants comme Google avec MusicFX, tous cherchant à capter le marché de la création musicale assistée par IA. L'enjeu dépasse la simple commodité créative : il touche directement au modèle économique de l'industrie musicale, aux droits d'auteur sur les données d'entraînement, et au rôle futur des compositeurs et producteurs humains. La capacité de Music v2 à basculer d'un style à un autre au sein d'un même morceau, et à opérer des modifications chirurgicales via l'inpainting, rapproche ces outils d'un véritable assistant de production plutôt que d'un simple générateur de démos.

UELes agences créatives et studios de production européens disposent désormais d'un outil de génération musicale automatisé réduisant le recours aux licences traditionnelles, ce qui soulève des questions réglementaires sur les droits d'auteur des données d'entraînement dans le cadre de la législation européenne.

💬 ElevenLabs est en train de construire la couche audio de l'IA générative, et Music v2 confirme que c'est leur plan depuis le début. L'inpainting, c'est le détail qui change tout : retoucher une section sans tout régénérer, c'est ce qui fait passer l'outil de la démo sympa à quelque chose d'utilisable en prod. Les agences créatives vont faire les calculs très vite.

CréationOpinion
1 source
Vidéos IA multilingues : Comment conquérir le monde avec un éditeur tout-en-un ? - avril 2026
2Le Big Data 

Vidéos IA multilingues : Comment conquérir le monde avec un éditeur tout-en-un ? - avril 2026

Synthesia, plateforme d'édition vidéo propulsée par l'intelligence artificielle, se positionne en 2026 comme l'un des outils de référence pour les entreprises cherchant à produire des contenus audiovisuels dans plus de 160 langues sans recourir à des studios de tournage ni à des équipes de traducteurs. La solution repose sur un pipeline intégré : l'utilisateur soumet un texte, la plateforme génère automatiquement une vidéo avec un avatar animé dont les lèvres sont synchronisées en temps réel avec la langue cible via une technologie dite de Lip-Sync. Le clonage vocal complète le dispositif en reproduisant les intonations et accents naturels propres à chaque langue, y compris les alphabets non latins comme le japonais ou l'arabe, gérés nativement par le moteur de traduction contextuelle. Selon l'éditeur, le coût de production serait divisé par dix par rapport aux méthodes traditionnelles. L'impact est tangible pour les équipes marketing et communication des entreprises à vocation internationale : là où il fallait mobiliser des studios, des comédiens de voix et des traducteurs pour chaque marché, un seul opérateur peut désormais décliner un même contenu dans des dizaines de variantes linguistiques en quelques minutes. Les sous-titres dynamiques, générés automatiquement et synchronisés avec le débit de parole, viennent renforcer l'accessibilité sur les réseaux sociaux où la vidéo se consomme souvent sans son. Pour les PME et les startups qui n'ont pas les budgets des grandes multinationales, ce type d'outil ouvre concrètement l'accès aux marchés asiatiques, africains ou latino-américains sans investissement logistique lourd. La montée en puissance de ces plateformes s'inscrit dans une dynamique plus large de démocratisation de la production vidéo par l'IA, accélérée depuis 2023 par les progrès des modèles de synthèse vocale et de génération d'avatars photoréalistes. Synthesia n'est pas seul sur ce segment : HeyGen, D-ID ou encore ElevenLabs pour la partie audio se disputent la même clientèle professionnelle. La concurrence pousse à l'amélioration rapide du réalisme, point historiquement faible de ces outils qui produisaient des rendus "robotiques" peu crédibles. La prochaine bataille se jouera sur la cohérence culturelle au-delà de la traduction, c'est-à-dire la capacité à adapter non seulement la langue mais aussi les références visuelles, le registre et les codes locaux, un défi que les moteurs actuels ne résolvent encore que partiellement.

UELes PME et startups européennes peuvent réduire significativement leurs coûts de production vidéo multilingue pour accéder aux marchés internationaux sans infrastructure lourde.

CréationOutil
1 source
ChatGPT Images 2.0 : Ils ont enfin corrigé CE défaut qui rendait tout le monde fou !
3Le Big Data 

ChatGPT Images 2.0 : Ils ont enfin corrigé CE défaut qui rendait tout le monde fou !

OpenAI a officiellement lancé ChatGPT Images 2.0 le 21 avril 2026, une refonte majeure de son générateur d'images propulsée par un nouveau modèle baptisé gpt-image-2. La mise à jour est immédiatement disponible pour les abonnés ChatGPT Plus, Pro et Business, avec un déploiement Enterprise annoncé prochainement. Le modèle est également accessible via l'API OpenAI, permettant aux développeurs de l'intégrer dans leurs propres services. Sur mobile, une mise à jour de l'application est requise pour profiter de l'ensemble des fonctionnalités. Parmi les changements les plus visibles : la génération de variations multiples en une seule requête, la prise en charge de formats allant du 3:1 au 1:3, et une capacité inédite à analyser des demandes complexes avant de générer quoi que ce soit, en s'appuyant parfois sur des recherches web pour affiner le résultat. La principale avancée concerne le rendu du texte dans les images, longtemps considéré comme le talon d'Achille de l'outil. Là où les versions précédentes déformaient systématiquement les mots et produisaient des caractères illisibles, gpt-image-2 peut désormais afficher des phrases entières, voire des paragraphes, de manière cohérente et intégrée visuellement. Cette capacité s'étend à plusieurs langues au-delà de l'anglais, ce qui élargit considérablement son utilité pour les créateurs de contenu à l'international. Pour les professionnels du marketing, de la communication ou du design qui avaient abandonné ChatGPT pour Midjourney ou Adobe Firefly sur ce point précis, cette correction représente un changement concret d'usage. Le modèle gagne également en fidélité d'exécution : il respecte mieux les consignes détaillées, reproduit avec plus de cohérence les styles demandés (photo réaliste, cinématique, pixel art, manga) et restitue les petits éléments qui échappaient souvent aux générations précédentes. Cette mise à jour s'inscrit dans une course à l'amélioration des générateurs d'images multimodaux où OpenAI accusait un certain retard face à des concurrents comme Midjourney v6 ou Stable Diffusion 3. Depuis l'intégration de DALL-E dans ChatGPT, le principal frein à l'adoption massive restait précisément la gestion du texte dans les visuels, un problème structurel lié à la manière dont les modèles de diffusion encodent les caractères. Le passage à gpt-image-2 semble marquer une rupture architecturale sur ce point. OpenAI continue néanmoins de signaler des limites : les mises en page complexes peuvent encore produire des résultats imparfaits, et le rendu multilingue n'est pas encore irréprochable. Les prochains mois diront si cette version consolide la position de ChatGPT comme outil généraliste de création visuelle ou si elle reste distancée par des solutions spécialisées.

UELes créateurs de contenu et professionnels du marketing en France et en Europe peuvent utiliser gpt-image-2 pour générer des visuels avec texte lisible en plusieurs langues via ChatGPT ou l'API OpenAI, élargissant concrètement son utilité pour la production francophone.

CréationOpinion
1 source
OmniVoice Studio : une alternative locale et open source à ElevenLabs
4MarkTechPost 

OmniVoice Studio : une alternative locale et open source à ElevenLabs

OmniVoice Studio est une application de bureau open source qui propose une alternative locale aux services vocaux d'ElevenLabs, dont les abonnements vont de 5 à 330 dollars par mois. Développée autour du modèle OmniVoice de k2-fsa, l'application regroupe six fonctionnalités principales : clonage de voix à partir d'un clip audio de trois secondes en zero-shot learning, conception de voix synthétiques paramétrables (genre, âge, accent, émotion), doublage automatique de vidéos YouTube ou locales, dictée en temps réel via un widget flottant système, traitement par lots jusqu'à 50 vidéos simultanées, et exposition de toutes ces capacités via un serveur MCP compatible avec Claude, Cursor ou tout client personnalisé. L'architecture repose sur un frontend React couplé à un backend FastAPI exposant 97 endpoints, avec stockage SQLite et streaming via Server-Sent Events. Les bibliothèques ML au coeur du système sont WhisperX pour la transcription (99 langues, alignement mot à mot), Demucs de Meta pour la séparation vocale, Pyannote pour la diarisation des locuteurs, et AudioSeal de Meta pour incruster un filigrane neuronal invisible dans l'audio généré. L'application supporte nativement CUDA, Apple Silicon Metal et ROCm AMD, avec bascule automatique sur CPU en dessous de 8 Go de VRAM. Ce qui distingue fondamentalement OmniVoice Studio, c'est que l'intégralité du pipeline s'exécute en local, sans envoyer aucune donnée vers des serveurs externes. Pour les créateurs de contenu, les développeurs, les journalistes ou les entreprises traitant des enregistrements sensibles, cela représente un changement de paradigme concret : zéro latence réseau, zéro dépendance à un abonnement, zéro exposition de données propriétaires. Le support de 646 langues pour la synthèse vocale, contre 32 pour ElevenLabs, ouvre des usages dans des langues minoritaires ou des dialectes régionaux que les plateformes commerciales ignorent. La fonctionnalité de doublage vidéo entièrement automatisée, transcription, traduction, synthèse, export MP4, comprime en quelques minutes un workflow qui demandait auparavant des outils multiples et des compétences spécialisées. Le projet s'inscrit dans une tendance de fond qui voit l'open source rattraper progressivement les services cloud d'IA vocale, portés par la démocratisation des modèles de diffusion et des architectures TTS performantes. OmniVoice Studio propose six moteurs TTS interchangeables via une variable d'environnement, dont CosyVoice 3 (Apache 2.0, 9 langues et 18 dialectes), MLX-Audio réservé à Apple Silicon, et MOSS-TTS-Nano capable de fonctionner en temps réel sur CPU. Ajouter un moteur personnalisé ne requiert qu'une cinquantaine de lignes de Python. L'enveloppe desktop est construite avec Tauri, framework Rust multiplateforme, pour une base de code répartie à 56 % en Python et 23,6 % en JavaScript. À mesure que les modèles locaux gagnent en qualité et que les coûts d'inférence baissent, des projets comme celui-ci fragilisent le modèle économique des plateformes SaaS vocales qui facturent l'accès à des capacités désormais reproductibles hors cloud.

UELe traitement 100% local facilite la conformité RGPD pour les entreprises, médias et journalistes européens qui manipulent des enregistrements sensibles sans dépendre de serveurs cloud américains.

CréationOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour