Aller au contenu principal
Durée de vie des modèles multimodaux vidéo de grande taille : jusqu'où peut-elle aller ?
OutilsHuggingFace Blog41sem

Durée de vie des modèles multimodaux vidéo de grande taille : jusqu'où peut-elle aller ?

Résumé IASource uniqueImpact UE
Source originale ↗·

TimeScope est une nouvelle méthode qui permet d'optimiser les modèles multimodaux de vidéo de grande taille pour une meilleure efficacité et durée d'exécution prolongée. Elle permet de prédire et de gérer les ressources nécessaires pour des séquences vidéo plus longues, en équilibrant la précision et les contraintes computationnelles.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
1AWS ML Blog 

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction
2MarkTechPost 

IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction

IBM a déployé Granite 4.0 1B Speech, un modèle linguistique de reconnaissance vocale compact conçu pour la reconnaissance automatique du discours multilingue (ASR) et la traduction automatique du discours bidirectionnel (AST). Ce modèle réduit la taille tout en maintenant les capacités attendues d'un système de traitement du langage moderne, avec la moitié des paramètres de son prédécesseur. Il inclut maintenant l'ASR japonais, un biais pour les mots-clés et une précision accrue dans la transcription anglaise. Le modèle est optimisé pour les déploiements d'entreprise et edge, en mettant l'accent sur la taille mémoire, le temps de latence et l'efficacité computationnelle. Il est disponible sous licence Apache 2.0 pour faciliter l'adoption ouverte. Granite 4.0 1B Speech a obtenu un classement #1 sur le tableau OpenASR avec une moyenne de WER de 5.52 et un RTFx de 280.02.

UELes entreprises européennes peuvent adopter ce modèle open-source (Apache 2.0) pour déployer de la reconnaissance vocale multilingue en local, sans dépendance cloud, ce qui facilite la conformité RGPD.

OutilsActu
1 source
3TechCrunch AI 

Multiverse Computing propulse ses modèles d'IA compressés vers le grand public

Multiverse Computing, spécialisée dans la compression de modèles d'IA, lance une application et une API pour rendre ses modèles compressés plus accessibles au grand public. La société a déjà compressé des modèles de grands laboratoires comme OpenAI, Meta, DeepSeek et Mistral AI.

UEMultiverse Computing, entreprise européenne spécialisée dans la compression de modèles IA, rend ses outils accessibles via une API — opportunité directe pour les développeurs et entreprises européennes cherchant à réduire les coûts d'inférence.

OutilsOutil
1 source
Google Vids : créez, modifiez et partagez des vidéos gratuitement
4Google AI Blog 

Google Vids : créez, modifiez et partagez des vidéos gratuitement

Google enrichit son outil de création vidéo Vids avec de nouvelles fonctionnalités d'intelligence artificielle, en intégrant ses modèles maison Lyria 3 pour la génération audio et Veo 3.1 pour la vidéo. La nouveauté centrale : ces capacités de génération vidéo haute qualité sont désormais accessibles gratuitement, sans frais supplémentaires pour les utilisateurs de Google Workspace. C'est un signal fort dans la course aux outils créatifs IA. En rendant la génération vidéo professionnelle accessible sans surcoût, Google s'attaque directement à des acteurs comme Runway, Sora d'OpenAI ou Kling, qui facturent leurs fonctionnalités premium. Pour les équipes marketing, les créateurs de contenu et les entreprises utilisant déjà l'écosystème Google, cela élimine une barrière d'entrée significative à la production vidéo assistée par IA. Google Vids a été lancé en 2024 comme réponse à Canva et aux outils de présentation vidéo, intégré à Google Workspace aux côtés de Docs, Sheets et Slides. L'intégration de Veo 3.1, version mise à jour du modèle vidéo présenté à Google I/O 2025, et de Lyria 3 pour la bande sonore, montre la volonté de Google de consolider sa suite bureautique autour de l'IA générative multimodale, face à Microsoft qui déploie Copilot dans Office.

UELes équipes et entreprises françaises déjà abonnées à Google Workspace peuvent désormais accéder gratuitement à la génération vidéo IA professionnelle, supprimant le besoin de souscrire à des outils tiers payants comme Runway ou Kling.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour