Aller au contenu principal
Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !
CréationLe Big Data6sem

Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Tencent a publié le 16 avril 2026 HY-World 2.0, un modèle d'intelligence artificielle open source capable de générer des environnements 3D interactifs complets à partir d'un simple texte, d'une image ou d'une vidéo. Le processus prend environ 712 secondes, soit moins de douze minutes, en exploitant des GPU NVIDIA H20. Le modèle repose sur une chaîne de quatre modules spécialisés : HY-Pano 2.0 convertit le point de départ en panorama sphérique à 360 degrés, WorldNav planifie jusqu'à 35 trajectoires de caméra pour explorer l'espace sans collision, WorldStereo 2.0 génère de nouvelles vues pour combler les angles morts, et WorldMirror 2.0 reconstruit la scène finale en 3D Gaussian Splatting. L'algorithme MaskGaussian réduit le volume des données de 73,7 % en éliminant les points superflus, sans dégrader la qualité visuelle, maintenant un PSNR de 25.017. Les scènes exportées sont directement compatibles avec Unity et Unreal Engine, et incluent la détection de collisions pour la robotique. Tencent publie les poids, le code et le rapport technique en accès libre.

Cette publication change concrètement l'accès à la génération de mondes 3D, jusqu'ici réservée à des équipes disposant de ressources considérables. Un développeur de jeu indépendant, un studio de simulation ou une équipe de robotique peut désormais produire un environnement 3D explorable en moins d'un quart d'heure, sans pipeline propriétaire ni licence coûteuse. Le fait que les exports soient nativement compatibles avec les deux moteurs de jeu dominants du marché supprime une étape d'intégration habituellement chronophage. Pour la robotique incarnée, la possibilité de générer des environnements de simulation physiquement cohérents à la demande ouvre des perspectives importantes pour l'entraînement d'agents autonomes à moindre coût.

HY-World 2.0 arrive dans un contexte de compétition intense autour des "world models", ces systèmes capables de simuler des environnements physiquement plausibles. Google DeepMind a présenté Genie 3, qui adopte une approche par génération vidéo, tandis que World Labs de Fei-Fei Li a lancé Marble, solution entièrement fermée. Tencent choisit délibérément l'open source pour s'imposer comme référence de la recherche et attirer la communauté des développeurs, une stratégie déjà utilisée avec la série Hunyuan sur la génération d'images et de vidéos. L'enjeu dépasse le jeu vidéo : les world models sont considérés comme une brique fondamentale pour entraîner des robots et des agents IA capables d'agir dans le monde réel. En rendant HY-World 2.0 librement accessible, Tencent accélère la diffusion de cette technologie et complique la position des acteurs qui misaient sur la fermeture de leurs systèmes comme avantage concurrentiel.

Impact France/UE

Les studios indépendants et équipes de robotique français et européens peuvent désormais générer des environnements 3D professionnels gratuitement, réduisant leur dépendance aux solutions propriétaires coûteuses.

💬 Le point de vue du dev

12 minutes pour un monde 3D explorable, exportable direct dans Unity ou Unreal, open source. Ce qui est intéressant ici, c'est pas la performance technique (solide, mais la concurrence existe), c'est que Tencent lâche tout en public pile au moment où World Labs joue la carte du fermé, le même coup qu'avec Hunyuan. Un studio indé peut démarrer avec ça demain, sans débourser un centime.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data 

Netflix VOID AI : l’open source pour réécrire vos vidéos

Netflix a publié en 2026 un outil open source baptisé VOID AI, pour Video Object and Interaction Deletion, capable de supprimer des éléments d'une vidéo tout en recalculant automatiquement les interactions physiques qui en découlent. Là où les logiciels de montage traditionnels se contentaient de "boucher" les zones supprimées avec des pixels voisins, VOID adopte une approche radicalement différente : si une main tenant un verre est effacée, le verre tombe. Si une voiture est retirée d'une scène de collision, la trajectoire des autres véhicules est recalculée. L'outil s'appuie sur des modèles de diffusion vidéo, notamment CogVideoX, et sur un système de masquage précis pour isoler l'objet cible sans contaminer le reste de l'image. Lumières, ombres et perspectives se mettent à jour de façon cohérente, sans intervention manuelle. Ce niveau de précision représente un saut qualitatif majeur pour les professionnels de la post-production. Jusqu'ici, effacer un élément en mouvement dans une séquence complexe pouvait mobiliser des heures de travail manuel, avec des résultats souvent imparfaits sur les zones à fort déplacement. VOID automatise ce processus en intégrant ce que Netflix appelle la "simulation contrefactuelle" : l'IA ne se demande pas seulement à quoi ressemble la scène sans l'objet, mais à quoi elle aurait ressemblé si cet objet n'avait jamais existé. Pour les studios, les créateurs indépendants ou les équipes de post-production, cela signifie des délais réduits et une liberté créative élargie, à condition de disposer d'une machine suffisamment puissante pour faire tourner l'outil. Le raisonnement causal au cœur de VOID ne relève pas de la magie algorithmique mais d'un entraînement rigoureux sur des données physiques synthétiques, générées notamment via Blender et inspirées de bases de données visuelles complexes. Netflix positionne cet outil dans la continuité de ses investissements en recherche appliquée, un domaine où le groupe rivalise désormais avec les grands laboratoires académiques et les éditeurs de logiciels professionnels comme Adobe ou DaVinci Resolve. En publiant VOID en open source, la plateforme fait le choix de l'écosystème plutôt que de la rétention technologique, une stratégie qui lui permet d'accélérer l'adoption, d'attirer des contributions externes et de s'imposer comme référence dans un segment en pleine expansion. Les suites possibles incluent une intégration dans des pipelines de production existants et, à terme, des applications grand public pour l'édition vidéo assistée par IA.

UELes studios de post-production français et européens peuvent adopter directement cet outil open source pour réduire les délais et coûts de montage vidéo complexe.

CréationOutil
1 source
ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?
2Le Big Data 

ChatGPT Images 2.0 : comment transformer vos photos en dessins MS Paint ?

Depuis le 30 avril 2026, un prompt pour ChatGPT Images 2.0 circule à vitesse fulgurante sur les réseaux sociaux. Partagé par l'utilisateur @arrakis_ai sur X, il demande à l'IA de redessiner n'importe quelle photo de la manière la plus maladroite possible, comme si le résultat avait été tracé à la souris dans Microsoft Paint : traits brouillons, proportions bancales, rendu pixelisé à l'extrême. L'image doit rester vaguement reconnaissable tout en provoquant un effet comique immédiat. La chute du prompt joue aussi un rôle décisif : après toutes ces instructions précises, une phrase désinvolte coupe court à la logique et donne à l'IA une liberté totale, ce qui produit des visuels imprévisibles et souvent absurdes. En quelques heures, des milliers d'utilisateurs ont reproduit l'expérience et inondé leurs fils d'images volontairement ratées. Le paradoxe est frappant : ChatGPT Images 2.0, présenté comme un outil de génération d'images haute fidélité capable de produire des visuels quasi photoréalistes, cartonne précisément quand on lui demande de faire le contraire. Ce phénomène révèle une vraie fatigue face à la surproduction d'images lisses et calibrées qui envahissent les plateformes depuis l'essor des IA génératives. Les dessins maladroits accrochent là où les rendus parfaits glissent, parce qu'ils surprennent, font sourire et cassent les codes esthétiques dominants. Pour les créateurs de contenu et les marques, la leçon est contre-intuitive mais réelle : l'irrégularité et l'imperfection ont une valeur virale que la perfection technique ne garantit pas. Le rendu bancal devient un langage visuel à part entière, accessible à tous sans compétence artistique préalable. Cette tendance s'inscrit dans un contexte plus large de maturité du grand public face aux IA génératives. Après une première phase d'émerveillement devant le réalisme des images produites, les utilisateurs cherchent désormais à détourner ces outils plutôt qu'à les utiliser à leur plein potentiel technique. ChatGPT Images 2.0, lancé par OpenAI en 2025 avec des capacités de génération et d'édition nettement améliorées, se retrouve ainsi mobilisé pour des usages humoristiques et participatifs qui n'étaient pas au coeur de sa conception. Cette dynamique rappelle des précédents comme les filtres déformants de FaceApp ou les memes générés par DALL-E : les plateformes d'IA les plus puissantes trouvent souvent leur premier vrai moment culturel non pas dans leurs exploits techniques, mais dans leurs détournements les plus absurdes. La question reste ouverte de savoir si OpenAI capitalisera sur cette viralité ou si le phénomène restera une parenthèse éphémère dans le cycle des tendances internet.

CréationOutil
1 source
Seedance 2.0 : Comment créer des vidéos TikTok avec l’IA ?
3Le Big Data 

Seedance 2.0 : Comment créer des vidéos TikTok avec l’IA ?

Seedance 2.0, la nouvelle version du générateur vidéo IA développé par ByteDance, s'est imposée comme un outil de référence pour la création de contenu vertical destiné à TikTok. La mise à jour introduit deux avancées majeures : un moteur de mouvement de caméra piloté par prompt textuel, et un système de cohérence de personnage capable de mémoriser les traits faciaux, vêtements et détails graphiques d'un sujet d'une scène à l'autre. Concrètement, le créateur intègre des commandes comme « Zoom », « Pan » ou « Tilt » directement dans sa description textuelle, et le modèle génère automatiquement des séquences animées au format 9:16, sans studio ni équipe de production. Une image de référence ou un identifiant suffit pour que le système reproduise un personnage avec une précision quasi identique sur plusieurs épisodes. Ces fonctionnalités répondent à deux problèmes chroniques des créateurs de contenu sur TikTok : la qualité visuelle insuffisante des outils accessibles au grand public, et l'incohérence visuelle qui brise la narration dans les formats sériels. Jusqu'ici, maintenir l'apparence d'un personnage entre plusieurs séquences générées par IA nécessitait un travail manuel fastidieux ou des compétences techniques avancées. Seedance 2.0 automatise ce processus, ce qui ouvre la création de storytelling long terme à des créateurs solo, sans budget de production. Pour les marques et les créateurs qui construisent une identité visuelle sur la plateforme, l'outil permet de standardiser un univers graphique cohérent à grande échelle, un avantage compétitif direct dans un environnement où l'attention se gagne en moins d'une seconde. Seedance s'inscrit dans une course effrénée entre les grandes plateformes et startups à proposer des générateurs vidéo IA crédibles : Sora d'OpenAI, Veo de Google, Kling, Runway ou encore Pika Labs occupent le même terrain. ByteDance, maison mère de TikTok, dispose d'un avantage structurel évident : sa connaissance intime des formats qui performent sur sa propre plateforme et l'accès à des données d'entraînement massives issues des millions de vidéos publiées chaque jour. La version 2.0 marque une montée en gamme délibérée vers les créateurs professionnels et semi-professionnels, avec un positionnement qui cherche à dépasser le statut d'outil expérimental pour devenir un composant réel du workflow de production. La question qui reste ouverte est celle des droits : à mesure que ces outils génèrent des personnages de plus en plus réalistes et persistants, les enjeux juridiques autour de la ressemblance, du consentement et de la propriété des identités numériques vont inévitablement s'intensifier.

UELes enjeux de consentement et de droits sur les personnages générés de manière persistante entrent directement en résonance avec l'AI Act européen et le RGPD sur le traitement des données biométriques.

CréationOutil
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
4MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour