Aller au contenu principal
Gemini peut désormais accéder à Google Photos pour générer des images personnalisées
CréationThe Verge AI1h

Gemini peut désormais accéder à Google Photos pour générer des images personnalisées

3 sources couvrent ce sujet·Source originale ↗·

Google a déployé une nouvelle fonctionnalité pour son assistant Gemini, lui permettant désormais de puiser dans les données de Google Photos pour générer des images personnalisées. Baptisée "Personal Intelligence", cette intégration s'appuie sur le modèle de génération d'images Nano Banana 2 et donne accès au contenu des applications Google connectées au compte de l'utilisateur. Concrètement, des requêtes comme "Dessine ma maison de rêve" ou "Crée une image de mes essentiels sur une île déserte" produisent des visuels automatiquement adaptés aux goûts et au style de vie de la personne, selon Google dans son billet de blog officiel.

L'impact est significatif pour les utilisateurs de l'écosystème Google : pour la première fois, un assistant IA grand public génère des images non pas à partir d'une description textuelle abstraite, mais à partir de données réelles et personnelles. Le système analyse les étiquettes et métadonnées présentes dans Google Photos pour identifier l'utilisateur, ses proches et ses habitudes visuelles. Cela transforme Gemini d'un générateur d'images générique en un outil de création véritablement contextualisé.

Cette fonctionnalité s'inscrit dans la stratégie plus large de Google visant à différencier Gemini face à des concurrents comme ChatGPT ou Claude, en exploitant son avantage unique : une base d'utilisateurs déjà massivement ancrée dans ses services. L'accès aux données personnelles pour alimenter l'IA soulève néanmoins des questions de confidentialité que Google devra adresser, notamment dans le contexte réglementaire européen où de telles pratiques font l'objet d'une surveillance accrue.

Impact France/UE

L'utilisation de données personnelles (Google Photos) pour alimenter la génération d'images soulève des questions de conformité au RGPD et pourrait attirer l'attention des autorités de protection des données européennes, notamment la CNIL.

À lire aussi

Vous avez aimé HappyHorse ? Happy Oyster prépare quelque chose d’encore plus fou
1Le Big Data 

Vous avez aimé HappyHorse ? Happy Oyster prépare quelque chose d’encore plus fou

Alibaba Group a officialisé ce jeudi 16 avril 2026 le lancement de Happy Oyster, son nouveau modèle d'intelligence artificielle dédié à la création de mondes 3D interactifs en temps réel. Ce système, développé par Alibaba ATH, succède directement à HappyHorse, le modèle vidéo du groupe qui avait attiré l'attention ces dernières semaines pour ses capacités de génération vidéo à partir de texte et d'images. Contrairement à son prédécesseur, Happy Oyster ne produit pas de simples séquences vidéo linéaires : il construit des environnements tridimensionnels navigables que l'utilisateur peut explorer librement, comme s'il se déplaçait dans un décor numérique. L'API de HappyHorse-1.0, qui a servi de fondation technique à ce nouveau système, doit quant à elle être rendue publique dès le 30 avril prochain. L'impact de cette annonce dépasse le cadre d'une simple mise à jour technologique. Happy Oyster cible explicitement les industries du cinéma, des séries et du jeu vidéo, en proposant aux créateurs un outil capable de générer des environnements complets et dynamiques sans passer par les pipelines de production 3D traditionnels. La frontière entre vidéo générée, moteur de jeu et expérience immersive s'efface : les contenus ne se regardent plus passivement, ils se parcourent. Pour les studios indépendants ou les développeurs solo, cela représente un saut de productivité potentiellement considérable, en réduisant le temps et le coût nécessaires à la création de scènes complexes. Cette sortie s'inscrit dans une bataille technologique intense entre les géants technologiques chinois sur le terrain de la vidéo générative. Le même jour, Tencent dévoilait HY-World 2.0, un système lui aussi orienté vers la création interactive, mais avec une philosophie différente : là où Alibaba mise sur une génération vidéo bout en bout fluide et directement exploitable, Tencent privilégie la production d'éléments 3D modulaires, modifiables de manière isolée. Ces deux approches opposées illustrent la maturité croissante d'un marché chinois de l'IA vidéo qui cherche désormais à dépasser la simple génération de clips pour s'imposer dans la création de mondes numériques entiers. Alibaba, en annonçant simultanément l'ouverture prochaine de son API, signale clairement sa volonté de construire un écosystème de développeurs autour de ses modèles, accélérant ainsi leur adoption industrielle.

UEImpact indirect pour les studios de cinéma et développeurs de jeux vidéo européens, qui pourraient adopter ces outils génératifs 3D dès l'ouverture de l'API HappyHorse-1.0 le 30 avril.

CréationActu
1 source
Netflix VOID AI : l’open source pour réécrire vos vidéos
2Le Big Data 

Netflix VOID AI : l’open source pour réécrire vos vidéos

Netflix a publié en 2026 un outil open source baptisé VOID AI, pour Video Object and Interaction Deletion, capable de supprimer des éléments d'une vidéo tout en recalculant automatiquement les interactions physiques qui en découlent. Là où les logiciels de montage traditionnels se contentaient de "boucher" les zones supprimées avec des pixels voisins, VOID adopte une approche radicalement différente : si une main tenant un verre est effacée, le verre tombe. Si une voiture est retirée d'une scène de collision, la trajectoire des autres véhicules est recalculée. L'outil s'appuie sur des modèles de diffusion vidéo, notamment CogVideoX, et sur un système de masquage précis pour isoler l'objet cible sans contaminer le reste de l'image. Lumières, ombres et perspectives se mettent à jour de façon cohérente, sans intervention manuelle. Ce niveau de précision représente un saut qualitatif majeur pour les professionnels de la post-production. Jusqu'ici, effacer un élément en mouvement dans une séquence complexe pouvait mobiliser des heures de travail manuel, avec des résultats souvent imparfaits sur les zones à fort déplacement. VOID automatise ce processus en intégrant ce que Netflix appelle la "simulation contrefactuelle" : l'IA ne se demande pas seulement à quoi ressemble la scène sans l'objet, mais à quoi elle aurait ressemblé si cet objet n'avait jamais existé. Pour les studios, les créateurs indépendants ou les équipes de post-production, cela signifie des délais réduits et une liberté créative élargie, à condition de disposer d'une machine suffisamment puissante pour faire tourner l'outil. Le raisonnement causal au cœur de VOID ne relève pas de la magie algorithmique mais d'un entraînement rigoureux sur des données physiques synthétiques, générées notamment via Blender et inspirées de bases de données visuelles complexes. Netflix positionne cet outil dans la continuité de ses investissements en recherche appliquée, un domaine où le groupe rivalise désormais avec les grands laboratoires académiques et les éditeurs de logiciels professionnels comme Adobe ou DaVinci Resolve. En publiant VOID en open source, la plateforme fait le choix de l'écosystème plutôt que de la rétention technologique, une stratégie qui lui permet d'accélérer l'adoption, d'attirer des contributions externes et de s'imposer comme référence dans un segment en pleine expansion. Les suites possibles incluent une intégration dans des pipelines de production existants et, à terme, des applications grand public pour l'édition vidéo assistée par IA.

UELes studios de post-production français et européens peuvent adopter directement cet outil open source pour réduire les délais et coûts de montage vidéo complexe.

CréationOutil
1 source
Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !
3Le Big Data 

Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !

Tencent a publié le 16 avril 2026 HY-World 2.0, un modèle d'intelligence artificielle open source capable de générer des environnements 3D interactifs complets à partir d'un simple texte, d'une image ou d'une vidéo. Le processus prend environ 712 secondes, soit moins de douze minutes, en exploitant des GPU NVIDIA H20. Le modèle repose sur une chaîne de quatre modules spécialisés : HY-Pano 2.0 convertit le point de départ en panorama sphérique à 360 degrés, WorldNav planifie jusqu'à 35 trajectoires de caméra pour explorer l'espace sans collision, WorldStereo 2.0 génère de nouvelles vues pour combler les angles morts, et WorldMirror 2.0 reconstruit la scène finale en 3D Gaussian Splatting. L'algorithme MaskGaussian réduit le volume des données de 73,7 % en éliminant les points superflus, sans dégrader la qualité visuelle, maintenant un PSNR de 25.017. Les scènes exportées sont directement compatibles avec Unity et Unreal Engine, et incluent la détection de collisions pour la robotique. Tencent publie les poids, le code et le rapport technique en accès libre. Cette publication change concrètement l'accès à la génération de mondes 3D, jusqu'ici réservée à des équipes disposant de ressources considérables. Un développeur de jeu indépendant, un studio de simulation ou une équipe de robotique peut désormais produire un environnement 3D explorable en moins d'un quart d'heure, sans pipeline propriétaire ni licence coûteuse. Le fait que les exports soient nativement compatibles avec les deux moteurs de jeu dominants du marché supprime une étape d'intégration habituellement chronophage. Pour la robotique incarnée, la possibilité de générer des environnements de simulation physiquement cohérents à la demande ouvre des perspectives importantes pour l'entraînement d'agents autonomes à moindre coût. HY-World 2.0 arrive dans un contexte de compétition intense autour des "world models", ces systèmes capables de simuler des environnements physiquement plausibles. Google DeepMind a présenté Genie 3, qui adopte une approche par génération vidéo, tandis que World Labs de Fei-Fei Li a lancé Marble, solution entièrement fermée. Tencent choisit délibérément l'open source pour s'imposer comme référence de la recherche et attirer la communauté des développeurs, une stratégie déjà utilisée avec la série Hunyuan sur la génération d'images et de vidéos. L'enjeu dépasse le jeu vidéo : les world models sont considérés comme une brique fondamentale pour entraîner des robots et des agents IA capables d'agir dans le monde réel. En rendant HY-World 2.0 librement accessible, Tencent accélère la diffusion de cette technologie et complique la position des acteurs qui misaient sur la fermeture de leurs systèmes comme avantage concurrentiel.

UELes studios indépendants et équipes de robotique français et européens peuvent désormais générer des environnements 3D professionnels gratuitement, réduisant leur dépendance aux solutions propriétaires coûteuses.

💬 12 minutes pour un monde 3D explorable, exportable direct dans Unity ou Unreal, open source. Ce qui est intéressant ici, c'est pas la performance technique (solide, mais la concurrence existe), c'est que Tencent lâche tout en public pile au moment où World Labs joue la carte du fermé, le même coup qu'avec Hunyuan. Un studio indé peut démarrer avec ça demain, sans débourser un centime.

CréationOpinion
1 source
Fruit Love Island : quand l’IA réinvente la téléréalité et l’absurde
4Le Big Data 

Fruit Love Island : quand l’IA réinvente la téléréalité et l’absurde

En avril 2026, une série de téléréalité entièrement générée par intelligence artificielle est devenue l'un des phénomènes viraux les plus commentés du moment. Fruit Love Island, diffusée sur le compte TikTok @ai.cinema021, met en scène des fruits anthropomorphisés, Strawberina la fraise volcanique, Bananito le séducteur, Kiwilo le sarcastique, vivant des drames sentimentaux dignes des plus grandes émissions de téléréalité. En moins de dix jours, la série a conquis 3,3 millions d'abonnés et cumulé des centaines de millions de vues. Le contenu est produit sans acteurs ni caméras : la cohérence visuelle des personnages est assurée par le modèle Gemini 3 Flash Image (dit Nano Banana 2), les scènes d'action et interactions physiques sont animées par Veo, le modèle vidéo haute fidélité de Google, et l'ambiance sonore, musiques, voix synthétiques, dialogues multilingues, est entièrement générée par Lyria 3. Le succès de Fruit Love Island illustre une rupture dans l'économie de l'attention numérique. En projetant les codes éculés de la téléréalité sur des objets inanimés, la série crée un décalage qui interrompt le défilement machinal et retient le spectateur. L'absurde devient ici un outil de rétention redoutable : une banane infidèle ou une fraise en crise génèrent plus d'engagement que bien des fictions classiques. Les épisodes de 60 à 120 secondes s'adaptent parfaitement aux cerveaux saturés d'informations de la Gen Alpha, qui plébiscite l'esthétique Skibidi Tentafruit, chaos visuel, montage nerveux, musiques algorithmiques. La localisation mondiale instantanée permise par Lyria 3, capable de retranscrire émotions et spécificités culturelles dans de nombreuses langues, donne à la série une portée globale qu'aucune production traditionnelle ne pourrait atteindre à ce coût et cette vitesse. Ce phénomène révèle aussi quelque chose de plus profond sur notre rapport à l'émotion et à la narration. L'anthropomorphisme des fruits contourne habilement la "vallée de l'étrange" : là où un humain synthétique nous dérange par ses imperfections, un ananas ou une fraise nous attendrit sans résistance, permettant un lien affectif immédiat. Cette découverte n'est pas anodine pour l'industrie du divertissement, elle suggère que l'émotion dépend moins du réalisme biologique que d'une structure narrative efficace. Fruit Love Island marque ainsi une étape dans le divertissement automatisé : pour la première fois, un contenu 100 % IA atteint une résonance mondiale comparable aux grandes franchises traditionnelles, avec une chaîne de production entièrement pilotée par des modèles génératifs. Les studios, les plateformes et les créateurs indépendants observent le phénomène de très près.

CréationOpinion
1 source