Aller au contenu principal
Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles
RechercheThe Decoder13sem· 1 min de lecture

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles

Source originale ↗·

Une équipe de chercheurs a développé Know3D, une méthode qui permet de contrôler l'apparence du dos des objets 3D générés à partir d'une seule image, en utilisant de simples commandes textuelles. Le système exploite les connaissances du monde réel encodées dans les grands modèles de langage pour inférer et diriger ce qui doit apparaître sur les faces cachées d'un objet tridimensionnel, sans que l'utilisateur ait besoin de fournir d'autres références visuelles.

Cette avancée s'attaque à l'un des angles morts les plus persistants de la génération 3D à partir d'une image unique : la reconstruction des zones non visibles. Jusqu'ici, les modèles généraient ces faces cachées de manière aléatoire ou incohérente, produisant des objets 3D inutilisables en production professionnelle. Avec Know3D, un designer peut écrire une instruction comme "dos plat avec texture bois" pour obtenir un résultat cohérent et maîtrisé, ce qui ouvre des perspectives concrètes pour la création de contenus dans les jeux vidéo, la réalité augmentée et le commerce en ligne.

La génération 3D à partir d'une image reste un problème ouvert très actif en recherche, avec des acteurs comme Stability AI, Luma AI ou encore des équipes académiques qui multiplient les approches concurrentes. L'originalité de Know3D réside dans le recours aux LLM non pas pour générer du texte, mais comme base de connaissance spatiale et sémantique sur la forme des objets du monde réel. Si les résultats se confirment sur des géométries complexes, cette technique pourrait s'intégrer rapidement dans les pipelines de création 3D assistée par IA déjà en cours de déploiement dans l'industrie.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision
1VentureBeat AI 

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Une équipe de chercheurs issue de six institutions américaines, NYU, Columbia, Princeton, l'Université du Maryland, Harvard et le Lawrence Livermore National Laboratory, a publié cette semaine un article présentant les Latent Context Language Models (LCLMs), une nouvelle famille de modèles encodeur-décodeur capables de compresser le contexte d'entrée avant qu'il n'atteigne le décodeur. Résultat : une réduction du contexte jusqu'à 16 fois, avec des sorties générées 8,8 fois plus rapidement que les méthodes actuelles de référence sur le benchmark RULER. À un taux de compression de 4x, la précision atteint 91,76 % contre 94,41 % sans compression, soit moins de 3 points de perte pour diviser la taille du contexte par quatre. À 16x, où 93,75 % des tokens d'entrée sont supprimés, la précision descend à 75,06 %, mais surpasse encore toutes les méthodes de compression KV cache testées au même ratio. L'architecture repose sur un encodeur de 0,6 milliard de paramètres couplé à un décodeur de 4 milliards, entraîné sur plus de 350 milliards de tokens. Les modèles sont disponibles en open source sur HuggingFace. Ce travail s'attaque à un goulot d'étranglement croissant dans les systèmes d'IA en production : plus un agent fonctionne longtemps, plus il accumule de tokens issus de documents récupérés, de traces de raisonnement et d'historique de conversation, et plus la mémoire et le calcul nécessaires explosent. Contrairement aux méthodes de compression KV cache dominantes, qui chargent quand même le cache complet avant d'en supprimer des entrées, les LCLMs compriment la séquence de tokens en amont, ce qui réduit directement la charge côté décodeur. « Notre objectif était d'entraîner des modèles de bout en bout capables de gérer des contextes très longs de manière efficace et précise. Si vous y parvenez, tout devient moins cher et plus rapide », explique Micah Goldblum, co-responsable du projet et chercheur à Columbia. Les gains se confirment aussi sur des entrées courtes : sur GSM8K, un benchmark de problèmes mathématiques, les LCLMs surpassent toutes les autres méthodes testées, quel que soit le taux de compression. La compression de contexte n'est pas un problème nouveau, mais la plupart des solutions existantes souffrent d'un compromis rédhibitoire en production : soit elles dégradent trop la précision, soit les économies de mémoire ne se traduisent pas en gains de vitesse réels dans les infrastructures de déploiement standard. Les LCLMs sont conçus pour s'intégrer directement dans une architecture agentique existante, il suffit de faire passer les documents récupérés par le compresseur avant de les injecter dans le contexte du modèle. L'équipe a également démontré comment construire des agents capables de décompresser sélectivement les passages pertinents, à la manière d'un lecteur qui parcourt rapidement un texte avant de zoomer sur les détails utiles. Avec la montée en puissance des systèmes d'agents longs et des pipelines RAG à grande échelle, ce type de compression en amont pourrait devenir une brique technique incontournable pour maîtriser les coûts d'inférence.

UELes startups et entreprises européennes développant des agents IA ou des pipelines RAG pourraient bénéficier indirectement de cette technique open source pour réduire leurs coûts d'inférence sans impact spécifique à la France ou à l'UE.

💬 Moins de 3 points de précision pour diviser le contexte par 4, c'est le compromis qu'on attendait pour que ça tienne en prod. Ce qui tranche avec les approches KV cache, c'est que la compression se fait en amont du décodeur : les gains se traduisent en vitesse réelle, pas juste en mémoire sur le papier. Si tu fais du RAG ou de l'agentique, ça vaut le détour sur HuggingFace cette semaine.

RecherchePaper
1 source
De la scène à l'objet : prédiction du double regard guidée par le texte
2arXiv cs.RO 

De la scène à l'objet : prédiction du double regard guidée par le texte

Des chercheurs ont présenté DualGaze-VLM, un nouveau cadre d'apprentissage automatique conçu pour prédire avec précision où un conducteur dirige son regard, non plus à l'échelle de la scène globale, mais objet par objet. Pour entraîner ce système, l'équipe a constitué G-W3DA, un jeu de données inédit qui décompose les traditionnelles cartes de chaleur macroscopiques en masques d'objets distincts, grâce à la combinaison d'un grand modèle de langage multimodal et de SAM3 (Segment Anything Model 3). Soumis au benchmark W3DA, DualGaze-VLM dépasse les meilleurs modèles existants sur les métriques d'alignement spatial, avec jusqu'à 17,8 % de gain en similarité (SIM) dans les situations critiques pour la sécurité. Un test de Turing visuel complémentaire révèle que 88,22 % des évaluateurs humains ont jugé les cartes d'attention générées indiscernables de celles produites par de vrais conducteurs. Cette avancée s'attaque à un verrou fondamental de la conduite autonome : pour qu'un véhicule prenne des décisions humainement compréhensibles, il ne suffit pas de détecter des objets, il faut modéliser l'intention cognitive du conducteur. Savoir que le système "regarde" un piéton précis plutôt qu'une zone floue de la chaussée permet de justifier une décision de freinage ou d'évitement de façon auditable. C'est un enjeu direct pour la sécurité, la certification réglementaire et la confiance des passagers dans les systèmes autonomes de niveau 3 et au-delà. Le problème central que résout cet article est celui du "découplage texte-vision" : les modèles vision-langage existants peinent à ancrer leur raisonnement sémantique sur des zones spatiales précises lorsque les données d'entraînement ne fournissent que des annotations globales. L'architecture DualGaze-VLM contourne cela via un module SE-Gate conditionné par les requêtes sémantiques, qui module dynamiquement les features visuelles. Cette approche s'inscrit dans une tendance de fond où les grands modèles multimodaux sont progressivement intégrés aux pipelines de perception automobile, une direction suivie de près par des acteurs comme Waymo, Tesla et les laboratoires universitaires qui alimentent les roadmaps réglementaires de l'UE sur l'IA embarquée.

UELes progrès en modélisation du regard conducteur objet par objet alimentent directement les exigences de certification réglementaire de l'UE pour les systèmes autonomes de niveau 3, un enjeu central des roadmaps européennes sur l'IA embarquée.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
3arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
4Import AI 

Import AI 453 : failles dans les agents IA, MirrorCode et dix perspectives sur la perte progressive de contrôle

METR et Epoch AI, deux organisations spécialisées dans la mesure des capacités de l'IA, ont publié MirrorCode, un benchmark inédit conçu pour évaluer la capacité des modèles à réimplémenter de manière autonome des logiciels complexes existants. Le principe est simple mais exigeant : l'agent IA reçoit un accès en exécution seule à un programme en ligne de commande, ainsi qu'un ensemble de tests visibles, mais sans accès au code source original. Il doit ensuite reproduire fidèlement le comportement du programme. Le benchmark couvre plus de 20 programmes cibles dans des domaines variés : utilitaires Unix, outils de sérialisation de données, bioinformatique, interpréteurs, analyse statique, cryptographie et compression. Le résultat le plus frappant : Claude Opus 4.6 a réussi à réimplémenter gotree, un toolkit de bioinformatique représentant environ 16 000 lignes de code Go et plus de 40 commandes, une tâche qu'un ingénieur humain sans assistance IA aurait mis entre 2 et 17 semaines à accomplir. Ces résultats suggèrent que les systèmes d'IA actuels ont déjà atteint, sur certaines tâches précises, le niveau d'un développeur expérimenté travaillant à plein temps. La capacité à rétro-ingénierer un logiciel complexe en se basant uniquement sur ses sorties est un exercice que seule une fraction des programmeurs humains pourrait réaliser, et en y consacrant plusieurs jours. MirrorCode documente aussi un phénomène important : les performances s'améliorent avec la puissance de calcul allouée à l'inférence, ce qui signifie que des projets encore hors de portée aujourd'hui pourraient devenir accessibles en augmentant simplement les ressources. Pour les entreprises tech, cela redéfinit concrètement ce qu'un agent IA peut accomplir en autonomie sur des projets de longue haleine, bien au-delà de la simple complétion de code. Ce benchmark s'inscrit dans un effort plus large pour mesurer précisément les capacités réelles des grands modèles de langage, souvent sous-estimées ou surestimées selon les contextes. METR, connue pour ses évaluations d'autonomie des agents IA, et Epoch AI, spécialisée dans les tendances de progression du domaine, combinent ici leurs expertises pour produire une méthodologie plus proche des scénarios professionnels réels. Les auteurs soulignent eux-mêmes les limites : les programmes ciblés produisent des sorties canoniques facilitant la vérification, certains résultats sur les programmes simples pourraient s'expliquer par de la mémorisation, et le benchmark ne couvre qu'une fraction de l'univers logiciel. Néanmoins, la trajectoire est claire : à mesure que les modèles progressent et que les budgets de calcul augmentent, la frontière entre ce qu'un agent IA peut faire seul et ce qui nécessite un humain continue de se déplacer rapidement.

UELes équipes de développement logiciel en France et en Europe doivent réévaluer leurs processus d'ingénierie face à des agents IA capables de réimplémenter des projets complexes de manière autonome, redéfinissant le périmètre et la valeur du travail des développeurs.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic