Aller au contenu principal
RechercheThe Decoder2h

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles

1 source couvre ce sujet·Source originale ↗·

Une équipe de chercheurs a développé Know3D, une méthode qui permet de contrôler l'apparence du dos des objets 3D générés à partir d'une seule image, en utilisant de simples commandes textuelles. Le système exploite les connaissances du monde réel encodées dans les grands modèles de langage pour inférer et diriger ce qui doit apparaître sur les faces cachées d'un objet tridimensionnel, sans que l'utilisateur ait besoin de fournir d'autres références visuelles.

Cette avancée s'attaque à l'un des angles morts les plus persistants de la génération 3D à partir d'une image unique : la reconstruction des zones non visibles. Jusqu'ici, les modèles généraient ces faces cachées de manière aléatoire ou incohérente, produisant des objets 3D inutilisables en production professionnelle. Avec Know3D, un designer peut écrire une instruction comme "dos plat avec texture bois" pour obtenir un résultat cohérent et maîtrisé, ce qui ouvre des perspectives concrètes pour la création de contenus dans les jeux vidéo, la réalité augmentée et le commerce en ligne.

La génération 3D à partir d'une image reste un problème ouvert très actif en recherche, avec des acteurs comme Stability AI, Luma AI ou encore des équipes académiques qui multiplient les approches concurrentes. L'originalité de Know3D réside dans le recours aux LLM non pas pour générer du texte, mais comme base de connaissance spatiale et sémantique sur la forme des objets du monde réel. Si les résultats se confirment sur des géométries complexes, cette technique pourrait s'intégrer rapidement dans les pipelines de création 3D assistée par IA déjà en cours de déploiement dans l'industrie.

À lire aussi

1MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source
TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
2MarkTechPost 

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv. Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites ` et ` — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène. La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

UELes poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

RecherchePaper
1 source
Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic
3Le Big Data 

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper
1 source
L'IA d'un jeune professionnel détecte des troubles de santé mentale
4IEEE Spectrum AI 

L'IA d'un jeune professionnel détecte des troubles de santé mentale

Abhishek Appaji, professeur associé en ingénierie de l'électronique médicale au B.M.S. College of Engineering de Bengaluru, en Inde, vient d'être désigné lauréat du prix IEEE Theodore W. Hissey Outstanding Young Professional Award 2026, qui sera remis ce mois-ci lors de la cérémonie IEEE Honors à New York. Membre senior de l'IEEE, ce chercheur de 36 ans a consacré sa carrière au développement d'outils diagnostiques alimentés par l'intelligence artificielle destinés aux communautés les moins bien desservies. Parmi ses réalisations déployées dans des zones reculées de l'Inde figurent une machine d'analyse rétinienne capable de détecter diverses pathologies, ainsi qu'un lit connecté surveillant en continu les constantes vitales des patients. Il est également co-fondateur de Glucotek, une startup basée à Brisbane, en Australie, née d'un bootcamp entrepreneurial au MIT en 2017, dont l'objectif initial était de mettre au point un dispositif non invasif de mesure de la glycémie pour gérer le diabète gestationnel. L'impact de ses travaux dépasse largement le cadre académique. En ciblant délibérément les populations éloignées des grands centres hospitaliers, Appaji cherche à combler le fossé entre innovation technologique et accès aux soins. Ses outils permettent à des médecins généralistes ou à du personnel paramédical de réaliser des diagnostics qui nécessitaient auparavant des équipements coûteux ou des spécialistes absents de ces régions. Sa thèse de doctorat, soutenue à l'Université de Maastricht aux Pays-Bas et portant sur les méthodes computationnelles d'analyse des vaisseaux rétiniens, ouvre une piste diagnostique particulièrement prometteuse : les altérations microvasculaires visibles dans la rétine refléteraient les changements neurovasculaires associés à des troubles psychiatriques comme la schizophrénie ou le trouble bipolaire, offrant potentiellement un moyen de dépistage non invasif de ces conditions. Le parcours d'Appaji illustre une tendance de fond dans la recherche en santé numérique : l'exploitation de l'IA et du deep learning pour transformer des signaux biologiques subtils en outils diagnostiques accessibles et précis. Formé en Inde avant de passer par le MIT et Maastricht, il incarne le profil du chercheur-entrepreneur capable de faire le pont entre laboratoire et marché. Son engagement bénévole au sein de l'IEEE Young Professionals Bangalore Section, où il a mis en place des programmes de mentorat et des ateliers technologiques, témoigne d'une vision plus large : former la prochaine génération d'ingénieurs à produire un impact concret. Alors que les systèmes de santé des pays à revenus intermédiaires cherchent à intégrer l'IA sans exploser leurs budgets, les approches développées par Appaji pourraient servir de modèle pour une médecine de précision véritablement inclusive.

RecherchePaper
1 source