Aller au contenu principal
Meta AI lance Sapiens2 : un modèle de vision haute résolution centré sur l'humain
RechercheMarkTechPost1h

Meta AI lance Sapiens2 : un modèle de vision haute résolution centré sur l'humain

1 source couvre ce sujet·Source originale ↗·

Meta AI a publié Sapiens2, la deuxième génération de son modèle de vision centré sur les humains, entraîné sur un milliard d'images humaines baptisé Humans-1B. Le modèle existe en quatre tailles allant de 0,4 milliard à 5 milliards de paramètres, opère nativement en résolution 1K et dispose de variantes hiérarchiques capables de traiter des images en 4K. La version à 5 milliards de paramètres est, selon l'équipe de recherche, le transformeur de vision le plus lourd jamais publié avec 15,722 téraflops. Sapiens2 couvre simultanément plusieurs tâches : estimation de pose, segmentation, calcul des normales de surface, reconstruction de la géométrie (pointmap) et estimation de l'albédo, c'est-à-dire la couleur vraie d'une surface indépendamment de l'éclairage. Ces résultats sont décrits dans un article préimprimé mis en ligne fin avril 2026 sur arXiv.

L'intérêt de Sapiens2 réside dans sa capacité à traiter la complexité du corps humain à grande échelle, là où les modèles généralistes échouent régulièrement. Distinguer les doigts d'une main, les dents des gencives, ou encore reconstituer la couleur de peau réelle sous un éclairage complexe sont des tâches que les approches classiques gèrent mal. En combinant deux objectifs d'entraînement complémentaires, un apprentissage par masquage (MAE) pour conserver la fidélité des détails fins, et un apprentissage contrastif basé sur une architecture étudiant-professeur dérivée de DINOv3 pour structurer les représentations sémantiques, Meta a résolu un problème que les chercheurs appellent la dérive de représentation : les méthodes contrastives seules effacent des indices d'apparence critiques comme le teint ou les conditions lumineuses, rendant certaines tâches photoréalistes impossibles. L'équipe a contourné ce problème en n'appliquant pas les augmentations de couleur sur les vues globales utilisées pour l'objectif MAE.

Le premier Sapiens, sorti en 2024, reposait uniquement sur le préentraînement MAE, une approche efficace pour les détails de texture mais limitée sur le plan sémantique. Pour construire Humans-1B, Meta est parti d'un pool web d'environ 4 milliards d'images, puis a appliqué un pipeline de filtrage en plusieurs étapes incluant détection de boîtes englobantes, estimation de pose de la tête, scores d'esthétique et de réalisme, filtrage par CLIP et détection de texte superposé. La déduplication a été réalisée par hachage perceptuel et élagage par plus proche voisin en espace de features profondes, avant un rééchantillonnage par clusters pour équilibrer poses, occlusions, types de vêtements et conditions d'éclairage. Pour la résolution 4K, l'équipe a adopté une attention locale par fenêtres dans les premières couches du transformeur, permettant de capturer textures fines et contours sans exploser le coût de calcul quadratique de l'attention globale. Sapiens2 positionne Meta comme acteur sérieux dans la vision humaine haute résolution, un domaine stratégique pour la réalité augmentée, le gaming, et les interfaces corporelles.

Dans nos dossiers

À lire aussi

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle
1arXiv cs.RO 

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Une équipe de recherche présente Hi-WM (Human-in-the-World-Model), un cadre de post-entraînement pour politiques robotiques généralisées, publié sur arXiv (2604.21741). L'approche remplace l'exécution physique par un modèle du monde appris : la politique est d'abord déroulée en boucle fermée dans ce simulateur interne, et lorsqu'une trajectoire devient incorrecte ou risquée, un opérateur humain intervient directement dans le modèle pour fournir des actions correctives courtes. Hi-WM met en cache les états intermédiaires et supporte le rollback et le branchement, ce qui permet de réutiliser un seul état d'échec pour générer plusieurs continuations correctives distinctes. Les trajectoires ainsi produites sont réinjectées dans le jeu d'entraînement. Évalué sur trois tâches de manipulation réelle (objets rigides et déformables) avec deux architectures de politique différentes, le système affiche un gain de 37,9 points en taux de succès réel par rapport à la politique de base, et de 19,0 points par rapport à une ligne de base en boucle fermée dans le modèle du monde. La corrélation entre les évaluations dans le modèle et les performances réelles atteint r = 0,953. Ce résultat adresse un goulot d'étranglement structurel du déploiement robotique : le post-entraînement actuel exige du temps robot, des resets de scène, une supervision opérateur en continu, autant de contraintes qui rendent la correction itérative coûteuse à l'échelle. En décorrélant la phase corrective de l'exécution physique, Hi-WM densifie la supervision précisément là où la politique échoue, sans mobiliser le matériel. La forte corrélation sim-to-real (r > 0,95) est notable : elle suggère que le modèle du monde est suffisamment fidèle pour qualifier les politiques avant déploiement, ce qui contredit en partie l'hypothèse que l'évaluation dans le modèle reste trop éloignée des conditions réelles pour être exploitable. Les modèles du monde conditionnés sur les actions sont étudiés depuis plusieurs années principalement pour la génération de données synthétiques et l'évaluation de politiques, notamment dans les travaux autour des VLA (Vision-Language-Action models) et des politiques généralisées comme celles portées par Physical Intelligence (Pi-0) ou les recherches internes de Google DeepMind. Hi-WM repositionne ces modèles comme substrat correctif actif, une troisième fonction jusqu'ici peu explorée. Les suites naturelles incluent l'extension à des tâches de locomotion, la réduction du coût de construction du modèle du monde, et l'intégration dans des pipelines de fine-tuning continu pour robots déployés en environnement industriel variable.

RechercheOpinion
1 source
Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain
2Le Big Data 

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Meta a présenté le 26 mars 2026 TRIBE v2 (Trimodal Brain Encoder), un modèle d'intelligence artificielle open source capable de prédire l'activité cérébrale humaine en réponse à une image, un son ou un texte. Entraîné sur plus de 500 heures d'enregistrements IRM fonctionnelle issus de plus de 700 participants, le modèle simule l'activation de près de 70 000 voxels cérébraux — des unités tridimensionnelles qui traduisent les variations de flux sanguin dans le cerveau. Son architecture repose sur trois étages : des encodeurs spécialisés par modalité (V-JEPA pour la vision, Wav2Vec2-BERT pour l'audio, Llama 3.x pour le texte), un module Transformer qui aligne ces signaux dans le temps pour tenir compte du délai entre perception et activation cérébrale, puis une couche de projection qui produit une carte prédictive des activations. Les performances annoncées sont deux à trois fois supérieures aux approches antérieures, et le modèle fonctionne en zero-shot : il prédit l'activité d'un nouveau sujet sans recalibrage individuel préalable, ce qui est rare dans ce domaine. Cette capacité de généralisation change la donne pour la recherche en neurosciences cognitives. Jusqu'ici, tout travail d'exploration cérébrale exigeait un accès à un scanner IRM, une infrastructure lourde et coûteuse. TRIBE v2 ouvre la possibilité de simuler des réponses cérébrales à grande échelle, à partir de n'importe quel contenu numérique, sans contrainte matérielle. Pour les chercheurs en perception sensorielle, en troubles cognitifs ou en interfaces cerveau-machine, cela représente un accélérateur potentiel considérable. Dans l'industrie, le modèle pourrait être utilisé pour évaluer l'impact attentionnel d'un contenu publicitaire, d'une interface ou d'un environnement sonore — des applications qui posent déjà des questions éthiques sur l'usage de modèles prédictifs du comportement cérébral. TRIBE v2 s'inscrit dans une trajectoire entamée avec la première version du modèle, qui avait remporté l'Algonauts 2025 Brain Encoding Challenge, une compétition internationale de référence sur la prédiction de l'activité cérébrale. Meta franchit ici une étape qualitative en passant d'un modèle sujet-spécifique à un modèle généraliste, capable de capturer des régularités cérébrales communes à travers une population large et diversifiée. La décision de publier TRIBE v2 en open source reflète la stratégie globale de Meta AI en matière de recherche fondamentale : rendre les outils disponibles à la communauté scientifique pour accélérer l'adoption et positionner l'entreprise comme acteur central de l'IA cognitive. Reste à voir comment la communauté s'emparera de ces capacités, et quels garde-fous encadreront des usages potentiellement intrusifs de la modélisation cérébrale prédictive.

UELes chercheurs européens en neurosciences cognitives peuvent accéder librement à TRIBE v2 pour simuler des réponses cérébrales à grande échelle sans infrastructure IRM, ouvrant de nouvelles perspectives pour la recherche sur les troubles cognitifs et les interfaces cerveau-machine.

💬 Le zero-shot sur des prédictions d'activité cérébrale, c'est le truc qui m'impressionne ici, pas la com' de Meta. Jusqu'ici, tout modèle de ce genre demandait un recalibrage par sujet, une IRM, une infra complète — là, tu balances un contenu, le modèle te sort une carte d'activation sans scanner. La question c'est pas si la recherche en neurosciences va s'en emparer, c'est si les équipes pub' vont l'utiliser avant elles.

RecherchePaper
1 source
Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA
3MarkTechPost 

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper
1 source
Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises
4MarkTechPost 

Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises

Les équipes de recherche de Meta AI ont présenté EUPE (Efficient Universal Perception Encoder), une famille d'encodeurs visuels compacts de moins de 100 millions de paramètres capables de rivaliser avec des modèles spécialisés sur des tâches variées : classification d'images, segmentation dense, et questions-réponses visuelles. La publication, disponible sur arXiv sous la référence 2503.22387, expose une approche radicalement différente des méthodes existantes, notamment face à AM-RADIO et RADIOv2.5, les références actuelles en distillation multi-enseignants. Là où RADIOv2.5-B, sa variante à l'échelle ViT-B, accuse des écarts notables face aux experts de domaine sur les tâches denses, EUPE parvient à combler ces lacunes dans un format adapté aux appareils embarqués comme les smartphones ou les casques de réalité augmentée. L'enjeu est concret : déployer plusieurs encodeurs spécialisés en parallèle sur un appareil mobile est trop coûteux en calcul, mais n'en déployer qu'un seul signifie accepter des performances dégradées sur la plupart des tâches. EUPE change cette équation. Un seul modèle léger peut désormais gérer simultanément la compréhension visuelle globale, la détection de structures spatiales précises au niveau du pixel, et l'interaction avec des systèmes de langage visuel. Pour les développeurs d'applications mobiles, les fabricants de dispositifs AR ou les ingénieurs travaillant sur des pipelines d'IA embarquée, cela représente un gain substantiel en ressources sans sacrifice de polyvalence. La difficulté centrale que résout EUPE tient à un problème de capacité. Les modèles comme CLIP, SigLIP 2, DINOv2 ou SAM ont chacun été entraînés avec des objectifs distincts : paires texte-image pour les premiers, apprentissage auto-supervisé structurel pour le second, segmentation massive pour le troisième. Les tentatives précédentes de fusionner ces expertises par distillation agglomérative, où un modèle étudiant imite plusieurs enseignants spécialistes simultanément, donnaient de bons résultats sur de grands encodeurs dépassant 300 millions de paramètres, mais échouaient sur les architectures efficientes. La solution proposée par Meta suit un principe en deux temps : agrandir d'abord, puis réduire. Un modèle intermédiaire de grande taille absorbe les représentations des différents enseignants, avant d'être distillé à son tour dans l'encodeur compact final. Cette étape intermédiaire fournit au petit modèle une représentation unifiée et déjà réconciliée, plutôt qu'une collection brute de signaux contradictoires. La publication positionne EUPE comme une brique fondamentale pour la prochaine génération d'IA on-device, dans un contexte où Apple, Google et Qualcomm intensifient également leurs efforts pour faire tourner des modèles multimodaux directement sur le matériel utilisateur.

💬 Le problème des encodeurs visuels embarqués, c'est exactement ça : soit tu empiles plusieurs spécialistes et ça explose ton budget calcul, soit tu fais des compromis douloureux. L'approche "agrandir puis distiller" de Meta est maline, parce qu'elle donne au petit modèle une représentation déjà digérée plutôt que de lui coller des signaux contradictoires à réconcilier lui-même. Reste à voir ce que ça donne sur du vrai hardware, pas juste sur les benchmarks arXiv.

RecherchePaper
1 source