
Meta AI lance Sapiens2 : un modèle de vision haute résolution centré sur l'humain
Meta AI a publié Sapiens2, la deuxième génération de son modèle de vision centré sur les humains, entraîné sur un milliard d'images humaines baptisé Humans-1B. Le modèle existe en quatre tailles allant de 0,4 milliard à 5 milliards de paramètres, opère nativement en résolution 1K et dispose de variantes hiérarchiques capables de traiter des images en 4K. La version à 5 milliards de paramètres est, selon l'équipe de recherche, le transformeur de vision le plus lourd jamais publié avec 15,722 téraflops. Sapiens2 couvre simultanément plusieurs tâches : estimation de pose, segmentation, calcul des normales de surface, reconstruction de la géométrie (pointmap) et estimation de l'albédo, c'est-à-dire la couleur vraie d'une surface indépendamment de l'éclairage. Ces résultats sont décrits dans un article préimprimé mis en ligne fin avril 2026 sur arXiv.
L'intérêt de Sapiens2 réside dans sa capacité à traiter la complexité du corps humain à grande échelle, là où les modèles généralistes échouent régulièrement. Distinguer les doigts d'une main, les dents des gencives, ou encore reconstituer la couleur de peau réelle sous un éclairage complexe sont des tâches que les approches classiques gèrent mal. En combinant deux objectifs d'entraînement complémentaires, un apprentissage par masquage (MAE) pour conserver la fidélité des détails fins, et un apprentissage contrastif basé sur une architecture étudiant-professeur dérivée de DINOv3 pour structurer les représentations sémantiques, Meta a résolu un problème que les chercheurs appellent la dérive de représentation : les méthodes contrastives seules effacent des indices d'apparence critiques comme le teint ou les conditions lumineuses, rendant certaines tâches photoréalistes impossibles. L'équipe a contourné ce problème en n'appliquant pas les augmentations de couleur sur les vues globales utilisées pour l'objectif MAE.
Le premier Sapiens, sorti en 2024, reposait uniquement sur le préentraînement MAE, une approche efficace pour les détails de texture mais limitée sur le plan sémantique. Pour construire Humans-1B, Meta est parti d'un pool web d'environ 4 milliards d'images, puis a appliqué un pipeline de filtrage en plusieurs étapes incluant détection de boîtes englobantes, estimation de pose de la tête, scores d'esthétique et de réalisme, filtrage par CLIP et détection de texte superposé. La déduplication a été réalisée par hachage perceptuel et élagage par plus proche voisin en espace de features profondes, avant un rééchantillonnage par clusters pour équilibrer poses, occlusions, types de vêtements et conditions d'éclairage. Pour la résolution 4K, l'équipe a adopté une attention locale par fenêtres dans les premières couches du transformeur, permettant de capturer textures fines et contours sans exploser le coût de calcul quadratique de l'attention globale. Sapiens2 positionne Meta comme acteur sérieux dans la vision humaine haute résolution, un domaine stratégique pour la réalité augmentée, le gaming, et les interfaces corporelles.
Dans nos dossiers




