SmolVLA : Modèle efficace Vision-Langue-Action formé sur les données de la communauté Lerobot
SmolVLA est un modèle efficace Vision-Langue-Action (VLA) développé à l'aide des données recueillies par la communauté Lerobot. Ce modèle innovant combine la vision par ordinateur et le traitement du langage naturel pour interpréter et générer des descriptions décrivant des actions dans des vidéos.
HuggingFace, entreprise française, contribue à la démocratisation de la robotique ouverte en Europe avec SmolVLA, un modèle Vision-Langue-Action entraîné sur les données communautaires de son projet LeRobot.