Aller au contenu principal
SmolVLA : Modèle efficace Vision-Langue-Action formé sur les données de la communauté Lerobot
LLMsHuggingFace Blog55sem· 1 min de lecture

SmolVLA : Modèle efficace Vision-Langue-Action formé sur les données de la communauté Lerobot

Source originale ↗·

SmolVLA est un modèle efficace Vision-Langue-Action (VLA) développé à l'aide des données recueillies par la communauté Lerobot. Ce modèle innovant combine la vision par ordinateur et le traitement du langage naturel pour interpréter et générer des descriptions décrivant des actions dans des vidéos.

Impact France/UE

HuggingFace, entreprise française, contribue à la démocratisation de la robotique ouverte en Europe avec SmolVLA, un modèle Vision-Langue-Action entraîné sur les données communautaires de son projet LeRobot.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens
1Pandaily 

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Ant Group, la filiale fintech du géant chinois Alibaba, a lancé Ling-2.6-Flash, un nouveau grand modèle de langage appartenant à sa série Ling. Le modèle repose sur une architecture à 104 milliards de paramètres au total, dont seulement 7,4 milliards sont activés lors de l'inférence, une approche dite MoE (Mixture of Experts) qui réduit considérablement la puissance de calcul nécessaire. Conçu comme un modèle optimisé pour les instructions, Ling-2.6-Flash mise sur ce qu'Ant Group appelle la "Token Efficiency" : délivrer des performances compétitives tout en étant plus rapide et moins coûteux que ses concurrents. Avant même son lancement officiel, une version anonyme du modèle, baptisée en interne "Elephant Alpha", avait été mise en ligne sur la plateforme OpenRouter. En quelques jours, elle s'est hissée en tête des modèles les plus utilisés, avec une consommation quotidienne d'environ 100 milliards de tokens et une croissance hebdomadaire dépassant les 5 000 %. L'adoption aussi rapide et aussi massive d'un modèle avant même son annonce officielle illustre l'appétit du marché pour des alternatives économiques aux LLMs dominants. Avec un tarif d'entrée fixé à 0,10 dollar par million de tokens en entrée et 0,30 dollar par million en sortie, Ling-2.6-Flash se positionne parmi les options les plus abordables du marché, directement en concurrence avec des modèles comme Gemini Flash de Google ou GPT-4o Mini d'OpenAI. L'API est désormais accessible publiquement, accompagnée d'une période d'essai gratuite d'une semaine. Pour les développeurs et les entreprises qui font tourner des applications à grande échelle, une telle structure tarifaire peut représenter des économies substantielles. Ce lancement s'inscrit dans une offensive plus large des acteurs technologiques chinois sur le marché mondial des LLMs. Après DeepSeek, qui avait créé la surprise début 2025 avec des modèles très compétitifs à bas coût, Ant Group entre à son tour dans la course avec une stratégie similaire : maximiser l'efficacité par dollar dépensé. La série Ling illustre la volonté du groupe de rivaliser au niveau international, au moment où la compétition entre fournisseurs de modèles s'intensifie et où la guerre des prix devient un argument commercial aussi décisif que les benchmarks de performance.

UELes développeurs et entreprises européens peuvent accéder dès maintenant à l'API Ling-2.6-Flash à 0,10 $/M tokens en entrée, une alternative économique potentiellement significative pour les applications à fort volume.

LLMsActu
1 source
Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI
2AWS ML Blog 

Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI

Azercell Telecom LLC, principal opérateur télécom d'Azerbaïdjan, a développé en six semaines un grand modèle de langage (LLM) en azerbaïdjanais sur la plateforme Amazon SageMaker AI, en partenariat avec le AWS Generative AI Innovation Center. L'objectif : doter l'entreprise d'un chatbot client et d'outils spécialisés pour les usages télécoms, en partant de zéro dans une langue pour laquelle aucun blueprint d'entraînement n'existait. Le cadre technique mis en place repose sur trois étapes séquentielles : la création d'un tokenizer sur mesure, un pré-entraînement continu à partir du modèle Llama 3.2 1B de Meta, puis un affinage supervisé via la méthode LoRA. Sur une instance ml.p5.48xlarge, les optimisations au niveau noyau permises par la bibliothèque Liger Kernels ont abouti à un débit d'entraînement supérieur de 23 % et une consommation mémoire GPU au pic réduite de 58 %. Le tokenizer azerbaïdjanais personnalisé, quant à lui, divise par deux le nombre de tokens nécessaires par mot, ce qui double concrètement la quantité de texte exploitable dans la fenêtre de contexte du modèle. Ces résultats illustrent un défi bien réel pour l'IA appliquée aux langues à faibles ressources : l'azerbaïdjanais est une langue agglutinante, dans laquelle un seul mot peut encoder des informations grammaticales qu'une phrase anglaise exprime par plusieurs mots distincts. Les tokenizers optimisés pour l'anglais fragmentent ces formes complexes de façon inefficace, dégradant les performances et augmentant les coûts de calcul. En construisant un tokenizer monolingue sur mesure, Azercell et AWS ont résolu ce problème structurel avant même de commencer l'entraînement proprement dit, ce qui améliore chacune des étapes suivantes. Pour les entreprises qui opèrent dans des marchés linguistiques non dominants, cette approche modulaire représente un modèle reproductible : chaque composant (tokenizer, pré-entraînement, affinage) peut être optimisé indépendamment et réutilisé sur des tâches différentes. Le projet s'inscrit dans un mouvement plus large de souveraineté linguistique numérique, alors que les LLM généralistes peinent à performer dans les dizaines de langues mal représentées dans leurs données d'entraînement. L'azerbaïdjanais partage des caractéristiques morphologiques avec le turc, le kazakh ou l'ouzbek, ce qui rend cette méthodologie potentiellement transférable à tout un ensemble de langues turcophones d'Asie centrale. Azercell prévoit de passer à des modèles de plus grande taille, pour lesquels l'entraînement distribué sur SageMaker deviendra indispensable, alors que le proof-of-concept actuel à 1 milliard de paramètres n'en avait pas encore besoin. La collaboration avec le AWS Generative AI Innovation Center suit un modèle désormais courant : un géant du cloud apporte l'ingénierie d'infrastructure, l'entreprise locale apporte la donnée et la connaissance métier, et le résultat est un actif IA propriétaire impossible à obtenir via un modèle généraliste.

UELa méthodologie de tokenizer sur mesure pour langues agglutinantes pourrait inspirer des initiatives similaires pour les langues régionales européennes sous-représentées (basque, hongrois, finnois), sans impact direct sur la France ou l'UE.

LLMsTuto
1 source
SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération
3Pandaily 

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

SenseTime a officiellement lancé et mis en open source le 29 avril 2026 sa série SenseNova U1, un modèle unifié natif combinant compréhension et génération multimodale. Développé sur l'architecture maison NEO-unify présentée en mars 2026, ce modèle intègre dans un cadre unique la compréhension, le raisonnement et la génération visuelle et textuelle. La série se décline en deux variantes légères : SenseNova-U1-8B-MoT, basé sur une architecture dense, et SenseNova-U1-A3B-MoT, reposant sur un mélange d'experts (MoE). Ce qui distingue fondamentalement SenseNova U1 des approches dominantes, c'est l'abandon des encodeurs visuels séparés (VE) et des autoencodeurs variationnels (VAE) traditionnellement empilés dans les modèles multimodaux. NEO-unify reconstruit à la place un espace de représentation unifié profondément intégré à chaque couche de calcul, traitant le langage et les entrées visuelles comme un ensemble composite cohérent. Ce choix architectural permet d'améliorer simultanément les capacités de compréhension et de génération, en préservant à la fois la richesse sémantique et la fidélité visuelle au niveau pixel. Le modèle affiche également de bonnes performances en raisonnement logique et en intelligence spatiale, notamment pour interpréter des environnements physiques complexes. SenseTime, géant chinois de la vision par ordinateur et de l'intelligence artificielle, positionne SenseNova U1 comme une brique fondatrice pour la robotique incarnée : l'objectif est qu'un seul modèle gère en boucle fermée la perception, le raisonnement et l'exécution de tâches physiques. Ce lancement s'inscrit dans une course mondiale à l'unification des modalités, où des acteurs comme Google DeepMind, Meta ou des startups chinoises cherchent à dépasser les architectures hybrides au profit de modèles natifs plus cohérents. La mise en open source de la version légère signal une stratégie d'adoption communautaire, tout en réservant probablement les versions plus puissantes à un usage commercial ou propriétaire.

UELa mise en open source de SenseNova U1 offre aux chercheurs et développeurs européens un accès à cette architecture unifiée novatrice, mais l'impact direct sur la France ou l'UE reste limité à court terme, SenseTime étant un acteur chinois sans ancrage réglementaire ou commercial européen significatif.

LLMsOpinion
1 source
4AWS ML Blog 

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow. L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production. Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

LLMsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic