Aller au contenu principal
Accélérer l'agent Qwen3-8B sur Intel® Core™ Ultra avec des modèles draft affinés en profondeur
RobotiqueHuggingFace Blog31sem

Accélérer l'agent Qwen3-8B sur Intel® Core™ Ultra avec des modèles draft affinés en profondeur

Résumé IASource uniqueImpact UE
Source originale ↗·

L'article discute de l'amélioration des performances de l'agent Qwen3-8B sur les processeurs Intel® Core™ Ultra en utilisant des modèles pré-entraînés "depth-pruned". Ces modèles réduits permettent une inference plus rapide sans compromettre significativement la précision. Des résultats montrent une amélioration de 1.5x à 2.2x pour les modèles de langage et de 1.2x à 1.9x pour les modèles multimodaux, par rapport aux modèles non prunés.

Impact France/UE

L'optimisation des modèles AI Qwen3-8B pour les processeurs Intel® Core™ Ultra améliore les performances des applications de traitement du langage naturel et multimodales, bénéficiant potentiellement des entreprises européennes comme STMicroelectronics (fabricant de semi-conducteurs) et Micron Technology (fabricant de mémoire), tout en renforçant la conformité avec l'AI Act en optimisant l'efficacité énergétique et réduisant les coûts de calcul.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

En Pratique: Évaluation des Agents Utilisant des Outils dans des Environnements du Monde Réel avec OpenEnv
1HuggingFace Blog 

En Pratique: Évaluation des Agents Utilisant des Outils dans des Environnements du Monde Réel avec OpenEnv

OpenEnv, un cadre de simulation, a été utilisé pour évaluer l'efficacité des agents utilisateurs d'outils dans des environnements réels. Les chercheurs ont testé diverses stratégies d'agents dans des scénarios inspirés de la vie réelle, montrant une amélioration significative des performances grâce à l'adaptation et à l'apprentissage. Des exemples concrets incluent la navigation dans des espaces complexes et la manipulation d'objets pour résoudre des tâches, avec des agents démontrant une capacité à s'adapter à des changements imprévus.

UEL'utilisation d'OpenEnv pour évaluer les agents utilisateurs d'outils renforce l'efficacité des entreprises européennes dans le développement de robots autonomes et d'IA, en améliorant les capacités d'adaptation et d'apprentissage dans des environnements réels, en conformité potentielle avec l'AI Act et le RGPD pour les applications industrielles et domestiques.

RobotiqueOutil
1 source
Modèles VLA : éviter le verrouillage et préserver le contrôle lors de l'affinage avec peu de données
2arXiv cs.RO 

Modèles VLA : éviter le verrouillage et préserver le contrôle lors de l'affinage avec peu de données

Des chercheurs ont publié sur arXiv un article présentant DeLock, une méthode destinée à résoudre un problème concret rencontré lors de l'entraînement de politiques robotiques dites "vision-langage-action" (VLA). Ces modèles, conçus pour contrôler des robots en combinant perception visuelle et instructions en langage naturel, perdent leur capacité à généraliser dès qu'on les affine sur un petit jeu de données. Le phénomène, baptisé "lock-in", se manifeste sous deux formes : le concept lock-in, où le modèle se fixe sur les objets ou attributs vus à l'entraînement, et le spatial lock-in, où il se cantonne aux positions spatiales rencontrées durant la phase de fine-tuning. DeLock combine la préservation de l'ancrage visuel pendant le post-entraînement avec un guidage contrastif appliqué au moment de l'inférence pour orienter dynamiquement la génération d'actions selon de nouvelles instructions. Sur huit évaluations en simulation et en conditions réelles, il surpasse les méthodes concurrentes et égale ou dépasse les performances d'une politique généraliste entraînée sur un volume de données nettement plus important. Ce résultat est particulièrement significatif pour les équipes qui développent des robots polyvalents avec des budgets de données limités. Jusqu'ici, récupérer la généralisation perdue après un fine-tuning minimal exigeait soit des signaux de supervision supplémentaires issus de modèles fondationnels, soit des jeux de données augmentés, deux ressources coûteuses à produire. DeLock montre qu'il est inutile de chercher ailleurs : la connaissance pré-entraînée du modèle suffit, à condition de ne pas l'écraser pendant l'adaptation. Pour les développeurs d'applications robotiques industrielles ou domestiques, cela ouvre la voie à des déploiements spécialisés beaucoup plus accessibles, sans sacrifier la flexibilité face à des ordres inédits. Le lock-in illustre une tension fondamentale en apprentissage automatique entre spécialisation et généralisation, particulièrement aiguë en robotique où collecter des démonstrations physiques est lent et onéreux. Les grandes politiques VLA généralistes comme OpenVLA ou pi0 ont montré que l'entraînement à grande échelle produit des agents capables de suivre des instructions variées, mais leur adaptation à des tâches précises reste fragile. DeLock s'inscrit dans un courant de recherche cherchant à rendre ces modèles à la fois spécialisables et robustes, une propriété indispensable si l'on veut déployer des robots utiles dans des environnements réels et changeants.

RobotiqueOpinion
1 source
RL Token : amorcer le renforcement en ligne avec des modèles vision-langage-action
3arXiv cs.RO 

RL Token : amorcer le renforcement en ligne avec des modèles vision-langage-action

Des chercheurs ont publié sur arXiv une méthode baptisée RL Token (RLT) qui permet d'affiner en temps réel des modèles de vision-langage-action (VLA) pour la robotique, en seulement quelques heures de pratique sur des robots physiques. Ces modèles VLA sont capables d'apprendre des tâches de manipulation variées "out of the box", mais ils manquent de précision et de rapidité pour les exigences industrielles réelles. L'approche RLT repose sur deux mécanismes : elle adapte le VLA pour exposer un "RL token", une représentation compacte qui préserve les connaissances préentraînées tout en servant d'interface légère pour l'apprentissage par renforcement (RL), puis entraîne une petite tête acteur-critique sur ce token pour affiner les actions. La méthode a été validée sur quatre tâches réelles : vissage, fixation de colliers de serrage, insertion de chargeur et branchement de câble Ethernet. Les résultats sont frappants. Sur les parties les plus difficiles de chaque tâche, RLT améliore la vitesse d'exécution jusqu'à un facteur 3 et augmente significativement les taux de réussite en quelques minutes à quelques heures d'entraînement. Sur certaines tâches, le robot dépasse même la vitesse d'un opérateur humain en télé-opération. Ce niveau de performance, obtenu avec un temps de pratique aussi court, représente un saut qualitatif pour le déploiement de robots polyvalents dans des environnements industriels ou logistiques, où la précision des gestes répétitifs est critique. L'enjeu sous-jacent est la montée en maturité des modèles fondationnels pour la robotique. Si des systèmes comme RT-2, OpenVLA ou Pi-0 ont démontré qu'un modèle généraliste pouvait piloter un robot sur des tâches diverses, l'adaptation fine à un contexte spécifique restait coûteuse en données et en temps de calcul. RLT attaque précisément ce goulot d'étranglement en rendant le RL online praticable même sur de très grands VLAs, sans repartir de zéro. La course à des robots industriellement viables s'accélère, et cette approche pourrait devenir une brique standard du pipeline de déploiement pour des acteurs comme Figure, Physical Intelligence ou les équipes robotique de Google DeepMind.

RobotiquePaper
1 source
Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive
4MarkTechPost 

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour