
KERV : décodage spéculatif à correction cinématique pour modèles VLA incarnés
Des chercheurs ont publié KERV (Kinematic-Rectified Speculative Decoding), un nouveau cadre d'optimisation destiné à accélérer les modèles Vision-Language-Action (VLA) utilisés pour le contrôle robotique. Ces modèles VLA, qui pilotent les robots en générant des séquences de tokens représentant des actions, souffrent d'une vitesse d'inférence trop faible pour de nombreuses applications en temps réel. L'approche proposée combine la technique de décodage spéculatif (Speculative Decoding, SD) avec des prédictions issues de la cinématique robotique, permettant d'atteindre une accélération de 27 à 37 % selon les tâches, sans perte mesurable du taux de succès.
Le décodage spéculatif, déjà éprouvé pour les grands modèles de langage, pose deux problèmes spécifiques lorsqu'on l'applique aux VLA : d'une part, la correction des erreurs de tokens implique des re-inférences coûteuses en calcul ; d'autre part, régler le seuil d'acceptation des tokens est délicat et sensible au contexte. KERV résout ces deux obstacles en intégrant un filtre de Kalman basé sur la cinématique, qui prédit les actions futures et corrige les erreurs du décodage spéculatif sans recourir à ces re-inférences. Une stratégie d'ajustement dynamique du seuil d'acceptation, également fondée sur la cinématique, vient compléter le dispositif pour s'adapter automatiquement aux conditions d'exécution.
Cette contribution s'inscrit dans une tendance de fond : la robotique incarnée (embodied intelligence) cherche à réduire l'écart entre les capacités de raisonnement des IA génératives et les contraintes du monde physique, notamment la latence. Les modèles VLA, en plein essor depuis les travaux de Google et Physical Intelligence sur des architectures comme RT-2 ou pi0, sont prometteurs mais trop lents pour des robots opérant dans des environnements dynamiques. En greffant la physique du mouvement sur l'inférence neuronale, KERV ouvre une voie pragmatique vers des robots plus réactifs, sans nécessiter de refonte architecturale majeure, un atout décisif pour le déploiement industriel à court terme.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




