BalCapRL : un cadre équilibré pour le sous-titrage d'images par apprentissage par renforcement dans les MLLM
Des chercheurs ont présenté BalCapRL, un nouveau cadre d'entraînement par apprentissage par renforcement (RL) conçu pour améliorer la génération automatique de légendes d'images par les grands modèles de langage multimodaux (MLLM). Face aux limites des méthodes RL existantes, BalCapRL cherche à équilibrer plusieurs dimensions de qualité simultanément dans la description d'images, une tâche considérée comme fondamentale en vision par ordinateur et qui a gagné en importance avec l'essor des MLLM.
Les approches RL actuelles pour la génération de légendes souffrent d'un défaut structurel : en optimisant une métrique unique orientée utilité, elles produisent des descriptions trop longues, bruitées ou carrément hallucinées. Ces travers ont des conséquences concrètes pour les applications industrielles qui dépendent de légendes fiables, comme l'accessibilité numérique, l'indexation d'images ou les moteurs de recherche visuelle. BalCapRL propose un cadre plus équilibré qui préserve plusieurs critères de qualité en même temps, évitant les compromis indésirables qu'introduisent les métriques d'évaluation trop étroites.
La génération de légendes d'images a connu un regain d'intérêt avec l'essor de modèles comme GPT-4V, LLaVA ou Gemini, capables de décrire des scènes visuelles en langage naturel. L'application du RL à ces modèles, popularisée par les travaux sur le RLHF dans les LLM textuels, est devenue une piste prometteuse mais difficile à maîtriser. BalCapRL s'inscrit dans cette dynamique en cherchant à corriger les biais induits par des objectifs d'optimisation trop réducteurs, un enjeu central pour l'alignement des modèles multimodaux à mesure qu'ils s'imposent dans les usages professionnels.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




