Données d'affinage supervisé avec NVIDIA Open-SWE-Traces : trajectoires, patches, budgets de tokens et métriques d'outils
NVIDIA a publié Open-SWE-Traces, un jeu de données disponible sur Hugging Face regroupant des trajectoires complètes d'agents IA en train de résoudre des tâches de programmation logicielle. Un tutoriel détaillé, publié récemment, guide les praticiens à travers l'exploitation de ce corpus pour construire des données d'entraînement supervisé. Le pipeline décrit charge les données en streaming depuis Hugging Face pour éviter un téléchargement complet, inspecte les enregistrements individuels, normalise les conversations multi-tours entre agents et environnements, extrait les patches de code produits, et génère un DataFrame analytique. Les agents étudiés sont OpenHands et SWE-Agent, fonctionnant sur des modèles comme Qwen 3.5 122B et Minimax M25, avec un filtre de 32 000 tokens maximum par trajectoire retenue pour le fine-tuning.
Ce travail répond à un besoin concret de l'industrie : entraîner des agents capables de résoudre des bugs et d'écrire du code de manière autonome, un segment en pleine effervescence depuis l'émergence des coding agents. Les trajectoires retenues pour le fine-tuning supervisé ne conservent que les épisodes marqués comme résolus avec succès, disposant d'un patch valide et respectant les contraintes de longueur en tokens. Cette approche de filtrage qualité est directement applicable à la création de modèles spécialisés en ingénierie logicielle, et les métriques extraites, taux de résolution, distribution des langages, taille des patches, fréquence des appels d'outils, permettent de diagnostiquer quelles trajectoires produisent réellement des agents fiables plutôt que des agents qui semblent fonctionner.
Open-SWE-Traces s'inscrit dans une dynamique plus large autour des benchmarks de coding agents, notamment SWE-bench, qui évalue la capacité des modèles à corriger des bugs issus de vrais dépôts GitHub. NVIDIA positionne ce dataset comme une ressource ouverte pour accélérer la recherche sur les agents logiciels, dans un contexte où les grandes entreprises comme Anthropic, Google et OpenAI rivalisent sur la capacité de leurs modèles à automatiser des tâches de développement. La disponibilité de trajectoires brutes avec métadonnées détaillées, rôles des messages, appels d'outils, résultats d'exécution, est rare et précieuse : la plupart des corpus publics existants ne livrent que les entrées et sorties finales, sans le raisonnement intermédiaire de l'agent. La prochaine étape naturelle pour les équipes qui s'en emparent sera d'utiliser ce fine-tuning supervisé comme point de départ avant un entraînement par renforcement, suivant la trajectoire désormais établie par des modèles comme DeepSeek-R1.
Les équipes européennes de recherche et les startups travaillant sur les agents de code peuvent exploiter directement ce dataset hébergé sur HuggingFace pour accélérer leurs travaux de fine-tuning supervisé, sans coût d'accès supplémentaire.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




