Aller au contenu principal
Présentation du benchmark SWE-Lancer
RechercheOpenAI Blog70sem· 1 min de lecture

Présentation du benchmark SWE-Lancer

Source originale ↗·

Le benchmark SWE-Lancer vise à évaluer si les grands modèles linguistiques de pointe (LLMs) peuvent gagner un million de dollars en tant que freelances en ingénierie logicielle. L'étude met en évidence les capacités de compréhension et de génération de code des LLMs, en utilisant SWE-Lancer pour tester leur performance pratique.

Impact France/UE

Le benchmark SWE-Lancer évalue si les grands modèles linguistiques (LLMs) pourraient permettre aux ingénieurs français de gagner un million de dollars en freelance, en testant leurs capacités de compréhension et de génération de code, potentiellement révolutionnant le secteur des technologies logicielles en France.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Présentation de l'Éducation pour les Nations
1OpenAI Blog 

Présentation de l'Éducation pour les Nations

Initiative OpenAI: Edu for Countries aide les gouvernements à utiliser l'IA pour moderniser les systèmes éducatifs et préparer les futurs travailleurs. Fact-clés: - OpenAI lance Edu for Countries pour soutenir les gouvernements dans l'intégration de l'IA dans l'éducation. - Objectif: moderniser les systèmes éducatifs et former des travailleurs prêts pour l'avenir.

RechercheOutil
1 source
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
2Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
Présentation d'EVMbench
3OpenAI Blog 

Présentation d'EVMbench

OpenAI et Paradigm présentent EVMbench, un benchmark évaluant la capacité des agents d'IA à détecter, corriger et exploiter des vulnérabilités critiques dans les contrats intelligents. Ce test mesure l'efficacité des systèmes d'IA dans la gestion des failles de sécurité importantes dans ce domaine.

OutilsPaper
1 source
KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique
4arXiv cs.RO 

KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique

Une équipe de chercheurs en robotique vient de publier KinDER (Kinematic and Dynamic Embodied Reasoning), un nouveau benchmark conçu pour évaluer la capacité des systèmes robotiques à raisonner sur les contraintes physiques du monde réel. Présenté sur arXiv, le projet propose 25 environnements générés de façon procédurale, une bibliothèque Python compatible avec l'interface Gymnasium, et une suite d'évaluation standardisée incluant 13 méthodes de référence. Ces méthodes couvrent quatre grandes familles d'approches : la planification de tâches et de mouvements, l'apprentissage par imitation, le reinforcement learning et les systèmes basés sur des modèles de fondation comme les grands modèles de langage. Les environnements ciblent cinq défis spécifiques : les relations spatiales de base, la manipulation d'objets sans préhension directe, l'utilisation d'outils, les contraintes géométriques combinatoires et les contraintes dynamiques. Les résultats empiriques sont sans appel : les méthodes actuelles échouent sur une grande partie des environnements proposés, révélant des lacunes profondes dans la façon dont les robots comprennent et anticipent les interactions physiques. C'est un signal fort pour la communauté, car la plupart des benchmarks existants mélangent raisonnement physique, compréhension du langage et perception visuelle, rendant difficile l'identification précise des points de blocage. KinDER isole délibérément ces cinq dimensions pour mesurer séparément chaque capacité. Les chercheurs ont également mené des expériences de transfert simulation-réalité sur un robot manipulateur mobile, confirmant que les comportements observés en simulation correspondent bien à ceux du monde physique. La robotique souffre depuis longtemps d'un manque de benchmarks rigoureux et comparables entre paradigmes d'apprentissage. Le succès des grands modèles de langage a relancé l'intérêt pour les agents physiques capables de raisonner sur leur environnement, mais les outils d'évaluation n'ont pas suivi le rythme. KinDER vient combler ce vide en offrant un terrain de jeu commun, entièrement open-source, qui permet enfin de comparer équitablement des approches aussi différentes que le reinforcement learning classique et les modèles de fondation multimodaux. À mesure que la robotique généraliste monte en puissance, ce type d'infrastructure d'évaluation deviendra un outil central pour orienter les investissements de recherche et repérer les vrais progrès.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic