RechercheOpenAI Blog63sem

Présentation du benchmark SWE-Lancer

Résumé IASource uniqueImpact UE

Le benchmark SWE-Lancer vise à évaluer si les grands modèles linguistiques de pointe (LLMs) peuvent gagner un million de dollars en tant que freelances en ingénierie logicielle. L'étude met en évidence les capacités de compréhension et de génération de code des LLMs, en utilisant SWE-Lancer pour tester leur performance pratique.

Impact France/UE

Le benchmark SWE-Lancer évalue si les grands modèles linguistiques (LLMs) pourraient permettre aux ingénieurs français de gagner un million de dollars en freelance, en testant leurs capacités de compréhension et de génération de code, potentiellement révolutionnant le secteur des technologies logicielles en France.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1OpenAI Blog

Présentation de l'Éducation pour les Nations

Initiative OpenAI: Edu for Countries aide les gouvernements à utiliser l'IA pour moderniser les systèmes éducatifs et préparer les futurs travailleurs. Fact-clés: - OpenAI lance Edu for Countries pour soutenir les gouvernements dans l'intégration de l'IA dans l'éducation. - Objectif: moderniser les systèmes éducatifs et former des travailleurs prêts pour l'avenir.

RechercheOutil

1 source

2OpenAI Blog

Présentation de la recherche d'achat dans ChatGPT

ChatGPT intègre désormais une fonction de recherche shopping permettant d'explorer, comparer et découvrir des produits grâce à des guides d'achat personnalisés. Cette fonction simplifie les prises de décision en offrant des recommandations adaptées aux besoins des utilisateurs.

UEL'intégration d'une fonction shopping dans ChatGPT représente une menace concurrentielle pour les acteurs européens du e-commerce et du comparateur de prix, qui risquent de perdre du trafic au profit d'OpenAI.

RechercheOutil

1 source

3Microsoft Research

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper

1 source

4OpenAI Blog

Présentation d'EVMbench

OpenAI et Paradigm présentent EVMbench, un benchmark évaluant la capacité des agents d'IA à détecter, corriger et exploiter des vulnérabilités critiques dans les contrats intelligents. Ce test mesure l'efficacité des systèmes d'IA dans la gestion des failles de sécurité importantes dans ce domaine.

OutilsPaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour