Aller au contenu principal
Complément au système de carte mini o3 et o4: Codex
RechercheOpenAI Blog57sem· 1 min de lecture

Complément au système de carte mini o3 et o4: Codex

Source originale ↗·

Codex est un agent de codage basé sur le cloud, alimenté par codex-1, une version optimisée pour l'ingénierie logicielle de l'OpenAI o3. Codex-1 a été formé via l'apprentissage par renforcement sur des tâches de codage réelles dans diverses environnements pour produire du code semblable au style humain et aux préférences de PR, suivant précisément les instructions et exécutant des tests itérativement jusqu'à obtenir des résultats de réussite.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Système automatique de prévention des collisions au sol par apprentissage par renforcement
1arXiv cs.RO 

Système automatique de prévention des collisions au sol par apprentissage par renforcement

Des chercheurs ont publié sur arXiv une étude évaluant un système automatique d'évitement de collision avec le sol (AGCAS) basé sur l'intelligence artificielle et l'apprentissage par renforcement, conçu spécifiquement pour les avions d'entraînement avancés. Le système, développé pour répondre aux contraintes temporelles strictes du vol militaire, repose sur des requêtes de ligne de visée vers un serveur de terrain pour calculer en temps réel la trajectoire de récupération optimale. L'approche se distingue par sa capacité à fonctionner dans un espace d'observation limité, ce qui représente un défi technique majeur pour les systèmes embarqués soumis à des ressources de calcul contraintes. L'enjeu est directement opérationnel : les collisions avec le relief en vol dit CFIT (Controlled Flight Into Terrain) restent l'une des principales causes de pertes d'appareils militaires, y compris lors de phases d'entraînement. Un AGCAS efficace peut déclencher une manoeuvre de redressement automatique lorsque le pilote est incapacité, désorienté ou distrait, sans nécessiter d'intervention humaine. L'intégration de l'apprentissage par renforcement permet au système d'adapter ses décisions à des configurations de terrain variées et imprévues, là où les systèmes à règles fixes atteignent leurs limites. Pour les forces aériennes utilisant des jets d'entraînement avancés comme le T-38 ou des équivalents, une telle technologie pourrait réduire significativement les accidents évitables. Ce travail s'inscrit dans une tendance de fond : l'armée américaine et plusieurs agences de défense occidentales investissent massivement dans l'IA embarquée pour l'aviation militaire depuis plusieurs années, avec des programmes comme le DARPA Air Combat Evolution (ACE). L'AGCAS n'est pas un concept nouveau, la version traditionnelle équipe déjà certains F-16 de l'USAF, mais son adaptation par apprentissage par renforcement ouvre la voie à des systèmes plus génériques et adaptables. La prochaine étape sera de valider ces résultats en simulation haute-fidélité, puis potentiellement en vol réel, avant toute intégration sur des plateformes opérationnelles.

UELes armées de l'air européennes, dont l'armée de l'Air et de l'Espace française, pourraient s'appuyer sur ces travaux pour développer des systèmes anti-collision terrain plus adaptatifs sur leurs appareils d'entraînement militaires.

RecherchePaper
1 source
COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène
2arXiv cs.RO 

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Des chercheurs ont présenté COMPASS, un algorithme de localisation visuelle pour robots qui exploite les plans architecturaux comme référence spatiale. Là où les méthodes existantes se limitent à la géométrie des bâtiments, COMPASS extrait simultanément les informations sémantiques contenues dans ces plans, murs, fenêtres, ouvertures, pour estimer avec précision la position et l'orientation d'un robot équipé de deux caméras fisheye. L'algorithme construit un descripteur radial à cinq canaux, inspiré du "scan context" utilisé en LiDAR, en projetant 360 rayons autour d'une position et en encodant pour chacun : la distance normalisée, le type d'obstacle rencontré, le gradient de distance, la distance inverse, et la variance locale. Cette représentation compacte est générée à la fois depuis le plan et depuis les images caméra, afin de les comparer directement. L'intérêt concret de cette approche tient à sa frugalité : les plans de bâtiments sont des ressources universellement disponibles, contrairement aux cartes 3D denses ou aux nuages de points LiDAR qui nécessitent une infrastructure coûteuse. En associant un simple plan d'étage à des caméras fisheye grand angle, COMPASS ouvre la voie à une localisation précise dans des environnements intérieurs sans déploiement de capteurs spécialisés. Les applications visées sont nombreuses : robots de livraison, assistants en milieu hospitalier, drones d'inspection, ou systèmes de navigation pour personnes malvoyantes. Le projet en est encore au stade de preuve de concept, validée sur le dataset Hilti-Trimble SLAM Challenge 2026 : les auteurs ont démontré que les signatures visuelles extraites de la première image de chaque caméra correspondent bien aux descripteurs issus du plan, confirmant la faisabilité du matching cross-modal. La prochaine étape consiste à étendre la détection d'éléments structurels au-delà des seules fenêtres, à intégrer la fusion des deux caméras fisheye, et à tester la localisation en conditions réelles sur des trajectoires complètes, un défi technique majeur qui conditionnera l'utilité pratique de la méthode.

RecherchePaper
1 source
Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?
3VentureBeat AI 

Les agents uniques surpassent souvent les systèmes multi-agents : êtes-vous victime de cette complexité inutile ?

Des chercheurs de l'université de Stanford ont publié une étude qui remet en cause l'un des dogmes les plus répandus dans le développement IA en entreprise : l'idée que les systèmes multi-agents seraient intrinsèquement supérieurs aux architectures à agent unique pour les tâches complexes. Menée par Dat Tran et Douwe Kiela, la recherche a soumis les deux types d'architectures à des tâches de raisonnement en chaîne ("multi-hop reasoning"), c'est-à-dire des problèmes nécessitant de relier plusieurs informations disparates pour parvenir à une conclusion. Le protocole clé : imposer un budget identique de "tokens de réflexion", les tokens utilisés exclusivement pour le raisonnement intermédiaire, hors prompt initial et réponse finale. Résultat : dans la majorité des cas, un agent unique dispose du même budget surpasse ou égale un système multi-agents. L'enjeu est considérable pour les équipes d'ingénierie qui investissent massivement dans des architectures complexes. Les systèmes multi-agents, qu'il s'agisse d'agents planificateurs, de systèmes en débat ou d'essaims de modèles, génèrent des traces de raisonnement plus longues et multiplient les appels LLM, consommant mécaniquement davantage de ressources. Le problème soulevé par Stanford est que la plupart des comparaisons publiées jusqu'ici n'étaient pas à budget égal : les gains affichés par le multi-agent reflétaient souvent une simple dépense de calcul supplémentaire, et non un avantage architectural réel. Autrement dit, les entreprises pourraient payer une "taxe essaim" sans bénéfice net. La seule situation où le multi-agent conserve un avantage légitime est celle où le contexte d'un agent unique devient trop long ou corrompu, atteignant une limite physique. Pour aller plus loin, les chercheurs ont introduit une technique baptisée SAS-L (single-agent system with longer thinking), conçue pour corriger un comportement fréquent : les agents uniques abandonnent parfois leur raisonnement interne prématurément, laissant du budget de calcul inexploité. La solution proposée est purement structurelle, sans surcoût architectural : reformuler le prompt pour encourager explicitement le modèle à dépenser son budget disponible en analyse pré-réponse, en identifiant les ambiguïtés et les hypothèses intermédiaires avant de conclure. Cette approche s'inscrit dans une tendance de fond qui pousse le domaine à reconsidérer la complexité comme valeur en soi. Alors que les frameworks multi-agents prolifèrent et que les coûts d'inférence restent élevés, Stanford offre un argument empirique solide pour privilégier la simplicité, et ne recourir à l'orchestration multi-agents qu'une fois le plafond de l'agent unique véritablement atteint.

UELes équipes d'ingénierie en France et en Europe qui déploient des systèmes multi-agents peuvent directement réduire leurs coûts d'inférence en simplifiant leurs architectures, en s'appuyant sur les conclusions empiriques de cette étude pour justifier ce choix en interne.

RecherchePaper
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
4VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic