Aller au contenu principal
Nouveau navigateur web: une plateforme d'évaluation pour les agents de navigation
RobotiqueOpenAI Blog62sem· 1 min de lecture

Nouveau navigateur web: une plateforme d'évaluation pour les agents de navigation

Source originale ↗·

BrowseComp est un ensemble de tests destiné à évaluer les agents de navigation, permettant de mesurer leurs performances en termes d'efficacité et de précision lors de la recherche d'informations sur Internet. Il comprend plusieurs scénarios et tâches variés pour tester les capacités des systèmes d'IA dans la navigation et la compréhension des contenus en ligne.

Impact France/UE

BrowseComp offre aux développeurs européens, y compris en France, un outil standardisé pour améliorer les agents de navigation, conforme aux exigences du AI Act, en garantissant une navigation plus efficace et précise pour les utilisateurs, tout en respectant les normes de protection des données personnelles du RGPD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

En Pratique: Évaluation des Agents Utilisant des Outils dans des Environnements du Monde Réel avec OpenEnv
1HuggingFace Blog 

En Pratique: Évaluation des Agents Utilisant des Outils dans des Environnements du Monde Réel avec OpenEnv

OpenEnv, un cadre de simulation, a été utilisé pour évaluer l'efficacité des agents utilisateurs d'outils dans des environnements réels. Les chercheurs ont testé diverses stratégies d'agents dans des scénarios inspirés de la vie réelle, montrant une amélioration significative des performances grâce à l'adaptation et à l'apprentissage. Des exemples concrets incluent la navigation dans des espaces complexes et la manipulation d'objets pour résoudre des tâches, avec des agents démontrant une capacité à s'adapter à des changements imprévus.

UEL'utilisation d'OpenEnv pour évaluer les agents utilisateurs d'outils renforce l'efficacité des entreprises européennes dans le développement de robots autonomes et d'IA, en améliorant les capacités d'adaptation et d'apprentissage dans des environnements réels, en conformité potentielle avec l'AI Act et le RGPD pour les applications industrielles et domestiques.

RobotiqueOutil
1 source
Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes
2arXiv cs.RO 

Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes

AgibotTech a publié Genie Sim 3.0, une plateforme de simulation unifiée destinée à l'apprentissage de la manipulation robotique. Son composant central, le Genie Sim Generator, utilise un grand modèle de langage (LLM) pour construire automatiquement des environnements 3D haute fidélité à partir de simples instructions en langage naturel. La plateforme intègre également le premier benchmark de robotique dont l'évaluation est entièrement automatisée par LLM : il génère en masse des scénarios de test, puis s'appuie sur un modèle vision-langage (VLM) pour noter les performances des robots sans intervention humaine. AgibotTech publie simultanément un jeu de données open source de plus de 10 000 heures de données synthétiques couvrant plus de 200 tâches distinctes, accessible sur GitHub. L'enjeu central est le fossé entre simulation et monde réel, le fameux problème du "sim-to-real transfer", qui freine depuis des années le déploiement à grande échelle des robots apprenants. Collecter des données dans le monde physique coûte extrêmement cher et se heurte à des contraintes de passage à l'échelle quasi insurmontables. Genie Sim 3.0 démontre expérimentalement que ses données synthétiques permettent un transfert "zéro-shot" vers le monde réel, c'est-à-dire que des politiques de contrôle entraînées uniquement en simulation fonctionnent directement sur des robots physiques, sans phase d'adaptation supplémentaire. Pour les laboratoires de robotique et les startups du secteur, cela ouvre la possibilité de produire des volumes de données d'entraînement plusieurs ordres de grandeur supérieurs à ce qu'autorise la réalité physique, à une fraction du coût. Cette publication s'inscrit dans une course mondiale à la robotique humanoïde impliquant des acteurs comme Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus. L'un des goulots d'étranglement communs à tous est précisément la rareté des données d'entraînement de qualité et la fragmentation des benchmarks, chaque laboratoire travaillant dans son propre silo de simulation. En proposant une plateforme ouverte, un dataset massif et une procédure d'évaluation standardisée et automatisée, AgibotTech tente de poser une infrastructure commune au champ. La prochaine étape sera de vérifier si ce transfert zéro-shot tient dans des conditions moins contrôlées, avec des objets, des éclairages et des configurations inédits.

UELes laboratoires de robotique et startups européens peuvent accéder librement aux 10 000 heures de données synthétiques sur GitHub pour accélérer leurs recherches sur le transfert sim-to-réel, sans avoir à produire ces données coûteusement en conditions réelles.

💬 Le fossé sim-to-real, c'est le mur sur lequel tous les labos de robotique se cognent depuis des années. Que des données purement synthétiques suffisent à piloter du vrai métal sans phase d'adaptation, c'est la promesse qu'on attendait vraiment. Reste à voir si ça tient avec des objets imprévus, un mauvais éclairage, le vrai bazar du monde réel.

RobotiqueActu
1 source
Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle
3MarkTechPost 

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Genesis AI a lancé Genesis World 1.0, une plateforme de simulation conçue pour accélérer le développement des modèles de fondation en robotique. La suite se compose de quatre éléments : un moteur physique, Nyx (un moteur de rendu par lancer de rayons en temps réel), Quadrants (un compilateur Python vers GPU), et une interface de simulation. Le problème que tente de résoudre cette plateforme est concret : évaluer une politique robotique sur une centaine de tâches avec plusieurs centaines d'épisodes chacune nécessite normalement plus de 200 heures de fonctionnement continu avec un opérateur humain et un seul robot. Genesis World 1.0 ramène cette même évaluation à moins de 30 minutes, sans intervention humaine ni matériel physique, avec une reproductibilité bit à bit des résultats. C'est un gain d'environ deux ordres de grandeur sur le temps de cycle d'évaluation. Ce bond de performance change fondamentalement la manière dont les équipes de recherche peuvent comparer des variantes de modèles. Jusqu'ici, la lenteur de l'évaluation réelle obligeait à faire des choix brutaux sur le nombre de checkpoints testés, biaisant de facto les décisions de développement. Genesis AI a délibérément choisi d'utiliser la simulation pour l'évaluation avant de l'utiliser pour la génération de données d'entraînement, et ce pour une raison méthodologique précise : si entraînement et évaluation partagent la même distribution simulée, un gain de performance peut simplement refléter une meilleure adaptation au simulateur, et non un progrès réel. L'approche retenue, baptisée "zero-shot real-to-sim", consiste à évaluer en simulation des politiques entraînées exclusivement sur des données réelles. Les résultats de corrélation sont probants : la corrélation de Pearson entre les performances en simulation et sur robot physique atteint 0,8996 (intervalle de confiance à 95 % : [0,7439 ; 0,9314]), calculée sur trois variantes de modèles (Small, Medium, Large), 14 tâches et 200 épisodes par tâche, avec un million d'itérations bootstrap. Le Mean Maximum Rank Violation (MMRV) s'établit à 0,0166, ce qui signifie que le simulateur préserve fidèlement le classement relatif des modèles entre eux. Genesis AI évolue dans un secteur en pleine structuration, où des acteurs comme Google DeepMind, Physical Intelligence ou encore Boston Dynamics investissent massivement dans les modèles de fondation pour la robotique généraliste. La qualité du simulateur est devenue un avantage compétitif direct : Genesis revendique un écart de réalité réduit de 45 % par rapport au meilleur simulateur concurrent, mesuré par le score FID sur leur jeu de données. Pour diagnostiquer précisément les sources de divergence simulation-réalité, l'équipe a construit un banc de test côte à côte permettant de faire fonctionner simultanément le simulateur et un robot physique depuis la même initialisation, en permutant les sources d'observations (caméra, proprioception) pour isoler si les écarts viennent de la physique, du rendu, des communications ou du contrôle. Nyx, le moteur de rendu intégré, vise des images 1080p sans bruit en moins de 4 millisecondes sur un GPU grand public haut de gamme, en s'appuyant sur le lancer de rayons matériel et des splats gaussiens 3D pour les zones où la reconstruction en maillage reste insuffisante.

💬 200 heures d'évaluation robotique ramenées à 30 minutes, c'est pas un gain marginal, c'est un changement de paradigme dans la façon dont on peut itérer sur les modèles. Ce qui m'intéresse surtout, c'est leur choix de séparer les distributions d'entraînement et d'évaluation : simuler les deux ensemble, c'est se mentir à soi-même, et ils l'ont compris. Bon, la corrélation à 0,89 est impressionnante sur le papier, reste à voir si ça tient sur des tâches vraiment hors distribution.

RobotiqueActu
1 source
Des agents IA pour les équipes de robots
4IEEE Spectrum AI 

Des agents IA pour les équipes de robots

Le laboratoire de physique appliquée de l'université Johns Hopkins (APL) a publié une présentation détaillant ses travaux récents sur l'IA agentique appliquée aux équipes de robots collaboratifs. Baptisée "Agentic AI for Robot Teams", cette communication expose une architecture scalable conçue pour doter des systèmes robotiques hétérogènes de capacités d'autonomie, de coordination et d'adaptabilité. Les chercheurs y décrivent comment des agents fondés sur des grands modèles de langage (LLM) peuvent être déployés sur du matériel réel, avec des démonstrations impliquant des équipes de robots aux profils et capacités différents. Le document, disponible sous forme de livre blanc, présente également les leçons tirées des phases de recherche et développement en cours. L'enjeu est considérable : faire travailler ensemble des robots qui ne partagent ni les mêmes capteurs, ni les mêmes actionneurs, ni les mêmes logiciels impose des défis de coordination que les architectures classiques peinent à résoudre. En intégrant des LLM comme couche de raisonnement et de planification, les équipes de l'APL cherchent à rendre ces systèmes capables de s'adapter dynamiquement aux imprévus, de se répartir les tâches et de maintenir une cohérence collective sans supervision humaine constante. Cette approche pourrait transformer des domaines comme la logistique autonome, la gestion de catastrophes, les opérations militaires ou l'exploration de milieux hostiles, où envoyer des équipes humaines reste risqué ou impossible. Le Johns Hopkins APL est l'un des principaux centres de recherche appliquée du Département de la Défense américain, ce qui situe ces travaux dans un contexte stratégique lié à la robotique militaire et aux systèmes autonomes multi-agents. La montée en puissance des LLM depuis 2022 a ouvert une nouvelle voie pour la robotique agentique, jusqu'ici freinée par la rigidité des architectures de contrôle traditionnelles. Les suites annoncées portent sur la généralisation de l'architecture à des équipes plus larges et plus hétérogènes, ainsi que sur l'amélioration de la robustesse dans des environnements dégradés ou incertains.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic