Aller au contenu principal
LeRobot fait de l'école de conduite : Le plus grand ensemble de données open-source pour les voitures autonomes au monde
RobotiqueHuggingFace Blog67sem· 1 min de lecture

LeRobot fait de l'école de conduite : Le plus grand ensemble de données open-source pour les voitures autonomes au monde

Source originale ↗·

LeRobot a créé le plus vaste ensemble de données open-source pour les véhicules autonomes, offrant une mine d'informations pour le développement et la recherche dans ce domaine. Cet ensemble de données, désormais disponible, vise à accélérer les progrès dans la conception et la sécurité des systèmes de conduite autonome.

Impact France/UE

HuggingFace, la licorne française spécialisée en IA open-source, renforce sa position de leader mondial en publiant le plus vaste jeu de données ouvert pour véhicules autonomes, bénéficiant directement aux chercheurs et industriels européens du secteur automobile.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source
1The Decoder 

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source

Lors du GTC Taipei, Nvidia a dévoilé plusieurs modèles destinés à accélérer son offensive dans l'IA physique. La conférence a été marquée par trois annonces majeures : Cosmos 3, un nouveau modèle de monde (world model) de dernière génération, Alpamayo 2 Super, une version considérablement élargie du modèle de conduite autonome, et une plateforme de référence ouverte pour robots humanoïdes. Ces annonces s'inscrivent dans la stratégie de Jensen Huang de faire de Nvidia le fournisseur incontournable de l'infrastructure pour les systèmes physiques intelligents. Ces outils visent des marchés en pleine explosion : la robotique industrielle, les véhicules autonomes et les systèmes de surveillance vidéo intelligents. Un world model comme Cosmos 3 permet à des robots ou des voitures autonomes de simuler leur environnement et d'anticiper les conséquences de leurs actions, une brique fondamentale pour passer de la démonstration laboratoire au déploiement à grande échelle. La plateforme humanoïde ouverte, quant à elle, vise à standardiser le développement matériel et logiciel pour les constructeurs de robots à deux jambes, réduisant les coûts d'entrée pour les startups du secteur. Nvidia capitalise ici sur sa domination dans les GPU d'entraînement pour étendre son empreinte vers l'inférence embarquée et les systèmes temps-réel. La concurrence s'intensifie avec des acteurs comme Qualcomm et Intel sur les puces pour véhicules autonomes, tandis que des entreprises comme Figure, Boston Dynamics ou 1X Technologies attendent des plateformes logicielles communes pour accélérer leurs développements. GTC Taipei confirme que Nvidia ne veut pas seulement alimenter les data centers de l'IA, il veut aussi être le cerveau des machines qui bougent.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW, Volkswagen) et les startups robotiques européennes pourraient bénéficier de la plateforme humanoïde ouverte pour réduire leurs coûts d'entrée et accélérer leurs développements en robotique industrielle et véhicules autonomes.

RobotiqueOpinion
1 source
Décision interactive pour la conduite autonome par grands modèles de langage
2arXiv cs.RO 

Décision interactive pour la conduite autonome par grands modèles de langage

Des chercheurs ont publié sur arXiv un nouveau cadre de prise de décision pour véhicules autonomes, conçu spécifiquement pour les situations de trafic mixte à forte densité où coexistent voitures humaines et autonomes. Le système exploite les grands modèles de langage non pour générer du texte, mais pour analyser dynamiquement la scène routière et inférer les intentions des autres usagers. Il repose sur l'Object-Process Methodology (OPM), qui traduit les données perceptuelles brutes en objets, processus et relations compréhensibles par le modèle. Celui-ci identifie ensuite les intentions explicites et implicites des véhicules voisins, génère des trajectoires candidates par échantillonnage Monte Carlo, et sélectionne la trajectoire optimale sous contraintes conjointes de sécurité et d'efficacité. La décision finale est retranscrite en langage naturel et diffusée aux autres usagers via une interface homme-machine externe (eHMI). Testé dans un simulateur de conduite en convoi, le système surpasse les approches traditionnelles sur les critères de sécurité, confort et fluidité, et un test de style Turing révèle une forte ressemblance avec les comportements humains au volant. Ce travail s'attaque à l'un des principaux freins à l'adoption des véhicules autonomes : leur tendance aux comportements excessivement prudents dans les situations conflictuelles, qui génèrent blocages et méfiance du public. En dotant le véhicule d'une capacité de lecture des intentions des autres conducteurs et d'une communication proactive en langage naturel, le cadre proposé change la nature de l'interaction : il ne s'agit plus seulement d'éviter les accidents, mais d'expliquer en temps réel les décisions du robot pour instaurer une confiance partagée avec les piétons, cyclistes et automobilistes environnants. La conduite autonome en environnement mixte reste l'un des défis les plus complexes du secteur, au croisement de la robotique, des sciences cognitives et de l'IA générative. Des acteurs comme Waymo ou Mobileye investissent massivement dans ces problèmes d'interaction homme-machine. L'intégration des LLMs dans la boucle de décision en temps réel représente une direction émergente : elle permet d'exploiter le raisonnement de sens commun de ces modèles sans avoir à coder explicitement chaque scénario possible. Encore limité à la simulation, le système devra prouver sa robustesse et sa faible latence en conditions réelles, mais les auteurs y voient une voie crédible vers une conduite autonome réellement interactive et digne de confiance dans un trafic dense.

RobotiquePaper
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
3NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

RobotiquePaper
1 source
L'IA de conduite autonome entraînée 50 000 fois plus vite qu'en temps réel
4IEEE Spectrum AI 

L'IA de conduite autonome entraînée 50 000 fois plus vite qu'en temps réel

General Motors développe une infrastructure d'entraînement pour ses systèmes de conduite autonome capable de simuler des scénarios à 50 000 fois la vitesse réelle. L'entreprise combine simulation à grande échelle, apprentissage par renforcement et modèles de fondation pour préparer ses véhicules aux situations rares et imprévisibles — ce que les ingénieurs appellent la « longue traîne » : une panne généralisée de feux de signalisation à San Francisco, un matelas sur la chaussée, un chantier de construction guidé par des ouvriers qui font des gestes. Pour traiter ces scénarios complexes, GM développe des modèles Vision-Language-Action (VLA), issus des grands modèles de vision par langage, auxquels sont ajoutées des têtes de décodage spécialisées pour la conduite. Ces modèles permettent au véhicule de comprendre, par exemple, qu'un geste d'un policier a priorité sur un feu rouge, ou d'identifier visuellement une zone de chargement dans un aéroport. Face au problème de latence inhérent aux modèles de grande taille, GM a conçu une architecture dite « Dual Frequency VLA » : un grand modèle tourne à basse fréquence pour les décisions sémantiques de haut niveau (« cet objet est-il une branche ou un parpaing ? »), tandis qu'un modèle léger gère en temps réel le contrôle spatial — direction et freinage. Cette séparation permet de bénéficier du raisonnement profond sans compromettre les temps de réaction nécessaires à la sécurité. Les modèles génèrent également des traces de raisonnement lisibles par les ingénieurs, facilitant le débogage et la validation des comportements du véhicule. La conduite autonome reste l'un des défis les plus exigeants de l'intelligence artificielle physique : un système doit interpréter un environnement chaotique en temps réel, anticiper le comportement humain et fonctionner de manière fiable dans une infinité de configurations. GM, qui vise d'abord la conduite autonome sur autoroute sans surveillance avant d'atteindre une autonomie totale, mise sur la simulation massive pour compenser l'impossibilité de collecter suffisamment de données réelles sur ces situations exceptionnelles.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic