Robotique — page 2

628 articles · page 2 sur 13

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

LLMs Recherche Business Éthique Outils Régulation Sécurité Société Infrastructure Création Autre

AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens

Des chercheurs ont publié AERMANI-PLACE, un cadre logiciel permettant à un manipulateur aérien (drone équipé d'un bras robotique) de positionner des objets à partir d'instructions en langage naturel, sans que l'opérateur n'ait à saisir de coordonnées métriques. Le système fonctionne en deux étapes : une image de la scène combinée à une consigne textuelle est transmise à un modèle de génération d'images, qui produit une version modifiée de la scène avec un marqueur visuel indiquant l'emplacement cible. Ce marqueur est ensuite ancré dans l'espace physique via des observations de profondeur, permettant de récupérer un point de placement en coordonnées métriques, à partir duquel une trajectoire est calculée et exécutée par le drone. Sur un jeu de test de 100 tâches, le système affiche un taux de réussite de 87 % pour l'inférence des positions, et de 72 % lors du transfert sur une plateforme réelle de manipulation aérienne. L'article a été déposé sur arXiv (ref. 2606.14531) en juin 2026. L'intérêt principal de cette approche réside dans l'élimination du fossé d'interface entre l'intention humaine et la commande robot. Jusqu'à présent, les systèmes de manipulation aérienne exigeaient que l'utilisateur raisonne explicitement sur les référentiels de coordonnées et la géométrie de la scène, ce qui freinait l'adoption opérationnelle hors laboratoire. AERMANI-PLACE propose une abstraction en langage naturel, plus proche des usages industriels réels où les opérateurs ne sont pas roboticiens. Le transfert sim-to-real reste partiel (écart de 15 points entre simulation et terrain), ce qui signale que les conditions d'éclairage, d'occultation ou de texture peuvent encore dégrader la robustesse, un point à surveiller avant tout déploiement critique. La manipulation aérienne reste un domaine de recherche émergent, situé à l'intersection des UAV industriels et de la robotique de préhension. Les travaux précédents imposaient des interfaces semi-automatisées ou des pipelines de vision-to-pose classiques nécessitant une calibration fine. Dans l'écosystème concurrent, des équipes comme celles de l'ETH Zurich (ETHZ-ASL) ou de l'Université de Séville travaillent sur des plateformes similaires, mais peu ont intégré un grounding linguistique direct. L'approche d'AERMANI-PLACE, centrée sur un modèle d'édition d'image comme interface sémantique, est transposable à d'autres plateformes mobiles ou fixes. Les prochaines étapes naturelles incluent l'extension aux gestes de pointage combinés au langage, tel que mentionné dans la motivation du papier, ainsi qu'une validation sur des tâches à contraintes de précision plus élevées.

UEImpact indirect : des équipes européennes (ETH Zurich-ASL, Université de Séville) travaillent sur des plateformes concurrentes de manipulation aérienne, situant ce préprint dans un paysage de recherche partiellement européen.

Robotique — page 2

AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens

Prometheus : ce que prépare la nouvelle startup de Jeff Bezos

L'Ukraine a utilisé des drones entièrement autonomes pour tuer des soldats russes lors d'un test

Exécution en temps réel avec des politiques autorégressives

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

Les robotaxis doivent intégrer la sécurité dès la conception, pas l'ajouter après coup

Hong Kong ouvre une supérette… entièrement gérée par un robot humanoïde

NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe

Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »

La robotique ne connaîtra pas de moment Llama bien défini

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

Q8botOne : ce robot de la taille d’une paume n’a aucun fil (et c’est une prouesse !)

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

Après VLC, Jean-Baptiste Kempf veut construire le système nerveux des robots

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

ALTA ARES lève 50 millions d’euros pour développer un système anti-drone autonome

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

X-OP : téléopération corps entier entre morphologies différentes via MPC

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Plus de 2 000 précommandes en six jours : ces robots compagnons cartonnent déjà

Dévoilement des premières cellules robotiques souples au monde capables de se reconfigurer à la demande

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif