Aller au contenu principal
Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris
RobotiqueThe Decoder3sem

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris

Résumé IASource uniqueImpact UE
Source originale ↗·

La start-up américaine Physical Intelligence a présenté π0.7, un nouveau modèle de fondation pour robots capable de recombiner des compétences acquises lors de l'entraînement pour accomplir des tâches inédites. Le principe rappelle directement le fonctionnement des grands modèles de langage, qui assemblent des fragments de leur corpus d'entraînement pour générer du texte nouveau. Les chercheurs qualifient ce phénomène de premières traces de "généralisation compositionnelle" en robotique, une capacité jusqu'ici considérée comme l'un des grands verrous du domaine.

L'enjeu est considérable : un robot capable de composer librement ses compétences peut théoriquement s'adapter à des environnements non prévus lors de l'entraînement, sans reprogrammation manuelle. C'est précisément ce qui distingue l'intelligence artificielle générale de la robotique traditionnelle, figée dans des séquences prédéfinies. Physical Intelligence reconnaît toutefois que le modèle présente encore des défauts notables, signe que cette généralisation reste fragile et partielle à ce stade.

Physical Intelligence, fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Berkeley, s'est imposée comme l'un des acteurs les plus ambitieux de la robotique dite "généraliste". La société avait déjà publié π0 en 2024, un premier modèle de fondation polyvalent entraîné sur une large variété de tâches physiques. L'annonce de π0.7 s'inscrit dans une course plus large impliquant Figure AI, Agility Robotics et Tesla, tous en quête du même Graal : un robot capable d'apprendre une fois et de s'adapter partout.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents
1The Information AI 

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents

Google DeepMind a publié cette semaine Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage conçu pour aider les robots à interpréter leur environnement. Pour illustrer ses capacités, Boston Dynamics, qui dispose d'un accord pour intégrer Gemini dans ses robots humanoïdes, a publié une vidéo de ses robots quadrupèdes utilisant le modèle pour lire un thermomètre lors d'une inspection dans une installation industrielle. Selon les benchmarks internes de Google, les gains restent modestes sur un seul flux caméra : le modèle n'améliore que marginalement la capacité du robot à détecter la fin d'une tâche par rapport aux versions précédentes. En revanche, les performances progressent nettement lorsque le robot exploite plusieurs flux caméra simultanément. C'est précisément là que réside l'enjeu pratique : la majorité des environnements robotiques industriels, qu'il s'agisse d'usines ou d'entrepôts, s'appuient sur plusieurs points de vue combinés, comme une caméra en hauteur et une caméra fixée sur le bras du robot. Le système doit être capable de fusionner ces perspectives pour construire une compréhension cohérente de ce qu'il accomplit et savoir quand la tâche est terminée. Ce lancement s'inscrit dans une course intense entre les grands laboratoires d'IA pour doter les robots d'une intelligence de perception plus robuste. Google DeepMind et Boston Dynamics ont formalisé leur partenariat autour de Gemini pour les robots humanoïdes, signalant une convergence entre les modèles de fondation et la robotique physique. Si les progrès annoncés restent incrémentaux, l'amélioration sur les configurations multi-caméras est directement applicable aux déploiements industriels existants, ce qui pourrait accélérer l'adoption de robots autonomes dans des environnements de travail réels. Les prochaines versions du modèle seront à surveiller pour évaluer si ces gains se traduisent en performances significatives sur des tâches complexes en conditions réelles.

RobotiqueActu
1 source
SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme
2arXiv cs.RO 

SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme

Des chercheurs ont publié SARM (Stage-Aware Reward Modeling), un nouveau cadre d'apprentissage destiné aux robots manipulateurs, conçu pour résoudre des tâches longues et complexes impliquant des objets déformables. Le système repose sur un modèle de récompense vidéo qui prédit simultanément l'étape courante d'une tâche et la progression fine du robot, en s'appuyant sur des annotations en langage naturel pour découper les démonstrations en sous-tâches cohérentes. À partir de ce modèle, les auteurs introduisent le Reward-Aligned Behavior Cloning (RA-BC), une méthode qui filtre et repondère les démonstrations d'entraînement selon leur qualité estimée. Sur la tâche de pliage de t-shirt, SARM atteint un taux de réussite de 83 % à partir d'un état aplati et de 67 % à partir d'un état froissé, contre seulement 8 % et 0 % avec le clonage comportemental classique. Ces résultats représentent un bond considérable pour la robotique manipulation, un domaine où les objets déformables comme les vêtements posaient jusqu'ici des problèmes quasi insolubles aux systèmes automatisés. Le principal apport de SARM est sa robustesse face à la variabilité des démonstrations humaines : plutôt que d'indexer les étapes par numéro de frame (une approche fragile dès que les durées varient), le modèle comprend sémantiquement où en est le robot dans la tâche. Cela rend le système directement utilisable dans des environnements réels, sans calibration fine pour chaque nouvelle variante du problème. L'apprentissage par imitation à grande échelle est au coeur de la robotique moderne, portée par des laboratoires comme Google DeepMind, Stanford ou Carnegie Mellon, ainsi que des startups comme Physical Intelligence. Le défi persistant est la qualité inconsistante des données de démonstration collectées sur des tâches longues : un seul geste maladroit peut corrompre tout un exemple d'entraînement. SARM aborde ce problème en amont, au niveau de la supervision, plutôt qu'en collectant toujours plus de données. Cette approche, à la fois économe en annotations et généralisable hors distribution, pourrait devenir un composant standard des pipelines de robot learning dans les prochaines années.

RobotiqueOpinion
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
3Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

RobotiqueOpinion
1 source
RISE : politique robotique auto-améliorante avec modèle du monde compositionnel
4arXiv cs.RO 

RISE : politique robotique auto-améliorante avec modèle du monde compositionnel

Des chercheurs ont présenté RISE, un framework d'apprentissage par renforcement pour robots qui s'améliore sans interaction physique coûteuse. Publié sur arXiv (2602.11075), le système repose sur un modèle du monde compositional constitué de deux blocs distincts : un modèle de dynamique contrôlable qui prédit l'évolution visuelle de la scène depuis plusieurs angles de caméra, et un modèle d'évaluation de la progression qui note les résultats imaginés. Ces deux composants alimentent une boucle fermée dans laquelle le robot simule des séquences d'actions en imagination, estime leur qualité, puis met à jour sa politique sans jamais bouger un seul moteur. Testé sur trois tâches réelles, RISE obtient des gains spectaculaires : +35 % en tri dynamique de briques, +45 % pour emballer un sac à dos, et +35 % pour fermer une boîte. Ce résultat compte car il s'attaque à un problème fondamental de la robotique moderne : les modèles Vision-Language-Action, malgré des capacités croissantes, restent fragiles dès qu'une manipulation implique des contacts physiques ou une dynamique rapide. La moindre déviation d'exécution peut déclencher une cascade d'échecs. L'apprentissage par renforcement classique permettrait théoriquement de rendre les robots plus robustes, mais il exige des milliers d'essais sur du matériel réel, avec des risques de casse et des procédures de remise en état longues et onéreuses. RISE contourne cette contrainte en déplaçant l'essentiel de l'apprentissage dans un espace imaginaire, rendant l'amélioration continue à la fois sûre et scalable. La robotique de manipulation est aujourd'hui dominée par l'imitation, on montre au robot des démonstrations humaines, et il reproduit. Cette approche atteint ses limites dans des environnements non contrôlés, où les objets bougent et les conditions varient. Le mouvement vers des modèles du monde capables de simuler des conséquences futures s'inscrit dans une tendance plus large, partagée avec les travaux sur les world models en jeux vidéo et en conduite autonome. RISE représente une étape concrète vers des robots capables d'auto-amélioration continue, sans dépendre d'un accès permanent à des environnements physiques instrumentés.

RobotiquePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour