Aller au contenu principal
Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris
RobotiqueThe Decoder6sem

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris

Résumé IASource uniqueImpact UE
Source originale ↗·

La start-up américaine Physical Intelligence a présenté π0.7, un nouveau modèle de fondation pour robots capable de recombiner des compétences acquises lors de l'entraînement pour accomplir des tâches inédites. Le principe rappelle directement le fonctionnement des grands modèles de langage, qui assemblent des fragments de leur corpus d'entraînement pour générer du texte nouveau. Les chercheurs qualifient ce phénomène de premières traces de "généralisation compositionnelle" en robotique, une capacité jusqu'ici considérée comme l'un des grands verrous du domaine.

L'enjeu est considérable : un robot capable de composer librement ses compétences peut théoriquement s'adapter à des environnements non prévus lors de l'entraînement, sans reprogrammation manuelle. C'est précisément ce qui distingue l'intelligence artificielle générale de la robotique traditionnelle, figée dans des séquences prédéfinies. Physical Intelligence reconnaît toutefois que le modèle présente encore des défauts notables, signe que cette généralisation reste fragile et partielle à ce stade.

Physical Intelligence, fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Berkeley, s'est imposée comme l'un des acteurs les plus ambitieux de la robotique dite "généraliste". La société avait déjà publié π0 en 2024, un premier modèle de fondation polyvalent entraîné sur une large variété de tâches physiques. L'annonce de π0.7 s'inscrit dans une course plus large impliquant Figure AI, Agility Robotics et Tesla, tous en quête du même Graal : un robot capable d'apprendre une fois et de s'adapter partout.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents
1The Information AI 

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents

Google DeepMind a publié cette semaine Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage conçu pour aider les robots à interpréter leur environnement. Pour illustrer ses capacités, Boston Dynamics, qui dispose d'un accord pour intégrer Gemini dans ses robots humanoïdes, a publié une vidéo de ses robots quadrupèdes utilisant le modèle pour lire un thermomètre lors d'une inspection dans une installation industrielle. Selon les benchmarks internes de Google, les gains restent modestes sur un seul flux caméra : le modèle n'améliore que marginalement la capacité du robot à détecter la fin d'une tâche par rapport aux versions précédentes. En revanche, les performances progressent nettement lorsque le robot exploite plusieurs flux caméra simultanément. C'est précisément là que réside l'enjeu pratique : la majorité des environnements robotiques industriels, qu'il s'agisse d'usines ou d'entrepôts, s'appuient sur plusieurs points de vue combinés, comme une caméra en hauteur et une caméra fixée sur le bras du robot. Le système doit être capable de fusionner ces perspectives pour construire une compréhension cohérente de ce qu'il accomplit et savoir quand la tâche est terminée. Ce lancement s'inscrit dans une course intense entre les grands laboratoires d'IA pour doter les robots d'une intelligence de perception plus robuste. Google DeepMind et Boston Dynamics ont formalisé leur partenariat autour de Gemini pour les robots humanoïdes, signalant une convergence entre les modèles de fondation et la robotique physique. Si les progrès annoncés restent incrémentaux, l'amélioration sur les configurations multi-caméras est directement applicable aux déploiements industriels existants, ce qui pourrait accélérer l'adoption de robots autonomes dans des environnements de travail réels. Les prochaines versions du modèle seront à surveiller pour évaluer si ces gains se traduisent en performances significatives sur des tâches complexes en conditions réelles.

RobotiqueActu
1 source
Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir
2The Decoder 

Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir

Les World Action Models (WAM) constituent une nouvelle famille de modèles d'IA pour la robotique, documentée dans une étude récente qui recense et organise une centaine de publications scientifiques autour de deux grandes lignes architecturales. Contrairement aux systèmes actuels, ces modèles ne se contentent pas d'associer des mouvements à des images de caméra : ils simulent mentalement les conséquences d'une action avant de l'exécuter, en modélisant comment l'environnement va évoluer. L'enjeu est considérable pour le secteur. Les robots industriels et domestiques actuels restent fragiles face à l'imprévu, car leurs modèles n'ont aucune représentation interne de la physique du monde. Les WAM offrent une capacité de planification proactive : un bras robotique peut anticiper qu'attraper un objet d'une certaine façon le fera basculer, et corriger sa trajectoire avant même de bouger. Cela ouvre la voie à des robots beaucoup plus robustes et adaptables dans des environnements non contrôlés. L'avantage décisif de cette approche réside dans les données d'entraînement : les WAM peuvent apprendre à partir de vidéos ordinaires du monde réel, sans étiquetage des actions robotiques, un type de donnée qui était jusqu'ici quasi inutilisable pour les IA robotiques classiques. Cette propriété lève un verrou majeur, car les vidéos non annotées sont disponibles en quantité massive sur internet. La compétition entre laboratoires de recherche et géants de la tech pour maîtriser ce type de modèle devrait s'intensifier dans les prochains mois.

💬 Ce qui m'intéresse là-dedans, c'est pas le robot qui réfléchit avant de bouger, c'est qu'il peut apprendre à partir de vidéos ordinaires, sans annotation spécifique. Les données robotiques étiquetées coûtent une fortune à produire, les vidéos YouTube non, et il y en a des milliards d'heures. C'est le genre de verrou qui, une fois levé, accélère tout le reste.

RobotiqueOpinion
1 source
SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme
3arXiv cs.RO 

SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme

Des chercheurs ont publié SARM (Stage-Aware Reward Modeling), un nouveau cadre d'apprentissage destiné aux robots manipulateurs, conçu pour résoudre des tâches longues et complexes impliquant des objets déformables. Le système repose sur un modèle de récompense vidéo qui prédit simultanément l'étape courante d'une tâche et la progression fine du robot, en s'appuyant sur des annotations en langage naturel pour découper les démonstrations en sous-tâches cohérentes. À partir de ce modèle, les auteurs introduisent le Reward-Aligned Behavior Cloning (RA-BC), une méthode qui filtre et repondère les démonstrations d'entraînement selon leur qualité estimée. Sur la tâche de pliage de t-shirt, SARM atteint un taux de réussite de 83 % à partir d'un état aplati et de 67 % à partir d'un état froissé, contre seulement 8 % et 0 % avec le clonage comportemental classique. Ces résultats représentent un bond considérable pour la robotique manipulation, un domaine où les objets déformables comme les vêtements posaient jusqu'ici des problèmes quasi insolubles aux systèmes automatisés. Le principal apport de SARM est sa robustesse face à la variabilité des démonstrations humaines : plutôt que d'indexer les étapes par numéro de frame (une approche fragile dès que les durées varient), le modèle comprend sémantiquement où en est le robot dans la tâche. Cela rend le système directement utilisable dans des environnements réels, sans calibration fine pour chaque nouvelle variante du problème. L'apprentissage par imitation à grande échelle est au coeur de la robotique moderne, portée par des laboratoires comme Google DeepMind, Stanford ou Carnegie Mellon, ainsi que des startups comme Physical Intelligence. Le défi persistant est la qualité inconsistante des données de démonstration collectées sur des tâches longues : un seul geste maladroit peut corrompre tout un exemple d'entraînement. SARM aborde ce problème en amont, au niveau de la supervision, plutôt qu'en collectant toujours plus de données. Cette approche, à la fois économe en annotations et généralisable hors distribution, pourrait devenir un composant standard des pipelines de robot learning dans les prochaines années.

RobotiqueOpinion
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
4Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour