Aller au contenu principal
Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo
RobotiqueLe Big Data5h

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo

1 source couvre ce sujet·Source originale ↗·

Physical Intelligence, startup basée à San Francisco, a présenté π0.7, un modèle d'IA robotique capable d'exécuter des tâches pour lesquelles il n'a reçu presque aucun entraînement spécifique. La démonstration phare : un robot utilisant une friteuse à air chaud pour cuire une patate douce, alors que ses données d'apprentissage ne contenaient que deux séquences vaguement pertinentes, un robot fermant une friteuse, et un autre manipulant une bouteille en plastique issue d'un dataset open source. Sans assistance verbale, le taux de réussite du robot était d'environ 5 %. Après une demi-heure d'instructions orales en temps réel, ce taux a bondi à 95 %, sans réentraînement ni collecte massive de nouvelles données. Sergey Levine, cofondateur de Physical Intelligence, décrit cette capacité comme une recomposition inédite de connaissances acquises dans des contextes disparates, notamment issues du web.

Ce qui distingue π0.7 de la majorité des systèmes robotiques actuels, c'est précisément ce qu'il n'a pas besoin : des millions d'heures de vidéos pour chaque nouvelle tâche. La robotique industrielle et domestique bute depuis des années sur ce mur : chaque situation légèrement différente exige un nouvel entraînement coûteux. Si π0.7 tient ses promesses, il ouvre la voie à des robots capables de s'adapter à des environnements inconnus simplement en recevant des consignes verbales, un changement de paradigme potentiellement majeur pour les secteurs de la logistique, de l'aide à domicile ou de la restauration automatisée. La chercheuse Shi, doctorante à Stanford impliquée dans les travaux, note toutefois qu'il reste difficile d'identifier précisément d'où le modèle tire les connaissances qu'il mobilise, ce qui soulève des questions sur la prédictibilité et la fiabilité du système.

Physical Intelligence s'inscrit dans une vague de startups qui parient sur des modèles de fondation pour la robotique, à l'image de ce que GPT-4 a représenté pour le texte. L'entreprise a levé des fonds significatifs ces dernières années et concurrence directement des laboratoires comme Google DeepMind ou Figure AI sur le terrain des robots généralistes. Le vrai enjeu n'est plus de construire des bras articulés précis, mais de créer des systèmes capables de raisonner sur le monde physique avec un minimum d'exemples. π0.7 représente une étape crédible dans cette direction, même si les tests restent pour l'instant en conditions contrôlées. Les prochains mois diront si cette capacité d'adaptation tient face à la complexité désordonnée du monde réel.

À lire aussi

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris
1The Decoder 

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris

La start-up américaine Physical Intelligence a présenté π0.7, un nouveau modèle de fondation pour robots capable de recombiner des compétences acquises lors de l'entraînement pour accomplir des tâches inédites. Le principe rappelle directement le fonctionnement des grands modèles de langage, qui assemblent des fragments de leur corpus d'entraînement pour générer du texte nouveau. Les chercheurs qualifient ce phénomène de premières traces de "généralisation compositionnelle" en robotique, une capacité jusqu'ici considérée comme l'un des grands verrous du domaine. L'enjeu est considérable : un robot capable de composer librement ses compétences peut théoriquement s'adapter à des environnements non prévus lors de l'entraînement, sans reprogrammation manuelle. C'est précisément ce qui distingue l'intelligence artificielle générale de la robotique traditionnelle, figée dans des séquences prédéfinies. Physical Intelligence reconnaît toutefois que le modèle présente encore des défauts notables, signe que cette généralisation reste fragile et partielle à ce stade. Physical Intelligence, fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Berkeley, s'est imposée comme l'un des acteurs les plus ambitieux de la robotique dite "généraliste". La société avait déjà publié π0 en 2024, un premier modèle de fondation polyvalent entraîné sur une large variété de tâches physiques. L'annonce de π0.7 s'inscrit dans une course plus large impliquant Figure AI, Agility Robotics et Tesla, tous en quête du même Graal : un robot capable d'apprendre une fois et de s'adapter partout.

RobotiqueOpinion
1 source
Comment les robots apprennent : une courte histoire contemporaine
2MIT Technology Review 

Comment les robots apprennent : une courte histoire contemporaine

En 2025, les investisseurs ont injecté 6,1 milliards de dollars dans les robots humanoïdes, soit quatre fois plus qu'en 2024. Ce chiffre illustre un tournant spectaculaire pour une industrie longtemps boudée par la Silicon Valley après des décennies de promesses non tenues. Le changement de paradigme remonte à plusieurs ruptures technologiques successives : d'abord, vers 2015, l'abandon des systèmes à base de règles codées manuellement au profit de l'apprentissage par renforcement, où un robot simulé s'améliore par essais et erreurs sur des millions d'itérations. Puis, en 2022, l'irruption de ChatGPT a tout accéléré : les grands modèles de langage, entraînés sur des corpus massifs de textes, ont été adaptés à la robotique pour ingérer images, capteurs et positions articulaires, et prédire en temps réel la prochaine action à exécuter, en émettant des dizaines de commandes motrices par seconde. Ce glissement conceptuel, de la programmation exhaustive vers des modèles d'IA nourris de données massives, change radicalement ce qui est désormais possible. Un robot n'a plus besoin qu'un ingénieur anticipe chaque cas particulier, plier une chemise froissée, gérer une manche tordue, adapter le geste à un tissu délicat. Il apprend à generaliser. Cette approche fonctionne aussi bien pour des robots conversationnels que pour des machines qui naviguent dans un environnement physique ou accomplissent des tâches complexes. Pour les industriels, la perspective d'une main-d'œuvre robotique sans salaire devient crédible ; pour les acteurs du soin et du maintien à domicile, celle d'assistants capables d'interagir naturellement avec des personnes âgées ou à mobilité réduite se rapproche aussi. L'histoire de Jibo illustre parfaitement ce chemin parcouru. Ce petit robot social sans bras ni jambes, présenté en 2014 par la chercheuse du MIT Cynthia Breazeal, avait levé 3,7 millions de dollars en crowdfunding et suscité 4 800 précommandes à 749 dollars pièce. Il pouvait se présenter, danser pour des enfants, mais restait très limité faute de véritables capacités langagières, un domaine où il peinait à rivaliser avec Siri d'Apple. La société a fermé ses portes en 2019, victime de ses ambitions prématurées. Rétrospectivement, Jibo manquait précisément des modèles de langage qui existent aujourd'hui. C'est cette convergence, entre LLMs, apprentissage par renforcement et déploiement de robots imparfaits pour qu'ils apprennent dans leur environnement réel, qui redonne aujourd'hui à la Silicon Valley l'audace de rêver aux robots de science-fiction.

UEL'essor des robots humanoïdes ouvre des perspectives pour les secteurs français du soin et du maintien à domicile, mais les investissements restent largement concentrés hors d'Europe.

RobotiqueOpinion
1 source
Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents
3The Information AI 

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents

Google DeepMind a publié cette semaine Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage conçu pour aider les robots à interpréter leur environnement. Pour illustrer ses capacités, Boston Dynamics, qui dispose d'un accord pour intégrer Gemini dans ses robots humanoïdes, a publié une vidéo de ses robots quadrupèdes utilisant le modèle pour lire un thermomètre lors d'une inspection dans une installation industrielle. Selon les benchmarks internes de Google, les gains restent modestes sur un seul flux caméra : le modèle n'améliore que marginalement la capacité du robot à détecter la fin d'une tâche par rapport aux versions précédentes. En revanche, les performances progressent nettement lorsque le robot exploite plusieurs flux caméra simultanément. C'est précisément là que réside l'enjeu pratique : la majorité des environnements robotiques industriels, qu'il s'agisse d'usines ou d'entrepôts, s'appuient sur plusieurs points de vue combinés, comme une caméra en hauteur et une caméra fixée sur le bras du robot. Le système doit être capable de fusionner ces perspectives pour construire une compréhension cohérente de ce qu'il accomplit et savoir quand la tâche est terminée. Ce lancement s'inscrit dans une course intense entre les grands laboratoires d'IA pour doter les robots d'une intelligence de perception plus robuste. Google DeepMind et Boston Dynamics ont formalisé leur partenariat autour de Gemini pour les robots humanoïdes, signalant une convergence entre les modèles de fondation et la robotique physique. Si les progrès annoncés restent incrémentaux, l'amélioration sur les configurations multi-caméras est directement applicable aux déploiements industriels existants, ce qui pourrait accélérer l'adoption de robots autonomes dans des environnements de travail réels. Les prochaines versions du modèle seront à surveiller pour évaluer si ces gains se traduisent en performances significatives sur des tâches complexes en conditions réelles.

RobotiqueActu
1 source
Tesla pris de vitesse ? Chery vend déjà son robot humanoïde en ligne
4Frandroid 

Tesla pris de vitesse ? Chery vend déjà son robot humanoïde en ligne

Le constructeur automobile chinois Chery, jusqu'ici principalement connu pour ses véhicules électriques, vient de franchir un cap inattendu en mettant en vente son premier robot humanoïde, le Mornine M1, directement en ligne. Affiché à environ 39 000 euros, l'engin embarque une batterie de capteurs directement issus des systèmes de conduite autonome développés par Chery pour ses voitures. Le robot est commercialisé sans passer par des canaux de distribution traditionnels, une stratégie de vente directe qui rappelle celle adoptée par Tesla pour ses véhicules. Cette mise sur le marché place Chery dans une course technologique qui dépasse largement le secteur automobile. À ce prix, le Mornine M1 s'adresse potentiellement aux industriels, entrepôts logistiques et laboratoires souhaitant automatiser des tâches physiques complexes. La réutilisation de composants issus de la conduite autonome représente un avantage compétitif réel : Chery amortit ses investissements en R&D sur deux marchés simultanément, réduisant ainsi les coûts de développement. Cependant, l'article signale un point faible significatif qui n'est pas détaillé dans l'extrait disponible, ce qui laisse planer un doute sur la maturité réelle du produit. Le lancement du Mornine M1 s'inscrit dans une dynamique chinoise plus large visant à dominer le marché mondial de la robotique humanoïde, un secteur où Tesla avec Optimus, Figure AI et Boston Dynamics se livrent une concurrence féroce. La Chine a fait de la robotique humanoïde une priorité industrielle nationale, et voir un constructeur automobile s'y engouffrer illustre la convergence accélérée entre mobilité autonome et robotique. Chery rejoint ainsi BYD et d'autres géants industriels chinois qui diversifient leurs activités bien au-delà de l'électromobilité.

UELes industriels et entrepôts logistiques européens pourraient accéder à un robot humanoïde à 39 000€, accentuant la pression concurrentielle sur le marché de l'automatisation physique en Europe.

RobotiqueOpinion
1 source