Aller au contenu principal

Dossier Google DeepMind — page 4

714 articles · page 4 sur 15

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

Meta tente de rattraper son retard dans l'IA
151Ars Technica AI BusinessOpinion

Meta tente de rattraper son retard dans l'IA

Il y a environ un an, Mark Zuckerberg a confié les rênes de l'intelligence artificielle chez Meta à Alexandr Wang, alors âgé de 28 ans et fondateur de Scale AI. Ce pari audacieux au sein d'une entreprise valorisée 1 500 milliards de dollars visait à insuffler une dynamique de "temps de guerre" à une division IA jugée trop lente. Le résultat commence à se matérialiser : Muse Spark, présenté comme le modèle d'IA le plus convaincant que Meta ait produit à ce jour, selon des entretiens menés avec des employés actuels et anciens de l'entreprise ainsi que des proches de Wang. Ce choix de nommer un fondateur de startup plutôt qu'un chercheur chevronné illustre une rupture nette avec les pratiques habituelles des géants technologiques. Zuckerberg a délibérément misé sur l'urgence et l'ambition d'un outsider face à l'expertise institutionnelle, signalant que Meta perçoit son retard sur OpenAI et Google comme une menace stratégique. Wang a néanmoins dû surmonter des critiques internes sur son manque d'expérience en recherche fondamentale, ainsi que les jeux de pouvoir complexes propres aux grandes entreprises technologiques. Meta disposait pourtant d'actifs solides, notamment FAIR (Fundamental AI Research), son laboratoire de recherche de référence, mais ces structures n'ont pas réussi à produire des modèles compétitifs face aux avancées d'OpenAI, Google DeepMind ou Anthropic. En installant Wang à ce poste, Zuckerberg a choisi de contourner la hiérarchie établie plutôt que de la réformer de l'intérieur. La question qui reste ouverte est de savoir si cette stratégie de rattrapage par la disruption interne suffira à repositionner Meta comme un acteur central dans la course aux grands modèles de langage.

UELa montée en puissance de Meta dans la course aux grands modèles renforce la domination américaine et pourrait accroître la dépendance technologique des entreprises et utilisateurs européens.

1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
152arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

RechercheOpinion
1 source
Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements
153arXiv cs.RO 

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Des chercheurs présentent MPVI (Motion Planner / VLA Interleaving), une architecture hybride qui intègre la planification de mouvement classique dans les modèles VLA (Vision-Language-Action) pour renforcer leur robustesse en manipulation mobile sans nécessiter de données supplémentaires. Publiée sur arXiv (2606.00985), cette approche s'attaque à un problème documenté des VLA : leur difficulté à enchaîner des séquences longues de sous-tâches spatialement distribuées. Sur le benchmark BEHAVIOR-1K, MPVI affiche une amélioration de 113 % de la progression des tâches par rapport au meilleur VLA bout-en-bout de référence, sans aucun ré-entraînement du modèle de base. Le diagnostic des auteurs est net : dans les tâches à long horizon, les erreurs d'exécution précoces s'amplifient à mesure que la séquence s'allonge, et le fine-tuning sur de larges volumes de données téléopérées humaines n'y change rien. MPVI découple la navigation et la manipulation : un planificateur classique prend en charge la localisation et le déplacement vers des objets distants ou occultés, en s'appuyant sur la détection à vocabulaire ouvert et l'exploration de frontière, tandis que le VLA gère les manipulations de précision. La commutation entre les deux modules est pilotée par un mécanisme de vérification d'état via un modèle vision-langage (VLM), couplé à des déclencheurs proprioceptifs, sans entraînement supplémentaire. La course aux architectures VLA bout-en-bout est aujourd'hui dominée par Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses successeurs, et des initiatives comme LeRobot de Hugging Face, toutes misant sur des données à grande échelle pour gagner en généralité. MPVI s'inscrit dans un courant concurrent qui défend l'hybridation avec la robotique classique planifiée, une position partagée notamment par les travaux SayCan de Google Research. Le benchmark BEHAVIOR-1K, développé à Stanford et évalué en simulation, est conçu pour mesurer la robustesse sur des tâches domestiques variées et longues, ce qui en fait un terrain de test exigeant. Les auteurs ne revendiquent aucun déploiement physique réel : MPVI reste à ce stade une contribution académique, sans plateforme hardware ni partenaire industriel annoncé.

UEHugging Face (entreprise française) est cité comme acteur de référence dans l'espace VLA avec LeRobot, mais MPVI reste une contribution académique en simulation sans déploiement ni partenariat européen annoncé.

RobotiqueOpinion
1 source
Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
154arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

RechercheOpinion
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
155arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

RechercheOpinion
1 source
Mélange d'horizons dans le découpage en actions
156arXiv cs.RO 

Mélange d'horizons dans le découpage en actions

Des chercheurs ont publié sur arXiv (réf. 2511.19433v2) une approche baptisée Mixture of Horizons (MoH) qui s'attaque à un verrou technique dans les modèles vision-langage-action (VLA) utilisés pour la manipulation robotique. Le problème identifié est le suivant : la longueur du "chunk d'action" (le nombre de pas d'action prédits en une seule passe, appelé horizon) conditionne fortement les performances, mais aucune valeur fixe n'est optimale. Un horizon long donne une meilleure prévision globale du mouvement mais dégrade la précision fine ; un horizon court améliore le contrôle local mais échoue sur les tâches longues. MoH découpe le chunk d'action en plusieurs segments à horizons différents, les traite en parallèle via un transformeur d'action partagé, et fusionne les sorties avec une porte linéaire légère. Appliqué aux politiques pi-0, pi-0.5 (Physical Intelligence) et pi-reg, MoH atteint 99 % de taux de succès moyen sur le benchmark LIBERO en seulement 30 000 itérations d'entraînement, un nouveau state-of-the-art. Le mode d'inférence dynamique, qui sélectionne les actions stables par consensus inter-horizons, délivre un débit 2,5 fois supérieur aux baselines. L'intérêt principal de MoH est sa nature plug-and-play : il s'intègre sans modification architecturale majeure dans tout module d'action à attention complète, avec un surcoût d'entraînement et d'inférence minimal. Pour les équipes qui déploient des VLA en manipulation industrielle ou sur des plateformes humanoïdes, cela signifie qu'elles peuvent améliorer significativement la robustesse sur des tâches mixtes (gestes fins + séquences longues) sans changer leur infrastructure. Le gain de débit est particulièrement pertinent pour le temps réel embarqué, où la latence de prédiction est un facteur limitant concret. Ce travail s'inscrit dans l'essor des VLA issus des travaux de Physical Intelligence (pi-0, sorti fin 2024) et d'OpenVLA, qui ont démontré que le préentraînement multimodal peut accélérer la généralisation en manipulation. Le benchmark LIBERO, issu de recherches en imitation learning, sert de référence standard pour évaluer la transfer et la composition de tâches. Les concurrents directs dans l'espace VLA incluent RoboVLMs de Google DeepMind, OpenVLA-OFT, et les travaux de Carnegie Mellon sur ACT/Diffusion Policy. MoH reste à ce stade une contribution de recherche académique, sans déploiement industriel annoncé, mais sa compatibilité plug-and-play le rend directement utilisable par les équipes qui entraînent déjà sur pi-0 ou des architectures dérivées.

💬 Le problème de l'horizon d'action, c'est un classique en robotique, et personne n'avait vraiment trouvé de sortie propre avant ça. MoH répond avec la bonne idée au bon moment : plusieurs horizons en parallèle, une porte de fusion légère, et tu gardes toute ton infra existante. 99 % sur LIBERO, 2,5x de débit, plug-and-play sur pi-0, bon, sur le papier c'est difficile de trouver à redire.

RechercheOpinion
1 source
Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle
157MarkTechPost 

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Genesis AI a lancé Genesis World 1.0, une plateforme de simulation conçue pour accélérer le développement des modèles de fondation en robotique. La suite se compose de quatre éléments : un moteur physique, Nyx (un moteur de rendu par lancer de rayons en temps réel), Quadrants (un compilateur Python vers GPU), et une interface de simulation. Le problème que tente de résoudre cette plateforme est concret : évaluer une politique robotique sur une centaine de tâches avec plusieurs centaines d'épisodes chacune nécessite normalement plus de 200 heures de fonctionnement continu avec un opérateur humain et un seul robot. Genesis World 1.0 ramène cette même évaluation à moins de 30 minutes, sans intervention humaine ni matériel physique, avec une reproductibilité bit à bit des résultats. C'est un gain d'environ deux ordres de grandeur sur le temps de cycle d'évaluation. Ce bond de performance change fondamentalement la manière dont les équipes de recherche peuvent comparer des variantes de modèles. Jusqu'ici, la lenteur de l'évaluation réelle obligeait à faire des choix brutaux sur le nombre de checkpoints testés, biaisant de facto les décisions de développement. Genesis AI a délibérément choisi d'utiliser la simulation pour l'évaluation avant de l'utiliser pour la génération de données d'entraînement, et ce pour une raison méthodologique précise : si entraînement et évaluation partagent la même distribution simulée, un gain de performance peut simplement refléter une meilleure adaptation au simulateur, et non un progrès réel. L'approche retenue, baptisée "zero-shot real-to-sim", consiste à évaluer en simulation des politiques entraînées exclusivement sur des données réelles. Les résultats de corrélation sont probants : la corrélation de Pearson entre les performances en simulation et sur robot physique atteint 0,8996 (intervalle de confiance à 95 % : [0,7439 ; 0,9314]), calculée sur trois variantes de modèles (Small, Medium, Large), 14 tâches et 200 épisodes par tâche, avec un million d'itérations bootstrap. Le Mean Maximum Rank Violation (MMRV) s'établit à 0,0166, ce qui signifie que le simulateur préserve fidèlement le classement relatif des modèles entre eux. Genesis AI évolue dans un secteur en pleine structuration, où des acteurs comme Google DeepMind, Physical Intelligence ou encore Boston Dynamics investissent massivement dans les modèles de fondation pour la robotique généraliste. La qualité du simulateur est devenue un avantage compétitif direct : Genesis revendique un écart de réalité réduit de 45 % par rapport au meilleur simulateur concurrent, mesuré par le score FID sur leur jeu de données. Pour diagnostiquer précisément les sources de divergence simulation-réalité, l'équipe a construit un banc de test côte à côte permettant de faire fonctionner simultanément le simulateur et un robot physique depuis la même initialisation, en permutant les sources d'observations (caméra, proprioception) pour isoler si les écarts viennent de la physique, du rendu, des communications ou du contrôle. Nyx, le moteur de rendu intégré, vise des images 1080p sans bruit en moins de 4 millisecondes sur un GPU grand public haut de gamme, en s'appuyant sur le lancer de rayons matériel et des splats gaussiens 3D pour les zones où la reconstruction en maillage reste insuffisante.

💬 200 heures d'évaluation robotique ramenées à 30 minutes, c'est pas un gain marginal, c'est un changement de paradigme dans la façon dont on peut itérer sur les modèles. Ce qui m'intéresse surtout, c'est leur choix de séparer les distributions d'entraînement et d'évaluation : simuler les deux ensemble, c'est se mentir à soi-même, et ils l'ont compris. Bon, la corrélation à 0,89 est impressionnante sur le papier, reste à voir si ça tient sur des tâches vraiment hors distribution.

RobotiqueActu
1 source
Arthur Mensch : itinéraire d’un architecte de l’IA européenne
158Le Big Data 

Arthur Mensch : itinéraire d’un architecte de l’IA européenne

Arthur Mensch, 33 ans, a cofondé Mistral AI en mai 2023 à Paris aux côtés de Guillaume Lample et Timothée Lacroix, deux anciens de Meta AI et camarades de l'École Polytechnique. Dès le mois suivant, la jeune pousse lève 105 millions de dollars en amorçage auprès de Lightspeed Venture Partners, un record européen pour une entreprise sans produit visible, fondé uniquement sur la réputation scientifique des trois associés. Le parcours de Mensch lui-même est celui d'un chercheur de fond formé à Polytechnique, Télécom Paris et au Master MVA de l'ENS Paris-Saclay, avant une thèse à l'Inria et au CEA NeuroSpin sur l'optimisation stochastique appliquée à l'imagerie cérébrale. Il rejoint ensuite Google DeepMind Paris fin 2020, où il travaille pendant près de trois ans sur des architectures multimodales et du traitement du langage à grande échelle. Ce que représente Mistral AI dépasse le simple succès commercial d'une startup : c'est la première fois qu'une entreprise européenne s'installe durablement dans la compétition frontale avec OpenAI, Google et Meta sur les grands modèles de langage. En optant pour des modèles ouverts et publiés librement, Mistral bouscule un secteur où la fermeture est la norme, séduisant à la fois les développeurs indépendants, les entreprises soucieuses de souveraineté des données et les gouvernements européens en quête d'alternatives crédibles aux fournisseurs américains. Cette approche technique traduit aussi un pari stratégique : la transparence comme levier de confiance et d'adoption rapide. Le déclic entrepreneurial de Mensch est né d'un constat précis observé de l'intérieur de DeepMind : l'Europe produit des chercheurs en IA parmi les meilleurs au monde, mais la Silicon Valley en capte systématiquement la valeur économique et la propriété intellectuelle. Plutôt que de tenter d'infléchir cette dynamique depuis un grand groupe américain, il choisit de fonder une structure indépendante sur le continent, capable de retenir les talents locaux et de garantir que les données des utilisateurs européens ne transitent pas par des serveurs étrangers. Depuis ses auditions parlementaires à Bruxelles et Paris, Mensch porte désormais ce discours au niveau politique, plaidant pour une régulation de l'IA qui ne pénalise pas les acteurs européens face à des concurrents qui opèrent hors de toute contrainte comparable. En trois ans, Mistral est passé de feuille blanche à symbole d'une souveraineté technologique possible.

UEMistral AI, entreprise purement française, incarne la souveraineté technologique européenne en offrant aux entreprises et gouvernements du continent une alternative crédible aux modèles américains pour héberger leurs données sans dépendance extra-européenne.

💬 105 millions levés sans produit, juste sur la réputation de trois chercheurs : ça te dit tout sur ce que vaut la crédibilité scientifique quand elle est bien emballée. Ce que Mensch a compris (et que DeepMind n'a pas su retenir), c'est que garder les talents ici passe par leur donner la propriété de ce qu'ils construisent. L'open source comme levier d'adoption, c'est le pari qui a marché jusqu'ici.

BusinessOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
159arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

RechercheOpinion
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
160Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

RobotiquePaper
1 source
Claude Opus 4.8 est désormais disponible sur AWS
161AWS ML Blog 

Claude Opus 4.8 est désormais disponible sur AWS

Anthropic a annoncé la disponibilité de Claude Opus 4.8, son modèle le plus avancé de la gamme Opus, sur Amazon Bedrock et sur la Claude Platform déployée sur AWS. Ce lancement permet aux équipes de développement d'intégrer le modèle directement dans leurs environnements AWS existants, tout en bénéficiant des garanties de sécurité entreprise, de résidence régionale des données et de la scalabilité d'infrastructure propres à Amazon. Pour les cas d'usage ne nécessitant pas de résidence régionale, le modèle est également accessible via la plateforme native d'Anthropic hébergée sur AWS. Techniquement, l'accès se fait via le SDK Anthropic avec l'identifiant de modèle us.anthropic.claude-opus-4-8, ou via les API Invoke et Converse d'Amazon Bedrock. Ce qui distingue Opus 4.8 de ses prédécesseurs, c'est sa capacité à maintenir un plan d'action sur plusieurs étapes successives, à suivre ce qui a été accompli et ce qui reste à faire, et surtout à se recorriger lorsqu'un blocage survient plutôt que de simplement s'arrêter sur une erreur. Pour les équipes qui automatisent des tâches longues et complexes, cette stabilité se traduit concrètement par moins de variance dans les sorties, moins de cycles de révision manuelle, et une supervision réduite des pipelines en production. En développement logiciel, le modèle est conçu pour naviguer dans de vraies bases de code, planifier avant d'éditer, et conserver le contexte sur des sessions prolongées. Les cas d'usage industriels ciblés incluent la recherche d'investissement et l'analyse de résultats financiers, la rédaction de contrats et de mémoires juridiques, la synthèse de littérature scientifique et de soumissions réglementaires en sciences du vivant, ainsi que l'analyse de menaces et la réponse à incident en cybersécurité. Ce lancement s'inscrit dans une stratégie de partenariat approfondi entre Anthropic et AWS, qui s'est notamment matérialisée par un investissement d'Amazon pouvant atteindre quatre milliards de dollars dans Anthropic. La disponibilité sur Bedrock est stratégique pour Anthropic, qui cherche à s'imposer comme fournisseur de référence pour les déploiements en entreprise, face à la concurrence directe d'OpenAI via Azure et de Google DeepMind via Vertex AI. Opus 4.8 représente le haut de gamme de la nouvelle génération Claude 4, une famille de modèles qui comprend également Sonnet 4.6 et Haiku 4.5, chacun positionné sur un équilibre différent entre performance et coût d'inférence. La prochaine étape pour Anthropic sera probablement d'élargir la disponibilité régionale du modèle sur Bedrock, et d'affiner ses capacités dans les domaines où la régulation de l'IA évolue rapidement.

UELes entreprises européennes peuvent déployer Claude Opus 4.8 sur Amazon Bedrock avec résidence régionale des données, facilitant la conformité RGPD pour les cas d'usage en production.

LLMsActu
1 source
FineVLA : alignement fin des instructions pour des politiques VLA pilotables
162arXiv cs.RO 

FineVLA : alignement fin des instructions pour des politiques VLA pilotables

Une équipe de recherche a publié fin mai 2026 FineVLA, un framework ouvert destiné à améliorer la précision des instructions données aux modèles Vision-Langage-Action (VLA) en robotique. Le problème central adressé : les datasets robotiques existants associent les trajectoires à des instructions de haut niveau ("saisir l'objet"), sans préciser les détails d'exécution critiques comme le bras actif, la direction d'approche ou la zone de contact. Pour y remédier, l'équipe a unifié 972 247 trajectoires issues de 10 datasets open-source couvrant 85 000 tâches, puis construit FineVLA-Data, un sous-ensemble de 47 159 trajectoires annotées finement et vérifiées humainement. Le benchmark d'évaluation comprend 500 vidéos, 10 816 faits atomiques et 1 030 questions en VQA. En simulation RoboTwin, la meilleure configuration atteint 86,8 % / 82,5 % de succès ; en manipulation bimanuelle réelle, 62,7 / 100, contre 49,9 pour une politique entraînée uniquement sur des instructions brutes. Ces résultats contredisent une hypothèse fréquente dans la communauté VLA : que l'ajout de supervision fine-grained dégraderait les performances sur les tâches de haut niveau. Les expériences montrent l'inverse, avec un gain de +1,4 à +8,1 points de taux de succès selon les configurations. Le ratio optimal se situe entre FG:Raw = 1:2 et 1:1, suivant une courbe en U inversé. Les gains les plus nets en contrôle orientable portent sur la posture (+23 points), la couleur (+18) et la direction d'approche (+18), trois dimensions que les instructions globales n'adressent tout simplement pas. Cela valide l'idée que la précision linguistique au niveau de l'exécution est un levier sous-exploité dans la chaîne sim-to-real. FineVLA s'inscrit dans une course aux politiques robotiques généralisables où s'affrontent notamment Pi-0 de Physical Intelligence, OpenVLA (Berkeley), et les travaux de Google DeepMind autour de RT-2 et ses dérivés. L'originalité ici n'est pas un nouveau backbone mais une infrastructure de données et d'annotation : un annotateur VLM spécialisé robotique pour passer à l'échelle, et un pipeline de construction de dataset reproductible. Le projet est open-source avec une page dédiée (finevla.xlang.ai), ce qui facilite l'adoption par d'autres labos. Prochaine étape logique : tester la généralisation hors distribution et l'intégration dans des stacks industrielles où la précision des consignes opérateur est précisément un point de friction non résolu.

💬 Le vrai enseignement, c'est que dire au robot "saisir l'objet" et lui préciser le bras actif, l'angle d'approche, la zone de contact, ce n'est tout simplement pas la même chose en résultats. +23 points sur la posture, +18 sur la direction d'approche, ça ne vient pas d'un nouveau backbone mais juste d'instructions mieux rédigées. Reste à voir si ça tient hors distribution, mais l'infra d'annotation open-source, c'est ce qui peut faire avancer tout le monde en même temps.

RechercheOpinion
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
163arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

RechercheOpinion
1 source
Elon Musk prépare déjà Grok 5, la prochaine IA géante pour les développeurs ?
164Le Big Data 

Elon Musk prépare déjà Grok 5, la prochaine IA géante pour les développeurs ?

Elon Musk a annoncé le 25 mai 2026 la fin de l'entraînement du modèle Grok V9-Medium chez xAI, un système massif de 1,5 trillion de paramètres qui devrait être commercialisé sous le nom de Grok 4.5 ou Grok 5 d'ici deux à trois semaines. Ce chiffre représente trois fois la taille de la version actuelle V8-small utilisée pour le trafic quotidien de Grok. Le modèle entre désormais dans une phase de réglage fin supervisé, avec le lancement de l'apprentissage par renforcement prévu dans les prochains jours. Parmi les éléments notables de cet entraînement, xAI a intégré un volume important de données issues de Cursor, l'assistant de code alimenté par IA qui s'est imposé comme un outil de référence dans les workflows des développeurs professionnels. L'architecture a également été optimisée pour les GPU NVIDIA Blackwell afin d'améliorer l'efficacité de calcul et de réduire les coûts d'inférence. Ce qui distingue ce nouveau modèle des précédentes versions de Grok, c'est son orientation délibérée vers la programmation et l'ingénierie logicielle. En intégrant massivement des données réelles issues des habitudes des développeurs via Cursor, xAI cherche à construire un assistant capable de comprendre le code en profondeur, de corriger des bugs et de conduire un raisonnement logique complexe, plutôt que de simplement générer des extraits de code à la demande. Pour les entreprises tech et les équipes de développement, cela signifie un concurrent sérieux face à des outils comme GitHub Copilot, Claude ou GPT-4o dans le segment des assistants de codage, un marché en croissance rapide où la différenciation se joue désormais sur la spécialisation et la précision technique plutôt que sur les capacités généralistes. xAI s'inscrit dans une dynamique de course aux paramètres qui s'emballe depuis plusieurs mois dans l'industrie de l'IA, avec des annonces de modèles toujours plus massifs de la part d'OpenAI, Google DeepMind et Anthropic. Pour Musk, ce lancement représente également une opportunité de valoriser l'infrastructure du supercalculateur Colossus de xAI, dont la société cherche à prouver qu'elle peut rivaliser avec les centres de données des géants établis. La réduction des coûts d'inférence grâce à l'optimisation Blackwell est un enjeu stratégique concret : faire tourner un modèle de 1,5 trillion de paramètres à grande échelle représente des dépenses considérables, et la viabilité commerciale du produit dépendra autant de cette efficacité opérationnelle que de ses performances brutes sur les benchmarks. La sortie publique attendue courant juin 2026 constituera un test grandeur nature.

💬 1,5 trillion de paramètres, c'est soit impressionnant soit du flan selon comment tu arrives à le faire tourner à coût raisonnable. Ce qui m'intéresse vraiment, c'est les données Cursor : entraîner sur des vrais workflows de devs, pas juste du code GitHub, c'est une idée qui tient la route. Reste à voir si ça se traduit en gain réel ou juste en benchmark flatteur.

LLMsOpinion
1 source
IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact
165arXiv cs.RO 

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact

Des chercheurs ont publié le 27 mai 2026 sur arXiv (référence 2605.24339) IsaacIPC, un framework de simulation robotique qui couple le moteur IPC (Incremental Potential Contact) accéléré GPU avec l'environnement IsaacSim/Lab de NVIDIA. Le coeur du système repose sur un mapping de déformation entre maillages de simulation et maillages de rendu, permettant un rendu visuel réaliste en temps réel pour des scénarios à contacts riches (manipulation déformable, préhension complexe). Les auteurs introduisent également le GMCP (Geometric Mortar Contact Potential), une nouvelle formulation de potentiel barrière appliquée aux surfaces tactiles pour résoudre les distributions pression-contact avec une précision supérieure aux approches existantes. Le framework est validé sur un robot quadrupède, une main dextre à doigts multiples et un préhenseur UMI (Universal Manipulation Interface). L'enjeu industriel est direct : la qualité des données de simulation conditionne la robustesse des politiques de manipulation entraînées en sim-to-real. IsaacIPC s'attaque au problème du rendu réaliste couplé à la physique du contact, un point de friction majeur pour l'entraînement de VLA (Vision-Language-Action models) et de politiques de manipulation fine. Une simulation visuellement fidèle réduit le domain gap sans recourir à la randomisation agressive, ce qui accélère le déploiement sur hardware réel. La précision tactile apportée par GMCP est particulièrement pertinente pour les intégrateurs travaillant sur l'assemblage ou la chirurgie assistée par robot. Le contexte scientifique est celui d'une compétition intense autour des simulateurs pour la robotique apprenante. IPC, initialement développé en infographie par Li et al. (2020), est reconnu pour sa robustesse aux contacts mais reste coûteux en calcul -- son intégration dans IsaacSim comble un écart entre fidelité physique et vitesse nécessaire à l'entraînement par reinforcement learning. En face, MuJoCo (DeepMind), Genesis et PhysX restent des références, mais peinent sur les déformables et la tactile. IsaacIPC reste à ce stade un preprint académique sans annonce de disponibilité publique dans Isaac Lab, mais son intégration dans l'écosystème NVIDIA ouvre une voie réaliste vers une adoption industrielle rapide si les benchmarks de contact tiennent à l'échelle.

UELes laboratoires européens travaillant sur la manipulation robotique apprenante (INRIA, DLR, ETH Zurich) pourraient bénéficier de cet outil si NVIDIA le rend public dans Isaac Lab, mais aucun impact direct ou immédiat sur la France/UE n'est identifié à ce stade.

💬 Le gap sim-to-real, c'est le problème de fond de la robotique apprenante depuis des années, et là quelqu'un s'y attaque enfin du bon côté: rendu réaliste et physique du contact au même endroit, dans le même outil. Le GMCP pour la tactile fine couplé à IsaacSim, c'est le genre de truc qui permet d'entraîner des VLA sur de la manipulation délicate sans randomiser dans tous les sens pour compenser. Reste à voir si ça sort vraiment dans Isaac Lab, parce que pour l'instant c'est encore un preprint.

RobotiquePaper
1 source
MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros
166Le Big Data 

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

MiniCPM5-1B, développé par OpenBMB en collaboration avec des chercheurs de l'université Tsinghua, vient de décrocher la première place de l'Artificial Analysis Intelligence Index dans la catégorie des modèles open source sous les 2 milliards de paramètres, avec un score de 17,9 points. Ce résultat lui permet de devancer des concurrents pourtant plus imposants comme Qwen3.5-2B, qui plafonne à 16,3 points, malgré deux fois moins de paramètres. L'annonce a été faite le 25 mai 2026 via le compte ModelScope. Quantifié en INT4, le modèle ne pèse qu'environ 0,5 Go, ce qui lui permet de fonctionner localement sur des smartphones, dans des navigateurs web ou sur des appareils edge. Il propose une fenêtre de contexte de 128 000 tokens, deux modes de réponse (raisonnement détaillé étape par étape ou réponses rapides), et affiche de solides performances en mathématiques, génération de code et utilisation d'outils externes. Le projet est entièrement open source : poids, données d'entraînement et code de déploiement sont accessibles publiquement. OpenBMB précise également que MiniCPM5-1B a été entraîné via ForgeTrain, un framework de préentraînement développé sans programmeur humain. L'impact concret de ce type de modèle est considérable pour les usages du quotidien. Un modèle capable de fonctionner hors connexion sur un téléphone ordinaire ou un ordinateur portable bas de gamme transforme radicalement l'accès à l'IA : plus besoin d'envoyer des données vers des serveurs distants, plus de latence réseau, plus de dépendance à un abonnement cloud. Des utilisateurs rapportent déjà avoir dialogué avec le modèle pendant près d'une heure sans connexion Wi-Fi. Pour les entreprises, les développeurs indépendants ou les pays disposant d'infrastructures réseau limitées, cette autonomie représente un changement structurel. La capacité à gérer de longs documents ou conversations sans perdre le contexte, malgré un format aussi compact, élargit encore le champ d'application possible. La progression des petits modèles efficaces s'inscrit dans une tendance de fond qui remet en question la course aux paramètres qui a dominé l'industrie depuis 2020. Des laboratoires comme Google DeepMind avec Gemma, ou Meta avec les versions légères de LLaMA, explorent également cette voie, mais MiniCPM5-1B illustre que des équipes académiques chinoises peuvent désormais rivaliser directement avec les géants technologiques occidentaux sur ce terrain. Le fait qu'OpenBMB ait rendu l'ensemble du processus open source accentue la pression sur les acteurs commerciaux, qui ne peuvent plus se contenter de la taille pour justifier leurs coûts. La prochaine étape sera de vérifier si ces performances sur benchmarks se traduisent par une adoption réelle dans des applications grand public, ce qui constitue historiquement le vrai test de viabilité pour tout modèle, quel que soit son format.

UECe modèle open source deployable hors connexion pourrait intéresser des développeurs et PME européennes soucieux de souveraineté des données, mais aucun impact réglementaire ou institutionnel direct pour la France ou l'UE n'est identifié.

💬 0,5 Go pour battre Qwen deux fois plus gros, c'est le genre de chiffre qui devrait clore les débats sur la course aux paramètres. Ce qui m'intéresse c'est pas le score, c'est l'offline : dialoguer une heure depuis ton téléphone sans Wi-Fi et sans envoyer tes données nulle part, c'est un usage réel pour des millions de gens. Tout est open source, poids, données, code, donc la communauté va vite trancher si ça tient à l'usage ou non.

LLMsOpinion
1 source
Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles
167The Decoder 

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Trois figures majeures de l'intelligence artificielle ont exprimé des visions radicalement divergentes sur l'état actuel de la technologie. Yann LeCun, directeur de la recherche en IA chez Meta, affirme que les systèmes actuels ne sont pas véritablement intelligents. Demis Hassabis, PDG de Google DeepMind, pense au contraire que l'humanité se trouve déjà "dans les contreforts de la singularité". Oriol Vinyals, co-responsable du projet Gemini chez Google DeepMind, propose une lecture intermédiaire : les modèles d'aujourd'hui auraient semblé être une AGI il y a sept ans, mais ils demeurent incapables d'apprendre par l'expérience ou de produire de réelles percées scientifiques. Ce désaccord entre chercheurs de premier plan révèle une fracture profonde sur la trajectoire réelle de l'IA. La question n'est pas anodine : selon que l'on adopte la vision de LeCun ou celle de Hassabis, les priorités de recherche, les stratégies d'investissement et les cadres réglementaires changent radicalement. Des milliards de dollars et la crédibilité des grands laboratoires, OpenAI, Anthropic, Google DeepMind, Meta AI, sont directement en jeu. Ce débat s'inscrit dans une réflexion plus large sur ce que signifie réellement l'intelligence artificielle générale. LeCun critique depuis longtemps les grandes architectures de type transformeur, jugées insuffisantes pour atteindre une compréhension réelle du monde. Hassabis, lui, a prédit que l'AGI pourrait émerger d'ici quelques années. La position nuancée de Vinyals suggère que si les progrès sont indéniables, les verrous fondamentaux, notamment l'adaptation continue et la découverte autonome, demeurent entiers.

UELe débat sur la trajectoire réelle de l'IA influence indirectement le calibrage réglementaire européen, notamment les seuils de risque et les obligations de transparence prévus par l'AI Act.

💬 LeCun et Hassabis se contredisent frontalement, et c'est en fait le signal le plus intéressant de cette actu. Quand les deux personnes qui orientent des milliards de dollars de recherche n'arrivent pas à se mettre d'accord sur l'état actuel de l'IA, tous les cadres réglementaires qui essaient de calibrer des "niveaux de risque" reposent sur du vent. La position de Vinyals, nos modèles auraient bluffé tout le monde en 2019 mais les vrais verrous restent entiers, c'est la seule qui ressemble à quelque chose de solide.

RechercheOpinion
1 source
The Download : l'avenir du code, les « Jeux olympiques sous stéroïdes » et la science par l'IA
168MIT Technology Review 

The Download : l'avenir du code, les « Jeux olympiques sous stéroïdes » et la science par l'IA

Lors de l'événement développeur Code with Claude organisé par Anthropic à Londres cette semaine, presque la moitié des participants ont levé la main quand on leur a demandé s'ils avaient mis en production du code écrit entièrement par Claude, sans l'avoir relu. Ce signal fort illustre une transformation profonde du développement logiciel : des outils comme Claude Code gagnent suffisamment la confiance des ingénieurs pour qu'ils délèguent non seulement l'écriture, mais aussi la validation du code à l'IA. Anthropic assume pleinement cette direction et dit vouloir pousser l'automatisation aussi loin que possible. En parallèle, lors du Google I/O mardi, Demis Hassabis, PDG de Google DeepMind, a déclaré que l'humanité se trouvait "aux contreforts de la singularité" et annoncé Gemini for Science, un agent LLM capable de piloter des projets de recherche scientifique de bout en bout, avec la possibilité de faire appel à des systèmes spécialisés comme WeatherNext. Ces annonces révèlent deux basculements simultanés. Dans le développement logiciel, la question n'est plus de savoir si l'IA va coder à la place des humains, mais à quelle vitesse et avec quelles garanties de qualité. Des ingénieurs chez OpenClaw mettent déjà en garde contre une vague de "vibe-coded slop", du code généré à la va-vite par IA, potentiellement dangereux, qui inonde les bases de code de l'industrie. Dans la science, le passage d'outils spécialisés à des agents autonomes représente un changement de paradigme : Google semble délaisser les systèmes entraînés pour des tâches précises au profit d'architectures agentiques générales, une orientation qui pourrait accélérer la recherche mais aussi en réduire la traçabilité et l'explicabilité. Ces évolutions s'inscrivent dans un moment charnière pour l'IA en 2026. D'un côté, les modèles du monde, world models, portés par des chercheurs de Google DeepMind, du World Labs de Fei-Fei Li et de Yann LeCun (ex-chief AI scientist de Meta) cherchent à doter les systèmes d'une compréhension causale de l'environnement physique, une direction jugée essentielle pour dépasser les limites actuelles des LLM. De l'autre, la régulation reste absente : Donald Trump a reporté cette semaine un décret sur l'IA, craignant qu'il ne freine l'industrie américaine dans sa course contre la Chine. Résultat, l'industrie avance à grande vitesse, sans garde-fou clair, sur des sujets aussi larges que la production de code critique, la recherche scientifique autonome et la modélisation du monde réel.

UEL'absence de régulation fédérale américaine renforce le positionnement de l'AI Act européen comme seul cadre juridique structurant pour encadrer le code généré automatiquement et les agents de recherche scientifique autonomes.

💬 La stat qui me reste : la moitié des devs à Code with Claude shippent du code IA sans relecture. Je comprends, quand le modèle est fiable et le périmètre bien borné, ça peut marcher. Mais à l'échelle de l'industrie entière, sans garde-fou, on construit une belle dette technique invisible dont personne ne voudra être responsable dans six mois.

LLMsActu
1 source
MagenticLite, MagenticBrain, Fara1.5 : une expérience à base d'agents optimisée pour les petits modèles
169Microsoft Research 

MagenticLite, MagenticBrain, Fara1.5 : une expérience à base d'agents optimisée pour les petits modèles

Microsoft Research AI Frontiers a publié MagenticLite, une application agentique expérimentale conçue pour fonctionner avec de petits modèles de langage. Successeur de Magentic-UI, MagenticLite opère simultanément dans le navigateur web et le système de fichiers local, au sein d'un seul workflow unifié. Elle repose sur deux modèles développés spécifiquement pour cette architecture : MagenticBrain, chargé du raisonnement, de la planification et de l'exécution de code en terminal, et Fara1.5, une famille de modèles dédiée aux tâches informatiques via le navigateur. Fara1.5 se décline en trois tailles, avec un modèle phare de 9 milliards de paramètres. Par rapport à son prédécesseur Fara-7B, il double presque les performances sur la navigation web et améliore significativement la gestion des formulaires, des sites nécessitant une authentification, et des tâches longues. Fara1.5 établit de nouveaux résultats de référence parmi les petits modèles de computer-use. L'enjeu central de cette publication est de démontrer qu'il est possible d'atteindre des performances agentiques élevées sans recourir à des modèles massifs et coûteux. En faisant tourner l'ensemble du système directement sur la machine de l'utilisateur, MagenticLite préserve la confidentialité des données et réduit drastiquement les coûts d'inférence. Le pari de Microsoft Research est que la capacité agentique repose davantage sur l'orchestration des outils et l'enchaînement d'actions que sur la quantité de connaissances encodées dans un modèle. Cette approche ouvre la voie à des agents capables d'automatiser des tâches réelles, recherche web, gestion de fichiers, remplissage de formulaires, sans dépendre d'une infrastructure cloud onéreuse ni exposer les données à des serveurs distants. Ce projet s'inscrit dans une course plus large que se livrent les grands acteurs de l'IA pour démocratiser les agents autonomes. Face à des systèmes comme Claude Computer Use d'Anthropic ou les agents de Google DeepMind, Microsoft Research mise sur la coconception intégrale : données d'entraînement, architecture des modèles, harnais d'exécution et interface utilisateur ont été repensés ensemble plutôt qu'en silos. Les évaluations ont été construites à partir de scénarios réels plutôt que de benchmarks standardisés seuls, ce qui reflète une volonté de mesurer l'utilité concrète plutôt que des scores abstraits. Les trois composants sont disponibles séparément mais conçus pour fonctionner ensemble, laissant entrevoir une trajectoire vers des agents compétents embarqués directement dans les appareils des utilisateurs finaux, sans connexion permanente au cloud.

OutilsOutil
1 source
VLANeXt : recettes pour construire des modèles VLA performants
170arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

RechercheOpinion
1 source
Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels
171The Decoder 

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels

Google DeepMind a couplé son modèle de monde génératif Genie 3 à la base de données Street View pour permettre à des utilisateurs de créer des environnements 3D explorables à partir de lieux réels. Le principe est simple : l'utilisateur pose une épingle sur une carte, et le système génère automatiquement un monde interactif dans lequel il peut se déplacer, construit à partir des images photographiées par les voitures Google au fil des années. La démonstration illustre une convergence inédite entre la cartographie grand public et la génération de mondes par intelligence artificielle. L'enjeu dépasse la simple curiosité technologique. Ces environnements synthétiques mais ancrés dans la réalité constituent une ressource d'entraînement particulièrement précieuse pour les agents IA et les systèmes robotiques, qui ont besoin de naviguer dans des espaces proches du monde physique sans avoir à y être déployés physiquement. Là où les simulateurs classiques exigeaient un travail de modélisation manuel considérable, Genie 3 génère ces espaces à la volée, à partir de données déjà collectées massivement. Google DeepMind travaille sur la série Genie depuis 2024 : Genie 1 avait montré la capacité à générer des environnements 2D jouables, Genie 2 avait franchi le cap de la 3D cohérente. L'intégration à Street View transforme la flotte de véhicules cartographiques de Google en infrastructure d'entraînement pour la prochaine génération de robots et d'agents autonomes, positionnant l'entreprise avec un avantage concurrentiel difficile à répliquer pour des acteurs sans accès à des données géospatiales à cette échelle.

UELes données Street View couvrant l'ensemble du territoire européen, cette technologie pourrait générer des environnements d'entraînement pour robots et agents IA dans des contextes urbains français et européens, mais aucune application commerciale n'est encore disponible.

RecherchePaper
1 source
Agents IA : pourquoi Singapour attire OpenAI et Google ?
172Le Big Data 

Agents IA : pourquoi Singapour attire OpenAI et Google ?

Lors de l'ATxSummit 2026 ce 20 mai, Singapour a officialisé deux accords stratégiques distincts avec OpenAI et Google, marquant une nouvelle étape dans son ambition de devenir la capitale asiatique de l'intelligence artificielle. OpenAI s'engage à investir plus de 300 millions de dollars singapouriens dans la cité-État et à y ouvrir son premier laboratoire d'IA appliquée hors des États-Unis, avec la création de plus de 200 postes techniques dédiés à l'intégration de modèles IA dans des environnements métier réels. Google, de son côté, formalise un partenariat axé sur la gouvernance et la recherche appliquée, avec notamment la publication d'un livre blanc conjoint avec le gouvernement sur le déploiement sécurisé des agents IA, dans la continuité d'un environnement de test lancé en 2025. Les deux géants ciblent des secteurs prioritaires comme la santé, la finance, les services publics et les infrastructures numériques, et prévoient des programmes de formation pour ingénieurs, enseignants et PME. Ces annonces confirment Singapour comme terrain d'expérimentation de référence pour l'industrialisation des agents IA en Asie-Pacifique. Pour les entreprises technologiques et les grands groupes qui cherchent à déployer l'IA à grande échelle, la cité-État offre une combinaison rare : infrastructures robustes, cadre réglementaire prévisible, viviers de talents qualifiés et soutien actif de l'État. OpenAI et Google rejoignent ainsi Amazon Web Services, Microsoft et Google DeepMind, qui avaient déjà établi des positions fortes dans le pays. L'enjeu concret est d'accélérer l'adoption opérationnelle des agents autonomes dans des entreprises locales et régionales, en développant des systèmes capables d'automatiser des tâches complexes et de soutenir des opérations métier critiques. Ce positionnement n'est pas le fruit du hasard. Depuis plusieurs années, Singapour investit méthodiquement dans son infrastructure technologique, traitant désormais l'IA comme une infrastructure stratégique au même titre que le cloud ou les télécommunications. Le gouvernement a engagé plus d'un milliard de dollars singapouriens sur la période 2025-2030 pour renforcer la recherche publique et accélérer l'adoption de l'IA dans l'économie nationale. Pour OpenAI, la cité-État représente surtout une porte d'entrée vers l'ensemble de la région Asie-Pacifique, avec un environnement politique et économique plus stable que d'autres marchés régionaux. La question des agents autonomes sécurisés, portée activement par Google, sera centrale pour la suite : à mesure que les entreprises intègrent ces systèmes dans des processus critiques, la gouvernance devient un avantage concurrentiel autant qu'une nécessité réglementaire.

UELa stratégie singapourienne illustre comment un cadre réglementaire stable et un soutien étatique fort peuvent attirer les leaders mondiaux de l'IA, un modèle que l'UE peine encore à reproduire malgré l'AI Act.

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
173arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

RechercheOpinion
1 source
COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones
174arXiv cs.RO 

COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones

Des chercheurs ont publié sur arXiv (2605.19138) COBALT, une plateforme de télé-opération robotique cloud conçue pour collecter massivement des données de démonstration via des appareils grand public, smartphones, casques VR, souris 3D ou clavier. L'infrastructure repose sur des environnements vectorisés et un équilibrage de charge permettant à plusieurs utilisateurs de téléopérer simultanément sur un seul GPU, avec une latence bout-en-bout inférieure à 100 ms et une fréquence de contrôle de 20 Hz pour jusqu'à 8 utilisateurs par GPU. La montée en charge a été validée jusqu'à 256 clients simulés répartis sur 8 GPUs. En cinq jours, et depuis neuf pays, COBALT a permis de constituer un jeu de données pilote de plus de 7 500 démonstrations, soit plus de 50 heures de manipulation enregistrées. Un système de métriques en temps réel filtre automatiquement les démonstrations de mauvaise qualité, et un curriculum de formation des opérateurs améliore significativement la qualité des données collectées. L'intérêt majeur de ce travail réside dans l'attaque frontale du goulot d'étranglement principal du robot learning par imitation : la rareté des données de haute qualité à grande échelle. Les approches comme ACT, Diffusion Policy ou Pi-0 (Physical Intelligence) ont démontré que l'apprentissage par imitation fonctionne, mais leur passage à l'échelle bute sur le coût et la logistique de la collecte. COBALT démontre que la télé-opération par smartphone est comparable, parfois supérieure, au matériel spécialisé type ALOHA ou bras haptiques, ce qui élimine une barrière d'entrée majeure. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à une collecte distribuée sans infrastructure physique dédiée, potentiellement transformatrice pour le coût de développement de politiques de manipulation. Le projet s'inscrit dans une dynamique plus large de constitution de grands jeux de données robotiques ouverts, comparable à Open-X Embodiment (Google DeepMind, 2023) ou au dataset DROID (Berkeley, Stanford). Les concurrents directs incluent l'initiative AgiBot World en Chine, qui a annoncé 1 million de trajectoires collectées via des bras téléopérés dédiés, et Universal Manipulation Interface (UMI) qui mise sur des dispositifs portables. COBALT se distingue par l'accessibilité des équipements et la scalabilité cloud, mais reste à ce stade un preprint académique sans déploiement industriel annoncé. La prochaine étape crédible est la validation sur des tâches réelles de manipulation, les auteurs ayant pour l'instant publié les résultats de politiques entraînées sur ce dataset sans préciser les benchmarks atteints.

UELes équipes R&D françaises et européennes (INRIA, CEA-List, startups robot learning) pourraient exploiter COBALT pour collecter des données de démonstration à faible coût sans infrastructure physique dédiée, mais aucune institution européenne n'est impliquée dans ce projet.

RobotiqueOpinion
1 source
NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA
175NVIDIA AI Blog 

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

À l'occasion de Google I/O 2026, NVIDIA et Google Cloud ont annoncé une série de nouvelles ressources pour leur communauté de développeurs commune, qui regroupe désormais plus de 100 000 membres. Lancée lors de Google I/O l'année précédente, cette communauté réunit développeurs, data scientists et ingénieurs en machine learning autour de l'écosystème NVIDIA sur Google Cloud. Parmi les nouveautés dévoilées cette année : un parcours d'apprentissage dédié à la bibliothèque JAX sur GPU NVIDIA, un codelab centré sur NVIDIA Dynamo pour l'optimisation de l'inférence, ainsi que des livestreams mensuels. Les développeurs peuvent désormais déployer des applications multi-agents en combinant les modèles ouverts Gemma 4 de Google DeepMind, les modèles NVIDIA Nemotron et le Google Agent Development Kit, sur des machines virtuelles G4 de Google Cloud équipées de GPU NVIDIA RTX PRO 6000 Blackwell, via Google Cloud Run ou des instances spot. Le nouveau parcours JAX et le codelab NVIDIA Dynamo sur GKE seront disponibles le mois prochain pour les membres de la communauté. Ces annonces ont un impact direct pour les équipes techniques qui cherchent à passer du prototype à la production rapidement. En combinant des modèles ouverts, des bibliothèques accélérées comme cuDF dans Google Colab Enterprise ou Dataproc, et une infrastructure GPU de dernière génération, les développeurs disposent d'un pipeline complet pour construire des applications d'IA prêtes pour la production : des systèmes RAG (retrieval-augmented generation) sur GKE aux pipelines de données d'entreprise en passant par l'analyse sportive. La collaboration sur JAX, framework de calcul numérique utilisé notamment par Google DeepMind pour l'entraînement de grands modèles, étend ces optimisations jusqu'à la plateforme Google Cloud AI Hypercomputer et au framework MaxText, permettant de passer d'expériences sur un seul GPU à des déploiements multi-rack avec une expérience cohérente. L'un des volets les plus significatifs du partenariat concerne l'IA responsable : NVIDIA est le premier partenaire industriel à avoir collaboré avec Google DeepMind sur SynthID, une technologie de tatouage numérique qui intègre des filigranes robustes directement dans les contenus générés par l'IA. Cette technologie est appliquée aux modèles Cosmos de NVIDIA, des modèles de fondation dédiés à la perception 3D et à la simulation pour robots et systèmes autonomes, disponibles sur build.nvidia.com. Dans un contexte où les agents IA combinent de plus en plus modèles propriétaires et open source pour raisonner et agir de manière autonome, cette couche de transparence devient un enjeu central pour la confiance des organisations qui déploient ces systèmes à grande échelle.

UELa technologie SynthID de filigrane numérique, développée avec Google DeepMind et intégrée aux modèles NVIDIA, répond directement aux obligations de transparence de l'AI Act européen sur les contenus générés par IA (Article 50).

OutilsOutil
1 source
SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation
176arXiv cs.RO 

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Des chercheurs ont publié sur arXiv (référence 2605.16871) SADP, pour Subgoal-Aware Diffusion Policy, un framework d'apprentissage par imitation conçu pour rendre les robots manipulateurs explicables en cours d'exécution. L'approche repose sur deux mécanismes combinés : l'utilisation de modèles de fondation pour générer automatiquement des démonstrations annotées en sous-objectifs intermédiaires, et l'entraînement d'une politique de diffusion conditionnée simultanément sur la description de la tâche globale et sur chaque sous-objectif. Une tête auxiliaire légère prédit en temps réel l'état de complétion de chaque sous-étape, exposant ainsi la progression interne du robot à un opérateur humain. Les expériences couvrent des simulations dans l'environnement de référence RLBench et une validation en conditions réelles sur un bras UR5e d'Universal Robots. Les résultats affichent des taux de succès supérieurs aux baselines de type diffusion conditionnée uniquement par la tâche, sans sacrifier les performances globales. L'apport principal n'est pas l'explicabilité en soi, déjà abordée par des approches post-hoc, mais son intégration native dans la politique d'action. Pour un intégrateur ou un responsable industriel, cela change l'équation opérationnelle : il devient possible de monitorer l'avancement d'une manipulation longue-distance, de localiser précisément le sous-objectif en échec, et de réduire les temps de diagnostic en production. Le recours aux modèles de fondation pour annoter automatiquement les démonstrations contourne par ailleurs la pénurie chronique de supervision au niveau des sous-tâches dans les datasets robotiques standards, un goulot d'étranglement pratique bien identifié. La coexistence d'interprétabilité et de haute performance remet en question l'hypothèse d'un arbitrage inévitable entre les deux. Les diffusion policies sont devenues un paradigme dominant pour la manipulation dextère depuis les travaux de Chi et al. en 2023, mais leur opacité décisionnelle reste une critique persistante dans les contextes déploiement industriel. Les modèles VLA comme pi-0 (Physical Intelligence), OpenVLA ou les RT-séries de Google DeepMind exploitent les connaissances des modèles de fondation sans pour autant structurer explicitement la progression par sous-objectifs. SADP se positionne à l'intersection des politiques de diffusion et de la décomposition hiérarchique de tâches, dans un espace concurrentiel qui inclut également des approches comme SayCan ou Code-as-Policies. L'utilisation d'un UR5e, cobot industriel standard très répandu, renforce la crédibilité des résultats en conditions réelles. Les suites naturelles incluront probablement la mise à l'échelle vers des tâches plus complexes et des tests en environnements industriels réels.

UEL'utilisation du UR5e d'Universal Robots (fabricant danois, UE) comme plateforme de validation réelle renforce la pertinence industrielle pour les intégrateurs européens, et l'explicabilité native des politiques de diffusion répond directement aux exigences de transparence algorithmique de l'AI Act.

💬 L'explicabilité en robotique, c'est souvent du post-hoc rajouté en bout de chaîne, une couche de justification qui n'influence rien sur l'exécution réelle. Là, c'est intégré dans la politique elle-même, avec une tête auxiliaire qui prédit en temps réel où en est le robot dans la séquence, ce qui change vraiment le diagnostic quand une manipulation foire en production. Et valider ça sur un UR5e plutôt que sur un bras de labo maison, au moment où l'AI Act va forcer les industriels à justifier leurs systèmes, c'est pas anodin.

RobotiquePaper
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
177arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

RechercheOpinion
1 source
Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions
178arXiv cs.RO 

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

Des chercheurs ont publié sur arXiv (réf. 2602.08167, version 2) la méthode R&B-EnCoRe, conçue pour améliorer le raisonnement des modèles Vision-Language-Action (VLA) en robotique sans annotation humaine ni récompense externe. Sur des tâches de manipulation avec bras Franka Panda en simulation et WidowX sur matériel réel, et de navigation sur quatre types de plateformes (bipèdes, wheeled, vélo et quadrupède), la méthode affiche 28 % de gain sur le taux de succès en manipulation, 101 % d'amélioration sur les scores de navigation, et 21 % de réduction du taux de collision par rapport aux baselines VLA traitant indistinctement tous les primitives de raisonnement disponibles. Les tests couvrent des architectures de 1B à 30B paramètres et incluent un volet conduite autonome ; aucun déploiement industriel ni partenaire commercial n'est mentionné, il s'agit d'une contribution de recherche fondamentale. Le problème ciblé est structurel dans le domaine VLA : les approches actuelles de raisonnement "chain-of-thought" incarné (Embodied CoT) imposent des templates rigides qui listent objets visibles, plans de haut niveau et affordances de scène, quelle que soit leur pertinence pour l'action à exécuter. Ce bruit informationnel nuit à la prédiction d'action et fragilise la politique de contrôle. R&B-EnCoRe modélise le raisonnement comme une variable latente dans un cadre d'inférence variationnelle pondérée par importance, permettant au modèle de générer et distiller automatiquement des raisonnements filtrés par leur capacité à prédire une action réussie. Ce mécanisme améliore le transfert des connaissances internet vers l'exécution physique réelle, problème central du "grounding" en robotique incarnée. Les VLA à raisonnement incarné forment un sous-domaine actif depuis les travaux π0 de Physical Intelligence, OpenVLA d'UC Berkeley et RT-2 de Google DeepMind. R&B-EnCoRe se positionne comme un raffinement post-entraînement applicable à des architectures existantes plutôt que comme un nouveau modèle de fondation. La validation sur cinq catégories d'embodiments distincts est plus large que la majorité des contributions VLA, qui restent limitées à la manipulation. Aucune suite commerciale n'est annoncée, mais l'approche est directement compatible avec des plateformes comme Unitree, Boston Dynamics Spot ou Franka Production 3, ainsi qu'avec les benchmarks standardisés LIBERO et BRS.

RechercheOpinion
1 source
Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
179arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

RobotiqueOpinion
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
180arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

RechercheOpinion
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
181arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

RobotiqueActu
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
182arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

RobotiqueOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
183arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

RechercheOpinion
1 source
Trois points sur l'IA à surveiller, selon un économiste nobélisé
184MIT Technology Review 

Trois points sur l'IA à surveiller, selon un économiste nobélisé

Quelques mois avant de recevoir le prix Nobel d'économie en 2024, Daron Acemoglu avait publié une étude qui lui avait valu peu d'amis dans la Silicon Valley : contrairement aux promesses des grands patrons de la tech, l'IA n'allait pas révolutionner le travail de bureau ni provoquer une vague massive de destructions d'emplois. Deux ans plus tard, les données lui donnent encore raison, les études ne montrent aucun effet mesurable de l'IA sur les taux d'emploi ou les licenciements. Pourtant, le débat s'est radicalement amplifié : Bernie Sanders en parle dans ses meetings, un candidat au poste de gouverneur de Californie propose de taxer les entreprises qui utilisent l'IA pour financer les victimes de "licenciements liés à l'IA", et même des économistes autrefois sceptiques commencent à envisager un choc structurel. MIT Technology Review a interrogé Acemoglu pour savoir si les dernières avancées de l'IA avaient changé sa thèse. Sur les agents autonomes, l'une des évolutions les plus marquantes depuis sa publication, Acemoglu reste prudent. Ces outils capables d'agir de manière indépendante pour accomplir des objectifs complexes sont présentés par les entreprises tech comme un substitut potentiel à des équipes entières. Acemoglu n'y croit pas : un poste de travail n'est pas une seule tâche, mais un assemblage de dizaines de compétences hétérogènes. Un technicien en radiologie, par exemple, jongle avec environ 30 tâches différentes, de la collecte des antécédents médicaux à l'archivage des mammographies. Un humain passe naturellement d'un outil à l'autre, d'un format à l'autre ; un agent IA nécessiterait autant de protocoles spécifiques que de tâches distinctes. Si les agents ne parviennent pas à orchestrer fluidement cette diversité, une large partie des emplois restera hors de leur portée. Ce qui inquiète davantage Acemoglu aujourd'hui, c'est un autre phénomène : les grandes entreprises d'IA recrutent massivement des économistes de premier rang pour façonner le récit autour de leur technologie. OpenAI a embauché Ronnie Chatterji de l'université Duke en 2024 comme économiste en chef, et travaille avec Jason Furman, ancien conseiller économique de Barack Obama à Harvard. Anthropic a réuni un groupe de dix économistes reconnus. Google DeepMind vient d'annoncer le recrutement d'Alex Imas, de l'université de Chicago, comme "directeur de l'économie de l'AGI". Acemoglu comprend la logique commerciale, le scepticisme du public sur l'emploi est croissant et ces entreprises ont tout intérêt à orienter le débat. Mais il craint que cette concentration de ressources intellectuelles et économiques ne serve surtout à légitimer une vision du monde favorable à quelques grandes plateformes, au détriment d'une réflexion véritablement indépendante sur les conséquences sociales de l'IA.

UELe débat sur l'impact de l'IA sur l'emploi, dominé par des économistes recrutés par les grandes plateformes américaines, risque d'influencer indirectement les discussions réglementaires européennes et les politiques du marché du travail de l'UE.

SociétéOpinion
1 source
Google, Microsoft, xAI… Trump va tester les nouvelles IA en avant-première
185Le Big Data 

Google, Microsoft, xAI… Trump va tester les nouvelles IA en avant-première

Google DeepMind, Microsoft et xAI ont conclu un accord formel avec l'administration Trump pour soumettre leurs futurs modèles d'intelligence artificielle à des évaluations gouvernementales avant tout déploiement public. Ces tests seront conduits par le Center for AI Standards and Innovation (CAISI), un organisme rattaché au département du Commerce américain. Le centre travaillait déjà avec OpenAI et Anthropic, mais l'élargissement à ces trois nouveaux acteurs majeurs marque une étape concrète dans la volonté de Washington de reprendre la main sur le calendrier des lancements. Chris Fall, directeur du CAISI, a insisté sur la nécessité d'une évaluation indépendante et rigoureuse des modèles les plus avancés, invoquant des enjeux de sécurité nationale, de cybersécurité, de désinformation et d'usages militaires potentiels. Ce virage représente un changement de paradigme notable pour une industrie qui défendait jusqu'ici le principe d'une innovation rapide et peu entravée. Que des géants comme Google ou Microsoft acceptent que l'État examine leurs modèles avant chaque lancement illustre un rééquilibrage du rapport de force entre la Silicon Valley et le pouvoir politique. Pour les utilisateurs et les entreprises, cela pourrait se traduire par des délais de mise sur le marché allongés, mais aussi par une forme de garantie supplémentaire sur les capacités et les risques des systèmes déployés. La portée de ces évaluations reste encore floue : le gouvernement n'a pas précisé quels critères s'appliqueront ni si ces tests pourraient bloquer ou retarder un lancement. Selon le New York Times, Donald Trump envisagerait par ailleurs un décret présidentiel pour aller plus loin, en réunissant dirigeants technologiques et responsables gouvernementaux pour superviser directement le développement des nouvelles IA. Le rapprochement avec xAI est particulièrement significatif : Elon Musk, pourtant critique habituel des dérives régulatoires et promoteur d'une IA sans censure idéologique, accepte ici de collaborer avec les autorités fédérales, ce qui témoigne du poids géopolitique qu'a pris le secteur. Les États-Unis cherchent avant tout à préserver leur avance sur la Chine dans la course aux modèles frontières, et les entreprises, de leur côté, ont tout intérêt à s'afficher comme des partenaires responsables de l'État plutôt que comme des acteurs incontrôlables. La question centrale qui émerge de cet accord est celle du contrôle réel : évaluer un modèle avant son lancement n'est pas nécessairement le réguler, et la frontière entre supervision de sécurité et ingérence politique reste, pour l'instant, soigneusement laissée dans le flou.

UECe cadre américain d'évaluation pré-déploiement pourrait servir de référence pour l'interprétation des obligations GPAI de l'AI Act européen, mais n'a pas d'effet direct sur les entreprises ou institutions françaises à ce stade.

RégulationReglementation
1 source
Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)
186Le Big Data 

Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)

Anthropic a présenté le 6 mai 2026, lors de sa conférence développeurs Code with Claude à San Francisco, une nouvelle fonctionnalité baptisée « Dreaming » pour sa plateforme Claude Managed Agents. Disponible en avant-première de recherche, ce système place les agents IA dans un état d'analyse récurrente des sessions passées et des données mémorisées par plusieurs agents simultanément. Contrairement à la compaction classique, qui résume les conversations longues pour alléger la mémoire d'un seul agent, Dreaming opère de manière transversale : il inspecte les historiques de multiples agents, détecte des schémas récurrents, des erreurs fréquentes, des méthodes de travail adoptées spontanément, ou encore des préférences communes au sein d'une équipe. Les utilisateurs pourront choisir entre un mode automatique, où les ajustements s'appliquent sans intervention, et un mode manuel permettant de valider chaque modification avant son intégration. Lors de la même conférence, Anthropic a annoncé en version bêta publique trois autres fonctionnalités : « Results » (un évaluateur indépendant qui vérifie si une tâche a réellement atteint son objectif, et relance l'agent si ce n'est pas le cas), l'orchestration multi-agents (jusqu'à 20 agents spécialisés collaborant en parallèle sous la direction d'un agent principal), et les notifications webhook pour des alertes en temps réel vers des systèmes externes. L'enjeu central que Dreaming cherche à résoudre est structurel : les modèles de langage disposent d'une fenêtre de contexte limitée, et sur des projets longs, des informations critiques finissent inévitablement par disparaître. Pour les entreprises qui déploient des agents IA sur des semaines ou des mois, cette perte de continuité représente un frein opérationnel concret. En permettant à la mémoire de se restructurer automatiquement à partir de données croisées entre agents, Anthropic entend rendre les systèmes multi-agents plus cohérents, moins redondants dans leurs erreurs, et capables d'apprendre des comportements collectifs plutôt que de repartir de zéro à chaque session. La fonctionnalité Results, de son côté, répond à un problème tout aussi pragmatique : garantir que l'agent a bien produit ce qui était demandé, et non une approximation acceptable. Ces annonces s'inscrivent dans une course que se livrent OpenAI, Google DeepMind et Anthropic autour des agents autonomes capables de gérer des tâches complexes sur la durée. Claude Managed Agents est la réponse d'Anthropic aux frameworks agentiques concurrents, avec une philosophie axée sur la sécurité et la contrôlabilité, ce qui explique l'option de validation manuelle dans Dreaming plutôt qu'une automatisation totale. En restant en avant-première de recherche pour la fonctionnalité phare et en bêta publique pour les autres, Anthropic adopte une posture prudente avant un déploiement général, probablement dans les mois à venir, à mesure que les retours des développeurs consolideront le système.

UELes entreprises européennes déployant des agents Claude sur des projets longs bénéficieront d'une meilleure continuité mémorielle, mais la fonctionnalité reste en avant-première de recherche sans calendrier de déploiement général annoncé.

LLMsOpinion
1 source
Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel
187MarkTechPost 

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Le laboratoire d'intelligence artificielle tokyoïte Sakana AI a présenté KAME (Knowledge-Access Model Extension), une architecture hybride de traitement vocal conçue pour éliminer le compromis historique entre vitesse et qualité de réponse dans les assistants vocaux. KAME fonctionne comme un système en tandem : un module vocal de première ligne, basé sur l'architecture Moshi de KyutAI, commence à générer une réponse audio en moins de 80 millisecondes, pendant qu'un grand modèle de langage (LLM) tourne en parallèle en arrière-plan. L'innovation centrale est l'ajout d'un quatrième flux de données dit « oracle » dans l'architecture de Moshi, originellement à trois flux. Ce flux reçoit en temps réel les réponses candidates produites par le LLM à partir d'une transcription partielle de la parole de l'utilisateur, et permet au module vocal de corriger sa réponse en cours de génération, comme un humain qui se reprend à mi-phrase. Ce système résout un problème structurel qui freinait le déploiement des assistants vocaux conversationnels. Les modèles directs de type speech-to-speech, rapides à répondre, peinent à intégrer des connaissances factuelles profondes car ils consacrent une grande partie de leur capacité à modéliser les traits paralinguistiques comme le ton ou l'émotion. À l'inverse, les systèmes en cascade, qui font transiter la parole par un LLM via reconnaissance puis synthèse vocale, accusent une latence médiane de 2,1 secondes, suffisante pour rendre la conversation perceptiblement artificielle. KAME offre les deux à la fois : réactivité quasi instantanée et richesse sémantique d'un modèle de langage frontier, ce qui ouvre la voie à des assistants vocaux réellement utilisables dans des contextes professionnels, médicaux ou grand public exigeants. Sakana AI a dû résoudre un défi d'entraînement inédit : aucun jeu de données naturel ne contient de signaux oracle. L'équipe a développé une technique appelée Simulated Oracle Augmentation, utilisant un LLM simulateur pour générer des séquences synthétiques d'oracles à six niveaux de complétude de transcript (de 0 à 5), reproduisant ce qu'un LLM produirait en temps réel. Sakana AI, fondé en 2023 à Tokyo par des anciens de Google DeepMind dont David Ha et Llion Jones, s'est construit une réputation sur les architectures évolutives inspirées de la biologie. KAME s'inscrit dans une course mondiale à la voix naturelle, face à des acteurs comme OpenAI (Advanced Voice Mode) et Google (Project Astra), avec la particularité d'une approche entièrement modulaire permettant de brancher n'importe quel LLM en back-end.

UEL'architecture KAME s'appuie sur Moshi, le modèle vocal conçu par le laboratoire français KyutAI, plaçant la recherche française au cœur d'une innovation mondiale en IA vocale.

RecherchePaper
1 source
Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM
188MarkTechPost 

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

L'équipe Qwen, filiale IA d'Alibaba, vient de publier Qwen-Scope, une suite open-source d'autoencodeurs épars (SAE) entraînés sur les familles de modèles Qwen3 et Qwen3.5. La publication comprend 14 groupes de poids SAE répartis sur sept variantes de modèles : cinq modèles denses (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B et Qwen3.5-27B) et deux modèles mixture-of-experts (Qwen3-30B-A3B et Qwen3.5-35B-A3B). Concrètement, un autoencodeur épars fonctionne comme une couche de traduction entre les activations brutes du réseau de neurones et des concepts compréhensibles par l'humain : pour chaque couche transformeur, Qwen-Scope entraîne un SAE séparé qui décompose les états internes en un large dictionnaire de caractéristiques latentes, chaque entrée n'en activant qu'un petit sous-ensemble. Chaque caractéristique tend à correspondre à un concept précis, qu'il s'agisse d'une langue, d'un style ou d'un comportement lié à la sécurité. La largeur de ces dictionnaires atteint jusqu'à 128 000 dimensions pour les modèles MoE, soit une expansion de 64 fois la taille cachée du modèle. Cet outil répond à l'un des problèmes les plus frustrants du développement de LLMs : leur opacité totale. Quand un modèle génère des réponses dans la mauvaise langue, se répète à l'infini ou refuse des requêtes inoffensives, les développeurs disposent de très peu de moyens pour en comprendre la cause à l'échelle des calculs internes. Qwen-Scope ouvre deux leviers concrets. Le premier est le pilotage à l'inférence : en ajoutant ou soustrayant une direction de caractéristique dans le flux résiduel selon la formule h' = h + αd, il devient possible d'orienter le comportement du modèle sans modifier aucun poids. L'équipe illustre cela sur Qwen3 : un modèle qui mêlait involontairement du chinois dans ses réponses en anglais a été corrigé en supprimant la caractéristique "langue chinoise" (id : 6159), identifiée en quelques secondes par son niveau d'activation élevé. Le second levier est l'analyse d'évaluation sans forward pass coûteux : les activations SAE servent de proxy pour cartographier quelles capacités sont réellement testées par un benchmark, et détecter si deux jeux d'évaluation sont redondants. Cette publication s'inscrit dans le courant de l'interprétabilité mécaniste, un champ de recherche en pleine expansion qui vise à rendre les LLMs auditables de l'intérieur. Des acteurs comme Anthropic et DeepMind ont déjà investi dans des SAEs pour leurs propres modèles, mais la mise à disposition open-source de tels outils sur une famille de modèles aussi large reste rare. Pour les équipes qui utilisent Qwen en production, Qwen-Scope représente une infrastructure de diagnostic inédite : détecter des biais encodés dans les représentations internes, affiner des comportements sans fine-tuning coûteux, ou auditer la couverture réelle de leurs protocoles d'évaluation. La prochaine étape logique serait l'extension de ces outils aux modèles de raisonnement et aux architectures multimodales, deux domaines où l'opacité interne reste particulièrement problématique.

UELes entreprises européennes déployant des modèles Qwen en production peuvent exploiter Qwen-Scope pour auditer les biais encodés dans les représentations internes et faciliter la conformité aux exigences d'explicabilité de l'AI Act.

RecherchePaper
1 source
DAIMON Robotics veut doter les mains robotiques du sens du toucher
189IEEE Spectrum AI 

DAIMON Robotics veut doter les mains robotiques du sens du toucher

En avril 2026, la startup hongkongaise DAIMON Robotics a publié Daimon-Infinity, qu'elle décrit comme le plus grand jeu de données omni-modal au monde pour l'IA physique. Ce corpus regroupe des millions d'heures de données multimodales issues de plus de 80 scénarios réels et de 2 000 compétences humaines référencées, couvrant des tâches aussi variées que le pliage de linge à domicile et l'assemblage industriel en usine. Dix mille heures de ces données ont été rendues publiques en open source. Le projet a été développé en partenariat avec Google DeepMind, l'Université Northwestern et la National University of Singapore. Au coeur du dispositif : un capteur tactile visuel monochrome capable d'intégrer plus de 110 000 unités de détection dans un module de la taille d'un bout de doigt, alimenté par un réseau de collecte décentralisé pouvant générer plusieurs millions d'heures de données par an. Ce lancement s'attaque à l'un des verrous les plus persistants de la robotique : l'absence de retour tactile dans les modèles d'apprentissage. Les architectures Vision-Language-Action (VLA), qui dominent aujourd'hui le domaine, reposent quasi exclusivement sur la vision, laissant les robots aveugles au toucher lors des manipulations physiques. DAIMON propose une alternative baptisée VTLA (Vision-Tactile-Language-Action), qui élève la perception tactile au rang de modalité à part entière, au même niveau que la vision. Pour les industriels et les chercheurs, l'enjeu est concret : un robot qui "sent" ce qu'il manipule peut gérer des objets fragiles, s'adapter à des textures inattendues et réduire drastiquement les erreurs de préhension. La publication de 10 000 heures en open source vise également à abaisser la barrière d'entrée pour les équipes de recherche qui peinent à constituer des datasets de qualité. Fondée il y a deux ans et demi, DAIMON s'est construite autour de la technologie de capteurs tactiles haute résolution avant d'élargir son ambition vers la donnée d'entraînement à grande échelle. La stratégie est portée par le professeur Michael Yu Wang, cofondateur et directeur scientifique, titulaire d'un doctorat de Carnegie Mellon où il a étudié la manipulation sous la direction de Matt Mason, et fondateur de l'Institut de robotique de l'Université des sciences et technologies de Hong Kong. Fellow IEEE et ancien rédacteur en chef de la revue IEEE Transactions on Automation Science and Engineering, il cumule quatre décennies dans le domaine. À terme, DAIMON vise des déploiements commerciaux dans des environnements à forte manipulation manuelle, comme les hôtels et les supérettes en Chine, où des robots dotés du sens du toucher pourraient remplacer des tâches aujourd'hui infranchissables pour les machines.

UELes équipes de recherche européennes en robotique peuvent accéder aux 10 000 heures de données tactiles publiées en open source, mais l'initiative est portée par des acteurs asiatiques sans implication directe de partenaires français ou européens.

RobotiqueOpinion
1 source
☕️ Suivant OpenAI, Google négocie pour faire une place à Gemini au Pentagone
190Next INpact 

☕️ Suivant OpenAI, Google négocie pour faire une place à Gemini au Pentagone

Le Pentagone est en négociation avec Google pour intégrer Gemini, le modèle d'intelligence artificielle de l'entreprise, au sein du département de la Défense américain. Cameron Stanley, le responsable numérique du Pentagone, a confirmé ces discussions à CNBC, soulignant qu'il n'était « jamais bon de trop dépendre d'un seul fournisseur ». Cette démarche s'inscrit dans une séquence entamée en mars 2026 avec OpenAI, avec qui un premier accord avait déjà été conclu. Selon Stanley, l'utilisation de Gemini permettrait au Pentagone d'économiser « littéralement des milliers d'heures de travail chaque semaine ». Google, de son côté, affirme faire partie d'un « vaste consortium » fournissant déjà des services au service de la sécurité nationale américaine. Cette orientation vers Google et OpenAI intervient directement après le bras de fer entre le Pentagone et Anthropic. La startup avait été qualifiée de « fournisseur à risque pour la sécurité nationale », une désignation qui l'empêche de collaborer avec le département de la Défense. La justice américaine vient de rejeter l'appel d'Anthropic contre cette qualification. Face à ce vide, le Pentagone diversifie ses fournisseurs d'IA, ce qui représente un signal fort pour toute l'industrie : le marché de la défense américaine, massif et stratégique, devient un terrain de compétition direct entre les grands acteurs de l'IA. L'enjeu ne se limite pas aux contrats eux-mêmes, mais au positionnement géopolitique et technologique que ces partenariats impliquent. Ces accords suscitent néanmoins des résistances internes significatives. Chez OpenAI, le contrat avec le Pentagone avait provoqué des tensions jusqu'à la démission de Caitlin Kalinowski, responsable de la branche robotique. Chez Google, plus de 600 employés, dont une part importante travaille au DeepMind AI lab qui développe Gemini, ont adressé une lettre ouverte au PDG Sundar Pichai pour s'y opposer. Ils y dénoncent un risque d'usage militaire opaque : « La seule façon de garantir que Google ne soit pas associé à de tels préjudices est de refuser tout contrat classifié », écrivent-ils, évoquant explicitement les armes autonomes létales et la surveillance de masse. Cette fracture entre direction et ingénieurs reflète une tension structurelle croissante dans le secteur : à mesure que l'IA devient un outil militaire de premier plan, les entreprises technologiques se trouvent contraintes de choisir entre croissance commerciale et éthique de leurs équipes.

UELa consolidation du marché de l'IA militaire américaine autour de quelques acteurs majeurs renforce l'urgence pour l'Europe de développer des capacités d'IA souveraine dans le domaine de la défense, afin de réduire sa dépendance aux plateformes extraeuropéennes.

BusinessOpinion
1 source
Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données
191arXiv cs.RO 

Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données

Une équipe de chercheurs a publié sur arXiv (référence 2604.23001) une analyse exhaustive de l'état des données dans les modèles Vision-Langage-Action (VLA) appliqués à la robotique. Ces modèles, qui permettent à un robot de percevoir son environnement visuel, d'interpréter des instructions en langage naturel et d'exécuter des actions physiques, connaissent des progrès spectaculaires depuis deux ans. Pourtant, selon les auteurs, le vrai goulot d'étranglement n'est pas l'architecture des modèles : c'est l'infrastructure des données. L'étude passe en revue trois dimensions clés, les jeux de données, les benchmarks d'évaluation, et les moteurs de génération de données, en cartographiant systématiquement leurs forces et leurs lacunes. Ce travail met en lumière un problème fondamental qui freine toute la discipline : collecter des données robotiques de haute fidélité coûte extrêmement cher, ce qui pousse les équipes vers des données synthétiques moins réalistes. Les benchmarks actuels, censés mesurer les capacités des robots, peinent à évaluer deux compétences pourtant cruciales, la généralisation compositionnelle (combiner des tâches apprises pour en résoudre de nouvelles) et le raisonnement sur des séquences longues. Autrement dit, les robots paraissent performants dans les tests, mais restent fragiles face à des situations légèrement différentes de celles rencontrées lors de l'entraînement. Pour les industriels et les laboratoires qui investissent massivement dans la robotique autonome, ce décalage entre métriques et réalité représente un risque concret. Le domaine de l'IA incarnée (embodied AI) est aujourd'hui dominé par des acteurs comme Google DeepMind, Meta, Physical Intelligence ou encore des équipes universitaires qui rivalisent pour entraîner des robots généralistes. Les auteurs identifient quatre défis ouverts : aligner les représentations visuelles et textuelles, améliorer la supervision multimodale, mieux évaluer le raisonnement, et générer des données à grande échelle sans perdre en réalisme physique. Leur conclusion est nette : traiter l'infrastructure de données comme un objet de recherche à part entière, et non comme un arrière-plan technique, est la condition pour que les prochaines générations de VLA tiennent leurs promesses hors des laboratoires.

RobotiqueOpinion
1 source
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
192arXiv cs.RO 

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes. L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés. La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

RecherchePaper
1 source
Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks
193arXiv cs.RO 

Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks

Des chercheurs ont publié mi-novembre 2024 sur arXiv une étude approfondie portant sur l'utilisation des grands modèles de langage (LLM) et des modèles vision-langage (VLM) comme planificateurs de haut niveau en boucle fermée pour des systèmes robotiques. L'article, référencé arXiv:2511.07410, s'attaque à un problème concret : lorsqu'on déploie ces modèles en mode dit "boîte noire", sans retour d'information sur l'exécution, les erreurs deviennent imprévisibles et coûteuses. Les auteurs proposent une série d'expériences contrôlées pour identifier des stratégies pratiques permettant d'intégrer ces modèles de façon fiable dans des robots. Deux variables clés sont étudiées : l'horizon de contrôle, c'est-à-dire le nombre d'actions planifiées à l'avance avant de réévaluer la situation, et le "warm-starting", qui consiste à initialiser le planificateur avec des solutions partielles issues d'itérations précédentes. Ces résultats ont des implications directes pour les équipes qui déploient aujourd'hui des LLM dans des systèmes embarqués ou robotiques. En boucle ouverte, un modèle peut enchaîner des décisions sans jamais corriger ses erreurs, ce qui dans un contexte physique peut signifier des collisions, des tâches non abouties ou des comportements dangereux. La boucle fermée, en intégrant un retour régulier de l'environnement, permet au modèle de s'adapter en temps réel. Les recommandations issues de l'étude fournissent aux ingénieurs des paramètres concrets pour calibrer ce retour d'information et améliorer la robustesse des systèmes sans augmenter proportionnellement le coût computationnel. Cette recherche s'inscrit dans une dynamique plus large d'intégration des LLM dans la robotique, un champ qui a explosé depuis 2023 avec des projets comme PaLM-E de Google ou RT-2 de DeepMind. L'enjeu est de taille : faire passer ces modèles du laboratoire au monde réel, où l'incertitude et les erreurs d'exécution sont inévitables. Le fait que les auteurs publient l'intégralité de leur implémentation et de leurs expériences en accès ouvert devrait accélérer l'adoption de ces pratiques par la communauté. Les prochaines étapes naturelles concerneront l'évaluation de ces stratégies sur des plateformes robotiques variées et dans des environnements non structurés.

RecherchePaper
1 source
The Download : arnaques dopées et IA dans la santé à l'étude
194MIT Technology Review 

The Download : arnaques dopées et IA dans la santé à l'étude

L'intelligence artificielle redessine en profondeur deux fronts critiques de la société numérique : la cybersécurité et la santé. Depuis le lancement de ChatGPT fin 2022, les cybercriminels ont intégré les grands modèles de langage dans leur arsenal, automatisant la rédaction d'e-mails malveillants, le phishing ultraciblé, les deepfakes hyperréalistes et les scans automatisés de vulnérabilités. Résultat : les attaques sont devenues plus rapides, moins coûteuses et accessibles à un nombre croissant d'acteurs. De nombreuses organisations peinent aujourd'hui à absorber le volume de cyberattaques, une situation appelée à s'aggraver à mesure que les outils s'améliorent et se démocratisent. En parallèle, l'IA s'est imposée dans les hôpitaux : elle assiste la prise de notes médicales, analyse les dossiers patients pour identifier ceux nécessitant un suivi, et interprète des radios ou des résultats d'examens. Des études montrent que ces outils produisent des résultats précis, mais la question centrale reste sans réponse : ces technologies améliorent-elles réellement la santé des patients ? Cette double expansion de l'IA soulève des enjeux profonds. Dans le domaine de la cybersécurité, l'industrialisation de la fraude met sous pression non seulement les entreprises, mais aussi les particuliers et les institutions publiques, qui ne disposent pas toujours des ressources pour se défendre à la même vitesse que les attaquants progressent. Dans le secteur médical, l'absence de données solides sur les résultats cliniques réels pose un problème éthique et pratique majeur : des outils sont déployés à large échelle sans que l'on sache encore s'ils font gagner des années de vie ou simplement du temps administratif. C'est une lacune que la communauté médicale et les régulateurs devront combler rapidement. Ces tendances s'inscrivent dans un contexte de reconfigurations majeures du secteur tech. DeepSeek vient de lancer les versions preview de son modèle V4, présenté comme la plateforme open source la plus puissante à ce jour, optimisée pour les puces Huawei et rivalisant selon ses créateurs avec les meilleurs modèles fermés d'OpenAI et DeepMind. OpenAI a de son côté déployé GPT-5.5 à l'ensemble des utilisateurs de ChatGPT malgré des préoccupations en cybersécurité. Meta prévoit de supprimer environ 8 000 postes, soit 10 % de ses effectifs, annonce attendue le 20 mai, pour financer ses investissements en IA. Sur le plan géopolitique, un mémo de la Maison Blanche accuse des entreprises chinoises d'exploitation massive de modèles américains, accusation que Pékin qualifie de "calomnie". L'ère de l'accès gratuit aux IA avancées touche par ailleurs à sa fin, les laboratoires étant sous pression croissante pour rentabiliser leurs investissements colossaux.

UEL'industrialisation des cyberattaques par l'IA expose directement les entreprises et institutions européennes à des menaces croissantes, tandis que le déploiement à grande échelle d'outils IA médicaux sans évaluation clinique rigoureuse appelle une réponse réglementaire urgente de l'UE.

SécuritéActu
1 source
Scandale dans l’IA : les États-Unis dénoncent un vol à grande échelle orchestré depuis la Chine
195Le Big Data 

Scandale dans l’IA : les États-Unis dénoncent un vol à grande échelle orchestré depuis la Chine

Le gouvernement américain a officiellement accusé la Chine de mener des campagnes de vol industriel à grande échelle ciblant les laboratoires d'intelligence artificielle du pays. Le 23 avril 2026, Michael Kratsios, directeur de l'Office of Science and Technology Policy (OSTP) à la Maison-Blanche, a publiquement dénoncé ces pratiques dans une note révélée par le Financial Times. Selon ce document, des entités étrangères, principalement chinoises, orchestrent des opérations de "distillation" massives : elles interrogent les modèles d'IA américains via des dizaines de milliers de proxies et de techniques de contournement (jailbreaking) pour en extraire les capacités et reproduire leurs performances à moindre coût. Washington a annoncé que des mesures concrètes seraient prises pour protéger l'innovation américaine. Ce type d'attaque, qualifié de "distillation industrielle", représente une menace sérieuse pour l'avance technologique des États-Unis. En exploitant massivement les API publiques ou en contournant les garde-fous des modèles commerciaux, des acteurs étrangers peuvent reconstituer des systèmes d'IA comparables sans financer les années de recherche et les milliards de dollars d'investissement qui ont permis de les créer. Pour des entreprises comme OpenAI, Anthropic ou Google DeepMind, cela signifie que leur propriété intellectuelle, algorithmes, données d'entraînement, capacités de raisonnement, peut être siphonnée à travers leurs propres interfaces. L'enjeu dépasse la concurrence commerciale : il touche directement à la compétitivité économique nationale et à la sécurité des infrastructures numériques américaines. Cette offensive diplomatique s'inscrit dans un contexte de rivalité technologique croissante entre Washington et Pékin, qui s'est intensifiée depuis les restrictions américaines sur l'exportation de puces avancées vers la Chine en 2022 et 2023. Côté chinois, des acteurs comme DeepSeek ont démontré qu'il était possible de produire des modèles très performants à faible coût, alimentant les soupçons sur leurs méthodes. La montée en puissance de l'OSTP sur ce dossier signale une volonté de l'administration de traiter la protection de l'IA comme une question de sécurité nationale à part entière. Les prochaines mesures pourraient inclure des restrictions d'accès aux modèles, un renforcement des contrôles sur les API, voire des sanctions. La réaction de l'industrie sera déterminante : certains observateurs n'ont pas manqué de noter l'ironie d'un secteur qui a lui-même largement entraîné ses modèles sur des données tierces sans toujours en demander la permission.

UELes acteurs européens utilisant les API des grands modèles américains pourraient être indirectement affectés si Washington impose des restrictions d'accès ou des contrôles renforcés dans le cadre de sa politique de protection de l'IA.

SécuritéReglementation
1 source
Transformation IA : DeepMind renforce ses partenariats pour industrialiser l’adoption de l’IA
196Le Big Data 

Transformation IA : DeepMind renforce ses partenariats pour industrialiser l’adoption de l’IA

Google DeepMind a annoncé le 22 avril 2026 un renforcement significatif de ses partenariats avec cinq des plus grands cabinets de conseil mondiaux : Accenture, Bain & Company, Boston Consulting Group, Deloitte et McKinsey & Company. L'objectif affiché est d'accélérer le déploiement de l'IA en production dans les grandes entreprises, alors que seulement 25 % des organisations ont aujourd'hui réussi à passer du pilote au déploiement industriel à grande échelle. La stratégie repose sur trois leviers : le développement de capacités d'IA adaptées aux spécificités sectorielles, un accès anticipé aux derniers modèles de la gamme Gemini, et un accompagnement au niveau des comités exécutifs et des conseils d'administration. En toile de fond, le potentiel économique estimé à 15 700 milliards de dollars de valeur générée par l'IA d'ici 2030 sert de justification à l'urgence d'industrialiser ces technologies. Ce rapprochement entre chercheurs et consultants répond à un problème concret que les entreprises rencontrent massivement : elles disposent déjà d'outils performants, mais peinent à les intégrer dans leurs processus opérationnels, à former leurs équipes et à démontrer un retour sur investissement mesurable. En combinant la recherche de pointe de DeepMind avec l'expertise sectorielle des cabinets partenaires, l'initiative vise à réduire le délai entre innovation et application terrain. Les secteurs ciblés en priorité sont la finance, l'industrie manufacturière, la distribution, les médias et le divertissement, tous des domaines où les gains de productivité et d'aide à la décision peuvent être immédiats et quantifiables. Le modèle prévoit que les consultants travaillent directement avec les équipes de DeepMind, ce qui permet également aux retours du terrain de nourrir l'amélioration des modèles eux-mêmes. Cette initiative s'inscrit dans une stratégie plus large portée par Google Cloud, qui cherche depuis plusieurs années à structurer un écosystème de partenaires capables de diffuser ses technologies IA dans les organisations à l'échelle mondiale. Les cabinets de conseil deviennent ainsi des relais indispensables, transformant des avancées de laboratoire en outils opérationnels ancrés dans les décisions stratégiques des entreprises. DeepMind insiste sur la dimension responsable du déploiement, une façon de se démarquer dans un contexte où les critiques sur les biais algorithmiques et les risques liés à l'automatisation se multiplient. La question qui reste ouverte est celle de la mesure effective de l'impact : l'annonce de partenariats prestigieux ne garantit pas que le fossé entre les 25 % d'organisations matures et les 75 % restantes se comblera rapidement, surtout dans des secteurs où la transformation culturelle est souvent plus lente que la technologie elle-même.

UELes grandes entreprises françaises et européennes constituent les cibles directes de ces nouvelles offres d'accompagnement, déployées via les bureaux locaux des cinq cabinets partenaires présents dans toute l'UE.

BusinessActu
1 source
Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur
197MarkTechPost 

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion
1 source
Optimisation élégante des tokens
198Latent Space 

Optimisation élégante des tokens

Google a profité de sa conférence Cloud Next, qui s'est tenue les 21 et 22 avril 2026, pour annoncer ses TPU v8, la huitième génération de ses puces d'entraînement et d'inférence. Les chiffres annoncés sont vertigineux et confirment l'avance matérielle accumulée par Google DeepMind après une décennie d'investissements massifs dans des infrastructures propriétaires. En parallèle, la conférence AI Engineer Miami a vu s'imposer un concept central dans les discussions entre dirigeants tech : le "tokenmaxxing", soit la volonté de maximiser l'usage de l'IA dans les équipes sans pour autant encourager le gaspillage ou la qualité médiocre. Mikhail Parakhin, directeur technique de Shopify, invité de la conférence, a apporté une nuance importante : il préconise d'aller en profondeur plutôt qu'en largeur, c'est-à-dire de lancer des boucles de recherche autonome séquentielles plutôt que de multiplier en parallèle des dizaines d'appels LLM sans cohérence. Dex Horthy, à l'origine du concept de "Context Engineering", a quant à lui publiquement rétracté ses positions les plus enthousiastes sur le vibe coding, encourageant désormais les développeurs à relire le code généré. Ces débats ne sont pas qu'académiques : ils reflètent une tension réelle au sein des équipes engineering, entre vitesse de génération de code et dette technique. Pour les CTOs et VP d'ingénierie, la question devient comment calibrer l'autonomie accordée aux modèles sans dégrader la qualité architecturale des systèmes. Sur le front des modèles ouverts, plusieurs sorties majeures sont venues nourrir ce débat. Alibaba a publié Qwen3.6-27B, un modèle dense sous licence Apache 2.0 qui surpasse selon ses benchmarks le bien plus lourd Qwen3.5-397B-A17B sur les évaluations de code, dont SWE-bench Verified à 77,2 contre 76,2. Il intègre des modes pensée et non-pensée, un checkpoint multimodal unifié, et a été immédiatement supporté par vLLM, llama.cpp et Ollama. OpenAI a discrètement publié un "Privacy Filter", un modèle MoE léger de 1,5 milliard de paramètres actifs à 50 millions, dédié à la détection et masquage de données personnelles sur de très larges corpus, sous licence Apache 2.0. Xiaomi a de son côté annoncé MiMo-V2.5-Pro, un modèle orienté agents avec 57,2 sur SWE-bench Pro et une capacité déclarée à effectuer plus de 1 000 appels d'outils autonomes. Ces annonces s'inscrivent dans une dynamique où la course aux modèles ouverts s'intensifie, portée par des acteurs comme Alibaba, Xiaomi et OpenAI lui-même, qui cèdent des briques spécialisées à la communauté. L'événement AI Engineer Miami, dont la prochaine édition se tiendra à Singapour, est devenu un baromètre de ce que l'industrie considère comme les vrais problèmes opérationnels : qualité du code généré, gestion de la vie privée dans les pipelines d'agents, et arbitrage entre quantité et profondeur d'utilisation des LLM. Les TPU v8 de Google rappellent que derrière ces débats de méthode, la compétition infrastructure reste déterminante pour qui peut entraîner et servir les modèles les plus puissants à grande échelle.

UELes modèles publiés sous licence Apache 2.0 (Qwen3.6-27B, OpenAI Privacy Filter) permettent aux équipes techniques européennes un déploiement local compatible avec les exigences RGPD pour la gestion des données personnelles dans les pipelines d'agents.

LLMsActu
1 source
Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs
199VentureBeat AI 

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

Google a dévoilé mardi soir sa huitième génération de puces TPU (Tensor Processing Units) lors d'une présentation privée au F1 Plaza de Las Vegas. Contrairement aux générations précédentes, cette fois Google lance deux puces distinctes : le TPU 8t, conçu pour l'entraînement de grands modèles d'IA, et le TPU 8i, taillé pour l'inférence agentique à faible latence. Le TPU 8t affiche 2,8 fois les EFlops FP4 par pod par rapport à la génération précédente (121 contre 42,5), double la bande passante scale-up à 19,2 Tb/s par puce, et permet de relier plus d'un million de TPUs dans un seul job d'entraînement grâce à une nouvelle architecture réseau baptisée Virgo. Le TPU 8i, lui, multiplie par 9,8 les EFlops FP8 par pod (11,6 contre 1,2), par 6,8 la capacité HBM (331,8 To contre 49,2), et fait quadrupler la taille des pods (de 256 à 1 152 puces). Les deux chips doivent être disponibles courant 2025. L'enjeu pour Google est d'abord économique. En fabriquant ses propres puces, Google échappe aux marges d'Nvidia, qui a transformé sa position de quasi-monopole sur les accélérateurs IA en l'une des valorisations boursières les plus élevées au monde. Amin Vahdat, vice-président senior et chief technologist AI & Infrastructure chez Google, a insisté sur l'intégration verticale totale de la stack Google, du silicium au logiciel, comme levier de compétitivité sur le coût par token. Pour les clients enterprise qui entraînent des modèles ou déploient des agents en production sur Google Cloud et Vertex AI, cela se traduit concrètement : jusqu'à présent, les mêmes accélérateurs servaient à la fois pour l'entraînement et l'inférence, avec les inefficacités que cela implique. La génération v8 est la première à traiter ces deux charges de travail comme des problèmes distincts, avec deux siliciums dédiés. La décision de scinder la feuille de route en deux puces a été prise en 2024, soit un an avant que le reste de l'industrie ne pivote massivement vers les modèles de raisonnement, les agents et le reinforcement learning. "Deux ans avant tout le monde, nous avions compris qu'une puce par an ne suffirait plus", a résumé Vahdat. Pour le TPU 8i, Google a développé avec Google DeepMind une topologie réseau inédite appelée Boardfly, conçue pour réduire la latence plutôt que de maximiser le débit, un choix crucial pour les agents IA qui doivent répondre en temps réel. Le TPU 8t introduit également le TPU Direct Storage, qui achemine les données depuis le stockage directement dans la mémoire HBM sans passer par le CPU, réduisant le temps nécessaire à chaque epoch d'entraînement. Google positionne clairement cette génération comme une rupture technologique destinée à creuser l'écart avec ses concurrents sur le marché du cloud IA.

UELes entreprises européennes utilisant Google Cloud pour l'entraînement de modèles IA ou le déploiement d'agents en production pourraient bénéficier d'un coût par token réduit grâce à la spécialisation des puces TPU v8.

InfrastructureOpinion
1 source
Modèles du monde
200MIT Technology Review 

Modèles du monde

Les systèmes d'intelligence artificielle maîtrisent aujourd'hui le monde numérique avec une aisance impressionnante, mais le monde physique reste un défi d'une tout autre nature. Pour franchir ce cap, de nombreux chercheurs misent sur une approche appelée "modèle du monde", une représentation interne que l'IA se construit de son environnement pour anticiper les conséquences de ses actions. Google DeepMind et World Labs, la startup fondée par Fei-Fei Li, professeure à Stanford, travaillent activement sur ces systèmes. Yann LeCun, jusqu'ici figure centrale de Meta, a quant à lui quitté l'entreprise pour fonder une startup entièrement dédiée à cette approche. OpenAI a également redirigé des ressources issues de la fermeture de son application vidéo Sora vers ce qu'elle appelle la "recherche en simulation du monde à long terme". L'enjeu est de taille : les grands modèles de langage actuels présentent des lacunes profondes dès qu'il s'agit de raisonner sur le monde réel. Une étude révélatrice a montré que des modèles entraînés sur des millions de trajets de taxis new-yorkais peuvent donner des itinéraires corrects dans Manhattan, mais échouent complètement dès qu'on leur impose un détour. Ce type de fragilité est fondamentalement incompatible avec des applications robotiques, où l'imprévu est la règle. Un vrai modèle du monde permettrait à un agent IA de se représenter son environnement avec suffisamment de fidélité pour prédire ce qui se passe si on pousse une tasse du bord d'une table, ou si on change de route en cours de chemin, exactement comme le fait le cerveau humain. Les applications concrètes émergent progressivement. Niantic, le studio derrière Pokémon Go, exploite les milliards d'images collectées par les joueurs du jeu pour construire les premières briques d'un modèle du monde destiné à guider des robots de livraison. Google DeepMind et World Labs concentrent actuellement leurs efforts sur la génération d'environnements virtuels 3D interactifs à partir de textes, d'images et de vidéos, des outils utiles pour la conception de jeux vidéo ou d'expériences en réalité virtuelle, mais encore limités dans leur portée. Les véritables percées viendront probablement de l'intégration de ces systèmes dans des agents autonomes capables de modéliser leur environnement, d'anticiper les effets de leurs actions et de décider en conséquence. Li et LeCun voient dans cette direction la clé pour des robots capables d'explorer les grands fonds marins ou d'assister le personnel soignant, un horizon encore lointain, mais qui mobilise désormais les acteurs les plus influents du secteur.

RecherchePaper
1 source