Aller au contenu principal

Dossier NVIDIA — page 17

856 articles · page 17 sur 18

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

Pourquoi l'IA physique 2.0 a besoin d'un retour à la réalité
801Robotics Business Review RobotiqueOpinion

Pourquoi l'IA physique 2.0 a besoin d'un retour à la réalité

L'intelligence artificielle physique amorce une transition conceptuelle que le secteur commence à nommer "Physical AI 2.0". La première génération, aujourd'hui dominante, repose sur une logique de volume : des milliards de séquences vidéo et textuelles, complétées par des simulateurs hyperréalistes comme la plateforme Cosmos de NVIDIA, permettent d'entraîner des systèmes robotiques avant tout déploiement réel. Ce paradigme, qualifié de "vision-first", postule qu'avec suffisamment de caméras et de puissance de calcul, un robot peut modéliser et anticiper son environnement. Mais cette hypothèse se révèle fragile dès que les capteurs sont éblouis, que des objets sont occultés ou que les données sont bruitées et contradictoires. La "Physical AI 2.0" propose d'introduire une couche supplémentaire dans la pile logicielle : la récupération d'état physique (physical state recovery), qui reconstruit l'état réel du monde à partir de données incomplètes ou dégradées, avant même que le raisonnement de haut niveau n'entre en jeu. L'architecture cible comprend quatre briques en boucle fermée : des modèles du monde nourris par la simulation et l'expérience passée ; la récupération d'état physique ; un module de raisonnement qui sélectionne une intention ; et l'action, exécutée dans des contraintes de sécurité strictes. Le raisonnement n'actionne pas directement les effecteurs : il propose une intention, que la logique de planification et de sécurité traduit ensuite en mouvement borné. L'enjeu industriel est concret. Un robot qui mal-estime l'état de son environnement ne peut pas raisonner correctement, même si son modèle sous-jacent est de haute qualité : une mauvaise observation produit une erreur de raisonnement confiante, pas simplement une incertitude. La distinction clé est entre "cas difficile" et "cas mal observé". Un benchmark peut identifier qu'un système échoue dans des scénarios d'occlusion ou de comportements atypiques d'usagers de la route, sans pour autant corriger l'observation elle-même. Traiter la récupération d'état comme un module dédié, potentiellement alimenté par des capteurs spécialisés comme le radar ou des capteurs tactiles, évite à chaque nouveau robot de réapprendre les lois élémentaires de la physique depuis zéro. Pour les intégrateurs et décideurs B2B, la conséquence pratique est que l'unité de compétition dans l'IA physique n'est plus le modèle seul, mais l'ensemble de la chaîne : captation, simulation, entraînement de politique, orchestration, sécurité embarquée et boucle de retour terrain. Ce cadrage s'inscrit dans un débat plus large sur les limites des approches end-to-end dans la robotique et l'autonome. NVIDIA a investi massivement dans Cosmos pour normaliser la simulation physique, et plusieurs laboratoires explorent des architectures de type VLA (Vision-Language-Action) qui intègrent partiellement ces problématiques. L'argument central du texte est qu'agrandir indéfiniment des modèles bout-en-bout n'est pas la seule voie : une couche dédiée à la récupération d'état physique serait à la fois plus efficiente et plus robuste. À noter que ce texte est publié en amont de la conférence RoboBusiness 2026 et constitue essentiellement un cadrage conceptuel d'un positionnement produit, sans annonce ni déploiement commercial à la clé. Aucune métrique de performance concrète n'est avancée pour étayer la thèse, ce qui limite l'évaluation indépendante des affirmations.

1 source
RLWRLD désignée Pionnière Technologique du Forum Économique Mondial pour ses avancées en infrastructure d'IA physique
802Robotics & Automation News 

RLWRLD désignée Pionnière Technologique du Forum Économique Mondial pour ses avancées en infrastructure d'IA physique

RLWRLD, société spécialisée en "physical AI", a été sélectionnée parmi les 100 Technology Pioneers 2026 du Forum Économique Mondial (WEF). La distinction, attribuée annuellement depuis 2000 à des entreprises technologiques jugées susceptibles d'exercer un impact structurant sur les industries mondiales, récompense ici le développement de RLDX-1, un modèle de fondation en robotique (Robotics Foundation Model) propriétaire. Le WEF cite RLWRLD dans son analyse officielle comme acteur positionné pour transformer l'infrastructure de l'IA physique à long terme. L'article source est toutefois un communiqué court, sans données techniques publiées sur RLDX-1 : payload, degrés de liberté contrôlés, benchmarks de performance ou sites de déploiement ne sont pas mentionnés. Il faut distinguer ici label de visibilité et validation technique : le programme WEF Pioneer est un exercice de sélection éditoriale, pas une certification de performance. Cela dit, pour une startup dans l'espace des foundation models robotiques, l'intégration au réseau WEF représente un accès réel aux décideurs industriels et aux fonds d'investissement à l'échelle mondiale. Le marché des modèles de fondation pour robots physiques est précisément le terrain où se joue la prochaine phase de la course aux humanoïdes et aux bras industriels autonomes. Le secteur des Robotics Foundation Models est en forte compétition en 2026, avec Physical Intelligence (Pi-0), NVIDIA (GR00T N2), et les propres modèles intégrés de Figure AI et 1X. RLWRLD se positionne comme couche d'infrastructure mutualisée, à destination potentiellement de plusieurs constructeurs, plutôt que comme fabricant de hardware. Les prochaines étapes à surveiller : publication de benchmarks sur RLDX-1, annonces de partenariats OEM, et levées de fonds post-label WEF.

RobotiqueActu
1 source
PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent
803arXiv cs.RO 

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent

Des chercheurs ont publié en juin 2026 PearlVLA (arXiv:2606.17924), un cadre VLA (Vision-Language-Action) conçu pour concilier faible latence d'exécution et qualité de planification. L'approche déplace le raisonnement dans l'espace latent d'un modèle VLM, évitant le recours aux chaînes textuelles ou aux sous-objectifs en pixels, deux stratégies courantes mais coûteuses en calcul. L'architecture sépare les représentations en une branche de grounding visuel fixe et une branche de plan latent itérative : à chaque cycle, une "world query" interroge un modèle de monde latent léger et gelé pour obtenir une observation future, utilisée ensuite pour affiner progressivement le plan. Après K cycles, le plan est décodé en parallèle en un "action chunk" pour l'exécution temps réel. L'entraînement repose sur un mécanisme RL baptisé "Causal Refinement-Grouped Process-Reward", qui optimise le raffinement via des récompenses issues d'horizons temporels simulés dans l'espace latent. Évalué sur le benchmark de simulation LIBERO, PearlVLA affiche des résultats à l'état de l'art parmi les méthodes existantes. Le compromis latence/planification est structurant pour le déploiement industriel des VLA. Les modèles à décodage direct restent réactifs mais peinent sur des tâches longue-horizon ; les approches délibératives via chain-of-thought améliorent la planification mais leur latence les rend incompatibles avec le contrôle temps réel. En confinant le raisonnement à l'espace latent, PearlVLA contourne ce dilemme sans coûts de génération textuelle. L'approche est conceptuellement proche des modèles de monde (DreaMer, TD-MPC2), ici appliqués aux VLA. Réserve importante : toutes les évaluations sont conduites en simulation sur LIBERO, sans résultats sur robot réel rapportés dans ce preprint, ce qui limite pour l'instant les conclusions sur la transférabilité sim-to-real. La course aux VLA s'est accélérée depuis 2024 avec π0 (Physical Intelligence), Octo, GR00T N2 (NVIDIA) et les modèles embarqués de Figure, Agility ou 1X. La compétition porte désormais sur deux axes : réduire la latence pour atteindre le contrôle temps réel, et améliorer la généralisation sans réentraînement sur de nouvelles tâches. PearlVLA s'inscrit dans cet effort académique collectif, sans affiliation commerciale identifiée dans le preprint. La prochaine étape naturelle serait une validation sur robot physique et des tests de transfert sim-to-real, qui conditionneront l'intérêt des intégrateurs industriels pour cette architecture.

RechercheOpinion
1 source
MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action
804arXiv cs.RO 

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

Une équipe de chercheurs a soumis sur arXiv (référence 2606.13515) un modèle baptisé MaskWAM, visant à lever deux verrous structurels des World Action Models (WAMs) pour le contrôle robotique par prédiction vidéo. Les WAMs constituent une approche active : au lieu d'apprendre directement une politique motrice, le modèle prédit des frames vidéo futures conditionnées par les actions du robot et extrait la politique de cette représentation. Le problème identifié est double. Les entrées textuelles génèrent une ambiguïté référentielle dans les scènes encombrées : si deux objets similaires cohabitent dans le champ de la caméra, le texte ne suffit pas à désambiguïser la cible. Par ailleurs, les prédictions RGB brutes manquent d'ancrage sémantique et restent perturbées par des arrière-plans sans lien avec la tâche. MaskWAM intègre des masques de segmentation à la fois comme entrées explicites (premier frame annoté avec la cible) et comme sorties prédites, au sein d'une architecture unifiée Mixture of Transformers (MoT). L'apport central est l'introduction d'une supervision sémantique centrée sur l'objet : en forçant le modèle à prédire les masques futurs en parallèle des frames RGB, les auteurs réduisent l'influence du bruit visuel de fond sur la politique apprise. Évalué sur les benchmarks LIBERO et RoboTwin, ainsi que sur des tâches réelles non précisées en détail, MaskWAM surpasse significativement les baselines existantes en conditions de langage clair comme ambigu. Pour les équipes R&D en manipulation robotique, l'enjeu concret est la robustesse des politiques face aux variations de décor et aux instructions imprécises, deux points de friction récurrents dans le transfert du labo vers la ligne de production. Ces résultats restent toutefois ceux d'une prépublication académique sur benchmarks standardisés : aucun déploiement industriel n'est mentionné, et les conditions exactes des expérimentations réelles ne sont pas détaillées dans le résumé disponible. MaskWAM s'inscrit dans la dynamique des Visual Language Action models et des WAMs apparus depuis 2023, notamment Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa spécificité est l'exploitation systématique des masques de segmentation comme signal de supervision, là où la plupart des approches concurrentes restent ancrées sur du texte libre ou des images de référence non structurées. Les prochaines étapes prévisibles pour ce type de travaux sont l'évaluation sur des manipulations multi-objets en environnement non contrôlé et l'intégration dans des fondations robotiques plus larges. Aucun partenariat industriel ni calendrier de transfert applicatif ne sont mentionnés à ce stade.

RechercheOpinion
1 source
NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif
805arXiv cs.RO 

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

RechercheOpinion
1 source
VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte
806arXiv cs.RO 

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Une équipe de chercheurs publie sur arXiv (juin 2026, ref. 2606.12028) VICX, un framework de manipulation robotique généraliste articulé autour d'une architecture découplée en deux blocs : un modèle de génération vidéo figé (non fine-tuné) produit des plans visuels de haut niveau conditionnés par langage naturel, tandis qu'un réseau baptisé V2T-ICON (Video-to-Trajectory In-Context Operator Network) traduit ces plans en trajectoires exécutables pour le robot. La particularité de V2T-ICON réside dans son fonctionnement par apprentissage en contexte : au moment de l'inférence, il récupère des paires image-état préenregistrées et travaille sur des images segmentées du seul bras robotique, permettant un mapping visuel-vers-état sans mise à jour des paramètres. Les expériences sont conduites sur Meta-World, un benchmark de simulation standard, et démontrent la généralisation inter-tâches, la correction en boucle fermée, et le transfert inter-corps (cross-embodiment). L'intérêt de cette approche pour les équipes de R&D réside dans sa modularité : en découplant planification visuelle et exécution motrice, VICX permet théoriquement de substituer l'un des deux blocs de façon indépendante, réduisant le coût d'adaptation à de nouvelles tâches sans réentraînement complet. Le mécanisme d'in-context learning évite de paramétrer le réseau pour chaque tâche inédite, ce qui est pertinent pour des environnements industriels changeants. Cela dit, les résultats restent cantonnés à Meta-World, un environnement de simulation simplifié : aucune validation sur robot physique n'est publiée dans ce preprint, une limite structurelle dans un domaine où le sim-to-real gap demeure l'obstacle central non résolu. VICX s'inscrit dans la vague des Visual Language Action models (VLA) cherchant à dépasser l'imitation learning classique via des représentations visuelles génératives. Les approches concurrentes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA adoptent des architectures majoritairement end-to-end et ont déjà fait l'objet de déploiements ou démonstrations sur hardware réel, ce qui les positionne en avance sur l'applicabilité industrielle à court terme. VICX constitue une contribution méthodologique solide sur la question de la généralisation, mais son chemin vers un déploiement concret reste entièrement à démontrer.

RechercheOpinion
1 source
Robustesse des tâches par ré-étiquetage des données vision-action pour robots
807arXiv cs.RO 

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

Une équipe de chercheurs a publié TREAD (Task Robustness via Re-Labelling Vision-Action Robot Data), un framework de ré-annotation automatique des datasets de robotique présenté sur arXiv (arXiv:2606.10918, juin 2026). L'approche exploite un grand modèle vision-langage (VLM) pré-entraîné en trois étapes séquentielles : génération de sous-tâches sémantiques à partir des labels d'instruction originaux et des scènes initiales, segmentation des vidéos de démonstration conditionnée sur ces sous-tâches, puis production d'instructions textuelles diversifiées intégrant les propriétés des objets manipulés. Le résultat : des démonstrations longues décomposées en paires langage-action ancrées dans la scène, enrichies de reformulations linguistiques variées du même objectif. Les évaluations sur le benchmark LIBERO montrent une amélioration des performances sur des tâches et objectifs non vus à l'entraînement, sans collecte de données supplémentaire. Ce travail cible un goulot d'étranglement bien identifié dans la course aux politiques de manipulation généralistes : les datasets de robotique existants manquent de diversité linguistique et de variété dans les séquences d'action, ce qui fait que les politiques de type VLA (Vision-Language-Action) peinent à suivre des instructions paraphrasées ou décomposées différemment. TREAD contourne ce problème en réutilisant la connaissance transférable des VLMs pour synthétiser de la diversité là où la collecte terrain serait coûteuse. L'approche améliore simultanément la généralisation de planification via la décomposition de trajectoires et la généralisation des politiques conditionnées au langage via la diversité des formulations, deux axes que les approches de scaling pur (plus de données, plus de paramètres) n'adressent pas directement. Le contexte est celui de la montée en puissance des politiques généralistes pour la manipulation robotique, incarnée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces architectures héritent des faiblesses de leurs datasets d'entraînement, souvent collectés avec des instructions standardisées et des démonstrations d'une seule séquence. TREAD s'inscrit dans une tendance émergente de data augmentation sémantique, en complémentarité avec les approches de génération synthétique par simulation (sim-to-real) ou de téléopération à grande échelle. LIBERO, le benchmark utilisé pour validation, est largement adopté dans la communauté pour comparer les politiques de manipulation en environnement tabletop. Les prochaines étapes naturelles seraient la validation sur des datasets plus larges comme Open X-Embodiment et des tests en déploiement réel sur plateformes commerciales.

RechercheOpinion
1 source
Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)
808Ahead of AI 

Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)

Un chercheur et auteur spécialisé dans l'IA a publié sa liste de référence des articles de recherche sur les grands modèles de langage pour la période de janvier à mai 2026, dans la continuité d'un exercice similaire mené tout au long de 2025. La sélection, organisée en dix catégories, couvre l'architecture et la conception des modèles, l'entraînement efficace, l'inférence et le cache KV, l'attention sparse et les longs contextes, le raisonnement et le calcul au moment du test, l'apprentissage par renforcement (RLVR), les systèmes d'agents et l'utilisation d'outils, les agents de codage, les modèles de langage par diffusion, ainsi que l'évaluation et les benchmarks. Parmi les publications phares, Nemotron 3 Super de NVIDIA est cité comme lecture incontournable : ce modèle de 120 milliards de paramètres actifs (architecture 120B-A12B) adopte un design hybride alternant couches d'attention classiques et couches Mamba-2, ce qui le rend particulièrement efficace sur les très longs contextes. Une version allégée, Nemotron 3 Nano (4 milliards de paramètres), est également disponible pour l'inférence locale sur du matériel grand public. Ce recensement illustre une tendance lourde de 2026 : la recherche en LLM ne se limite plus à empiler davantage de paramètres dans des architectures transformer classiques. Les travaux se concentrent désormais sur l'efficacité à l'inférence, la gestion des longs contextes et l'intégration dans des systèmes agentiques complexes. L'émergence de harnais d'agents comme OpenClaw force les modèles à traiter des contextes de plus en plus étendus, ce qui fait de l'efficacité mémoire et de la vitesse d'inférence des priorités absolues pour les équipes de recherche comme pour les équipes produit. Pour les développeurs et les entreprises qui déploient ces modèles en production, ces publications constituent une feuille de route pratique des techniques qui passent du laboratoire au monde réel. La publication de telles listes annotées répond à un besoin concret dans un domaine où des dizaines d'articles paraissent chaque jour sur arXiv. En 2025, les préoccupations dominantes portaient sur les modèles de raisonnement et le reinforcement learning ; en 2026, elles s'élargissent aux architectures hybrides (Arcee Trinity, Mamba-3), à l'allocation de capacité dans les modèles mixture-of-experts, aux modèles de langage par diffusion et à l'infrastructure de déploiement à grande échelle. Ce glissement reflète la maturité croissante du secteur, qui passe de la course pure aux performances à la maîtrise des coûts opérationnels et à la fiabilité des systèmes en production. La deuxième moitié de 2026 devrait voir une accélération sur les agents autonomes et les architectures hybrides, deux axes qui concentrent actuellement l'essentiel de l'attention de la communauté de recherche.

💬 Ce genre de synthèse annotée, ça mérite d'être bookmarqué tout de suite. Le vrai signal de 2026, c'est le glissement : on ne court plus après les paramètres bruts, on court après l'efficacité mémoire et l'inférence rapide, ce qui est exactement ce que les déploiements en prod réclamaient depuis deux ans. Nemotron 3 avec son hybride Mamba-2, c'est le genre de truc qu'on surveillait depuis un moment.

RecherchePaper
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
809arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

RobotiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
810arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

RobotiqueOpinion
1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
811arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

RechercheOpinion
1 source
SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée
812arXiv cs.RO 

SplitAdapter : loco-manipulation humanoïde sensible à la charge par adaptation factorisée

SplitAdapter est une architecture présentée sur arXiv (identifiant 2606.03297) visant à améliorer le contrôle de robots humanoïdes en loco-manipulation, soit la combinaison simultanée de la marche bipède et de la manipulation d'objets physiques. Le système part d'une politique de manipulation de boîtes préentraînée qu'il fige, puis lui greffe deux encodeurs de contexte indépendants : l'un capture les propriétés de la charge et de l'objet saisi, l'autre modélise les dynamiques internes du robot. Ces représentations sont injectées via une modulation FiLM hiérarchique (Feature-wise Linear Modulation), combinée à des objectifs split world-model et une régularisation cross-adversariale par gradient reversal (GRL). Les expériences couvrent des objets de 2, 4 et 6 kg, à des hauteurs de prise et de dépôt de 0, 30 et 60 cm, testés en sim-to-sim puis en déploiement sur robot réel. SplitAdapter améliore le taux de succès en tâche complète face à la politique de base et aux baselines FiLM à encodeur unique, avec les gains les plus marqués sous forte charge (6 kg). L'enjeu central est le transfert sim-to-réel sous charge variable : lorsqu'un humanoïde soulève un objet lourd, ses dynamiques changent sensiblement, et les adaptateurs existants qui fusionnent tous les signaux dans une seule représentation latente tendent à perdre en robustesse précisément dans les conditions les plus critiques. La factorisation proposée, un encodeur par source de variation, maintient une séparation explicite entre les incertitudes liées à l'objet et celles liées au robot, ce qui se révèle plus stable sous conditions extrêmes. Pour un intégrateur ou un OEM industriel, cela suggère qu'une politique généraliste préentraînée peut être adaptée modulairement selon la charge sans réentraînement complet, une propriété utile pour des lignes de production où les objets manipulés varient fréquemment. La loco-manipulation sur humanoïdes concentre des investissements massifs : Figure AI déploie son Figure 03 chez BMW, Boston Dynamics pousse Atlas en partenariat avec Hyundai, et des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) misent sur des politiques généralisables de type VLA (Vision-Language-Action). SplitAdapter prend un pari différent, adapter une politique spécialisée existante plutôt que d'en entraîner une nouvelle de bout en bout, ce qui réduit les coûts de calcul mais soulève la question de la généralisabilité hors distribution. Le papier est une préimpression arXiv soumise début juin 2026, non encore évaluée par les pairs ; aucun déploiement industriel ni pilote commercial n'est annoncé à ce stade.

RobotiquePaper
1 source
GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique
813arXiv cs.RO 

GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique

Des chercheurs ont publié le 3 juin 2026 sur arXiv (référence 2606.03188) une nouvelle architecture baptisée GeoSem-WAM, pour "Geometry- and Semantic-Aware World Action Model". L'objectif : améliorer les World Action Models (WAMs), une classe de modèles d'apprentissage utilisés pour la prise de décision en robotique incarnée. La contribution centrale consiste à enrichir la représentation latente apprise par ces modèles en ajoutant deux branches de prédiction auxiliaires, l'une dédiée à la géométrie future de la scène, l'autre à sa sémantique, en complément de la prédiction RGB classique. Le tout est intégré dans un espace latent unifié capturant simultanément la dynamique de la scène, sa structure spatiale et son contenu sémantique. Cruciale est la contrainte d'efficacité conservée : aucun rollout explicite ni génération vidéo n'est effectué à l'inférence, ce qui distingue GeoSem-WAM des approches monde qui consomment de la mémoire et du compute à chaque décision. L'intérêt industriel de ce travail réside dans la question qu'il adresse en filigrane : les WAMs sont-ils efficaces parce qu'ils imaginent explicitement le futur lors de l'inférence, ou simplement parce que l'entraînement prédictif force l'encodeur à apprendre de meilleures représentations ? Les résultats suggèrent que c'est la qualité des représentations latentes qui prime, et que l'imagination à l'inférence est accessoire. Pour les équipes robotiques travaillant sur des agents navigant dans des environnements non structurés, cela signifie qu'enrichir la supervision d'entraînement avec des signaux géométriques et sémantiques peut améliorer la robustesse sans alourdir le temps de cycle à l'exécution. Les auteurs rapportent des gains en précision de prédiction d'action et en robustesse sur des scénarios difficiles, bien que ces résultats restent à ce stade des benchmarks académiques sur simulateur, non validés sur hardware physique. Les WAMs constituent une catégorie en consolidation dans la recherche en robotique, parallèle aux approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent aussi des priors de représentation riche. GeoSem-WAM s'inscrit dans un courant visant à combler le sim-to-real gap par une meilleure compréhension structurelle de l'environnement, sans recourir à des architectures de diffusion coûteuses à l'inférence. Aucun partenariat industriel ni déploiement sur robot réel n'est annoncé dans cet article, qui demeure une contribution de recherche fondamentale soumise en preprint et n'ayant pas encore subi de revue par les pairs.

RecherchePaper
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
814arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

RobotiqueOpinion
1 source
Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée
815arXiv cs.RO 

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

Une équipe de chercheurs a publié début juin 2026 sur arXiv (réf. 2606.01015) une revue de la littérature consacrée à l'intégration conjointe de l'intelligence artificielle, de l'Internet des objets (IoT) et de la robotique, trois domaines qui progressaient jusqu'ici principalement deux à deux. Les auteurs recensent les travaux existants autour de combinaisons établies, l'AIoT (IA et IoT) et l'Internet of Robotic Things (IoRT, couplant IoT et robotique), et constatent l'absence persistante de cadres de conception unifiés orchestrant les trois disciplines simultanément. Leur principale contribution est une architecture modulaire où des petits modèles de langage (SLM, Small Language Models) assurent l'inférence locale en bordure de réseau (edge), tandis que des grands modèles de langage (LLM) hébergés dans le cloud prennent en charge le raisonnement de haut niveau et la prise de décision autonome. Pour les intégrateurs industriels et les responsables techniques B2B, l'architecture hybride SLM-LLM proposée répond à deux contraintes opérationnelles majeures : réduire la latence en traitant localement les données capteurs, et limiter la dépendance réseau dans des environnements de production. La revue identifie des verrous encore ouverts, notamment l'interopérabilité entre protocoles hétérogènes et la boucle de contrôle par retour d'information dans des systèmes multi-agents distribués. Il convient de souligner que ces résultats restent à ce stade conceptuels : le papier propose un cadre et une taxonomie, pas un système validé en déploiement réel, et l'absence de benchmarks reproductibles est explicitement signalée comme une limite. Ce travail s'inscrit dans un courant académique et industriel que NVIDIA a popularisé sous le terme de Physical AI, désignant des systèmes capables d'agir dans le monde physique via des robots ou des actionneurs connectés. La robotique connectée que dessine ce survey fait écho aux développements de plateformes cloud-robot portés par des acteurs comme Boston Dynamics, ou en Europe par des intégrateurs spécialisés comme Exotec dans les AMR et Enchanted Tools dans la robotique collaborative. Les auteurs identifient eux-mêmes comme prochaine étape la validation expérimentale de leur cadre sur des cas d'usage réels, condition nécessaire pour que l'architecture proposée dépasse le statut de roadmap et devienne une référence opérationnelle pour l'industrie.

UEL'architecture SLM-LLM proposée pourrait bénéficier à terme aux intégrateurs européens comme Exotec (AMR) et Enchanted Tools (cobots), mais reste un cadre conceptuel sans validation terrain ni benchmarks reproductibles.

RecherchePaper
1 source
WALL-WM : modélisation des actions du monde aux points d'articulation d'événements
816arXiv cs.RO 

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.01955) les travaux portant sur WALL-WM, un World Action Model (WAM) qui propose de repenser la manière dont les modèles Vision-Language-Action (VLA) sont entraînés pour la robotique généraliste. Là où les approches dominantes, comme celles exploitées par Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2), optimisent des "chunks" d'actions à longueur fixe conditionnés sur l'observation courante, WALL-WM substitue à cette unité temporelle arbitraire l'événement sémantique : une séquence d'actions cohérente du point de vue du sens (attraper un objet, ouvrir un tiroir), extraite automatiquement par des légendes au niveau événementiel et un échantillonnage cluster-balancé. Le modèle expose deux modes d'inférence : un mode "event" qui consomme des descriptions de l'événement suivant et produit des chunks à longueur variable, et un mode "unified" qui applique un mécanisme baptisé Staircase Decoding pour conserver une inférence à longueur fixe tout en maintenant un chemin VLA à gradient continu. Le tout est entraîné à grande échelle via l'optimiseur Muon, et les auteurs revendiquent des performances état de l'art sur une évaluation de généralisation en monde réel à large échelle, sans préciser les benchmarks ni les données de déploiement. L'intérêt de l'approche réside dans le diagnostic qu'elle formule : le désalignement de granularité entre langage (objectifs sémantiques), vision (dynamique de scène continue) et actions (timescales de contrôle) transforme l'entraînement VLA classique en simple fitting de corrélations à court horizon, ce qui explique les difficultés de généralisation observées hors distribution. En traitant l'événement comme unité atomique d'apprentissage, WALL-WM offre une piste sérieuse pour réduire le sim-to-real gap et améliorer le transfer sur des tâches et des scènes non vues, deux verrous majeurs qui bloquent le passage à l'échelle industrielle des robots manipulateurs. Il convient cependant de rester prudent : il s'agit d'un preprint sans revue par les pairs, sans données de déploiement terrain, et sans détail sur les benchmarks précis utilisés pour établir la supériorité annoncée. WALL-WM s'inscrit dans une vague de recherche sur les WAMs qui a pris de l'ampleur depuis 2024, portée notamment par Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2 et ses successeurs, et NVIDIA avec GR00T N2 pour les humanoïdes. Ces modèles partagent l'ambition de pré-entraîner des politiques robotiques générales sur des données hétérogènes avant de les affiner par tâche. La contribution de WALL-WM est théoriquement propre et l'infrastructure Muon suggère un effort de calcul significatif, mais l'absence de résultats quantitatifs détaillés dans le résumé limite l'évaluation externe. Les prochaines étapes attendues sont une publication complète avec benchmarks reproduisibles (LIBERO, OpenVLA-OFT, RoboMimic) et, idéalement, des partenariats industriels pour validation en environnement de production.

RobotiqueOpinion
1 source
Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA
817arXiv cs.RO 

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Une équipe de chercheurs a publié en février 2026 sur arXiv (identifiant 2602.06508v2) World-VLA-Loop, un cadre d'entraînement qui couple un modèle de monde vidéo et une politique VLA (Vision-Language-Action) dans une boucle d'amélioration mutuelle. Le problème de départ est concret : raffiner une politique VLA par apprentissage par renforcement (RL) dans le monde physique coûte cher, entre les rollouts répétés, les remises à l'état initial, la supervision humaine et les risques de sécurité. Les approches existantes utilisent des modèles de monde vidéo conditionnés sur les actions comme simulateurs virtuels, mais ces simulateurs peinent à reproduire les échecs proches du succès ("near-success failures") et ne produisent pas nativement de signal de récompense. World-VLA-Loop propose deux innovations fondamentales : SANS, un protocole de curation qui mélange délibérément trajectoires réussies et trajectoires quasi-réussies pour améliorer l'alignement action-résultat ; et un modèle de monde vidéo "state-aware" qui prédit simultanément frames futures et récompenses binaires à partir des latents de diffusion, intégrant l'estimation de récompense directement dans le générateur plutôt que dans un module séparé. L'apport principal est d'adresser le problème du décalage de distribution dynamique. Lorsqu'une politique VLA évolue pendant le RL, un simulateur figé se désaligne progressivement avec la politique mise à jour. World-VLA-Loop ferme cette boucle en réinjectant les rollouts de chaque politique améliorée pour affiner le modèle de monde, lequel alimente à son tour le post-entraînement VLA suivant. Cette co-évolution itérative réduit la dépendance aux interactions physiques coûteuses. Les expériences couvrent des environnements de simulation et des robots réels, avec des améliorations de performance significatives annoncées, bien que les métriques précises et les benchmarks ne soient pas détaillés dans le résumé disponible, ce qui limite l'évaluation indépendante à ce stade. Ce travail s'inscrit dans l'essor rapide des politiques VLA depuis 2024 : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA ou Helix de Figure AI constituent l'écosystème de référence. L'enjeu commun est de dépasser le behavior cloning pur pour intégrer du RL sans exploser les coûts de collecte de données réelles. World-VLA-Loop reste un preprint académique en attente de révision par les pairs, sans déploiement industriel annoncé. Les concurrents directs sur la thématique des world models appliqués à la robotique incluent DreamerV3 et les approches de Google DeepMind. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes et une comparaison quantitative publiée contre ces baselines.

RechercheOpinion
1 source
Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée
818arXiv cs.RO 

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

RechercheOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
819arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

RobotiqueOpinion
1 source
Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement
820arXiv cs.RO 

Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement

Des chercheurs publient sur arXiv (réf. 2605.23341) un cadre de génération de trajectoires pour systèmes robotiques embarqués baptisé Sparse Compositional Flow Matching (SCFM). Contrairement aux modèles génératifs classiques qui produisent une trajectoire point par point comme un signal dense et monolithique, SCFM assemble explicitement des "primitives de mouvement" réutilisables via deux modules couplés : le Motion-Primitive Dictionary Learning, qui attribue à chaque atome un masque de longueur appris et des indicateurs binaires de démarrage, et le Structural Sparse Flow Matching with Geometric Constraints, qui génère une matrice de placement sparse via une loss géométrique différentiable forçant la continuité spatiale et la contiguïté temporelle aux jonctions. Évalué sur les benchmarks Open X-Embodiment et 3DMoTraj, le framework améliore l'ADE (Average Displacement Error) de 19,2 % et le FDE (Final Displacement Error) de 21,0 % par rapport au meilleur concurrent, ramenant le ratio FDE/ADE de 1,8 à 1,07. L'apport principal est de rendre la génération de trajectoires structurée et décomposable. Les approches actuelles par diffusion ou flow matching classique opèrent dans un espace de haute dimension sans contraintes de structure temporelle, ce qui rend le planificateur difficile à interpréter et à adapter à de nouvelles tâches. Avec SCFM, le dictionnaire de primitives fonctionne comme une bibliothèque de sous-routines motrices réutilisables entre tâches apparentées, et la loss géométrique garantit la cohérence aux jonctions de primitives. Pour un intégrateur ou un architecte de système robotique, cela facilite la décomposition explicite des tâches et le débogage ciblé des erreurs de trajectoire, des gains concrets au-delà de la métrique de benchmark. Ce travail prolonge le courant des modèles génératifs structurés, qui contestent depuis plusieurs années l'efficacité des représentations denses non supervisées. Le flow matching, popularisé à partir de 2022 par les travaux de Lipman et al., s'impose comme alternative aux modèles de diffusion pour sa vitesse d'inférence et fait l'objet d'adaptations actives en robotique embarquée, notamment dans Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. SCFM reste une contribution académique évaluée sur données publiques, sans déploiement ni pilote annoncé. Les prochaines étapes naturelles incluent une validation sur matériel réel et une intégration dans des pipelines VLA (vision-language-action), où la décomposition en primitives explicites pourrait faciliter le raisonnement de haut niveau des modèles de fondation.

RecherchePaper
1 source
EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs
821arXiv cs.RO 

EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs

Une équipe de chercheurs a déposé sur arXiv (réf. 2605.21862) EvoScene-VLA, une nouvelle architecture de contrôle robotique pour les politiques vision-langage-action (VLA) en mode "chunked", où le robot planifie plusieurs gestes à la fois plutôt qu'une seule commande par observation. Sur 31 tâches de manipulation du benchmark RoboTwin, le système atteint 89,1 % de réussite en évaluation fixe (contre 87,2 % pour les baselines) et 88,5 % en évaluation aléatoire (contre 86,1 %). Des tests sur le robot réel Galaxea R1-Lite confirment que l'architecture surpasse l'ensemble des approches comparées. Le mécanisme central est un "préfixe de scène" récurrent : un vecteur compact et géométriquement informé, mis à jour après chaque chunk d'actions, qui transporte l'état de la scène d'un appel au modèle au suivant. L'apport technique comble un angle mort structurel des VLA chunkées actuelles : celles-ci reconditionent chaque séquence d'actions uniquement sur l'observation visuelle instantanée, sans tenir compte des modifications de géométrie induites par les gestes précédents, contacts, occultations ou déplacements d'objets. Les approches spatiales (amélioration de la géométrie par frame) et temporelles (agrégation de frames passées) n'adressent pas ce problème entre les appels au VLM. EvoScene-VLA maintient un prior de scène persistant et mis à jour après chaque action : le modèle fusionne l'observation fraîche avec ce prior, produit le chunk suivant, et génère une mise à jour compacte de la scène. Pour les intégrateurs travaillant sur la manipulation dextre ou les séquences longues, c'est une démonstration que l'architecture du décodeur peut être déterminante, indépendamment du volume de données d'entraînement. Ce preprint s'inscrit dans la vague de recherche post-π0 (Physical Intelligence) et GR00T N2 (NVIDIA), où les VLA passent du stade académique à celui de politiques testées sur hardware réel. Le Galaxea R1-Lite est une plateforme de recherche de la startup chinoise Galaxea Robotics, positionnée comme alternative ouverte aux robots de labo propriétaires. La publication ne mentionne ni partenaire industriel ni calendrier de déploiement commercial : il s'agit d'une contribution académique, pas d'une annonce produit. Les gains restent modestes en valeur absolue, autour de deux points sur RoboTwin, et les deux modules d'entraînement auxiliaires (Scene Predictor et Geometric Anchor) sont abandonnés à l'inférence, signe d'une conception orientée efficacité au déploiement. La prochaine étape naturelle serait une évaluation sur des tâches out-of-distribution ou en environnement industriel non structuré.

RechercheOpinion
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
822IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
San Francisco accueille un club de combat de robots, General Catalyst fait le buzz
823The Information AI 

San Francisco accueille un club de combat de robots, General Catalyst fait le buzz

Jeudi dernier, une boîte de nuit du quartier SoMa à San Francisco accueillait un spectacle pour le moins inhabituel : des combats de robots humanoïdes de la taille d'un enfant dans une cage octogonale, sur fond de musique électronique et d'un animateur en blazer à paillettes. L'événement, baptisé "Robot Fight Night and Dance Off", réunissait quelques centaines de spectateurs venus encourager des machines maladroites à se frapper mutuellement. Derrière ce cirque technologique se cache Nebius, une société de cloud computing cherchant à se faire connaître : les robots, fabriqués par la firme chinoise Unitree, avaient été entraînés et chorégraphiés par Ultimate Fighting Bots, une ligue de sports pour robots humanoïdes, sur la plateforme cloud de Nebius. Dans le même temps, General Catalyst, l'un des fonds de capital-risque les plus influents de la Silicon Valley, publiait une vidéo marketing qui a cumulé 2,5 millions de vues sur Twitter en quelques jours, déclenchant une vive polémique dans le milieu du venture capital. Ces deux événements illustrent, chacun à leur manière, une forme de surchauffe dans l'industrie technologique. La robotique concentre aujourd'hui des sommes colossales : Jensen Huang de Nvidia y voit "la prochaine frontière de l'IA", Elon Musk présente Optimus comme "le plus grand produit de Tesla", et la startup Figure de Brett Adcock atteignait une valorisation de 39 milliards de dollars l'an dernier. Des dizaines de milliards ont été injectés dans des entreprises qui promettent de remplacer des millions de travailleurs dans les usines et les maisons de retraite. Transformer ces machines en attractions de combat revient, selon Shane Wilson, associé chez Citta Capital, à démontrer "le biais testostérone des startups en phase d'amorçage". La vidéo de General Catalyst, elle, a agacé Marc Andreessen et ses équipes : le personnage du capital-risqueur imprudent et peu sérieux qu'elle met en scène ressemble de façon troublante à Andreessen lui-même. Propulsée par ses réactions en ligne, la vidéo est devenue l'un des sujets les plus commentés entre investisseurs cette semaine, certains la qualifiant de "de mauvais goût". La soirée SoMa confirmait pourtant une chose : la révolution robotique annoncée ressemble pour l'instant moins à une armée de Terminators qu'à une procession de machines titubantes peinent à se porter des coups. Un ingénieur d'OpenAI présent dans la salle reconnaissait que les robots n'avaient guère progressé depuis un an. Quant à General Catalyst, habituellement discret dans les joutes verbales entre fonds, cette incursion dans le marketing viral marque un tournant dans la guerre d'image qui oppose les grandes firmes de la Silicon Valley. Le secteur du venture capital, sous pression alors que la bulle IA s'emballe, ne résiste plus à la tentation de la mise en scène, qu'il s'agisse de robots qui se battent maladroitement ou de vidéos qui règlent des comptes à peine voilés.

💬 Des robots humanoïdes qui trébuchent dans une cage octogonale pendant qu'un mec en blazer à paillettes crie dessus, c'est le meilleur résumé de l'état réel de la robotique en 2025. Un ingénieur d'OpenAI sur place qui admet que ça n'a pas bougé depuis un an, ça dit tout. La hype à 39 milliards pour Figure, les discours de Jensen Huang... bon, sur le papier ça claque, mais le produit, lui, peine encore à lever le bras sans tomber.

RobotiqueOpinion
1 source
L'IA a enrichi une infime part de la Silicon Valley et laissé les autres s'interroger sur leur place
824The Decoder 

L'IA a enrichi une infime part de la Silicon Valley et laissé les autres s'interroger sur leur place

Environ 10 000 personnes dans la Silicon Valley ont amassé des fortunes de plus de 20 millions de dollars grâce au boom de l'intelligence artificielle, selon Deedy Das, associé chez Menlo Ventures. Ces nouveaux riches se concentrent autour d'un petit nombre d'entreprises devenues le centre de gravité du secteur : Anthropic, OpenAI, xAI d'Elon Musk, Meta et Nvidia. Une poignée de salariés arrivés au bon moment, avec les bons titres de poste, ont vu leurs stock-options se transformer en patrimoine générationnel en l'espace de deux ou trois ans. Pour tous les autres, le tableau est bien différent. Les cadres intermédiaires se sentent évincés, coincés entre une direction qui capte toute la valeur et des outils d'IA qui automatisent progressivement leurs fonctions. Le sentiment dominant n'est pas l'enthousiasme mais une forme de désorientation : même parmi les gagnants, Das observe un "manque profond de sens", comme si l'enrichissement brutal avait court-circuité toute notion de trajectoire professionnelle normale. Ceux qui n'ont pas eu accès aux bonnes actions au bon moment regardent cette redistribution depuis l'extérieur, sans filet. Ce phénomène s'inscrit dans une dynamique d'hyperconcentration propre aux cycles technologiques, mais amplifiée par la rapidité exceptionnelle de la montée en puissance de l'IA générative. Les valorisations stratosphériques d'OpenAI et d'Anthropic ont créé des effets de richesse inédits pour un cercle très étroit d'initiés, ravivant le débat sur l'inégalité structurelle au coeur même d'une industrie qui se présente volontiers comme vecteur de progrès universel.

UELe phénomène d'hyperconcentration des richesses générées par l'IA alimente en Europe le débat sur la redistribution des bénéfices technologiques et renforce les arguments en faveur de mécanismes fiscaux spécifiques à l'IA.

💬 10 000 personnes qui deviennent millionnaires, et les autres qui regardent passer le train. C'est le cycle tech classique, sauf que là l'accélération était tellement brutale que même les gens "bien placés" dans les boîtes concernées n'ont pas tous eu leur part. Ce qui me frappe, c'est ce "manque de sens" que ressent même ceux qui ont gagné au loto des stock-options : quand la richesse arrive trop vite, elle court-circuite tout le reste.

SociétéOpinion
1 source
La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi
825Ars Technica AI 

La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi

La startup californienne SPAN, basée à San Francisco, a annoncé un projet inédit : installer de mini-centres de données directement chez des particuliers, sous forme de boîtiers compacts baptisés XFRA nodes. Ces appareils embarquent des GPU Nvidia RTX Pro 6000 Blackwell Server Edition refroidis par liquide, conçus pour fonctionner en silence. En échange de l'espace et de l'électricité, les propriétaires recevraient en contrepartie un accès Internet subventionné, une réduction sur leur facture d'électricité et des batteries de secours. SPAN a déjà commencé des tests pilotes et prévoit un déploiement auprès de 100 foyers d'ici la fin de l'année 2026. L'enjeu est de taille pour l'industrie de l'IA : la demande en puissance de calcul explose, mais construire de nouveaux datacenters classiques prend des années et se heurte à des obstacles réglementaires, fonciers et énergétiques considérables. En distribuant cette infrastructure dans les foyers américains, SPAN espère mobiliser rapidement des capacités de calcul dormantes sans les coûts et délais habituels. Pour les ménages, le modèle ressemble à celui des contrats d'effacement électrique ou des panneaux solaires avec revente de surplus : on cède une ressource inutilisée contre un avantage financier tangible. Chris Lander, vice-président de la division XFRA chez SPAN, résume la promesse ainsi : là où les datacenters traditionnels sont bruyants, disgracieux et font monter les prix de l'électricité dans les quartiers, l'XFRA node serait discret et rendrait l'énergie moins chère pour le foyer et la communauté. Ce type d'approche décentralisée n'est pas sans précédent, des projets comme Filecoin ou Helium ont tenté de monétiser la bande passante ou le stockage résidentiel avec des résultats mitigés. La différence ici réside dans la puissance matérielle déployée et dans l'appétit sans précédent des acteurs de l'IA pour du calcul supplémentaire. Reste à voir si les contraintes pratiques, consommation électrique résiduelle, gestion thermique, responsabilité légale des hôtes, seront surmontées à grande échelle, et si les régulateurs américains valideront ce modèle hybride entre infrastructure industrielle et usage résidentiel.

InfrastructureOpinion
1 source
Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras
826The Information AI 

Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras

OpenAI a fait appel à la startup Gimlet Labs pour optimiser ses modèles d'intelligence artificielle sur les puces de Cerebras Systems. Selon Zain Asgar, PDG de Gimlet Labs, cette collaboration permet à OpenAI de faire tourner Codex-Spark, une version accélérée de son outil de programmation destiné aux développeurs, sur l'infrastructure Cerebras. L'annonce intervient alors que Cerebras se prépare à une introduction en bourse imminente cette semaine. Ce recours à une startup spécialisée illustre un défi technique souvent sous-estimé : chaque type de puce exige une adaptation spécifique du code qui entraîne et exécute les modèles. Ce travail d'optimisation bas niveau, peu visible mais indispensable, conditionne directement les performances et les coûts d'exploitation des grands modèles de langage. Pour les utilisateurs de Codex-Spark, cela se traduit concrètement par des temps de réponse plus rapides dans les tâches d'assistance au code. Cette dynamique s'inscrit dans un mouvement plus large de diversification des sources de calcul au sein de l'industrie de l'IA. Alors que les puces Nvidia restent difficiles à obtenir en quantité suffisante, des acteurs comme OpenAI et Meta cherchent activement des alternatives : Cerebras, mais aussi d'autres fabricants de puces spécialisées. Cette stratégie multi-fournisseurs crée un besoin croissant d'intermédiaires techniques capables d'adapter les modèles à des architectures matérielles variées, ouvrant un nouveau segment de marché pour des startups comme Gimlet Labs.

InfrastructureOpinion
1 source
BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique
827arXiv cs.RO 

BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique

Des chercheurs ont présenté en mai 2026 BioProVLA-Agent (arXiv:2605.07306), un système multi-agents conçu pour automatiser les manipulations en laboratoire biologique humide à coût maîtrisé. L'architecture combine trois modules : un agent LLM qui décompose les protocoles biologiques en sous-tâches vérifiables, un agent de vérification VLM-RAG (Vision-Language Model avec Retrieval-Augmented Generation) qui évalue l'état visuel de la scène entre chaque étape, et un agent VLA (Vision-Language-Action) qui exécute les gestes via une politique légère. Pour robustifier l'exécution face aux difficultés visuelles des labos humides (labware transparent, reflets, surexposition), les auteurs ont développé AugSmolVLA, une stratégie d'augmentation en ligne appliquée au modèle SmolVLA. Évalué sur 15 tâches atomiques (chargement de tubes, tri, vissage de bouchons, versage de liquides), 6 workflows composites et 3 tâches bimanuelles, AugSmolVLA surpasse les baselines ACT, X-VLA et SmolVLA original dans des conditions normales et de forte exposition lumineuse. Le point saillant n'est pas la performance brute mais la boucle fermée de vérification (closed-loop reasoning) : contrairement aux systèmes VLA classiques qui exécutent une instruction en one-shot, BioProVLA-Agent valide chaque sous-étape avant de progresser, ce qui adresse directement le "demo-to-reality gap" bien documenté en robotique manipulatrice. Pour les intégrateurs biotech et les COO de CRO, l'argument clé est l'accessibilité : le système s'appuie sur SmolVLA, un modèle léger open-source, plutôt que sur des LLM propriétaires massifs, réduisant la barrière à l'entrée pour les laboratoires académiques ou mid-size. Cela ouvre une voie crédible vers l'automatisation de tâches manuelles répétitives sans recourir à des équipements dédiés ou des interfaces robotiques propriétaires. Ce travail s'inscrit dans l'extension des modèles VLA, popularisés dans la robotique humanoïde (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA), vers des niches industrielles verticales comme la biologie. L'automatisation laboratoire est déjà dominée par Hamilton Robotics, Tecan et Beckman Coulter sur des workflows figés et des instruments dédiés ; BioProVLA-Agent vise le segment des labos non équipés de systèmes propriétaires. Aucun déploiement opérationnel ni partenariat industriel n'est annoncé : il s'agit d'une preuve de concept académique, évaluée uniquement sur un benchmark contrôlé, non encore validée en conditions de production réelles.

UELes laboratoires académiques et start-ups biotech européens pourraient s'appuyer sur cette approche open-source (SmolVLA) pour démarrer des projets d'automatisation de manipulations biologiques sans équipements propriétaires, mais aucun partenariat ni déploiement européen n'est annoncé.

RobotiqueOpinion
1 source
Video Friday : l'IA confère aux mains robotiques une dextérité humaine
828IEEE Spectrum Robotics 

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

Cette semaine dans la sphère robotique, l'annonce la plus médiatisée émane de Genesis AI, qui présente GENE-26.5, décrit par la société comme "le premier cerveau IA à conférer aux robots des capacités de manipulation physique au niveau humain." Les démonstrations vidéo montrent un système cuisant un repas complet, cassant un oeuf d'une seule main, conduisant des expériences de laboratoire, réalisant du câblage de harnais électrique et jouant du piano. Aucun détail technique sur le matériel robotique utilisé, les taux de succès, ou les conditions d'environnement contrôlées n'est communiqué, ce qui invite à la prudence avant de valider ces affirmations. En parallèle, le Robotics and AI Institute publie une démonstration du quadrupède Spot de Boston Dynamics piloté par un réseau de neurones entraîné par apprentissage par renforcement combiné à une distillation multi-expert: le robot s'accroupit, saute, escalade des caisses et franchit des vides. Du côté de la NASA, les ingénieurs du Jet Propulsion Laboratory ont passé la barrière du son avec des pales de rotor de prochaine génération pour hélicoptère martien, atteignant Mach 1 dans une chambre simulant l'atmosphère de Mars, dont la densité représente environ 1 % de celle de la Terre. Jim Fan, qui dirige le groupe de recherche en autonomie incarnée chez Nvidia, affirme pour sa part que la robotique entre dans sa "phase finale" et que le plan de jeu est déjà écrit. Les affirmations de Genesis AI sur la manipulation humanoïde méritent d'être contextualisées: le secteur est parsemé d'annonces de "dextérité humaine" qui peinent à se vérifier hors conditions contrôlées. L'absence de métriques objectives, taux de succès, nombre de tentatives, variété des objets manipulés, est un signal d'alerte classique dans les communications de ce type, et le demo-to-reality gap reste la question centrale pour tout décideur B2B qui évalue ces systèmes. La prouesse NASA sur les rotors martiens est, en revanche, une avancée mesurable: franchir Mach 1 dans une atmosphère aussi ténue implique des vitesses de rotation extrêmes et des matériaux composites capables de résister à des charges aérodynamiques inédites, ouvrant la voie à des hélicoptères plus capables pour de futures missions. Quant à Atlas, le discours officiel de Boston Dynamics sur l'équilibre entre objectifs commerciaux et recherche fondamentale traduit la pression croissante que subissent les constructeurs de plateformes humanoïdes pour démontrer une rentabilité tangible après des années d'investissement massif. Genesis AI est peu connue du grand public; sa mise en avant via TechCrunch suggère une stratégie de visibilité plutôt qu'un lancement produit au sens strict. Dans l'écosystème concurrent, Physical Intelligence avec Pi-0, Figure Robotics avec le Figure 03, Agility Robotics et 1X mènent des efforts comparables sur la manipulation généraliste, tandis que Nvidia prépare le terrain pour GR00T N2 et les prochains modèles de foundation pour corps physiques. Le thème de l'Open Duck Mini, version open-source des droids BDX de Disney publiée par la communauté, rappelle que l'innovation en robotique ne se limite pas aux acteurs industriels. La communauté se retrouvera à ICRA 2026 du 1er au 5 juin à Vienne, puis à RSS 2026 du 13 au 17 juillet à Sydney, deux rendez-vous où ces avancées seront soumises à une évaluation scientifique rigoureuse, loin des vidéos de démonstration soigneusement sélectionnées.

💬 Genesis AI sort le grand jeu avec GENE-26.5, mais zéro métrique, zéro taux de réussite, ça reste une démo marketing jusqu'à preuve du contraire. Ce qui me retient vraiment dans cette actu, c'est la prouesse NASA sur les rotors martiens: Mach 1 dans 1% de densité atmosphérique, ça c'est de la physique vérifiable, pas du storytelling. Jim Fan parle de "phase finale" pour la robotique, bon, sur le papier c'est enthousiasmant, reste à voir ce que ça donne à ICRA en juin face aux pairs.

RobotiqueActu
1 source
SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée
829Pandaily 

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

SynapX, une startup fondée en janvier 2026, a annoncé le lancement de SYNData, un système de collecte de données multimodale conçu pour l'apprentissage de la manipulation dextre en robotique incarnée. Le système repose sur trois modules matériels distincts : un casque Ego à quatre caméras pour la vision première personne, des bracelets EMG (électromyographie) pour capter les signaux bioélectriques musculaires, et un exosquelette-gant bionique pour enregistrer la pose de la main, l'état de contact sur toute la paume et la distribution des forces. L'architecture permet la collecte simultanée de ces modalités, y compris en conditions d'occlusion visuelle partielle. Trois semaines seulement après sa création et sa première participation en compétition, SynapX a terminé 2e au classement mondial et 1er en Chine dans la piste "Reasoning to Action" de l'AGIBOT World Challenge, organisé dans le cadre de l'ICRA 2026. L'enjeu central que SYNData prétend résoudre est le goulot d'étranglement de la donnée physique à l'échelle. Dans le développement des modèles vision-langage-action (VLA) pour la manipulation robotique, la collecte de données haute qualité demeure le facteur limitant, davantage que l'architecture des modèles ou la maturité du hardware. Le mécanisme propriétaire Bio2Robot transforme les signaux biologiques humains en données directement exploitables par des modèles de robot, avec l'objectif déclaré de ne pas perturber le comportement naturel de l'opérateur lors de la capture. Si cette promesse tient à l'échelle, cela représenterait un avantage opérationnel significatif pour les intégrateurs cherchant à industrialiser la démonstration humaine sans pipeline de labellisation coûteux. Le contexte concurrentiel est dense : des acteurs comme Physical Intelligence avec son modèle Pi-0, NVIDIA avec GR00T N2, ou encore Agibot et 1X Technologies investissent massivement dans des pipelines de données pour la manipulation généraliste. En Chine, l'écosystème est particulièrement actif, porté par des programmes de soutien public et une communauté robotique illustrée par l'AGIBOT World Challenge lui-même. SynapX se positionne en amont de la chaîne de valeur, comme fournisseur d'infrastructure de collecte plutôt que fabricant de robot. La robustesse du classement ICRA reste à confirmer en conditions de déploiement industriel réelles, le gap entre performance en compétition et application terrain demeurant un défi structurel du secteur.

💬 Le vrai goulot en robotique, c'est pas l'archi du modèle, c'est la donnée physique à l'échelle, et SynapX l'a compris avant beaucoup. Se positionner comme fournisseur d'infra de capture plutôt que fabricant de robot, c'est malin : tu fournis à tout l'écosystème sans te battre contre Physical Intelligence ou NVIDIA sur le hardware. Trois semaines d'existence, 2e mondial à l'ICRA, bon, reste à voir si les EMG et l'exo tiennent hors compétition.

RobotiqueOpinion
1 source
LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes
830MarkTechPost 

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

La LightSeek Foundation a publié TokenSpeed, un moteur d'inférence pour grands modèles de langage distribué en open source sous licence MIT. Encore en phase de préversion, TokenSpeed est conçu spécifiquement pour les charges de travail dites "agentiques", c'est-à-dire les systèmes d'IA qui enchaînent de multiples appels au modèle pour accomplir des tâches complexes, comme l'écriture ou la révision de code. L'objectif déclaré est d'atteindre des performances comparables à TensorRT-LLM de NVIDIA, tout en restant accessible à l'ensemble de l'écosystème. Le moteur vise à maintenir un débit minimum de 70 tokens par seconde par utilisateur, un seuil qui monte parfois à 200 TPS ou plus, tout en maximisant le nombre de tokens traités par GPU et par minute. L'enjeu dépasse la performance brute. Des outils comme Claude Code d'Anthropic, Codex d'OpenAI ou Cursor fonctionnent sur des contextes qui dépassent régulièrement 50 000 tokens et s'étalent sur des dizaines de tours de conversation, un profil très différent d'un simple chatbot. Or la plupart des benchmarks publics ne rendent pas compte de cette réalité. Lorsqu'un agent de développement logiciel analyse un dépôt entier, génère du code, exécute des tests et itère, chaque milliseconde de latence ajoutée se multiplie à chaque étape. Un moteur d'inférence mal adapté devient rapidement un goulot d'étranglement qui ralentit l'ensemble de la chaîne de production logicielle, et donc, à terme, les équipes d'ingénierie qui en dépendent. L'architecture de TokenSpeed repose sur cinq sous-systèmes complémentaires. Le premier est un mécanisme de parallélisme assisté par compilateur, basé sur le modèle SPMD (Single Program, Multiple Data), qui génère automatiquement les communications entre processus sans que le développeur n'ait à les écrire manuellement. Le planificateur de requêtes sépare strictement le plan de contrôle, implémenté en C++ sous forme de machine à états finis, du plan d'exécution écrit en Python, ce qui permet de détecter les erreurs de gestion du cache KV à la compilation plutôt qu'à l'exécution. Le troisième pilier est une couche de noyaux GPU modulaire et extensible, compatible avec des accélérateurs autres que ceux de NVIDIA, s'appuyant notamment sur l'un des noyaux MLA (Multi-head Latent Attention) les plus rapides disponibles pour les GPU Blackwell. Ce noyau MLA a d'ailleurs déjà été intégré dans vLLM, l'un des moteurs d'inférence open source les plus utilisés dans l'industrie. La fondation LightSeek positionne ainsi TokenSpeed comme une infrastructure commune pour l'ère où les agents IA deviennent le principal vecteur de production de code.

UELa disponibilité d'un moteur d'inférence open source compatible avec des accélérateurs non-NVIDIA pourrait réduire la dépendance des équipes européennes aux solutions propriétaires de NVIDIA.

InfrastructureActu
1 source
SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique
831arXiv cs.RO 

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Des chercheurs présentent dans un preprint arXiv (2511.06754v3, troisième révision, mai 2026) SlotVLA, un framework de manipulation robotique multitatches qui repose sur des représentations centrées sur les objets et leurs relations plutôt que sur les plongements denses utilisés par la majorité des modèles VLA actuels. L'architecture combine trois composants : un tokeniseur visuel à slots qui maintient des représentations temporellement cohérentes pour chaque objet détecté dans la scène, un décodeur centré sur les relations entre objets pour produire des embeddings pertinents à la tâche, et un module LLM qui traduit ces embeddings en séquences d'actions exécutables. En parallèle, les auteurs publient LIBERO+, un benchmark de manipulation dérivé du jeu de données LIBERO existant, enrichi d'annotations objet-centriques au niveau des boîtes englobantes et des masques de segmentation, ainsi qu'un suivi temporel des instances entre frames. Les expériences conduites sur LIBERO+ montrent que les représentations à slots réduisent significativement le nombre de tokens visuels nécessaires tout en conservant des performances de généralisation comparables aux baselines denses. L'intérêt principal de cette approche réside dans la tension qu'elle adresse directement : les VLAs déployés à ce jour (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure) s'appuient sur des encodeurs visuels qui traitent la scène comme un champ dense, sans distinction explicite entre objets manipulables et arrière-plan. Cette architecture entraîne une redondance computationnelle et rend difficile l'audit du raisonnement du modèle, ce qui freine l'adoption industrielle dans des contextes certifiables. SlotVLA propose que des représentations structurées, inspirées de la cognition humaine sur les objets discrets, puissent constituer une base plus efficace et interprétable pour le contrôle visuomoteur. La réduction du nombre de tokens visuels est un levier concret de coût d'inférence pour des systèmes embarqués ou des flottes de robots. Il convient toutefois de noter que les résultats présentés restent confinés à l'environnement simulé LIBERO+ : aucune validation physique sur robot réel n'est rapportée dans ce preprint, ce qui laisse ouverte la question du sim-to-real gap pour ce type de représentation. Cette publication s'inscrit dans un courant actif de recherche sur les architectures objet-centriques pour la robotique, dont les travaux fondateurs incluent les modèles de slot attention de Locatello et al. (2020) et les approches OCRL. LIBERO avait déjà été introduit comme benchmark multitatches pour la manipulation, mais sans annotations objet-centriques fines : LIBERO+ vient combler ce manque pour faciliter l'évaluation comparative de ce type de représentation. Sur le plan concurrentiel, les laboratoires académiques (notamment ceux liés à CMU, Berkeley, Stanford) et industriels travaillent en parallèle sur des architectures plus interprétables pour répondre aux demandes croissantes de traçabilité dans l'automatisation industrielle. Les prochaines étapes naturelles seront la validation sim-to-real sur des plateformes physiques standard (Franka, UR, ou humanoïdes) et l'intégration dans des pipelines de fine-tuning avec des modèles fondateurs publics.

RechercheOpinion
1 source
Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2
832AWS ML Blog 

Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2

Tomofun, la startup taïwanaise à l'origine de la caméra connectée Furbo, a migré une partie de son infrastructure d'inférence IA des instances GPU Amazon EC2 vers des instances EC2 Inf2, propulsées par les puces AWS Inferentia2 conçues en interne par Amazon. Le système Furbo analyse en temps réel les flux vidéo provenant de centaines de milliers de caméras domestiques pour détecter des comportements animaux précis, aboiements, courses, activités inhabituelles, et envoyer des alertes instantanées aux propriétaires. Le modèle central est BLIP (Bootstrapping Language-Image Pre-Training), un modèle vision-langage compilé via le SDK Neuron d'AWS pour s'exécuter nativement sur Inferentia2. L'architecture déployée s'appuie sur deux couches d'Auto Scaling EC2 derrière un Elastic Load Balancer : la première traite les requêtes API, la seconde héberge les conteneurs d'inférence. Amazon CloudFront achemine les images des caméras vers ce pipeline, tandis que CloudWatch surveille la latence, le débit et les taux d'erreur en continu. La motivation principale de cette migration est économique. L'inférence toujours active à grande échelle est fondamentalement différente de l'entraînement : elle ne nécessite pas la puissance brute des GPU, mais exige une disponibilité permanente et un coût par requête minimal. En remplaçant une partie des GPU par des instances Inf2, Tomofun réduit significativement ses dépenses d'infrastructure tout en maintenant la précision et le débit du modèle. La transition a été conçue pour être transparente : l'API Furbo peut désormais router les requêtes vers des conteneurs GPU ou Inferentia2 sans modifier la logique d'alerte en aval ni l'expérience utilisateur. Cette flexibilité permet aussi d'ajuster dynamiquement le mix en fonction de la charge et des coûts, ce qui est particulièrement précieux pour un service dont le trafic fluctue selon les heures de la journée dans de nombreux fuseaux horaires. Cette initiative s'inscrit dans une tendance plus large du marché cloud : les grandes plateformes développent leurs propres puces d'inférence, Inferentia2 chez AWS, TPU chez Google, et les futures puces de Meta, pour offrir une alternative moins coûteuse aux GPU Nvidia dans les déploiements de production à grande échelle. Pour les entreprises gérant des millions de requêtes d'inférence quotidiennes sur des modèles de vision stabilisés, l'argument économique des accélérateurs spécialisés devient difficile à ignorer. Le cas Tomofun illustre concrètement ce compromis : conserver les GPU pour la flexibilité et les pics, tout en basculant la charge de base vers Inferentia2. Avec la prolifération des objets connectés embarquant de l'IA en périphérie, ce modèle hybride pourrait devenir la norme pour les acteurs du secteur de la "pet tech" et plus largement de l'IoT intelligent.

InfrastructureActu
1 source
HP et l'art de l'IA et des données pour les entreprises
833AI News 

HP et l'art de l'IA et des données pour les entreprises

À quelques jours du salon AI & Big Data Expo, prévu les 18 et 19 mai au McEnery Convention Center de San Jose, Jérôme Gabryszewski, responsable du développement commercial IA et Data Science chez HP, a accordé une interview à Artificial Intelligence News pour évoquer les défis concrets que rencontrent les grandes entreprises dans leur adoption de l'intelligence artificielle. Le constat est sans appel : malgré un accès abondant à leurs propres données, la plupart des organisations peinent à en tirer parti. La première embûche n'est pas technique : c'est la dette organisationnelle et architecturale. Avant d'automatiser quoi que ce soit, les entreprises doivent réconcilier des données éparpillées entre départements, des schémas incohérents et des systèmes legacy jamais conçus pour l'interopérabilité. Le travail de gouvernance précède toujours le déploiement technique. Sur la question des modèles en apprentissage continu, Gabryszewski recommande d'appliquer les mêmes exigences qu'un déploiement logiciel classique : aucune mise à jour en production sans validation formelle. La dérive conceptuelle est surveillée via des pipelines MLOps avec détection automatique, et la contamination des données d'entraînement est traitée comme un problème de traçabilité autant que de sécurité. Les entreprises qui maîtrisent ces risques ne sont pas forcément les plus avancées techniquement, mais celles qui ont intégré la gouvernance IA dans leur cadre de gestion des risques avant de passer à l'échelle. Ce positionnement a des implications concrètes pour des milliers d'équipes data qui cherchent à réduire leur dépendance au cloud sans sacrifier la puissance de calcul. La question du local versus cloud est au cœur des arbitrages actuels : chaque inférence envoyée dans le cloud représente un coût, une latence et une exposition potentielle de données sensibles. Disposer d'une infrastructure locale capable de faire tourner des modèles de grande taille change fondamentalement l'équation économique et réglementaire, notamment pour les secteurs soumis à des contraintes strictes comme la finance, la santé ou la défense. HP s'appuie sur quinze ans de développement de sa gamme professionnelle Z pour positionner son matériel comme épine dorsale de ce cycle IA autonome. Le ZBook Ultra et le Z2 Mini couvrent les usages mobiles et compacts, mais c'est le ZGX Nano qui attire l'attention : un supercalculateur IA de 15x15 cm, équipé du superpuce NVIDIA GB10 Grace Blackwell, 128 Go de mémoire unifiée et 1 000 TOPS de performance FP4, capable de faire tourner localement des modèles jusqu'à 200 milliards de paramètres. En interconnectant deux unités, on atteint 405 milliards de paramètres, sans cloud, sans datacenter, sans file d'attente. L'appareil est livré préconfiguré avec la pile logicielle NVIDIA DGX et le HP ZGX Toolkit, permettant aux équipes d'être opérationnelles en quelques minutes. HP vise ainsi le segment des équipes IA qui ont besoin de puissance souveraine et immédiate, à l'heure où la course aux modèles toujours plus grands redistribue les cartes du marché des workstations professionnelles.

InfrastructureActu
1 source
Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled
834arXiv cs.RO 

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Une équipe de chercheurs a publié le 6 mai 2026 sur arXiv (réf. 2605.03637) un framework génératif pour convertir des vidéos de démonstration humaine en séquences d'exécution robotique plausibles, sans données appariées humain-robot. La méthode décompose la vidéo source en deux espaces latents orthogonaux: l'un encodant la tâche accomplie, l'autre la morphologie du corps en mouvement. Un double objectif contrastif impose cette séparation en minimisant l'information mutuelle entre les deux espaces pour garantir leur indépendance, tout en maximisant la cohérence intra-espace pour stabiliser les représentations. Un adaptateur à faible coût paramétrique injecte ces codes latents dans un modèle de diffusion vidéo figé, produisant des démonstrations robotiques morphologiquement précises et cohérentes dans le temps à partir d'une seule séquence humaine. L'enjeu est critique: les approches existantes génèrent des représentations enchevêtrées où l'information de tâche reste couplée à la cinématique humaine spécifique, ce qui bloque le transfert vers d'autres morphologies. En découplant explicitement ces deux dimensions, la méthode ouvre la voie à l'exploitation des vastes corpus de vidéos humaines disponibles sur internet pour entraîner des politiques de manipulation robotique, sans collecte de démonstrations robot coûteuse par télé-opération. Les expériences rapportent des vidéos générées temporellement consistantes et morphologiquement fidèles, bien que l'abstract ne fournisse pas de métriques quantitatives comparatives avec les baselines; les résultats visuels restent la principale validation. Pour un intégrateur ou un décideur industriel, la promesse est de réduire significativement le coût de labeling nécessaire à l'apprentissage de nouveaux comportements de manipulation. Cette publication s'inscrit dans une compétition intense autour des politiques de manipulation généralisables: Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) cherchent tous à réduire la dépendance aux démonstrations robot propriétaires. L'approche par édition vidéo emprunte un chemin différent des VLA classiques: plutôt qu'apprendre une politique directement depuis des vidéos humaines, elle synthétise d'abord une démonstration robot plausible exploitable par les pipelines d'imitation learning standards. Il s'agit à ce stade d'un preprint préliminaire, sans déploiement industriel ni partenariat annoncé. Le cadre latent disentangled proposé pourrait néanmoins rapidement intéresser des acteurs comme 1X Technologies ou Apptronik, et côté européen, des équipes travaillant sur l'imitation learning comme certains labs INRIA ou des spin-offs de manipulation comme Enchanted Tools.

UEDes équipes INRIA et des spin-offs de manipulation comme Enchanted Tools pourraient bénéficier de cette approche pour réduire le coût de collecte de démonstrations robotiques, mais aucun partenariat ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
835arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

RobotiqueActu
1 source
[AINews] AI Engineer World's Fair : appel à conférenciers (agents autonomes, mémoire, modèles du monde, IA verticale)
836Latent Space 

[AINews] AI Engineer World's Fair : appel à conférenciers (agents autonomes, mémoire, modèles du monde, IA verticale)

La conférence AI Engineer World's Fair annonce sa deuxième vague d'appel à orateurs pour l'édition 2026, qui se tiendra pour la première fois au Moscone West de San Francisco cet été. L'organisation cible en priorité des intervenants capables de traiter six nouveaux thèmes : l'autorecherche récursive (boucles d'amélioration autonome des modèles), la gestion de la mémoire dans les agents, les modèles du monde pour l'intelligence spatiale, le "tokenmaxxing" (adoption intensive de l'IA en entreprise sans gaspillage), le commerce agentique (paiements entre agents pour accéder à des données ou des API), et l'IA verticale dans le droit, la santé, le go-to-market et la finance. Les candidatures sont ouvertes via la plateforme Sessionize, avec remboursement du billet pour les orateurs retenus. L'événement coïncide avec la Coupe du Monde de football, également prévue à San Francisco cette semaine-là. L'édition 2026 marque un cap important pour l'écosystème de l'ingénierie IA : la conférence double de taille pour la troisième année consécutive et dépasse désormais le million de profils uniques par mois. Pour la première fois, un "Startup Battlefield" sera intégré au programme, permettant aux fondateurs de startups pré-série A de pitcher devant un panel de capital-risqueurs. La robotique bénéficiera également d'un espace expo gratuit sur le floor pour les démos physiques, après des présentations remarquées l'an dernier de Physical Intelligence, Waymo, Tesla et Nvidia. L'événement se positionne explicitement comme un lieu de recrutement, de levée de fonds et de deals commerciaux à grande échelle, pas seulement une tribune académique. Lancée avec une stratégie éditoriale baptisée "Scaling without Slop" en janvier 2026, la World's Fair s'est imposée comme la référence technique annuelle pour les ingénieurs IA, surpassant des événements plus institutionnels. L'organisateur, la communauté Latent Space, publie également AINews, une newsletter quotidienne qui agrège les signaux du secteur depuis une douzaine de subreddits et plus de 500 comptes Twitter. L'appel à orateurs en deux vagues reflète une volonté d'élargir le vivier au-delà du réseau habituel, en ciblant des praticiens qui ne se seraient pas spontanément manifestés. Les thèmes retenus pour 2026 dessinent une cartographie des défis techniques les plus actifs du moment : l'autonomie des agents, leur capacité à apprendre de l'usage, et leur intégration dans des secteurs réglementés à fort enjeu.

UEL'événement se déroule à San Francisco et cible en priorité un public américain, mais les thèmes retenus, IA verticale dans le droit, la santé et la finance, commerce agentique, sont directement pertinents pour les ingénieurs et décideurs européens qui cherchent à cartographier les prochains chantiers techniques du secteur.

💬 Les thèmes retenus pour 2026, mémoire des agents, commerce agentique, IA dans le droit et la santé, c'est la liste exacte des problèmes sur lesquels les équipes bloquent en ce moment. Pas de la prospective, c'est du debug à l'échelle industrielle. Si tu bosses sur ces sujets, t'as une bonne raison d'envoyer ta candidature.

BusinessActu
1 source
RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs
837VentureBeat AI 

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs

RunPod, la plateforme cloud spécialisée dans les GPU haute performance pour le développement IA, a lancé ce jeudi un nouvel outil open source baptisé RunPod Flash. Distribué sous licence MIT, cet outil Python vise à supprimer une contrainte jusqu'ici incontournable dans le développement serverless sur GPU : la conteneurisation Docker. Dans le cycle de développement traditionnel, un développeur devait écrire un Dockerfile, construire une image, la pousser vers un registre, puis attendre que l'environnement se déploie avant qu'une seule ligne de code puisse s'exécuter sur un GPU distant. Flash remplace ce processus par un moteur de build multiplateforme qui génère automatiquement un artefact Linux x86_64 depuis un Mac M-series, détecte la version Python locale, force les wheels binaires, et monte les dépendances directement à l'exécution sur la flotte serverless de RunPod. Le nouveau décorateur @Endpoint, pièce centrale de cette version GA, centralise la configuration de ce pipeline en un seul appel de fonction. L'impact concret est double. Pour les équipes de recherche, la suppression de ce que RunPod appelle la "taxe de packaging" réduit drastiquement les cycles d'itération : plus besoin de rebuilder et repousser une image à chaque modification de code. Pour les applications en production, Flash embarque des fonctionnalités de niveau entreprise, API HTTP avec load balancing basse latence, traitement par lots en file d'attente, stockage persistant multi-datacenter. L'outil permet également de construire des pipelines dits "polyglots" : un endpoint CPU bon marché peut prendre en charge le prétraitement des données avant de router automatiquement vers un GPU NVIDIA H100 ou B200 pour l'inférence. Cette architecture réduit aussi les "cold starts", ces délais à froid qui pénalisent les environnements serverless, en évitant d'initialiser de lourdes images conteneurisées à chaque requête. Derrière Flash se trouve une infrastructure réseau propriétaire SDN/CDN que RunPod a construite pour résoudre ce que son CTO Brennen Smith décrit comme le vrai problème du GPU cloud : non pas les processeurs eux-mêmes, mais le réseau et le stockage qui les relient. L'outil est explicitement conçu pour servir de substrat aux agents IA et assistants de code, Claude Code, Cursor, Cline sont cités nommément, leur permettant d'orchestrer et déployer du matériel distant de façon autonome. "Tout le monde parle d'IA agentique, mais il faut une colle solide pour que ces agents puissent réellement fonctionner", a déclaré Smith à VentureBeat. RunPod entre ainsi en compétition directe avec AWS Lambda et Modal sur le segment du serverless GPU, en pariant que la suppression de la friction de déploiement sera le facteur décisif pour les labs et équipes produit qui multiplient les expérimentations IA.

OutilsActu
1 source
Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time
838SCMP Tech 

Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time

Le magazine Time a publié pour la première fois un classement dédié à l'intelligence artificielle, intitulé "10 Most Influential AI Companies of 2026", dans le cadre de son palmarès annuel Time100 Most Influential Companies. Trois entreprises chinoises y figurent : Alibaba Group Holding, ByteDance et Zhipu AI. Les sept autres places sont occupées par six sociétés américaines et par Mistral AI, seule représentante européenne du classement. La présence de trois acteurs chinois dans ce top 10 mondial illustre la montée en puissance de l'écosystème IA de Pékin face à la Silicon Valley. ByteDance, connu pour TikTok, s'est imposé dans la course aux grands modèles de langage avec son modèle Doubao. Alibaba pousse son modèle Qwen, disponible en open source, tandis que Zhipu AI, startup soutenue par des fonds d'État, développe la série GLM. Leur inclusion dans un classement américain aussi emblématique que le Time100 signale que la domination américaine sur l'IA n'est plus une évidence pour les observateurs occidentaux eux-mêmes. Ce classement intervient dans un contexte de compétition technologique intense entre les États-Unis et la Chine, aggravée par les restrictions américaines sur les exportations de puces Nvidia vers Pékin. Malgré ces obstacles, les laboratoires chinois ont continué à publier des modèles compétitifs, notamment après le choc DeepSeek début 2025. L'entrée de Mistral AI dans ce palmarès confirme également que l'Europe cherche à s'imposer comme troisième pôle de l'IA mondiale, même si son poids reste modeste face aux deux géants.

UEMistral AI est la seule entreprise européenne dans le classement Time100 IA 2026, signal de reconnaissance internationale pour l'écosystème français mais aussi de la faiblesse relative de l'Europe face aux géants américains et chinois.

BusinessActu
1 source
Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense
839arXiv cs.RO 

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Une équipe de chercheurs a publié MSDP (MultiSensory Dynamic Pretraining), un cadre d'apprentissage par représentation auto-supervisé conçu pour la manipulation robotique en contact étroit. Le système fusionne trois flux sensoriels, vision, force et proprioception, via un encodeur transformer entraîné par autoencoding masqué : l'encodeur doit reconstruire des observations multisensorielles complètes à partir d'un sous-ensemble partiel d'embeddings, forçant l'émergence d'une prédiction inter-modale et d'une fusion sensorielle robuste. Pour l'apprentissage de politiques en aval (downstream policy learning), MSDP introduit une architecture asymétrique originale : un mécanisme de cross-attention permet au critique d'extraire des caractéristiques dynamiques et tâche-spécifiques depuis les embeddings figés, tandis que l'acteur reçoit une représentation poolée stable pour guider ses actions. Sur robot réel, la méthode revendique des taux de succès élevés avec seulement 6 000 interactions en ligne, un chiffre à prendre avec précaution car le papier ne détaille pas précisément le type de robot, les seuils de succès retenus ni le panel de tâches évalué. Les expériences couvrent plusieurs scénarios de manipulation contact-riches, en simulation et sur plateforme physique. L'importance de MSDP tient d'abord à la difficulté structurelle qu'il adresse : l'apprentissage par renforcement multisensoriel est notoirement instable en présence de bruit et de perturbations dynamiques, deux conditions omniprésentes en environnement industriel. Si le chiffre de 6 000 interactions en ligne se confirme sur des tâches variées, il représenterait un signal fort sur l'efficacité des données, goulot d'étranglement critique pour tout déploiement en production. L'architecture asymétrique critique-acteur est un choix peu commun et potentiellement généralisable : elle découple la richesse représentationnelle nécessaire à l'évaluation des états de la stabilité requise pour l'exécution motrice, un compromis que la communauté robotique cherche à résoudre depuis plusieurs années. Pour un intégrateur ou un COO industriel, le préentraînement auto-supervisé sans étiquetage manuel réduit également le coût de déploiement sur de nouvelles tâches ou de nouveaux effecteurs. Le contexte académique de MSDP s'inscrit dans la dynamique de transfert des techniques de préentraînement auto-supervisé, popularisées en vision (MAE de Meta, 2021) et en NLP (BERT, GPT), vers la robotique multisensorielle. La manipulation en contact étroit reste l'un des défis les plus difficiles du domaine, car contrairement au pick-and-place, elle exige une gestion précise des forces de contact et une réponse rapide aux perturbations tactiles. Côté positionnement concurrentiel, des approches comme R3M (Meta) ou les modèles VLA récents (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des fusions multimodales différentes, mais restent majoritairement centrés sur vision et langage, sans intégration native de la force au stade du préentraînement. Le papier est soumis en version 3 sur arXiv (2511.14427), ce qui témoigne de plusieurs cycles de révision. Les suites naturelles incluent la validation sur bras industriels standards (UR, Franka) et des tâches d'assemblage de précision, terrain où des acteurs européens comme Wandercraft ou les labos de robotique du CNRS pourraient s'appuyer sur ce cadre pour accélérer leurs travaux sur la manipulation dextre.

RecherchePaper
1 source
Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative
840AWS ML Blog 

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Amazon a annoncé que SageMaker AI prend désormais en charge les recommandations optimisées pour le déploiement de modèles d'IA générative en production. Cette nouvelle fonctionnalité s'appuie sur NVIDIA AIPerf, un composant modulaire du framework open source NVIDIA Dynamo, pour fournir automatiquement des configurations de déploiement validées accompagnées de métriques de performance précises. Concrètement, SageMaker AI évalue les combinaisons d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, puis restitue aux équipes les configurations les plus adaptées à leurs exigences de latence, de débit ou de coût. Eliuth Triana, Developer Relations Manager chez NVIDIA, a salué l'intégration, soulignant qu'elle permet aux entreprises de déployer des modèles d'IA générative avec confiance, en remplaçant des semaines de tests manuels par des configurations prêtes à l'emploi. L'enjeu est considérable pour les équipes d'ingénierie. Aujourd'hui, passer d'un modèle entraîné à un endpoint de production opérationnel prend entre deux et trois semaines par modèle, une durée imposée par la nécessité de tester manuellement des dizaines de configurations possibles : plus d'une douzaine de types d'instances GPU, plusieurs conteneurs de service, différents degrés de parallélisme, et des techniques comme le décodage spéculatif. Sans guidance validée, les équipes provisionnent des instances, déploient le modèle, exécutent des tests de charge, analysent les résultats, puis recommencent. Ce cycle mobilise une expertise en infrastructure GPU et en frameworks de service que la plupart des équipes ne possèdent pas en interne, conduisant systématiquement à du sur-provisionnement coûteux. AWS élimine ce goulot d'étranglement en automatisant l'ensemble du processus d'exploration et de validation des configurations. Cette évolution s'inscrit dans une course à la mise en production de l'IA générative que se livrent les entreprises pour alimenter leurs assistants intelligents, outils de génération de code et moteurs de contenu. Le coût du sur-provisionnement GPU, qui s'accumule à chaque modèle déployé et à chaque mois d'exploitation, représente un problème structurel pour l'industrie. AWS s'appuie sur sa collaboration technique approfondie avec NVIDIA, formalisée ici par l'intégration directe des composants de Dynamo dans SageMaker, pour s'imposer comme la plateforme cloud de référence pour les déploiements d'IA en production. En standardisant le benchmarking via AIPerf, dont les contrôles de concurrence et les options de jeux de données permettent d'itérer rapidement sur des scénarios variés, Amazon réduit la barrière technique pour les organisations qui cherchent à industrialiser leurs modèles sans constituer une équipe d'experts en infrastructure dédiée.

UELes entreprises européennes utilisant AWS SageMaker peuvent réduire leurs délais de mise en production de modèles IA de plusieurs semaines, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

InfrastructureActu
1 source
Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V
841Pandaily 

Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V

La startup chinoise de puces IA Yixing Intelligence a annoncé le 22 avril 2026 la clôture d'un tour de série B de 1,5 milliard de yuans, soit environ 210 millions de dollars. Le tour a été co-piloté par plusieurs fonds d'investissement industriels basés à Pékin, avec la participation de multiples investisseurs institutionnels. Fondée en 2022, l'entreprise se spécialise dans les puces IA basées sur l'architecture RISC-V. Sa gamme phare, la série Epoch, cible les grands modèles de langage et les charges de travail en apprentissage profond, avec un support de la précision FP8 et une compatibilité avec des formats de précision inférieure pour améliorer l'efficacité et la flexibilité du déploiement. Yixing propose une solution complète couvrant les puces, les cartes accélératrices PCIe et les clusters de serveurs, accompagnée d'un écosystème logiciel intégrant compilateurs et systèmes d'exécution. Ce financement intervient à un moment où la Chine cherche activement à développer une industrie des semi-conducteurs indépendante face aux restrictions américaines à l'exportation. Pour les acteurs de l'IA qui déploient des infrastructures de calcul intensif, une solution comme celle de Yixing représente une alternative crédible aux GPU d'Nvidia, dont l'accès est de plus en plus limité pour les entreprises chinoises. La technologie d'interconnexion haute vitesse propriétaire de la société, qui permet des déploiements multi-noeuds à grande échelle, répond directement aux besoins des centres de données entraînant des modèles de plusieurs milliards de paramètres. L'essor de Yixing Intelligence s'inscrit dans une dynamique plus large de montée en puissance des champions nationaux de semi-conducteurs en Chine, portée à la fois par les politiques industrielles de Pékin et par l'urgence stratégique créée par les contrôles à l'exportation américains sur les puces avancées. L'architecture RISC-V, ouverte et libre de droits, est au coeur de cette stratégie : elle permet aux entreprises chinoises de concevoir des puces sans dépendre de la propriété intellectuelle d'ARM ou d'x86, majoritairement détenue par des sociétés occidentales. Les fonds levés seront utilisés pour accélérer la mise en production de masse, développer la prochaine génération de produits et élargir l'écosystème partenaire, ce qui laisse anticiper une montée en puissance commerciale significative dans les prochains mois.

InfrastructureActu
1 source
ARM : modélisation des récompenses par avantage pour la manipulation à long horizon
842arXiv cs.RO 

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Une équipe de chercheurs propose ARM (Advantage Reward Modeling, arXiv:2604.03037), un framework pour améliorer l'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon. Le problème de fond : les récompenses éparses fournissent trop peu de signal pour guider l'apprentissage quand une tâche implique des dizaines d'étapes. ARM substitue la mesure de progression absolue par une estimation de l'avantage relatif, via un protocole de labeling à trois états : Progressif, Régressif, Stagnant. Ce schéma tri-état réduit la charge cognitive des annotateurs humains tout en assurant une forte cohérence inter-annotateurs. Intégré dans un pipeline de RL offline, il pondère les données de façon adaptative pour filtrer les échantillons sous-optimaux. Résultat annoncé : 99,4 % de réussite sur une tâche de pliage de serviette à long horizon, avec quasi-absence d'intervention humaine pendant l'entraînement. L'atout principal d'ARM est son coût d'annotation réduit face aux méthodes classiques de reward shaping dense, qui exigent une ingénierie fine de la fonction de récompense et peinent à modéliser des comportements non monotones comme le backtracking ou la récupération d'erreur. ARM ramène l'annotation à une classification intuitive, applicable aux démonstrations complètes comme aux données fragmentées issues de DAgger (imitation learning itératif). Les auteurs rapportent un gain sur les baselines VLA (Vision-Language-Action) actuels en stabilité et en efficacité des données, mais le benchmark se limite à un seul scénario de pliage de serviette : un résultat prometteur qui reste à confirmer sur un panel de tâches plus large et diversifié. La manipulation à long horizon demeure l'un des problèmes les plus ouverts de la robotique, au coeur de la compétition entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et d'autres architectures VLA. ARM s'inscrit dans le courant qui vise à rendre le RL applicable en conditions réelles sans dépendre massivement de la simulation (sim-to-real) ni de fonctions de récompense codifiées manuellement. Il s'agit d'un résultat de laboratoire : aucun déploiement terrain ni partenaire industriel n'est mentionné dans la publication. Les suites attendues sont une validation sur des tâches plus variées et des plateformes robotiques commerciales, notamment les humanoïdes actuellement en phase de commercialisation.

AutreOpinion
1 source
La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée
843arXiv cs.RO 

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Des chercheurs ont publié sur arXiv (arXiv:2604.16903) un framework de collecte de données pour robots embodied basé sur Unity, qui exploite la réalité virtuelle et les mécaniques de jeu vidéo pour contourner le goulet d'étranglement majeur du domaine : obtenir des démonstrations humaines en quantité suffisante. Le système combine génération procédurale de scènes, téléopération d'un robot humanoïde en VR, évaluation automatique des tâches et journalisation de trajectoires. Un prototype concret a été développé et validé : une tâche de pick-and-place de déchets, dans laquelle l'opérateur incarne le robot via un casque VR pour saisir et trier des objets dans des environnements générés aléatoirement. Les résultats expérimentaux montrent que les démonstrations collectées couvrent largement l'espace état-action, et que l'augmentation de la difficulté de la tâche entraîne une intensité de mouvement plus élevée ainsi qu'une exploration plus étendue de l'espace de travail du bras. Ce travail s'attaque à un problème structurel de l'intelligence embodied : les interfaces de téléopération classiques (manettes, bras maître-esclave, exosquelettes) sont coûteuses, peu accessibles et difficiles à déployer à grande échelle. En gamifiant la collecte, le framework ouvre la possibilité de recruter des opérateurs non spécialisés via des interfaces VR grand public, réduisant potentiellement le coût marginal par démonstration. La couverture large de l'espace état-action est un signal positif pour l'entraînement de politiques robustes, notamment les VLA (Vision-Language-Action models) qui dépendent de la diversité des trajectoires. Il faut toutefois nuancer : le prototype reste une tâche simple (ramassage d'objet), et les auteurs ne fournissent pas de métriques de transfert vers un robot physique réel, la question du sim-to-real gap reste entière. Ce type d'approche s'inscrit dans une tendance plus large de recours aux environnements synthétiques pour l'entraînement robotique, portée notamment par Physical Intelligence (pi0), Google DeepMind (RoboVQA, RT-2) et NVIDIA (GROOT). La génération procédurale de scènes est également au coeur des pipelines de simulation massive comme IsaacLab. L'originalité ici est l'angle "jeu vidéo" assumé, qui rapproche la collecte de données des méthodes de crowdsourcing humain utilisées en NLP. Les prochaines étapes naturelles seraient un benchmark sur robot physique, une extension à des tâches bimanuelle, et une évaluation de la qualité des politiques entraînées sur ces données face à des baselines téléopérées classiques.

AutreActu
1 source
Comment Intel compte utiliser l’IA pour diviser le poids de vos jeux PC par 18
844Frandroid 

Comment Intel compte utiliser l’IA pour diviser le poids de vos jeux PC par 18

Intel a dévoilé une nouvelle technologie de compression neuronale baptisée TSNC (Texture Space Neural Compression), capable de réduire la taille des textures de jeux vidéo jusqu'à un facteur 18. Concrètement, un jeu qui occupe aujourd'hui 100 Go sur votre SSD pourrait n'en réclamer que quelques gigaoctets de données textures, tandis que la mémoire vidéo nécessaire au rendu en temps réel serait drastiquement allégée. La technologie repose sur des réseaux de neurones entraînés à compresser puis reconstruire les textures à la volée, à la manière d'un codec vidéo mais appliqué aux surfaces 3D. L'enjeu est considérable pour les joueurs PC, confrontés à une inflation galopante des tailles de jeux : certains titres récents dépassent les 150 à 200 Go, et les cartes graphiques milieu de gamme peinent à suivre avec leurs 8 à 12 Go de VRAM. Une compression neuronale efficace permettrait de démocratiser l'accès aux jeux les plus exigeants sans forcer les utilisateurs à investir dans du matériel haut de gamme, et soulagerait les SSD qui atteignent souvent leurs limites de capacité. Cette annonce s'inscrit dans une course technologique plus large entre les fabricants de GPU : Nvidia propose déjà des solutions similaires avec ses technologies de compression basées sur l'IA, et AMD travaille sur des approches comparables. Intel, dont l'arc GPU cherche encore à s'imposer sur le marché, mise sur le TSNC comme argument différenciant. La prochaine étape sera l'adoption par les studios de développement, qui devront intégrer ces outils dans leurs pipelines de création pour que la technologie tienne réellement ses promesses en conditions réelles.

InfrastructureActu
1 source
Semaine nationale de la robotique : dernières avancées en IA physique et ressources
845NVIDIA AI Blog 

Semaine nationale de la robotique : dernières avancées en IA physique et ressources

À l'occasion de la Semaine nationale de la robotique aux États-Unis, NVIDIA met en avant ses avancées dans le domaine de l'intelligence artificielle physique, c'est-à-dire l'IA appliquée à des robots capables d'agir dans le monde réel. L'entreprise présente cette semaine une série de technologies couvrant la simulation, la génération de données synthétiques et l'apprentissage automatique pour robots, destinées aux développeurs qui souhaitent concevoir des machines autonomes opérationnelles dans des environnements complexes. L'enjeu est considérable : ces outils permettent de réduire drastiquement le temps nécessaire pour passer de l'entraînement en environnement virtuel au déploiement sur le terrain. Concrètement, un robot peut aujourd'hui apprendre à naviguer, saisir des objets ou réagir à des imprévus dans un simulateur NVIDIA avant d'être testé dans une usine, une serre agricole ou une centrale énergétique. Ce raccourci entre simulation et réalité est l'un des verrous techniques les plus critiques de la robotique industrielle. NVIDIA se positionne comme la colonne vertébrale de cette transition, en proposant des plateformes intégrées qui couvrent l'ensemble de la chaîne de développement robotique. La compétition dans ce secteur s'intensifie, avec des acteurs comme Boston Dynamics, Figure AI ou Agility Robotics qui cherchent eux aussi à industrialiser leurs solutions. La Semaine de la robotique sert ici de vitrine stratégique pour NVIDIA, qui entend s'imposer comme fournisseur incontournable d'infrastructure IA pour la prochaine génération de robots autonomes dans l'industrie, l'agriculture et l'énergie.

UELes plateformes de simulation et d'entraînement robotique de NVIDIA sont accessibles aux développeurs et industriels européens, mais cet événement est centré sur le marché américain sans impact direct sur la France/UE.

💬 Le vrai sujet ici, c'est pas la Semaine de la robotique, c'est NVIDIA qui s'impose discrètement comme le AWS de la robotique industrielle. La réduction du gap sim-to-real, c'est le verrou qui bloquait tout depuis des années, et là ils ont une vraie réponse technique. Reste à voir si les industriels européens vont jouer le jeu ou rester dépendants d'une stack américaine de plus.

RobotiqueActu
1 source
Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains
846IEEE Spectrum AI 

Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains

Des chercheurs ont développé LATENT, un système permettant à un robot humanoïde d'apprendre des compétences de tennis dynamiques à partir de données de mouvement humain imparfaites. Par ailleurs, la startup Sharpa revendique être la première entreprise robotique à démontrer un robot épluchant une pomme avec deux mains dextres, grâce à leur architecture MoDE-VLA (Mixture of Dexterous Experts) fusionnant vision, langage, force et toucher. Ces avancées illustrent une semaine riche en démonstrations de manipulation bimanuelle de contact et de locomotion avancée, dont un robot UMV entraîné via NVIDIA Isaac Lab capable de sauter et de faire des pirouettes.

RobotiqueActu
1 source
Alibaba lance une plateforme d'agents IA pour les entreprises
847AI Business 

Alibaba lance une plateforme d'agents IA pour les entreprises

Alibaba a lancé une plateforme d'agents IA dédiée aux entreprises, dans un contexte de concurrence croissante sur le marché des agents IA en Chine. Nvidia et Meta ont également récemment fait leur entrée dans l'espace des agents personnels.

OutilsOutil
1 source
Une IA qui « voit » le monde : le pari à 1 milliard de dollars de Yann LeCun
84801net 

Une IA qui « voit » le monde : le pari à 1 milliard de dollars de Yann LeCun

Yann LeCun, l'un des "parrains" de l'IA moderne et ancien responsable de l'IA chez Meta, a lancé une nouvelle start-up appelée AMI (Advanced Machine Intelligence). Elle a levé 1 milliard de dollars lors de son tour de table initial, avec des investisseurs comme Nvidia, Jeff Bezos, Samsung et Xavier Niel. AMI se distingue des grands modèles de langage en développant une IA capable de "voir" et comprendre le monde différemment.

UELa participation de Xavier Niel comme investisseur et les origines françaises de Yann LeCun positionnent la France comme actrice de ce projet d'IA de rupture doté d'un milliard de dollars.

RechercheActu
1 source
Sandberg et Clegg rejoignent le conseil d'administration de Nscale alors que cette start-up norvégienne « Stargate Norway » atteint une valorisation de 14,6 milliards de dollars
849TechCrunch AI 

Sandberg et Clegg rejoignent le conseil d'administration de Nscale alors que cette start-up norvégienne « Stargate Norway » atteint une valorisation de 14,6 milliards de dollars

Nscale, la startup britannique d'infrastructure IA soutenue par Nvidia, a levé 2 milliards de dollars supplémentaires, portant sa valorisation à 14,6 milliards de dollars. Sheryl Sandberg et Nick Clegg rejoignent son conseil d'administration, renforçant la crédibilité de cette entreprise norvégienne surnommée le "Stargate Norway".

UELa montée en puissance de Nscale, start-up d'infrastructure IA d'origine norvégienne valorisée à 14,6 milliards de dollars, démontre que l'Europe peut faire émerger des acteurs crédibles face aux géants américains de l'infrastructure cloud IA, renforçant les ambitions de souveraineté numérique européenne.

BusinessActu
1 source
L'IA physique fait son entrée triomphale et tout le monde veut en profiter
850AI News 

L'IA physique fait son entrée triomphale et tout le monde veut en profiter

Le Physical AI, qui décrit les systèmes AI opérant dans le monde réel, gagne en popularité. Des entreprises occidentales comme Nvidia, Arm, Siemens et Google investissent massivement dans cette technologie, créant des plateformes et des semiconducteurs pour robots et véhicules intelligents. En Chine, l'accent est mis sur la construction matérielle de ces robots, avec des entreprises comme Boston Dynamics opérant directement dans des usines comme celle de Hyundai en Géorgie. Une enquête révèle que 58% des dirigeants d'entreprises mondiales utilisent déjà le Physical AI, et ce chiffre monte à 80% pour les plans futurs.

UEL'essor du Physical AI, avec des investissements majeurs de Nvidia, Arm, Siemens, Google, et Boston Dynamics, pose des opportunités et des défis pour les entreprises françaises et européennes dans les secteurs des robotiques et des véhicules intelligents, tout en se conformant aux exigences de la réglementation AI Act et du RGPD.

RobotiqueActu
1 source