Aller au contenu principal

Dossier NVIDIA — page 16

856 articles · page 16 sur 18

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte
751VentureBeat AI InfrastructureActu

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

L'intelligence artificielle fait face à un nouveau goulot d'étranglement en 2026, et ce n'est plus la puissance de calcul des GPU. Selon Jeff Harthorn, responsable de la recherche appliquée en IA chez Solidigm, le vrai frein est désormais la gestion du contexte, la mémoire persistante qui doit survivre entre les sessions d'inférence. "Les GPU sont devenus bien moins chers par FLOP, les architectures de modèles et les moteurs d'inférence sont plus efficaces. Mais ce qui a crû plus vite que tout, c'est le contexte", explique-t-il. Les fenêtres de contexte ont explosé en taille, les systèmes d'IA agentiques enchaînent désormais des dizaines voire des centaines d'appels de modèles successifs, et les entreprises exigent que les états d'inférence persistent entre les sessions à des fins d'audit, de gouvernance et de réutilisation. Ces trois tendances se cumulent et propulsent les volumes de données contextuelles bien au-delà de ce que les architectures mémoire existantes peuvent absorber. Cette évolution a des conséquences directes sur les coûts et le retour sur investissement des infrastructures d'IA en entreprise. Quand les données de cache KV (Key-Value), les informations qui permettent à un modèle de retrouver et réutiliser le contexte d'une interaction, ne sont pas disponibles dans un tier de stockage rapide, le système est obligé de les recalculer à chaque session. Ce processus de "re-prefill" mobilise des cycles GPU entiers sans produire aucun nouveau token, autrement dit sans créer aucune valeur. "Si votre stockage n'est pas à la hauteur, votre ROI en souffre directement", souligne Ace Stryker, directeur marketing IA chez Solidigm. L'architecture de stockage héritée de l'ère de l'entraînement, séquentielle, dominée par les grandes écritures en bloc, n'est tout simplement pas adaptée aux accès fins et latence-sensibles que requiert l'inférence moderne. La réponse qui émerge est une nouvelle couche dédiée, baptisée CMX par Nvidia, qui s'intercale entre la mémoire HBM des GPU et le stockage réseau en masse. Ce tier intermédiaire, constitué de SSD haute performance et haute densité optimisés pour les charges d'inférence, est conçu pour héberger et servir rapidement le cache KV ainsi que les données de récupération utilisées dans les architectures RAG. Solidigm fait partie des fabricants de stockage qui développent des produits SSD spécifiquement taillés pour cette architecture. Jusqu'ici, le stockage était traité comme une commodité dans les plans d'infrastructure IA, on cherchait simplement le meilleur prix au gigaoctet. Ce paradigme est en train de changer en profondeur, à mesure que les systèmes agentiques persistants font du stockage un composant critique de la chaîne de performance des grands modèles de langage.

1 source
Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines
752arXiv cs.RO 

Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines

Des chercheurs publient sur arXiv (2602.13197v2) un cadre d'apprentissage baptisé PSI (Perceive-Simulate-Imitate), conçu pour entraîner un robot à des tâches de manipulation à partir de vidéos humaines, sans aucune donnée robot. La cible est la manipulation préhensile, c'est-à-dire les tâches combinant une phase de saisie d'objet et des mouvements post-saisie (vissage, transfert, assemblage). PSI adopte une architecture modulaire : un générateur de saisies dédiées produit des prises stables, tandis que la composante imitation extrait les trajectoires post-saisie directement depuis les vidéos. Entre les deux s'intercale une étape de filtrage en simulation, qui attribue à chaque saisie candidate un label de compatibilité avec la tâche aval, permettant d'entraîner via apprentissage supervisé un module de saisie orienté vers l'objectif final. Les expériences en conditions réelles confirment des performances significativement plus robustes que l'usage naïf d'un générateur de saisies standard, sans que des métriques chiffrées précises (taux de succès, nombre d'objets testés) ne soient détaillées dans l'abstract. L'enjeu est structurant pour l'industrie : les vidéos humaines représentent un gisement de données quasi-illimité comparé aux démonstrations téléopérées, coûteuses à collecter à grande échelle. Le problème identifié par les auteurs est que les saisies arbitrairement stables ne sont pas forcément compatibles avec la tâche en aval, un robot peut tenir correctement un outil tout en l'orientant de façon à rendre impossible l'opération suivante. PSI tranche ce nœud en injectant du jugement simulé avant l'imitation, ce qui le distingue des pipelines naïfs de transfert vidéo-vers-robot. Pour un intégrateur ou une équipe R&D souhaitant élargir le catalogue de tâches d'un robot sans multiplier les sessions de téléopération, la proposition est directement lisible. Ce travail s'inscrit dans le courant de l'imitation depuis des vidéos in-the-wild (dans la lignée de Vid2Robot, DIME ou des travaux récents sur les Visual Language Actions), qui cherche à contourner le goulot d'étranglement de la collecte de données robotiques. La spécificité de PSI tient à son découplage explicite entre qualité de saisie et qualité de trajectoire, médiatisé par la simulation. Côté concurrent, des approches comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent davantage sur des architectures unifiées entraînées sur des corpus massifs mixtes. Aucun partenaire industriel ni déploiement n'est annoncé : il s'agit d'un résultat académique dont la généralisation à un large éventail d'objets et de morphologies de mains reste à démontrer.

RecherchePaper
1 source
Nous Research lance Hermes Agent Profile Builder : identité, modèle, compétences et serveurs MCP dans un tableau de bord unique
753MarkTechPost 

Nous Research lance Hermes Agent Profile Builder : identité, modèle, compétences et serveurs MCP dans un tableau de bord unique

Nous Research a publié le Profile Builder pour son agent open source Hermes, une interface graphique intégrée au tableau de bord local du projet accessible depuis un navigateur à l'adresse 127.0.0.1:9119. Jusqu'ici, configurer un agent Hermes demandait plusieurs étapes en ligne de commande : définir une identité, choisir un modèle et un fournisseur, activer des compétences, connecter des serveurs MCP. Le Profile Builder regroupe toutes ces opérations dans un formulaire guidé en cinq étapes. Le premier champ définit le nom et la description de l'agent, le nom servant également d'alias de commande dans le terminal. Viennent ensuite le choix du modèle et du fournisseur parmi Nous Portal, OpenRouter, NVIDIA, OpenAI ou tout endpoint compatible OpenAI, puis l'activation des compétences intégrées, l'installation depuis un catalogue externe via le Skills Hub, et enfin l'ajout de serveurs MCP par URL ou par commande locale. Chaque configuration produit un profil isolé : un répertoire autonome contenant son propre fichier config.yaml, ses variables d'environnement, son fichier de personnalité SOUL.md, sa mémoire, ses sessions, ses tâches planifiées et sa base de données d'état. L'intérêt principal de cette approche est la possibilité de faire tourner plusieurs agents spécialisés sur une même machine sans qu'ils partagent le moindre état. Un agent dédié au code et un agent de veille documentaire restent rigoureusement cloisonnés : mémoire séparée, credentials distincts, verrous sur les tokens pour éviter les conflits d'accès. Concrètement, un développeur peut configurer un assistant de programmation couplé à un modèle de code, un serveur MCP pour le système de fichiers et des compétences Git, pendant qu'un second profil gère une veille automatisée avec des compétences d'extraction web. Le builder abaisse significativement le seuil d'entrée : là où la configuration CLI exigeait de connaître chaque commande dans le bon ordre, le formulaire guide l'utilisateur sans supposer de familiarité avec l'outillage interne. Hermes est l'agent auto-améliorant open source de Nous Research, disponible en CLI, en application desktop et sur des plateformes de messagerie. Les compétences de l'agent reposent sur des fichiers SKILL.md dont seules les descriptions courtes sont chargées par défaut, le contenu complet n'étant consulté qu'en cas de besoin, ce qui évite d'alourdir les requêtes. Les serveurs MCP, conformes au protocole Model Context Protocol, permettent d'exposer des outils externes, qu'il s'agisse de services HTTP distants ou de processus stdio locaux. Le Profile Builder n'écrase pas le CLI, il en reproduit la logique dans une interface plus accessible : les deux chemins écrivent dans les mêmes fichiers de profil. Cette sortie s'inscrit dans une tendance plus large où les projets d'agents open source cherchent à réduire la friction de configuration pour toucher un public plus large que les seuls développeurs familiers de la ligne de commande.

OutilsOutil
1 source
MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)
754arXiv cs.RO 

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.09827, juin 2026) MemoryVLA++, un framework de modélisation temporelle pour modèles VLA (Vision-Language-Action). L'architecture combine trois composants : une mémoire de travail construite à partir des tokens perceptifs et cognitifs générés par un VLM pré-entraîné sur l'observation courante ; une banque mémoire Perceptual-Cognitive qui indexe contexte sémantique et détails bas niveau des interactions passées via un mécanisme de consolidation sans redondance ; et un modèle du monde simulant des états futurs dans un espace latent de débruitage. Ces latents imaginés, guidés par la mémoire, alimentent un expert d'action à diffusion qui produit des séquences d'actions temporellement cohérentes. Évalué sur cinq benchmarks de simulation (Libero, SimplerEnv, Mikasa-Robo, Calvin, Libero-Plus) et trois catégories de tâches réelles sur trois robots distincts, le système affiche des gains de +9 % sur les tâches générales, +26 % sur les tâches mémoire-dépendantes, et +28 % sur les tâches d'anticipation. Ces résultats adressent une faiblesse structurelle des VLAs actuels (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA), tous limités à l'observation instantanée et incapables de maintenir un contexte opérationnel sur plusieurs étapes. Pour des tâches longue-portée (reprendre une manipulation interrompue, enchaîner des gestes interdépendants), cette limitation est rédhibitoire en environnement industriel réel. Le gain de +26 % sur les tâches mémoire-dépendantes, mesuré hors simulation, est le point le plus solide de la publication : il suggère que l'architecture surmonte partiellement le sim-to-real gap qui affaiblit beaucoup de travaux académiques récents. Pour un intégrateur ou un COO industriel, c'est la différence entre un robot qui réinitialise sa compréhension à chaque step et un qui maintient un contexte cohérent sur l'ensemble de la séquence de manipulation. MemoryVLA++ s'inscrit dans une vague de travaux cherchant à injecter du raisonnement temporel dans les fondations robotiques, face aux architectures VLA portées par Physical Intelligence, NVIDIA et Google DeepMind. L'inspiration est explicitement cognitive : mémoire de travail (buffer court terme), système hippocampique (mémoire épisodique des interactions passées) et simulation mentale d'états futurs, trois mécanismes documentés en neurosciences. L'article reste un preprint non relu par les pairs, et les vidéos de démonstration sur la page projet méritent une lecture critique avant toute conclusion définitive. Les suites naturelles seraient une validation sur bras industriels à 6-7 DOF en environnement non contrôlé et une comparaison rigoureuse avec des approches à mémoire externe de type RAG robotique. Aucun acteur européen n'est impliqué dans ces travaux.

RechercheOpinion
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
755arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

RobotiqueOpinion
1 source
Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart
756AWS ML Blog 

Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart

Amazon Web Services vient d'annoncer la disponibilité de NEXUS, le modèle de fondation développé par la startup Fundamental, sur Amazon SageMaker JumpStart. NEXUS est un "Large Tabular Model" conçu spécifiquement pour les données structurées -- tableurs, bases de données relationnelles, systèmes ERP et CRM -- là où réside la majorité des données critiques des entreprises. Contrairement aux LLMs classiques, il a été pré-entraîné sur des milliards de tâches de prédiction réelles issues de datasets structurés. Il peut être déployé en tant qu'endpoint SageMaker managé sur une instance ml.p5en.48xlarge équipée de 8 GPU NVIDIA H200, avec accès via un SDK Python compatible scikit-learn incluant des estimateurs NEXUSClassifier et NEXUSRegressor. NEXUS s'attaque à un problème concret que rencontrent quotidiennement les équipes data des grandes entreprises : générer des prédictions fiables à partir de données tabulaires prend habituellement entre trois et six mois de travail pour une équipe de data scientists, entre le feature engineering, l'entraînement, la validation et le déploiement. Fundamental promet de ramener ce délai à quelques jours. L'un des atouts clés du modèle est son architecture déterministe : là où les LLMs produisent des réponses différentes à des questions identiques, NEXUS garantit des résultats reproductibles pour chaque prédiction individuelle. Il gère nativement les nombres, catégories, dates et textes sans prétraitement manuel, tolère les données manquantes, traite des datasets de plusieurs milliards de lignes sans troncature, et reconnaît que l'ordre des colonnes ne change pas la sémantique des données -- une propriété appelée permutation invariance, absente des architectures transformer classiques. Ce lancement s'inscrit dans une tendance plus large de spécialisation des modèles de fondation par type de données. Si les LLMs comme GPT-4 ou Claude ont démontré leur puissance sur le texte et les modèles de diffusion sur les images, les données tabulaires sont longtemps restées le terrain des approches ML traditionnelles -- gradient boosting, random forests -- ou de tentatives maladroites d'adapter des LLMs à des formats pour lesquels ils n'étaient pas conçus. La tokenisation numérique dans les LLMs introduit en effet des erreurs de contexte qui les rendent peu fiables sur des données structurées à haute précision. Fundamental parie que les données tabulaires méritent leur propre classe de modèles de fondation, et l'intégration avec SageMaker JumpStart lui donne accès à l'écosystème cloud d'AWS pour une diffusion à grande échelle auprès des entreprises. Le modèle est distribué via AWS Marketplace, positionnant clairement Fundamental sur le marché B2B des outils data enterprise.

OutilsOutil
1 source
L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable
757Robotics Business Review 

L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable

Hailo, fabricant israélien de processeurs IA dédiés au traitement embarqué (edge computing), publie une analyse positionnant l'IA physique comme la prochaine rupture technologique après les phases perception, génératif et agentique. La thèse centrale: les systèmes robotiques autonomes ne peuvent pas dépendre du cloud pour leur boucle de contrôle en temps réel. L'argument est illustré par un cas concret et délibérément banal: un robot d'entretien qui rencontre une chaussette sur le sol. Les systèmes actuels à base de règles prédéfinies la heurtent et se bloquent, nécessitant une intervention humaine. Les architectures alimentées par vision IA l'évitent. Mais la vraie autonomie, selon Hailo, consiste à identifier l'objet, le ramasser et le déposer à sa place, soit une boucle complète perception-raisonnement-action exécutée localement, sans appel réseau. L'article ne fournit pas de métriques de performance ni de benchmarks chiffrés: c'est un positionnement stratégique, pas une publication technique. L'argument pour l'edge est structurellement solide, même si sa source est directement intéressée. La latence introduite par un aller-retour cloud dans une boucle de contrôle robotique représente un risque opérationnel réel: une coupure réseau ou un pic de latence imprévisible dans un contexte de manipulation physique peut provoquer des accidents ou des arrêts de ligne. Le modèle hybride proposé, entraînement dans le cloud, inférence à la périphérie, correspond à ce que déploient déjà des acteurs comme Boston Dynamics (Spot avec traitement embarqué) ou les AMR d'Exotec en logistique. Pour un COO industriel ou un intégrateur, cela se traduit concrètement: les architectures sans dépendance réseau sont une exigence de sécurité fonctionnelle, pas seulement un choix de performance. L'article contredit implicitement la narrative selon laquelle le cloud suffit pour les robots opérationnels, et rejoint les conclusions de plusieurs déploiements terrain où la connectivité intermittente reste le premier point de défaillance. Hailo, fondé en 2017 à Tel Aviv et introduit en bourse en 2024, commercialise les puces Hailo-8 et Hailo-15 destinées à l'inférence embarquée sur caméras, robots et véhicules. Ses concurrents directs sur ce segment sont NVIDIA avec la gamme Jetson Orin, Qualcomm avec ses plateformes Robotics RB-series, et Intel avec les Myriad X. L'article est publié à l'approche du Robotics Summit and Expo de Boston, prévu début juin 2026, où Hailo sera probablement présent. Sur la question humanoïde, le texte est interrompu avant de développer son argument, mais l'amorce est claire: la course au robot polyvalent anthropomorphe (Figure, 1X, Agility Robotics, Unitree) est freinée non par l'IA, mais par les contraintes mécaniques, énergétiques et de coût du hardware. Un signal que les prochains déploiements industriels à grande échelle passeront probablement par des robots à tâche unique, moins coûteux et plus fiables, plutôt que par des humanoïdes généraux.

UEL'argument edge-first s'applique aux déploiements industriels européens et rejoint la pratique d'acteurs comme Exotec (France), mais l'article reste un positionnement marketing sans impact réglementaire ou stratégique direct sur la France ou l'UE.

💬 La chaussette sur le sol, c'est le meilleur exemple que j'ai lu depuis longtemps pour expliquer pourquoi l'edge est non-négociable. Que Hailo ait un intérêt commercial dans l'affaire, peu importe: une boucle perception-action qui dépend du cloud, c'est un point de défaillance que personne ne veut en prod. Et les humanoïdes polyvalents, c'est bien pour les keynotes, les robots à tâche unique qui tournent vraiment, c'est là que les déploiements industriels se passent aujourd'hui.

RobotiqueOpinion
1 source
PhysBrain 1.0 : rapport technique
758arXiv cs.RO 

PhysBrain 1.0 : rapport technique

PhysBrain 1.0 (arXiv:2605.15298, mai 2026) est un pipeline VLA (vision-language-action) qui convertit de la vidéo égocentrique humaine à grande échelle en supervision de commonsense physique structuré, avant de transférer ce savoir vers le contrôle robotique. Un moteur de données extrait quatre types d'informations depuis ces vidéos (éléments de scène, dynamiques spatiales, exécution d'actions, relations géométriques tenant compte de la profondeur) et les transforme en paires questions-réponses pour entraîner les VLM PhysBrain. Les priors physiques résultants sont ensuite injectés dans des politiques VLA via un mécanisme d'adaptation qualifié de "capability-preserving et language-sensitive". Évalué sur cinq benchmarks (ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, RoboCasa), le modèle revendique des résultats état de l'art, avec des performances hors domaine particulièrement fortes sur SimplerEnv. L'abstract ne fournit pas de métriques chiffrées; le rapport complet reste nécessaire pour valider ces affirmations. L'argument central est que les trajectoires robot constituent une source de supervision trop étroite pour acquérir une compréhension physique générale: coûteuses à collecter par téléopération et peu diversifiées, elles limitent structurellement la généralisation des VLA. La vidéo égocentrique humaine, disponible en volumes bien supérieurs, couvre une variété d'interactions physiques avec le monde (saisies, contacts, équilibre, textures) que les datasets robot n'atteignent pas. La robustesse hors domaine sur SimplerEnv est le signal le plus intéressant: si elle se confirme à la lecture du rapport complet, cela suggère que cette stratégie atténue le problème de généralisation qui frappe la majorité des VLA entraînés uniquement sur données robot. Pour un intégrateur ou un COO industriel, cela laisse entrevoir une réduction du volume de démonstrations téléopérées nécessaires lors de chaque nouveau déploiement. PhysBrain s'inscrit dans une compétition dense autour des VLA physiques. Physical Intelligence (pi0, pi0.5) capitalise sur de larges datasets de téléopération multi-robot; NVIDIA GR00T N2 cible la compréhension physique via simulation massive; Google DeepMind (RT-2) et le modèle open-source Octo ont posé les bases de la catégorie. L'angle de PhysBrain, passant par un intermédiaire de commonsense structuré en QA plutôt que par un entraînement direct sur trajectoires, rappelle les stratégies de pre-training visuel comme R3M ou MVP, mais va plus loin avec un pipeline d'extraction supervisée à quatre dimensions. Le modèle est pour l'instant validé sur robot WidowX, une plateforme de manipulation accessible; la prochaine étape logique serait de tester le transfert sur des architectures humanoïdes ou à plus haute dextérité, là où la compréhension physique générale apporte le plus de valeur.

💬 Le vrai problème des VLA, c'est qu'ils apprennent à partir de données robot trop étroites et trop chères à collecter. PhysBrain contourne ça en allant chercher le commonsense physique dans des vidéos humaines à grande échelle, et je trouve les perfs hors domaine sur SimplerEnv plus convaincantes que les benchmarks habituels. Testé sur WidowX seulement pour l'instant, donc on attend la suite.

RobotiqueOpinion
1 source
NavOL : une politique de navigation par apprentissage par imitation en ligne
759arXiv cs.RO 

NavOL : une politique de navigation par apprentissage par imitation en ligne

NavOL est une approche d'apprentissage en ligne par imitation pour les politiques de navigation robotique, présentée dans un preprint arXiv (2605.11762) en mai 2026. Le système repose sur une politique de diffusion préentraînée qui projette des observations locales vers des waypoints futurs. Son apprentissage s'organise en boucle rollout-mise à jour : en phase de rollout, la politique agit dans un simulateur et interroge un planificateur global disposant d'un accès privilégié à l'environnement complet pour obtenir des segments de trajectoire optimaux comme labels de référence ; en phase de mise à jour, la politique s'entraîne sur ces paires observation-trajectoire collectées en ligne. Construit sur IsaacLab avec rendu parallèle haute fidélité et randomisation de domaine (pose de caméra, paires départ-arrivée), le système s'entraîne simultanément sur 50 scènes sur 8 GPU RTX 4090, collectant plus de 2 000 trajectoires nouvelles par heure, chacune comptant en moyenne plus de 400 pas. Les auteurs introduisent également un benchmark de navigation visuelle en intérieur avec des positions de départ et d'arrivée prédéfinies, conçu pour évaluer la généralisation zéro-shot. NavOL s'attaque à deux blocages classiques de la navigation robotique autonome : le décalage de distribution de l'imitation hors ligne, qui génère des erreurs composées lors du déploiement réel, et la nécessité de concevoir des fonctions de récompense pour l'apprentissage par renforcement. En entraînant la politique sur ses propres rollouts explorés plutôt que sur un corpus statique, le système réduit ce gap de manière plus systématique. Le volume de données généré automatiquement (2 000+ trajectoires/heure) et les gains de performance cohérents sur le benchmark NavDP ainsi que sur le benchmark propriétaire des auteurs indiquent que l'approche pourrait remplacer des pipelines de collecte de données expertes coûteux pour les intégrateurs travaillant sur la navigation en intérieur structuré. Les politiques de navigation visuelle pour robots mobiles constituent un champ actif, avec des approches récentes comme les VLA (Vision-Language-Action models) et les politiques de diffusion qui cherchent à généraliser sans reward engineering. NavOL s'inscrit dans cette dynamique en exploitant IsaacLab, le simulateur d'NVIDIA, pour un entraînement massivement parallèle requérant 8 GPU RTX 4090 haut de gamme. Un point de vigilance : les expériences en conditions réelles mentionnées dans le papier restent peu détaillées dans le résumé, et la performance en simulation peut diverger significativement des résultats terrain, un écart (sim-to-real gap) que ce type d'approche prétend atténuer sans nécessairement le supprimer. Les prochaines étapes naturelles concerneraient l'évaluation sur des environnements extérieurs plus ouverts et l'intégration avec des VLA pour des tâches impliquant un raisonnement sémantique plus riche.

RobotiqueActu
1 source
Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde
760arXiv cs.RO 

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

Une équipe de chercheurs propose Wavelet Policy (arXiv:2504.04991), un framework léger d'apprentissage par imitation pour la manipulation robotique. L'approche combine deux innovations : une mémoire de scène persistante appelée World Prior Memory (WPM), qui encode la structure statique de l'environnement à partir d'images de fond dans des vecteurs compacts, et une modélisation des actions par décomposition en ondelettes (wavelet-domain decomposition). L'architecture résultante, baptisée Single-Encoder Multiple-Decoder (SE2MD), décompose les représentations latentes des actions en sous-bandes temporelles distinctes, reconstruites via transformée inverse avant d'être projetées en séquences d'actions exécutables. Validée sur quatre tâches simulées et six tâches réelles de manipulation robotique, la méthode surpasse les baselines de référence sur l'ensemble des benchmarks. Le code source, les données et les poids du modèle sur tâches simulées sont disponibles publiquement sur GitHub. L'enjeu central est double. D'une part, les politiques visuomotrices classiques (ACT, Diffusion Policy) opèrent entièrement dans le domaine temporel et peinent à maintenir une conscience cohérente de la scène physique sur des horizons longs. D'autre part, les architectures à modèle du monde qui résolvent ce problème imposent un surcoût computationnel significatif, incompatible avec un déploiement embarqué sur robot. Wavelet Policy avance que la décomposition fréquentielle des représentations d'actions latentes suffit à capturer simultanément les composantes rapides (corrections fines) et lentes (planification gestuelle) sans recourir à un modèle du monde explicite. Pour les intégrateurs industriels et les équipes R&D embarquées, cela ouvre la voie à des politiques de manipulation longue-horizon déployables avec des ressources de calcul modestes. Le travail s'inscrit dans une compétition intense sur les politiques visuomotrices généralisées : Physical Intelligence a publié π0 fin 2024 sur des tâches de manipulation complexes, NVIDIA a proposé GR00T N2 avec apprentissage par simulation, et des laboratoires académiques comme Stanford ou Berkeley poussent des variantes de Diffusion Policy et d'imitation par Transformer. Wavelet Policy se positionne comme une alternative légère, sans prétendre au déploiement sur robot humanoïde : les expériences réelles restent au stade du bras manipulateur en environnement contrôlé. Publié en version preprint (v4, avril 2025), le travail n'a pas encore fait l'objet d'une publication dans une conférence de rang A (ICRA, CoRL, RSS), ce qui invite à nuancer la portée des résultats annoncés avant validation par les pairs.

RechercheOpinion
1 source
LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)
761arXiv cs.RO 

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a déposé en mai 2026 sur arXiv un préprint décrivant LoopVLA, une nouvelle architecture de modèle Vision-Language-Action (VLA) conçue pour la manipulation robotique en boucle fermée. L'idée centrale : les VLA actuels utilisent systématiquement la représentation la plus abstraite de leur backbone vision-langage pour prédire les actions, ce qui se révèle sous-optimal pour les ajustements spatiaux fins et répétitifs qu'implique la manipulation de précision. LoopVLA remplace cette logique par un bloc Transformer partagé appliqué de manière récurrente : à chaque itération, le modèle produit à la fois une action candidate et un score de suffisance estimant si un raffinement supplémentaire est nécessaire. L'apprentissage de ce score, en l'absence de supervision directe, repose sur un objectif d'alignement de distribution auto-supervisé : les scores de confiance intermédiaires sont entraînés à refléter la qualité relative des actions produites à chaque étape de raffinement. Sur les benchmarks LIBERO, LIBERO-Plus et VLA-Arena, LoopVLA réduit le nombre de paramètres de 45 % et améliore le débit d'inférence jusqu'à 1,7 fois, tout en atteignant ou surpassant les baselines de référence sur les taux de réussite aux tâches. Le gain est concret pour les équipes qui déploient des VLA sur matériel embarqué ou sous contraintes de latence : un facteur 1,7x sur le throughput d'inférence peut faire la différence entre un robot capable de répondre en boucle de contrôle serrée et un système trop lent pour la production. L'approche remet également en question un postulat dominant dans le domaine, à savoir que la représentation la plus profonde est toujours la meilleure pour l'action. En montrant qu'une sortie anticipée guidée par un signal appris suffit à maintenir les performances, LoopVLA plaide contre le dogme "plus profond égale meilleur" pour la manipulation de précision, où les indices géométriques bas-niveau (position du préhenseur, orientation d'un objet) sont souvent dégradés par une abstraction excessive. Les VLA sont au coeur d'une compétition intense depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Octo (UC Berkeley). La plupart de ces modèles héritent d'une logique "backbone figé + tête d'action" sans remettre en question la profondeur de représentation utilisée. LoopVLA s'inscrit dans la lignée des travaux sur l'early exit et le calcul adaptatif, comparable aux Mixture of Depths de DeepMind, mais appliqués à la politique robotique. Il n'y a pas de déploiement industriel annoncé : il s'agit d'un résultat de recherche avec évaluations uniquement en simulateur (LIBERO est un benchmark sim). La prochaine étape naturelle serait une validation sur robot réel pour mesurer le sim-to-real gap, en particulier sur des tâches de manipulation fine.

RechercheOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
762arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

RechercheOpinion
1 source
TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable
763arXiv cs.RO 

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, langage naturel et génération d'actions motrices, butent sur un problème connu : leur incapacité à généraliser à des scènes ou des objets non vus à l'entraînement. Une équipe de chercheurs propose TriRelVLA (arXiv:2605.05714, mai 2026), une architecture qui remplace les représentations visuelles implicites des VLA actuels par une structure relationnelle triadique explicite articulée autour de trois pôles : l'objet manipulé, la main du robot, et la tâche à accomplir. En pratique, le système construit ces représentations triadiques depuis des entrées multimodales, les organise dans un graphe relationnel via un graph transformer, puis compresse la structure dans un espace goulot (bottleneck) avant de l'injecter dans le LLM pour la prédiction d'action. Les auteurs introduisent également un jeu de données robotiques en environnement réel pour le fine-tuning et rapportent des gains en généralisation inter-scènes, inter-objets et inter-tâches. L'enjeu pour les intégrateurs industriels est direct : un système de manipulation qui échoue dès que la lumière change ou qu'une nouvelle référence produit apparaît n'est pas déployable à l'échelle. En découplant la structure relationnelle action-pertinente de l'apparence visuelle brute, TriRelVLA vise à rendre les politiques de contrôle portables entre environnements et configurations. La compression en espace bottleneck force le modèle à abstraire plutôt qu'à mémoriser, une approche qui, si elle tient à l'échelle, réduirait significativement les coûts de redéploiement dans de nouveaux ateliers ou avec de nouvelles références produit. Ce travail s'inscrit dans une vague de recherches sur les représentations structurées pour VLA, après des approches qui objectifiaient le contenu visuel sans capturer les relations pertinentes pour l'action. Les concurrents directs incluent pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), RT-2 et sa suite chez Google DeepMind, et GR00T N2 de NVIDIA, qui partagent tous le même défaut de sensibilité visuelle que TriRelVLA cherche à corriger. Ce papier reste un preprint non relu par les pairs, et les gains en généralisation annoncés n'ont pas encore été reproduits de manière indépendante. La mise à disposition du jeu de données réel représente la prochaine étape clé pour que la communauté puisse valider ces résultats.

RobotiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
764arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

RobotiqueOpinion
1 source
Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker
765AWS ML Blog 

Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker

Amazon Web Services propose deux solutions complémentaires pour sécuriser de la capacité GPU à court terme : les EC2 Capacity Blocks for ML et les SageMaker training plans. Les Capacity Blocks permettent de réserver un nombre précis d'instances GPU pour une fenêtre temporelle définie, jusqu'à huit semaines à l'avance, avec des durées allant de 1 à 14 jours (par paliers d'un jour) ou de 15 à 182 jours (par paliers de sept jours). Chaque bloc peut couvrir jusqu'à 64 instances d'un même type, et une organisation peut cumuler jusqu'à 256 instances sur une même date en combinant plusieurs blocs au sein d'AWS Organizations. Contrairement aux réservations de capacité à la demande classiques (ODCR), ces Capacity Blocks sont entièrement en libre-service et affichent une décote de 40 à 50 % par rapport aux tarifs à la demande, tout en offrant une bien meilleure disponibilité pour les instances de type P, particulièrement recherchées. Ces solutions répondent à un besoin concret et pressant : la demande mondiale de GPU pour l'entraînement, le fine-tuning et l'inférence de modèles d'intelligence artificielle dépasse largement l'offre disponible. Pour les équipes qui ont besoin de GPU de manière ponctuelle, que ce soit pour des tests de charge, la validation de modèles, des ateliers techniques ou la préparation d'une mise en production, les options existantes présentent des limites sérieuses. Les instances à la demande ne garantissent pas la disponibilité au moment du lancement, et relâcher une instance peut signifier ne plus pouvoir la récupérer. Les instances Spot, bien que jusqu'à 90 % moins chères, peuvent être interrompues à tout moment par AWS. Les Capacity Blocks éliminent cette incertitude : la capacité est garantie pendant toute la durée réservée, ce qui permet de planifier des workloads critiques en temps contraint sans risque de pénurie de ressources. Cette pénurie de GPU n'est pas nouvelle : depuis l'explosion des usages d'IA générative à partir de 2023, les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure font face à une concurrence intense pour l'acquisition et la mise à disposition de puces Nvidia H100 et autres accélérateurs. AWS avait introduit les Capacity Blocks dès 2023 pour les instances P5, mais l'offre s'est depuis progressivement élargie. L'intégration avec les SageMaker training plans vise à couvrir également les usages managés, où AWS gère l'infrastructure sous-jacente. À terme, ces mécanismes de réservation structurée devraient devenir la norme pour toute organisation menant des expérimentations ML d'envergure, car ils permettent de concilier agilité opérationnelle et maîtrise des coûts sans recourir à des contrats pluriannuels.

UELes équipes françaises et européennes utilisant AWS pour leurs workloads ML peuvent sécuriser de la capacité GPU à court terme avec une décote de 40-50%, réduisant l'incertitude opérationnelle liée à la pénurie mondiale de GPU.

InfrastructureActu
1 source
Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
766Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

RobotiqueOpinion
1 source
Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique
767Robotics Business Review 

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne basée à Palo Alto, a présenté le 6 mai 2026 son modèle fondation GENE-26.5, conçu pour la manipulation robotique dextre bimane à vocation généraliste. La société fondée par Zhou Xian revendique des "capacités de manipulation physique au niveau humain" et annonce simultanément deux composants propriétaires : un moteur de données destiné à lever le plafond de volumétrie d'entraînement, et une main robotique à l'échelle humaine couplée à un gant de capture tactile. Ce gant, équipé d'une peau électronique à capteurs, est conçu pour assurer un mappage 1:1:1 entre le gant, la main humaine et l'effecteur robotique, réduisant la perte de fidélité dans le transfert de compétences téléopérées. Pour illustrer les capacités de GENE-26.5, Genesis AI a publié une vidéo montrant un robot réaliser une séquence de cuisson en 20 étapes (découpe de tomates, cassage d'œuf d'une main, coordination bimane), préparer un smoothie avec service en plein air, exécuter des expériences de laboratoire incluant pipetage et transfert de liquides, câbler des faisceaux électroniques, résoudre un Rubik's Cube en manipulation aérienne, saisir simultanément quatre objets de tailles variables, et jouer du piano. Genesis AI était sortie de stealth en 2025 avec 105 millions de dollars de financement. L'enjeu industriel de cette annonce se situe à deux niveaux distincts. Le moteur de données propriétaire cible le principal frein aux modèles de fondation en robotique : l'absence de données de manipulation dextre à grande échelle et haute fidélité. Le gant tactile cherche à résoudre l'embodiment gap, soit la discontinuité morphologique entre effecteur robotique et main humaine qui dégrade le transfert de compétences. Si le mappage 1:1:1 annoncé tient en production, il ouvrirait la voie à une scalabilité des données de téléopération rarement atteinte dans les systèmes actuels. Il convient toutefois de tempérer : les démonstrations présentées sont des vidéos produites et sélectionnées par l'entreprise elle-même. Aucun benchmark indépendant, aucun taux de succès en environnement industriel non contrôlé n'est communiqué. Les affirmations de performance "au niveau humain" émanent exclusivement de Genesis AI et d'Eric Schmidt, ex-PDG de Google et investisseur dans la société. Genesis AI évolue dans un segment en pleine consolidation. Sur le terrain des modèles de fondation pour la manipulation, elle affronte Physical Intelligence (Pi-0, Pi-0.5, Pi-1, San Francisco), Nvidia avec GR00T N2 lancé en novembre 2024, et Figure AI dont la plateforme Figure 03 progresse vers le déploiement industriel chez BMW. La différenciation de Genesis AI porte sur la verticalisation hardware-software : là où Physical Intelligence s'appuie sur du matériel tiers, Genesis AI contrôle à la fois le modèle et l'effecteur. L'entreprise n'a communiqué aucun calendrier de déploiement commercial précis ni partenariat industriel signé. La prochaine étape observable sera de vérifier si les performances démontrées en vidéo se traduisent en métriques reproductibles dans des environnements réels, hors conditions de studio.

RobotiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
768Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

RobotiqueOpinion
1 source
Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP
769MarkTechPost 

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Zyphra a publié une nouvelle technique d'entraînement et d'inférence pour les grands modèles de langage baptisée TSP, pour Tensor and Sequence Parallelism. Testée sur jusqu'à 1 024 GPU AMD MI300X, cette approche affiche un débit 2,6 fois supérieur aux configurations standards combinant parallélisme tensoriel et de séquence, tout en réduisant la mémoire de pointe par GPU sur les deux types de charge de travail, entraînement et inférence. L'idée centrale est ce que Zyphra appelle le "parallelism folding" : plutôt que de répartir les poids du modèle et les tokens de la séquence sur deux axes distincts d'une grille de GPU, TSP combine les deux sur un seul axe de taille D. Résultat : chaque GPU ne détient qu'un D-ième des poids du modèle et qu'un D-ième de la séquence d'entrée, ce qui réduit mécaniquement l'empreinte mémoire par appareil pour les paramètres, les gradients, les états de l'optimiseur et les activations, en un seul mouvement. Cela change concrètement la façon dont les ingénieurs peuvent planifier l'infrastructure pour les très grands modèles. Les deux approches dominantes jusqu'ici avaient chacune un défaut structurel : le parallélisme tensoriel (TP) réduit la mémoire des poids mais génère des communications dont le coût explose avec la longueur des séquences ; le parallélisme de séquence (SP) allège les activations mais laisse les poids entièrement répliqués sur chaque GPU. Combinés sur des axes orthogonaux, ces deux schémas exigent un groupe de T fois Sigma GPU par réplique du modèle, ce qui peut forcer les communications à transiter par des interconnexions inter-nœuds lentes comme InfiniBand, plutôt que par les tissus haute bande passante intra-nœuds comme AMD Infinity Fabric ou NVLink. TSP évite ce surcoût en maintenant tout le groupe sur un axe unique, suffisamment compact pour rester dans les liens rapides. La course aux grands modèles a rendu la gestion de la mémoire GPU aussi critique que les algorithmes eux-mêmes. Les entreprises comme OpenAI, Anthropic, Google ou Meta opèrent des clusters de plusieurs milliers de GPU où chaque point de pourcentage d'efficacité mémoire se traduit directement en coûts d'infrastructure ou en capacité à entraîner des modèles plus grands. Zyphra, startup spécialisée dans l'IA d'entreprise et les architectures hybrides comme Zamba, publie cette technique avec une description technique détaillée, signalant une volonté de peser dans les débats d'infrastructure aux côtés des équipes de recherche système de Google DeepMind, Meta FAIR ou Microsoft. TSP devra maintenant être évalué sur des architectures NVIDIA et des topologies de cluster variées pour confirmer si ses gains se généralisent au-delà des GPU AMD.

InfrastructureOpinion
1 source
Anthropic en négociation pour acheter des puces IA à une startup britannique
770The Information AI 

Anthropic en négociation pour acheter des puces IA à une startup britannique

Anthropic est en discussions avec la startup londonienne Fractile pour acquérir des puces d'inférence destinées à faire tourner ses modèles d'IA. Selon deux sources proches des dirigeants de Fractile, les pourparlers portent sur un approvisionnement qui deviendrait effectif l'année prochaine, une fois les puces disponibles. Anthropic, qui commercialise les modèles Claude, s'appuie aujourd'hui sur trois fournisseurs principaux : Google, Amazon et Nvidia. Ce potentiel contrat avec Fractile constituerait donc une quatrième source d'approvisionnement en matériel. L'enjeu est stratégique : les ventes d'Anthropic connaissent une croissance explosive qui met sous pression les serveurs existants, et les dépenses de la société en infrastructure sont projetées à plusieurs dizaines de milliards de dollars par an. En diversifiant ses fournisseurs, Anthropic se dote d'un levier de négociation face à des géants comme Nvidia, dont les puces restent en forte demande. Les puces d'inférence de Fractile sont conçues pour faire tourner des modèles d'IA de manière plus efficiente, ce qui peut réduire les coûts opérationnels à grande échelle. Cette démarche s'inscrit dans une tendance de fond : les grands laboratoires d'IA cherchent à réduire leur dépendance à Nvidia, dont les GPU H100 et Blackwell sont devenus un goulot d'étranglement mondial. Des acteurs comme Google avec ses TPU, ou Amazon avec ses puces Trainium, développent déjà leurs alternatives en interne. Fractile, startup britannique encore confidentielle, tente de s'imposer sur ce marché émergent des puces d'inférence spécialisées, où la compétition s'intensifie rapidement.

UEL'émergence de Fractile, startup londonienne, comme fournisseur potentiel d'Anthropic illustre la capacité des entreprises européennes à s'imposer dans le marché stratégique des puces d'inférence IA, même si l'impact direct sur la France et l'UE reste indirect à ce stade.

💬 Anthropic n'achète pas des puces, il achète du pouvoir de négociation face à Nvidia. Avoir un quatrième fournisseur dans la poche, c'est surtout une façon de ne plus être otage des GPU H100 qui manquent à tout le monde. Reste à voir si Fractile peut vraiment tenir la cadence quand Anthropic va en avoir besoin.

InfrastructureActu
1 source
ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes
771arXiv cs.RO 

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Une équipe de chercheurs a publié ImagineNav++ (arXiv:2512.17435, décembre 2024, version 3 en mai 2025), un système de navigation visuelle pour robots d'assistance domestique fonctionnant sans carte préalable, à partir d'un flux RGB ou RGB-D embarqué uniquement. Plutôt que de planifier en texte pur comme les agents LLM classiques, le système génère des images futures depuis des positions candidates du robot, puis soumet ces vues synthétiques à un modèle vision-langage (VLM) qui sélectionne la trajectoire la plus prometteuse. Deux composants structurent l'approche : un module d'imagination de vues futures entraîné sur des préférences de navigation humaine pour produire des points de vue à fort potentiel exploratoire, et un mécanisme de mémoire par fovéation sélective (sparse-to-dense) maintenant la cohérence spatiale sur de longues séquences. Sur les benchmarks open-vocabulary d'object navigation et d'instance navigation, ImagineNav++ atteint l'état de l'art en configuration sans carte, surpassant la majorité des méthodes basées sur des cartes explicites. Ce résultat remet en question une hypothèse structurante du domaine : que la navigation autonome en intérieur requiert impérativement une cartographie préalable (SLAM, occupancy maps). Si des VLMs peuvent raisonner spatialement à partir de flux visuels bruts, le pipeline de déploiement se simplifie considérablement pour les intégrateurs d'AMR et de robots d'assistance en environnements non structurés comme des logements ou des établissements de soins. La reformulation du problème comme sélection de meilleure vue est aussi une contribution méthodologique notable : elle rend le raisonnement spatial interprétable et compatible avec les interfaces VLM standard, sans nécessiter d'architecture spécialisée coûteuse. Ce travail prolonge une séquence de recherches cherchant à dépasser les LLM de navigation purement textuels, dont SayNav et LM-Nav, en y intégrant une perception visuelle fine. Les concurrents directs sont les méthodes map-based via SLAM et les approches hybrides récentes comme ESC ou CoW. Architecturalement, ImagineNav++ se rapproche des paradigmes VLA (Vision-Language-Action) explorés par des équipes chez Google DeepMind, Physical Intelligence (pi-0) ou dans le cadre de GR00T N2 chez NVIDIA. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une publication académique évaluée sur simulateurs et benchmarks standardisés, dont la généralisation en conditions réelles reste à valider.

RobotiqueOpinion
1 source
Shengshu Technology lance Motubrain, son modèle monde-action
772Pandaily 

Shengshu Technology lance Motubrain, son modèle monde-action

La société chinoise Shengshu Technology a annoncé Motubrain, un modèle dit "monde-action" (world-action model) conçu comme cerveau unifié pour systèmes d'IA incarnée. L'architecture fusionne modélisation du monde et génération d'actions dans un cadre unique, avec pour ambition de couvrir l'adaptation cross-embodiment, la généralisation multi-tâches et l'exécution de séquences longues. Sur les benchmarks, Motubrain revendique la première place dans deux évaluations internationales : un score EWM de 63,77 sur WorldArena, et un score supérieur à 95 sur RoboTwin 2.0 en environnement aléatoire, ce qui en ferait le seul modèle à franchir ce seuil. En démonstration réelle, le système a été présenté sur des tâches comme la composition florale, le service de cocktails et la cuisine, en maintenant, selon l'entreprise, des performances cohérentes sur plusieurs plateformes robotiques distinctes. Shengshu annonce des partenariats avec plusieurs fabricants de robots pour accélérer le déploiement, sans préciser lesquels ni sur quels volumes. L'annonce s'inscrit dans une dynamique de fond : la convergence entre modèles de monde et modèles d'action est devenue l'un des paris stratégiques majeurs de la robotique généraliste. Là où les approches VLA (Vision-Language-Action) classiques séparent compréhension et génération de mouvement, Motubrain prétend les unifier, ce qui, si les résultats benchmark sont confirmés en conditions industrielles, changerait le calcul pour les intégrateurs : moins de pipelines à orchestrer, meilleure robustesse aux variations d'environnement. Le score RoboTwin 2.0 est particulièrement scruté car ce benchmark cible spécifiquement la manipulation bimanuele en environnement non structuré, un goulot d'étranglement persistant pour le déploiement en atelier. Il convient néanmoins de noter que les démonstrations vidéo publiées restent des cas sélectionnés, sans données de taux de succès sur cycles répétés ni de latence end-to-end, ce qui rend difficile une comparaison rigoureuse avec des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Shengshu Technology est actif dans l'espace de la génération vidéo et des modèles génératifs chinois depuis plusieurs années, mais Motubrain marque un pivot explicite vers l'IA incarnée. Sur le plan concurrentiel, le modèle se positionne face à Pi-0 (Physical Intelligence), Helix (Figure), RDT-1B (Tsinghua) et les initiatives en cours chez 1X et Agility. La Chine accélère significativement dans ce segment, avec des acteurs comme Unitree, AGIBOT et désormais Shengshu qui visent une commercialisation de modèles fondationnels pour robots plutôt que des robots clés en main. Les prochaines étapes annoncées concernent le déploiement chez des partenaires industriels non nommés, sans calendrier précis ni confirmation d'un accès public au modèle.

UELa montée en puissance des modèles fondationnels chinois pour la robotique incarnée intensifie la pression concurrentielle sur les acteurs européens du VLA et de l'IA physique, sans impact direct identifiable à ce stade.

RobotiqueOpinion
1 source
Oxford va concevoir des solutions robotiques de nouvelle génération pour les sites nucléaires avec AtkinsRéalis
773Interesting Engineering 

Oxford va concevoir des solutions robotiques de nouvelle génération pour les sites nucléaires avec AtkinsRéalis

AtkinsRéalis, groupe d'ingénierie canadien, et l'Oxford Robotics Institute (ORI) ont annoncé un partenariat mondial pour déployer des robots autonomes et des systèmes d'IA physique dans les centrales nucléaires. L'ORI, rattaché à l'Université d'Oxford et dirigé par le professeur Nick Hawes, apporte sa recherche avancée en robotique, tandis qu'AtkinsRéalis fournit l'expertise industrielle nécessaire pour transformer ces travaux en solutions opérationnelles sur le terrain. Le partenariat s'appuie sur une expérience déjà concrète : les systèmes de l'ORI ont été déployés sur le site de Sellafield, en Angleterre, où ils ont cartographié des zones de radiation et navigué dans des environnements encombrés de débris. Le cycle de développement suit une logique en trois étapes, conception en laboratoire, entraînement dans des jumeaux numériques (répliques virtuelles fidèles des installations), puis intégration dans des robots industriels par AtkinsRéalis avant déploiement dans les sites énergétiques à travers le monde. L'enjeu est considérable : dans l'industrie nucléaire, les zones les plus critiques sont précisément celles où la présence humaine doit être réduite au strict minimum en raison des doses de radiation. Ces robots autonomes, plateformes mobiles d'inspection et bras robotisés, peuvent désormais réaliser des contrôles et des réparations qui exigeaient autrefois des équipements de protection lourds et des interventions minutées. Dotés de capteurs avancés, ils interprètent des environnements dégradés, opèrent dans l'obscurité totale et prennent des décisions en temps réel sans script préprogrammé. Résultat : une meilleure collecte de données pour les décisions opérationnelles, une réduction des coûts d'intervention, et surtout une exposition humaine aux rayonnements ramenée à zéro. Sam Stephens, responsable du numérique nucléaire chez AtkinsRéalis, souligne que l'objectif est de "passer rapidement de la recherche au déploiement opérationnel dans des centrales du monde entier". Ce partenariat s'inscrit dans une tendance de fond qui voit l'industrie nucléaire investir massivement dans la robotique pour sécuriser et moderniser ses opérations. AtkinsRéalis construit activement un écosystème technologique en s'associant à des acteurs comme NVIDIA pour le traitement IA et Kinova pour le matériel robotique. Parallèlement, d'autres institutions avancent sur des problématiques connexes : l'Institute of Science Tokyo a récemment annoncé le développement d'un récepteur Wi-Fi résistant aux radiations, capable de fonctionner sous des doses mille fois supérieures aux seuils tolérés par l'électronique standard, ce qui permettrait aux robots de maintenir des communications haut débit jusque dans le coeur des réacteurs. La prochaine génération de gestion du nucléaire se dessine ainsi : des machines qui ne se fatiguent pas, ne craignent pas les rayonnements, et collectent en continu les données dont dépendent les décisions les plus critiques du secteur.

UELe partenariat mobilise l'Université d'Oxford et couvre déjà le site de Sellafield au Royaume-Uni, avec des retombées potentielles pour les opérateurs nucléaires européens cherchant à réduire l'exposition aux rayonnements de leurs travailleurs.

RobotiqueActu
1 source
smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3
774MarkTechPost 

smol-audio : collection de notebooks Colab pour affiner Whisper, Parakeet, Voxtral, Granite Speech et Audio Flamingo 3

L'équipe Deep-unlearning a publié smol-audio, une collection de notebooks Jupyter autonomes conçus pour faciliter le fine-tuning des grands modèles audio du moment. Le dépôt, distribué sous licence Apache-2.0, couvre quatre familles de modèles de reconnaissance automatique de la parole : Whisper d'OpenAI, Parakeet de NVIDIA, Voxtral de Mistral et Granite Speech d'IBM, ainsi que des recettes pour la compréhension audio avec Audio Flamingo 3. Chaque notebook est conçu pour s'exécuter directement dans Google Colab avec un runtime de 16 Go, ce qui le rend accessible gratuitement sans installation locale. L'ensemble repose exclusivement sur l'écosystème Hugging Face, notamment les bibliothèques transformers, datasets, peft et accelerate. L'architecture de chaque modèle impose un traitement différent : Whisper utilise une approche séquence-à-séquence classique, Parakeet repose sur le CTC (Connectionist Temporal Classification), plus rapide à l'inférence, tandis que Voxtral est construit sur un backbone de grand modèle de langage, Ministral 3B pour sa version Mini et Mistral Small 3.1 24B pour sa version Small, ce qui nécessite un masquage des tokens de prompt pendant l'entraînement pour éviter des dynamiques dégradées. Ce projet comble un vide réel dans la chaîne de travail des ingénieurs en machine learning. Jusqu'ici, les connaissances pratiques pour adapter ces modèles à un nouveau domaine ou une nouvelle langue étaient dispersées entre des issues GitHub, des billets de blog et des notebooks privés jamais partagés. smol-audio expose chaque étape du pipeline sans abstraire la complexité derrière des fonctions de commodité : la boucle d'entraînement est lisible, le pipeline de données est explicite et la configuration est modifiable directement. Pour un ingénieur débutant, c'est un outil pédagogique ; pour un praticien expérimenté, c'est un point de départ de référence qui évite des heures de débogage. Le support du fine-tuning partiel via LoRA (Low-Rank Adaptation) est particulièrement utile pour les modèles lourds comme Parakeet ou Voxtral, où un fine-tuning complet dépasse souvent les ressources disponibles. Ce lancement s'inscrit dans une année particulièrement dense pour l'audio IA. Les modèles de reconnaissance vocale ont bondi en qualité avec Whisper, Parakeet et Voxtral ; la synthèse vocale conversationnelle a franchi un cap avec Dia-1.6B de Nari Labs ; et Meta a publié le Perception Encoder Audiovisual (PE-AV), un encodeur multimodal capable de construire un espace d'embedding commun entre audio, vidéo et texte. La frontière technique avance vite, mais l'outillage pratique peine à suivre. smol-audio tente de réduire cet écart en standardisant les recettes d'entraînement autour de l'écosystème Hugging Face, qui s'impose progressivement comme infrastructure commune pour l'expérimentation sur ces modèles. Le dépôt devrait s'étoffer à mesure que de nouveaux modèles audio émergent.

UELe dépôt couvre Voxtral, le modèle audio de Mistral (entreprise française), et permet aux développeurs européens d'adapter ces modèles à des langues régionales ou des domaines métier sans infrastructure coûteuse.

OutilsTuto
1 source
GS-Playground : un simulateur photoréaliste haute cadence pour l'apprentissage robotique par vision
775arXiv cs.RO 

GS-Playground : un simulateur photoréaliste haute cadence pour l'apprentissage robotique par vision

Des chercheurs ont publié sur arXiv un article présentant GS-Playground, un simulateur haute performance conçu pour entraîner des robots à partir de données visuelles. Le système repose sur une combinaison inédite : un moteur physique parallèle développé spécifiquement pour fonctionner avec le rendu 3D Gaussian Splatting (3DGS), une technique de reconstruction visuelle photorréaliste. Le résultat est un débit de 10 000 images par seconde à une résolution de 640x480 pixels, ce qui représente une rupture significative par rapport aux simulateurs existants. GS-Playground intègre également un pipeline automatisé baptisé Real2Sim, capable de reconstruire des environnements simulés fidèles à la réalité physique à partir de scènes du monde réel, sans modélisation manuelle fastidieuse. L'enjeu est majeur pour la robotique et l'IA incarnée : entraîner un robot à agir dans le monde réel requiert des millions de simulations, mais les simulateurs visuellement réalistes sont jusqu'ici trop lents pour fonctionner à grande échelle. GS-Playground réduit drastiquement ce goulot d'étranglement computationnel, rendant possible l'apprentissage par renforcement visuel à grande échelle. Les expériences présentées couvrent trois catégories de tâches : la locomotion, la navigation et la manipulation d'objets au contact, trois domaines où la précision visuelle est déterminante pour transférer les comportements appris en simulation vers des robots réels. Le problème du "sim-to-real gap", c'est-à-dire l'écart entre ce qu'un robot apprend en simulation et ce qu'il peut réellement faire dans le monde physique, est l'un des verrous centraux de la robotique moderne. Les simulateurs massivement parallèles comme Isaac Gym d'NVIDIA ont déjà transformé l'apprentissage moteur basé sur la proprioception, mais ils restent aveugles sur le plan visuel. GS-Playground s'attaque à cette limite en combinant physique et rendu réaliste dans un seul pipeline cohérent. Si les résultats se confirment hors du cadre académique, ce type d'infrastructure pourrait accélérer sensiblement le développement de robots capables d'opérer dans des environnements non structurés.

RobotiqueOpinion
1 source
Exploiter l'agilité des robots hybrides roues-pattes pour l'évitement réflexe d'obstacles à haute dynamique
776arXiv cs.RO 

Exploiter l'agilité des robots hybrides roues-pattes pour l'évitement réflexe d'obstacles à haute dynamique

Des chercheurs ont présenté AWARE (Adaptive Wheeled-Legged Avoidance and Reflexive Evasion), un nouveau système d'apprentissage par renforcement hiérarchique conçu pour permettre aux robots hybrides roues-pattes d'esquiver des obstacles en mouvement rapide de manière réflexive. La recherche, publiée sur arXiv sous la référence 2604.23761, s'appuie sur des expériences menées dans le simulateur Isaac Lab d'NVIDIA ainsi que sur des déploiements en conditions réelles sur la plateforme robotique M20. Le système génère spontanément des comportements d'évitement variés, notamment une esquive frontale en plongeon et un écart latéral, sans que ces mouvements aient été explicitement programmés. L'intérêt de cette avancée réside dans la capacité à résoudre un problème longtemps considéré comme un verrou technique majeur : les robots à morphologie hybride souffrent d'un couplage entre leurs modes de locomotion et de contraintes non holonomes qui rendent l'évitement dynamique particulièrement difficile à contrôler. En exploitant pleinement la dualité roues-pattes, AWARE permet à ces plateformes d'atteindre un niveau d'agilité réflexive inédit, ouvrant la voie à des déploiements dans des environnements industriels dangereux, des opérations de sauvetage ou encore des scénarios militaires où la rapidité de réaction face à des menaces mobiles est critique. Les robots à pattes ont longtemps dominé la robotique d'exploration en terrain accidenté, mais leur consommation énergétique élevée limite leur autonomie. Les plateformes hybrides roues-pattes, comme le M20 utilisé dans ces travaux, cherchent à combiner le meilleur des deux mondes depuis plusieurs années, avec des équipes comme Boston Dynamics ou des laboratoires universitaires qui explorent ce compromis. L'approche par apprentissage par renforcement hiérarchique adoptée ici représente une tendance forte dans le domaine : plutôt que de coder manuellement chaque comportement, on laisse émerger des stratégies complexes depuis l'entraînement. La prochaine étape logique sera d'étendre ces capacités à des environnements peuplés de multiples obstacles dynamiques simultanés.

RobotiqueOpinion
1 source
Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU
777Pandaily 

Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU

Moore Threads (cotée à Shanghai sous le symbole 688795.SH) a publié le 26 avril 2026 ses résultats annuels 2025 et ses chiffres du premier trimestre 2026, confirmant une trajectoire de croissance exceptionnelle. Le fabricant chinois de GPU a enregistré un chiffre d'affaires de 1,505 milliard de yuans (environ 208 millions de dollars) en 2025, soit une hausse de 243 % sur un an, avec un taux de croissance annuel composé dépassant 200 % entre 2022 et 2024. La marge brute atteint 65,57 %, l'une des plus élevées du secteur, pour un bénéfice brut de 987 millions de yuans. Les pertes nettes continuent de se réduire : hors rémunérations en actions, la perte nette s'établit à 648 millions de yuans, en recul de 56,65 % sur un an. La dynamique s'est encore accélérée au premier trimestre 2026, avec un chiffre d'affaires de 738 millions de yuans (+155 % sur un an) et un bénéfice net attributable aux actionnaires redevenu positif à 29 millions de yuans. En mars 2026, la société a décroché une commande de 660 millions de yuans pour son cluster de calcul intelligent KUAE, illustrant sa capacité à déployer des infrastructures à grande échelle. Ces résultats positionnent Moore Threads comme l'un des acteurs les plus crédibles de l'alternative chinoise à Nvidia. La rentabilité naissante du premier trimestre 2026 est un signal fort : l'entreprise n'est plus seulement en phase d'investissement, elle commence à monétiser concrètement ses GPU auprès d'opérateurs cloud, d'acteurs de l'IA incarnée, de l'éducation intelligente et du secteur manufacturier. Son GPU phare, le MTT S5000, délivre jusqu'à 1 000 TFLOPS de calcul IA dense par carte, rivalisant selon la société avec les produits leaders mondiaux. Le cluster KUAE, construit autour de ce GPU, supporte l'entraînement de modèles à mille milliards de paramètres et a déjà été déployé commercialement avec des métriques atteignant les standards internationaux, ce qui représente une validation technique significative pour un fabricant émergent. Moore Threads a été fondée en 2020, dans un contexte de tensions croissantes entre les États-Unis et la Chine autour des semi-conducteurs avancés. Les restrictions américaines sur les exportations de GPU Nvidia vers la Chine ont créé un vide que des acteurs comme Moore Threads, Biren ou Cambricon cherchent à combler. La société a investi 1,305 milliard de yuans en R&D en 2025, soit 86,68 % de son chiffre d'affaires, et détient 806 droits de propriété intellectuelle dont 590 brevets d'invention. Elle développe actuellement une nouvelle génération de clusters ultra-larges basée sur son architecture "Huagang", visant des systèmes à 100 000 GPU. Parallèlement, son écosystème logiciel MUSA est conçu pour être compatible avec CUDA, ce qui facilite l'adoption par les développeurs déjà familiers des outils Nvidia. La question centrale pour les prochains trimestres sera de savoir si cette indépendance technologique revendiquée résistera à l'épreuve des déploiements à très grande échelle.

UELa montée en puissance de Moore Threads comme alternative chinoise crédible à Nvidia, dans le contexte des restrictions américaines sur les exportations de GPU, pourrait à terme diversifier les options d'approvisionnement en puces IA pour les entreprises et datacenters européens.

InfrastructureOpinion
1 source
Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde
778arXiv cs.RO 

Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde

Une équipe de chercheurs propose dans un preprint arXiv (référence 2604.21351, avril 2026) une méthode baptisée Weightlessness Mechanism (WM), conçue pour permettre aux robots humanoïdes d'exécuter des mouvements dits non-autostabilisants (NSS, Non-Self-Stabilizing). Ces mouvements englobent des actions aussi banales que s'asseoir sur une chaise, s'allonger sur un lit ou s'appuyer contre un mur : contrairement à la locomotion bipède classique, le robot ne peut maintenir sa stabilité sans interagir physiquement avec l'environnement. Les expériences ont été menées en simulation et sur le robot humanoïde Unitree G1, sur trois tâches représentatives : s'asseoir sur des chaises de hauteurs variables, s'allonger sur des lits à différentes inclinaisons, et s'appuyer contre des murs via l'épaule ou le coude. La méthode est entraînée sur des démonstrations en action unique, sans fine-tuning spécifique à chaque tâche. L'apport technique central s'appuie sur une observation biomécanique : lors de mouvements NSS, les humains relâchent sélectivement certaines articulations pour laisser le contact passif avec l'environnement assurer la stabilité, un état que les auteurs qualifient de "weightless". Le WM formalise ce mécanisme en déterminant dynamiquement quelles articulations relâcher et dans quelle mesure, complété par une stratégie d'auto-étiquetage automatique de ces états dans les données d'entraînement. Pour les intégrateurs industriels qui déploient des humanoïdes dans des environnements réels, ce verrou est significatif : les pipelines actuels d'imitation learning combiné au reinforcement learning imposent généralement un suivi rigide de trajectoire sans modéliser les interactions physiques avec les surfaces, ce qui les rend inopérants dès que le robot doit s'appuyer sur quelque chose. Le contexte est celui d'un secteur en pleine accélération : Figure AI avec le Figure 03, Agility Robotics avec Digit, Boston Dynamics avec Atlas et 1X Technologies poussent tous leurs humanoïdes vers des déploiements en entrepôt ou en usine, mais les scénarios de contact-riche restent largement non résolus. Le Unitree G1, plateforme commerciale accessible, s'impose progressivement comme banc de test académique standard, ce qui accélère la reproductibilité des résultats. Il faut néanmoins souligner que ce travail est au stade de preprint non évalué par les pairs, et que les séquences vidéo accompagnant ce type de publication sont souvent sélectionnées favorablement : la robustesse réelle en conditions non supervisées reste à démontrer. Les suites naturelles seraient une intégration dans des politiques généralisées comme GR00T N2 de NVIDIA ou pi0 de Physical Intelligence, et une évaluation sur des scènes hors distribution.

RobotiquePaper
1 source
Planification VLA à horizon étendu par conditionnement sur traces
779arXiv cs.RO 

Planification VLA à horizon étendu par conditionnement sur traces

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint. Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide. Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

RobotiqueOpinion
1 source
Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)
780Latent Space 

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Enregistré quelques jours après la conférence AIE Europe 2026, un épisode spécial du podcast Unsupervised Learning a réuni Jacob Effron et Shawn Wang, plus connu sous le pseudonyme "swyx", figure centrale de la communauté AI engineering, pour faire le point un an après leur premier épisode croisé avec Latent Space. Les deux animateurs ont passé en revue l'ensemble du paysage IA : infrastructure agentique, guerres du code, formation de modèles spécialisés, valorisations débridées, et ce que signifie vendre à des agents plutôt qu'à des humains. Parmi les points saillants : le playbook des "agent labs", qui consiste à démarrer avec des modèles frontier, à se spécialiser sur un domaine, puis à entraîner ses propres modèles une fois que les données, les volumes d'usage et les économies de latence le justifient. Des entreprises comme Cursor et Cognition sont citées comme exemples concrets de cette trajectoire. Ce que l'épisode documente, c'est la maturation accélérée d'un marché encore en phase d'exploration intensive. L'infrastructure IA a contraint ses acteurs à se réinventer chaque année, tandis que les entreprises applicatives ont mieux résisté à la volatilité des modèles en s'ancrant dans des workflows métier précis. La spécialisation de domaine, la distillation et l'amélioration du contexte ("context engineering") émergent comme leviers de différenciation réels, pas de simples arguments marketing. Le marché du coding IA, l'une des catégories à la croissance la plus rapide, illustre cette dynamique : Anthropic, OpenAI, Cursor et Cognition y ont tous prospéré, mais seule une poignée de noms s'impose comme gagnants réels, un mystère que l'épisode laisse en partie ouvert. La mémoire et la personnalisation sont identifiées comme le prochain grand vecteur de différenciation produit, dans un monde où les modèles récompensent encore trop la fréquence de mention plutôt que la pertinence contextuelle. L'épisode s'inscrit dans un moment charnière : les grands labos frontier tentent d'envahir les verticaux comme la finance et la santé, mais laissent encore de l'espace aux entreprises focalisées qui contrôlent le workflow et le "dernier kilomètre" utilisateur. Swyx se dit plus optimiste qu'avant sur l'open source et sur l'émergence de hardware non-Nvidia, soulignant que chaque accélération de 10x en inférence peut débloquer des expériences produit inédites. L'épisode a été enregistré avant l'annonce de l'accord Cursor-xAI, ce qui lui donne rétrospectivement une valeur de document pré-rupture, un instantané du marché juste avant que la consolidation ne s'accélère davantage. Le marché du coding est présenté comme le modèle préfigurant la trajectoire de toutes les autres verticales IA.

UELa conférence AIE Europe 2026 fournit le cadre géographique, mais l'analyse porte essentiellement sur des acteurs américains ; les startups et développeurs européens peuvent s'inspirer du playbook des 'agent labs' pour calibrer leur propre trajectoire de spécialisation.

BusinessOpinion
1 source
Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI
781SCMP Tech 

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Tencent Holdings a dévoilé jeudi son nouveau modèle d'intelligence artificielle phare, baptisé HY3-Preview, marquant une étape importante dans la stratégie IA du groupe de Shenzhen. C'est le premier grand modèle lancé depuis que Yao Shunyu, ancien chercheur chez OpenAI, a rejoint l'entreprise pour diriger ses efforts en IA fondamentale. Fermé et non accessible au public en open source, HY3-Preview se distingue par une architecture relativement compacte de 295 milliards de paramètres, une taille modeste pour un modèle de cette ambition. Tencent positionne HY3-Preview comme son modèle le plus puissant à ce jour, comparable aux meilleures solutions chinoises disponibles, mais encore en retrait face aux leaders américains comme OpenAI et Google DeepMind. L'arrivée de Yao Shunyu, figure reconnue de la recherche en IA, signale la volonté du groupe de monter en gamme sur les fondations mêmes de ses systèmes, au-delà de ses applications existantes comme Weixin ou Tencent Cloud. Ce lancement s'inscrit dans une intense course technologique entre les géants technologiques chinois, qui cherchent à réduire l'écart avec les États-Unis dans un contexte de restrictions à l'export de puces Nvidia. Alibaba, Baidu, et ByteDance ont chacun intensifié leurs investissements en modèles fondationnels ces derniers mois. Que Tencent, longtemps perçu comme plus discret sur ce terrain, franchisse ce cap avec un recrutement aussi symbolique qu'un ex-OpenAI, témoigne d'une accélération générale de la compétition IA en Asie.

LLMsActu
1 source
UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde
782arXiv cs.RO 

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

UniT (Unified Latent Action Tokenizer via Visual Anchoring) est un framework de recherche présenté début avril 2026 sur arXiv (2604.19734), conçu pour transférer les politiques de mouvement humain directement vers des robots humanoïdes. Le problème adressé est bien documenté : l'entraînement de modèles fondation pour humanoïdes bute sur la rareté des données robotiques. UniT propose d'exploiter les vastes corpus de données égocentrées humaines existants en construisant un espace latent discret partagé entre les deux types de corps. Le mécanisme central, dit tri-branch cross-reconstruction, fonctionne en trois voies : les actions prédisent la vision pour ancrer les cinématiques aux conséquences physiques, la vision reconstruit les actions pour éliminer les biais visuels non pertinents, et une branche de fusion unifie ces modalités purifiées en tokens d'intention physique indépendants de l'embodiment. Le framework est validé sur deux usages : VLA-UniT pour l'apprentissage de politique (Vision-Language-Action), et WM-UniT pour la modélisation du monde, qui permet la génération de vidéos humanoïdes contrôlées par des données de mouvement humain brutes. Les auteurs revendiquent un transfert zero-shot de tâches et une efficacité données state-of-the-art sur benchmark de simulation et sur des déploiements réels, sans toutefois publier de métriques de déploiement chiffrées. L'enjeu central est le "cross-embodiment gap" : un humain et un robot humanoïde partagent une structure morphologique proche mais des cinématiques incompatibles (nombre de degrés de liberté, ratios de membres, actionneurs). Jusqu'ici, combler cet écart nécessitait du retargeting cinématique manuel, de la téléopération coûteuse ou de la simulation synthétique. Si UniT tient ses promesses, il ouvrirait un pipeline d'entraînement hautement scalable à coût marginal faible, puisque les données égocentrées humaines se comptent en millions d'heures. Le claim de zero-shot transfer est le plus fort de l'article, mais il convient de le nuancer : il s'appuie sur des visualisations t-SNE montrant une convergence des représentations humaine et humanoïde dans un espace partagé, ce qui est indicatif mais pas une preuve de généralisation robuste en conditions industrielles réelles. Ce travail s'inscrit dans une vague de recherche sur les modèles fondation pour humanoïdes qui mobilise simultanément Figure AI avec son modèle Helix, Physical Intelligence avec Pi-0 et Pi-0.5, et NVIDIA avec GR00T N2, tous confrontés au même goulot d'étranglement des données. L'approche par ancrage visuel de UniT se distingue des méthodes purement cinématiques comme les retargeters basés sur des squelettes (SMPLify, HumanMimic) en postulant que les conséquences visuelles du mouvement sont universelles indépendamment du corps. Le preprint ne mentionne pas d'affiliation industrielle explicite ni de calendrier de déploiement commercial, et aucun robot cible (Unitree G1, Fourier GR-1, ou autre) n'est nommé dans le résumé disponible. La prochaine étape logique serait une validation sur des benchmarks standardisés comme LIBERO ou RoboMimic, et une comparaison directe avec GR00T N2 sur des tâches dextres en environnement non contrôlé.

AutreOpinion
1 source
783AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
784AWS ML Blog 

Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM

AWS et ses partenaires ont publié des résultats de benchmarks démontrant que le décodage spéculatif (speculative decoding) sur les puces AWS Trainium2, couplé au framework vLLM et à Kubernetes, permet d'accélérer la génération de tokens jusqu'à trois fois pour les charges de travail intensives en décodage. Les tests ont été réalisés avec les modèles Qwen3, une famille de modèles de langage développée par Alibaba. La technique repose sur l'utilisation de deux modèles en tandem : un petit modèle "brouillon" (draft model) qui propose plusieurs tokens en avance, et le modèle principal qui vérifie ces propositions en une seule passe. Résultat : une latence inter-token réduite et un coût par token généré significativement plus faible. L'impact est particulièrement marqué pour les applications comme les assistants à l'écriture, les agents de code ou tout système génératif qui produit beaucoup plus de tokens qu'il n'en consomme en entrée. Dans ces cas, la phase de décodage représente l'essentiel du coût d'inférence. Le problème fondamental du décodage autorégressif classique est que les accélérateurs matériels restent largement sous-utilisés : chaque étape ne produit qu'un seul token, ce qui génère de petites opérations matricielles inefficaces et monopolise inutilement la bande passante mémoire du cache KV. Le décodage spéculatif transforme ce goulot d'étranglement en permettant au modèle cible de traiter n tokens simultanément lors de la vérification, amortissant ainsi les accès mémoire et densifiant les calculs. Deux paramètres clés pilotent les performances de cette approche : le choix du modèle brouillon et la valeur de numspeculativetokens, qui détermine combien de tokens sont proposés à chaque passe. Le modèle brouillon doit partager le même tokenizer et le même vocabulaire que le modèle principal, idéalement appartenir à la même famille architecturale, pour maximiser le taux d'acceptation des tokens proposés. Un taux d'acceptation élevé est crucial : si le modèle principal rejette trop souvent les suggestions, les gains de performance s'évaporent et le coût de calcul du modèle brouillon devient une charge nette. Fixer numspeculativetokens trop bas limite les gains ; trop haut, cela multiplie les rejections anticipées. Cette publication s'inscrit dans une tendance plus large de la course à l'optimisation de l'inférence LLM, où AWS cherche à positionner ses puces Trainium comme alternative crédible aux GPU Nvidia, notamment pour les entreprises cherchant à réduire leurs coûts d'inférence à grande échelle.

UELes entreprises européennes utilisant AWS pourraient réduire leurs coûts d'inférence LLM en migrant vers Trainium2, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

InfrastructureActu
1 source
785The Decoder 

OpenAI affirme à ses investisseurs que son infrastructure lui donne un avantage sur Anthropic

OpenAI a présenté à ses investisseurs un argument central : l'avance prise dans la construction de ses infrastructures de calcul lui confère un avantage décisif sur Anthropic. Selon le discours tenu aux financeurs, les années d'investissement massif dans les datacenters et les systèmes d'entraînement auraient créé une position difficile à rattraper pour ses concurrents. Parallèlement, la société a annoncé la mise en pause de son projet de datacenter au Royaume-Uni, une décision qui contraste avec l'ambition d'expansion mondiale affichée par OpenAI ces derniers mois. Cet argumentaire intervient dans un contexte de compétition intense pour le financement et la crédibilité commerciale. Pour les investisseurs, l'infrastructure représente une barrière à l'entrée concrète : elle conditionne la capacité à entraîner des modèles plus puissants, à tenir les délais de mise sur le marché, et à absorber des volumes d'utilisation croissants. Qu'OpenAI choisisse d'en faire un argument de différenciation signale que la bataille ne se joue plus uniquement sur la qualité des modèles, mais sur la profondeur des capacités opérationnelles. De son côté, Anthropic ne reste pas sans réponse : la startup explore la conception de puces IA personnalisées, une stratégie adoptée également par Google et Amazon pour réduire leur dépendance aux fournisseurs de semi-conducteurs comme Nvidia. Cette course aux ressources matérielles reflète une tendance de fond dans l'industrie, où la maîtrise de la chaîne de calcul devient aussi stratégique que les algorithmes eux-mêmes. La pause britannique d'OpenAI, quant à elle, soulève des questions sur les arbitrages géopolitiques et réglementaires qui pèsent sur les décisions d'implantation des grands acteurs de l'IA.

UELa mise en pause du projet de datacenter d'OpenAI au Royaume-Uni pourrait ralentir l'expansion des capacités d'infrastructure IA en Europe.

InfrastructureOpinion
1 source
Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi
786MIT Technology Review 

Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi

Mustafa Suleyman, PDG de Microsoft AI et cofondateur de DeepMind, affirme que le développement de l'intelligence artificielle n'est pas près de plafonner. Depuis ses débuts dans le domaine en 2010, la puissance de calcul consacrée à l'entraînement des grands modèles a été multipliée par mille milliards : on est passé d'environ 10¹⁴ opérations en virgule flottante pour les premiers systèmes à plus de 10²⁶ aujourd'hui. Les puces Nvidia ont vu leurs performances brutes multipliées par huit en six ans, passant de 312 téraflops en 2020 à 2 500 téraflops aujourd'hui. La mémoire à haute bande passante HBM3 triple le débit de données par rapport à sa génération précédente. Des interconnexions comme NVLink et InfiniBand permettent désormais de relier des centaines de milliers de GPU en supercalculateurs de la taille d'un entrepôt. Ce qui prenait 167 minutes sur huit GPU en 2020 prend aujourd'hui moins de quatre minutes sur du matériel moderne, soit une amélioration de 50x là où la loi de Moore n'en prédisait que 5x. Les dépenses des grands laboratoires en infrastructure de calcul croissent à un rythme d'environ 4x par an, et le parc mondial de calcul dédié à l'IA devrait atteindre l'équivalent de 100 millions de puces H100 d'ici 2027. Ces chiffres ont des implications concrètes pour l'industrie : Suleyman estime qu'on pourrait voir encore 1 000x de puissance de calcul effective d'ici fin 2028. Parallèlement, les coûts d'inférence, c'est-à-dire d'utilisation des modèles, se sont effondrés d'un facteur allant jusqu'à 900 sur une base annualisée. L'IA devient donc radicalement moins chère à déployer, ce qui ouvre l'accès à des entreprises et des usages jusqu'ici inaccessibles économiquement. Selon les recherches d'Epoch AI, la quantité de calcul nécessaire pour atteindre un niveau de performance donné est divisée par deux environ tous les huit mois, un rythme bien supérieur aux 18 à 24 mois du cycle classique de Moore. Les sceptiques prédisent régulièrement un essoufflement de la progression, invoquant le ralentissement de la loi de Moore, la raréfaction des données d'entraînement ou les contraintes énergétiques. Suleyman balaie ces arguments en montrant que la dynamique repose sur trois leviers simultanés et indépendants : des puces plus rapides, une mémoire plus efficace, et une mise en réseau massive des GPU. Son propre laboratoire chez Microsoft a lancé en janvier 2026 la puce Maia 200, qui offre selon lui 30 % de meilleures performances par dollar que tout autre matériel de leur flotte. Le tableau qu'il dresse est celui d'une révolution encore en pleine accélération, où les avancées matérielles et logicielles se renforcent mutuellement, une perspective qui tranche avec le pessimisme ambiant sur les limites supposées de l'IA générative.

InfrastructureOpinion
1 source
Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch
787Frandroid 

Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch

Une développeuse a réussi à faire tourner Gemma 4, le modèle d'intelligence artificielle open source de Google, directement sur une Nintendo Switch, sans connexion à un serveur distant. L'exploit repose sur la version la plus compacte du modèle, publiée par Google en avril 2025 dans le cadre de sa gamme Gemma 4, qui décline plusieurs tailles allant de 1 à 27 milliards de paramètres. C'est la variante 1B, soit un milliard de paramètres, qui a été portée sur la console de Nintendo, dont le matériel repose sur une puce NVIDIA Tegra X1 et 4 Go de RAM partagée. Cet accomplissement illustre la progression rapide de la miniaturisation des modèles de langage et leur capacité à s'exécuter sur du matériel grand public, bien loin des serveurs GPU qui équipent habituellement ce type de charge de travail. Pour les développeurs embarqués et les constructeurs d'appareils connectés, cela ouvre des perspectives concrètes : intégrer des capacités d'inférence locale dans des terminaux à faible consommation, sans dépendance au cloud et sans coût de bande passante. Google a lancé la famille Gemma comme alternative ouverte à ses modèles propriétaires Gemini, ciblant explicitement les usages sur appareil. La Switch, conçue en 2017, n'était évidemment pas pensée pour l'IA générative, ce qui rend la démonstration d'autant plus symbolique. Elle s'inscrit dans une tendance plus large de course à l'efficience, où des acteurs comme Meta avec Llama, Microsoft avec Phi ou Apple avec ses modèles on-device cherchent tous à repousser les limites du possible sur silicium contraint.

LLMsActu
1 source
Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?
788Le Big Data 

Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?

Une poignée de géants technologiques concentre aujourd'hui l'essentiel de la puissance de l'intelligence artificielle mondiale. Microsoft, en tête, a réalisé un pivot stratégique majeur en investissant plusieurs milliards de dollars dans OpenAI, le laboratoire créateur de ChatGPT. En échange de ce partenariat exclusif, la firme de Redmond intègre les modèles GPT dans l'ensemble de son écosystème sous la marque Copilot : Windows, la suite Office, GitHub et ses outils de cybersécurité. Son cloud Azure sert simultanément de plateforme d'entraînement pour OpenAI et d'infrastructure pour les entreprises souhaitant déployer leurs propres applications d'IA. Alphabet, maison mère de Google, incarne quant à elle une présence encore plus ancienne dans le domaine : en 2017, ses chercheurs ont publié "Attention Is All You Need", le papier fondateur de l'architecture transformer sur laquelle reposent aujourd'hui la quasi-totalité des grands modèles de langage. Nvidia, OpenAI, Meta, Amazon, Apple, Anthropic et d'autres acteurs complètent ce cercle restreint qui contrôle modèles, puces et infrastructure cloud. Ce niveau de concentration a des conséquences directes sur l'ensemble de l'économie numérique. En contrôlant à la fois les algorithmes et l'infrastructure, ces entreprises deviennent les principaux distributeurs d'IA pour des centaines de millions d'utilisateurs et pour les entreprises qui cherchent à automatiser leurs processus. Microsoft et Google, en particulier, transforment des logiciels déjà massivement adoptés en interfaces d'intelligence artificielle, rendant l'adoption quasi-transparente pour l'utilisateur final. Les entreprises qui souhaitent développer leurs propres solutions d'IA se retrouvent en grande partie dépendantes de l'infrastructure cloud de ces mêmes acteurs, renforçant ainsi leur position dominante sur toute la chaîne de valeur, de la recherche fondamentale jusqu'à la distribution commerciale. Cette domination est le fruit de décennies d'investissement massif dans la recherche et l'infrastructure. Google Finance cette transformation depuis les années 2010 via DeepMind et Google Brain, tandis que Microsoft a su reconvertir sa position de leader du logiciel d'entreprise en levier d'adoption de l'IA générative. La barrière à l'entrée est désormais astronomique : entraîner un grand modèle de langage compétitif nécessite des dizaines de milliers de GPU et des investissements se chiffrant en milliards de dollars, ce que seuls quelques acteurs peuvent se permettre. La question qui se pose pour la suite est double : comment les régulateurs, notamment en Europe avec l'AI Act, vont-ils encadrer cette concentration de pouvoir technologique, et quels nouveaux entrants, à l'image d'Anthropic ou Mistral, parviendront à s'imposer face à des géants qui ont pris plusieurs longueurs d'avance ?

UELa concentration du pouvoir IA entre quelques géants américains renforce la dépendance des entreprises européennes à des infrastructures cloud étrangères, un enjeu central de l'AI Act et une menace directe pour la souveraineté numérique de l'UE.

BusinessActu
1 source
MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter
789MarkTechPost 

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Une équipe internationale de chercheurs, impliquant notamment les Instituts Gladstone (maladies cardiovasculaires, neurologiques, sciences des données) et l'Université de Californie San Francisco, a développé MaxToki, un modèle d'intelligence artificielle capable de prédire l'évolution dans le temps de l'état génétique des cellules humaines. Contrairement aux modèles existants qui analysent les cellules comme des instantanés figés, MaxToki intègre une dimension temporelle, essentielle pour comprendre comment les cellules vieillissent. Le modèle repose sur une architecture de type transformer décodeur -- la même famille que les grands modèles de langage -- et a été entraîné sur des données de séquençage d'ARN unicellulaire. Il existe en deux versions : 217 millions et 1 milliard de paramètres. Son entraînement s'est déroulé en deux étapes, la première s'appuyant sur Genecorpus-175M, un corpus d'environ 175 millions de transcriptomes unicellulaires issus de 10 795 jeux de données publics, générant quelque 290 milliards de tokens. Une particularité technique clé est l'encodage par rang : plutôt que d'injecter des comptages bruts d'expression génique, chaque cellule est représentée par une liste de gènes classés selon leur expression relative, ce qui rend le modèle plus robuste face aux biais techniques des données biologiques. MaxToki ouvre des perspectives concrètes dans l'étude du vieillissement cellulaire et des maladies qui en découlent -- insuffisance cardiaque, maladie d'Alzheimer, fibrose pulmonaire -- des pathologies qui se développent sur des décennies à travers des changements progressifs dans les réseaux de gènes. Pouvoir modéliser ces trajectoires, et non plus seulement l'état instantané d'une cellule, représente un saut qualitatif pour la recherche biomédicale. La capacité à prédire "où va" une cellule pourrait accélérer l'identification de cibles thérapeutiques et la mise au point d'interventions capables de ralentir ou d'inverser ces processus dégénératifs, avant même l'apparition de symptômes cliniques. Le projet s'inscrit dans une vague plus large de fondation models appliqués à la biologie, une discipline où des acteurs comme NVIDIA (partenaire de ce projet), Google avec son modèle Evo, et plusieurs startups de biotech cherchent à reproduire le succès des LLMs dans le domaine du vivant. La plupart des modèles existants peinent à capturer la dynamique temporelle des systèmes biologiques, limitant leur utilité pour les maladies chroniques. MaxToki répond à ce manque en étendant notamment sa fenêtre de contexte de 4 096 à 16 384 tokens via la technique RoPE scaling, et en excluant délibérément les cellules cancéreuses et lignées immortalisées de l'entraînement pour ne pas biaiser l'apprentissage des dynamiques normales. Des institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) et japonaises (Université de Kyoto, Centre iPS) contribuent également, signe que la course aux modèles fondationnels en biologie est désormais pleinement internationale.

UEDes institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) participent au projet, positionnant l'Europe comme contributeur dans la course aux modèles fondationnels biologiques.

RecherchePaper
1 source
Cognichip lève 60 M$ pour confier la conception des puces à l’IA
790Le Big Data 

Cognichip lève 60 M$ pour confier la conception des puces à l’IA

La startup américaine Cognichip a annoncé avoir levé 60 millions de dollars pour développer une intelligence artificielle capable de concevoir des puces électroniques. Ce tour de table, mené par Seligman Ventures, porte le total des fonds levés par l'entreprise à 93 millions de dollars depuis sa fondation en 2024. Parmi les nouveaux investisseurs figure Lip-Bu Tan, PDG d'Intel, qui rejoint le conseil d'administration aux côtés d'Umesh Padval, associé-gérant chez Seligman. Fondée par Faraj Aalaei, Cognichip développe un modèle d'apprentissage profond spécialisé dans la conception de semi-conducteurs, avec l'ambition affichée de réduire les coûts de développement de plus de 75 % et de diviser par deux les délais de mise sur le marché. L'enjeu est considérable : concevoir une puce moderne prend entre trois et cinq ans, dont deux ans rien que pour la phase de conception, avant même que la fabrication ne démarre. Avec des composants comme le GPU Blackwell de Nvidia intégrant 104 milliards de transistors, la complexité atteint des niveaux qui rendent ce calendrier difficilement tenable. Faraj Aalaei pointe un risque structurel : le marché évolue parfois plus vite que les puces elles-mêmes, rendant un produit potentiellement obsolète avant sa sortie. L'approche de Cognichip consiste à transposer dans le monde du silicium ce que l'IA fait déjà pour les développeurs logiciels, en automatisant les tâches répétitives et en accélérant les itérations de conception. Si les promesses se concrétisent, c'est tout le calendrier de l'industrie des semi-conducteurs qui pourrait être revu. Cognichip opère dans un secteur où les données sont rares et jalousement gardées : contrairement aux développeurs logiciels qui partagent leur code en open source, les concepteurs de puces protègent leurs travaux avec soin. Pour contourner cet obstacle, la startup a constitué ses propres jeux de données en combinant données synthétiques et contenus sous licence, tout en proposant aux fabricants des mécanismes permettant d'entraîner les modèles sur leurs données internes sans les exposer. Elle s'appuie aussi sur des standards ouverts comme l'architecture RISC-V, qu'elle a utilisée lors d'un hackathon avec des étudiants de l'Université d'État de San José. La startup reste cependant discrète sur ses avancées concrètes : aucune puce conçue avec son système n'a encore été présentée publiquement, et ses clients demeurent confidentiels. Elle devra surtout convaincre face aux géants établis du secteur, Synopsys et Cadence Design Systems, qui couvrent déjà l'intégralité du cycle de vie d'un composant avec leurs propres outils d'automatisation.

InfrastructureActu
1 source
AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte
791AWS ML Blog 

AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte

TGS, fournisseur de données géoscientifiques pour le secteur énergétique, a réduit le temps d'entraînement de ses modèles fondamentaux sismiques (SFM) de 6 mois à seulement 5 jours grâce à un partenariat avec le AWS Generative AI Innovation Center (GenAIIC). Ces modèles, basés sur une architecture Vision Transformer (ViT) avec entraînement par Masked AutoEncoder (MAE), analysent des données sismiques 3D complexes pour identifier des structures géologiques essentielles à l'exploration énergétique. L'infrastructure déployée repose sur Amazon SageMaker HyperPod, un cluster de 16 instances EC2 P5 équipées chacune de 8 GPU NVIDIA H200 avec 141 Go de mémoire HBM3e, 2 048 Go de RAM système et une connectivité réseau EFAv3 à 3 200 Gbps pour minimiser la latence entre les noeuds. Les données d'entraînement, plusieurs téraoctets, sont streamées directement depuis Amazon S3 sans couche de stockage intermédiaire. Cet accomplissement représente un changement de paradigme pour l'industrie pétrolière et gazière, où l'exploration géologique repose de plus en plus sur des modèles d'IA capables d'interpréter des volumes sismiques massifs. En passant de 6 mois à 5 jours par cycle d'entraînement, TGS peut désormais incorporer de nouvelles données beaucoup plus fréquemment et itérer rapidement sur ses modèles, ce qui se traduit directement en valeur pour ses clients. L'autre avancée majeure est l'extension de la fenêtre de contexte du modèle grâce à des techniques de parallélisme contextuel, permettant d'analyser des volumes 3D nettement plus grands qu'auparavant et de capturer simultanément les détails locaux et les structures géologiques à grande échelle, deux informations jusqu'ici difficiles à obtenir en un seul passage. Le projet s'inscrit dans une modernisation plus large de l'infrastructure AWS de TGS et illustre une tendance croissante dans les industries à forte intensité de données, comme l'énergie ou les géosciences, qui adoptent les modèles fondamentaux spécialisés pour remplacer les pipelines d'analyse traditionnels. L'entraînement distribué à grande échelle sur des données 3D volumétriques pose des défis spécifiques — temps GPU inactifs, goulots d'étranglement réseau, gestion des checkpoints sur des clusters multi-noeuds — que SageMaker HyperPod adresse avec une surveillance automatique de la santé des instances et une gestion résiliente des reprises. La collaboration entre TGS et l'équipe GenAIIC d'AWS ouvre la voie à des modèles sismiques de prochaine génération capables d'analyser des formations géologiques encore plus complexes, avec des implications directes sur l'efficacité et la précision de l'exploration pétrolière et gazière à l'échelle mondiale.

InfrastructureActu
1 source
Comment installer NemoClaw en 5 minutes : guide pas-à-pas
792Le Big Data 

Comment installer NemoClaw en 5 minutes : guide pas-à-pas

NemoClaw, l'outil de sandbox développé par NVIDIA pour sécuriser les agents autonomes d'intelligence artificielle, s'installe désormais en moins de cinq minutes via un script bash « one-liner ». Le processus repose sur Docker, qui confine chaque agent dans sa propre bulle isolée, et nécessite un noyau Linux à jour — ou WSL2 pour les utilisateurs Windows. Côté matériel, le minimum requis est 16 Go de RAM et une carte graphique NVIDIA avec les pilotes CUDA à jour, condition sans laquelle la sandbox ne détecte tout simplement pas la GPU. Une fois ces prérequis validés, le script télécharge automatiquement les dépendances, gère Node.js et prépare l'environnement OpenClaw sans intervention manuelle. Une phase interactive — le Wizard Onboarding — complète l'installation en quatre étapes : nommage de la sandbox, choix du modèle de langage (local ou via API cloud), et configuration des paramètres d'isolation. L'enjeu derrière cette simplicité d'installation est significatif. En 2026, les grands modèles de langage sont des cibles privilégiées pour les cyberattaques, et l'isolation des processus est devenue une exigence de sécurité fondamentale pour quiconque déploie de l'IA en production. NemoClaw répond à ce besoin en créant une barrière étanche entre le code exécuté par l'agent et le système hôte, limitant drastiquement la surface d'attaque. Le fait que cette protection soit accessible en cinq minutes, sans compétences poussées en administration système, change la donne pour les développeurs indépendants et les petites équipes qui ne peuvent pas se permettre un département sécurité dédié. L'approche conteneurisée via Docker permet par ailleurs de gérer plusieurs agents en parallèle dans des environnements strictement séparés. NVIDIA positionne NemoClaw dans un contexte industriel où la prolifération des agents autonomes pose des questions de gouvernance de plus en plus pressantes. Les incidents liés à des fuites de données via des LLM mal isolés se sont multipliés ces derniers mois, poussant les grands acteurs technologiques à proposer des solutions clés en main. NVIDIA, qui domine déjà le marché du matériel IA avec ses GPU, étend ainsi son influence vers la couche logicielle de sécurité — un mouvement stratégique qui lui permet de verrouiller davantage l'écosystème autour de ses cartes RTX. La compatibilité avec des modèles locaux comme avec des API cloud laisse ouverte la question de la dépendance aux infrastructures propriétaires, un débat que la communauté open source n'a pas fini de trancher.

UELes équipes de développement européennes déployant des agents IA en production peuvent adopter cet outil d'isolation pour renforcer leur sécurité sans compétences avancées en administration système.

SécuritéTuto
1 source
L'IA peut appuyer sur les boutons de votre Stream Deck à votre place
793The Verge AI 

L'IA peut appuyer sur les boutons de votre Stream Deck à votre place

Elgato a lancé le 1er avril 2026 la version 7.4 de son logiciel Stream Deck, introduisant le support du Model Context Protocol (MCP). Cette mise à jour permet aux assistants IA — dont Claude d'Anthropic, ChatGPT d'OpenAI et G-Assist de Nvidia — de détecter et déclencher des actions configurées sur un Stream Deck à la demande de l'utilisateur. Concrètement, il suffit de taper ou dicter une instruction à son assistant IA préféré pour qu'il active le raccourci correspondant, sans toucher physiquement au périphérique. Pour les streamers, créateurs de contenu et professionnels qui utilisent le Stream Deck comme tableau de bord pour automatiser des tâches — changer de scène OBS, lancer une musique, envoyer un message — cette intégration ouvre une nouvelle couche d'interaction. L'utilisateur continue de configurer ses actions dans l'application Stream Deck comme avant ; le MCP vient simplement ajouter un canal de déclenchement vocal ou textuel via l'IA. Cela réduit la friction pour les flux de travail complexes où retenir l'emplacement de chaque bouton devient fastidieux. Le Model Context Protocol est un standard ouvert promu notamment par Anthropic pour permettre aux modèles de langage d'interagir avec des applications tierces de façon standardisée. Son adoption par Elgato illustre une tendance croissante : les fabricants de périphériques hardware intègrent directement des couches IA dans leurs outils, transformant des appareils physiques en surfaces contrôlables par langage naturel. Après les IDE, les navigateurs et les outils de productivité, c'est désormais le matériel grand public qui entre dans l'écosystème MCP.

OutilsOutil
1 source
Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial
794NVIDIA AI Blog 

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Lors du match de l'Euro 2020 entre l'Angleterre et l'Allemagne, des millions de téléspectateurs britanniques ont allumé leur bouilloire à la mi-temps simultanément, provoquant un pic de demande d'environ 1 gigawatt sur le réseau électrique national — l'équivalent d'un réacteur nucléaire standard. C'est ce phénomène, surnommé le "TV pickup", qui a inspiré une démonstration inédite menée en décembre 2025 à Londres par Emerald AI, en collaboration avec NVIDIA, EPRI, National Grid et Nebius. L'expérience s'est déroulée dans une "usine IA" construite sur l'infrastructure NVIDIA de Nebius, équipée de 96 GPU NVIDIA Blackwell Ultra connectés via la plateforme InfiniBand NVIDIA Quantum-X800. En simulant ce même pic d'énergie lié au match de football, le cluster IA a automatiquement réduit sa consommation pour absorber le choc — sans interrompre les charges de travail prioritaires. Cette technologie, baptisée Emerald AI Conductor Platform, ouvre une perspective concrète pour la gestion des réseaux électriques sous tension. Les usines IA, habituellement perçues comme de nouveaux fardeau énergétiques, deviennent ici des actifs flexibles capables d'ajuster leur consommation en quelques secondes selon des signaux envoyés par les gestionnaires de réseau. Lors des tests, le système a respecté 100 % des plus de 200 cibles de puissance définies par EPRI et National Grid, couvrant non seulement les GPU mais aussi les CPU et l'ensemble des équipements informatiques. En pratique, cela signifie que le réseau peut gérer les pics de demande avec les capacités existantes, sans avoir à construire d'infrastructures permanentes surdimensionnées pour les scénarios les plus extrêmes — ce qui contribue directement à limiter la hausse des tarifs pour les consommateurs. Pour les opérateurs de centres de données, l'avantage est également majeur : cette flexibilité leur permet d'obtenir des raccordements au réseau bien plus rapidement, sans attendre des années de travaux d'infrastructure. Après des essais probants dans trois États américains — Arizona, Virginie et Illinois —, Emerald AI a transposé son approche au Royaume-Uni, dans un contexte où la croissance explosive des besoins énergétiques liés à l'IA met sous pression les gestionnaires de réseaux du monde entier.

UELes gestionnaires de réseaux européens confrontés à la même explosion des besoins énergétiques liés à l'IA pourraient adopter cette approche pour stabiliser leur réseau sans surinvestissement en infrastructures permanentes.

OutilsActu
1 source
Meta recrute une équipe star de l’IA pour créer les assistants du futur
795Siècle Digital 

Meta recrute une équipe star de l’IA pour créer les assistants du futur

Meta renforce ses capacités en agents IA en recrutant une équipe spécialisée, dans une démarche qui s'apparente à une acquisition sans rachat formel. Cette initiative s'inscrit dans la tendance générale autour des assistants IA, illustrée par des projets comme OpenClaw et NemoClaw (Nvidia). Meta cherche ainsi à rester compétitif dans la course aux agents IA du futur.

BusinessActu
1 source
IA dans l’espace : Starcloud veut placer 80 000 satellites datacenters en orbite
796ZDNET FR 

IA dans l’espace : Starcloud veut placer 80 000 satellites datacenters en orbite

Starcloud, soutenue par Nvidia, projette de déployer 80 000 satellites-datacenters en orbite pour exploiter l'énergie solaire illimitée de l'espace. L'objectif est de délocaliser l'infrastructure de calcul IA hors de la Terre. Google et SpaceX se positionnent également sur ce créneau émergent.

InfrastructureActu
1 source
Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins
797MarkTechPost 

Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins

Unsloth AI a lancé Unsloth Studio, une interface locale no-code open-source permettant de fine-tuner des LLMs avec 70% moins de VRAM grâce à des kernels Triton optimisés, atteignant une vitesse d'entraînement 2x supérieure. L'outil supporte des modèles jusqu'à 70B paramètres (Llama 3.1, 3.3, DeepSeek-R1) sur un seul GPU grand public comme le RTX 4090, via les techniques LoRA et QLoRA. Il intègre également un pipeline visuel de préparation des données (PDF, DOCX, CSV), la génération de données synthétiques via NVIDIA DataDesigner, et le support du reinforcement learning GRPO.

OutilsOutil
1 source
Les avantages de l'IA physique deviennent l'arme secrète de la fabrication
798MIT Technology Review 

Les avantages de l'IA physique deviennent l'arme secrète de la fabrication

La transformation industrielle évolue vers l'intelligence physique, où l'IA opère fiablement dans le monde réel. Microsoft et NVIDIA collaborent pour aider les fabricants à passer de l'expérimentation à la production à grande échelle. Les fabricants de frontière privilégient l'expansion des capacités humaines, l'accélération de l'innovation et la création de nouvelles valeurs, tout en maintenant la fiabilité et le contrôle. L'industrie manufacturière, centrale dans ce changement, intègre l'IA dans l'exécution physique, comblant le fossé entre l'automatisation et l'adaptabilité humaine grâce à l'IA physique.

UEL'alliance Microsoft-NVIDIA renforce l'intégration de l'IA physique dans la fabrication européenne, potentiellement boostant les entreprises comme Mistral, OVHcloud, Dassault, SAP, et Airbus en améliorant leur automatisation et adaptabilité.

RobotiqueOutil
1 source
Meta dévoile quatre générations de puces IA maison pour réduire les coûts d'inférence pour des milliards d'utilisateurs
799The Decoder 

Meta dévoile quatre générations de puces IA maison pour réduire les coûts d'inférence pour des milliards d'utilisateurs

Meta dévoile quatre nouvelles générations de puces IA personnalisées dédiées à l'inférence, visant à réduire sa dépendance envers les fabricants de GPU comme Nvidia et AMD. L'objectif est de diminuer les coûts d'inférence pour ses milliards d'utilisateurs. Cette initiative s'inscrit dans la stratégie de Meta pour maîtriser davantage son infrastructure matérielle d'IA.

BusinessActu
1 source
Meta développe 4 nouvelles puces pour alimenter ses systèmes d'IA et de recommandation
800Wired AI 

Meta développe 4 nouvelles puces pour alimenter ses systèmes d'IA et de recommandation

Meta a développé 4 nouveaux processeurs MTIA destinés à alimenter ses systèmes d'IA et de recommandation. Cette initiative marque la dernière tentative du géant technologique de produire son propre matériel IA, tout en continuant à investir des milliards dans les équipements de leaders du secteur comme Nvidia.

BusinessActu
1 source