Aller au contenu principal

Dossier NVIDIA — page 9

834 articles · page 9 sur 17

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
401arXiv cs.RO RechercheOpinion

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %. Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel. Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.

1 source
Des agents IA de codage ont appris à des robots à installer des GPU et couper des serre-câbles
402Ars Technica AI 

Des agents IA de codage ont appris à des robots à installer des GPU et couper des serre-câbles

Des chercheurs du laboratoire NVIDIA GEAR (Generalist Embodied Agent Research), en collaboration avec des équipes de la Carnegie Mellon University à Pittsburgh et de l'Université de Californie à Berkeley, ont développé un cadre logiciel appelé ENPIRE. Ce système permet à des agents IA spécialisés dans l'écriture de code de concevoir et de piloter de manière entièrement autonome des programmes d'entraînement pour des bras robotiques, en leur allouant un budget de tokens étendu. Résultat concret : ces agents ont réussi à apprendre à des robots à couper des serre-câbles et à insérer des cartes graphiques dans des slots de cartes mères, une tâche de précision particulièrement délicate. Jim Fan, directeur de l'IA chez NVIDIA, a résumé l'expérience ainsi dans un post LinkedIn : "Une partie de notre laboratoire NVIDIA GEAR s'améliore désormais sans relâche pendant la nuit. Nous lisons simplement les rapports le matin." L'enjeu central d'ENPIRE est de supprimer le goulet d'étranglement humain dans la boucle d'entraînement robotique. Le cadre dote les agents d'outils, de mémoire, de contexte, de contraintes et de mécanismes de rétroaction, leur permettant de boucler le cycle complet, conception, test, correction, sans supervision. Jusqu'ici, définir ces régimes d'apprentissage exigeait une expertise humaine considérable. Avec ce type d'automatisation, le rythme de développement des robots industriels pourrait s'accélérer radicalement, avec des implications directes pour la fabrication électronique, la logistique et toute industrie nécessitant de la dextérité manuelle répétable. NVIDIA investit depuis plusieurs années dans la robotique humanoïde et l'IA physique, et le laboratoire GEAR représente l'un de ses fronts de recherche les plus actifs. Cette démonstration s'inscrit dans une tendance de fond : les agents IA ne se limitent plus à produire du texte ou du code, mais deviennent des orchestrateurs capables d'agir sur des systèmes physiques dans le monde réel. La collaboration avec CMU et UC Berkeley, deux institutions leaders en robotique, renforce la crédibilité académique de l'approche. La prochaine étape naturelle serait d'étendre ENPIRE à des tâches plus complexes et moins structurées, rapprochant encore davantage la vision d'une usine pilotée en grande partie par des agents autonomes.

UEImpact indirect sur les industries européennes de fabrication électronique et de logistique, qui pourraient bénéficier à terme d'une accélération de l'automatisation robotique, sans implication directe d'acteurs français ou européens.

RobotiqueActu
1 source
Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1
403Robotics Business Review 

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Sanctuary AI (Sanctuary Cognitive Systems Corp.), basée à Vancouver, vient de valider une performance industrielle significative chez un équipementier automobile de rang 1 mondial, non nommé. La tâche consiste en l'insertion d'un connecteur filaire souple dans une cible en mouvement sur un convoyeur actif, un problème classique de manipulation dite "contact-rich" qui résiste depuis longtemps à l'automatisation traditionnelle. Le résultat annoncé est un taux de succès supérieur à 99,5% pour un temps de cycle de 2,54 secondes, aligné sur les cadences de production réelle du client. À noter que les métriques sont présentées sans détail sur la durée de l'essai ni le volume de cycles validés, ce qui invite à traiter ce résultat comme un proof-of-concept industriel plutôt qu'un déploiement en série. La démonstration s'inscrit dans la continuité de la présentation en avril 2026 de capacités de manipulation en zero-shot learning pour la préhension dextère. Ce résultat illustre une tendance de fond dans le secteur : face à l'horizon encore incertain de la commercialisation de masse des robots humanoïdes, certains acteurs pivotent vers une approche hardware-agnostique, en injectant leur couche d'IA physique sur des plateformes industrielles existantes. Pour un intégrateur ou un directeur de production, cela représente un chemin à valeur immédiate sans attendre la maturité mécanique des humanoïdes, tout en capitalisant sur des modèles d'IA qui seront ensuite portables vers les systèmes de prochaine génération. Le vrai verrou que Sanctuary prétend avoir levé est le couplage performance/cycle time : les projets de physical AI échouent souvent non par manque de précision mais par débit insuffisant. Si le taux de 99,5% à 2,54 secondes est confirmé en production continue, c'est un signal crédible que les VLA (vision-language-action models) commencent à franchir le seuil de l'exigence industrielle, pas seulement du laboratoire. Fondée au Canada, Sanctuary AI développe depuis plusieurs années une approche centrée sur l'IA généraliste pour corps robotiques, incluant des mains hydrauliques propriétaires haute dextérité. La société avait jusqu'ici communiqué davantage autour de son robot humanoïde Phoenix, mais le pivot stratégique annoncé aujourd'hui signale un repositionnement vers le déploiement accéléré sur bras industriels standards. Dans l'espace concurrent, Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et 1X (Helix) continuent d'investir massivement dans la voie humanoïde complète. Côté manipulation pure, Festo a testé ce mois-ci son GripperAI et lancé un préhenseur pneumatique léger, tandis que PSYONIC s'est associé à ABB Robotics. Sanctuary semble parier que la voie la plus rapide vers le chiffre d'affaires en manufacturing et logistique passe par l'intégration logicielle sur hardware existant, avant le déploiement des prochains systèmes industriels humanoïdes qu'elle annonce vouloir adresser également.

UEL'équipementier de rang 1 non nommé pourrait être européen (Valeo, Bosch, Continental, Aptiv), auquel cas ce pilote serait directement pertinent pour l'automobile FR/EU, mais l'absence de confirmation maintient l'impact au stade potentiel.

💬 99,5% à 2,54 secondes sur une cible mobile, c'est le genre de résultat qui sort enfin du labo. Le pivot de Sanctuary est net: plutôt que d'attendre que le robot humanoïde soit prêt, ils injectent leur IA sur les bras industriels existants, ce qui ouvre un chemin court vers la valeur pour pas mal d'intégrateurs. Sans durée ni volume de cycles communiqués, on reste sur du pilote, pas du déploiement série.

RobotiqueOpinion
1 source
Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA
404Le Big Data 

Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA

Hydra Host, une société américaine spécialisée dans les infrastructures d'intelligence artificielle, a annoncé le 15 juin 2026 une levée de fonds de 100 millions de dollars en série A. L'opération est menée par Kindred Ventures et réunit des investisseurs de premier plan : NVIDIA, ARK Invest, Founders Fund, Comcast Ventures, Magnetar, PEAK6, Sply Capital, Era Funds et 10x Founders. Cet apport de capitaux doit financer l'expansion des "AI factories" de l'entreprise, des infrastructures capables d'héberger et d'exploiter des milliers de GPU pour l'entraînement et l'inférence de modèles d'IA. Hydra Host opère déjà sur plus de 50 datacenters répartis dans les Amériques, la région Asie-Pacifique et la zone Europe-Moyen-Orient-Afrique. Son système d'exploitation propriétaire, baptisé Brokkr AI Factory, sert de couche logicielle unifiée pour transformer ces infrastructures en plateformes GPU-as-a-Service rentables. Verizon Business a déjà conduit une expérimentation avec la plateforme, validant sa capacité à monétiser des capacités de calcul existantes. L'enjeu dépasse la simple disponibilité de puces graphiques. Ce que propose Hydra Host, c'est de résoudre le problème du déploiement à grande échelle : des milliers de GPU existent dans des datacenters sous-exploités, faute d'outillage adapté pour les transformer en services IA opérationnels. En jouant le rôle d'intermédiaire entre opérateurs d'infrastructure et entreprises consommatrices de calcul, Hydra Host répond à une demande que les hyperscalers traditionnels, Amazon Web Services, Microsoft Azure, Google Cloud, peinent à absorber seuls. Pour les entreprises, l'accès à des ressources souveraines et sécurisées, hors des grands clouds américains, représente un avantage stratégique croissant, notamment en Europe où les questions de résidence des données restent sensibles. La levée s'inscrit dans un mouvement plus large de structuration du marché dit "néo-cloud" ou GPU distribué. Après une première phase dominée par la course aux puces, portée par la montée en puissance de NVIDIA, dont la participation à ce tour de table n'est pas anodine, l'industrie entre dans une phase où la valeur se déplace vers la couche opérationnelle : comment déployer vite, fiabiliser, et rendre accessible la puissance de calcul. Des acteurs comme CoreWeave, Lambda Labs ou Together AI occupent des segments proches, mais Hydra Host parie sur un modèle hybride qui sert à la fois les opérateurs et les consommateurs finaux. Avec 100 millions supplémentaires, la société dispose des ressources pour étendre son réseau de datacenters et affiner son système d'exploitation avant que la concurrence ne se consolide davantage.

UELa présence d'Hydra Host dans la zone EMEA et son modèle GPU-as-a-Service distribué hors hyperscalers américains pourraient offrir aux entreprises européennes une alternative pour l'accès à des ressources de calcul conformes aux exigences de résidence des données.

InfrastructureOpinion
1 source
Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action
405arXiv cs.RO 

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Une équipe de chercheurs a publié Token Steering (TS), une méthode permettant de piloter dynamiquement les trajectoires générées par des modèles de fondation robotiques de type VLA (vision-language-action autorégressif). Le principe : injecter des entrées utilisateur de faible dimension directement dans l'espace de représentation des tokens d'action du modèle, sans modifier l'architecture du modèle de langage visuel (VLM) sous-jacent. TS opère entièrement à l'inférence, sans réentraînement ni fine-tuning. Évalué sur deux tâches de manipulation domestique, fermeture d'un tiroir après placement d'objet, et permutation d'objets en contexte dynamique, le taux de succès passe respectivement de 10,0 % à 72,5 % et de 16,7 % à 93,8 %. Ces résultats sont issus de la préprint arXiv:2606.15021 et n'ont pas encore fait l'objet d'une révision par les pairs. L'intérêt opérationnel est direct : supprimer le besoin de réentraînement lève un verrou majeur pour le déploiement de robots de fondation en conditions réelles. Des intégrateurs peuvent adapter le comportement d'un VLA pré-entraîné à des variations de scénario sans coût de calcul additionnel significatif. Le mécanisme guide l'action sans l'écraser, ce qui préserve les priors de dextérité et de fluidité appris durant le pré-entraînement. C'est un avantage concret sur les approches classiques de surcharge par commande directe, qui dégradent souvent la qualité du mouvement. L'article évoque également des cas d'usage d'accessibilité pour des personnes à mobilité limitée, piste crédible vers une robotique d'assistance plus inclusive. Les politiques VLA constituent l'un des axes les plus actifs de la robotique actuelle : Physical Intelligence a commercialisé Pi-0, NVIDIA a présenté GR00T N2, et plusieurs groupes académiques développent des variantes d'OpenVLA. Token Steering s'inscrit dans une tendance plus large qui cherche à rendre ces politiques modulables sans réentraînement, direction que poursuit également Enchanted Tools sur le plan applicatif. La contribution reste pour l'heure académique : aucun déploiement industriel ni partenariat n'est annoncé, et le site projet (jasontchan.github.io/token-steering) présente des vidéos de démonstration en environnement contrôlé. Les prochaines étapes attendues sont une validation sur hardware hors laboratoire et une extension aux VLA de génération récente comme Pi-0 ou GR00T N2.

UEEnchanted Tools (entreprise française) est citée comme poursuivant la même direction applicative ; la méthode de pilotage à l'inférence sans réentraînement pourrait directement accélérer les travaux européens sur la robotique d'assistance.

💬 Passer de 10% à 72% de réussite sur une tâche de manipulation sans toucher au modèle, c'est le chiffre qui compte. Le vrai frein des VLA hors du labo, c'est exactement ça : chaque variation de scénario forçait un fine-tuning coûteux, et Token Steering court-circuite ça à l'inférence. Reste à valider sur du hardware moins coopératif, mais c'est précisément le bon problème à avoir résolu en premier.

RobotiqueOpinion
1 source
La stratégie audacieuse de Broadcom pour stimuler la demande de ses puces
406The Information AI 

La stratégie audacieuse de Broadcom pour stimuler la demande de ses puces

Broadcom a annoncé la semaine dernière un accord de financement en partenariat avec les fonds d'investissement Apollo et Blackstone pour couvrir le coût d'un gigawatt de capacité de calcul destiné à Anthropic. Ce que le communiqué officiel a tu, c'est le rôle central que joue Broadcom dans cette opération : le fabricant de semi-conducteurs agit en réalité comme garant financier d'une commande de puces estimée à 35 milliards de dollars. En coulisses, c'est donc l'entreprise elle-même qui porte le risque financier pour stimuler la demande de ses propres composants. Cette approche n'est pas sans précédent : Nvidia recourt depuis plusieurs années à des techniques similaires de financement fournisseur pour accélérer ses ventes. Mais la comparaison s'arrête là. Broadcom ne dispose pas des réserves financières de son concurrent, ce qui rend le pari nettement plus risqué. En s'engageant sur un contrat d'une telle ampleur, la société mise sur une demande soutenue en infrastructure IA pour rentabiliser son exposition, une stratégie qui pourrait coûter très cher si le marché ralentit ou si Anthropic ne consomme pas les capacités prévues. Broadcom occupe une position singulière dans l'écosystème des puces pour l'IA : la société conçoit des accélérateurs sur mesure pour des géants comme Google, se positionnant comme une alternative aux GPU de Nvidia. L'accord avec Anthropic, startup soutenue notamment par Amazon et Google, illustre une tendance plus large : fabricants de puces, fonds de capital-investissement et laboratoires d'IA concluent des montages financiers inédits pour sécuriser l'accès à une infrastructure informatique désormais considérée comme stratégique.

InfrastructureOpinion
1 source
Flash-KMeans : un K-Means exact et optimisé pour les E/S, plus de 200 fois plus rapide que FAISS sur GPU
407MarkTechPost 

Flash-KMeans : un K-Means exact et optimisé pour les E/S, plus de 200 fois plus rapide que FAISS sur GPU

Des chercheurs de l'Université de Californie à Berkeley et de l'Université du Texas à Austin ont publié Flash-KMeans, une bibliothèque open source qui réimplémente l'algorithme k-means standard de Lloyd sur GPU, avec des gains de performance spectaculaires. Sur un NVIDIA H200, la bibliothèque affiche jusqu'à 17,9 fois plus de rapidité que le meilleur concurrent testé, 33 fois plus que la bibliothèque industrielle cuML de NVIDIA, et plus de 200 fois plus que FAISS, la référence du secteur pour la recherche vectorielle. Flash-KMeans s'installe via pip et est distribué sous licence Apache 2.0. Le résultat mathématique est strictement identique à un k-means classique : aucune approximation, aucun raccourci algorithmique. L'enjeu est de taille parce que le k-means n'est plus seulement un outil de prétraitement utilisé une fois avant l'entraînement. Les pipelines d'IA modernes l'appellent en boucle, à l'intérieur même des phases d'entraînement et d'inférence, ce qui rend chaque milliseconde critique. Flash-KMeans attaque deux goulots d'étranglement distincts. La phase d'assignation, qui consiste à associer chaque point au centroïde le plus proche, génère habituellement une matrice de distances de taille N x K entièrement écrite en mémoire HBM avant d'être relue : sur N=65 536 points, K=1 024 clusters et d=128 dimensions, le calcul arithmétique prend 2,6 ms mais les accès mémoire coûtent 23 ms. La solution, baptisée FlashAssign, s'inspire de FlashAttention : elle fusionne le calcul de distance et la recherche du minimum en tuiles traitées sur la SRAM on-chip, sans jamais matérialiser la matrice complète. La phase de mise à jour des centroïdes, elle, souffrait de collisions atomiques massives sur les clusters populaires, limitant la bande passante effective à 50 Go/s sur le H200. La méthode Sort-Inverse Update contourne ce problème en triant les assignations par identifiant de cluster, ce qui permet de réduire chaque segment localement avant une seule opération atomique par cluster. Flash-KMeans s'inscrit dans une dynamique plus large où les optimisations de bas niveau, au niveau du noyau GPU, deviennent aussi décisives que les innovations algorithmiques. La bibliothèque FAISS, développée par Meta et omniprésente dans les systèmes de recherche vectorielle en production, ne passe pas à l'échelle sans compromis : les implémentations PyTorch classiques tombent en panne mémoire dès que K devient grand, faute de pouvoir matérialiser la matrice N x K. Flash-KMeans traite un milliard de points avec K=32 768 et d=128 en 41,4 secondes contre 261,8 secondes pour la référence, et ce hors-coeur. Avec la montée en puissance des bases de données vectorielles et du clustering dynamique dans les systèmes RAG et de recommandation, une implémentation exacte et aussi rapide pourrait rapidement devenir un composant standard des pipelines d'IA à grande échelle.

UELes laboratoires et entreprises européens déployant des systèmes RAG ou des bases de données vectorielles à grande échelle peuvent bénéficier directement de cette bibliothèque open source pour accélérer leurs pipelines de clustering sans modification algorithmique.

RecherchePaper
1 source
Un modèle fondation VLA pragmatique
408arXiv cs.RO 

Un modèle fondation VLA pragmatique

LingBot-VLA est un modèle fondation de type Vision-Language-Action (VLA) publié en janvier 2026 sur arXiv (v3), conçu pour la manipulation robotique sur bras duals. Entraîné sur environ 20 000 heures de données réelles issues de 9 configurations distinctes de robots bi-bras, le modèle a été évalué sur 3 plateformes robotiques différentes, chacune complétant 100 tâches avec 130 épisodes de post-entraînement par tâche. Sur le plan de l'efficacité computationnelle, la codebase développée atteint un débit de 261 échantillons par seconde sur un cluster de 8 GPU, représentant une accélération de 1,5 à 2,8 fois selon le VLM de base choisi. Le code, le modèle de base et les données de benchmark sont publiés en open access. Ce travail s'attaque à l'un des verrous structurels des VLA en production : la généralisation croisée entre tâches et entre plateformes, couplée à un coût d'adaptation acceptable en données et en GPU-heures. Le fait que le modèle surpasse ses concurrents sur 100 tâches distinctes par plateforme, avec seulement 130 épisodes de fine-tuning, indique que le sim-to-real gap et l'adaptation à de nouveaux morphologies de bras sont partiellement résolus dans ce cadre, du moins pour la manipulation bi-bras. Pour un intégrateur industriel ou un équipementier, c'est un signal concret : l'écart entre démo labo et déploiement réel se réduit sur des tâches structurées, même si les conditions de benchmark restent contrôlées et méritent d'être vérifiées en environnement ouvert. La course aux VLA généralisables oppose aujourd'hui plusieurs approches : Pi-0 de Physical Intelligence sur des données hétérogènes multi-robots, OpenVLA et Octo comme baselines open-source établies, et GR00T N2 de NVIDIA ciblant l'humanoïde. LingBot-VLA se positionne sur le segment bi-bras industriel, avec une volumétrie de données réelles supérieure à la plupart des travaux publiés et un accent explicite sur l'efficacité d'entraînement, ce qui le rend pertinent pour des laboratoires sans infrastructure cloud massive. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une contribution académique avec ouverture du code, dont les suites dépendront de l'adoption communautaire et d'éventuels partenariats industriels non encore divulgués.

UELes laboratoires et intégrateurs européens sans infrastructure cloud massive peuvent adopter directement le modèle et les données open-access pour accélérer leurs travaux de manipulation bi-bras.

💬 130 épisodes pour adapter le modèle à un nouveau robot, c'est un seuil qu'on n'osait pas espérer il y a deux ans. L'open access complet du modèle, du code et des données, c'est ça la vraie nouvelle, parce que les labos sans infrastructure cloud massive peuvent maintenant entrer dans la course face à NVIDIA et Physical Intelligence. Reste à voir si ça tient hors benchmark.

RobotiqueOpinion
1 source
Ordonnancement sensorimoteur inter-étapes et encodage de cartes éparses pour la navigation incarnée en périphérie
409arXiv cs.RO 

Ordonnancement sensorimoteur inter-étapes et encodage de cartes éparses pour la navigation incarnée en périphérie

Des chercheurs ont publié sur arXiv (réf. 2405.14154, version 5) une étude sur le déploiement d'agents robotiques autonomes sur matériel embarqué contraint. La tâche centrale est l'ObjectNav (navigation orientée-objet) : l'agent doit localiser et atteindre un objet cible dans un environnement intérieur inconnu. Le profilage d'un pipeline modulaire existant révèle deux goulots distincts : la construction de la carte sémantique domine la latence par étape, tandis que la prédiction de destination domine la mémoire de pointe. Les auteurs proposent deux optimisations orthogonales : SKIP, un ordonnanceur adaptatif qui détermine à chaque pas de navigation si la mise à jour de la carte peut être omise sans dégrader la performance, et SCOUT, un encodeur appliquant des convolutions parcimonieuses (submanifold sparse convolutions) sur les seules régions actives de la carte. Sur le benchmark HM3D, testé sur serveur et sur plateformes embarquées, SKIP+SCOUT atteint 1,7x d'accélération globale, 50,5 % de réduction de la mémoire de pointe, et +7,1 % en SPL (Success weighted by Path Length) par rapport à la baseline dense. Ce dernier chiffre est le plus contre-intuitif : réduire la complexité perceptive améliore non seulement l'efficacité mais aussi la qualité de navigation, suggérant que la sélectivité perceptive affine la carte plutôt qu'elle ne la dégrade. Pour les intégrateurs cherchant à déployer de la navigation autonome sur des SoC Nvidia Orin ou des robots AMR sous contrainte de coût, une réduction de 50,5 % de la mémoire de pointe est directement décisive. SKIP se transfère à un second pipeline modulaire (PONI) avec des pertes quasi nulles et reste robuste au bruit de capteur de profondeur, deux signaux positifs pour la généralisation au-delà du pipeline initial. L'article s'inscrit dans la vague de travaux sur l'IA physique embarquée portée par Meta AI Research (Habitat), CMU et plusieurs équipes universitaires. Le benchmark HM3D reste un environnement simulé et les auteurs ne présentent pas de résultats sur robot physique, laissant entière la question du sim-to-real gap dans ce contexte précis. Les prochaines étapes logiques seraient une validation sur plateformes commerciales réelles et une extension aux agents de type VLA (Vision-Language-Action), où la pression sur l'inférence embarquée est encore plus forte.

UELes intégrateurs européens d'AMR sous contrainte matérielle embarquée pourraient exploiter ces optimisations mémoire/latence, mais aucun acteur ou déploiement européen n'est impliqué dans l'étude.

💬 Le truc contre-intuitif ici, c'est que faire moins de perception améliore la navigation (+7,1% SPL en prime de la réduction mémoire). Ça valide une intuition qu'on avait depuis un moment : les pipelines actuels calculent trop, pas trop peu, et l'overhead perceptif pollue autant qu'il guide. Reste le sim-to-real, qui est toujours l'éléphant dans la pièce de ce genre de recherche.

RecherchePaper
1 source
Semi-conducteurs : l'IA propulse les revenus des fonderies à un niveau record au premier trimestre 2026
410ZDNET FR 

Semi-conducteurs : l'IA propulse les revenus des fonderies à un niveau record au premier trimestre 2026

Les revenus des fonderies de semi-conducteurs ont atteint un niveau historique au premier trimestre 2026, portés par une demande en accélérateurs IA sans précédent. TSMC, le géant taïwanais qui fabrique les puces d'Apple, NVIDIA et AMD, a enregistré une hausse de ses revenus trimestriels dépassant 30 % sur un an, consolidant sa position de premier fondeur mondial. Samsung Foundry et d'autres acteurs de rang deux ont également bénéficié de cette dynamique, même si l'écart avec TSMC s'est creusé sur les noeuds les plus avancés (3 nm et 2 nm). Cette progression traduit une ruée des géants du cloud -- Microsoft, Google, Amazon, Meta -- vers les puces dédiées à l'inférence et à l'entraînement de modèles d'IA. Chaque centre de données construit pour faire tourner des LLMs représente des commandes massives de GPU et d'ASIC propriétaires, tous gravés en fonderie. Pour l'industrie, c'est une rupture de cycle : les fonderies sortent de la logique saisonnière liée aux smartphones pour entrer dans un régime de commandes structurellement plus stables et plus rentables. Ce record arrive après deux années difficiles marquées par la correction post-COVID et la chute de la demande grand public. La montée en puissance des ASIC maison chez les hyperscalers -- Google TPU, Amazon Trainium, Microsoft Maia -- diversifie les carnets de commandes au-delà de NVIDIA. La course aux capacités de production avancée s'intensifie : TSMC accélère ses usines en Arizona et au Japon, tandis que l'Europe et les Etats-Unis cherchent a reduire leur dependance a l'Asie via le CHIPS Act et son equivalent europeen.

UEL'Europe accélère son programme équivalent au CHIPS Act américain pour réduire sa dépendance aux fonderies asiatiques, mais reste très en retard sur TSMC pour la production de puces avancées à 3 nm et 2 nm.

InfrastructureOpinion
1 source
Exécution en temps réel avec des politiques autorégressives
411arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

RobotiqueOpinion
1 source
EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
412arXiv cs.RO 

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

RecherchePaper
1 source
L'implantation de centres de données en orbite est plus complexe que ne le croit la Silicon Valley
413IEEE Spectrum AI 

L'implantation de centres de données en orbite est plus complexe que ne le croit la Silicon Valley

Les data centers en orbite ont cessé d'être de la science-fiction pour devenir une catégorie d'investissement sérieuse. En mars dernier, Jensen Huang, PDG de Nvidia, proclamait depuis la conférence GTC que "le calcul spatial, la dernière frontière, est arrivé". Google a annoncé le projet Suncatcher en partenariat avec Planet, avec le lancement prévu de deux satellites équipés de puces TPU maison dès début 2027. La startup Starcloud a déposé une demande auprès de la FCC pour une constellation de 88 000 satellites dédiés au calcul orbital. SpaceX, de son côté, intègre xAI dans ses plans de constellations spatiales. Toutes ces entreprises imaginent des flottes de milliers de satellites abritant des racks de GPU haut de gamme, interconnectés par liaisons optiques en espace libre et reliés à la Terre par ondes microondes. Pourtant, une analyse rigoureuse de la physique tempère sérieusement l'enthousiasme. Le premier mythe à déconstruire est celui du "refroidissement gratuit" : l'espace est effectivement froid, mais l'absence d'atmosphère élimine la convection et la conduction, laissant uniquement le rayonnement thermique comme mécanisme de dissipation. Cela impose des surfaces radiantes immenses et coûteuses pour éviter la surchauffe des puces. L'énergie solaire, bien qu'abondante, nécessite des systèmes complexes de contrôle d'orientation pour maintenir les panneaux alignés vers le soleil. Les rayonnements ionisants issus des rayons cosmiques dégradent progressivement les panneaux, les refroidisseurs et les processeurs eux-mêmes, obligeant à intégrer dès le lancement une redondance substantielle. Selon une analyse de coût total de possession réalisée par ABI Research, déployer et exploiter un GPU dans l'espace pendant un an coûte au moins dix fois plus cher qu'en data center terrestre, même en retenant un coût de lancement Starship très optimiste de 44 dollars par kilogramme et un tarif électrique de 0,20 dollar par kilowatt-heure. Cette réalité économique n'interdit pas toute application spatiale, mais elle en restreint fortement le périmètre rentable. Des cas d'usage de niche restent défendables : le prétraitement des données issues des satellites d'observation terrestre directement en orbite, la détection et le suivi en temps réel de missiles hypersoniques, ou encore l'évitement de collisions dans un orbite basse de plus en plus saturée. Pour ces missions, la proximité avec les données justifie le surcoût. Mais la promesse d'un calcul généraliste en orbite comme alternative aux data centers terrestres se heurte à des contraintes physiques fondamentales que ni l'ingénierie ni le capital-risque ne peuvent simplement contourner. Le secteur reste néanmoins porteur d'une ambition technologique réelle, et les prochaines années diront si les pionniers parviennent à résoudre l'équation thermique qui sépare aujourd'hui la vision de la viabilité.

UELa course au calcul orbital menée par des acteurs américains pourrait indirectement affecter la stratégie des acteurs spatiaux européens comme Thales Alenia Space ou Airbus Space, mais les contraintes physiques et économiques identifiées limitent l'urgence d'une réponse concurrentielle immédiate.

InfrastructureOpinion
1 source
Les robotaxis doivent intégrer la sécurité dès la conception, pas l'ajouter après coup
414NVIDIA AI Blog 

Les robotaxis doivent intégrer la sécurité dès la conception, pas l'ajouter après coup

Lors de la conférence NVIDIA GTC Taipei, plusieurs partenariats majeurs ont été annoncés pour accélérer le déploiement commercial de véhicules autonomes de niveau 4. Uber et Autobrains lancent conjointement un programme de robotaxis à Munich sur la plateforme NVIDIA DRIVE Hyperion, s'appuyant sur l'IA agentique d'Autobrains pour des opérations à grande échelle. Foxconn étend sa collaboration avec NVIDIA pour déployer des flottes de robotaxis à Taïwan, tandis que VinFast cible l'Asie du Sud-Est avec des véhicules construits sur la même plateforme. En parallèle, HUMAIN, acteur saoudien, prépare l'arrivée de robotaxis alimentés par DRIVE Hyperion au Moyen-Orient. Ces annonces illustrent un secteur qui a franchi le cap des prototypes pour entrer dans la phase d'exploitation commerciale réelle, avec des services déjà opérationnels dans des dizaines de villes à travers le monde. Cette expansion accélérée soulève une question centrale que régulateurs et ingénieurs ne peuvent plus différer : comment garantir la sécurité de ces systèmes à l'échelle industrielle ? Les autorités de certification ne se contentent plus d'évaluer ce qu'un véhicule perçoit ou décide, elles exigent la preuve que l'ensemble du système se comporte de manière prévisible, isole les défaillances avant qu'elles ne s'aggravent, et ne sort jamais des limites pour lesquelles il a été conçu. Quatre défis doivent être résolus simultanément : un système d'exploitation certifiable pour la sécurité, des interfaces matérielles et logicielles standardisées, une IA fonctionnant dans des garde-fous vérifiables, et une validation à grande échelle avant tout contact avec la voie publique. C'est précisément pour répondre à ces exigences que NVIDIA a introduit le Halos Operating System, composant central de son système de sécurité full-stack Halos. Ce nouveau système repose sur trois éléments. Halos Core constitue la fondation certifiée : il s'agit de la prochaine génération de DriveOS, conforme à la norme ISO 26262 ASIL D, le niveau le plus élevé de sécurité fonctionnelle automobile, avec un hyperviseur qui isole les fonctions critiques pour éviter qu'une défaillance n'atteigne les commandes du véhicule. Il intègre également le support certifié de CUDA et TensorRT, ainsi qu'un framework open source pour l'inférence de grands modèles de langage embarqués. Halos SDK, deuxième couche, standardise les interfaces entre capteurs (caméras, radars, lidars) et le reste du véhicule, supprimant la nécessité de reconstruire manuellement les intégrations à chaque changement matériel. Il fournit aussi un ordonnanceur déterministe, une communication inter-processus à copie zéro pour minimiser la latence, et un système de gestion des erreurs robuste. Dans un contexte où l'industrie des robotaxis cherche à convaincre régulateurs et grand public que la sécurité est intégrée dès la conception, et non ajoutée après coup, ce type d'infrastructure logicielle certifiée devient un prérequis incontournable pour toute opération commerciale viable.

UELe lancement des robotaxis Uber-Autobrains à Munich constitue la première opération commerciale de niveau 4 annoncée en Europe, ce qui est susceptible d'accélérer l'élaboration d'un cadre réglementaire européen pour les véhicules autonomes.

RobotiqueActu
1 source
La robotique ne connaîtra pas de moment Llama bien défini
415Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

RobotiqueOpinion
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
416arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

RecherchePaper
1 source
Pourquoi les institutions financières se tournent vers les modèles de base transactionnels pour développer leur IA
417NVIDIA AI Blog 

Pourquoi les institutions financières se tournent vers les modèles de base transactionnels pour développer leur IA

Revolut et Mastercard font partie des premières institutions financières à adopter une nouvelle catégorie d'intelligence artificielle appelée « transaction foundation models », des systèmes entraînés sur des milliards d'événements financiers plutôt que sur des tâches isolées. Revolut a développé PRAGMA, une famille de modèles basés sur des transformers, en collaboration avec NVIDIA : entraîné sur 24 milliards d'événements issus de 26 millions de comptes dans plus de 100 pays, ce modèle unique surpasse des modèles spécialisés dans des domaines distincts comme le scoring de crédit, la détection de fraude et les recommandations produits. Mastercard travaille de son côté à un grand modèle tabulaire propriétaire, conçu pour évoluer jusqu'à des centaines de milliards de transactions en intégrant des données de fraude, d'autorisation, de remboursement, de localisation de marchands et de fidélité, avec l'appui de NVIDIA, AWS et Databricks. NVIDIA a également publié un exemple de développement open source permettant à n'importe quelle institution de commencer à construire ce type d'architecture sur ses propres données transactionnelles. L'enjeu concret est considérable. Là où un modèle de fraude classique évalue des signaux isolés, un modèle fondationnel interprète le comportement dans son contexte : un paiement à minuit, sur un appareil inconnu, depuis une ville jamais visitée, effectué en quatrième position en dix minutes, prend une signification radicalement différente. Cette profondeur contextuelle améliore les performances sur l'ensemble des tâches, pas seulement sur celle pour laquelle le modèle a été conçu. Pour les équipes data, le bénéfice opérationnel est immédiat : Tadas Kriščiūnas, responsable des données crédit chez Revolut, indique que le travail de feature engineering, qui prenait des semaines voire des mois, est désormais réduit à zéro. Selon le rapport 2026 de NVIDIA sur l'IA dans les services financiers, 65 % des institutions utilisent déjà l'IA et près de 90 % la déploient ou l'évaluent activement. Le secteur financier a passé des années à empiler des modèles spécialisés, un pour la fraude, un pour le crédit, un pour les recommandations, créant des architectures fragmentées incapables de partager leur compréhension du client. Chaque nouveau marché exigeait un réentraînement, chaque nouvel usage un nouveau modèle. L'émergence des transformers appliqués aux données tabulaires change la donne structurellement : une représentation unifiée du comportement financier, entraînée sur des données propriétaires massives, devient un actif stratégique différenciant. Les institutions qui consolident leur intelligence sur ce type de socle réduisent leur dette technique tout en gagnant en capacité d'adaptation, à l'heure où la concurrence entre banques traditionnelles, fintechs et géants technologiques s'intensifie sur le terrain de la personnalisation et de la sécurité.

UERevolut, néobanque européenne active dans plus de 100 pays, a développé PRAGMA avec NVIDIA pour améliorer détection de fraude et scoring crédit sur ses 26 millions de comptes, renforçant la compétitivité des fintechs européennes face aux banques traditionnelles.

OutilsOutil
1 source
Le concept de "Magnifica Humanitas" du pape, un modèle pour faire face à l'IA
418MIT Technology Review 

Le concept de "Magnifica Humanitas" du pape, un modèle pour faire face à l'IA

Le pape Léon XIV a publié une encyclique intitulée Magnifica Humanitas ("Magnificence de l'humanité"), consacrée entièrement à l'intelligence artificielle. Le texte affirme dès l'ouverture que "la technologie n'est jamais neutre" et place l'IA dans une perspective historique comparable à la révolution industrielle. S'appuyant sur deux récits bibliques, l'encyclique oppose la tour de Babel, symbole d'une croissance effrénée coupée de toute considération humaine et divine, au livre de Néhémie, où la reconstruction de Jérusalem devient un acte collectif et solidaire. Léon XIV y voit l'image de deux chemins possibles pour notre époque : une course technologique atomisante, ou un projet partagé remettant l'humain au centre. Le document insiste sur un point précis : l'IA n'est pas une force naturelle ni une entité abstraite et omnisciente, mais un produit commercial, né à un moment où des pouvoirs économiques considérables se concentrent entre un nombre infime de mains. Cette prise de position pontificale arrive alors que les mécanismes de régulation de l'IA restent profondément lacunaires. Il n'existe aucune autorité de sécurité dédiée à l'échelle mondiale. Aux États-Unis, la Federal Trade Commission dispose de compétences limitées sur la conception algorithmique, et les recommandations du NIST sont largement ignorées par l'industrie. L'AI Act européen, partiellement entré en vigueur, ne couvre qu'une fraction des usages réels. Dans ce vide institutionnel, ce sont les investisseurs qui ont pris le relais. Des coalitions regroupées autour de l'Interfaith Center on Corporate Responsibility, représentant plus de 400 milliards de dollars d'actifs sous gestion, ont multiplié les résolutions d'actionnaires lors des dernières assemblées générales pour exiger transparence, évaluation des risques et responsabilité dans le déploiement de l'IA. Des géants comme Alphabet, Amazon, Nvidia, Palantir et Uber ont été directement interpellés, avec des demandes formelles d'interdire toute utilisation de leurs systèmes à des fins de violence ou de violation des droits humains. L'encyclique survient dans un contexte d'escalade des usages militaires de l'IA, illustré de façon tragique lors des premières heures de la guerre contre l'Iran, où des systèmes d'IA ont servi à identifier des cibles pour des milliers de frappes de missiles, causant des centaines de morts. Cette réalité confère une résonance particulière au message de Léon XIV, premier pape de l'ère de l'IA de masse. Son texte ne prétend pas innover sur le terrain de la gouvernance : il entérine et légitime un mouvement déjà en marche, porté non par les États ni par les institutions internationales, mais par des actionnaires citoyens qui ont choisi d'exercer leur responsabilité là où les gouvernements ont jusqu'ici échoué.

UEL'encyclique renforce les appels à une meilleure gouvernance de l'IA en Europe, alors que l'AI Act n'est que partiellement entré en vigueur et ne couvre qu'une fraction des usages réels.

💬 C'est quand même le Vatican qui dit ce que les gouvernements n'arrivent pas à formuler clairement. L'encyclique ne prétend pas réinventer la gouvernance, mais elle pointe un truc précis : l'IA n'est pas une force naturelle, c'est un produit commercial concentré dans quelques mains. Que ce soit le pape ou des coalitions d'actionnaires qui comblent le vide laissé par les États, c'est un aveu d'échec institutionnel assez glaçant.

ÉthiqueReglementation
1 source
Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards
419Latent Space 

Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards

Cognition, le laboratoire spécialisé dans les agents IA, vient de lever 1 milliard de dollars lors d'un tour de table en Série D qui valorise la société à 26 milliards de dollars. Ce financement, annoncé fin mai 2026, représente une valorisation 2,5 fois supérieure à celle obtenue lors de sa Série C en septembre 2025, qui s'élevait à 10 milliards de dollars. Cognition devient ainsi officiellement le plus grand laboratoire d'agents IA indépendant encore en activité. La société projette un chiffre d'affaires annuel récurrent dépassant 1 milliard de dollars d'ici la fin de l'année 2026, une trajectoire alimentée par une clientèle déjà constituée d'acteurs exigeants de l'écosystème startup et entreprise, parmi lesquels Exa et Modal. Cette levée illustre l'appétit persistant des investisseurs pour les agents IA autonomes, segment en train de redéfinir le marché des logiciels d'entreprise. Dans le SaaS, l'ARR est un indicateur retardé de l'utilisation réelle : si Cognition projette ce seuil du milliard, c'est que des déploiements significatifs sont déjà actifs chez ses clients. La dynamique s'inscrit dans une logique de concentration du financement autour de quelques laboratoires indépendants capables de tenir tête aux grandes plateformes que sont OpenAI, Anthropic ou Google DeepMind. Cognition, positionné sur les agents codeurs autonomes, s'impose comme un acteur de référence dans une catégorie dont la valeur potentielle continue d'attirer des capitaux massifs. Cette annonce intervient dans un contexte d'effervescence technique autour de l'inférence et de l'architecture des agents. Sur le front de l'efficacité, plusieurs avancées ont marqué la semaine : EAGLE 3.1 améliore le décodage spéculatif pour les longues séquences, Perplexity a publié en open source un tokeniseur réduisant de 5 à 6 fois la charge CPU, et Qwen3.5 atteindrait 580 tokens par seconde pour des charges de travail agentiques grâce à une collaboration entre Alibaba, NVIDIA et les contributeurs de FlashAttention-4. Parallèlement, LangChain a livré Deep Agents v0.6 avec les Delta Channels, réduisant le stockage des points de contrôle pour une session de codage de 200 tours de 5,3 Go à seulement 129 Mo. La plateforme Trajectory a également été lancée pour permettre aux équipes d'utiliser les traces d'agents et les signaux d'usage produit dans une logique d'apprentissage continu. Ces évolutions techniques signalent un glissement de paradigme : ce n'est plus seulement la qualité du modèle qui fait la différence, mais l'adéquation entre le modèle, son environnement d'exécution et sa mémoire.

💬 26 milliards pour Cognition, ça fait un choc. Mais le chiffre qui compte c'est le milliard d'ARR projeté d'ici décembre : des déploiements déjà actifs chez des clients exigeants, et une valorisation multipliée par 2,5 en six mois pour un labo qui n'existait quasiment pas il y a trois ans. Et l'Europe dans tout ça, elle regarde.

BusinessOpinion
1 source
Micron dépasse les 1 000 milliards de dollars grâce à la demande en IA
420Le Big Data 

Micron dépasse les 1 000 milliards de dollars grâce à la demande en IA

Micron Technology a franchi pour la première fois le seuil symbolique des 1 000 milliards de dollars de capitalisation boursière le 26 mai 2026, après une séance boursière historique où son action a bondi de 19 %. Ce bond spectaculaire a été déclenché par une révision radicale des prévisions de la banque UBS, qui a quasiment triplé son objectif de cours pour Micron, passant de 535 à 1 625 dollars par action. Pour replacer l'ampleur de ce mouvement : il y a seulement quelques semaines, la valorisation du groupe dépassait à peine les 700 milliards de dollars, et il y a moins de 14 mois, elle s'établissait autour de 60 milliards. Depuis le début de l'année, l'action a plus que triplé, enregistrant une progression de l'ordre de 1 350 % en 413 jours. UBS justifie cette revalorisation par un changement structurel du marché de la mémoire, avec des contrats de long terme et des modèles de prix désormais plus stables. Ce franchissement du trillion illustre une bascule profonde dans la façon dont les investisseurs lisent le marché des semi-conducteurs. Le secteur de la mémoire vive (DRAM) et de la mémoire à haute bande passante (HBM) était historiquement considéré comme cyclique et volatil, soumis à des effondrements de prix réguliers. L'IA générative est en train de modifier cette équation : entraîner des modèles de grande taille, les stocker et les faire tourner en temps réel exige des quantités massives de mémoire haute performance. La demande mondiale dépasse désormais les capacités de production disponibles, ce qui permet aux fabricants d'augmenter leurs prix et de sécuriser des contrats pluriannuels. Pour les hyperscalers, les opérateurs de centres de données et les éditeurs de logiciels IA, cela signifie une pression accrue sur les coûts d'infrastructure et la nécessité de sécuriser leurs approvisionnements bien à l'avance. Pendant des années, NVIDIA et ses GPU ont capté l'essentiel de l'attention et des capitaux dans la chaîne de valeur IA. Micron incarne désormais un deuxième front : celui des infrastructures mémoire sans lesquelles les modèles ne peuvent tout simplement pas fonctionner. Le groupe américain n'est pas seul à en profiter, SK Hynix et Samsung Electronics se trouvent dans une position similaire, mais sa montée en puissance illustre une recomposition plus large de l'écosystème. Des entreprises comme AMD, Marvell Technology et Qualcomm atteignent également de nouveaux sommets, tandis qu'Intel tente de rattraper son retard. Si la dynamique se confirme, la mémoire avancée pourrait devenir un facteur aussi déterminant que les GPU dans la compétition mondiale autour de l'IA, transformant durablement les rapports de force entre fabricants de puces, fournisseurs cloud et développeurs de modèles.

UELa hausse structurelle des prix de la mémoire HBM et la sécurisation de contrats pluriannuels par les hyperscalers risquent d'alourdir les coûts d'infrastructure IA pour les opérateurs cloud et entreprises tech européens.

💬 La mémoire a toujours été le secteur ingrat des semis, cyclique, peu valorisé, qu'on regardait à peine. Là, 1 350 % en 413 jours, et c'est pas que de la spéculation : les pénuries structurelles de HBM et les contrats long terme changent vraiment le régime. C'est le genre de truc qui va rendre les budgets infra cloud bien plus douloureux à négocier.

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)
421arXiv cs.RO 

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Une étude déposée sur arXiv (2605.24642) analyse rigoureusement l'intégration des modèles de fondation géométriques (GFM) dans les modèles vision-langage-action (VLA) pour la robotique de manipulation. Les chercheurs ont choisi comme sujets d'étude GR00T N1.5, le VLA de NVIDIA dédié aux robots humanoïdes, et VGGT, un GFM spécialisé dans la reconstruction 3D multi-vues. À l'aide d'une technique de sondage linéaire (linear probing), ils ont quantifié pour la première fois ce qu'ils nomment le "geometric gap" : l'écart mesurable entre la représentation spatiale d'un GFM et celle d'un VLA contemporain. Trois architectures distinctes d'injection de la géométrie dans un VLA ont ensuite été implémentées et comparées, avec des détails bas niveau maintenus constants pour assurer l'équité expérimentale. L'équipe a également mesuré l'impact de facteurs non-architecturaux : volume de données d'entraînement, nombre de caméras utilisées, et qualité de la reconstruction 3D résultante. Ce travail répond à une question que beaucoup de praticiens esquivaient : les VLAs actuels "voient-ils" vraiment en 3D, ou s'appuient-ils sur des corrélations 2D apprises statistiquement ? La réponse est formellement négative. L'analyse quantitative démontre que les VLAs de dernière génération, y compris GR00T N1.5, manquent de représentations géométriques structurées, ce qui constitue un frein identifiable pour les tâches de manipulation fine en environnement non contrôlé. Pour les intégrateurs et les équipes R&D, cela valide l'hypothèse justifiant les architectures hybrides géométriques, tout en fournissant une méthodologie d'évaluation reproductible plutôt qu'une démonstration isolée, souvent peu généralisable. Les VLAs ont connu une accélération marquée depuis 2023, avec Physical Intelligence (pi0), Google DeepMind (RT-2) et NVIDIA (GR00T N1 puis N1.5, disponible depuis début 2025) qui rivalisent sur les benchmarks de manipulation. VGGT s'inscrit dans une vague de GFMs récents visant à fournir une compréhension 3D dense sans LiDAR. Cette étude s'intègre dans une tendance plus large : combler le sim-to-real gap par une modélisation spatiale explicite plutôt que par un simple scaling de données. Les suites logiques incluent l'extension de cette analyse comparative à d'autres paires VLA/GFM, et la validation sur robots physiques des trois architectures proposées pour trancher sur laquelle produit le meilleur transfer vers les tâches réelles.

UEImpact indirect : la méthodologie de linear probing et la quantification du 'geometric gap' sont directement réutilisables par les équipes R&D européennes (INRIA, CEA-List, startups VLA) pour évaluer et améliorer leurs propres architectures hybrides avant validation sur robot physique.

💬 Ce que tout le monde dans la communauté robotique savait intuitivement, c'est maintenant mesuré proprement : les VLAs actuels, GR00T inclus, ne "voient" pas vraiment en 3D. La vraie valeur de ce papier, c'est moins la conclusion (qu'on pressentait) que la méthodologie, le linear probing pour quantifier le geometric gap est directement réutilisable par n'importe quelle équipe R&D sans repartir de zéro. Reste à voir laquelle des trois architectures d'injection tient face à du hardware physique réel, parce que les benchmarks en sim, on connaît la chanson.

RechercheOpinion
1 source
VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)
422arXiv cs.RO 

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Une équipe de recherche vient de publier VLA-REPLICA (arXiv:2605.20774, mai 2026), un banc d'évaluation réel, bas coût et reproductible, conçu pour tester les modèles de type Vision-Language-Action (VLA) sur des tâches de manipulation robotique. L'architecture repose entièrement sur des composants disponibles dans le commerce, ce qui permet à n'importe quel laboratoire d'assembler le setup en quelques jours et de reproduire les mêmes conditions expérimentales. Le benchmark intègre une suite de tâches de manipulation variées, un dataset de démonstrations de petite taille pour l'adaptation au domaine cible, ainsi que des protocoles d'évaluation distincts pour des scénarios en distribution et hors distribution. Les expériences menées couvrent l'apprentissage par imitation classique et plusieurs modèles VLA de l'état de l'art, avec des résultats cohérents obtenus sur des setups construits indépendamment dans différents sites. L'enjeu derrière VLA-REPLICA est directement lié à un problème structurel du secteur : l'évaluation réelle des modèles VLA reste fragmentée, coûteuse, et difficile à comparer d'un labo à l'autre. Les benchmarks en simulation ne capturent pas la complexité du monde physique, tandis que les benchmarks réels existants exigent souvent du matériel spécialisé onéreux ou une évaluation centralisée. Ce benchmark vise à combler ce fossé en fournissant une infrastructure standardisée et décentralisée, ce qui est une condition nécessaire pour que la communauté puisse comparer honnêtement les modèles et identifier leurs limites réelles, notamment face au sim-to-real gap qui affecte encore la plupart des politiques de manipulation. Les modèles VLA ont connu une montée en puissance rapide ces deux dernières années, avec des systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu des travaux de Stanford et Berkeley. Malgré des performances impressionnantes en démo, leur déploiement industriel reste freiné par l'absence de protocoles d'évaluation partagés et comparables. VLA-REPLICA s'inscrit dans un mouvement plus large de standardisation des benchmarks robotiques, comparable à ce qu'ont représenté BOP ou NIST Task Board pour d'autres sous-domaines. La prochaine étape logique serait l'adoption de ce protocole par plusieurs équipes tier-1 pour valider la reproductibilité à grande échelle et créer une baseline commune sur laquelle ancrer les publications futures.

UELes laboratoires européens de robotique (CEA-List, INRIA, universités) peuvent adopter ce benchmark reproductible bas coût pour évaluer leurs modèles VLA sur une infrastructure standardisée, abaissant la barrière d'entrée aux comparaisons internationales sans dépendre de matériel onéreux ou de benchmarks centralisés.

💬 C'est le genre de truc qu'on attendait depuis deux ans, même si ça fait moins de bruit qu'un nouveau modèle. Les benchmarks en simulation ne capturent pas le monde physique, et les vrais setups coûtaient trop cher pour être reproduits d'un labo à l'autre. Du matos grand public et des protocoles partagés, c'est la fondation qui manquait pour que les comparaisons aient enfin du sens.

RecherchePaper
1 source
Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine
423arXiv cs.RO 

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Des chercheurs ont publié en mai 2026 MetaFine, un cadre de méta-évaluation diagnostique conçu pour mesurer avec précision les capacités de manipulation fine des robots. Contrairement aux benchmarks existants qui réduisent la performance à un taux de succès binaire (réussi ou échoué), MetaFine décompose la compétence de manipulation en trois axes distincts : la compréhension contextuelle de la scène, la perception spatiale haute fidélité, et l'exécution motrice sous contraintes. L'étude démontre que l'approche binaire classique surestime artificiellement les capacités des modèles vision-langage-action (VLA) jusqu'à 70%, masquant les goulots d'étranglement architecturaux qui bloquent le déploiement réel. Le framework s'appuie sur un graphe de tâches compositionnel capable d'absorber des benchmarks externes hétérogènes et de les reconstruire en scénarios diagnostiques de complexité variable, sous un protocole unifié. La validation hybride réel-simulation est également intégrée : un nombre limité de rollouts réels sert à calibrer des estimations simulées scalables pour un benchmarking physique plus robuste. L'enjeu est structurant pour le secteur : si les meilleurs modèles VLA actuels semblent performants selon les métriques classiques, MetaFine révèle des échecs sévères et dimension-spécifiques, invisibles jusqu'ici aux évaluateurs. L'analyse causale ciblée identifie l'encodeur visuel comme principal goulot d'étranglement pour la précision fine. Sa capacité à préserver la structure spatiale locale détermine directement l'accès à des capacités de manipulation jugées hors de portée : améliorer cet encodeur suffit à les débloquer sans modifier la politique de contrôle aval. Cette découverte oriente concrètement les priorités R&D pour les équipes d'ingénierie et les intégrateurs industriels qui cherchent à comprendre pourquoi leurs systèmes échouent en conditions réelles. MetaFine s'inscrit dans un contexte de prolifération de benchmarks pour la manipulation embodied, où la course aux métriques produit des systèmes sur-optimisés pour les tests mais fragiles à l'échelle. La communauté VLA fait face depuis plusieurs années au fossé démo-réalité : des résultats impressionnants en laboratoire qui ne se transfèrent pas en production. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix ont montré des performances prometteuses, mais leurs architectures restent difficiles à comparer rigoureusement faute d'outils d'évaluation adaptés. MetaFine propose de renverser la logique : passer du classement au diagnostic, pour identifier et corriger systématiquement les couches de capacités défaillantes. Le framework, les benchmarks et les ressources associées seront publiés en accès libre sur metafine.github.io.

UELe framework MetaFine, publié en accès libre, offre aux équipes R&D et intégrateurs industriels européens un outil diagnostique concret pour identifier les goulots d'étranglement architecturaux de leurs systèmes VLA, sans impact direct sur un acteur français ou européen spécifique.

RobotiquePaper
1 source
Auto-encodeurs épars ancrés dans les événements pour les politiques VLA
424arXiv cs.RO 

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Une équipe de chercheurs a publié le 22 mai 2025 sur arXiv (référence 2605.17204) un pipeline d'interprétabilité pour les politiques Vision-Language-Action (VLA), ces modèles qui traduisent des instructions en langage naturel et des entrées visuelles directement en commandes motrices pour robots. Leur approche, baptisée Event-Grounded SAE (Sparse Autoencoder), ancre l'analyse des représentations internes du modèle à des événements comportementaux concrets plutôt qu'à des contextes textuels. Concrètement, des images-clés (keyframes) de l'effecteur terminal sont extraites et regroupées en clusters selon des critères visuels, d'état et temporels, puis associées optionnellement à des annotations sémantiques via un VLM. La méthode a été validée sur deux architectures en simulation et dans une étude sur robot réel, en ciblant notamment les modèles OpenVLA et pi-0.5 (Physical Intelligence). L'enjeu est considérable pour quiconque déploie des VLA en conditions industrielles : ces politiques restent des boîtes noires dont les représentations internes sont difficiles à auditer. Les outils d'interprétabilité mécaniste développés pour les LLMs ne se transfèrent pas directement aux VLA, car les sorties sont des vecteurs d'action continus, non des tokens lisibles, et chaque intervention ne peut être évaluée que via des rollouts en boucle fermée, coûteux à opérer. Le pipeline présenté est, selon les auteurs, parmi les premiers à ancrer l'analyse SAE dans des événements comportementaux fermés, ce qui produit les effets causaux les plus forts mesurés sur OpenVLA et se transfère aux chunks d'action continus de pi-0.5. Les auteurs notent toutefois des limites : le SAE est une base d'intervention sparse mais imparfaite, dont l'utilisabilité varie selon l'architecture et le point d'injection, et des interventions agressives révèlent des défaillances de sécurité non triviales. Ce travail s'inscrit dans une dynamique d'accélération autour des VLA, où des modèles comme OpenVLA (Berkeley), pi-0 et pi-0.5 (Physical Intelligence), ou encore GR00T N2 (NVIDIA) cherchent à généraliser la commande de robots via des fondations pré-entraînées à grande échelle. L'interprétabilité de ces modèles est devenue un prérequis non négociable pour les déploiements à risque élevé, un angle encore peu adressé face à la course aux benchmarks de performance. Les chercheurs identifient plusieurs directions prioritaires : aller au-delà des coordonnées alignées sur l'action, développer des évaluations en boucle fermée plus granulaires, et concevoir des mécanismes d'intervention sûrs. Le code est disponible publiquement sur GitHub (xc-j/Event-SAE).

UELes outils d'interprétabilité VLA présentés pourraient faciliter la conformité aux exigences d'explicabilité de l'AI Act européen pour les systèmes robotiques à haut risque, un angle encore peu adressé par les acteurs européens.

💬 Tout le monde court après les benchmarks VLA, et je vois peu de monde s'inquiéter de la boîte noire. Ce papier prend l'angle inverse et ancre l'interprétabilité dans des événements comportementaux concrets, validé sur robot réel (pas juste en sim), c'est exactement le genre de boulot qu'on attendait. Mauvaise surprise : les interventions agressives révèlent des failles de sécurité sérieuses, et si tu déploies des VLA en prod, ce papier mérite ton attention.

RechercheOpinion
1 source
La semaine 3 du duel Musk-Altman, et les tractations technologiques de Trump
425MIT Technology Review 

La semaine 3 du duel Musk-Altman, et les tractations technologiques de Trump

Le procès opposant Elon Musk à Sam Altman est entré dans sa troisième et dernière semaine avec une intensité maximale. Les avocats des deux parties ont ciblé la crédibilité des protagonistes : Altman a été accusé de mensonges et de conflits d'intérêts personnels, tandis que Musk a été dépeint comme un homme assoiffé de pouvoir cherchant à s'emparer du contrôle de l'intelligence artificielle générale. L'affaire a révélé des détails inédits, dont un épisode savoureux : une récompense en forme de trophée représentant un derrière d'âne avait été décernée à un employé qui avait osé défier Musk. Parallèlement, des révélations troublantes ont émergé sur Donald Trump : le président américain aurait acheté des actions Nvidia, AMD et Arm juste avant d'annoncer des politiques favorables à ces entreprises, puis vanté Palantir sur son réseau Truth Social après en avoir acquis des titres, des transactions documentées par Quartz et CNBC. Ces deux affaires soulèvent des questions fondamentales sur la gouvernance du secteur technologique. Les accusations contre Trump constituent une potentielle violation grave des règles d'éthique, voire de la législation sur le trading d'initié, à un moment où la Maison-Blanche orchestre une politique industrielle déterminante pour la tech américaine. Le procès Musk-Altman, lui, met en lumière les contradictions béantes d'OpenAI, organisation à la fois non lucrative dans sa mission et valorisée à plusieurs centaines de milliards de dollars commercialement. Pour l'industrie, les deux affaires signalent une ère d'examen bien plus rigoureux des pratiques des géants de la tech, à mesure que leurs décisions impactent directement l'économie mondiale et la sécurité nationale. Dans ce contexte agité, d'autres signaux forts traversent le secteur. SpaceX prépare une introduction en bourse sur le Nasdaq dès le 12 juin, visant une levée pouvant atteindre 75 milliards de dollars à une valorisation de 1 750 milliards, avec BlackRock potentiellement prêt à y injecter 10 milliards. Sur le front de l'IA, ByteDance et Kuaishou ont pris une avance significative sur les acteurs américains dans la génération vidéo, selon le Financial Times. Dans les universités, le baromètre ChatGPT affole les compteurs : une grande institution académique a enregistré une hausse de 30 % des notes dans les cours à dominante rédactionnelle, poussant Princeton à réformer son code d'honneur. ArXiv, le serveur de prépublications scientifiques de référence, a de son côté annoncé des sanctions d'un an à l'encontre des chercheurs qui soumettraient des articles générés sans valeur scientifique réelle.

UELes politiques technologiques américaines révélées dans ces affaires et l'avance de ByteDance sur la génération vidéo ont des répercussions indirectes sur le cadre réglementaire européen et la compétitivité des acteurs de l'IA en Europe.

💬 Trump qui achète du Nvidia juste avant d'annoncer des politiques favorables aux chipmakers, c'est pas subtil. Ce qui me frappe, c'est que ça se passe exactement au moment où la Maison-Blanche co-écrit la politique industrielle de l'IA mondiale, autrement dit quand les décisions de quelques personnes pèsent directement sur des centaines de milliards. Le secteur tech avait l'habitude de s'autoréguler, bon, visiblement c'était une mauvaise idée.

BusinessActu
1 source
Cerebras : une IPO à 60 milliards de dollars, lente puis soudaine
426Latent Space 

Cerebras : une IPO à 60 milliards de dollars, lente puis soudaine

Cerebras Systems a fait son entrée en bourse cette semaine avec une valorisation spectaculaire de 60 milliards de dollars, clôturant à 280 dollars par action. L'introduction s'est concrétisée après un premier dossier S-1 retiré, puis un partenariat à 750 mégawatts et un accord estimé entre 10 et 20 milliards de dollars avec OpenAI. Lors des communications accompagnant l'IPO, le directeur financier Bob Komin a tenu à corriger la perception d'un positionnement limité aux petits modèles : Cerebras sert aujourd'hui des architectures de toutes tailles, y compris des modèles à un billion de paramètres, et traite en production des modèles internes d'OpenAI, notamment les versions 5.4 et 5.5. L'investisseur Ishan N. Taneja, qui avouait avoir douté des premières annonces de l'entreprise, a publiquement concédé que ses sceptiques avaient eu raison dès le départ, saluant la persévérance de l'équipe et la qualité du silicium développé. Cette introduction en bourse constitue une validation majeure pour le marché des puces d'inférence spécialisées, longtemps perçu comme trop risqué face à la domination de Nvidia. Le fait que Cerebras traite des charges de calcul aussi critiques que les modèles internes d'OpenAI confirme que son architecture, fondée sur une puce unique de la taille d'une tranche entière de wafer, est désormais compétitive sur les workloads les plus exigeants. Le chercheur Apoorv Vyas relie explicitement l'IPO à une discussion de Stanford sur la rareté du calcul, la demande d'inférence en hausse et le routage de modèles, soulignant que l'événement est interprété dans les cercles techniques comme un signal structurant pour l'ensemble du cycle d'infrastructure IA, et non comme un simple fait de marché. Ce succès survient dans un contexte de recomposition rapide du secteur du matériel pour l'IA. Six mois plus tôt, Nvidia avait racheté Groq pour 20 milliards de dollars, un autre spécialiste de l'inférence rapide, consolidant sa position tout en signalant que ce segment attire désormais des capitaux massifs. Cerebras avait opté pour une architecture radicalement différente des GPU de Nvidia ou AMD : une puce monolithique de très grande taille, conçue spécifiquement pour les modèles de langage, plutôt que des GPU généralistes adaptés a posteriori. Ce pari industriel, considéré pendant des années comme excentrique, trouve aujourd'hui une validation boursière qui devrait encourager de nouveaux investissements dans des architectures alternatives. La suite probable est une intensification de la concurrence sur l'inférence à grande échelle et une pression croissante sur Nvidia pour défendre ses marges dans ce segment en pleine expansion.

UEL'essor des architectures de puces spécialisées pour l'inférence IA pourrait, à terme, diversifier les options d'approvisionnement matériel pour les acteurs et institutions européens du secteur.

💬 Quand Cerebras a sorti sa puce wafer-scale, beaucoup ont dit que c'était une blague industrielle. Maintenant ils font tourner les modèles internes d'OpenAI en prod, 5.4 et 5.5, et ils entrent en bourse à 60 milliards. Le marché vient de décider que l'architecture alternative à Nvidia, c'est pas un luxe, c'est une nécessité.

InfrastructureOpinion
1 source
Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA
427Robotics & Automation News 

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

L'Allen Institute for AI (Ai2), centre de recherche indépendant basé à Seattle et fondé par Paul Allen en 2014, a publié cette semaine MolmoAct 2, un modèle de fondation robotique open source conçu pour améliorer l'exécution de tâches physiques en environnement réel. Contrairement aux approches précédentes centrées sur des scénarios de laboratoire hautement contrôlés, MolmoAct 2 cible la généralisation à des environnements non structurés, en s'appuyant sur l'architecture multimodale de Molmo, le modèle vision-langage qu'Ai2 avait rendu public en 2024. Le modèle est diffusé sous licence ouverte, avec poids et code disponibles publiquement. L'enjeu pour l'industrie est direct : les modèles de fondation robotiques à diffusion ouverte réduisent la barrière d'entrée pour les intégrateurs et les équipes R&D qui ne disposent pas des ressources pour entraîner des politiques de zéro. MolmoAct 2 s'inscrit dans la lignée des travaux sur les VLA (Vision-Language-Action models), une architecture qui couple perception visuelle, compréhension du langage naturel et génération de commandes motrices. L'ouverture du modèle permet des audits indépendants et une adaptation à des morphologies robotiques variées, ce qui est difficile avec des modèles propriétaires comme GR00T N2 de NVIDIA ou π0 de Physical Intelligence. Ai2 est surtout connu pour ses contributions au NLP (AllenNLP, Semantic Scholar) avant de pivoter vers la robotique incarnée. MolmoAct 2 le place directement en concurrence avec les initiatives open source existantes comme OpenVLA (Berkeley) et les modèles RT-X de Google DeepMind, dans un secteur où Physical Intelligence, Figure AI et 1X Technologies se disputent le leadership sur les déploiements industriels. L'article source étant partiellement tronqué, les métriques de performance (taux de succès, benchmarks sur manipulation) et les éventuels partenariats de déploiement n'ont pas pu être vérifiés.

UELes équipes R&D et intégrateurs européens peuvent accéder librement aux poids et au code de MolmoAct 2, réduisant la dépendance aux modèles propriétaires américains pour le développement de politiques robotiques.

💬 C'est le genre de modèle qu'on attend depuis que tout le monde se bat pour faire des démos en labo. L'ouverture des poids, c'est pas juste un geste de générosité, c'est ce qui permet aux équipes R&D d'adapter le truc à leur propre morphologie robotique sans repartir de zéro. Reste à voir si ça tient face à des environnements vraiment non structurés, parce que "généralisation" c'est un mot qu'on lit souvent dans les papiers, moins souvent dans les entrepôts.

RobotiqueOpinion
1 source
Les grands gagnants de l'introduction en bourse de Cerebras : Foundation, Benchmark et OpenAI
428The Information AI 

Les grands gagnants de l'introduction en bourse de Cerebras : Foundation, Benchmark et OpenAI

Cerebras Systems a fixé mercredi soir le prix de son introduction en bourse à 185 dollars par action, valorisant l'entreprise à 56 milliards de dollars en tenant compte de l'ensemble des options, attributions et bons de souscription en circulation. Cette cotation récompense des investisseurs comme les fonds Foundation et Benchmark, ainsi qu'OpenAI, qui ont maintenu leurs positions malgré une décennie marquée par les turbulences. La société a déposé une nouvelle demande d'introduction en bourse en avril 2026, après avoir retiré son prospectus initial l'année précédente. L'introduction en bourse de Cerebras représente un test majeur pour le marché des semi-conducteurs spécialisés dans l'intelligence artificielle. L'entreprise développe des puces conçues comme alternative aux GPU de Nvidia, qui dominent aujourd'hui l'entraînement et l'inférence des grands modèles de langage. Une valorisation de 56 milliards de dollars signalerait que les investisseurs croient à l'existence d'un marché viable pour des architectures concurrentes, ce qui aurait des répercussions sur l'ensemble de l'écosystème matériel de l'IA. Le parcours de Cerebras illustre les difficultés colossales du secteur des semi-conducteurs : la société n'a livré ses premières puces que cinq ans après sa fondation. Son premier dossier d'IPO en 2024 avait été bloqué par le gouvernement américain, inquiet de ses liens avec G42, conglomérat technologique des Émirats arabes unis et client stratégique. La résolution de ce différend réglementaire a ouvert la voie à cette deuxième tentative, dans un contexte où la demande mondiale en puces pour l'IA atteint des niveaux historiques.

BusinessActu
1 source
Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur
429arXiv cs.RO 

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Le fine-tuning non contraint des modèles Vision-Language-Action (VLA) basés sur le flow matching provoque un phénomène bien documenté : l'écrasement massif des paramètres entraînés, qui dégrade les capacités générales acquises en pré-entraînement. Une équipe de recherche publie sur arXiv (2605.08879) une méthode baptisée ConSFT (Conservative Supervised Fine-Tuning), un nouvel objectif d'optimisation qui permet d'adapter un VLA à une distribution cible sans effacer ses compétences préalables. La méthode a été évaluée sur les benchmarks LIBERO et RoboTwin avec trois modèles de référence : pi-0, pi-0.5 et GR00T-N1.6-3B. Résultat : ConSFT dépasse le fine-tuning supervisé classique de plus de 20 points absolus en rétention de capacités, et rivalise avec l'Experience Replay, une méthode connue mais gourmande en données historiques, sans en nécessiter aucune. Des déploiements physiques sur robots confirment que la méthode évite le surapprentissage spatial lors de l'adaptation à des tâches séquentielles nouvelles. L'enjeu est central pour l'industrialisation des robots manipulateurs polyvalents. Les VLA de type flow matching, comme pi-0 de Physical Intelligence ou GR00T-N1.6-3B de NVIDIA, sont pré-entraînés sur de larges corpus de démonstrations et constituent la base d'agents robotiques généralistes. Mais leur adaptation à un contexte opérationnel précis (cellule de montage, poste de picking spécifique) détruit systématiquement une partie des compétences acquises, forçant les intégrateurs à choisir entre spécialisation et généralité. ConSFT rompt ce compromis : en modulant dynamiquement le signal d'apprentissage selon la confiance du modèle sur chaque échantillon, il bride les gradients excessifs des cas à faible confiance, limitant la perturbation des paramètres. L'inspiration provient du trust-region clipping du reinforcement learning (PPO), transposé ici en apprentissage supervisé. Les modèles VLA à flow matching représentent la génération actuelle des architectures de contrôle robot les plus performantes. Physical Intelligence a lancé pi-0 fin 2024, suivi de pi-0.5 en 2025 ; NVIDIA a publié GR00T N1 puis N1.6 dans le même intervalle. L'oubli catastrophique lors du fine-tuning est un obstacle pratique que plusieurs équipes tentent de contourner, notamment via l'Experience Replay ou des architectures à réseau de référence parallèle. ConSFT propose une voie plus légère : aucune donnée antérieure requise, aucun réseau auxiliaire, aucune modification architecturale. La méthode reste à valider sur des tâches industrielles longues et des robots avec dextérité fine, mais les résultats sur LIBERO et les expériences physiques publiées suggèrent un transfert sim-to-real fonctionnel.

RechercheOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
430arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

RechercheOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
431arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

RobotiqueOpinion
1 source
ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300
432VentureBeat AI 

ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300

La startup californienne Zyphra, basée à Palo Alto, a publié cette semaine ZAYA1-8B, un modèle de langage de raisonnement à architecture mixture-of-experts (MoE) comptant un peu plus de 8 milliards de paramètres, dont seulement 760 millions sont actifs simultanément. Disponible gratuitement sur Hugging Face sous licence Apache 2.0, le modèle peut être téléchargé, modifié et déployé immédiatement par les entreprises comme par les développeurs indépendants. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives face à GPT-5-High d'OpenAI et DeepSeek-V3.2 sur plusieurs benchmarks tiers. Mais ce qui attire surtout l'attention, c'est la plateforme matérielle utilisée pour l'entraîner : des GPU AMD Instinct MI300, les puces concurrentes de Nvidia lancées il y a près de trois ans, sur lesquelles Zyphra a fait tourner l'intégralité de son pipeline d'entraînement. Ce modèle illustre une tendance de fond dans le secteur : pendant qu'OpenAI et Anthropic s'affrontent sur des modèles toujours plus massifs, une nouvelle génération de laboratoires mise sur la densité d'intelligence plutôt que sur la taille brute. Avec 760 millions de paramètres actifs seulement, ZAYA1-8B peut tourner sur du matériel bien moins coûteux, ouvrant la porte à des déploiements locaux ou embarqués inaccessibles aux géants du secteur. Sur le plan matériel, la réussite de l'entraînement sur AMD MI300 est un signal fort : elle démontre concrètement qu'il existe une alternative viable aux GPU Nvidia, qui dominent jusqu'ici quasi exclusivement l'écosystème d'entraînement de modèles IA. L'architecture MoE++ propriétaire de Zyphra repose sur trois innovations techniques. La première, l'attention convolutive compressée (CCA), réduit de huit fois la taille du cache KV par rapport à l'attention multi-têtes classique, ce qui améliore l'efficacité sur les contextes longs. La deuxième remplace le routeur linéaire standard des modèles MoE par un réseau de neurones multi-couches plus expressif, stabilisé par un mécanisme de rééquilibrage inspiré des contrôleurs PID de l'automatique industrielle. La troisième, le Learned Residual Scaling, contrôle la croissance des normes résiduelles sur les 40 couches du modèle pour éviter les problèmes de gradient. En amont de l'entraînement, Zyphra a intégré le raisonnement dès la phase de préentraînement, en développant une technique baptisée AP Trimming qui compresse les longues chaînes de pensée en supprimant leur partie médiane tout en préservant le problème et la solution finale. À l'inférence, la méthode Markovian RSA permet d'améliorer la qualité des réponses sans simplement allonger la chaîne de raisonnement, une approche qui constitue selon Zyphra la principale source de gain de performance du modèle.

UELe modèle étant publié sous Apache 2.0 sur Hugging Face, les développeurs et entreprises européens peuvent le télécharger et le déployer immédiatement pour des cas d'usage locaux à faible coût matériel.

LLMsOpinion
1 source
☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0
433Next INpact 

☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0

AMD a officiellement présenté l'Instinct MI350P, un nouveau GPU d'intelligence artificielle destiné aux serveurs standards. Cette carte se distingue de ses aînées MI350X et MI355X par son format PCIe 5.0, qui lui permet d'être installée directement dans un serveur ou un ordinateur classique, sans infrastructure spécialisée. Elle repose sur la même architecture CDNA4 que le reste de la famille MI350, mais avec des caractéristiques exactement divisées par deux : 144 Go de mémoire HBM3E contre 288 Go pour la MI350X, une bande passante mémoire de 4 To/s contre 8 To/s, et 8 192 processeurs de flux pour 4,6 PFLOPS en précision MXFP4, là où la MI350X atteint 9,2 PFLOPS avec ses 16 384 processeurs. Le TDP est plafonné à 600 watts, la fréquence reste à 2,2 GHz, et la carte occupe deux emplacements. Le prix n'a pas encore été communiqué. Cette MI350P cible en priorité les charges d'inférence, c'est-à-dire l'exécution de modèles d'IA déjà entraînés, plutôt que leur apprentissage. Son format PCIe standard ouvre le marché des IA aux opérateurs disposant de parcs de serveurs classiques, qui n'ont pas les moyens ou la nécessité d'investir dans des infrastructures haute densité avec refroidissement liquide. Pour les entreprises cherchant à déployer des modèles de taille intermédiaire à moindre coût d'intégration, la MI350P représente une alternative sérieuse face aux offres concurrentes de NVIDIA sur ce segment. Cette annonce s'inscrit dans une stratégie AMD clairement articulée : couvrir l'ensemble du spectre de performance avec des variantes adaptées à chaque usage. Après avoir lancé la MI350X pour les supercalculateurs et la MI355X avec refroidissement liquide pour les déploiements à très haute densité, AMD comble le segment des serveurs polyvalents avec la MI350P. La pression de NVIDIA reste intense, notamment avec la famille Blackwell, mais AMD cherche à convaincre les grands hyperscalers et les entreprises cloud de diversifier leurs approvisionnements. La prochaine étape sera la communication des tarifs, un signal décisif pour évaluer la compétitivité réelle de cette carte sur le marché de l'inférence IA.

UELes entreprises européennes exploitant des parcs de serveurs classiques pourraient déployer de l'inférence IA à moindre coût d'intégration grâce au format PCIe 5.0, sans investissement en infrastructure haute densité.

InfrastructureActu
1 source
Pourquoi Jamie Foxx, Eva Longoria et Matthew McConaughey investissent dans ELEVEN LABS
434FrenchWeb 

Pourquoi Jamie Foxx, Eva Longoria et Matthew McConaughey investissent dans ELEVEN LABS

Jamie Foxx, Eva Longoria, Matthew McConaughey et Hwang Dong-hyuk, le réalisateur de Squid Game, ont rejoint le tour de table d'ElevenLabs en participant à une extension de la série D de la startup spécialisée dans la synthèse vocale par intelligence artificielle. Ils s'associent à des investisseurs institutionnels de premier plan déjà présents au capital, dont BlackRock, NVIDIA et Wellington Management. Ce tour, dont le premier closing avait été annoncé en février dernier, confirme l'appétit des marchés financiers pour les technologies de voix génératives. Ce n'est pas un investissement symbolique. En misant sur ElevenLabs, ces figures du cinéma et de la télévision cherchent à peser dans une technologie qui pourrait fondamentalement restructurer leurs propres industries : doublage automatique, narration de contenus, droits à l'image vocale, personnalisation d'expériences audio à grande échelle. Pour les studios et producteurs, ElevenLabs représente à la fois une menace sur les métiers traditionnels de la voix et un outil capable de réduire drastiquement les coûts de localisation internationale. ElevenLabs s'est imposée en quelques années comme le leader mondial de la voix IA, avec des usages allant de l'audiobook à la localisation de films en passant par les assistants conversationnels. La présence de NVIDIA au capital souligne l'enjeu infrastructurel de cette course : générer des voix réalistes en temps réel exige une puissance de calcul considérable. En attirant des personnalités qui sont à la fois clientes potentielles, ambassadrices et actrices concernées par les implications réglementaires, ElevenLabs construit une coalition stratégique autant qu'un financement.

UEL'essor d'ElevenLabs menace directement l'industrie du doublage et des comédiens de voix en France et en Europe, où la localisation audiovisuelle représente un secteur économique significatif.

💬 Quand les acteurs qui risquent de se faire remplacer choisissent d'investir dans la tech qui va les remplacer, c'est soit très malin soit une forme de capitulation stylée. Foxx, Longoria, McConaughey, c'est pas du name-dropping pour le pitch deck, c'est une coalition qui leur achète un siège à la table quand les négociations sur les droits vocaux vont devenir sérieuses. Reste que les comédiens de doublage, eux, n'avaient pas l'option d'investir.

Le procès Musk contre Altman, et l'IA au service de la démocratie
435MIT Technology Review 

Le procès Musk contre Altman, et l'IA au service de la démocratie

Le procès opposant Elon Musk à Sam Altman, fondateur d'OpenAI, est entré dans sa deuxième semaine devant un tribunal californien. Musk, qui a cofondé OpenAI en 2015 avant de quitter son conseil d'administration en 2018, accuse Altman de l'avoir induit en erreur sur la transformation de l'organisation à but non lucratif en entreprise commerciale. La journaliste Michelle Kim du MIT Technology Review, elle-même avocate, a suivi les audiences quotidiennement et rapporte que la première semaine a livré des détails inédits sur le fonctionnement interne d'OpenAI ainsi que sur la relation entre les deux hommes. En parallèle, le Pentagone a annoncé des contrats de grande ampleur avec Microsoft, Nvidia, Amazon Web Services et la start-up Reflection AI pour des travaux d'intelligence artificielle sur données classifiées, dans le cadre d'une ambition affichée de faire des forces américaines une puissance "IA en premier". Sur un autre front, Musk a conclu un accord avec la SEC, acceptant de payer une amende de 1,5 million de dollars pour avoir tardé à déclarer ses achats initiaux d'actions Twitter en 2022. Ces développements simultanés illustrent la tension croissante autour du contrôle de l'IA à plusieurs échelles. Le procès Musk-Altman soulève une question fondamentale pour toute l'industrie : peut-on engager des capitaux dans une organisation à but non lucratif et la voir se muer en entreprise valorisée à plusieurs centaines de milliards sans recours juridique ? L'issue du procès pourrait redéfinir les règles de gouvernance applicables aux futures transformations de structures similaires. Les contrats du Pentagone, qui excluent Anthropic, repositionnent Microsoft, Nvidia et AWS comme piliers de l'IA militaire américaine, un signal structurant pour l'ensemble du secteur. Pendant ce temps, un tribunal chinois a établi un précédent notable : une entreprise ne peut pas licencier des salariés au seul motif de les remplacer par des outils d'IA, une décision qui résonne dans un secteur mondial où la pression à l'automatisation ne cesse de s'intensifier. Ce cycle d'actualité dense reflète l'accélération des enjeux de gouvernance de l'IA sur tous les fronts à la fois. La genèse du procès remonte à la décision d'OpenAI, en 2019, de créer une entité commerciale pour lever des capitaux, une évolution que Musk conteste aujourd'hui en justice. Parallèlement, la Maison Blanche travaillerait à la création d'un groupe de travail chargé d'évaluer les modèles d'IA avant leur diffusion publique, signe que Washington cherche à encadrer un secteur qui échappe encore à toute régulation fédérale cohérente. Des chercheurs s'interrogent également sur l'émergence des "scientifiques artificiels", des systèmes d'IA capables de conduire des projets de recherche de manière autonome : une perspective aux possibilités immenses, mais qui soulève des inquiétudes sur l'appauvrissement de la diversité scientifique si ces outils convergent tous vers les mêmes priorités de recherche.

UELe précédent chinois interdisant les licenciements motivés uniquement par le remplacement par l'IA alimente directement le débat européen sur la protection des travailleurs face à l'automatisation, un angle encore insuffisamment couvert par l'AI Act.

RégulationReglementation
1 source
Détection en temps réel des andains par capteurs embarqués sur tracteur pour un suivi automatisé
436arXiv cs.RO 

Détection en temps réel des andains par capteurs embarqués sur tracteur pour un suivi automatisé

Des chercheurs ont publié un système open source de détection en temps réel des andains de fourrage pour tracteurs autonomes, accompagné d'un jeu de données multimodal inédit. L'approche combine vision stéréoscopique et LiDAR montés sur tracteur, capturés lors d'opérations réelles de mise en balles. Les données synchronisées incluent des trajectoires GNSS et sont partiellement disponibles sous forme de bags ROS2 Humble sur la plateforme Zenodo, avec des données supplémentaires accessibles sur demande. L'algorithme de suivi par centroïde tourne à plus de 20 Hz sur un module embarqué NVIDIA Jetson AGX Orin, ce qui garantit une réactivité suffisante pour guider un engin agricole en conditions réelles. Sur la plage critique de guidage de 4 à 10 mètres, les mesures de profondeur par stéréovision et par LiDAR affichent une corrélation de 0,965 ± 0,021, un niveau de concordance remarquable. Ce résultat démontre que des capteurs stéréo peu coûteux peuvent rivaliser avec les performances du LiDAR pour cette tâche spécifique, ouvrant la voie à des systèmes d'automatisation agricole nettement moins onéreux. La pipeline complète, sans recours au GPS, est publiée en open source sous ROS 2 et constitue un référentiel reproductible pour la communauté de recherche en récolte autonome de fourrage. Le secteur de la récolte fourragère automatisée est aujourd'hui dominé par des solutions propriétaires dont les algorithmes de détection d'andains restent opaques, ce qui freine la recherche indépendante et l'innovation ouverte. Ce travail répond directement à ce verrou en fournissant à la fois les données brutes et le code nécessaires pour reproduire et améliorer les résultats. L'agriculture de précision est un marché en pleine expansion, porté par la pénurie de main-d'œuvre agricole et la pression sur la productivité ; disposer de briques technologiques ouvertes pour l'automatisation des tracteurs pourrait accélérer l'adoption dans les exploitations de taille intermédiaire qui ne peuvent pas se permettre des solutions constructeurs à prix élevé.

UECette contribution open source sur l'automatisation des tracteurs pourrait bénéficier aux exploitations agricoles françaises et européennes confrontées à la pénurie de main-d'œuvre, en offrant des briques technologiques reproductibles moins coûteuses que les solutions propriétaires des constructeurs.

RobotiquePaper
1 source
Horizon dévoile trois produits majeurs : une puce, un OS et un système de conduite intelligente
437Pandaily 

Horizon dévoile trois produits majeurs : une puce, un OS et un système de conduite intelligente

Le 22 avril, Horizon Robotics a dévoilé trois produits majeurs qui complètent sa stratégie full-stack pour l'intelligence embarquée dans les véhicules : la puce Horizon Starry, le système d'exploitation KaKaClaw, et la version 1.6 de son système de conduite assistée HSD. La puce Starry, gravée en 5 nm selon des standards automobiles, est le premier composant chinois à intégrer cockpit et conduite autonome sur une architecture mémoire unifiée. Dans sa version 6P, elle délivre 650 TOPS de puissance de calcul et 273 Go/s de bande passante mémoire, permettant de faire tourner simultanément des modèles d'IA pour l'habitacle et pour la conduite. Sur le plan commercial, plus de dix constructeurs ont déjà signé des partenariats de production en série, dont Volkswagen, BYD et Chery, ainsi que des équipementiers de rang 1 comme Bosch et Denso. KaKaClaw, présenté comme le premier système d'exploitation agentique pour véhicule en Chine, introduit un modèle d'interaction par commandes en langage naturel, permettant de piloter simultanément les fonctions de conduite et de cockpit via des agents physiques, numériques et des modèles IA cloud-edge. HSD V1.6, quant à lui, est décrit comme la première solution de conduite assistée end-to-end en production de masse en Chine, marquant le passage des systèmes à base de règles vers des architectures entièrement pilotées par l'IA. L'impact concret est immédiat et chiffré. L'architecture unifiée de la puce Starry réduit l'encombrement physique de 50 % et fait baisser le coût par véhicule de 1 500 à 4 000 yuans, soit environ 210 à 560 dollars. Les cycles de développement tombent de 18 à 8 mois, et le délai d'intégration des systèmes cockpit-conduite diminue de 56 %. Côté usage réel, 77 % des acheteurs de véhicules proposant HSD en option payante ont choisi de l'activer, et le taux de kilométrage parcouru en conduite assistée approche le seuil symbolique de 50 %, signe d'une confiance utilisateur en forte progression. HSD V1.6 mise délibérément sur la fiabilité quotidienne plutôt que sur des démonstrations spectaculaires, ciblant les trajets domicile-travail avec une conduite plus fluide et plus sûre. Horizon Robotics s'inscrit dans une course mondiale à l'intelligence véhiculaire où les géants technologiques cherchent à reproduire, dans l'automobile, la domination exercée par les puces et systèmes d'exploitation dans le smartphone. Le fondateur Yu Kai parle d'un "saut stratégique majeur" : l'entreprise ne se positionne plus comme fournisseur de composants, mais comme infrastructure complète de l'ère agentique. Cette vision place Horizon en concurrence directe avec des acteurs comme Qualcomm, Nvidia et Mobileye sur le marché des puces auto, tout en rivalisant avec les OS embarqués de Tesla ou Huawei. Avec la Chine comme marché de validation à grande échelle, Horizon cherche désormais à faire du véhicule la prochaine grande plateforme de calcul, après le mobile.

UEVolkswagen et Bosch, déjà partenaires d'Horizon Robotics en production en série, pourraient intégrer ces puces et systèmes chinois dans des véhicules commercialisés en Europe, soulevant des enjeux de dépendance technologique et de compétitivité pour les acteurs européens de l'automobile.

RobotiqueOpinion
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
438Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

Transcription audio multilingue économique à grande échelle avec Parakeet-TDT et AWS Batch
439AWS ML Blog 

Transcription audio multilingue économique à grande échelle avec Parakeet-TDT et AWS Batch

NVIDIA a publié en août 2025 Parakeet-TDT-0.6B-v3, un modèle de transcription automatique de la parole open source couvrant 25 langues européennes, dont le français, l'allemand, l'espagnol, le polonais ou l'ukrainien. Capable de détecter automatiquement la langue parlée, ce modèle affiche un taux d'erreur sur les mots de 6,34 % en conditions acoustiques propres et de 11,66 % à 0 dB de rapport signal/bruit, tout en prenant en charge des fichiers audio allant jusqu'à trois heures. Distribué sous licence CC-BY-4.0, il s'appuie sur une architecture Token-and-Duration Transducer (TDT) qui prédit simultanément les tokens de texte et leur durée, permettant de sauter silences et segments redondants pour atteindre des vitesses d'inférence très largement supérieures au temps réel. Dans la configuration présentée, le modèle tourne sur AWS Batch avec des instances GPU G6 équipées de NVIDIA L4, qui offrent le meilleur ratio coût/performance, bien qu'il soit également compatible avec des instances G5, G4dn ou P5 pour un débit maximal. Le pipeline est entièrement événementiel : un fichier audio déposé sur Amazon S3 déclenche une règle Amazon EventBridge, qui soumet automatiquement un job à AWS Batch, lequel provisionne les ressources, télécharge l'image de conteneur depuis Amazon ECR et restitue une transcription JSON horodatée dans un bucket de sortie. Le coût final descend à quelques fractions de centime par heure d'audio. L'enjeu principal est économique. Pour les organisations traitant des volumes massifs d'audio, qu'il s'agisse d'archives médias, d'enregistrements de centres d'appels, de données d'entraînement pour l'IA ou de sous-titrage vidéo à la demande, les services ASR gérés facturent généralement à la durée réelle du fichier, ce qui fait exploser les coûts dès que les volumes augmentent. En ne payant que de brèves fenêtres de calcul GPU plutôt que la totalité de la durée audio, combiné à l'utilisation d'instances EC2 Spot moins onéreuses et au streaming par tampons, ce pipeline peut réduire la facture de transcription de façon substantielle par rapport aux APIs cloud classiques comme celles d'AWS Transcribe ou de Google Speech-to-Text. La prise en charge native de 25 langues sans configuration par langue supprime également une complexité opérationnelle significative pour les entreprises internationales. Cette approche s'inscrit dans une tendance plus large consistant à substituer des modèles open source performants aux services gérés pour les charges de travail à fort volume. NVIDIA, qui diffuse Parakeet dans le cadre de son écosystème NeMo, cherche à s'imposer comme référence en ASR face à OpenAI avec Whisper, à AssemblyAI ou encore à Amazon Transcribe. Le fait qu'un modèle de 600 millions de paramètres atteigne ces niveaux de précision multilingue ouvre la voie à des pipelines entièrement maîtrisés, hébergés en interne ou dans un cloud privé, sans dépendance à un fournisseur. La prochaine étape logique pour les équipes qui adoptent cette architecture sera d'enchaîner directement en aval des modules de post-traitement automatisés, résumé, analyse de sentiment ou détection d'entités, pour extraire encore plus de valeur des transcriptions produites.

UELe modèle Parakeet couvre nativement 25 langues européennes dont le français, offrant aux organisations françaises et européennes un pipeline de transcription audio économique et souverain, sans dépendance à un service ASR propriétaire.

OutilsTuto
1 source
Google dévoile deux nouveaux TPU conçus pour l'ère des agents autonomes
440Ars Technica AI 

Google dévoile deux nouveaux TPU conçus pour l'ère des agents autonomes

Google a dévoilé sa huitième génération de puces TPU (Tensor Processing Units), marquant une évolution significative dans l'architecture de ses accélérateurs d'intelligence artificielle. Contrairement à une simple amélioration itérative, cette génération se décline en deux variantes distinctes : le TPU 8t, dédié à l'entraînement des modèles, et le TPU 8i, optimisé pour l'inférence. L'annonce fait suite au lancement de l'Ironwood, la septième génération, présenté en 2025. Selon Google, le TPU 8t permettrait de réduire la durée d'entraînement des modèles d'IA frontier de plusieurs mois à quelques semaines seulement. Cette bifurcation matérielle reflète une lecture stratégique de l'évolution de l'IA : les systèmes dits "agentiques", capables d'agir de façon autonome sur des tâches complexes, génèrent des charges de travail très différentes de celles des modèles conversationnels classiques. Séparer l'entraînement de l'inférence au niveau du silicium permet d'optimiser chaque phase indépendamment, avec des gains attendus en vitesse et en efficacité énergétique. Pour les entreprises clientes de Google Cloud, cela se traduit potentiellement par des coûts réduits et des cycles de développement accélérés. Google se distingue depuis longtemps du reste de l'industrie en misant sur ses propres puces plutôt que sur les accélérateurs Nvidia, qui dominent largement le marché de l'IA. Cette stratégie verticale lui confère un avantage en termes de contrôle de la chaîne d'approvisionnement et d'optimisation logicielle, mais implique des investissements considérables en R&D. La montée en puissance des agents IA, capables d'enchaîner des raisonnements et d'interagir avec des outils externes, intensifie la demande en inférence continue et à faible latence, un terrain sur lequel le TPU 8i est précisément conçu pour s'imposer. La prochaine étape sera de savoir si ces puces tiennent leurs promesses face aux solutions Nvidia dans des benchmarks réels.

UELes entreprises européennes utilisant Google Cloud pourraient bénéficier de coûts d'entraînement réduits et de cycles de développement accélérés grâce à ces nouvelles puces.

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
441arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

AutrePaper
1 source
Les 10 principales entreprises chinoises de conception de puces
442The Information AI 

Les 10 principales entreprises chinoises de conception de puces

Si Washington évoque systématiquement Huawei comme principale menace face à Nvidia dans le secteur des puces IA, la réalité du paysage technologique chinois est bien plus complexe. Le PDG de Nvidia, Jensen Huang, a lui-même cité à plusieurs reprises l'essor de Huawei lors de réunions privées avec des législateurs américains et dans des forums publics, faisant de l'entreprise le symbole raccourci des ambitions semiconducteurs de Pékin. Pourtant, la Chine compte aujourd'hui plus de dix entreprises qui conçoivent et commercialisent activement des puces d'intelligence artificielle. Ce chiffre illustre l'ampleur réelle d'un écosystème que les sanctions américaines n'ont pas réussi à étouffer. Ces acteurs vont d'institutions de recherche soutenues par l'État, fortes de décennies d'expertise, jusqu'à des startups fondées par des ingénieurs ayant travaillé chez Nvidia, AMD ou Intel avant de rentrer en Chine pour bâtir leurs propres alternatives. Pour l'industrie mondiale des semi-conducteurs, cette diversité signifie que bloquer un seul acteur, aussi puissant soit-il, ne suffit plus à contenir la montée en puissance technologique chinoise. Ce foisonnement s'inscrit dans une stratégie nationale de long terme visant l'autosuffisance en puces avancées, accélérée par les restrictions américaines à l'exportation imposées depuis 2022. Les États-Unis ont successivement placé sur liste noire Huawei, SMIC et d'autres entreprises, poussant Pékin à investir massivement dans une filière domestique. La question n'est plus de savoir si la Chine peut concevoir des puces IA compétitives, mais à quelle vitesse ce groupe d'une dizaine de champions nationaux parviendra à combler l'écart avec les leaders occidentaux.

UELe développement accéléré d'un écosystème chinois de puces IA autonome renforce les enjeux de souveraineté technologique européenne et pourrait redistribuer les équilibres mondiaux dans l'approvisionnement en semiconducteurs avancés.

💬 Huawei, c'est le nom qu'on cite parce que c'est simple, mais ça fait longtemps que c'est plus toute l'histoire. Plus de dix boîtes chinoises qui conçoivent des puces IA, dont plusieurs fondées par des ex-Nvidia ou ex-AMD rentrés au pays, c'est pas une anecdote. Les sanctions ont accéléré exactement ce qu'elles voulaient empêcher.

InfrastructureOpinion
1 source
Les bons résultats de TSMC confirment l'élan de l'IA
443The Information AI 

Les bons résultats de TSMC confirment l'élan de l'IA

TSMC, le géant taïwanais de la fabrication de puces électroniques, a publié jeudi ses résultats du premier trimestre 2026 avec une croissance de revenus de 40,6%, dépassant le haut de sa fourchette de prévisions. Le PDG C.C. Wei a relevé l'objectif de croissance annuel à plus de 30%, et déclaré que "la demande liée à l'IA continue d'être extrêmement robuste." Cette évaluation repose sur les retours directs des clients de TSMC, au premier rang desquels Nvidia, ainsi que des grandes firmes cloud qui achètent ces puces. Ces résultats constituent un signal fort pour l'ensemble du secteur technologique. Si TSMC, qui fabrique les puces pour pratiquement tous les grands acteurs de l'IA, affiche une telle croissance, cela laisse présager des résultats solides pour les grandes entreprises tech qui publieront leurs chiffres trimestriels plus tard en avril. Les marchés ont déjà anticipé cette dynamique : depuis fin mars, Microsoft a progressé de 18%, Nvidia de 20%, et le Nasdaq dans son ensemble de 16%. La vigueur de TSMC s'inscrit dans un contexte de multiplication des signaux haussiers autour de l'IA, malgré les incertitudes macroéconomiques mondiales. Le fabricant taïwanais occupe une position unique dans la chaîne de valeur : il est le maillon indispensable entre les concepteurs de puces comme Nvidia ou AMD et les déploiements massifs des hyperscalers comme Microsoft Azure, Google Cloud ou Amazon AWS. La robustesse de sa demande suggère que les investissements en infrastructure IA ne montrent aucun signe de ralentissement, alimentant l'optimisme avant une saison de résultats qui s'annonce décisive pour valider, ou nuancer, l'enthousiasme des marchés.

InfrastructureOpinion
1 source
OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine
444La Tribune 

OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine

OpenAI, Anthropic et Google ont annoncé une collaboration inédite pour contrer ce que les trois entreprises qualifient de "distillation" de leurs modèles d'intelligence artificielle par des entités liées à la Chine. Ce phénomène consiste à utiliser les sorties des grands modèles américains pour entraîner des systèmes concurrents à moindre coût, contournant ainsi les investissements colossaux, plusieurs dizaines de milliards de dollars, réalisés par ces laboratoires. Les rivaux habituels ont décidé de partager leurs données de sécurité pour identifier et bloquer ces pratiques plus efficacement. Cette alliance soulève des enjeux considérables pour la compétitivité technologique américaine. La distillation permet théoriquement à des acteurs étrangers d'obtenir des capacités comparables à celles des modèles de pointe sans en supporter les coûts de recherche et développement, rééquilibrant ainsi le rapport de force dans la course mondiale à l'IA. Pour les trois entreprises, la menace est à la fois commerciale et stratégique : perdre cet avantage compétitif reviendrait à fragiliser une position que Washington considère désormais comme un élément de sécurité nationale à part entière. La démarche s'inscrit dans un contexte de tensions croissantes entre les États-Unis et la Chine sur le terrain technologique, après les restrictions à l'export de puces Nvidia et les débats autour de DeepSeek, le modèle chinois dont l'efficacité avait provoqué une onde de choc sur les marchés début 2025. En mutualisant leur veille, OpenAI, Anthropic et Google cherchent à établir un front commun que chaque entreprise isolément n'aurait pas les moyens de tenir face à des techniques d'extraction en constante évolution.

UELes laboratoires européens d'IA restent exposés aux mêmes pratiques de distillation sans mécanisme de protection collectif équivalent à celui que se dotent désormais les géants américains.

SécuritéActu
1 source
Quatre conditions pour installer des centres de données dans l'espace
445MIT Technology Review 

Quatre conditions pour installer des centres de données dans l'espace

En janvier 2026, SpaceX a déposé une demande auprès de la Federal Communications Commission américaine pour lancer jusqu'à un million de centres de données en orbite terrestre. L'objectif affiché est de libérer le plein potentiel de l'intelligence artificielle sans aggraver la crise énergétique et hydrique sur Terre. SpaceX n'est pas seul sur ce créneau : Jeff Bezos a déclaré l'an dernier que l'industrie tech se dirigeait vers une informatique à grande échelle dans l'espace, Google prévoit de lancer une constellation test de 80 satellites de calcul dès l'année prochaine, et la startup Starcloud, basée dans l'État de Washington, a déjà mis en orbite en novembre 2024 un satellite équipé d'un GPU Nvidia H100, marquant le premier test orbital d'une puce IA avancée. Starcloud vise des centres de données orbitaux aussi grands que ceux au sol d'ici 2030. L'attrait de l'espace repose sur deux promesses concrètes : une énergie solaire continue en orbite héliosynchrone, sans jamais passer dans l'ombre de la Terre, et une dissipation thermique naturelle dans le vide, sans recourir aux millions de litres d'eau que consomment les data centers terrestres. Ces derniers pèsent déjà lourd sur les réseaux électriques locaux et génèrent des tensions dans les communautés voisines autour du prix des ressources. Avec la baisse continue des coûts de lancement et les méga-fusées comme Starship promises à réduire encore les tarifs, un point de basculement économique devient envisageable. Mais les obstacles techniques restent formidables : quatre défis majeurs se dressent avant toute mise en oeuvre réelle. Le premier est thermique. Contrairement à l'intuition, l'espace n'est pas froid pour un satellite en orbite constamment éclairée : sans convection possible dans le vide, la température des équipements ne descendrait jamais sous 80 °C, largement au-dessus des seuils acceptables pour l'électronique. Évacuer la chaleur par rayonnement seul exige de grandes surfaces radiatives, ce qui alourdit les satellites et complique leur mise en orbite. Yves Durand, ancien directeur technologique de Thales Alenia Space, juge néanmoins le problème surmontable : son étude de faisabilité de 2024 conclut qu'il est possible de construire des data centers de l'ordre du gigawatt en orbite, en s'appuyant sur des systèmes de fluide réfrigérant déjà développés pour les grands satellites de télécommunication. Les trois autres défis, tout aussi cruciaux, concernent la fiabilité des composants face aux radiations cosmiques, la latence des liaisons avec le sol, et le coût de maintenance d'infrastructures inaccessibles physiquement.

UEThales Alenia Space, entreprise franco-italienne, est citée comme acteur clé de la faisabilité technique des data centers orbitaux, positionnant l'Europe comme contributeur potentiel dans ce marché émergent.

InfrastructureOpinion
1 source
Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart
446The Decoder 

Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart

Des chercheurs de Nvidia, de l'UC Berkeley et de Stanford ont publié un nouveau cadre d'évaluation destiné à mesurer systématiquement la capacité des modèles d'IA à contrôler des robots via du code. Leurs résultats sont sans appel : sans abstractions conçues par des humains, c'est-à-dire sans briques logicielles préfabriquées qui simplifient les tâches complexes, même les meilleurs modèles disponibles échouent à piloter efficacement un robot. En revanche, des approches comme le "test-time compute scaling" ciblé, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement, permettent de combler significativement cet écart de performance. Ces conclusions ont des implications directes pour l'industrie de la robotique autonome. Elles remettent en question l'idée que les grands modèles de langage peuvent, seuls et sans infrastructure spécialisée, prendre en charge le contrôle bas niveau de machines physiques. Pour les entreprises qui misent sur des robots autonomes dans la logistique, la fabrication ou les services, cela signifie que la conception humaine reste indispensable, du moins à court terme, et que l'autonomie complète exige encore un travail d'ingénierie non négligeable. Ce travail s'inscrit dans une course plus large entre les laboratoires de recherche et les industriels pour rendre les robots véritablement programmables par l'IA. Nvidia, déjà très présent dans l'infrastructure d'entraînement des modèles, cherche à étendre son influence vers la couche applicative de la robotique. L'approche par échafaudage agentique, qui enchaîne des modules spécialisés plutôt que de tout déléguer à un seul modèle, semble aujourd'hui la piste la plus prometteuse pour franchir ce verrou technique.

UELes industriels européens de la robotique (logistique, fabrication, services) doivent intégrer que l'autonomie complète par IA nécessite encore une ingénierie humaine substantielle, ce qui prolonge les délais et coûts de déploiement dans leurs feuilles de route.

💬 Sans abstractions humaines, même les meilleurs modèles ratent le contrôle robotique, et ça, c'est pas vraiment une surprise. La vraie info, c'est que l'échafaudage agentique (enchaîner des modules spécialisés plutôt que tout déléguer à un seul modèle) tient mieux ses promesses que le scaling brut à l'entraînement. Reste à voir si ça tient en prod ou si ça reste un beau résultat de labo Stanford.

RobotiqueOpinion
1 source
Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis
447Le Monde Pixels 

Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis

Manus, l'agent IA développé par la startup chinoise Butterfly Effect (filiale de Monica), a fait irruption sur la scène mondiale début mars 2025, déclenchant une vague d'enthousiasme sans précédent. En quelques jours, la liste d'attente pour accéder à la version bêta a dépassé un million de personnes, tandis que les démonstrations virales montraient l'agent accomplir de manière autonome des tâches complexes : recherche approfondie, rédaction de rapports, gestion de fichiers, navigation web. Contrairement aux chatbots classiques, Manus agit sans supervision humaine continue. L'émergence de Manus s'inscrit dans un contexte de compétition technologique féroce entre Pékin et Washington. Après le choc DeepSeek en janvier 2025, qui avait démontré qu'une IA chinoise pouvait rivaliser avec les meilleurs modèles américains à moindre coût, Manus confirme que la Chine n'entend pas rester en marge de la révolution des agents IA — un segment jugé stratégique par les deux puissances. Cette montée en puissance intervient alors que les États-Unis ont renforcé leurs restrictions sur l'exportation de puces vers la Chine. Nvidia, dont les GPU H100 sont au cœur du développement IA, se retrouve au centre de ces tensions. La capacité des équipes chinoises à produire des résultats compétitifs malgré ces contraintes matérielles soulève des questions sur l'efficacité réelle des sanctions américaines, et laisse présager une intensification de la rivalité technologique entre les deux blocs.

UELa rivalité sino-américaine sur les puces IA et l'émergence d'agents autonomes chinois compétitifs renforcent la pression sur l'Europe pour accélérer sa propre souveraineté technologique en matière d'IA.

OutilsOpinion
1 source
Les datacenters passent du courant alternatif au continu : la revanche d'Edison
448IEEE Spectrum AI 

Les datacenters passent du courant alternatif au continu : la revanche d'Edison

Les data centers d'IA migrent progressivement de l'alimentation AC vers le DC, éliminant les multiples conversions de courant qui génèrent des pertes d'énergie et nécessitent des quantités massives de cuivre — jusqu'à 200 000 kg pour un data center d'1 GW. En passant directement de 13,8 kV AC à 800 V DC en périphérie du bâtiment, les opérateurs transmettent 85 % plus de puissance avec les mêmes conducteurs, tout en réduisant la chaleur dissipée et l'encombrement des équipements. Des acteurs majeurs comme Vertiv, Delta et Eaton ont présenté à la conférence GTC de Nvidia de nouvelles architectures adaptées aux racks d'IA qui consomment désormais jusqu'à 1 MW, contre 10 kW pour un rack traditionnel.

UELes opérateurs européens de datacenters devront adapter leurs infrastructures d'alimentation pour supporter des racks IA haute densité, impliquant des investissements conséquents en équipements DC.

OutilsOpinion
1 source
NemoClaw, analyse et prise en main de la « prison » pour sécuriser les agents IA
449Next INpact 

NemoClaw, analyse et prise en main de la « prison » pour sécuriser les agents IA

NVIDIA a annoncé NemoClaw lors de la GTC, un projet open source en version alpha conçu pour sécuriser les agents IA, notamment OpenClaw. NemoClaw propose un environnement avec des garde-fous de confidentialité et de sécurité, donnant aux utilisateurs le contrôle sur le comportement de leurs agents et la gestion de leurs données. OpenClaw, anciennement Clawdbot/Moltbot, est un agent IA open source développé par Peter Steinberger (désormais chez OpenAI) permettant d'accéder à des données personnelles pour agir comme assistant virtuel.

OutilsOpinion
1 source
Les joueurs expriment leur écœurement face aux retouches IA générative de DLSS 5
450Ars Technica AI 

Les joueurs expriment leur écœurement face aux retouches IA générative de DLSS 5

Nvidia a dévoilé DLSS 5, prévu pour l'automne, qui va bien au-delà du simple upscaling en intégrant une "IA générative" pour remodeler l'éclairage et les textures en temps réel — ce que le PDG Jensen Huang décrit comme "un bond dramatique vers le réalisme visuel". La technologie, baptisée "modèle de rendu neural en temps réel", exploite les vecteurs de couleur et de mouvement internes du jeu pour générer un rendu photoréaliste ancré à la scène 3D source. La réaction des joueurs et de l'industrie a été massivement négative, critiquant un rendu lisse et artificiel qui trahit l'esthétique voulue par les artistes.

UELes studios de jeux vidéo européens et leurs artistes devront réévaluer leurs pipelines créatifs si DLSS 5 s'impose comme standard, risquant de voir leurs intentions artistiques supplantées par un rendu généré automatiquement.

OutilsActu
1 source