Aller au contenu principal

Dossier NVIDIA — page 8

848 articles · page 8 sur 17

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

InSight : acquisition autonome de compétences via des VLA pilotables
351arXiv cs.RO RobotiqueOpinion

InSight : acquisition autonome de compétences via des VLA pilotables

Une équipe de chercheurs présente InSight (arXiv:2606.24884, juin 2026), un cadre d'acquisition autonome de compétences pour les modèles vision-language-action (VLA). L'architecture comporte deux étapes : d'abord un pipeline de segmentation automatique qui décompose des démonstrations existantes en primitives étiquetées ("déplacer la pince vers le bol", "soulever vers le haut", "verser la bouteille") via un VLM de décomposition de plans couplé aux poses de l'effecteur terminal ; ensuite un flywheel de données guidé par VLM qui identifie les primitives manquantes pour accomplir une nouvelle tâche, tente des démonstrations autonomes via un contrôle bas niveau proposé par le VLM, et intègre automatiquement les succès dans l'ensemble d'entraînement. Le système a été validé sur cinq tâches de manipulation : retournement de blocs, fermeture de tiroir, balayage, vissage et versement, en simulation et en conditions réelles, sans aucune démonstration humaine des compétences cibles. L'enjeu central : les VLA actuels sont structurellement limités par leur corpus d'entraînement initial, et toute extension vers de nouvelles tâches impose aujourd'hui un coût élevé en téléopération humaine. InSight propose une boucle d'auto-amélioration fermée où les primitives apprises peuvent être composées pour exécuter des tâches à horizon long sans intervention humaine supplémentaire. Pour un intégrateur ou un COO industriel, cela représente une réduction potentielle du coût d'onboarding robotique. Les démonstrations publiées restent cependant relativement simples, et les auteurs ne fournissent pas de métriques de cycle time ni de taux de succès pour des scénarios de production complexes, ce qui invite à la prudence avant toute extrapolation opérationnelle. Les modèles VLA sont un terrain de compétition intense entre Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et Figure AI (Helix pour la manipulation humanoïde). Tous partagent le même verrou : un plafond de capacités figé à l'entraînement. InSight s'inscrit dans une tendance émergente de systèmes capables de s'auto-étendre, proche des travaux sur les agents génératifs de données. Cette publication demeure un preprint académique sans déploiement annoncé ; les auteurs prévoient de rendre le code public via insight-vla.github.io. Les prochaines étapes concernent la robustesse du flywheel sur des primitives moins déterministes et la validation en environnement industriel réel sur des bras à plus de six degrés de liberté.

1 source
Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots
352arXiv cs.RO 

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

Une équipe de recherche a publié le 24 juin 2026 sur arXiv un article présentant GRA (Geometry-guided Representation Alignment), une méthode d'adaptation des modèles Vision-Language-Action (VLA) qui exploite des vidéos synthétiques de robots. Le problème de départ est concret : entraîner un VLA nécessite des millions de paires vidéo-action issues de téléopération réelle, une donnée rare et coûteuse à collecter. Les approches existantes contournent cette contrainte en générant des vidéos synthétiques à partir de démonstrations humaines, puis en tentant de récupérer des pseudo-actions à partir des pixels générés. GRA rompt avec cette logique : au lieu d'extraire des commandes moteur depuis des images synthétiques, la méthode identifie ce qui survit vraiment à la génération vidéo, à savoir la géométrie spatiale de la trajectoire de l'effecteur. Ces waypoints 2D sont calculés à partir de la vidéo humaine source via estimation de pose, retargeting, simulation et projection calibrée, puis injectés uniquement dans le backbone de perception visuelle du VLA via une tête auxiliaire 2D. La tête d'action, elle, reste entraînée exclusivement sur des démonstrations réelles. Sur des tâches de manipulation en environnement réel, GRA surpasse les baselines à pseudo-actions à budget de données équivalent et réduit significativement l'écart avec des politiques entraînées sur nettement plus de données réelles. Ce résultat a une portée conceptuelle directe pour quiconque développe des politiques de manipulation à grande échelle. Il formalise ce que les praticiens suspectaient : extraire des commandes moteur depuis des pixels synthétiques est une abstraction mal posée. La vidéo encode le "où" (trajectoire géométrique), pas le "comment" (signal de contrôle). En exploitant uniquement ce qui est préservé par la génération, GRA résout proprement un des obstacles centraux du sim-to-real : l'accumulation d'erreurs introduite par les pseudo-actions. Cela valide aussi l'hypothèse que les VLA peuvent tirer parti de données synthétiques sans polluer leur espace d'action, un point crucial pour les équipes cherchant à réduire le coût de la collecte de données de téléopération. Le contexte est celui d'une course intense à la scalabilité des données pour les modèles VLA : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix), et d'autres investissent massivement dans la génération de données synthétiques comme levier de passage à l'échelle. La plupart de ces pipelines souffrent précisément du problème que GRA adresse. L'approche reste à ce stade un preprint académique sans déploiement industriel annoncé, et les expériences présentées portent sur des tâches de manipulation tabletop contrôlées, ce qui laisse ouverte la question de sa robustesse sur des environnements moins structurés. Les suites naturelles incluent l'intégration de ce principe dans des pipelines de données à grande échelle et son extension à des trajectoires 3D ou à des architectures diffusion-based comme Pi-0.

RechercheOpinion
1 source
MoonMath AI publie en open source un kernel d'attention HIP pour AMD MI300X surpassant AITER v3 sur toutes les configurations
353MarkTechPost 

MoonMath AI publie en open source un kernel d'attention HIP pour AMD MI300X surpassant AITER v3 sur toutes les configurations

MoonMath AI, une équipe de recherche spécialisée en optimisation GPU, a publié en open source un noyau de calcul d'attention en bf16 pour le GPU AMD MI300X, sous licence MIT. Écrit en HIP (le langage de programmation GPU d'AMD), ce noyau implémente l'opération d'attention centrale des transformers, le calcul softmax(QKᵀ/√d)·V, et surpasse sur tous les cas testés AITER v3, le propre noyau optimisé d'AMD. Les gains géométriques mesurés atteignent 1,18×, 1,15× et 1,08× selon les modes d'arrondi, avec un pic à 1,26× sur certaines configurations. Les tests ont été conduits sur du matériel bare-metal fourni par HotAisle, un fournisseur cloud AMD. Le noyau cible exclusivement l'architecture CDNA3 du MI300X (ISA gfx942), avec une dimension de tête fixée à 128 et une prise en charge de longueurs de séquence arbitraires, y compris l'attention croisée. Une pull request concrète dans SGLang a utilisé ce noyau pour accélérer la génération vidéo par le modèle Wan2.1 de 1,23× sans aucune régression de qualité. Ce résultat est significatif pour l'écosystème AMD, longtemps considéré comme en retard sur NVIDIA en matière de performance logicielle pour l'inférence de modèles de langage. Battre AMD sur son propre terrain, avec un noyau non assembleur, donc lisible et maintenable, démontre qu'il est possible d'extraire des performances compétitives du MI300X sans recourir à du code machine manuscrit opaque. Pour les équipes qui déploient des LLMs ou des modèles de diffusion vidéo sur infrastructure AMD, ce noyau représente un gain immédiat et vérifiable. La précision numérique est soigneusement préservée : chaque sortie finie reste dans une unité bf16 ULP d'AITER, les comportements NaN et Inf sont bit-identiques, et les résultats sont déterministes. Sur le plan technique, la performance provient de deux innovations principales. D'abord, une astuce d'assemblage inline qui enveloppe exactement une instruction dans une fonction forceinline, laissant le compilateur gérer l'allocation des registres tout en gardant le contrôle de l'opcode, évitant ainsi les copies de registres inutiles qui pénalisent les approches naïves. Ensuite, un placement mémoire rigoureux : K est chargé depuis la HBM vers la mémoire partagée locale (LDS) en double-buffering, V reste chaud dans le cache L1, et Q avec les accumulateurs résident dans les registres. La stratégie d'ordonnancement des vagues, huit vagues par bloc, en deux groupes de quatre décalés en phase, permet au cœur matriciel de ne jamais rester inactif, en alternant calcul et softmax à la manière de FlashAttention-3, mais adaptée aux spécificités de CDNA3 où toute opération mémoire est déjà asynchrone. Ce travail s'inscrit dans une tendance plus large de la communauté open source qui, faute de support logiciel mature d'AMD, prend elle-même en charge l'optimisation bas niveau de ces GPUs.

💬 Quand une équipe externe bat AMD sur ses propres GPUs, sans même toucher à l'assembleur, c'est que le support logiciel officiel avait un vrai problème. Ce kernel HIP lisible et maintenable qui surpasse AITER v3 sur toutes les configs, c'est exactement le signal qu'on attendait pour prendre AMD au sérieux en prod, pas juste sur les benchmarks marketing. Et le fait que ça tourne déjà dans SGLang sur de la génération vidéo, c'est pas un proof-of-concept de labo.

InfrastructureActu
1 source
L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense
354arXiv cs.RO 

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Des chercheurs ont publié le 19 juin 2026 (arXiv:2606.20246) une méthode de compression structurelle pour les modèles VLA (Vision-Language-Action) tels que pi-0 (Physical Intelligence) et GR00T N1.5 (NVIDIA). Le constat de départ : ces architectures de plusieurs milliards de paramètres, pré-entraînées sur de vastes corpus vidéo-robot, imposent des coûts de calcul prohibitifs lors du fine-tuning et de l'inférence temps-réel. La méthode proposée est entièrement sans entraînement (training-free) : un unique passage forward via la Centered Kernel Alignment (CKA) suffit à identifier les couches redondantes du backbone VLM et de la tête de contrôle continu. En supprimant ces "couches jumelles", le pipeline compresse la profondeur du modèle jusqu'à 50 %. Les gains mesurés sont de 40 à 50 % sur le temps de fine-tuning et jusqu'à 30 % sur la vitesse d'inférence, tout en conservant des performances équivalentes ou supérieures au modèle complet. Les validations couvrent trois benchmarks de simulation (LIBERO, RoboCasa, SimplerEnv) et dix tâches de manipulation réelle sur quatre embodiments robotiques distincts. Ce résultat remet en question un présupposé structurant du domaine : la profondeur des VLA serait proportionnelle à leurs capacités. Démontrer qu'une redondance massive existe dans ces architectures malgré un entraînement sur des trajectoires physiques diversifiées est non trivial. Pour les intégrateurs et les équipes MLOps industrielles, l'impact pratique est direct : des cycles de fine-tuning deux fois plus courts réduisent le coût d'adaptation à de nouveaux environnements, nouveaux grippers ou nouvelles tâches, sans matériel supplémentaire. L'absence d'entraînement dans la phase de compression est particulièrement critique : les méthodes concurrentes (distillation, token pruning dynamique) exigent de charger le modèle complet, ce qui reste un goulot d'étranglement sur GPU A100/H100. Les VLA comme pi-0 (Physical Intelligence, fondée en 2023 par d'anciens de Google, DeepMind et Stanford) et GR00T N1.5 (NVIDIA, annoncé en mars 2025) représentent actuellement la frontière technique des politiques de manipulation généraliste. La compression de modèles pour robots est un axe de recherche actif : des travaux récents explorent la distillation (OpenVLA-OFT), la quantification et le pruning à la volée. Cette approche se distingue par sa simplicité opérationnelle : aucun dataset de calibration étendu, aucune phase d'optimisation. Les auteurs ne mentionnent pas de partenaire industriel ni de pipeline de déploiement à l'échelle, ce qui en fait pour l'instant une contribution de recherche prometteuse plutôt qu'un produit prêt à l'intégration.

💬 La moitié des couches de pi-0 ou GR00T seraient redondantes, et une seule passe forward suffit à les identifier : c'est le genre de résultat qui va faire mal aux équipes qui ont commandé des clusters H100 pour du fine-tuning robotique. Sans phase d'entraînement, sans dataset de calibration, juste une analyse de similarité entre couches (la CKA, si tu veux creuser). Reste à voir si ça tient hors benchmarks de simulation, mais l'idée que la profondeur des VLA soit largement du gras plutôt que du muscle, c'est une vraie remise en question du consensus actuel.

RechercheActu
1 source
ATHENA : fonctions d'influence hétérogènes multi-tâches accélérées pour la curation de données robotiques
355arXiv cs.RO 

ATHENA : fonctions d'influence hétérogènes multi-tâches accélérées pour la curation de données robotiques

Des chercheurs ont publié ATHENA (Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation), un framework de sélection de données de démonstration conçu pour le fine-tuning de modèles Vision-Language-Action (VLA) à l'échelle du milliard de paramètres. La méthode repose sur les fonctions d'influence, un outil statistique qui quantifie l'effet de chaque démonstration robotique sur la performance finale d'une tâche. Pour contourner le coût de calcul prohibitif de ces fonctions à grande échelle, ATHENA exploite la structure de Kronecker des gradients de couches linéaires et approxime l'inversion de la matrice hessienne dense via une approximation tronquée de rang r (Random Truncated Approximation), atteignant un gain de vitesse de 313,4x sur le calcul d'influence. Le framework a été évalué sur le benchmark de simulation RoboTwin 2.0 (9,34 heures de démonstrations) et sur des déploiements réels (6,90 heures, six tâches). En ne conservant que 50 % des données en simulation et 66,7 % en conditions réelles, ATHENA égale ou surpasse un fine-tuning entraîné sur l'intégralité du jeu de données. L'enjeu est directement opérationnel pour quiconque déploie des VLA multi-tâches en robotique industrielle ou de service. Le fine-tuning de modèles à un milliard de paramètres sur 50 tâches simultanées génère des coûts de collecte de données considérables ; réduire d'un tiers à moitié le volume nécessaire sans perte de performance change l'équation économique des pipelines d'imitation learning. ATHENA introduit également une notion d'influence globale et locale pour équilibrer la curation entre tâches hétérogènes, un problème rarement traité dans la littérature existante. Le fait que les gains tiennent sur du matériel réel, et pas uniquement en simulation, réduit le scepticisme habituel sur le sim-to-real gap dans ce type de contribution. Les fonctions d'influence sont un outil classique du machine learning (initialement popularisé pour le diagnostic de données d'entraînement dans les réseaux profonds), mais leur application à la robotique multi-tâches était jusqu'ici bloquée par la complexité computationnelle des modèles VLA modernes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA). ATHENA s'inscrit dans un effort plus large de la communauté pour rendre le fine-tuning de ces fondations robotiques accessible sans infrastructure de données massive. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans cette publication arXiv préliminaire (arXiv:2606.16208) ; il s'agit d'une contribution académique, non d'un produit disponible. Les prochaines étapes probables incluent une validation sur des benchmarks plus larges et une intégration dans des pipelines de fine-tuning ouverts comme LeRobot (Hugging Face).

UEPotentiellement intégrable dans LeRobot (Hugging Face, Paris), ce framework réduit le coût de collecte de données pour le fine-tuning VLA, un avantage concret pour les équipes européennes de robotique d'imitation learning avec des budgets de données limités.

💬 Couper son jeu de données de moitié sans perdre de perf sur des tâches robotiques réelles, c'est le genre de résultat qui change le calcul pour les équipes sans budget de collecte massif. Les fonctions d'influence, ça traîne dans les papiers ML depuis un moment, mais les appliquer à des VLA à un milliard de paramètres était computationnellement hors de portée avant ça. Là ils ont trouvé une approx sérieuse, et en prime le gap sim-to-real ne s'est pas effondré, ce qui est souvent là où ce type de contribution perd ses promesses.

RechercheActu
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
356arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

RechercheOpinion
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
357arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

RobotiqueOpinion
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
358arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

RobotiquePaper
1 source
Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026
359VentureBeat AI 

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines. L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici. Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

UELes entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

OutilsOpinion
1 source
PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions
360arXiv cs.RO 

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Des chercheurs présentent PACE (Phase-Aware Chunk Execution), une méthode d'exécution sans réentraînement publiée sur arXiv (2606.00537) qui s'applique aux politiques robotiques exploitant l'action chunking. Le principe de l'action chunking, popularisé par des architectures comme ACT et les politiques de diffusion, consiste à faire prédire au modèle une séquence d'actions futures en bloc, dont seul un préfixe est exécuté en boucle ouverte avant de re-interroger le modèle. Le paramètre clé, l'horizon d'exécution (combien d'étapes du bloc sont jouées avant la prochaine observation), est jusqu'ici fixé statiquement. PACE le détermine dynamiquement en analysant le profil de vitesse prédit : les points de transition basse vitesse dans la trajectoire correspondent aux frontières naturelles entre phases de manipulation, et PACE les utilise comme candidats au replanning. La méthode a été validée sur 50 tâches RoboTwin 2.0 (passage de 57,8 % à 64,2 % de taux de succès), et sur robots réels avec une plateforme bimanuelle ALOHA et un bras Franka single-arm (score moyen 60,7 à 77,7, taux de succès 50,7 % à 70,4 %). Un gain de près de 20 points de pourcentage en conditions réelles sans modifier ni réentraîner le modèle sous-jacent est un résultat notable pour le secteur. Il confirme que le goulot d'étranglement ne réside pas toujours dans la qualité intrinsèque de la politique VLA ou diffusion, mais dans la stratégie de déploiement elle-même. PACE s'insère en plug-and-play au-dessus de n'importe quelle politique existante, sans accès aux poids ni aux couches internes, ce qui en fait un outil immédiatement utilisable par les intégrateurs et les équipes de mise en production, sans investissement en données ou calcul supplémentaire. L'action chunking s'est imposé comme standard d'exécution depuis les travaux sur ACT (Stanford, 2023) et les politiques de diffusion (Chi et al.), repris dans des systèmes comme pi-0 de Physical Intelligence ou les architectures OpenVLA. La rigidité de l'horizon fixe est un problème connu, et plusieurs approches ont tenté de l'adresser via du replanning conditionnel ou de la détection d'anomalies. PACE choisit une voie plus simple : exploiter uniquement le bloc d'actions déjà prédit, sans capteur ni signal externe. La prochaine étape logique sera de tester cette approche sur des politiques à plus haute fréquence comme GR00T N2 de NVIDIA ou les architectures hybrides VLA-diffusion qui émergent chez des acteurs comme Enchanted Tools en Europe, où la latence de replanning reste un verrou industriel.

UEEnchanted Tools et les équipes robotiques européennes déployant des politiques VLA ou de diffusion pourraient bénéficier directement de PACE pour améliorer leurs taux de succès en production sans coût de réentraînement ni d'accès aux poids du modèle.

💬 +20 points de taux de succès sur robot réel sans toucher au modèle, c'est le genre de résultat qui fait réfléchir sur où on met vraiment l'effort en robotique. L'idée est belle : plutôt que d'entraîner encore, on optimise le quand on replanifie, en lisant les creux de vitesse dans la trajectoire déjà prédite. Plug-and-play, sans accès aux poids, ça va intéresser sérieusement les équipes qui font de l'intégration prod, Enchanted Tools en tête.

RobotiqueOpinion
1 source
Uber : des robotaxis en Europe dès 2026
361Frandroid 

Uber : des robotaxis en Europe dès 2026

Uber a officialisé lors de la conférence Nvidia GTC Taipei un partenariat tripartite avec la startup israélienne Autobrains et le géant américain des puces Nvidia. L'objectif annoncé est concret : déployer des robotaxis commerciaux à Munich d'ici la fin de l'année 2026. La particularité technique de ce système réside dans l'absence totale de lidar, capteur laser coûteux habituellement jugé indispensable dans la conduite autonome, au profit d'une approche reposant exclusivement sur la vision par caméras et les algorithmes d'Autobrains. Ce déploiement européen marquerait une étape significative pour Uber, qui a vendu son propre programme de véhicules autonomes (Advanced Technologies Group) à Aurora en 2020 pour se repositionner comme plateforme de distribution. Nouer des alliances avec des développeurs tiers lui permet de rester dans la course sans porter les risques R&D. Pour Munich et plus largement l'Europe, l'enjeu est aussi réglementaire : une homologation réussie en Allemagne, pays aux standards de sécurité exigeants, ouvrirait la voie à d'autres marchés du continent. Autobrains, fondée en 2018 et soutenue par des investisseurs comme BMW et Continental, mise sur une approche dite "bio-inspirée" qui imite l'apprentissage humain sans dépendre de cartographies précises. Le choix de Taipei comme cadre d'annonce souligne l'importance stratégique de Nvidia comme fournisseur d'infrastructure compute pour l'ensemble de l'écosystème autonome. Uber affronte sur ce terrain Waymo, Cruise et les acteurs chinois comme WeRide ou Pony.ai, déjà présents ou en cours de déploiement en Europe.

UELe déploiement prévu à Munich fin 2026 constitue un test réglementaire direct pour l'Europe : une homologation réussie en Allemagne, pays aux normes de sécurité parmi les plus strictes du continent, ouvrirait la voie à l'expansion des robotaxis commerciaux sur d'autres marchés européens.

RobotiqueOpinion
1 source
DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne
362Le Big Data 

DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne

Le modèle DeepSeek V4, développé par la startup chinoise DeepSeek, s'est imposé comme un signal fort de la maturité technologique de la Chine en matière d'intelligence artificielle. Dans une analyse publiée début 2026, Francis Lelong, expert en souveraineté technologique, décortique les mécanismes qui ont permis à Pékin de contourner les sanctions américaines sur les semi-conducteurs. Loin de freiner Pékin, ces restrictions ont fonctionné comme un accélérateur : privée d'accès direct aux puces Nvidia haut de gamme, la Chine a investi massivement dans sa propre chaîne de valeur, des terres rares aux modèles de langage, en passant par la conception de ses propres composants. Le résultat est un écosystème d'IA de plus en plus autonome, capable de proposer des LLM ouverts et paramétrables compétitifs face aux offres américaines, à l'image de ce que Mistral AI incarne en Europe. L'enjeu dépasse largement la performance technique des chatbots. Lelong rappelle qu'un modèle d'IA n'est jamais culturellement neutre : il encode les valeurs, les biais et les priorités politiques de ses concepteurs. La montée en puissance de l'IA chinoise représente donc un levier de soft power considérable, capable d'exporter une vision du monde à travers chaque interaction. Sur le plan économique, l'ouverture de data centers est comparée par Lelong à un déploiement instantané de "millions de cerveaux synthétiques" : dans un contexte de vieillissement démographique mondial, le travail synthétique déplace la valeur du capital humain et devient un moteur de croissance incontournable pour éviter la stagnation. La compétition sino-américaine profite paradoxalement aux entreprises mondiales, qui bénéficient d'une offre élargie et de coûts réduits. Cette course technologique s'inscrit dans une rivalité géopolitique structurelle, comparable à la course spatiale des années 1960, mais avec une dimension culturelle et économique bien plus diffuse. Les sanctions américaines, selon Lelong, ne feront que retarder l'inévitable : la Chine avait déjà tracé sa trajectoire d'indépendance technologique, couvrant le spatial, le quantique, l'énergie et le nucléaire. L'affaire Manus, où Pékin a repris le contrôle d'une startup acquise par Meta, est interprétée non comme un acte de souveraineté assumée, mais comme un signal inquiétant envoyé aux jeunes talents et aux investisseurs. C'est dans ce contexte que l'Europe est interpellée dans son absence stratégique : ni le modèle fermé et capitalistique américain, ni le modèle ouvert mais politiquement contrôlé chinois ne correspond aux valeurs européennes. Définir une troisième voie, à l'image du succès relatif de Mistral, reste l'urgence que Lelong juge encore sans réponse collective à l'échelle du continent.

UELa montée en puissance de DeepSeek et de l'IA chinoise renforce l'urgence pour l'Europe de définir une troisième voie souveraine, Mistral restant pour l'instant la seule réponse partielle à l'échelle du continent.

💬 Les sanctions américaines censées bloquer Pékin leur ont offert le meilleur des accélérateurs : construire leur propre chaîne, du silicium au modèle. Pendant ce temps, l'Europe a Mistral et beaucoup de colloques sur la souveraineté numérique. C'est pas faute d'avoir été prévenus.

LLMsReglementation
1 source
PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle
363arXiv cs.RO 

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

PhAIL (Physical AI Leaderboard, phail.ai) est un benchmark open-source présenté sur arXiv (arXiv:2605.29710) qui évalue des politiques VLA (vision-language-action) sur un bras Franka FR3 en conditions réelles. Le protocole remplace le traditionnel taux de succès binaire à timeout fixe par une méthodologie distributionnelle centrée sur la fonction de distribution cumulative du temps-avant-succès (CDF). Deux outils distincts structurent l'évaluation : un score nommé Human-Relative Throughput (HRT), grandeur sans dimension avec intervalles de confiance bootstrap, ancré à la téléopération humaine sur le même équipement ; et un test de significativité Kolmogorov-Smirnov calculé par objet puis macro-moyenné. Le benchmark a été appliqué à quatre VLAs publiques, dont GR00T (NVIDIA), ACT et OpenPI, avec jusqu'à 30 rollouts par cellule (modèle x objet). Résultat central : le meilleur VLA évalué reste environ sept fois plus lent par opération que la référence humaine, mesuré via le ratio RMST. L'enjeu est méthodologique autant que technique. L'état de l'art en évaluation VLA repose presque universellement sur un taux de succès à timeout fixe avec N inférieur ou égal à 25 rollouts et sans intervalles de confiance, ce qui rend les comparaisons proches statistiquement non résolvables. PhAIL démontre que le test KS macro-moyenné tranche deux paires proches (GR00T vs. ACT, OpenPI vs. ACT) là où les métriques binaires échouent, toujours à N inférieur ou égal à 30 rollouts. La paire la plus serrée, OpenPI vs. GR00T, reste irrésolue dans le budget expérimental alloué. Le facteur sept entre humain et meilleur VLA constitue un point d'ancrage concret pour les intégrateurs et décideurs industriels qui doivent arbitrer entre performance annoncée et réalité opérationnelle. La publication s'inscrit dans un effort de standardisation comparable à ce qu'ImageNet ou GLUE ont accompli pour la vision par ordinateur et le traitement du langage naturel. Le champ VLA manquait d'un protocole reproductible et statistiquement rigoureux, rendant les comparaisons entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenPI ou les architectures propriétaires de Figure et Boston Dynamics difficiles à interpréter. Le Franka FR3, très répandu en recherche académique, sert de plateforme de référence, et le benchmark est entièrement ouvert : dataset, artefacts par rollout et implémentation de bout en bout disponibles sur phail.ai. Les prochaines étapes naturelles incluent l'extension à d'autres plateformes matérielles, à des tâches bimanuelles ou de manipulation complexe, et l'intégration de VLAs propriétaires dans le protocole.

UELe benchmark PhAIL repose sur le bras Franka FR3 très répandu dans les laboratoires académiques européens, offrant aux chercheurs et intégrateurs UE un protocole rigoureux et reproductible pour évaluer les VLAs en conditions réelles et quantifier objectivement l'écart entre performance annoncée et réalité opérationnelle.

💬 Ce que je retiens, c'est le facteur 7. Le meilleur VLA testé reste sept fois plus lent qu'un humain sur la même tâche, et c'est la première fois qu'on a une mesure comme ça, proprement ancrée sur de la téléopération humaine réelle avec du KS test et des intervalles de confiance. Le benchmark binaire à timeout qu'on utilisait jusque-là, c'était du bricolage habillé en science.

RobotiqueOpinion
1 source
Apple tente d'intégrer le grand modèle Gemini dans l'iPhone pour améliorer Siri
364Ars Technica AI 

Apple tente d'intégrer le grand modèle Gemini dans l'iPhone pour améliorer Siri

Apple travaille à intégrer le modèle d'intelligence artificielle Gemini de Google directement dans l'iPhone pour transformer Siri en profondeur, selon un rapport de The Information publié à l'approche de la Worldwide Developers Conference (WWDC) prévue début juin 2026. Promis une première fois en 2024, le nouveau Siri dopé à l'IA générative a été repoussé à plusieurs reprises. La version finale s'appuiera sur un fonctionnement hybride : une partie du traitement se fera sur l'appareil, mais la majorité des opérations complexes sera déléguée aux serveurs cloud de Google et de Nvidia. Ce virage représente un recul significatif par rapport à la position historique d'Apple sur la confidentialité. La marque à la pomme a longtemps mis en avant le traitement local des données comme garantie de vie privée, en opposant son approche à celle des concurrents qui centralisent tout dans le cloud. Confier l'essentiel du traitement IA à Google soulève des questions concrètes pour les utilisateurs soucieux de leurs données personnelles : chaque requête adressée à Siri pourrait transiter par des infrastructures tierces. Pour l'industrie, cela confirme que même Apple, avec ses puces Neural Engine réputées optimisées pour l'IA, ne peut pas faire tourner des modèles de grande taille uniquement en local. Le problème technique est fondamental : les smartphones actuels manquent de RAM pour charger des modèles d'IA massifs en mémoire, et les NPUs (unités de traitement neuronal) restent moins performants que les GPU pour inférer de gros modèles, contrairement à ce que les discours marketing laissent entendre. Apple se retrouve dans une position délicate, coincée entre son positionnement premium sur la vie privée et la course aux capacités IA imposée par ses concurrents. Le partenariat avec Google, déjà actif pour le moteur de recherche sur Safari, s'étend ainsi au coeur de l'assistant vocal, renforçant une dépendance que la firme de Cupertino cherchait pourtant à réduire.

UELes utilisateurs européens d'iPhone pourraient voir leurs requêtes Siri transiter par les serveurs de Google, soulevant des questions de conformité RGPD et de protection des données personnelles sous le droit européen.

LLMsOpinion
1 source
☕️ Quand l’IA agentique coûte plus cher que de payer ses employés humains
365Next INpact 

☕️ Quand l’IA agentique coûte plus cher que de payer ses employés humains

Les grandes entreprises technologiques font face à une équation économique qui commence à gripper sérieusement leurs ambitions d'IA : la facturation à l'usage des agents IA, calculée en tokens et non plus en abonnements forfaitaires, rend ces systèmes plus onéreux que les employés humains qu'ils sont censés remplacer ou assister. Le CTO d'Uber, Praveen Neppalli Naga, a reconnu avoir épuisé la totalité de son budget IA 2026 en seulement quatre mois. Bryan Catanzaro, vice-président en charge de l'apprentissage profond appliqué chez Nvidia, est encore plus direct : pour son équipe, le coût de la puissance de calcul dépasse désormais celui des salaires. Microsoft, après avoir encouragé en décembre dernier des milliers de ses développeurs à utiliser Claude Code d'Anthropic, vient d'annuler ces licences et les contraint à migrer vers GitHub Copilot CLI. Ce même GitHub Copilot, qui avait limité fin avril les nouveaux abonnements individuels, basculera en juin vers une facturation indexée sur la consommation réelle de tokens. Cette pression économique a engendré un phénomène pervers baptisé « tokenmaxxing » : des employés génèrent artificiellement de l'activité IA pour gonfler leurs statistiques de consommation, moins pour produire du code utile que pour paraître surproductifs aux yeux de leur hiérarchie. Amazon a fixé comme objectif que 80 % de ses développeurs utilisent l'IA chaque semaine et suit leur consommation de tokens. Meta est allé plus loin encore, avec un tableau de bord interne attribuant le statut de « Token Legend » aux plus grands consommateurs. Ce que ces pratiques révèlent, c'est que les métriques de tokens sont devenues des indicateurs de performance managériale avant d'être des mesures de valeur créée. La question de fond est structurelle : les modèles agentiques consomment beaucoup plus de tokens par tâche que les modèles classiques, et cette intensité ne sera pas compensée par la baisse des coûts unitaires. Un rapport Gartner estime que le coût d'inférence sur un LLM sophistiqué pourrait chuter de 90 % d'ici 2030, mais prévoit néanmoins que le coût total de l'IA continuera d'augmenter si la consommation progresse plus vite que la déflation tarifaire. Jensen Huang, PDG de Nvidia, imaginait récemment un futur où 100 agents IA travailleraient aux côtés de chaque employé humain de son entreprise, une vision qui semble économiquement intenable dans le modèle de facturation actuel. L'industrie se retrouve donc devant un choix structurant : soit les prix s'effondrent suffisamment vite, soit les entreprises doivent revoir radicalement leur usage de l'IA agentique, sous peine de financer des dépenses dont le retour reste difficile à démontrer.

UELes entreprises européennes qui adoptent des agents IA à grande échelle sont exposées aux mêmes pressions économiques liées à la facturation à l'usage, remettant en question la viabilité budgétaire de leurs projets d'IA agentique.

💬 Uber qui épuise son budget IA en quatre mois, Nvidia qui dit que le compute dépasse les salaires : c'est pas un bug, c'est le modèle. Les agents consomment structurellement 10 à 100 fois plus de tokens qu'un chat classique, et aucune baisse de prix unitaire ne rattrapera ça avant 2-3 ans. Le tokenmaxxing chez Amazon et Meta, des gens qui gonflent leur conso pour paraître productifs sur un dashboard, c'est juste le signe qu'on a mis la mauvaise métrique au centre.

BusinessOpinion
1 source
Le suivi de points améliore les modèles d'action du monde
366arXiv cs.RO 

Le suivi de points améliore les modèles d'action du monde

Des chercheurs ont publié sur arXiv (référence 2605.23856) JOPAT, un modèle monde-action conjoint qui combine prédiction visuelle au niveau pixel, suivi de points 2D avec gestion de la visibilité, et prédiction d'actions, le tout dans un unique transformeur de diffusion par débruitage. L'idée centrale est de ne pas se contenter de prédire l'apparence pixel à pixel, mais d'intégrer explicitement des trajectoires de points dans la scène, ce qui donne au modèle une représentation directe du mouvement plutôt qu'une reconstruction visuelle brute. Les évaluations portent sur deux environnements : le benchmark de simulation LIBERO, largement utilisé dans la communauté manipulation, et des tâches réelles via la plateforme open-source LeRobot d'Hugging Face. Sur ces deux environnements, JOPAT surpasse les baselines pixel-only, avec les gains les plus marqués sur les tâches à horizon long impliquant occlusions, interactions inter-objets, et mouvements partiellement hors cadre. L'apport technique concret est de résoudre un problème bien connu du robot learning : la prédiction pixel-level mélange dynamique du scène avec des facteurs parasites comme l'éclairage, la texture ou les reflets, ce qui rend les représentations apprises fragiles face à des variations visuelles sans lien avec la tâche. En introduisant des tracks 2D comme signal de supervision supplémentaire, JOPAT force le modèle à construire une représentation de mouvement explicite et stable, notamment en cas d'occultation partielle ou de sortie de champ. C'est un résultat notable pour les intégrateurs qui déploient des bras manipulateurs en environnement non contrôlé : si la robustesse aux variations visuelles se confirme hors labo, cela réduit le besoin de contrôle d'éclairage et de marqueurs artificiels, deux contraintes coûteuses en production. Le suivi de points comme signal de supervision intermédiaire s'inscrit dans une tendance plus large qui cherche à doter les politiques robotiques de représentations structurées plutôt que de tout apprendre depuis les pixels bruts. Des travaux récents comme Track2Act, ATM ou RoboTAP ont exploré des approches voisines ; JOPAT se distingue en intégrant cette supervision directement dans le cadre des world-action models diffusifs, un paradigme popularisé par des modèles comme UniSim ou GROOT de NVIDIA. La plateforme LeRobot, maintenue par Hugging Face, constitue ici le pont vers des expériences matérielles reproductibles avec des robots bas coût, ce qui accélère la validation hors simulation. Les prochaines étapes naturelles seront la généralisation à des manipulateurs à degrés de liberté élevés, la tenue à des changements de fond importants, et l'évaluation sur des séquences multi-étapes représentatives des usages industriels réels.

UELe recours à la plateforme LeRobot de Hugging Face (entreprise française) comme banc de test matériel reproductible consolide la position de l'écosystème français dans l'infrastructure de recherche en robot learning.

💬 Ce que j'aime dans l'approche, c'est que plutôt que d'essayer de mieux prédire les pixels (qui mélangent le mouvement utile avec l'éclairage, les reflets, tout le bruit), ils forcent le modèle à suivre des points dans la scène. C'est bête à dire mais c'est souvent une représentation intermédiaire bien choisie qui fait la différence en robotique. Si les gains se reproduisent hors labo, tu te retrouves avec moins de setup rigide, moins de marqueurs artificiels, et c'est pas rien quand tu déploies un bras en environnement réel.

RechercheOpinion
1 source
Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA
367Le Big Data 

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA

Blackstone et Google ont annoncé le 19 mai 2026 la création d'une coentreprise américaine dédiée aux services de calcul accéléré basés sur les TPU (Tensor Processing Units) de Google. L'accord prévoit un investissement initial de 5 milliards de dollars apportés par Blackstone en fonds propres, avec pour objectif de déployer une première capacité de 500 mégawatts d'ici 2027. Google fournit ses puces TPU, ses logiciels et ses services, tandis que Blackstone apporte son expertise dans la construction et le financement d'infrastructures à grande échelle, le fonds gère plus de 1 300 milliards de dollars d'actifs et possède une présence majeure dans les centres de données. La nouvelle entité sera dirigée par Benjamin Treynor Sloss, ancien cadre de Google avec plus de vingt ans d'expérience dans la conception d'infrastructures critiques. La capacité prévue pourrait être significativement étendue au-delà de 500 MW pour accompagner la montée en puissance des usages IA. Ce partenariat marque un tournant dans la manière dont Google monétise ses TPU, jusqu'ici cantonnées à un usage interne ou distribuées exclusivement via Google Cloud. En créant une structure commerciale indépendante, Google ouvre un nouveau canal de distribution de sa puissance de calcul, plus flexible et accessible à des entreprises qui ne souhaitent pas s'engager exclusivement avec Google Cloud. Pour les acteurs de l'IA, laboratoires de recherche, institutions financières, grandes entreprises, cela représente une alternative crédible aux GPU Nvidia, qui dominent le marché mais restent confrontés à des problèmes de disponibilité et à des coûts élevés. Cette initiative répond aussi à un besoin structurel : les grandes organisations cherchent à sécuriser des capacités de calcul stables sur le long terme, capables de soutenir des modèles d'IA toujours plus gourmands en ressources. Les TPU de Google sont développées depuis plus d'une décennie et alimentent déjà les infrastructures de Gemini ainsi que celles de nombreux partenaires technologiques. Leur ouverture à un marché plus large s'inscrit dans une logique d'industrialisation rapide de l'infrastructure IA : après la course aux modèles génératifs, la bataille se déplace vers l'accès à la puissance de calcul elle-même. Nvidia règne pour l'instant sans partage sur ce segment, mais la pression concurrentielle s'intensifie, avec des acteurs comme AMD, Intel et désormais Google qui cherchent à capter une part croissante de ce marché estimé à plusieurs centaines de milliards de dollars. L'alliance entre l'un des plus grands gestionnaires d'actifs mondiaux et le détenteur d'une technologie de calcul propriétaire de premier plan illustre comment capital financier et puissance technologique convergent pour structurer l'infrastructure de l'IA de demain.

UELes organisations et laboratoires européens de recherche en IA pourraient à terme accéder à une offre de calcul accéléré supplémentaire, mais la coentreprise est domiciliée aux États-Unis et ne cible pas spécifiquement le marché européen.

💬 5 milliards dans une JV dédiée aux TPU, ça dit clairement que la bataille pour l'infrastructure IA est lancée. Google avait ces puces depuis dix ans, les gardait pour son cloud, et il ouvre maintenant le robinet en partageant le risque avec Blackstone. Reste à voir si les TPU sont vraiment compétitifs en dehors des cas d'usage où Google a tout optimisé pour lui-même.

Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI
368FrenchWeb 

Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI

Mistral AI, la startup parisienne fondée en 2023 et valorisée plus de six milliards d'euros, annonce l'acquisition d'Emmi AI, une société spécialisée dans les agents conversationnels d'entreprise. Cette opération s'inscrit dans une stratégie de diversification accélérée : plutôt que de se limiter à l'entraînement de modèles fondationnels, Mistral cherche à construire une offre verticalement intégrée, allant du modèle de base jusqu'aux applications déployées chez les clients. Les détails financiers de l'acquisition n'ont pas été rendus publics. L'enjeu est de taille pour l'écosystème européen. Les entreprises du continent restent largement dépendantes des hyperscalers américains (AWS, Azure, Google Cloud) pour leurs infrastructures, des GPU NVIDIA pour le calcul, et des modèles d'OpenAI, Anthropic ou Google pour l'inférence. En absorbant Emmi AI, Mistral tente de proposer une alternative souveraine complète aux directions informatiques européennes soucieuses de leur autonomie stratégique et de conformité réglementaire, notamment au regard de l'AI Act européen entré en vigueur en 2024. Ce rachat intervient alors que la compétition internationale s'intensifie sur deux fronts simultanés : les États-Unis maintiennent leur avance sur les modèles de pointe, tandis que la Chine rattrape son retard à marche forcée avec des architectures intégrées comme celles de Huawei ou Baidu. Pour Mistral, qui a levé 1,1 milliard de dollars en 2024 avec des investisseurs comme Andreessen Horowitz et la Banque publique d'investissement, l'heure est au passage à l'échelle commerciale, pas seulement technologique.

UEL'acquisition d'Emmi AI par Mistral AI renforce l'offre souveraine européenne en agents IA d'entreprise, donnant aux DSI françaises et européennes une alternative intégrée aux solutions américaines, dans un contexte de conformité à l'AI Act.

💬 Mistral fait le pari qu'un modèle de base, ça ne suffit plus. Racheter Emmi AI, c'est aller chercher le client là où il est, dans ses workflows d'entreprise, plutôt que d'attendre qu'il vienne lui-même sur une API. Reste à voir si une startup, même avec un milliard en caisse, peut tenir tête aux hyperscalers sur leur propre terrain.

BusinessOpinion
1 source
SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP
369Le Big Data 

SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP

Lors de SAP Sapphire 2026, l'éditeur allemand SAP a présenté sa nouvelle vision stratégique : transformer son ERP en une "entreprise autonome" capable d'exécuter des processus critiques de bout en bout grâce à l'IA. Le CEO Christian Klein a dévoilé trois piliers majeurs : SAP Autonomous Suite, qui déploie plus de 50 assistants Joule spécialisés coordonnant plus de 200 agents IA dans la finance, les achats, la supply chain, les RH et l'expérience client ; SAP Business AI Platform, qui fusionne SAP Business Technology Platform, SAP Business Data Cloud et SAP Business AI en un environnement unique ; et Joule Work, une interface orientée objectif accessible sur ordinateur, mobile et commandes vocales. Pour accélérer l'adoption, SAP annonce un fonds de 100 millions d'euros et une série de partenariats avec Anthropic, Amazon Web Services, Google Cloud, Microsoft, NVIDIA, Mistral AI et Cohere. Un cas concret a été mis en avant avec l'énergéticien RWE : des agents IA analysent des milliers d'incidents passés sur des éoliennes offshore pour identifier l'origine probable d'une panne et générer automatiquement des ordres de maintenance préremplis. L'enjeu central de cette annonce est de faire passer l'IA d'un rôle d'assistant à celui d'exécutant autonome au coeur des opérations d'entreprise. L'assistant dédié à la clôture financière illustre l'ambition : en automatisant les écritures comptables, les rapprochements et la correction d'erreurs, SAP promet de réduire un processus qui prenait plusieurs semaines à quelques jours seulement. Pour les grandes entreprises soumises à des exigences croissantes de productivité, de conformité réglementaire et de rapidité, c'est une promesse directement chiffrée en gains opérationnels. Le lancement de sept solutions Industry AI, avec des règles métiers et réglementaires propres à chaque secteur, signale que SAP ne vise plus seulement les directions IT mais les métiers eux-mêmes, qu'il s'agisse de l'énergie, de la logistique ou de la fabrication. Cette offensive s'inscrit dans une compétition frontale entre les grands éditeurs ERP pour la domination de l'IA d'entreprise, face à Oracle, Microsoft et Salesforce qui poursuivent des ambitions similaires. SAP capitalise sur sa position de référence dans les grandes organisations mondiales, où ses systèmes gèrent déjà les données les plus critiques : c'est précisément ce capital de confiance et de données que le groupe cherche à monétiser via l'IA autonome. Le SAP Knowledge Graph, couche qui structure les relations entre données, processus et entités métiers, est présenté comme le socle différenciateur qui donnera aux agents une compréhension contextuelle que des solutions génériques ne peuvent pas offrir. Les partenariats avec des fournisseurs de modèles souverains comme Mistral AI et Cohere indiquent également que SAP anticipe des exigences de conformité et de localisation des données, particulièrement fortes en Europe. La prochaine étape sera de valider ces promesses à grande échelle dans des déploiements réels, au-delà des cas pilotes présentés en conférence.

UESAP, leader européen des ERP, intègre Mistral AI dans sa plateforme et anticipe explicitement les exigences européennes de souveraineté et de localisation des données, avec un fonds de 100 millions d'euros ciblant l'adoption dans les grandes organisations, dont de nombreuses entreprises françaises et européennes déjà clientes.

💬 Les 50 assistants et les 200 agents, c'est du bruit. Ce qui compte, c'est le Knowledge Graph, cette couche qui structure 30 ans de données métiers dans des millions d'entreprises, et que personne d'autre ne peut reproduire du jour au lendemain. Le cas RWE sur les éoliennes, bon, c'est encore un pilote, mais c'est exactement là où SAP peut devenir difficile à contourner.

OutilsOutil
1 source
Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)
370arXiv cs.RO 

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, raisonnement linguistique et génération d'actions motrices, souffrent d'un défaut opérationnel central : leur latence d'inférence crée une désynchronisation entre l'observation capturée et l'action exécutée, phénomène désigné sous le terme de "staleness". Quatre approches ont émergé quasi-simultanément pour y remédier : IT-RTC (correction par inpainting à l'inférence), TT-RTC (simulation de délai à l'entraînement), VLASH (conditionnement sur état futur estimé) et A2C2 (correction résiduelle légère à chaque pas de contrôle). Publiée le 12 mai 2025 sous la référence arXiv:2605.08168, une étude systématique compare ces quatre méthodes sous conditions contrôlées via deux codebases unifiées, évaluées sur la suite Kinetix avec des politiques MLPMixer et sur le benchmark LIBERO de manipulation avec SmolVLA, en faisant varier les délais jusqu'à d = 20 pas de contrôle. Les résultats établissent une hiérarchie claire selon le régime de délai. A2C2 domine sur Kinetix avec un taux de résolution supérieur à 90 % jusqu'à d = 8, et prend la tête sur LIBERO à partir de d = 4 ; c'est la méthode la plus efficace pour des délais modérés à élevés. TT-RTC s'impose comme la plus robuste des approches basées sur l'entraînement : elle généralise au-delà de la distribution de délais vue en phase d'entraînement et n'ajoute aucun overhead à l'inférence, ce qui la rend attractive pour des déploiements contraints en calcul. IT-RTC reste compétitif à faibles délais mais se dégrade nettement avec des chunks longs (H = 30) ou des délais importants. VLASH affiche un compromis explicite entre régimes : son efficacité dépend directement de la plage de fine-tuning [0, d\_max] choisie, imposant un calibrage préalable en fonction du délai attendu en production. Ce travail répond à un besoin criant de la communauté VLA, dont les modèles emblématiques, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et SmolVLA de Hugging Face, visent un déploiement sur robots réels soumis à des contraintes temps-réel strictes. L'absence de benchmark commun rendait jusqu'ici les comparaisons entre méthodes impossibles et freinait l'adoption industrielle, chaque équipe évaluant sa solution sur son propre protocole. En publiant deux codebases reproductibles (github.com/TheAyos/async-vla-inference), les auteurs offrent aux équipes robotiques un cadre de référence pour choisir leur stratégie de correction selon leur architecture et leurs contraintes de latence. Les prochaines étapes naturelles incluent la validation sur robots physiques et l'extension à des VLA de plus grande taille, où les délais d'inférence sont encore plus prononcés.

UEHuggingFace (entreprise d'origine française) est directement impliquée via SmolVLA, utilisé comme benchmark de référence dans cette étude comparative, ce qui renforce son positionnement central dans l'écosystème VLA mondial.

💬 Le staleness dans les VLA, tout le monde savait que c'était un problème, mais sans benchmark commun on naviguait à vue, chaque équipe évaluant sa solution sur son propre protocole. Ce papier établit enfin une hiérarchie claire : A2C2 pour la majorité des cas d'usage, TT-RTC si tu es contraint en calcul et que tu veux zéro overhead à l'inférence. Le fait que SmolVLA de HuggingFace soit la référence de manipulation, c'est pas anodin pour la visibilité européenne dans la course aux robots.

RobotiqueOpinion
1 source
Intel pourrait fabriquer les futures puces IA d’Apple
371Le Big Data 

Intel pourrait fabriquer les futures puces IA d’Apple

Apple et Intel auraient conclu un accord préliminaire permettant au géant des semi-conducteurs américain de fabriquer une partie des futures puces IA d'Apple, selon le Wall Street Journal. Les deux groupes auraient négocié pendant plus d'un an avant d'aboutir à ce rapprochement, révélé début mai 2026. La réaction des marchés a été immédiate : l'action Intel a bondi de près de 14 % à l'annonce, tandis qu'Apple gagnait environ 2 %. Le partenariat débuterait par les futures puces de la série M destinées aux Mac et aux iPad, les puces iPhone pouvant suivre dans un second temps. Côté production, l'usine d'Intel à Chandler, en Arizona, fabrique déjà des puces basées sur son procédé 18A, la technologie la plus avancée du groupe. Apple pourrait toutefois attendre la génération suivante, baptisée 18A-P, dont la mise en production de masse est attendue dès l'année prochaine selon l'analyste Ben Bajarin de Creative Strategies. Cet accord représenterait bien plus qu'un simple contrat de sous-traitance. Pour Apple, il s'agit de réduire une dépendance quasi totale à TSMC, le fondeur taïwanais qui produit aujourd'hui l'essentiel de ses puces les plus avancées. La montée en puissance de l'IA générative a fait exploser la demande mondiale de capacités de fabrication : Nvidia, Microsoft, Amazon, Google et Meta mobilisent déjà une part croissante des lignes de production les plus avancées, rendant la diversification stratégique urgente pour Apple. Bajarin qualifie Intel de "seule alternative crédible" capable de devenir une seconde source industrielle à grande échelle pour Cupertino. Cette diversification permettrait également de limiter l'exposition aux risques géopolitiques liés aux tensions autour de Taïwan, qui font peser une menace structurelle sur l'approvisionnement en puces. Pour Intel, la portée symbolique d'un tel contrat serait considérable. L'entreprise a longtemps peiné à convaincre des clients externes de lui confier des puces critiques, après des années de retards technologiques et de problèmes de rendement dans son activité de fonderie. Accrocher Apple à son carnet de commandes équivaudrait à valider publiquement que cette division est désormais compétitive face aux leaders asiatiques. Intel accélère ses investissements industriels aux États-Unis dans ce but. Cette alliance potentielle s'inscrit dans une bataille plus large : aujourd'hui, seules trois entreprises disposent des technologies nécessaires pour produire les semi-conducteurs les plus avancés, TSMC, Intel et Samsung. Apple aurait d'ailleurs également visité l'usine texane de Samsung pour évaluer ses capacités, signe que la guerre mondiale des usines IA s'intensifie et que les géants de la tech cherchent activement à multiplier leurs options industrielles.

UECe rapprochement Apple-Intel accélère la consolidation des capacités de fabrication de semi-conducteurs avancés aux États-Unis, rendant plus urgente la question de la souveraineté industrielle européenne face à une dépendance structurelle aux fondeurs extra-européens que l'European Chips Act cherche précisément à réduire.

💬 Apple qui diversifie ses fondeurs, c'est pas une surprise, mais que ce soit Intel qui décroche le contrat, là par contre je l'aurais pas parié il y a deux ans. Les retards, les problèmes de rendement, le fiasco de leur division fonderie... et pourtant le 18A semble enfin tenir la route, assez pour qu'Apple prenne le risque. Reste à voir si les lignes de production suivent quand il faudra livrer des dizaines de millions de puces.

Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue grâce à une architecture hybride
372MarkTechPost 

Voxtral de Mistral comble le fossé d'expressivité dans le clonage vocal multilingue grâce à une architecture hybride

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale, disponible simultanément en open source sur Hugging Face et via une API commerciale. Le modèle totalise environ 4 milliards de paramètres répartis entre trois composants distincts : un décodeur autorégressif de 3,4 milliards de paramètres initialisé à partir de Ministral 3B, un transformeur acoustique à flow-matching de 390 millions de paramètres, et un codec audio neuronal de 300 millions de paramètres. À partir d'à peine 3 secondes d'audio de référence, Voxtral TTS génère de la parole naturelle dans 9 langues avec une latence inférieure à 600 millisecondes, tout en servant plus de 30 utilisateurs simultanés depuis un seul GPU NVIDIA H200. Dans des évaluations menées par des annotateurs natifs sur le clonage vocal multilingue, le modèle affiche un taux de victoire de 68,4 % face à ElevenLabs Flash v2.5, l'une des références du secteur. Ce lancement s'attaque à ce que Mistral appelle l'"Expressivity Gap" : le gouffre entre une synthèse vocale intelligible et une parole qui sonne réellement comme un être humain dans le temps, avec les bonnes émotions et le bon rythme. Pour les développeurs qui construisent des agents vocaux, des pipelines de livres audio ou des systèmes de support client multilingues, cette limite a toujours été le point de rupture où les systèmes actuels s'effondrent sous l'examen humain. Voxtral TTS change la donne en séparant clairement deux problèmes distincts : maintenir la cohérence à long terme de l'identité vocale d'un locuteur, et générer la texture acoustique fine qui donne au son sa richesse. Cette séparation architecturale permet d'éviter le compromis habituel qui dégrade les systèmes monolithiques. L'approche hybride retenue est précisément l'innovation centrale du modèle. Les architectures autorégréssives excellent à préserver la cohérence d'un locuteur sur plusieurs phrases mais s'avèrent lentes pour traiter les 36 tokens acoustiques par trame qui définissent la texture sonore. Les modèles basés sur le flow-matching, eux, génèrent une variation acoustique riche et continue mais manquent de mémoire séquentielle pour maintenir une voix cohérente dans le temps. Voxtral TTS combine les deux : le décodeur autorégressif gère le token sémantique de chaque trame (qui encode le contenu linguistique via distillation depuis Whisper), et le transformeur flow-matching prend ensuite en charge la génération des 36 tokens acoustiques restants. Cette architecture en pipeline positionne Mistral dans un marché en pleine consolidation, aux côtés d'ElevenLabs, PlayHT et Cartesia, avec l'avantage stratégique d'un modèle open weights que les entreprises peuvent déployer sur leur propre infrastructure.

UEMistral AI, entreprise française, lance son premier modèle TTS open weights, renforçant la position européenne dans la synthèse vocale multilingue face aux acteurs américains dominants.

💬 Mistral sort son premier TTS, open weights, et il bat ElevenLabs sur le clonage vocal multilingue. L'architecture hybride (autorégressif pour la cohérence du locuteur, flow-matching pour la texture acoustique) c'est la bonne réponse au vrai problème, pas juste une amélioration marginale sur un truc qui marchait déjà. Pour les boîtes qui veulent du vocal sans dépendre d'une API américaine, ça arrive au bon moment.

CréationOpinion
1 source
Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google
373The Information AI 

Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google

Lors de sa dernière conférence téléphonique sur ses résultats financiers, Google a annoncé qu'il prévoit de vendre ses puces TPU (tensor processing units) directement à des clients entreprises pour une utilisation dans leurs propres centres de données, une rupture majeure avec une stratégie qui cantonnait jusqu'ici ces accélérateurs quasi exclusivement à Google Cloud. Mais au même moment, trois dirigeants de grands acteurs du "neocloud" ont clairement indiqué ne pas avoir l'intention d'adopter les TPU dans un avenir proche. Chuck Fisher, directeur financier de Lambda, a déclaré lors d'une conférence de The Information : "Nous saignons vert chez Lambda", allusion directe aux couleurs d'Nvidia. Marc Boroditsky, directeur commercial de Nebius, a confirmé que 99 % de la demande que reçoit son entreprise porte sur des GPU Nvidia, précisant que les rares clients qui s'enquièrent des TPU sont souvent d'anciens salariés de Google. Nick Robbins, vice-président de CoreWeave, a quant à lui noté que les principaux utilisateurs de TPU, Google, Anthropic et Meta, sont aussi parmi les plus gros acheteurs de GPU, ce qui conforte la rentabilité de miser sur Nvidia. Ces déclarations révèlent le défi structurel auquel Google se heurte pour faire des TPU une alternative crédible aux GPU d'Nvidia. Les neoclouds, canal de distribution naturel pour ce type de matériel, sont profondément liés à Nvidia : la firme de Santa Clara est à la fois leur principal fournisseur, un investisseur clé et souvent un important client. La logique économique est implacable : lorsque 99 % du marché réclame une technologie précise, parier sur une alternative représente un risque difficile à justifier. Chaque mégawatt alloué fait l'objet d'un calcul de rendement ajusté au risque, et dans ce calcul, Nvidia l'emporte largement. Confronté au désintérêt des grands neoclouds, Google a réorienté sa stratégie de distribution. Après avoir tenté d'intégrer ses TPU aux infrastructures de CoreWeave et de Crusoe, sans succès, la firme a conclu un accord avec Fluidstack, une startup encore peu connue dans le secteur, pour déployer des TPU au bénéfice d'Anthropic, en garantissant des milliards de dollars en baux et en dettes liés à ces déploiements. Le PDG Sundar Pichai a confirmé que Google vise un "groupe sélectif de clients", notamment dans les services financiers et l'IA de pointe, plutôt que de chercher à rendre ses puces aussi répandues que les GPU. Sur le plan financier, Google négocie avec de grands fonds d'investissement pour créer des coentreprises et des véhicules ad hoc permettant d'acheter des TPU et de les louer aux clients finaux, réduisant ainsi sa dépendance aux neoclouds pour la distribution de son matériel propriétaire.

UENebius, acteur neocloud implanté en Europe, confirme que 99 % de la demande de ses clients porte sur des GPU Nvidia, illustrant la dépendance du marché européen à l'égard de ce fournisseur pour l'infrastructure IA.

InfrastructureOpinion
1 source
Le Pentagone choisit ses nouveaux fournisseurs IA et exclut Anthropic… enfin presque
374Next INpact 

Le Pentagone choisit ses nouveaux fournisseurs IA et exclut Anthropic… enfin presque

Le Pentagone a signé fin avril 2026 des accords avec huit fournisseurs de modèles d'intelligence artificielle pour déployer leurs technologies dans des opérations militaires classifiées. Les entreprises retenues sont OpenAI, Google, Microsoft, Amazon Web Services, NVIDIA, Oracle, SpaceX via sa filiale xAI, et Reflection. Ces contrats couvrent deux niveaux de classification : l'IL6, équivalent du « secret défense », et l'IL7, réservé aux données encore plus sensibles liées aux opérations en cours. Concrètement, ces IA seront mobilisées pour l'analyse de renseignement, la planification d'opérations et l'aide à la prise de décision en temps réel. Une entreprise brille par son absence : Anthropic, pourtant l'un des acteurs les plus avancés du secteur, a été écarté de ces accords. Cette sélection marque une accélération majeure de l'intégration de l'IA dans l'appareil militaire américain, avec des implications industrielles et éthiques immédiates. Chez Google, l'accord signé le 27 avril a provoqué une fronde interne : plus de 560 employés ont adressé une lettre ouverte à Sundar Pichai, réclamant que l'entreprise refuse tout contrat impliquant des opérations classifiées. « La seule façon de garantir que Google ne soit pas associé à de tels dommages est de refuser tout travail sur des projets classifiés », écrivent les signataires. Kent Walker, président des affaires juridiques d'Alphabet, a répondu sans ambiguïté dans un mémo interne, affirmant que Google travaillait « avec fierté » avec le ministère de la Défense depuis ses débuts et que soutenir la sécurité nationale de manière « réfléchie et responsable » restait une priorité de l'entreprise. Le cas Anthropic illustre les tensions profondes entre les exigences du Pentagone et les garde-fous éthiques des labs d'IA. Le DoD utilisait pourtant les modèles Claude depuis 2024, dans des opérations sensibles : ils auraient notamment contribué à la capture de Nicolas Maduro le 3 janvier, et aux premières opérations militaires liées au conflit israélo-iranien. Mais Anthropic a posé des conditions, refusant notamment que sa technologie serve à la surveillance de masse de citoyens américains ou à des armes entièrement autonomes. Le DoD, peu enclin à se laisser imposer des contraintes par un fournisseur, a alors désigné Anthropic « fournisseur à risque », une première pour une entreprise américaine, assimilée à une menace pour la chaîne d'approvisionnement nationale. L'affaire s'est depuis enlisée devant les tribunaux. Le lancement de Mythos par Anthropic début avril semble avoir légèrement rouvert la porte : le directeur technique du DoD, Emil Michael, reconnaît qu'Anthropic reste un risque d'approvisionnement tout en laissant entendre que la situation pourrait évoluer.

UEL'accélération de l'IA militaire classifiée aux États-Unis risque de relancer les débats européens sur une doctrine IA-défense propre et sur les limites que l'AI Act pourrait imposer aux applications militaires des modèles d'IA.

💬 Anthropic dit non à la surveillance de masse et aux armes autonomes, et se retrouve officiellement sur liste noire du Pentagone. C'est sans doute le premier lab à perdre un gros contrat sur des principes éthiques, pas juste à en parler depuis une scène de conférence. Ça va leur coûter cher, et c'est pourtant le seul truc crédible qu'on ait vu depuis longtemps dans ce secteur.

BusinessReglementation
1 source
IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains
375VentureBeat AI 

IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains

IBM a lancé hier à l'échelle mondiale Bob, sa plateforme de développement logiciel propulsée par l'intelligence artificielle. L'outil, conçu pour écrire, tester et gérer du code tout au long du cycle de développement, est déjà utilisé par plus de 80 000 employés d'IBM après avoir démarré avec seulement 100 utilisateurs internes à l'été 2025. Bob repose sur un routage multi-modèles : il peut s'appuyer sur les modèles Granite d'IBM, les modèles Claude d'Anthropic, ou encore ceux de la société française Mistral, ainsi que sur des modèles distillés plus légers. Les modèles open source comme Qwen d'Alibaba sont explicitement exclus. Selon IBM, certaines équipes ont économisé jusqu'à 70 % du temps sur certaines tâches, soit en moyenne dix heures par semaine. Neal Sundaresan, directeur général de l'automatisation et de l'IA chez IBM, résume la philosophie de la plateforme : « La capacité du modèle seule ne suffit pas. La façon dont vous le déployez, dont vous structurez le contexte, et dont vous maintenez les humains dans la boucle détermine si l'IA tient réellement ses promesses. » Ce qui distingue Bob de concurrents comme Cursor ou Claude Code, c'est le niveau de contrôle et de gouvernance qu'il impose sur les workflows agentiques. Là où d'autres outils placent le développeur au début de la tâche pour qu'il enchaîne les étapes manuellement, Bob introduit des points de contrôle humains structurés à intervalles réguliers, tout en permettant à des agents IA d'accomplir des tâches complexes en plusieurs étapes. Cette approche répond directement aux besoins des grandes entreprises, qui craignent les failles de sécurité et les défaillances d'orchestration lorsque des agents autonomes accèdent à des données en production. Pour les directions techniques et les équipes d'audit, la traçabilité et la capacité à intervenir à tout moment priment sur la vitesse. Cette annonce s'inscrit dans une tension croissante dans l'industrie entre deux visions de l'IA agentique. D'un côté, des systèmes ouverts et autonomes comme OpenClaw ou NemoClaw de Nvidia, qui poussent les limites de l'automatisation dans des environnements bac à sable. De l'autre, des plateformes comme Bob qui privilégient la fiabilité, l'auditabilité et la supervision humaine. OpenAI a récemment ajouté dans son Agents SDK un support pour des implémentations en bac à sable, tandis que Kilo lançait Kilo Claw centré sur la sécurité des agents autonomes. IBM, fort de ses décennies d'expérience dans les systèmes d'entreprise critiques, choisit délibérément la prudence. Sundaresan le dit sans détour : « Il vaut mieux ouvrir la grille lentement que de dire, 'oups, comment je la referme maintenant ?' »

UEMistral, startup française, est intégrée nativement comme l'un des modèles supportés par Bob aux côtés de Claude et Granite, lui offrant une vitrine directe auprès des 80 000 développeurs IBM et renforçant la crédibilité des LLMs européens dans les environnements enterprise critiques.

OutilsOutil
1 source
Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix
376VentureBeat AI 

Le FOMO pousse les entreprises à payer des GPU inutilisés et fait grimper les prix

Les entreprises qui investissent massivement dans les GPU d'intelligence artificielle n'en utilisent en réalité que 5 % de leur capacité, selon le rapport 2026 de Cast AI sur l'optimisation Kubernetes, qui s'appuie sur des mesures de clusters en production réelle. Laurent Gil, cofondateur et président de Cast AI, suit cette dynamique depuis deux ans. Il estime qu'une gestion humaine raisonnable devrait atteindre environ 30 % d'utilisation, compte tenu des cycles jour/nuit et des week-ends. À 5 %, les entreprises exploitent leur infrastructure la plus coûteuse à un sixième de ce que produirait une approche sans effort particulier. Dans le même temps, AWS a discrètement relevé ses prix sur les GPU H200 réservés d'environ 15 % un samedi de janvier, sans annonce officielle, tandis que les fabricants de mémoire ont augmenté les tarifs de la HBM3e de 20 % pour 2026. C'est la première fois depuis le lancement d'EC2 par AWS en 2006 qu'un hyperscaler hausse ses prix GPU réservés plutôt que de les baisser. Ce paradoxe a des conséquences concrètes sur les budgets technologiques de milliers d'entreprises. L'hypothèse fondamentale qui sous-tend la plupart des projections de dépenses cloud, que la puissance de calcul devient moins chère chaque année, ne tient plus au sommet de la pile. Le marché s'est scindé en deux niveaux : côté commodity, les prix du H100 à la demande ont chuté de 7,57 dollars par GPU-heure en septembre 2025 à environ 3,93 dollars aujourd'hui, avec des fournisseurs comme Lambda Labs ou RunPod sous les 3 dollars. Mais côté frontier, la logique s'est inversée. Nvidia a reçu des commandes pour 2 millions de puces H200 pour 2026, contre un stock disponible de 700 000 unités. Les capacités d'assemblage avancé de TSMC, indispensables à chaque GPU équipé de HBM, sont réservées jusqu'à mi-2027 au moins. AMD a prévenu de ses propres hausses de prix pour 2026, et même les A100, dont le coût devait baisser à l'expiration des réservations triennales de 2023, repartent à la hausse. La mécanique qui explique ces 5 % d'utilisation tient à un processus d'achat dominé par la peur de manquer. Une entreprise rejoint une liste d'attente chez un hyperscaler, attend des semaines ou des mois, puis reçoit un appel : 36 GPU disponibles immédiatement, engagement d'un ou trois ans exigé, à prendre ou à laisser. La question n'est alors plus de savoir si les charges de travail justifient cette capacité, mais de ne pas perdre le créneau. Une fois les GPU obtenus, personne ne les rend : les récupérer prendrait des mois et aucune équipe ne veut être celle qui a renoncé à sa capacité. La flotte reste donc allumée, facturée à l'heure, utilisée ou non. Gil observe même des entreprises payer les tarifs à la demande, trois fois plus chers que les réservations annuelles, simplement parce que la souplesse paraît moins risquée que l'engagement. La pénurie nourrit la thésaurisation, et la thésaurisation entretient la pénurie.

UELes entreprises européennes utilisant des GPU cloud subissent les mêmes hausses de prix sur les H200 réservés et le HBM3e, alourdissant leurs budgets IA sans gain de performance.

InfrastructureOpinion
1 source
Token, compute, dérive des usages : pourquoi l’IA peut coûter plus cher que vos équipes ?
377Le Big Data 

Token, compute, dérive des usages : pourquoi l’IA peut coûter plus cher que vos équipes ?

Dans certaines entreprises, la facture mensuelle liée à l'intelligence artificielle dépasse désormais celle des salaires humains. C'est le constat documenté par Axios dans une enquête publiée fin avril 2026, qui révèle que le coût du traitement des requêtes IA excède, dans certains cas, celui des équipes en chair et en os. Bryan Catanzaro, responsable chez Nvidia, a confirmé le phénomène pour ses propres équipes. Le New York Times rapporte que certains utilisateurs intensifs atteignent plus de 150 000 dollars de dépenses mensuelles en tokens, certains ingénieurs dépensant davantage en usage d'IA qu'ils ne touchent en salaire. Chez Uber, des équipes utilisant des outils comme Claude Code ont déjà épuisé leur budget annuel d'IA bien avant la fin de l'exercice, selon The Information. Le phénomène a même un nom dans les milieux tech : le "tokenmaxxing", pratique où les ingénieurs maximisent délibérément leur consommation de tokens, parfois comme indicateur implicite de performance. Ce glissement remet en cause la promesse fondatrice de l'IA en entreprise : réduire les coûts grâce à l'automatisation. L'équation est plus complexe que prévu. Chaque requête envoyée à un modèle consomme des tokens facturés, et lorsque les agents s'exécutent en parallèle sans supervision directe, les volumes explosent. La structure de coût des entreprises se transforme en profondeur : les dépenses, autrefois fixes et prévisibles via les ressources humaines, deviennent variables, dépendantes de l'usage, et donc difficiles à piloter. Pour les organisations qui n'ont pas mis en place de garde-fous, la dérive peut être rapide. Chez Meta, l'utilisation de l'IA est désormais intégrée dans l'évaluation des performances des employés, ce qui pousse mécaniquement à une consommation accrue. Google et Microsoft adoptent des dynamiques similaires, une grande part du code produit étant déjà générée par des modèles. Cette situation profite directement aux fournisseurs de modèles. OpenAI et Anthropic bénéficient de la hausse de consommation, Anthropic ayant d'ailleurs relevé ses tarifs récemment. Les investisseurs parient sur la capacité des modèles les plus efficaces à capter davantage de clients en offrant un meilleur ratio performance-coût. Du côté des entreprises consommatrices, les réponses restent expérimentales. Jensen Huang, PDG de Nvidia, a évoqué l'idée de distribuer des quotas de tokens aux employés, à l'image d'une enveloppe salariale dédiée à l'IA, ce qui transformerait l'accès à la puissance de calcul en véritable avantage compétitif individuel. Le compute est en passe de devenir une ligne budgétaire stratégique aussi sensible que la masse salariale, obligeant les directions financières à repenser leur manière de gouverner ces outils avant que la facture ne devienne incontrôlable.

UELes entreprises européennes adoptant des agents IA à grande échelle sont exposées aux mêmes dérives budgétaires documentées aux États-Unis, sans cadre de gouvernance des coûts IA encore établi au niveau sectoriel ou réglementaire.

BusinessOpinion
1 source
De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?
378Le Big Data 

De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?

Google Research a présenté TurboQuant lors de la conférence ICLR 2026, un algorithme de quantification conçu pour résoudre le principal goulot d'étranglement des grands modèles de langage : le KV Cache. Sur des serveurs équipés de GPU NVIDIA H100, les tests montrent que TurboQuant accélère le calcul de l'attention par un facteur huit tout en divisant par six l'empreinte mémoire, grâce à une quantification à 3 bits par valeur. Techniquement, l'algorithme abandonne la compression statique au profit d'une architecture hybride combinant PolarQuant, qui normalise les données sur une hypersphère, et le codage QJL, qui projette les vecteurs en autorisant une quantification à 1 bit basée sur le signe. Contrairement à des approches concurrentes comme GPTQ ou AWQ, TurboQuant ne nécessite aucune calibration préalable et s'adapte en temps réel au flux de données entrant. L'impact concret est significatif pour les équipes qui déploient des modèles en production. Un modèle de 8 milliards de paramètres traitant 32 000 tokens sature rapidement la VRAM disponible, forçant jusqu'ici les opérateurs à empiler de la mémoire coûteuse sur des serveurs haut de gamme. TurboQuant casse cette logique d'escalade matérielle : des tâches jusqu'alors réservées à des supercalculateurs deviennent accessibles sur des infrastructures classiques. Les benchmarks "needle-in-a-haystack" confirment que la précision logique reste quasi intacte sous forte compression, et des documents de plusieurs centaines de pages peuvent désormais être analysés en une seule requête. Les grands fournisseurs de cloud commencent à adopter ce protocole pour remplacer leurs méthodes de quantification statique, attirés par un débit de tokens supérieur même sous charge élevée. Ce développement s'inscrit dans une tension structurelle qui traverse l'industrie de l'IA depuis deux ans : la demande de modèles toujours plus grands se heurte aux limites physiques du silicium, et l'infrastructure représente désormais le coût dominant avant même la valeur du service rendu. Les approches précédentes comme QLoRA ciblaient les couches linéaires du modèle, sans s'attaquer au KV Cache lui-même, là où la consommation mémoire est la plus critique lors de l'inférence. TurboQuant change de cible. La question qui fait encore débat dans la communauté concerne son intégration aux pipelines de production actuels, standardisés autour d'outils comme vLLM ou TensorRT-LLM, et la robustesse de l'approche sur des architectures de modèles différentes de celles testées par Google Research.

UELes équipes ML et fournisseurs cloud européens pourraient réduire leurs coûts d'infrastructure GPU en adoptant TurboQuant pour l'inférence de grands modèles, mais l'intégration aux pipelines de production reste à valider.

LLMsPaper
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
379arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

RechercheOpinion
1 source
Les locataires de GPU jouent à la loterie du silicium
380IEEE Spectrum AI 

Les locataires de GPU jouent à la loterie du silicium

Des chercheurs du College of William & Mary, du Jefferson Lab et de la société Silicon Data ont publié une étude révélant une variabilité surprenante dans les performances des GPU loués sur le cloud, un phénomène connu sous le nom de "silicon lottery". Pour mesurer l'ampleur du problème, ils ont exécuté 6 800 instances de leur benchmark maison, SiliconMark, sur 3 500 GPU sélectionnés aléatoirement chez 11 fournisseurs de cloud. Les puces testées couvrent 11 modèles Nvidia, du plus courant au plus avancé, le H200 SXM. Les résultats sont frappants : les performances en calcul virgule flottante 16 bits des 259 GPU H100 PCIe varient jusqu'à 34,5 %, tandis que la bande passante mémoire des 253 H200 SXM présente des écarts allant jusqu'à 38 %. Carmen Li, fondatrice et PDG de Silicon Data, résume l'enjeu : une puce plus chère et plus récente peut, dans certains cas, délivrer moins de performances qu'un modèle plus ancien. Ces écarts ont des conséquences financières directes pour les entreprises et les équipes de recherche qui louent du temps de calcul GPU pour entraîner ou faire tourner des modèles de langage. Si un client paie un tarif premium pour accéder à un H100 ou un H200, il n'a aucune garantie que l'instance qu'il reçoit correspond aux spécifications annoncées. À grande échelle, une différence de performance de 30 à 40 % représente des heures de calcul supplémentaires, des coûts gonflés et des délais allongés. La pratique actuelle de louer des GPU comme une ressource homogène et interchangeable ne reflète pas la réalité physique des puces, et les fournisseurs cloud n'offrent généralement aucune transparence sur la qualité individuelle des instances proposées. Le phénomène de la "silicon lottery" était déjà documenté depuis au moins 2022, quand des chercheurs de l'Université du Wisconsin avaient constaté son impact sur les superordinateurs dépendant de GPU. Mais son ampleur dans le cloud computing grand public n'avait jamais été mesurée à cette échelle. Les causes sont multiples : variation dans les procédés de fabrication des puces, différences de configuration côté opérateurs, systèmes de refroidissement hétérogènes et historique d'utilisation des GPU. L'analyse de Silicon Data pointe toutefois les défauts de fabrication comme principal responsable. Pour se protéger, Jason Cornick, responsable infrastructure chez Silicon Data, recommande une approche pragmatique : benchmarker systématiquement chaque instance louée avec un outil comme SiliconMark avant de lancer des charges de travail intensives, afin de vérifier que les performances réelles correspondent bien à ce qui est facturé.

UELes équipes de recherche et entreprises IA en France et en Europe qui louent des GPU sur le cloud subissent potentiellement des écarts de performance de 30 à 40 % à tarif égal, alourdissant directement leurs coûts de calcul et leurs délais d'entraînement de modèles.

InfrastructureActu
1 source
Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison
381Next INpact 

Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison

Google a annoncé sa huitième génération de Tensor Processing Units (TPU), ses puces spécialisées dans les calculs d'intelligence artificielle. Pour la première fois dans l'histoire de la gamme, la firme de Mountain View propose deux variantes distinctes basées non plus sur le niveau de performance, mais sur le type d'usage : le TPU v8t, orienté vers l'entraînement des modèles, et le TPU v8i, dédié à l'inférence. C'est une rupture notable avec les générations précédentes, comme les v5e et v5p, qui se différenciaient uniquement par l'efficacité énergétique contre la puissance brute. Cette spécialisation par usage représente un changement de stratégie significatif pour Google. Selon la firme elle-même, "les deux puces peuvent gérer différentes charges de travail, mais la spécialisation permet d'obtenir des gains significatifs". En séparant l'entraînement de l'inférence au niveau matériel, Google cherche à optimiser le rapport performances/coût pour chaque étape du cycle de vie d'un modèle d'IA. Pour les entreprises clientes de Google Cloud, cela se traduit potentiellement par des coûts d'exploitation réduits et une meilleure efficacité dans le déploiement de modèles génératifs à grande échelle. Cette annonce s'inscrit dans une course aux puces IA qui s'est considérablement intensifiée depuis 2018, date des TPU v3. En huit générations, Google a construit une alternative crédible aux GPU de Nvidia, qui dominent encore largement le marché de l'accélération IA. La firme utilise ses TPU en interne pour entraîner ses propres modèles Gemini, ce qui lui confère un avantage compétitif double : maîtrise du hardware et du software. Face à la montée en puissance de concurrents comme les puces Trainium d'Amazon ou les Gaudi d'Intel, la spécialisation des TPU v8 pourrait devenir un argument commercial décisif pour attirer les grandes entreprises vers Google Cloud plutôt que vers AWS ou Azure.

UELes entreprises européennes qui s'appuient sur Google Cloud pour entraîner ou déployer des modèles d'IA pourraient bénéficier d'une réduction des coûts d'exploitation grâce à la spécialisation matérielle des TPU v8.

InfrastructureOpinion
1 source
Tencent et Alibaba négocient une entrée dans DeepSeek à plus de 20 milliards
382Le Big Data 

Tencent et Alibaba négocient une entrée dans DeepSeek à plus de 20 milliards

Tencent et Alibaba sont actuellement en négociation pour prendre une participation au capital de DeepSeek, la startup chinoise d'intelligence artificielle contrôlée par le fonds High-Flyer Capital Management. Selon des informations publiées par The Information, les discussions ont débuté à la mi-avril 2026, initialement autour d'une levée d'au moins 300 millions de dollars pour une valorisation d'environ 10 milliards de dollars. L'intérêt soutenu des investisseurs a rapidement fait grimper les ambitions : la valorisation envisagée dépasse désormais les 20 milliards de dollars. Les actions Alibaba cotées aux États-Unis ont légèrement progressé avant l'ouverture des marchés à l'annonce de ces discussions, signal que les investisseurs perçoivent positivement ce type de rapprochement. Ni le montant final ni la valorisation ne sont toutefois encore arrêtés. Pour Tencent et Alibaba, un investissement dans DeepSeek représente bien plus qu'un pari financier. Les deux groupes cherchent à consolider leur position dans l'IA générative, une technologie qui a déjà transformé leurs activités respectives, du cloud aux services grand public. Tencent, historiquement ancré dans les plateformes sociales et le gaming, entend enrichir ses écosystèmes grâce aux modèles d'IA avancés. Alibaba, de son côté, s'appuie sur l'IA pour soutenir sa division cloud et ses outils B2B. Une prise de participation dans DeepSeek leur permettrait d'accéder à des technologies de pointe dans les modèles de raisonnement et les agents autonomes, deux segments particulièrement gourmands en ressources de calcul et en capitaux. Développer des modèles de nouvelle génération exige en effet des investissements massifs en infrastructure, en données et en puissance de calcul, ce qui explique l'ampleur des montants recherchés. DeepSeek s'est imposé comme un acteur incontournable depuis son lancement en janvier 2025, provoquant à l'époque une véritable onde de choc sur les marchés technologiques mondiaux et obligeant ses concurrents chinois à accélérer leurs propres mises à jour. La startup se distingue par ses avancées dans les modèles de raisonnement et les systèmes autonomes, au coeur de la course à l'IA qui oppose la Chine aux États-Unis. Mais l'opération n'est pas sans risques : DeepSeek n'aurait pas partagé certains de ses modèles avec des fabricants de puces américains et aurait entraîné l'un de ses systèmes les plus avancés sur des technologies Nvidia en dépit des restrictions à l'export imposées par Washington. Ces éléments pourraient susciter des réticences chez certains partenaires internationaux, dans un contexte de tensions technologiques croissantes entre Pékin et Washington. L'entrée de deux géants comme Tencent et Alibaba au capital de DeepSeek marquerait une nouvelle phase dans la consolidation de l'écosystème IA chinois, et renforcerait la capacité du pays à rivaliser avec les leaders mondiaux du secteur.

UELa consolidation de l'écosystème IA chinois autour de DeepSeek pourrait accentuer la pression concurrentielle sur les initiatives européennes d'IA souveraine et affecter l'accès aux modèles open-source DeepSeek pour les entreprises européennes.

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant
383VentureBeat AI 

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Cirrascale Cloud Services a annoncé lors du Google Cloud Next 2026 à Las Vegas un accord élargi avec Google Cloud pour déployer le modèle Gemini en mode entièrement déconnecté, sur des serveurs physiques isolés d'internet. Cirrascale devient ainsi le premier fournisseur de cloud spécialisé à proposer le modèle phare de Google sous forme d'appliance privée, installée soit dans les centres de données de Cirrascale, soit directement dans les locaux du client. Le système repose sur un serveur certifié Google, fabriqué par Dell, équipé de huit GPU Nvidia et protégé par des mécanismes de calcul confidentiel. Une préversion est disponible immédiatement, avec une disponibilité générale attendue en juin ou juillet 2026. Dave Driggers, PDG de Cirrascale, a insisté sur un point clé : il s'agit du modèle Gemini complet, sans aucune restriction ni version allégée, déployé dans un environnement où les données d'entrée comme de sortie restent entièrement sous le contrôle du client. Fait notable sur le plan technique, les poids du modèle résident uniquement en mémoire volatile : dès que l'alimentation est coupée, le modèle disparaît sans laisser de trace persistante. Cette annonce répond à un problème structurel qui bloque depuis des années les secteurs régulés comme la finance, la santé, la défense et les administrations publiques. Ces organisations devaient jusqu'ici choisir entre accéder aux modèles les plus puissants via des API cloud publiques, au risque d'exposer leurs données sensibles à l'infrastructure d'un tiers, ou se contenter de modèles open source moins performants hébergés en interne. Le déploiement Cirrascale entend supprimer ce compromis. Driggers décrit l'escalade du problème de confiance : après les inquiétudes sur les données propriétaires confiées aux hyperscalers, les entreprises ont pris conscience que les prompts et les réponses générées étaient également récupérés par ces mêmes plateformes pour alimenter leurs propres systèmes, ce qui a rendu la demande de souveraineté totale incontournable. Cette évolution s'inscrit dans un mouvement plus large de migration des modèles d'IA frontier hors des centres de données des grands hyperscalers, vers les infrastructures propres des clients, ce qui représente une rupture avec la logique cloud dominante de la dernière décennie. Driggers distingue explicitement cette offre des déploiements on-premises proposés par Microsoft Azure avec les modèles OpenAI ou par AWS Outposts : dans ces cas, les modèles restent liés à l'infrastructure de leurs éditeurs. Ici, Google ne possède pas le matériel, et son modèle fonctionne en dehors de tout réseau Google. Pour le géant de Mountain View, accepter ce niveau de délégation sur son modèle le plus avancé traduit une stratégie commerciale claire : conquérir les marchés réglementés qui lui étaient jusqu'ici fermés, quitte à renoncer au contrôle direct de l'inférence.

UECe mode de déploiement air-gap répond directement aux exigences du RGPD et de l'AI Act en matière de souveraineté des données, ouvrant potentiellement Gemini aux administrations publiques, établissements de santé et institutions financières européennes soumis à des contraintes strictes de localisation et d'isolation des données.

💬 Le truc des poids uniquement en mémoire volatile, c'est la partie que je trouve la plus maligne. Parce que le blocage dans les secteurs régulés c'était pas juste "mes données sortent du réseau", c'était aussi "quelqu'un peut extraire ou copier le modèle", et là, coupe l'alimentation, ça disparaît. Google accepte de perdre le contrôle de l'inférence de son meilleur modèle pour aller chercher des marchés qui lui étaient fermés depuis des années. Ça, c'est un vrai mouvement.

InfrastructureOpinion
1 source
Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA
384Le Big Data 

Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA

Meta et Broadcom ont officialisé le 14 avril 2026 un partenariat stratégique pluriannuel pour bâtir l'une des infrastructures de calcul IA les plus massives jamais conçues. Dès la première phase, la capacité déployée dépasse 1 gigawatt, avec une trajectoire assumée vers plusieurs gigawatts dans les années à venir. Au cœur du dispositif : les puces propriétaires MTIA (Meta Training and Inference Accelerator), conçues pour optimiser à la fois l'entraînement et l'inférence des modèles d'IA. Broadcom fournit l'ensemble de la chaîne matérielle, de la conception des accélérateurs via sa plateforme XPU à leur interconnexion réseau haut débit. La collaboration est prévue pour durer jusqu'en 2029 au moins, avec des générations successives de puces MTIA adaptées aux besoins évolutifs de Meta. Ce partenariat représente un changement d'échelle radical dans la façon dont les grandes plateformes numériques abordent leurs besoins en calcul. Meta ne se contente plus d'acheter des GPU sur étagère : l'entreprise co-conçoit avec Broadcom des accélérateurs taillés sur mesure pour ses propres charges de travail, ce qui permet d'optimiser conjointement la logique de calcul, la gestion mémoire et les transferts de données à haute vitesse. L'enjeu est concret : alimenter des services utilisés quotidiennement par des milliards de personnes, de WhatsApp à Instagram en passant par Threads, tout en réduisant le coût total de possession. Mark Zuckerberg a affiché publiquement l'ambition d'apporter des capacités d'IA avancées à chaque utilisateur, jusqu'à ce qu'il décrit comme une forme de "superintelligence personnelle". À cette échelle, chaque point d'efficacité matérielle se traduit directement en milliards de dollars d'économies ou de capacités supplémentaires. Ce mouvement s'inscrit dans une tendance de fond qui redessine l'industrie du semi-conducteur et des infrastructures cloud. Face à la domination de Nvidia sur le marché des GPU d'IA, les hyperscalers comme Meta, Google ou Amazon investissent massivement dans des puces personnalisées pour réduire leur dépendance à un seul fournisseur et reprendre le contrôle de leur stack matériel. Broadcom, qui accompagne déjà Google avec ses TPU, se positionne comme le partenaire de référence pour ces projets de co-conception à grande échelle. Le choix d'une architecture réseau basée sur Ethernet ouvert plutôt que sur des protocoles propriétaires facilite l'évolutivité et l'intégration dans des data centers existants. Avec des investissements qui se chiffrent désormais en gigawatts plutôt qu'en mégawatts, la course à l'infrastructure IA prend une dimension comparable à celle de l'industrie énergétique, et les prochains trimestres diront si cette stratégie d'hyper-scalabilité donne à Meta l'avantage compétitif recherché face à OpenAI, Google et Microsoft.

InfrastructureOpinion
1 source
« L’IA va nous détruire » : le manifeste du premier terroriste anti-ChatGPT
385Le Big Data 

« L’IA va nous détruire » : le manifeste du premier terroriste anti-ChatGPT

Un homme a lancé un cocktail Molotov contre la résidence de Sam Altman, PDG d'OpenAI, située au 950 Lombard Street à San Francisco, dans le quartier de Russian Hill, une propriété estimée à 27 millions de dollars. L'attaque, survenue début avril 2026, s'inscrit dans le cadre d'un manifeste de 45 pages intitulé « La Dernière Résistance Humaine », diffusé sur X et 4chan, qui appelle au sabotage physique des centres de données et à la destruction des infrastructures d'intelligence artificielle générative. L'assaillant, radicalisé par les thèses néo-luddites, a été placé en garde à vue. Le manifeste identifie 12 sites critiques aux États-Unis, principalement en Californie et en Oregon, hébergeant des clusters de processeurs H100 de Nvidia, et réclame l'arrêt immédiat de l'entraînement de modèles comme GPT-5 ainsi que le démantèlement des infrastructures Microsoft Azure. Le FBI et le Department of Homeland Security classent désormais les extrémistes anti-technologie comme une menace prioritaire. Cet acte marque un tournant dans la perception des risques liés au développement de l'IA : pour la première fois, la violence physique ciblée contre des dirigeants tech s'organise autour d'une idéologie structurée et d'une liste de cibles précises. L'onde de choc a immédiatement atteint les investisseurs de Y Combinator et les dirigeants de Google DeepMind. OpenAI a multiplié son budget sécurité par cinq, déployant un blindage balistique de niveau NIJ III sur les vitres du domicile d'Altman et une garde rapprochée composée d'anciens Navy SEALs, pour un coût supérieur à 800 000 dollars par mois. Des algorithmes de surveillance des forums radicaux ont également été activés. La menace dépasse le cas individuel : elle interroge la capacité des entreprises d'IA à protéger leurs dirigeants et infrastructures dans un climat de défiance croissante. La rhétorique du manifeste est paradoxale : son auteur cite les propres avertissements de Sam Altman et du prix Nobel Geoffrey Hinton sur les risques existentiels de l'intelligence artificielle générale pour légitimer le recours à la violence. Ce retournement sémantique rappelle la trajectoire de Theodore Kaczynski, l'Unabomber, dont le manifeste fut publié par le New York Times en 1995 après une campagne d'attentats contre des universitaires et des compagnies aériennes. Là où les luddites du XIXe siècle s'en prenaient aux métiers à tisser pour protéger leurs emplois, et où Kaczynski visait la société industrielle en général, ce nouveau mouvement cible spécifiquement les architectes des grands modèles de langage et les GPU qui les font tourner. L'analyse de CrowdStrike confirme que le document circule dans des réseaux cryptés et pourrait inspirer des actes similaires, faisant basculer le débat sur les risques de l'IA du registre académique vers celui de la sécurité nationale.

UEL'émergence d'un mouvement néo-luddite violent aux États-Unis pourrait inspirer des actes similaires en Europe, contraignant les entreprises et infrastructures d'IA européennes à renforcer leur sécurité physique.

💬 On savait que la tension montait, mais là on a franchi un cap. Ce qui est glaçant, c'est pas l'acte en lui-même, c'est le manifeste : 45 pages structurées, une liste de 12 cibles précises, une idéologie qui recycle les propres mots d'Altman pour justifier la violence. C'est plus un dérangé isolé, c'est le début d'une doctrine.

SécuritéOpinion
1 source
386Latent Space 

[AINews] Le dernier souffle de l'humanité

La semaine du 3 et 4 avril 2026 a été marquée par une série de lancements techniques majeurs dans l'industrie de l'IA. Google a introduit les "Skills" dans Chrome, permettant aux utilisateurs de transformer des prompts Gemini en actions réutilisables d'un seul clic sur n'importe quelle page web. Google DeepMind a publié Gemini Robotics-ER 1.6, un modèle de raisonnement spatial atteignant 93% de réussite en lecture d'instruments et améliorant la manipulation d'objets contraignants comme les liquides. OpenAI a étendu son programme Trusted Access avec GPT-5.4-Cyber, une version affinée pour les workflows de sécurité défensive. Hugging Face a lancé "Kernels" sur le Hub, des artefacts GPU précompilés affichant des gains de performance de 1,7x à 2,5x sur les bases PyTorch. Cursor, en collaboration avec NVIDIA, a déployé un système multi-agents d'optimisation CUDA atteignant 38% d'accélération en moyenne sur 235 benchmarks. Par ailleurs, Tencent a teasé HYWorld 2.0, un modèle 3D open source capable de générer des scènes éditables à partir d'une seule image, repositionnant les world models comme outils de création 3D plutôt que de génération vidéo. Ces annonces s'inscrivent dans un paradoxe que la newsletter AINews nomme le "Turkey Problem" : les modèles progressent à vitesse record, SWE-Bench est saturé, Mythos (le modèle interne d'Anthropic) atteint 78% sur SWE-Bench Pro, et GDPval évalue GPT-5.4 comme équivalent ou supérieur à des experts humains dans 83% des secteurs économiques, et pourtant les ingénieurs et travailleurs du savoir n'ont jamais été aussi occupés. Aaron Levie, CEO de Box, observe que ses équipes n'ont jamais autant travaillé. Tyler Cowen soutient qu'il faut travailler davantage maintenant, quelle que soit sa position sur l'impact de l'IA. Simon Last de Notion, lui, décrit des nuits sans sommeil liées à "l'anxiété des tokens au niveau agents". Plus les agents produisent, plus les humains courent derrière, du moins pour l'instant. La question sous-jacente est celle du point de bascule : jusqu'où la valeur humaine restera-t-elle "élastique" face à l'automatisation, avant d'atteindre le sort des chevaux après l'invention du moteur à combustion ? Notion travaille sur un benchmark interne baptisé "Notion's Last Exam", les chercheurs Greg Brockman et François Chollet planchent sur ARC-AGI-3, et plusieurs équipes cherchent à définir les prochaines frontières des évaluations en programmation. Mais ces efforts paraissent relativisés par une hypothèse de plus en plus discutée : si l'AGI dépend avant tout de la puissance matérielle, un supercalculateur de 20 gigawatts suffirait à franchir le seuil. L'IA avance vite, les benchmarks tombent les uns après les autres, et l'industrie tente encore de définir ce qui restera hors de portée des machines.

UELe lancement des Kernels par Hugging Face (entreprise française) sur son Hub apporte des gains de performance GPU directs (1,7x à 2,5x) aux développeurs et chercheurs européens utilisant PyTorch.

💬 Le Turkey Problem, c'est ce paradoxe qu'on sent tous mais qu'on arrive pas encore à nommer clairement : les modèles explosent les benchmarks, GPT-5.4 jugé aussi bon que des experts dans 83% des secteurs, et tout le monde bosse plus qu'avant, pas moins. Logique : plus l'outil produit, plus le scope s'élargit, et c'est nous qui courons derrière pour absorber la valeur générée. La comparaison avec les chevaux est là, dans la pièce, et personne n'ose vraiment finir la phrase.

LLMsActu
1 source
Boston Dynamics et Google DeepMind apprennent à Spot à raisonner
387IEEE Spectrum Robotics 

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner

Boston Dynamics annonce l'intégration de Gemini Robotics-ER 1.6, le modèle de raisonnement incarné de Google DeepMind, dans son robot quadrupède Spot. Ce partenariat, rendu public en avril 2026, dote Spot de capacités de raisonnement autonome pour des missions d'inspection industrielle : détection de débris ou de fuites dangereuses, lecture de jauges et de regards de contrôle, et recours à des modèles vision-langage-action (VLA) lorsque la compréhension de l'environnement l'exige. Spot est aujourd'hui déployé à plusieurs milliers d'unités sur sites industriels, ce qui en fait l'une des rares plateformes à pattes ayant atteint une échelle commerciale réelle. Marco da Silva, vice-président et directeur général de Spot chez Boston Dynamics, parle de "réaction aux défis du monde réel de façon entièrement autonome", formulation prudente qui évite les superlatifs, mais qui reflète une ambition opérationnelle concrète. L'enjeu central de cette intégration est la réduction du fossé entre instruction humaine et exécution robot. Carolina Parada, responsable robotique chez Google DeepMind, résume le critère de réussite : "le système doit répondre comme un humain le ferait." Ce standard est plus exigeant qu'il n'y paraît. La vidéo de démonstration de Boston Dynamics l'illustre sans le vouloir : lorsqu'on demande à Spot de "recycler les canettes du salon", il saisit la canette de côté, ce qui serait problématique si elle contenait encore du liquide. Un humain éviterait instinctivement cette erreur en mobilisant des décennies d'expérience incarnée. Cet écart entre raisonnement déclaré et comportement effectif est précisément ce que DeepMind cherche à combler avec son benchmark ASIMOV, un corpus d'exemples en langage naturel décrivant ce qu'un robot ne devrait pas faire, ancré dans une logique de sécurité sémantique. La version actuelle de Spot n'utilise pas encore ces modèles pour la manipulation, mais les versions futures sont censées intégrer ce raisonnement sur la manière sûre de tenir les objets. Boston Dynamics dispose d'une longueur d'avance opérationnelle que peu de concurrents peuvent revendiquer : là où Figure, Agility Robotics ou Apptronik parlent encore de pilotes et de rampes de déploiement, Spot tourne en production dans des raffineries, des usines et des infrastructures critiques depuis plusieurs années. Le choix de Gemini Robotics-ER 1.6 comme couche de raisonnement haut niveau s'inscrit dans la stratégie de Google DeepMind de positionner ses modèles incarnés comme infrastructure pour l'industrie robotique, face aux approches concurrentes de Physical Intelligence (Pi-0), de NVIDIA (GR00T N2) ou de l'écosystème ROS2 open-source. Le vrai test ne sera pas la démo en salon, mais la fiabilité en environnement industriel bruité, sous contraintes de cycle et de disponibilité opérationnelle, des conditions que les benchmarks académiques ne capturent pas encore fidèlement.

UELes opérateurs industriels européens utilisant Spot (raffineries, infrastructures critiques) bénéficieront indirectement de ces capacités de raisonnement autonome, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

AutreOpinion
1 source
Perplexity voit ses revenus grimper de 50% grâce aux agents IA
388Le Big Data 

Perplexity voit ses revenus grimper de 50% grâce aux agents IA

Perplexity, la startup américaine connue pour son moteur de recherche conversationnel, a vu son chiffre d'affaires annuel récurrent (ARR) bondir à 450 millions de dollars en mars 2026, soit une hausse de 50 % en un seul mois. Cette progression fait suite au lancement de Computer, un agent IA capable d'exécuter des tâches concrètes comme effectuer des achats en ligne, résumer l'actualité ou envoyer des e-mails à partir d'instructions en langage naturel. La société a également introduit un nouveau modèle de tarification à l'usage, qui facture les clients au-delà d'un certain quota de crédits, en complément de ses abonnements mensuels allant de 20 à 200 dollars. Perplexity revendique désormais plus de 100 millions d'utilisateurs actifs mensuels et plusieurs dizaines de milliers de clients professionnels. Pour replacer l'ampleur de cette croissance : l'ARR de la société était de 16 millions de dollars il y a deux ans, avant d'atteindre 305 millions début 2026. Ce bond de 50 % en un mois illustre un pivot stratégique majeur : Perplexity ne cherche plus seulement à concurrencer Google sur la recherche d'information, mais à se positionner sur le marché des agents IA autonomes, un segment en pleine explosion. En proposant des outils capables d'agir à la place de l'utilisateur, la startup s'attaque à un marché beaucoup plus vaste et potentiellement plus rentable que la simple requête web. L'ajout du navigateur Comet, qui intègre des fonctionnalités agentiques directement dans la navigation, et de Model Council, qui interroge plusieurs modèles d'IA en parallèle pour comparer leurs réponses, témoigne d'une diversification rapide de l'offre. Pour les entreprises et les professionnels, ces outils représentent une alternative crédible aux assistants IA des géants comme Google ou Microsoft. Cette ascension se déroule pourtant dans un contexte juridique tendu. Perplexity est visée par plusieurs poursuites d'éditeurs de presse, dont le New York Times et Britannica, pour violation de droits d'auteur et plagiat dans le cadre de son moteur de recherche. Une plainte distincte l'accuse également d'avoir partagé des données d'utilisateurs avec Google et Meta sans consentement, ce que la société rejette. Sur le plan financier, la rentabilité reste hors de portée : Perplexity dépend d'OpenAI, d'Anthropic et d'autres fournisseurs externes pour accéder aux modèles de langage, ce qui génère un coût à chaque requête. Malgré cela, les investisseurs maintiennent leur confiance. La valorisation de l'entreprise a atteint 20 milliards de dollars en septembre 2025, contre 500 millions début 2024, avec au capital des noms comme Nvidia, SoftBank, Jeff Bezos et Yann LeCun. La prochaine étape sera de transformer cette traction commerciale en profitabilité durable.

UELes entreprises européennes peuvent évaluer Perplexity comme alternative crédible aux assistants IA dominants, mais les poursuites pour violation de droits d'auteur soulèvent des questions de conformité avec la directive européenne sur le droit d'auteur.

BusinessActu
1 source
Anthropic dévoile Mythos, son modèle d’IA chasseur de failles… réservé à certains
389Next INpact 

Anthropic dévoile Mythos, son modèle d’IA chasseur de failles… réservé à certains

Anthropic a officialisé l'existence de Claude Mythos, un modèle d'intelligence artificielle spécialisé dans la cybersécurité, via le lancement du projet Glasswing. L'annonce est intervenue après plusieurs semaines de rumeurs et la fuite d'un billet de blog qui avait déjà éventé la surprise. Présenté comme plus capable qu'Opus, le modèle phare de la start-up californienne jusqu'alors, Mythos a été conçu pour détecter et exploiter des failles dans des logiciels avec une précision inédite. Son accès est strictement limité à un cercle de partenaires triés sur le volet : AWS, Apple, Google, Microsoft, NVIDIA, Cisco, Broadcom et la fondation Linux font partie des entreprises qui bénéficient d'un aperçu du modèle dans le cadre de Glasswing, un nom inspiré des papillons aux ailes transparentes. Anthropic reconnaît elle-même que Mythos est potentiellement trop dangereux pour une diffusion publique, ses capacités offensives en cybersécurité pouvant constituer une menace réelle si elles tombaient entre de mauvaises mains. En le réservant à de grands acteurs institutionnels et technologiques capables de l'encadrer, l'entreprise entend le transformer en outil défensif : sécuriser des logiciels critiques plutôt qu'en compromettre. Pour les entreprises partenaires, l'enjeu est considérable, car un modèle capable de scanner automatiquement des bases de code à la recherche de vulnérabilités inconnues représente un avantage stratégique majeur face aux attaques croissantes ciblant les infrastructures numériques mondiales. Cette annonce s'inscrit dans un contexte tendu pour Anthropic, frappée simultanément par une autre fuite involontaire concernant Claude Code, attribuée là encore à une "erreur humaine". La coïncidence de ces deux événements nourrit les interrogations sur la gestion interne de l'information chez la startup, fondée en 2021 par d'anciens d'OpenAI. La stratégie de communication autour de Mythos, d'abord entretenue dans le flou avant d'être officialisée sous une forme très contrôlée, intervient alors qu'Anthropic se prépare à une introduction en bourse et cherche à affirmer sa position face à OpenAI dans une compétition de plus en plus féroce. Limiter volontairement l'accès à son modèle le plus puissant, tout en le présentant comme potentiellement dangereux, est une manière de soigner à la fois son image de responsabilité et son aura technologique auprès des investisseurs et du grand public.

UEL'émergence d'un modèle IA dédié à la détection de vulnérabilités logicielles accentue la pression concurrentielle sur les acteurs européens de la cybersécurité et soulève des questions sur l'accès des infrastructures critiques européennes à ces capacités défensives de pointe.

LLMsOpinion
1 source
Anthropic lance un nouveau modèle d'IA pour la cybersécurité
390The Verge AI 

Anthropic lance un nouveau modèle d'IA pour la cybersécurité

Anthropic lance un nouveau modèle d'intelligence artificielle dédié à la cybersécurité, dans le cadre d'un partenariat baptisé Project Glasswing réunissant Nvidia, Google, Amazon Web Services, Apple, Microsoft et d'autres grandes entreprises technologiques. Ce projet propose aux partenaires de lancement un accès à Claude Mythos Preview, un modèle généraliste inédit qu'Anthropic ne prévoit pas de rendre public en raison de préoccupations liées à la sécurité. L'objectif affiché est de permettre aux grandes organisations, et potentiellement aux gouvernements, de détecter automatiquement des vulnérabilités dans leurs systèmes avec une intervention humaine quasi nulle. L'enjeu est considérable pour les équipes de sécurité informatique qui font face à un volume croissant de menaces et manquent souvent de ressources pour les auditer manuellement. En automatisant la détection de failles, Claude Mythos Preview pourrait réduire drastiquement le temps de réponse face aux cyberattaques et permettre aux entreprises d'identifier des vulnérabilités avant que des acteurs malveillants ne les exploitent. Newton Cheng, responsable cyber au sein de l'équipe red team d'Anthropic, indique que le modèle vise à donner aux équipes de sécurité un avantage structurel sur leurs adversaires. Cette initiative s'inscrit dans une tendance de fond où les grands laboratoires d'IA cherchent à positionner leurs modèles sur des secteurs critiques à haute valeur ajoutée. Anthropic, qui se distingue par son approche axée sur la sécurité des systèmes d'IA, choisit ici de restreindre l'accès à ce modèle plutôt que de le diffuser largement, une décision rare qui soulève des questions sur la gouvernance des outils d'IA offensifs et défensifs dans un contexte géopolitique tendu.

UELes organisations européennes et gouvernements de l'UE pourraient accéder à cet outil de détection automatique de vulnérabilités via le programme partenaires, renforçant leur posture de cybersécurité face aux menaces croissantes.

Gemma 4 dépasse les 2 millions de téléchargements
391Latent Space 

Gemma 4 dépasse les 2 millions de téléchargements

Gemma 4, le modèle open source de Google DeepMind, a franchi les 2 millions de téléchargements en moins d'une semaine après son lancement, selon les données compilées par AINews pour la période du 4 au 6 avril 2026. Ce rythme d'adoption est remarquable : à titre de comparaison, Gemma 3 avait totalisé 6,7 millions de téléchargements sur l'ensemble de l'année écoulée, et Gemma 2 avait atteint 1,4 million depuis son lancement en juin 2024. Seul Qwen 3.5, avec environ 27 millions de téléchargements cumulés depuis le lancement de son modèle phare 397B-A17B, dépasse largement ces chiffres. Google a par ailleurs annoncé une keynote dédiée à Gemma 4 depuis Londres dans les prochains jours. Sur le terrain, les signaux d'adoption sont concrets : le modèle Gemma 4 E2B tourne sur iPhone 17 Pro à environ 40 tokens par seconde via MLX, Red Hat a publié des versions quantifiées du modèle 31B en formats NVFP4 et FP8-block, et Ollama a déployé Gemma 4 sur son cloud, adossé aux GPU NVIDIA Blackwell. Ce qui distingue Gemma 4 des précédentes sorties open source, c'est moins sa performance sur les benchmarks que sa capacité à fonctionner directement sur du matériel grand public, en particulier les puces Apple Silicon. Cette dynamique "local-first" crée une pression réelle sur les abonnements payants aux services cloud d'IA : plusieurs observateurs ont souligné que Gemma 4 en local comble suffisamment l'écart de qualité pour rendre un abonnement Claude moins indispensable pour certains usages. HuggingFace héberge gratuitement le modèle, ce qui ouvre la voie à son intégration dans des workflows d'agents sans coût d'inférence. L'ensemble des signaux pointe vers un déplacement structurel : les modèles ouverts ne sont plus seulement des alternatives pour les développeurs expérimentés, ils deviennent des références pour l'inférence en bordure de réseau. Le succès de Gemma 4 illustre également un phénomène plus large : la réussite d'un modèle open source repose désormais autant sur la coordination écosystémique que sur la qualité des poids eux-mêmes. Le lancement a été accompagné d'un soutien simultané de HuggingFace, vLLM, llama.cpp, Ollama, NVIDIA, Unsloth, SGLang, Docker et Cloudflare, une mobilisation rarement vue à cette échelle. En parallèle, Hermes Agent de Nous Research a capté l'attention de la communauté des développeurs d'agents, notamment grâce à sa boucle d'auto-amélioration combinant mémoire persistante et génération autonome de compétences -- une approche qui se distingue d'OpenClaw par son architecture plus opinionée et des compétences définies par les auteurs humains plutôt que générées à la volée. Ces deux dynamiques -- l'essor du local et la maturation des frameworks d'agents open source -- dessinent les contours d'un écosystème IA de plus en plus décentralisé.

UEHuggingFace, entreprise d'origine française, héberge gratuitement Gemma 4, facilitant son intégration dans les workflows européens sans coût d'inférence.

LLMsOpinion
1 source
L'IA est insatiable
392IEEE Spectrum AI 

L'IA est insatiable

L'intelligence artificielle provoque une pénurie mondiale de mémoire informatique, et plus précisément de mémoire à haute bande passante (HBM), un composant spécialement conçu pour alimenter les processeurs d'IA. Les fabricants de puces comme Nvidia et AMD exigent des quantités croissantes de HBM pour chacun de leurs processeurs, sous la pression de géants comme Google, Microsoft, OpenAI et Anthropic, qui financent une expansion sans précédent de leurs centres de données. Le site Hyperion de Meta en Louisiane, prévu à 5 gigawatts, illustre l'ampleur pharaonique de ces infrastructures. La pénurie ne se limite pas à la mémoire : la consommation électrique de l'IA pourrait atteindre 12 % de l'ensemble de la production américaine d'électricité d'ici 2028, tandis que les requêtes d'IA générative, qui ont consommé 15 térawattheures en 2025, devraient grimper à 347 TWh d'ici 2030. Les conséquences de cette tension sur les approvisionnements se répercutent bien au-delà des data centers. La pression des hyperscalers sur la demande en mémoire fait monter les prix de tous les appareils électroniques grand public, y compris des ordinateurs à bas coût comme le Raspberry Pi. Cette inflation technologique est amplifiée par la hausse générale des prix et l'instabilité du régime des droits de douane américains, rendant difficile pour les consommateurs et les entreprises d'évaluer le vrai coût de la pénurie. Pour les industriels de la tech, la contrainte d'approvisionnement oblige à repenser l'architecture des systèmes, potentiellement au détriment des performances. Les trois grands fabricants de HBM sont Micron, Samsung et SK Hynix, et tout ajustement de leur calendrier de production constituerait un signal fort d'un éventuel retour à l'équilibre. Du côté de la demande, les data centers pourraient se tourner vers des équipements sacrifiant une partie des performances pour réduire leur consommation de mémoire, tandis que les startups pourraient être contraintes de repenser leurs produits pour limiter leurs besoins en RAM. Cette pénurie, bien que pénalisante à court terme, pourrait aussi stimuler des innovations inattendues dans la conception de systèmes plus sobres en ressources, une dynamique que les observateurs de l'industrie suivront de près dans les prochains trimestres.

UELa pénurie de mémoire HBM fait monter les prix des composants électroniques en Europe, affectant les consommateurs et les entreprises tech européennes qui dépendent de ces approvisionnements.

💬 Le Raspberry Pi qui augmente à cause des data centers d'OpenAI, c'est le genre d'effet domino qu'on n'anticipe pas. La pression des hyperscalers sur le HBM, ça se répercute sur toute la chaîne, du GPU H100 jusqu'au tinkerer qui commande une carte à 35 euros. Reste à voir si la contrainte d'approvisionnement pousse vraiment vers des architectures plus sobres, ou si c'est juste un argument de comm' le temps que Micron et SK Hynix rattrapent la demande.

InfrastructureOpinion
1 source
Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks
393VentureBeat AI 

Google publie Gemma 4 sous licence Apache 2.0 — un changement de licence qui pourrait compter plus que les benchmarks

Google DeepMind a publié Gemma 4, sa nouvelle famille de modèles ouverts, sous licence Apache 2.0, un changement qui pourrait s'avérer plus décisif que n'importe quel score sur les benchmarks. Jusqu'ici, les versions précédentes de Gemma utilisaient une licence propriétaire avec des restrictions d'usage et des clauses modifiables unilatéralement par Google, ce qui poussait de nombreuses équipes entreprises à lui préférer Mistral ou Qwen d'Alibaba. Avec Gemma 4, Google adopte les mêmes termes permissifs que l'essentiel de l'écosystème open-weight : aucune restriction commerciale, aucune clause d'usage "nuisible" à interpréter juridiquement, redistribution libre. La famille se compose de quatre modèles répartis en deux niveaux. Le niveau "workstation" comprend un modèle dense à 31 milliards de paramètres et un modèle Mixture-of-Experts (MoE) de 26B A4B, tous deux capables de traiter texte et images avec une fenêtre de contexte de 256 000 tokens. Le niveau "edge" propose les modèles E2B et E4B, conçus pour smartphones, appareils embarqués et ordinateurs portables, supportant texte, image et audio avec 128 000 tokens de contexte. Ce changement de licence lève un frein majeur à l'adoption en entreprise. Les équipes juridiques et conformité qui bloquaient le déploiement de Gemma 3 n'auront plus de raison de le faire avec Gemma 4. Sur le plan architectural, le modèle MoE 26B A4B est particulièrement intéressant pour les décideurs IT : ses 25,2 milliards de paramètres totaux n'en activent que 3,8 milliards par inférence, ce qui lui permet de délivrer des performances comparables à un modèle dense de 27 à 31 milliards de paramètres, mais à la vitesse et au coût de calcul d'un modèle de 4 milliards. Pour les organisations qui opèrent des assistants de code, des pipelines de traitement documentaire ou des workflows agentiques multi-tours, cela se traduit directement par moins de GPU nécessaires, une latence réduite et un coût par token inférieur. Google propose également des checkpoints QAT (Quantization-Aware Training) pour maintenir la qualité à précision réduite, et les deux modèles "workstation" sont déjà disponibles en configuration serverless sur Google Cloud via Cloud Run avec des GPU NVIDIA RTX Pro 6000. Ce lancement s'inscrit dans une dynamique de marché significative. Alors que certains laboratoires chinois, dont Alibaba avec ses derniers modèles Qwen 3.5 Omni et Qwen 3.6 Plus, commencent à restreindre l'accès à leurs modèles les plus récents, Google fait le mouvement inverse en ouvrant pleinement son modèle le plus capable à ce jour, dont l'architecture s'inspire directement de la recherche derrière Gemini 3, son modèle commercial phare. Le choix des 128 petits experts dans le MoE plutôt qu'une poignée de grands experts reflète une optimisation délibérée pour les coûts d'inférence en production, un signal que Google cible désormais sérieusement les déploiements à grande échelle hors de ses propres infrastructures. Gemma 4 devrait apparaître rapidement dans des outils comme Ollama et LM Studio, ce qui accélérera encore son adoption.

UELa licence Apache 2.0 lève les blocages juridiques qui freinaient l'adoption de Gemma dans les entreprises européennes soumises à des obligations de conformité strictes.

💬 La licence Apache 2.0, c'est ce qui va faire la différence, pas les scores. Les équipes juridiques qui bloquaient Gemma 3 n'ont plus d'argument valable, et le MoE 26B qui n'active que 4B de paramètres à l'inférence, c'est du GPU économisé pour de vrai, pas du marketing. Reste à voir si Google tient la promesse de qualité à precision réduite sur des pipelines en production, mais l'angle est le bon.

LLMsOpinion
1 source
OpenAI scénarise son IPO et conclut son tour sur un cliffhanger à 852 milliards de dollars
394FrenchWeb 

OpenAI scénarise son IPO et conclut son tour sur un cliffhanger à 852 milliards de dollars

OpenAI vient de boucler son dernier tour de financement à une valorisation de 852 milliards de dollars, un record absolu pour une entreprise privée dans le secteur technologique. Ce tour, piloté par Sam Altman avec une précision narrative remarquable, intervient quelques mois avant une introduction en bourse attendue pour la fin de l'année 2026. Le montant exact levé n'a pas été divulgué, mais la valorisation place OpenAI au rang des entreprises les plus précieuses au monde, devant des géants établis depuis des décennies. Cette valorisation stratosphérique n'est pas anodine : elle conditionne directement les termes de l'IPO à venir et verrouille les attentes des investisseurs institutionnels. À 852 milliards, OpenAI se positionne pour viser le trillion de dollars en bourse, un seuil symbolique que seuls Apple, Nvidia, Microsoft et quelques autres ont franchi. Pour les acteurs de l'IA — startups, investisseurs, concurrents — ce chiffre envoie un signal fort sur la prime accordée au leadership dans ce secteur, et renforce la pression sur Anthropic, Google DeepMind et Meta pour justifier leurs propres valorisations. Ce tour de table s'inscrit dans une transformation structurelle d'OpenAI, en cours depuis 2024 : la société a entamé sa conversion de statut à but non lucratif vers une structure commerciale classique, condition sine qua non d'une cotation en bourse. Sam Altman orchestre chaque étape comme un récit feuilletonnant — tours de table, restructurations, annonces produits — pour maintenir l'élan narratif et les valorisations. L'IPO, si elle aboutit, serait l'une des plus importantes de la décennie dans la tech.

UELa valorisation record d'OpenAI à 852 milliards de dollars accentue la pression sur les acteurs européens de l'IA, notamment Mistral, pour justifier leurs propres valorisations auprès des investisseurs institutionnels européens.

💬 852 milliards avant l'IPO, c'est une mise en scène autant qu'une réalité financière. Altman sait que le chiffre qui précède la bourse devient le plancher psychologique des attentes, et viser le trillion dès la cotation, c'est courageux ou inconscient, peut-être les deux. Ce qui me frappe surtout, c'est la pression que ça met sur Mistral et les autres européens : expliquer ta valorisation quand OpenAI écrase tout le monde à 852 Mds, bonne chance.

BusinessOpinion
1 source
Cette IA peut créer de nouveaux génomes
395Sciences et Avenir Tech 

Cette IA peut créer de nouveaux génomes

Evo 2 est un modèle d'IA générative développé par l'Arc Institute en collaboration avec NVIDIA, entraîné sur 9,3 trillions de nucléotides provenant de plus de 128 000 organismes. Capable de lire, comprendre et reproduire le langage génétique, il peut désormais générer des séquences d'ADN entièrement nouvelles — des génomes fonctionnels qui n'existent pas dans la nature — avec une précision sans précédent à l'échelle du génome complet. Cette capacité représente un tournant pour la biologie de synthèse et la médecine. Concevoir des génomes sur mesure ouvre la voie à la création de micro-organismes capables de produire des médicaments, décomposer des polluants ou synthétiser des matériaux biologiques complexes. Pour la recherche médicale, cela accélère potentiellement la découverte de thérapies géniques ciblées, en permettant aux chercheurs d'explorer des espaces génétiques que l'évolution naturelle n'a jamais atteints. Ce développement s'inscrit dans une vague de modèles de fondation biologiques — après AlphaFold pour les protéines, l'IA s'attaque désormais à l'ADN lui-même. La course implique des acteurs comme Google DeepMind, Genentech et plusieurs startups de biotech computationnelle. Les enjeux éthiques sont considérables : la capacité de synthétiser des génomes inédits soulève des questions de biosécurité qui poussent déjà régulateurs et scientifiques à débattre de cadres de gouvernance adaptés.

UELes enjeux de biosécurité soulevés par la synthèse de génomes inédits poussent déjà les régulateurs européens à envisager des cadres de gouvernance spécifiques, potentiellement intégrés à l'AI Act ou à la législation biotech de l'UE.

RecherchePaper
1 source
136 cœurs, 3 nm… Arm dévoile une première puce bien à lui, et elle dépote
396Frandroid 

136 cœurs, 3 nm… Arm dévoile une première puce bien à lui, et elle dépote

Arm, connu jusqu'ici comme vendeur de propriété intellectuelle pour ses architectures de puces, franchit un cap inédit en lançant son propre processeur physique. Fabriquée en partenariat avec Meta, cette puce embarque 136 cœurs et une gravure en 3 nm, la plaçant d'emblée dans le haut de gamme des semi-conducteurs actuels. Cette entrée en matière marque un tournant stratégique pour Arm, qui sort de son rôle de fournisseur de licences pour devenir acteur du matériel. La puce est conçue spécifiquement pour l'IA agentique, un segment en pleine explosion où la puissance de calcul et l'efficacité énergétique sont décisives. Le partenariat avec Meta n'est pas anodin : le géant américain investit massivement dans ses propres infrastructures d'IA pour réduire sa dépendance aux fournisseurs externes comme Nvidia ou Qualcomm.

UELe pivot d'Arm vers le hardware souverain représente un signal fort pour l'industrie des semi-conducteurs, alors que l'Europe cherche à renforcer sa propre capacité de production via le Chips Act européen.

InfrastructureActu
1 source
Le premier CPU signé Arm va équiper les datacenters IA de Meta plus tard cette année
397The Verge AI 

Le premier CPU signé Arm va équiper les datacenters IA de Meta plus tard cette année

Arm a dévoilé son tout premier processeur maison, l'Arm AGI CPU, conçu pour l'inférence IA dans les datacenters. Meta en est le premier client et co-développeur, prévoyant de collaborer sur "plusieurs générations" de ces CPU aux côtés de matériel Nvidia et AMD. Ce lancement marque un tournant historique pour Arm, qui s'était jusqu'ici limité à la vente de licences de ses architectures.

InfrastructureActu
1 source
The Download : l'accord militaire d'OpenAI avec les États-Unis et le procès de Grok pour CSAM
398MIT Technology Review 

The Download : l'accord militaire d'OpenAI avec les États-Unis et le procès de Grok pour CSAM

OpenAI a conclu un accord controversé avec le Pentagone pour intégrer son IA dans des outils militaires, y compris potentiellement la sélection de cibles de frappe — une première pour l'IA générative, testée activement en Iran. Parallèlement, xAI est poursuivi en justice pour la génération de contenus pédopornographiques via Grok, et Anthropic recrute un expert en armes chimiques pour prévenir les usages catastrophiques de son IA. Nvidia prédit au moins 1 000 milliards de dollars de revenus en puces IA d'ici fin 2027, malgré une réaction tiède de Wall Street.

UECes développements renforcent la pression sur l'UE pour préciser, dans le cadre de l'AI Act, l'encadrement des usages militaires de l'IA générative et la responsabilité des fournisseurs de modèles face aux contenus illicites.

SécuritéActu
1 source
Ce que l'accord Meta-Nebius révèle
399The Information AI 

Ce que l'accord Meta-Nebius révèle

Nebius, une entreprise néerlandaise de centres de données, a vu son action bondir de 15% après avoir annoncé un accord avec Meta Platforms portant sur jusqu'à 27 milliards de dollars sur plusieurs années pour la location de capacités cloud. Malgré un budget de 125 milliards de dollars prévu en dépenses d'investissement cette année pour ses propres infrastructures IA, Meta se tourne vers des prestataires externes pour répondre à ses besoins immédiats en capacité de calcul. Cet accord illustre la pression croissante sur l'ensemble de la chaîne d'approvisionnement IA, comme l'a souligné Jensen Huang lors de la conférence GTC de Nvidia.

UEL'accord profite directement à Nebius, entreprise néerlandaise cotée, confirmant le rôle croissant des acteurs européens d'infrastructure cloud dans la chaîne d'approvisionnement IA mondiale.

BusinessOpinion
1 source
Yann LeCun lance AMI Labs et lève 1,03 milliard pour créer des modèles du monde
400Le Big Data 

Yann LeCun lance AMI Labs et lève 1,03 milliard pour créer des modèles du monde

Yann LeCun a cofondé AMI Labs, qui vient de lever 1,03 milliard de dollars pour une valorisation pré-monétaire de 3,5 milliards, avec le soutien de Nvidia, Samsung, Toyota Ventures et Temasek. L'entreprise vise à développer des "modèles du monde" basés sur l'architecture JEPA (Joint Embedding Predictive Architecture), une alternative aux LLMs capables d'apprendre directement de la réalité plutôt que du texte. Sans objectif de revenus à court terme, AMI Labs adoptera une approche de recherche fondamentale sur plusieurs années, avec Nabla comme premier partenaire de test.

UELa startup française Nabla, choisie comme premier partenaire de test d'AMI Labs, bénéficie d'un accès privilégié aux travaux pionniers du chercheur français Yann LeCun sur les modèles du monde, renforçant potentiellement sa position dans l'IA médicale européenne.

RechercheActu
1 source