Aller au contenu principal

Dossier NVIDIA — page 7

856 articles · page 7 sur 18

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

Amélioration du fine-tuning des modèles VLA par supervision structurée des étapes et des images clés
301arXiv cs.RO RechercheOpinion

Amélioration du fine-tuning des modèles VLA par supervision structurée des étapes et des images clés

Des chercheurs ont publié sur arXiv (arXiv:2606.26801, juin 2026) un framework auxiliaire baptisé StaKe, conçu pour améliorer le fine-tuning des modèles Vision-Language-Action (VLA) en manipulation robotique. Le problème ciblé est précis : lors du fine-tuning standard, la supervision sur les actions s'applique uniformément à chaque pas de temps, sans distinguer les phases critiques de manipulation ni anticiper les transitions de préhenseur (gripper events). La quasi-totalité des échecs se concentre autour de ces moments de transition, ouverture ou fermeture du préhenseur. StaKe introduit deux têtes auxiliaires légères entraînées en parallèle du modèle VLA sans modifier son architecture ni sa boucle d'inférence : un classifieur de phase (stage classifier) qui identifie l'étape courante de manipulation, et un prédicteur de keyframe qui estime l'action articulaire cible au prochain événement de préhenseur. Les deux signaux sont extraits automatiquement depuis les états du gripper dans les démonstrations, sans annotation manuelle. Sur tâches bimanual en simulation, StaKe améliore le taux de succès de 14 % en relatif ; sur robot réel Franka à un bras, le gain atteint 56 % en relatif. Les améliorations sont plus marquées sur les tâches long-horizon impliquant de nombreuses transitions. L'enjeu pour l'industrie robotique est direct : les VLA (Pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA) sont aujourd'hui les modèles de référence pour la généralisation en manipulation, mais leur fine-tuning sur des tâches spécifiques reste fragile dès que les séquences s'allongent. StaKe comble un angle mort structurel de l'entraînement supervisé classique, en pondérant implicitement les moments critiques. Le gain de 56 % mesuré sur robot réel Franka est le résultat le plus significatif : les validations sur hardware réel restent rares dans la littérature VLA, et ce chiffre suggère que l'amélioration ne se limite pas à la simulation. Le fait que le framework soit purement plug-in, sans toucher à l'inférence, facilite son intégration par des équipes qui fine-tunent déjà des backbones existants. Les VLA ont émergé comme paradigme dominant après RT-2 (Google DeepMind, 2023) et se sont accélérés avec Pi-0 (Physical Intelligence, fin 2024) et ses successeurs. Le défi du fine-tuning efficace sur tâches longues est aujourd'hui l'un des principaux points de friction pour le déploiement industriel de bras manipulateurs polyvalents. StaKe se positionne comme contribution générique applicable à tout backbone VLA. Un site projet est annoncé (hi-yuanxu.github.io/StaKe-Web) ; à ce stade, aucun partenariat industriel ni déploiement terrain n'est mentionné. Il s'agit d'une publication académique, pas d'un produit en disponibilité commerciale.

UELes équipes françaises et européennes travaillant sur le fine-tuning de modèles VLA (INRIA, CEA-List, laboratoires universitaires) peuvent intégrer ce framework plug-in directement dans leurs pipelines existants sans modification architecturale.

1 source
Élagage spatio-temporel de tokens visuels conditionné par l'historique pour une navigation vision-langage efficace
302arXiv cs.RO 

Élagage spatio-temporel de tokens visuels conditionné par l'historique pour une navigation vision-langage efficace

Une équipe de chercheurs propose, dans un preprint arXiv (référence 2603.06480, version 2, 2026), un framework de pruning spatio-temporel des tokens visuels conçu pour réduire la latence d'inférence des modèles Vision-Language-Action (VLA) appliqués à la navigation robotique guidée par langage naturel (Vision-Language Navigation, VLN). L'approche est sans réentraînement : elle ne modifie pas les poids des modèles sources et s'intègre en plug-and-play dans tout pipeline VLA existant. Deux mécanismes la composent : une sélection spatiale des tokens sur la vue courante, pilotée par les scores d'attention interne du modèle, et une compression spatio-temporelle des mémoires visuelles historiques accumulées au fil du déplacement. Les expériences sur les benchmarks VLN standards montrent une supériorité sur les stratégies de pruning existantes, y compris sous compression extrême où la majorité des tokens sont éliminés. Un déploiement en conditions réelles sur un robot quadrupède commercial Unitree Go2 valide la fiabilité et la faible latence du suivi d'instructions. Le verrou industriel que cette méthode adresse est bien identifié : les grands modèles VLA, dont les performances sur benchmark sont désormais reconnues (Pi-0 de Physical Intelligence, GR00T N2 de Nvidia), génèrent des délais d'inférence souvent incompatibles avec un déploiement embarqué en temps réel. Ni la quantification post-training ni la distillation de modèles ne permettent d'éviter un réentraînement coûteux, ce qui freine l'industrialisation. La compatibilité plug-and-play de cette approche constitue un levier concret pour les intégrateurs souhaitant réduire le délai entre prototype de recherche et déploiement terrain, sans dépendance à l'équipe ayant entraîné le modèle source. La VLN est l'une des capacités les plus exigeantes de la robotique embodied, car elle suppose qu'un robot navigue dans un espace non balisé en interprétant des consignes verbales ambiguës et changeantes, sans cartographie prédéfinie. Le Unitree Go2, quadrupède commercialisé à moins de 20 000 dollars par Unitree Robotics (Shenzhen, Chine), s'est imposé comme un banc de test de référence dans la recherche académique grâce à son coût d'accès. Les approches concurrentes pour atténuer la latence des VLA, dont l'attention sparse et la distillation, restent plus intrusives sur les architectures sources. Les prochaines étapes logiques incluront l'extension du framework à des modèles VLA plus larges et à des scénarios de navigation longue distance en environnement extérieur non contrôlé.

💬 Les grands modèles VLA (Pi-0, GR00T...) cartonnent sur benchmark, mais tu sais ce que ça donne en temps réel sur du matériel embarqué : latence incompatible, déploiement impossible. Ce framework de pruning corrige ça sans retoucher les poids, plug-and-play, et j'aime qu'ils aient validé sur un Go2 à 20k€ plutôt que dans un labo sous vide. Pour les intégrateurs, c'est enfin une brique qui permet de passer d'un proto de recherche au terrain sans dépendre de l'équipe qui a entraîné le modèle source.

RobotiqueOpinion
1 source
SAGE-Nav : planification LLM et fusion d'alignement pour la navigation par graphe de scène hiérarchique
303arXiv cs.RO 

SAGE-Nav : planification LLM et fusion d'alignement pour la navigation par graphe de scène hiérarchique

Des chercheurs ont publié le 25 juin 2026 sur arXiv (réf. 2606.25497) SAGE-Nav, un système de navigation autonome pour robots incarnés capable de localiser des objets spécifiés à partir de la seule perception visuelle égocentrique. L'architecture découple explicitement deux boucles temporelles : une planification globale sémantique assurée par un LLM, et un contrôle réactif basse latence. Le LLM décompose une instruction abstraite ("trouve la tasse dans la cuisine") en une séquence de waypoints sémantiquement ancrés. Deux modules originaux assurent la traduction en commandes : un encodeur de graphe de scène hiérarchique (HSGE) fondé sur des convolutions de graphes relationnelles, et un réseau de fusion GAFN qui combine perception temps réel et représentations structurées via un mécanisme de gating adaptatif à biais inductif explicite. Les évaluations conduites dans les simulateurs i-THOR et RoboTHOR affichent des performances à l'état de l'art en efficacité de navigation et en généralisation zero-shot vers des environnements non vus à l'entraînement. L'apport central est architectural : en séparant planification haute latence (LLM) et boucle de contrôle haute fréquence, SAGE-Nav évite le goulot d'étranglement qui pénalise les approches monolithiques de type VLA (Vision-Language-Action) sur des plateformes embarquées temps-réel. La généralisation zero-shot est un indicateur industriel critique car elle conditionne directement l'utilité d'un robot dans des entrepôts, hôpitaux ou espaces de bureau non cartographiés à l'avance. Le mécanisme GAFN répond concrètement au problème de cohérence entre carte sémantique construite offline et perception temps réel, un défi que les méthodes classiques d'exploration-planification traitent mal. La navigation orientée-objet (ObjNav) est un benchmark central de l'IA incarnée depuis la plateforme AI2-THOR de l'Allen Institute. SAGE-Nav s'inscrit dans la tendance qui instrumentalise les LLMs comme planificateurs symboliques plutôt que contrôleurs directs, approche défendue aussi par SayPlan (2023) et NavGPT. Limite importante : les évaluations restent confinées aux simulateurs, et aucun déploiement physique n'est rapporté malgré une mention de latence "compatible avec le matériel réel". Le gap sim-to-real demeure non adressé dans ce papier. Les concurrents directs incluent les architectures VLA bout-en-bout comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui font le pari inverse de la séparation planification/contrôle. Une validation sur plateformes physiques (Spot, Hello Robot Stretch) constituerait la prochaine étape naturelle.

RobotiquePaper
1 source
À 45°C, une percée pour refroidir les plus grandes machines de l'IA
304NVIDIA AI Blog 

À 45°C, une percée pour refroidir les plus grandes machines de l'IA

La nouvelle génération de serveurs IA de NVIDIA, la plateforme Rubin, franchit un cap technologique en devenant la première infrastructure de calcul à atteindre 100 % de refroidissement liquide, chaque puce, chaque composant réseau, sans le moindre ventilateur. Le liquide de refroidissement circule dans un circuit fermé à une température pouvant atteindre 45 degrés Celsius, soit 13 degrés de plus que la température habituelle d'un jacuzzi. Cette architecture est formalisée dans le NVIDIA DSX AI Factory Reference Design, un guide de référence pour concevoir, construire et exploiter l'ensemble de la pile d'infrastructure d'une usine d'IA. Ali Heydari, directeur du refroidissement et de l'infrastructure de centres de données chez NVIDIA, résume l'ambition : « Nous avons éliminé d'énormes quantités de consommation électrique et pratiquement toute consommation d'eau. » L'enjeu économique et environnemental est considérable. Historiquement, le seul refroidissement représente jusqu'à 40 % de la consommation électrique d'un centre de données, l'un des postes où les gains d'efficacité ont le plus d'impact. Les estimations sectorielles indiquent qu'augmenter la température des systèmes de refroidissement d'un seul degré réduit les coûts énergétiques associés d'environ 4 %. À l'échelle d'une installation hyperscale de 50 mégawatts, le passage à une infrastructure entièrement refroidie par liquide génère plus de 4 millions de dollars d'économies annuelles sur les coûts d'énergie et d'eau. Plus frappant encore : les centres de données conventionnels à refroidissement par air consomment environ 2,6 millions de gallons d'eau par mégawatt et par an via leurs tours de refroidissement évaporatives. L'architecture à 45°C de NVIDIA ramène ce chiffre à zéro dans la plupart des conditions climatiques, grâce à des refroidisseurs à sec en circuit fermé qui n'ont pas besoin de chiller la majorité de l'année. Ce virage technologique s'inscrit dans une trajectoire inévitable. Pendant des décennies, l'industrie a cru qu'un centre de données froid était un centre de données efficace, une idée désormais caduque face à la densité de puissance des puces IA modernes. Richard Whitmore, président et PDG de Motivair, la division de refroidissement avancé de Schneider Electric, partenaire de longue date de NVIDIA, le dit sans détour : « Une fois que la consommation par puce a dépassé un certain seuil, le refroidissement liquide est devenu obligatoire. » Comme la plateforme Rubin impose le 100 % liquide à l'ensemble de l'écosystème, chaque opérateur de cloud et exploitant de centre de données qui s'y connecte adopte de facto cette nouvelle norme. L'ère du refroidissement par air pour l'IA de pointe touche à sa fin.

UELes opérateurs de centres de données français et européens devront planifier une migration vers le refroidissement liquide pour rester compétitifs et se conformer aux objectifs d'efficacité énergétique et hydrique imposés par les réglementations européennes sur les data centers.

InfrastructureOpinion
1 source
Voice AI : DeepL s’implante dans la Silicon Valley et intègre la technologie Mixhalo
305Le Big Data 

Voice AI : DeepL s’implante dans la Silicon Valley et intègre la technologie Mixhalo

DeepL a annoncé le 17 juin 2026 l'intégration de l'équipe et de la technologie de Mixhalo, une startup californienne fondée en 2016 spécialisée dans la diffusion audio haute fidélité à très faible latence. Simultanément, l'entreprise allemande inaugure son premier bureau à San Francisco, renforçant ainsi sa présence sur le marché américain où près de 50 % des entreprises du Fortune 500 utilisent déjà ses solutions, parmi lesquelles NVIDIA, Cisco et le Nasdaq. Mixhalo n'est pas un acteur inconnu : sa technologie d'infrastructure audio est déjà déployée lors de grands événements comme le CES, le Mobile World Congress, le Databricks AI Summit, ou encore dans les compétitions MLB et NASCAR, capable de diffuser un son de qualité à des milliers de personnes simultanément avec un délai quasi imperceptible. L'API DeepL Voice alimentait déjà les fonctionnalités de traduction en temps réel de la plateforme Mixhalo avant ce rapprochement officiel. Cet accord transforme la portée de DeepL Voice, jusqu'ici surtout positionné sur les réunions et conversations professionnelles. En combinant ses modèles de traduction avec l'infrastructure de Mixhalo, DeepL peut désormais proposer des traductions vocales et des sous-titres en temps réel à des publics de plusieurs milliers de personnes, tout en conservant le rythme naturel de l'orateur. Concrètement, un participant japonais, français ou allemand pourrait suivre un discours international sans ressentir de décalage perceptible. C'est un changement de dimension significatif : la qualité d'un modèle d'IA ne suffit pas si l'audio arrive avec plusieurs secondes de retard. La latence est le vrai goulot d'étranglement dans la traduction vocale à grande échelle, et Mixhalo résout précisément ce problème. Des expérimentations sont également en cours dans le support client via des intégrations comme Amazon Connect. DeepL, valorisée deux milliards de dollars lors de sa dernière levée de fonds, se positionne sur un marché de la Voice AI en pleine effervescence, où les acteurs historiques de la visioconférence et les nouveaux spécialistes de l'IA conversationnelle se livrent une concurrence croissante. L'implantation à San Francisco n'est pas symbolique : elle rapproche l'entreprise de ses grands comptes technologiques, de l'écosystème des développeurs et des organisateurs d'événements internationaux qui constituent sa cible naturelle pour DeepL Voice. En absorbant Mixhalo plutôt qu'en développant cette capacité en interne, DeepL accélère brutalement sa feuille de route et acquiert une technologie déjà éprouvée en production à grande échelle. La prochaine étape logique sera d'intégrer ces capacités dans des plateformes de relation client et des outils de conférence, des segments où la barrière de la langue reste un frein réel pour les entreprises opérant à l'international.

UEL'acquisition de Mixhalo renforce la position de DeepL, champion européen de la traduction IA valorisé 2 milliards de dollars, dans la course mondiale à la Voice AI temps réel à grande échelle.

💬 La qualité d'un modèle IA ne vaut rien si l'audio arrive avec 3 secondes de retard, et c'est le problème que tout le monde dans la Voice AI faisait semblant de ne pas voir. DeepL rachète la solution plutôt que de la reconstruire, gagne deux ans sur sa feuille de route. San Francisco en prime, c'est pas du symbole : c'est là que sont leurs grands comptes.

OutilsOutil
1 source
Derrière OpenAI, la montée silencieuse des modèles chinois
306FrenchWeb 

Derrière OpenAI, la montée silencieuse des modèles chinois

L'article fourni est tronqué après la première phrase, ce qui ne me laisse que l'intro pour travailler. Voici tout de même un article autonome basé sur le contenu disponible et la thèse annoncée : --- Pendant que les projecteurs restent braqués sur OpenAI, Anthropic et Google DeepMind, les modèles d'intelligence artificielle chinois gagnent du terrain en silence dans les couches les plus profondes de l'écosystème IA mondial. Des acteurs comme DeepSeek, Qwen (Alibaba) ou Baidu s'imposent progressivement dans les benchmarks techniques et, surtout, dans les intégrations d'entreprises, souvent sans faire la une des médias occidentaux. En 2025, DeepSeek R1 a provoqué un séisme en affichant des performances comparables à GPT-4 à une fraction du coût de développement. L'enjeu n'est pas symbolique : ce sont les modèles intégrés dans les outils, les API et les infrastructures qui définissent les standards de demain. Un modèle adopté massivement aujourd'hui crée une dépendance technique qui dure des années. Pour les entreprises européennes et américaines, choisir un modèle chinois bon marché et performant pose des questions de souveraineté des données, de sécurité et de conformité réglementaire que peu ont encore pleinement anticipées. Cette montée en puissance s'inscrit dans une stratégie délibérée de Pékin, qui finance massivement la recherche en IA depuis son plan national de 2017. Les restrictions américaines sur les puces Nvidia ont accéléré l'innovation domestique plutôt que de la freiner. La vraie compétition dans l'IA n'oppose pas seulement des modèles, mais deux visions de l'internet et deux blocs géopolitiques qui se disputent l'infrastructure cognitive de la prochaine décennie.

UELes entreprises européennes qui adoptent des modèles chinois bon marché s'exposent à des risques de souveraineté des données et de non-conformité avec le RGPD et l'AI Act, une problématique encore largement sous-estimée dans le secteur.

💬 DeepSeek à niveau GPT-4 pour une fraction du budget, dur de ne pas s'y intéresser. Ce qui m'inquiète, c'est pas le modèle lui-même, c'est que les boîtes qui l'adoptent aujourd'hui construisent une dépendance dont elles sortiront difficilement dans cinq ans, avec des questions de souveraineté des données que la plupart n'ont pas encore posées. Les restrictions américaines sur les puces ont accéléré exactement ce qu'elles voulaient freiner.

SociétéOpinion
1 source
Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots
307Interesting Engineering 

Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots

Alibaba a annoncé en juin 2026 le lancement de la suite Qwen-Robot, sa première famille de modèles d'IA dite "embodied", développée par son Tongyi Lab et actuellement en phase de pilote avec des clients entreprise d'Alibaba Cloud. La suite repose sur trois modèles spécialisés : Qwen-RobotNav pour la navigation et le suivi de cibles, Qwen-RobotManip pour la manipulation d'objets physiques, et Qwen-RobotWorld pour la modélisation de l'environnement et la prédiction des conséquences d'actions. Le groupe a également publié Qwen-RobotClaw, un framework d'agents qui expose les modèles Qwen-Robot comme outils accessibles à des agents LLM, ainsi que Chat2Robot, une plateforme open-source en navigateur pour tester des interactions avec des robots physiques. Sur le plan des performances déclarées, Qwen-RobotManip a été entraîné sur plus de 38 000 heures de données open-source et a obtenu sur le benchmark RoboChallenge un process score de 59,83 avec un taux de succès de tâches de 45 % dans la catégorie "généraliste". La démonstration de navigation a mis en scène un quadrupède Unitree Go2 équipé d'un NVIDIA Jetson Thor et d'une seule caméra basse résolution, atteignant une latence d'inférence de 196 millisecondes dans un appartement inconnu, sans carte préchargée. Ces résultats méritent d'être lus avec prudence : un taux de succès de 45 % sur un benchmark réel, s'il est confirmé en conditions non contrôlées, reste modeste mais significatif pour un modèle généraliste. Le vrai signal industriel n'est pas le score brut, c'est l'approche architecturale : au lieu de fusionner indifféremment données de navigation, bras robotiques, caméras et véhicules autonomes, Alibaba a opté pour une spécialisation par modalité, évitant les conflits d'apprentissage que génère le mélange hétérogène de données physiques. Pour les intégrateurs et décideurs B2B, la disponibilité via Alibaba Cloud en pilote marque un premier pas vers la commercialisation d'une couche d'IA robotique as-a-service, potentiellement utilisable sur du matériel tiers sans pipeline de training propriétaire. Alibaba entre dans une course déjà engagée par plusieurs acteurs de premier plan. Aux États-Unis, Google DeepMind fait avancer Gemini Robotics sur des architectures Vision-Language-Action (VLA) similaires, tandis que Physical Intelligence (Pi-0), Figure AI (Figure 03) et Boston Dynamics misent sur des pipelines de données propriétaires et des déploiements industriels réels. NVIDIA pousse son framework GR00T N2 comme socle hardware-logiciel pour l'humanoid. Côté chinois, Unitree et Agibot ont déjà des robots en production, mais sans la couche LLM intégrée qu'Alibaba apporte. L'open-sourcing de Chat2Robot et les pilotes cloud suggèrent une stratégie d'écosystème : capter les développeurs et intégrateurs autour des modèles Qwen-Robot avant que le marché des robots généraux ne se consolide, probablement d'ici 2027-2028 selon les timelines annoncées par les principaux concurrents.

UEL'entrée d'Alibaba dans l'IA robotique cloud-as-a-service intensifie la pression concurrentielle mondiale, sans déploiement ni partenariat européen annoncé à ce stade.

💬 45 % de réussite sur un benchmark généraliste, c'est pas brillant, je sais, mais tu regardes au mauvais endroit. Le vrai signal, c'est l'architecture : trois modèles spécialisés par modalité plutôt qu'un gros fourre-tout, parce que mélanger navigation, manipulation et caméras dans le même pipeline, ça crée des conflits d'apprentissage que tout le monde a sous-estimés depuis le début. Alibaba ne cherche pas à gagner les benchmarks robotiques, ils cherchent à s'installer comme la couche cloud entre le matériel tiers et l'IA physique avant que le marché se consolide.

RobotiqueOpinion
1 source
Les puces IA moins coûteuses d'Amazon séduisent les entreprises
308The Information AI 

Les puces IA moins coûteuses d'Amazon séduisent les entreprises

Les puces d'IA maison d'Amazon séduisent un nombre croissant d'entreprises grâce à un argument massue : le prix. Selon Karol Piatek, consultant en infrastructure IA au cabinet irlandais Co Driver Labs, l'utilisation des puces Inferentia2 et Trainium2 d'Amazon pour exécuter des modèles d'IA existants, ce qu'on appelle l'inférence, peut coûter jusqu'à 80 % moins cher que les H100 de Nvidia, à charge de travail comparable. Amazon multiplie depuis plusieurs mois les discussions avec des entreprises gérant leurs propres centres de données pour leur proposer ces alternatives : Trainium pour l'entraînement de nouveaux modèles, Inferentia pour le déploiement. L'écart de prix est suffisamment significatif pour peser dans les décisions d'infrastructure, surtout dans un contexte où les budgets IA explosent. Pour les entreprises qui n'ont pas besoin des performances brutes maximales de Nvidia mais cherchent à industrialiser leurs usages IA à moindre coût, les puces Amazon représentent un compromis crédible. L'argument de la disponibilité joue aussi : les H100 restent difficiles à obtenir en grande quantité. Cette dynamique s'inscrit dans une tendance de fond : les grands hyperscalers, Amazon, Google, Microsoft, investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia, dont la domination sur le marché des accélérateurs IA est quasi totale. Amazon, qui vend déjà ces puces via AWS, tente désormais de convaincre les entreprises disposant de leurs propres infrastructures physiques, un segment jusqu'ici largement acquis à Nvidia. Si ces conversions se multiplient, la pression concurrentielle sur Jensen Huang et ses équipes pourrait s'intensifier.

UELes entreprises européennes gérant leurs propres infrastructures IA pourraient réduire leurs coûts d'inférence jusqu'à 80 % en adoptant les puces Inferentia2 d'Amazon comme alternative crédible aux H100 de Nvidia.

InfrastructureOpinion
1 source
La régularisation en sortie élimine la loterie des seeds dans le fine-tuning VLA sur GPU unique
309arXiv cs.RO 

La régularisation en sortie élimine la loterie des seeds dans le fine-tuning VLA sur GPU unique

Une équipe de chercheurs révèle dans un prépublication arXiv (2606.13856, juin 2026) un défaut structurel dans le fine-tuning des modèles vision-langage-action sur GPU unique : la "loterie de seed". En exécutant le même code d'entraînement sur VLA-JEPA treize fois avec des graines aléatoires différentes, mêmes données, même architecture, douze runs atteignent 91 à 94 % de taux de succès sur les benchmarks LIBERO, mais un run chute silencieusement à 65,2 %, soit un écart de 29 points de pourcentage, sans message d'erreur ni avertissement. La cause identifiée est un phénomène d'effondrement de sortie (output collapse) : le prédicteur d'action converge vers des sorties quasi-identiques quelle que soit l'observation visuelle. Les auteurs ont évalué 7 méthodes de régularisation sur jusqu'à 13 seeds et 3 benchmarks LIBERO, et montrent que trois régularisateurs au niveau des sorties, VICReg (n=12 seeds), Dropout (n=4), et un taux d'apprentissage divisé par deux (n=5), éliminent chaque run catastrophique : 0 effondrement sur 21 tentatives combinées, contre 1/13 pour la baseline (F(12,11)=28,7, p<0,001). Les méthodes classiques de régularisation au niveau des poids, L2 et EWC, laissent la loterie intacte. Ce résultat remet en cause une hypothèse implicite du secteur : que le fine-tuning sur GPU unique des VLA est reproductible par défaut. Pour les intégrateurs industriels et les laboratoires qui déploient Pi-0, GR00T N2, Helix ou des modèles similaires sur des robots réels, un écart de 29 pp non détectable est un risque opérationnel concret. Les méthodes L2 et EWC pénalisent les changements de poids mais restent aveugles à l'effondrement qui se produit dans le null-space jacobien, là où les poids peuvent varier librement sans modifier les sorties observables. La correction la plus simple demande un seul changement dans la configuration de l'optimiseur, ce qui rend la solution immédiatement déployable sans refonte d'architecture. Les VLA connaissent depuis 2024 une montée en puissance accélérée, avec des acteurs comme Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et 1X (Helix) qui misent sur des politiques généralisables entraînées sur données hétérogènes. Le fine-tuning sur matériel modeste est devenu un enjeu clé pour démocratiser l'accès à ces modèles au-delà des grandes entreprises disposant de clusters de calcul. VICReg, issu des travaux de Meta AI sur l'apprentissage auto-supervisé, se retrouve ici appliqué avec succès à la stabilisation de l'espace d'action robotique. Les prochaines étapes naturelles incluent la validation sur robots physiques hors simulation LIBERO, et l'extension à d'autres architectures VLA pour confirmer la généralité du diagnostic.

UELes laboratoires et intégrateurs français/européens qui font du fine-tuning de VLA (Pi-0, GR00T N2, Helix) sur GPU unique sont directement exposés à ce risque opérationnel silencieux (-29 pp), mais peuvent l'éliminer immédiatement via VICReg ou un ajustement du taux d'apprentissage sans refonte d'architecture.

💬 Un run sur treize qui s'effondre à 65 % sans le moindre message d'erreur, c'est le genre de bombe à retardement qu'on découvre sur robot réel, pas en benchmark. Ce qui est malin ici, c'est d'avoir localisé le problème dans l'espace des sorties, là où L2 et EWC sont complètement aveugles. La correction tient en un paramètre d'optimiseur, donc si tu fais du fine-tuning VLA aujourd'hui, t'as pas vraiment d'excuse.

RechercheActu
1 source
AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement
310Le Big Data 

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

Lors de la conférence Computex 2026, Lisa Su, PDG d'AMD, a pris la scène avec un mini PC pas plus grand qu'un livre épais pour y faire tourner en direct un modèle d'intelligence artificielle de 235 milliards de paramètres, sans datacenter, sans cloud, sans carte graphique dédiée externe. La machine utilisée est équipée du processeur Ryzen AI Max+ 395 (nom de code Strix Halo), intégré notamment dans le GMKtec EVO-X2. Sa particularité tient à son architecture de mémoire unifiée : jusqu'à 128 Go de RAM partagée, dont 96 Go peuvent être alloués au GPU intégré en guise de VRAM. C'est précisément ce volume qui permet de charger des modèles d'une taille normalement réservée aux serveurs professionnels. Le tout s'exécute via des outils open source gratuits comme Ollama, sans abonnement ni limite d'usage imposée par un tiers. Ce qui change concrètement, c'est la barrière d'accès à l'inférence locale de très grands modèles. Jusqu'ici, faire tourner un LLM de plusieurs dizaines de milliards de paramètres exigeait soit une carte graphique haut de gamme à plusieurs milliers d'euros avec ses limitations de VRAM, soit la location de GPU dans le cloud, une facture récurrente qui peut vite peser sur les marges d'un indépendant ou d'une petite structure. AMD montre ici qu'un mini PC compact peut absorber ces charges de travail localement. Pour les entreprises manipulant des données sensibles, cabinets juridiques, services de santé, bureaux d'études, la promesse est double : confidentialité totale des documents traités et réduction significative des coûts d'infrastructure IA. Un consultant cité dans la démonstration affirme avoir remplacé ses locations de GPU par cette configuration, avec un impact positif sur la rentabilité de son activité. AMD ne part pas de zéro dans cette course, mais accuse encore du retard sur Nvidia. Son écosystème logiciel ROCm, équivalent maison du CUDA de Nvidia, progresse rapidement en compatibilité mais n'a pas encore atteint la maturité de son concurrent, ce qui peut freiner certains workflows spécialisés. Face à une RTX 5090, les performances de ce Ryzen AI Max+ 395 restent inférieures sur les modèles les plus exigeants. La démonstration d'AMD s'inscrit néanmoins dans une tendance de fond : la décentralisation de l'IA vers le matériel personnel, portée aussi bien par Apple Silicon que par les puces NPU embarquées dans les PC Copilot+. Le marché de l'IA embarquée représente un enjeu stratégique majeur pour les prochaines années, et cette annonce positionne AMD comme un acteur sérieux de l'inférence locale, aux côtés d'un Nvidia dont la domination sur le segment serveur reste, pour l'instant, intacte.

UELes entreprises européennes soumises au RGPD, cabinets juridiques, services de santé, bureaux d'études, disposent d'une option d'inférence IA locale à coût réduit, garantissant la confidentialité des données sans dépendance à des services cloud tiers.

💬 235 milliards de paramètres dans un boîtier format livre, c'est le genre de démo Computex qu'on met de côté... sauf que là, ça repose sur quelque chose de réel : la mémoire unifiée qui résout enfin le problème de VRAM qui nous bloquait depuis des années. Pour les cabinets, les services de santé, toutes les structures qui ne peuvent pas balancer leurs données sur le cloud, c'est une vraie porte qui s'ouvre. ROCm n'est pas encore CUDA, attention, mais pour de l'inférence locale avec Ollama, ça passe.

InfrastructureOpinion
1 source
☕️ OpenAI et Anthropic envisageraient de casser les prix des tokens
311Next INpact 

☕️ OpenAI et Anthropic envisageraient de casser les prix des tokens

OpenAI et Anthropic étudient sérieusement une réduction du prix des tokens, selon des informations rapportées par le Wall Street Journal. Sam Altman a lui-même reconnu lors d'un événement public que le coût du token constituait un « gros problème », affirmant qu'OpenAI cherchait des moyens de permettre à ses clients « d'en faire plus tout en dépensant moins ». Le patron d'OpenAI anticiperait notamment une baisse des prix chez son rival Anthropic, dont l'outil Claude Code est devenu un incontournable dans de nombreuses équipes de développement. Pour les entreprises, chaque requête adressée à GPT ou Claude génère une consommation de tokens qui s'accumule rapidement sur les factures : selon l'analyste Ed Zitron, les utilisateurs peuvent actuellement dépenser entre 8 et 13,50 dollars pour chaque dollar de revenus d'abonnement encaissés par les labos. Le directeur technique d'Uber a d'ailleurs témoigné avoir épuisé son budget IA annuel en seulement quatre mois. Une baisse des prix serait une excellente nouvelle pour les entreprises dont les coûts d'infrastructure IA explosent au rythme de l'adoption, mais elle soulève une contradiction majeure : ni OpenAI ni Anthropic ne sont encore rentables. Les revenus générés par chaque token facturé peinent à couvrir les coûts colossaux des centres de données, des puces Nvidia et du développement continu de nouveaux modèles. Lancer une guerre tarifaire dans ce contexte repousserait encore l'horizon de la rentabilité pour les deux entreprises qui se préparent à entrer en Bourse. Les clients bénéficieraient immédiatement de marges réduites, mais les investisseurs, eux, attendraient encore. La bataille se joue également sur le terrain des outils de développement : Claude Code a pris de l'avance dans les usages professionnels, forçant OpenAI à riposter avec Codex, en position de retard. C'est précisément parce que ces outils sont devenus des postes de dépense significatifs dans les budgets tech que la question du prix du token est devenue stratégique. La baisse des prix de l'inférence suit une tendance de fond depuis 2023, tirée par la concurrence avec des acteurs comme Google et les fournisseurs open source. Mais si OpenAI et Anthropic s'alignent mutuellement à la baisse sans se différencier sur d'autres critères, ils risquent de transformer leurs modèles en commodités interchangeables, où seul le tarif compte. La prochaine étape sera de voir si l'un des deux franchit le premier le pas, entraînant l'autre dans une spirale baissière difficile à arrêter.

UEUne baisse des prix des tokens réduirait directement les coûts d'infrastructure IA des entreprises et startups européennes dépendantes des APIs OpenAI et Anthropic.

💬 Que ça baisse enfin, personne va s'en plaindre, et le CTO d'Uber qui a épuisé son budget IA en quatre mois dit tout sur l'urgence. Le vrai risque, c'est qu'ils s'alignent l'un sur l'autre sans rien d'autre à offrir, et que leurs modèles finissent par ne se distinguer que par le tarif. C'est là que Google et l'open source attendent.

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte
312MarkTechPost 

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte

Google a publié DiffusionGemma, un modèle expérimental open source de 26 milliards de paramètres en architecture Mixture of Experts (MoE), sous licence Apache 2.0. Contrairement aux modèles de langage classiques qui génèrent les tokens un par un de gauche à droite, DiffusionGemma produit des blocs entiers de texte en parallèle, ce qui lui permet d'atteindre jusqu'à quatre fois la vitesse de génération des modèles autorégressifs traditionnels. Sur un GPU NVIDIA H100, il dépasse les 1 000 tokens par seconde ; sur un RTX 5090, il atteint plus de 700 tokens par seconde. Lors de l'inférence, seuls 3,8 milliards de paramètres sont activés. Le modèle, construit sur la base Gemma 4 26B-A4B, est multimodal : il traite du texte, des images et de la vidéo en entrée, dispose d'une fenêtre de contexte de 256 000 tokens, supporte plus de 140 langues et tient dans 18 Go de VRAM une fois quantifié, le rendant compatible avec les GPU grand public haut de gamme. L'intérêt principal de DiffusionGemma réside dans ses cas d'usage à contrainte de latence forte : édition de texte en ligne, itération rapide, génération de structures non linéaires. En déplaçant le goulot d'étranglement de la bande passante mémoire vers le calcul pur, le modèle exploite mieux les cœurs tensoriels inactifs des GPU locaux. Google cible explicitement les développeurs et chercheurs qui travaillent sur des workflows interactifs en local, où la vitesse prime sur la qualité absolue. L'entreprise est toutefois transparente sur le compromis : DiffusionGemma génère plus vite, mais sa qualité de sortie reste inférieure à celle de Gemma 4 autorégressif standard. Pour les productions critiques nécessitant une qualité maximale, Google recommande toujours ses modèles classiques. Le mécanisme au cœur de DiffusionGemma s'appelle Uniform State Diffusion, inspiré des générateurs d'images IA qui partent d'un bruit visuel pour le raffiner progressivement. Appliqué au texte, le modèle démarre avec un canvas de 256 tokens aléatoires, effectue plusieurs passes en attention bidirectionnelle, verrouille les tokens à haute confiance et les utilise comme contexte pour résoudre les positions adjacentes, jusqu'à ce que le texte converge. Cette attention bidirectionnelle, où chaque token peut en observer un autre dans n'importe quelle direction, tranche radicalement avec les modèles autorégressifs contraints à ne regarder qu'en arrière. Elle permet en outre une auto-correction en temps réel : si la confiance d'un token chute, le modèle peut le re-bruiter et le remplacer lors d'une passe suivante. Pour les sorties longues, Google a développé la Block Autoregressive Diffusion : une fois un bloc de 256 tokens finalisé, il est validé dans le cache KV et un nouveau canvas démarre, conditonné sur l'historique précédent. Cette approche hybride combine la vitesse du traitement parallèle et la stabilité séquentielle des architectures classiques.

UELes développeurs et chercheurs européens bénéficient d'un modèle open source sous licence Apache 2.0 utilisable sur GPU grand public, offrant une alternative locale à faible latence sans dépendance à des services cloud externes.

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
313arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

RechercheOpinion
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
314arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

RobotiqueOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
315arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

RobotiqueOpinion
1 source
Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture
316VentureBeat AI 

Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture

Apple a annoncé lors de la WWDC26 sa troisième génération de modèles de fondation, la famille AFM 3, développée en collaboration avec Google. Cette famille comprend cinq modèles : deux fonctionnant en local sur l'appareil et trois hébergés côté serveur, dont AFM 3 Cloud Pro, dédié aux tâches agentiques complexes et s'exécutant sur des GPU Nvidia dans Google Cloud. La pièce maîtresse de l'annonce est AFM 3 Core Advanced, un modèle de 20 milliards de paramètres conçu pour tourner directement sur les appareils Apple, et dont l'architecture rompt radicalement avec les contraintes habituelles de l'IA embarquée. Plutôt que de stocker l'ensemble des poids du modèle en mémoire vive (DRAM), Apple les place en mémoire flash NAND, la même technologie utilisée pour le stockage interne des iPhone et Mac. Un petit modèle auxiliaire prédit, à partir du prompt, quels "experts" charger depuis la flash vers la RAM avant de générer la réponse. Le nombre de paramètres actifs varie ainsi entre 1 et 4 milliards selon la complexité de la tâche, tous puisés dans le réservoir de 20 milliards stocké en flash. Cette approche lève un verrou fondamental qui bridait l'IA on-device depuis ses débuts : la capacité limitée de la DRAM contraint aujourd'hui les modèles embarqués à quelques milliards de paramètres au maximum, très loin des capacités des modèles cloud. En déplaçant le stockage vers la flash et en ne chargeant en RAM que les experts pertinents pour chaque requête, Apple ouvre la voie à des modèles locaux sensiblement plus puissants, sans dépendance permanente au réseau. Pour les développeurs d'applications, cela signifie potentiellement accéder à des capacités de raisonnement et d'outil use jusqu'ici réservées au cloud, tout en conservant les garanties de confidentialité du Private Cloud Compute d'Apple. La contrainte technique centrale que l'architecture contourne est celle de la bande passante flash-vers-RAM : dans un modèle Mixture of Experts classique, le routeur sélectionne des experts différents à chaque token généré, une cadence bien trop rapide pour la NAND. Apple résout ce problème en effectuant le routage une seule fois par prompt, chargeant un ensemble fixe d'experts pour toute la génération de la réponse. Awni Hannun, chercheur chez Anthropic et ancien scientifique chez Apple, a salué l'approche sur X tout en soulignant son caractère "exotique par rapport aux standards actuels". Des zones d'ombre demeurent cependant : selon Marco Abis, développeur du profileur Ziraph pour Apple Silicon, la documentation d'Apple ne précise ni la consommation énergétique, ni la bande passante mémoire, ni le comportement thermique du modèle, ni les conditions dans lesquelles une requête locale est silencieusement redirigée vers le cloud.

UELa fonctionnalité de traitement on-device avec garanties de confidentialité intégrées facilite potentiellement la conformité RGPD pour les développeurs européens déployant des applications IA sur appareils Apple.

LLMsOpinion
1 source
La confidentialité de l'IA d'Apple est maintenue même sur les serveurs de Google, affirme l'entreprise
317Ars Technica AI 

La confidentialité de l'IA d'Apple est maintenue même sur les serveurs de Google, affirme l'entreprise

Apple a confirmé à sa conférence mondiale des développeurs (WWDC) que "Siri AI", la refonte longtemps attendue de son assistant vocal, s'appuie sur les modèles de langage Gemini de Google et tourne sur du matériel Nvidia installé dans les centres de données de Google. Cette annonce, faite à Cupertino, marque un tournant significatif : pour la première fois, une partie substantielle du traitement IA d'Apple s'effectue sur une infrastructure qu'elle ne contrôle pas directement. Malgré ce changement d'architecture, Apple maintient les mêmes engagements de confidentialité qu'elle formulait quand ses modèles tournaient exclusivement sur ses propres appareils ou serveurs. Cette évolution soulève des questions concrètes pour des centaines de millions d'utilisateurs Apple. L'entreprise a construit pendant des années une réputation commerciale autour de la protection des données personnelles : chiffrement de bout en bout, traitement local sur l'appareil pour éviter que les données ne quittent l'iPhone ou le Mac, services cloud conçus pour que même les ingénieurs d'Apple ne puissent pas lire les contenus des utilisateurs. Si ces garanties restent valables lorsque le traitement migre vers l'infrastructure d'un concurrent direct comme Google, c'est toute la crédibilité de cet argumentaire marketing qui est en jeu. Le recours aux serveurs Google n'est pas une décision prise à la légère. Apple avait développé Private Cloud Compute, un système de cloud privé reposant sur ses propres serveurs, comme solution intermédiaire pour les requêtes dépassant les capacités locales des appareils. Mais les modèles de langage puissants capables de rivaliser avec ChatGPT ou Gemini nécessitent une puissance de calcul considérable, et construire des centres de données à la hauteur des ambitions de Siri AI aurait exigé des investissements massifs qu'Apple a préféré éviter. En externalisant vers Google, Apple gagne en capacité mais s'expose à un paradoxe structurel : vendre la confidentialité comme avantage différenciant, tout en confiant une partie du traitement à un acteur dont le modèle économique repose historiquement sur la valorisation des données.

UELes centaines de millions d'utilisateurs Apple en Europe pourraient voir leurs données traitées sur l'infrastructure Google, soulevant des questions de conformité au RGPD et remettant en cause la validité des engagements de confidentialité d'Apple en droit européen.

💬 Apple vend la vie privée depuis dix ans comme son avantage compétitif, et là elle fait tourner Siri sur du matériel Nvidia installé chez Google. Bon, les protections techniques annoncées peuvent tenir, mais le problème c'est pas technique : c'est que le vendeur de ta confidentialité vient de sous-traiter à l'acteur dont tout le modèle économique repose sur tes données. Difficile à défendre.

ÉthiqueOpinion
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
318arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

RobotiqueOpinion
1 source
Pas grand-chose à signaler aujourd'hui
319Latent Space 

Pas grand-chose à signaler aujourd'hui

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
320The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

BusinessOpinion
1 source
OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage
321MarkTechPost 

OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage

Des chercheurs de l'Université Stanford et de Lambda Labs ont publié en mai 2026 OpenJarvis, un framework open-source conçu pour faire tourner des agents IA personnels entièrement en local, sans recours au cloud. Disponible sur GitHub avec déjà plus de 5 400 étoiles, le projet s'appuie sur onze modèles locaux issus de quatre familles (Qwen3.5, Gemma4, Nemotron, Granite) et supporte des moteurs d'inférence variés comme Ollama, vLLM ou llama.cpp. Les performances mesurées sur 508 tâches réparties en huit benchmarks montrent que les modèles configurés via OpenJarvis se situent à seulement 3,2 points de pourcentage en dessous des meilleurs modèles cloud, Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, tout en affichant une latence quatre fois plus faible et un coût marginal par requête environ 800 fois inférieur. Ce résultat change concrètement l'équation pour les développeurs et les entreprises qui cherchent à déployer des agents IA sans dépendre d'APIs tierces. OpenJarvis décompose un système d'IA personnelle en cinq primitives indépendantes et interchangeables, le modèle, le moteur d'inférence, la logique d'agent, les outils et la mémoire, puis l'optimiseur d'apprentissage, toutes configurables via un unique fichier TOML appelé "spec". Cette architecture permet à un même comportement d'agent de fonctionner sur un Mac Mini M4 comme sur une station de travail NVIDIA DGX Spark, sans réécrire les prompts. L'installation tient en une seule commande et prend environ trois minutes sur une connexion correcte. La contribution la plus originale du projet réside dans la "LLM-guided spec search", une méthode d'optimisation hybride locale-cloud : un modèle frontier agit comme enseignant au moment de la configuration, en analysant les traces d'exécution, diagnostiquant les échecs et proposant des modifications coordonnées sur l'ensemble des primitives. Une modification n'est acceptée que si elle améliore les cas défaillants sans provoquer de régressions ailleurs, avec une tolérance par défaut de 1%. Une fois optimisé, le système tourne entièrement en local sans aucun appel cloud. À 100 requêtes par jour, le coût amorti de cet enseignant descend sous 0,001 dollar par requête au bout de six mois. Cette approche multi-primitive récupère 13 à 32 points de pourcentage de l'écart cloud-local, contre seulement 5 points pour les optimiseurs de prompts classiques, à un coût d'optimisation 7 à 11 fois inférieur aux méthodes antérieures comme DSPy ou LoRA. Le projet s'inscrit dans un contexte où les modèles locaux gèrent déjà 88,7% des requêtes conversationnelles courantes selon une étude antérieure de la même équipe, et où l'efficacité des modèles embarqués a progressé de 5,3 fois entre 2023 et 2025.

UELes entreprises européennes soumises au RGPD peuvent déployer des agents IA performants entièrement en local sans transférer leurs données vers des services cloud américains, réduisant leur exposition aux risques de non-conformité et renforçant leur souveraineté numérique.

💬 3,2 points de moins que Claude Opus ou GPT-5, pour un coût 800 fois inférieur : à ce ratio, la question n'est plus "cloud ou local". Le truc malin c'est la spec search guidée, tu laisses un frontier calibrer ta config une fois, puis plus aucun appel cloud ensuite. Bon, faudra voir si leurs 508 tâches de benchmark ressemblent à ce qu'on rencontre vraiment en prod.

OutilsOutil
1 source
☕️ Quand l’IA agentique coûte plus cher que de payer ses employés humains
322Next INpact 

☕️ Quand l’IA agentique coûte plus cher que de payer ses employés humains

Les grandes entreprises technologiques font face à une équation économique qui commence à gripper sérieusement leurs ambitions d'IA : la facturation à l'usage des agents IA, calculée en tokens et non plus en abonnements forfaitaires, rend ces systèmes plus onéreux que les employés humains qu'ils sont censés remplacer ou assister. Le CTO d'Uber, Praveen Neppalli Naga, a reconnu avoir épuisé la totalité de son budget IA 2026 en seulement quatre mois. Bryan Catanzaro, vice-président en charge de l'apprentissage profond appliqué chez Nvidia, est encore plus direct : pour son équipe, le coût de la puissance de calcul dépasse désormais celui des salaires. Microsoft, après avoir encouragé en décembre dernier des milliers de ses développeurs à utiliser Claude Code d'Anthropic, vient d'annuler ces licences et les contraint à migrer vers GitHub Copilot CLI. Ce même GitHub Copilot, qui avait limité fin avril les nouveaux abonnements individuels, basculera en juin vers une facturation indexée sur la consommation réelle de tokens. Cette pression économique a engendré un phénomène pervers baptisé « tokenmaxxing » : des employés génèrent artificiellement de l'activité IA pour gonfler leurs statistiques de consommation, moins pour produire du code utile que pour paraître surproductifs aux yeux de leur hiérarchie. Amazon a fixé comme objectif que 80 % de ses développeurs utilisent l'IA chaque semaine et suit leur consommation de tokens. Meta est allé plus loin encore, avec un tableau de bord interne attribuant le statut de « Token Legend » aux plus grands consommateurs. Ce que ces pratiques révèlent, c'est que les métriques de tokens sont devenues des indicateurs de performance managériale avant d'être des mesures de valeur créée. La question de fond est structurelle : les modèles agentiques consomment beaucoup plus de tokens par tâche que les modèles classiques, et cette intensité ne sera pas compensée par la baisse des coûts unitaires. Un rapport Gartner estime que le coût d'inférence sur un LLM sophistiqué pourrait chuter de 90 % d'ici 2030, mais prévoit néanmoins que le coût total de l'IA continuera d'augmenter si la consommation progresse plus vite que la déflation tarifaire. Jensen Huang, PDG de Nvidia, imaginait récemment un futur où 100 agents IA travailleraient aux côtés de chaque employé humain de son entreprise, une vision qui semble économiquement intenable dans le modèle de facturation actuel. L'industrie se retrouve donc devant un choix structurant : soit les prix s'effondrent suffisamment vite, soit les entreprises doivent revoir radicalement leur usage de l'IA agentique, sous peine de financer des dépenses dont le retour reste difficile à démontrer.

UELes entreprises européennes qui adoptent des agents IA à grande échelle sont exposées aux mêmes pressions économiques liées à la facturation à l'usage, remettant en question la viabilité budgétaire de leurs projets d'IA agentique.

💬 Uber qui épuise son budget IA en quatre mois, Nvidia qui dit que le compute dépasse les salaires : c'est pas un bug, c'est le modèle. Les agents consomment structurellement 10 à 100 fois plus de tokens qu'un chat classique, et aucune baisse de prix unitaire ne rattrapera ça avant 2-3 ans. Le tokenmaxxing chez Amazon et Meta, des gens qui gonflent leur conso pour paraître productifs sur un dashboard, c'est juste le signe qu'on a mis la mauvaise métrique au centre.

BusinessOpinion
1 source
SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP
323Le Big Data 

SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP

Lors de SAP Sapphire 2026, l'éditeur allemand SAP a présenté sa nouvelle vision stratégique : transformer son ERP en une "entreprise autonome" capable d'exécuter des processus critiques de bout en bout grâce à l'IA. Le CEO Christian Klein a dévoilé trois piliers majeurs : SAP Autonomous Suite, qui déploie plus de 50 assistants Joule spécialisés coordonnant plus de 200 agents IA dans la finance, les achats, la supply chain, les RH et l'expérience client ; SAP Business AI Platform, qui fusionne SAP Business Technology Platform, SAP Business Data Cloud et SAP Business AI en un environnement unique ; et Joule Work, une interface orientée objectif accessible sur ordinateur, mobile et commandes vocales. Pour accélérer l'adoption, SAP annonce un fonds de 100 millions d'euros et une série de partenariats avec Anthropic, Amazon Web Services, Google Cloud, Microsoft, NVIDIA, Mistral AI et Cohere. Un cas concret a été mis en avant avec l'énergéticien RWE : des agents IA analysent des milliers d'incidents passés sur des éoliennes offshore pour identifier l'origine probable d'une panne et générer automatiquement des ordres de maintenance préremplis. L'enjeu central de cette annonce est de faire passer l'IA d'un rôle d'assistant à celui d'exécutant autonome au coeur des opérations d'entreprise. L'assistant dédié à la clôture financière illustre l'ambition : en automatisant les écritures comptables, les rapprochements et la correction d'erreurs, SAP promet de réduire un processus qui prenait plusieurs semaines à quelques jours seulement. Pour les grandes entreprises soumises à des exigences croissantes de productivité, de conformité réglementaire et de rapidité, c'est une promesse directement chiffrée en gains opérationnels. Le lancement de sept solutions Industry AI, avec des règles métiers et réglementaires propres à chaque secteur, signale que SAP ne vise plus seulement les directions IT mais les métiers eux-mêmes, qu'il s'agisse de l'énergie, de la logistique ou de la fabrication. Cette offensive s'inscrit dans une compétition frontale entre les grands éditeurs ERP pour la domination de l'IA d'entreprise, face à Oracle, Microsoft et Salesforce qui poursuivent des ambitions similaires. SAP capitalise sur sa position de référence dans les grandes organisations mondiales, où ses systèmes gèrent déjà les données les plus critiques : c'est précisément ce capital de confiance et de données que le groupe cherche à monétiser via l'IA autonome. Le SAP Knowledge Graph, couche qui structure les relations entre données, processus et entités métiers, est présenté comme le socle différenciateur qui donnera aux agents une compréhension contextuelle que des solutions génériques ne peuvent pas offrir. Les partenariats avec des fournisseurs de modèles souverains comme Mistral AI et Cohere indiquent également que SAP anticipe des exigences de conformité et de localisation des données, particulièrement fortes en Europe. La prochaine étape sera de valider ces promesses à grande échelle dans des déploiements réels, au-delà des cas pilotes présentés en conférence.

UESAP, leader européen des ERP, intègre Mistral AI dans sa plateforme et anticipe explicitement les exigences européennes de souveraineté et de localisation des données, avec un fonds de 100 millions d'euros ciblant l'adoption dans les grandes organisations, dont de nombreuses entreprises françaises et européennes déjà clientes.

💬 Les 50 assistants et les 200 agents, c'est du bruit. Ce qui compte, c'est le Knowledge Graph, cette couche qui structure 30 ans de données métiers dans des millions d'entreprises, et que personne d'autre ne peut reproduire du jour au lendemain. Le cas RWE sur les éoliennes, bon, c'est encore un pilote, mais c'est exactement là où SAP peut devenir difficile à contourner.

OutilsOutil
1 source
L'accord lucratif de Cerebras avec OpenAI : une arme à double tranchant
324The Information AI 

L'accord lucratif de Cerebras avec OpenAI : une arme à double tranchant

Le 24 décembre 2025, deux décisions majeures ont simultanément reconfiguré le paysage des puces pour l'intelligence artificielle. Ce soir de réveillon, Nvidia annonçait le rachat de Groq, une startup spécialisée dans l'inférence IA fondée par l'inventeur des TPU (tensor processing units) de Google, pour plusieurs milliards de dollars. Le même jour, OpenAI s'engageait contractuellement à acheter pour des milliards de dollars de puces auprès de Cerebras, le concurrent direct de Groq, révèlent des documents déposés auprès des autorités boursières américaines. Cerebras est connu pour ses wafer-scale chips, des processeurs de la taille d'une assiette capables d'exécuter des modèles d'IA à très grande vitesse. Ces deux transactions signalent un tournant dans la relation historiquement ambiguë entre Nvidia et OpenAI, et ouvrent une brèche commerciale considérable pour les startups spécialisées dans l'inférence. Alors que la demande en capacité de traitement explose, les géants du secteur cherchent à diversifier leurs fournisseurs et à réduire leur dépendance à Nvidia. Pour Cerebras, ce contrat avec OpenAI représente une validation industrielle de premier ordre, susceptible d'accélérer sa trajectoire vers une introduction en bourse. Ces événements s'inscrivent dans une compétition acharnée pour contrôler l'infrastructure d'inférence, le maillon qui permet aux modèles d'IA de répondre aux requêtes en temps réel. Nvidia domine le marché de l'entraînement, mais l'inférence reste plus contestée. En rachetant Groq, Nvidia cherche à verrouiller ce segment. OpenAI, en choisissant Cerebras, joue la carte de l'indépendance stratégique tout en obtenant des performances compétitives.

💬 Nvidia rachète Groq, OpenAI signe chez Cerebras le même soir de Noël : c'est pas un hasard, c'est une déclaration. Le marché de l'inférence est en train de se jouer maintenant, et tout le monde cherche à ne pas se retrouver pieds et poings liés à une seule source d'approvisionnement. Pour Cerebras, ce contrat c'est mieux que toutes les levées de fonds du monde, ça valide la technologie là où ça compte vraiment.

InfrastructureOpinion
1 source
Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)
325arXiv cs.RO 

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, raisonnement linguistique et génération d'actions motrices, souffrent d'un défaut opérationnel central : leur latence d'inférence crée une désynchronisation entre l'observation capturée et l'action exécutée, phénomène désigné sous le terme de "staleness". Quatre approches ont émergé quasi-simultanément pour y remédier : IT-RTC (correction par inpainting à l'inférence), TT-RTC (simulation de délai à l'entraînement), VLASH (conditionnement sur état futur estimé) et A2C2 (correction résiduelle légère à chaque pas de contrôle). Publiée le 12 mai 2025 sous la référence arXiv:2605.08168, une étude systématique compare ces quatre méthodes sous conditions contrôlées via deux codebases unifiées, évaluées sur la suite Kinetix avec des politiques MLPMixer et sur le benchmark LIBERO de manipulation avec SmolVLA, en faisant varier les délais jusqu'à d = 20 pas de contrôle. Les résultats établissent une hiérarchie claire selon le régime de délai. A2C2 domine sur Kinetix avec un taux de résolution supérieur à 90 % jusqu'à d = 8, et prend la tête sur LIBERO à partir de d = 4 ; c'est la méthode la plus efficace pour des délais modérés à élevés. TT-RTC s'impose comme la plus robuste des approches basées sur l'entraînement : elle généralise au-delà de la distribution de délais vue en phase d'entraînement et n'ajoute aucun overhead à l'inférence, ce qui la rend attractive pour des déploiements contraints en calcul. IT-RTC reste compétitif à faibles délais mais se dégrade nettement avec des chunks longs (H = 30) ou des délais importants. VLASH affiche un compromis explicite entre régimes : son efficacité dépend directement de la plage de fine-tuning [0, d\_max] choisie, imposant un calibrage préalable en fonction du délai attendu en production. Ce travail répond à un besoin criant de la communauté VLA, dont les modèles emblématiques, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et SmolVLA de Hugging Face, visent un déploiement sur robots réels soumis à des contraintes temps-réel strictes. L'absence de benchmark commun rendait jusqu'ici les comparaisons entre méthodes impossibles et freinait l'adoption industrielle, chaque équipe évaluant sa solution sur son propre protocole. En publiant deux codebases reproductibles (github.com/TheAyos/async-vla-inference), les auteurs offrent aux équipes robotiques un cadre de référence pour choisir leur stratégie de correction selon leur architecture et leurs contraintes de latence. Les prochaines étapes naturelles incluent la validation sur robots physiques et l'extension à des VLA de plus grande taille, où les délais d'inférence sont encore plus prononcés.

UEHuggingFace (entreprise d'origine française) est directement impliquée via SmolVLA, utilisé comme benchmark de référence dans cette étude comparative, ce qui renforce son positionnement central dans l'écosystème VLA mondial.

💬 Le staleness dans les VLA, tout le monde savait que c'était un problème, mais sans benchmark commun on naviguait à vue, chaque équipe évaluant sa solution sur son propre protocole. Ce papier établit enfin une hiérarchie claire : A2C2 pour la majorité des cas d'usage, TT-RTC si tu es contraint en calcul et que tu veux zéro overhead à l'inférence. Le fait que SmolVLA de HuggingFace soit la référence de manipulation, c'est pas anodin pour la visibilité européenne dans la course aux robots.

RobotiqueOpinion
1 source
Le gouvernement américain diversifie ses fournisseurs d'IA et reconsidère le rôle d'Anthropic
326AI News 

Le gouvernement américain diversifie ses fournisseurs d'IA et reconsidère le rôle d'Anthropic

Le Pentagone a officialisé des partenariats avec quatre nouveaux fournisseurs d'intelligence artificielle le 6 mai 2026 : Microsoft, Amazon, Nvidia, et Reflection AI, une startup qui n'a encore publié aucun modèle accessible au grand public. Ces entreprises rejoignent OpenAI, xAI et Google dans un cercle restreint de prestataires autorisés à déployer leurs technologies pour "tout usage légal" au sein des forces armées américaines, y compris sur des données classifiées aux niveaux les plus sensibles, dits Impact Level 6 (secret) et Impact Level 7 (très secret défense). Ce mouvement intervient quelques semaines après la rupture fracassante entre le Pentagone et Anthropic : le département de la Défense avait annulé un contrat de 200 millions de dollars avec la startup, qualifiant publiquement l'entreprise de "risque pour la chaîne d'approvisionnement", une première pour une société américaine. Anthropic avait aussitôt contesté cette décision en justice, réclamant des millions en revenus perdus, après que son PDG Dario Amodei s'était opposé à la formule "tout usage légal", estimant qu'elle ouvrait la porte à la surveillance de civils américains et au développement d'armes autonomes. L'élargissement du portefeuille de fournisseurs militaires réduit mécaniquement la dépendance du Pentagone à l'égard de n'importe quel acteur individuel. Si un dirigeant comme Amodei pose des conditions éthiques, l'armée peut simplement se tourner vers des concurrents moins regardants. Le Pentagone l'a d'ailleurs formulé sans détour : l'objectif est de "bâtir une architecture qui prévient le verrouillage sur un fournisseur unique." Concrètement, les nouveaux outils doivent permettre aux forces armées de "synthétiser les données", d'"élever la compréhension situationnelle" et d'"augmenter la prise de décision des combattants dans des environnements opérationnels complexes", une formulation qui laisse ouverte la question des déploiements sur le territoire américain. Google et Amazon avaient déjà licencié des employés qui protestaient contre l'usage militaire de leurs technologies, signalant que ces entreprises n'ont pas l'intention de répéter la résistance publique d'Anthropic. Le tableau reste pourtant plus nuancé qu'il n'y paraît. Le modèle Mythos d'Anthropic serait actuellement utilisé par la NSA dans le cadre de capacités de cyberguerre et de cyberdéfense, et est en cours d'évaluation par 40 organisations dans le monde, dont seulement 12 nommées publiquement, le MI5 britannique et la NSA figurant parmi les 28 restantes. Le modèle de codage Claude d'Anthropic serait aussi toujours actif au sein d'agences gouvernementales américaines malgré la crise. Selon Axios, qui cite une source à la Maison-Blanche, l'administration Trump chercherait désormais un moyen de "sauver la face et de les ramener dans le giron." La rupture serait donc davantage tactique que définitive, dans un secteur où la dépendance à l'IA militaire s'accélère et où aucun acteur ne peut vraiment se permettre d'être exclu du plus grand client du monde.

UELe MI5 britannique figure parmi les agences évaluant le modèle Mythos d'Anthropic dans un programme mondial impliquant 40 organisations, signalant un intérêt croissant des services de renseignement européens pour ces technologies d'IA à usage militaire.

💬 Amodei fait ses principes en public, mais Mythos tourne déjà chez la NSA. Le Pentagone élargit sa liste de fournisseurs, soit, mais la vraie info c'est que tout le monde veut que ça reprenne, Maison-Blanche incluse. C'est du théâtre contractuel, pas une rupture idéologique.

BusinessOpinion
1 source
Sans crier gare, la Chine sort un supercalculateur de 2,47 ExaFLOPS… sans GPU
327Next INpact 

Sans crier gare, la Chine sort un supercalculateur de 2,47 ExaFLOPS… sans GPU

La Chine vient de révéler, sans aucune communication officielle, l'existence d'un supercalculateur exascale baptisé LineShine, hébergé au Centre National de Supercalcul de Shenzhen (NSCC-SZ). La machine atteint une puissance théorique de 2,47 ExaFLOPS, dont 1,2 ExaFLOPS ont été effectivement mesurés lors de son utilisation pour entraîner un modèle de type MLIP (Machine Learning Interatomic Potentials), soit à peine un quart de sa capacité maximale. LineShine embarque 12,4 millions de cœurs de calcul et 1 310 téraoctets de mémoire HBM. Ce qui frappe immédiatement les observateurs : cette architecture est entièrement scalaire, sans aucun GPU. L'information n'est pas venue d'un communiqué de presse mais d'une publication scientifique parue il y a deux semaines, repérée et relayée par Stéphane Requena, directeur technique du Genci (Grand Équipement National de Calcul Intensif), sur LinkedIn. Si LineShine était soumis au classement Top500, référence mondiale des supercalculateurs, il se retrouverait au coude à coude avec El Capitan, le numéro un mondial actuellement en service aux États-Unis. L'enjeu dépasse la performance brute : ce supercalculateur démontre que la Chine est capable de construire des infrastructures de calcul de premier rang mondial sans dépendre des GPU haute performance de NVIDIA, dont l'exportation vers la Chine est soumise à embargo américain. L'absence de GPU dans une machine de cette envergure représente un choix architectural délibéré et une réponse technologique directe aux restrictions imposées par Washington. Pour les acteurs de l'IA et de la simulation scientifique, c'est la preuve que les restrictions d'exportation n'ont pas bloqué la montée en puissance chinoise, mais l'ont orientée vers des solutions souveraines. La Chine ne participe plus au Top500 depuis plusieurs années, dans un contexte de tensions croissantes avec les États-Unis autour des technologies stratégiques. Depuis les premières vagues de sanctions, Pékin a systématiquement développé ses propres alternatives matérielles et logicielles, tout en maintenant le silence sur ses capacités réelles. LineShine s'inscrit dans cette logique d'autonomie technologique assumée : les avancées chinoises en supercalcul se découvrent désormais à travers des publications académiques, non par des annonces officielles. Les prochains mois pourraient révéler d'autres systèmes de cette génération, alors que la course au calcul exascale s'accélère aussi bien pour la simulation climatique, la recherche pharmaceutique que pour l'entraînement de modèles d'intelligence artificielle de grande taille.

UELa découverte a été relayée par Stéphane Requena, directeur technique du GENCI (institution française de calcul intensif), signalant que les sanctions américaines n'ont pas freiné la montée en puissance chinoise, un avertissement stratégique pour la souveraineté technologique européenne en matière d'infrastructure HPC.

💬 2,47 ExaFLOPS sans un seul GPU, et on l'apprend par une publication académique, pas un communiqué de presse. L'embargo américain n'a pas freiné la Chine, il l'a juste orientée vers ses propres solutions, et visiblement ça tient la route. Ce qui devrait vraiment inquiéter l'Europe, c'est qu'on ne sait pas combien d'autres machines comme ça existent déjà.

InfrastructureOpinion
1 source
Galbot lance LDA-1B, un modèle du monde-action en open source
328Pandaily 

Galbot lance LDA-1B, un modèle du monde-action en open source

Galbot a publié LDA-1B, un modèle fondation monde-action cross-embodiment de 1,6 milliard de paramètres, construit sur son architecture propriétaire WAM (World-Action Model). Ce modèle unifie modèles de monde et modèles d'action au niveau des données, permettant un apprentissage conjoint sur données de simulation et données réelles, données humaines et robotiques, ainsi que sur jeux de données d'action labellisés et non labellisés. LDA-1B peut s'adapter à différentes morphologies de robots après seulement une heure de post-entraînement, selon Galbot. À mesure que le volume de données d'entraînement est passé de 5 000 à 30 000 heures, l'erreur de prédiction d'action a diminué de façon continue, démontrant un comportement de scaling cohérent. La recherche a été acceptée à RSS 2026 et le code source est désormais public. Le modèle est intégré dans AstraBrain et AstraData, l'infrastructure de déploiement de Galbot, couvrant la logistique industrielle, les tâches domestiques et les scénarios retail. En avril 2026, la société est l'entreprise d'IA incarnée non cotée la mieux valorisée en Chine, avec une valorisation dépassant 20 milliards de yuans (2,8 milliards de dollars). Plusieurs points méritent attention. La capacité d'adaptation cross-embodiment en une heure de fine-tuning est une affirmation forte, mais elle reste à valider hors démonstrations contrôlées. Le comportement de scaling confirmé entre 5 000 et 30 000 heures de données est un signal positif pour les VLA (Vision-Language-Action models) à grande échelle, suggérant que les lois d'échelle s'appliquent à l'action robotique de façon analogue aux LLM textuels. L'open-source du codebase réduit la barrière d'entrée pour les intégrateurs souhaitant expérimenter sans infrastructure propriétaire, et positionne Galbot comme fournisseur d'infrastructure fondationale, pas seulement constructeur de robots. Galbot est une startup spécialisée dans les robots humanoïdes et l'IA incarnée. LDA-1B entre en compétition directe avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches internes de Figure AI et Agility Robotics côté américain. En Chine, la société rivalise avec Unitree et UBTECH sur le terrain humanoïde. L'acceptation à RSS 2026 lui confère une légitimité académique rare dans ce secteur encore dominé par les communiqués marketing. Les prochaines étapes probables incluent des pilotes industriels en logistique et retail, et une expansion internationale que la valorisation de 2,8 milliards de dollars rend plausible.

UEPression concurrentielle indirecte sur les équipes VLA européennes (INRIA, CEA-List), mais aucun déploiement ni partenariat européen annoncé.

💬 Le comportement de scaling sur les données robotiques, c'est le vrai signal ici, pas le chiffre de valorisation. Que les lois d'échelle s'appliquent à l'action physique comme au texte, ça dit quelque chose sur ce qu'on va voir dans 3 ans, et tu commences à comprendre pourquoi les gros acteurs américains s'agitent. L'open source est une bonne décision stratégique, mais une heure de fine-tuning pour changer de morphologie de robot, j'attends de voir ça hors démo contrôlée.

RobotiqueOpinion
1 source
Le tournant de l'inférence
329Latent Space 

Le tournant de l'inférence

L'inférence est devenue le nouveau champ de bataille stratégique de l'intelligence artificielle. En quelques jours, deux signaux forts ont traversé l'industrie : Noam Brown a déclaré que "la puissance de calcul d'inférence est une ressource stratégique, actuellement sous-évaluée", tandis que Sam Altman affirmait qu'OpenAI devait "dans une large mesure devenir une entreprise d'inférence IA". Ces déclarations interviennent dans le sillage du lancement très réussi de GPT-4.5, mais aussi des chiffres publiés par Lip-Bu Tan, PDG d'Intel, lors de son appel aux résultats du premier trimestre 2026 : la demande en CPU, et non en GPU, est en hausse significative, tirée précisément par les nouveaux usages d'inférence à grande échelle. Jensen Huang, PDG de Nvidia, avait posé les bases de ce constat lors de sa keynote GTC : la demande en calcul a été multipliée par 10 000 en deux ans, l'usage par 100, ce qui représente selon lui une multiplication globale de un million fois en deux ans à peine. Ce basculement n'est pas qu'une métaphore : il redessine concrètement les priorités d'investissement de toute l'industrie. Pendant deux ans, les grandes entreprises tech ont massivement réorienté leurs budgets vers les GPU pour l'entraînement des modèles, au détriment de la maintenance et du renouvellement de leur parc CPU. Or, les agents IA en production, les environnements de simulation pour le renforcement par apprentissage (RL gyms), les outils comme Claude Code, tout cela tourne sur des CPU. Résultat : une potentielle pénurie de CPU se profile, non pas parce que la demande explose de façon spectaculaire comme pour les GPU, mais parce que le cycle naturel de renouvellement de cinq à six ans coïncide avec une sous-capitalisation chronique. Pour les startups comme pour les géants, le goulot d'étranglement se déplace : plus de capacité d'inférence se traduirait directement en plus de revenus, plus d'utilisateurs, des modèles plus performants. Ce moment marque une transition de phase dans l'économie de l'IA. L'ère de l'entraînement massif cède la place à celle du déploiement et du raisonnement continu : chaque fois qu'un modèle pense, agit, lit ou génère du texte, il infère. Cette boucle vertueuse, plus de capacité, plus de tokens, plus d'intelligence, est désormais le moteur central de la compétition entre OpenAI, Anthropic, Google et les autres. Les acteurs qui sécuriseront le plus de capacité d'inférence, que ce soit via des partenariats avec des fournisseurs cloud, des investissements dans des datacenters ou des puces propriétaires, prendront un avantage structurel difficile à rattraper. Le secteur CPU, longtemps dans l'ombre des GPU, redevient soudainement stratégique.

UELe goulot d'étranglement sur la capacité d'inférence CPU affecte directement les startups et entreprises européennes déployant des agents IA en production, qui devront repenser leurs priorités d'investissement infrastructure.

💬 C'est le pivot qu'on sentait venir depuis le lancement massif des agents en prod. Pendant deux ans, tout le monde a empilé des GPU pour l'entraînement, en laissant vieillir le parc CPU, et là c'est ce même parc qui devient le goulot d'étranglement pour l'inférence à grande échelle. Celui qui sécurise de la capacité d'inférence aujourd'hui prend une avance structurelle, pas juste technologique.

InfrastructureOpinion
1 source
IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains
330VentureBeat AI 

IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains

IBM a lancé hier à l'échelle mondiale Bob, sa plateforme de développement logiciel propulsée par l'intelligence artificielle. L'outil, conçu pour écrire, tester et gérer du code tout au long du cycle de développement, est déjà utilisé par plus de 80 000 employés d'IBM après avoir démarré avec seulement 100 utilisateurs internes à l'été 2025. Bob repose sur un routage multi-modèles : il peut s'appuyer sur les modèles Granite d'IBM, les modèles Claude d'Anthropic, ou encore ceux de la société française Mistral, ainsi que sur des modèles distillés plus légers. Les modèles open source comme Qwen d'Alibaba sont explicitement exclus. Selon IBM, certaines équipes ont économisé jusqu'à 70 % du temps sur certaines tâches, soit en moyenne dix heures par semaine. Neal Sundaresan, directeur général de l'automatisation et de l'IA chez IBM, résume la philosophie de la plateforme : « La capacité du modèle seule ne suffit pas. La façon dont vous le déployez, dont vous structurez le contexte, et dont vous maintenez les humains dans la boucle détermine si l'IA tient réellement ses promesses. » Ce qui distingue Bob de concurrents comme Cursor ou Claude Code, c'est le niveau de contrôle et de gouvernance qu'il impose sur les workflows agentiques. Là où d'autres outils placent le développeur au début de la tâche pour qu'il enchaîne les étapes manuellement, Bob introduit des points de contrôle humains structurés à intervalles réguliers, tout en permettant à des agents IA d'accomplir des tâches complexes en plusieurs étapes. Cette approche répond directement aux besoins des grandes entreprises, qui craignent les failles de sécurité et les défaillances d'orchestration lorsque des agents autonomes accèdent à des données en production. Pour les directions techniques et les équipes d'audit, la traçabilité et la capacité à intervenir à tout moment priment sur la vitesse. Cette annonce s'inscrit dans une tension croissante dans l'industrie entre deux visions de l'IA agentique. D'un côté, des systèmes ouverts et autonomes comme OpenClaw ou NemoClaw de Nvidia, qui poussent les limites de l'automatisation dans des environnements bac à sable. De l'autre, des plateformes comme Bob qui privilégient la fiabilité, l'auditabilité et la supervision humaine. OpenAI a récemment ajouté dans son Agents SDK un support pour des implémentations en bac à sable, tandis que Kilo lançait Kilo Claw centré sur la sécurité des agents autonomes. IBM, fort de ses décennies d'expérience dans les systèmes d'entreprise critiques, choisit délibérément la prudence. Sundaresan le dit sans détour : « Il vaut mieux ouvrir la grille lentement que de dire, 'oups, comment je la referme maintenant ?' »

UEMistral, startup française, est intégrée nativement comme l'un des modèles supportés par Bob aux côtés de Claude et Granite, lui offrant une vitrine directe auprès des 80 000 développeurs IBM et renforçant la crédibilité des LLMs européens dans les environnements enterprise critiques.

OutilsOutil
1 source
Token, compute, dérive des usages : pourquoi l’IA peut coûter plus cher que vos équipes ?
331Le Big Data 

Token, compute, dérive des usages : pourquoi l’IA peut coûter plus cher que vos équipes ?

Dans certaines entreprises, la facture mensuelle liée à l'intelligence artificielle dépasse désormais celle des salaires humains. C'est le constat documenté par Axios dans une enquête publiée fin avril 2026, qui révèle que le coût du traitement des requêtes IA excède, dans certains cas, celui des équipes en chair et en os. Bryan Catanzaro, responsable chez Nvidia, a confirmé le phénomène pour ses propres équipes. Le New York Times rapporte que certains utilisateurs intensifs atteignent plus de 150 000 dollars de dépenses mensuelles en tokens, certains ingénieurs dépensant davantage en usage d'IA qu'ils ne touchent en salaire. Chez Uber, des équipes utilisant des outils comme Claude Code ont déjà épuisé leur budget annuel d'IA bien avant la fin de l'exercice, selon The Information. Le phénomène a même un nom dans les milieux tech : le "tokenmaxxing", pratique où les ingénieurs maximisent délibérément leur consommation de tokens, parfois comme indicateur implicite de performance. Ce glissement remet en cause la promesse fondatrice de l'IA en entreprise : réduire les coûts grâce à l'automatisation. L'équation est plus complexe que prévu. Chaque requête envoyée à un modèle consomme des tokens facturés, et lorsque les agents s'exécutent en parallèle sans supervision directe, les volumes explosent. La structure de coût des entreprises se transforme en profondeur : les dépenses, autrefois fixes et prévisibles via les ressources humaines, deviennent variables, dépendantes de l'usage, et donc difficiles à piloter. Pour les organisations qui n'ont pas mis en place de garde-fous, la dérive peut être rapide. Chez Meta, l'utilisation de l'IA est désormais intégrée dans l'évaluation des performances des employés, ce qui pousse mécaniquement à une consommation accrue. Google et Microsoft adoptent des dynamiques similaires, une grande part du code produit étant déjà générée par des modèles. Cette situation profite directement aux fournisseurs de modèles. OpenAI et Anthropic bénéficient de la hausse de consommation, Anthropic ayant d'ailleurs relevé ses tarifs récemment. Les investisseurs parient sur la capacité des modèles les plus efficaces à capter davantage de clients en offrant un meilleur ratio performance-coût. Du côté des entreprises consommatrices, les réponses restent expérimentales. Jensen Huang, PDG de Nvidia, a évoqué l'idée de distribuer des quotas de tokens aux employés, à l'image d'une enveloppe salariale dédiée à l'IA, ce qui transformerait l'accès à la puissance de calcul en véritable avantage compétitif individuel. Le compute est en passe de devenir une ligne budgétaire stratégique aussi sensible que la masse salariale, obligeant les directions financières à repenser leur manière de gouverner ces outils avant que la facture ne devienne incontrôlable.

UELes entreprises européennes adoptant des agents IA à grande échelle sont exposées aux mêmes dérives budgétaires documentées aux États-Unis, sans cadre de gouvernance des coûts IA encore établi au niveau sectoriel ou réglementaire.

BusinessOpinion
1 source
DeepSeek : dernière avancée en IA et la course aux modèles du monde
332MIT Technology Review 

DeepSeek : dernière avancée en IA et la course aux modèles du monde

La firme chinoise DeepSeek a publié vendredi un aperçu de son nouveau modèle phare, V4, suscitant immédiatement l'attention de l'industrie. Cette version se distingue par sa capacité à traiter des contextes bien plus longs que la génération précédente, grâce à une architecture repensée pour gérer de grands volumes de texte avec une meilleure efficacité. Malgré son statut open source, ses performances se mesurent à celles des modèles propriétaires d'Anthropic, d'OpenAI et de Google. Point stratégique notable : V4 est la première release de DeepSeek optimisée pour les puces Ascend de Huawei, signalant un test grandeur nature de la capacité de la Chine à réduire sa dépendance aux GPU Nvidia. Dans le même temps, Google a annoncé un investissement pouvant atteindre 40 milliards de dollars dans Anthropic, dans une opération valorisant la startup à 350 milliards de dollars, signe que la course au calcul et aux modèles de pointe s'accélère des deux côtés du Pacifique. Ces annonces s'inscrivent dans une semaine marquée par des enjeux géopolitiques et industriels majeurs. La Chine a bloqué le projet de rachat par Meta du studio d'IA Manus pour 2 milliards de dollars, invoquant des raisons de sécurité nationale et qualifiant l'opération de tentative "conspiratrice" de vider la base technologique chinoise. Washington réplique en maintenant ses contrôles à l'exportation sur les puces avancées, tandis que le président Trump a licencié l'ensemble du National Science Board, suscitant des craintes sur l'interférence politique dans la recherche fondamentale américaine. Sur le plan économique, la pression sur les capacités de calcul commence à peser sur des secteurs entiers : emplois, prix de l'électricité et marchés de composants sont tous affectés par l'explosion de la demande en infrastructure IA. En parallèle, un autre front s'ouvre dans la recherche fondamentale : celui des "world models", ces systèmes capables de modéliser le monde physique plutôt que le seul domaine textuel. Des figures comme la professeure de Stanford Fei-Fei Li et Yann LeCun, fondateur d'AMI Labs, défendent l'idée que ces modèles sont indispensables pour dépasser les limites connues des grands modèles de langage et permettre de véritables avancées en robotique. Composer un roman ou générer du code reste infiniment plus simple pour une machine que de plier du linge ou naviguer dans une rue bondée ; les world models ambitionnent de combler cet écart. Ce sujet figure en tête de la liste des dix technologies prioritaires établie par le MIT Technology Review, signe que l'industrie considère désormais cette direction comme l'un des prochains fronts décisifs de l'intelligence artificielle.

UEL'optimisation de DeepSeek V4 sur les puces Huawei Ascend offre aux entreprises européennes une alternative open source aux modèles propriétaires américains, tandis que l'escalade de la guerre technologique sino-américaine sur les puces et les contrôles à l'exportation contraint l'Europe à clarifier son positionnement stratégique dans la course mondiale à l'IA.

LLMsActu
1 source
Anthropic et la stratégie marketing de la peur autour de sa nouvelle IA Mythos (2/3)
333Next INpact 

Anthropic et la stratégie marketing de la peur autour de sa nouvelle IA Mythos (2/3)

Le 7 avril dernier, Anthropic a annoncé Mythos Preview, un modèle d'intelligence artificielle spécialisé dans la cybersécurité, en mettant en avant sa capacité à avoir déjà identifié "des milliers de vulnérabilités critiques", dont des failles dites 0-day, c'est-à-dire inconnues des éditeurs concernés. Pour contrôler les risques de prolifération, Anthropic a restreint l'accès de Mythos à une cinquantaine d'entreprises et organisations américaines gérant des infrastructures logicielles critiques, regroupées au sein du projet Glasswing. Seules onze d'entre elles ont été nommées publiquement : AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks. Hors des États-Unis, seul l'AI Security Institute britannique (AISI) a pu évaluer le modèle à ce stade, tandis que plusieurs institutions européennes tentent depuis de négocier un accès. Cette stratégie de lancement illustre un usage délibéré de ce que le secteur tech désigne par l'acronyme FUD, pour "Fear, Uncertainty and Doubt", soit peur, incertitude et doute. En agitant la menace d'une IA capable de découvrir des failles à grande échelle tout en en limitant l'accès, Anthropic a réussi à générer une fébrilité considérable, y compris au plus haut niveau politique. L'administration Trump, qui menaçait encore récemment de blacklister Anthropic, a finalement invité le PDG Dario Amodei à la Maison-Blanche la semaine passée pour évoquer "des possibilités de collaboration", selon Politico. L'Office of Management and Budget aurait même déjà informé les agences fédérales américaines qu'elles allaient prochainement recevoir un accès à Mythos, d'après Bloomberg. L'histoire du FUD dans la tech remonte aux années 1970, quand IBM utilisait des discours anxiogènes pour freiner la concurrence, une rhétorique reprise plus tard par Microsoft pour dépeindre Linux comme une menace. Avec Mythos, Anthropic n'attaque pas directement ses concurrents, mais joue sur la même mécanique : l'exclusivité d'accès alimente l'inquiétude en Europe, où des gouvernements craignent d'être tenus à l'écart d'un outil potentiellement décisif sur le plan géopolitique. Cette anxiété s'inscrit dans un contexte plus large où l'IA semble, pour l'instant, davantage profiter aux attaquants qu'aux défenseurs, renforçant la pression sur les États à ne pas rater le virage. Que Trump se retrouve simultanément à courtiser Anthropic en justice et à lui ouvrir les portes des agences fédérales illustre bien la contradiction inhérente à cette course : personne ne veut être le dernier à accéder à l'outil qu'il redoute.

UELes institutions européennes tentent activement de négocier un accès à Mythos sans y être parvenues à ce stade, alimentant une anxiété géopolitique réelle face au risque d'exclusion d'un outil potentiellement décisif en matière de cybersécurité d'État.

SécuritéOpinion
1 source
Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA
334The Information AI 

Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA

Microsoft et d'autres grands fournisseurs de cloud redirigent leurs stocks de GPU Nvidia vers leurs équipes internes ou leurs clients enterprise les plus importants, privant les startups d'IA d'un accès fiable aux serveurs dont elles ont besoin. Cette pénurie touche des entreprises pourtant solidement financées, soutenues par des fonds majeurs comme Sequoia Capital, Founders Fund, General Catalyst et Andreessen Horowitz. La situation est suffisamment préoccupante pour qu'Hemant Taneja, directeur général de General Catalyst, ait envoyé un sondage à ses fondateurs en portefeuille pour évaluer leur capacité à accéder aux ressources de calcul. Cette tension sur l'offre a des conséquences directes et immédiates : les startups qui ne parviennent pas à obtenir des GPU auprès des fournisseurs cloud traditionnels se retrouvent contraintes de se tourner vers des alternatives plus coûteuses ou moins stables. Pour des entreprises dont le modèle repose entièrement sur la puissance de calcul, entraînement de modèles, inférence, recherche, une rupture d'approvisionnement peut ralentir le développement de produits et éroder l'avantage concurrentiel acquis grâce aux levées de fonds. Cette situation reflète une tension structurelle dans l'écosystème de l'IA : les hyperscalers comme Microsoft, Google ou Amazon ont massivement investi dans leurs propres capacités d'IA et traitent désormais leurs besoins internes en priorité. Face à une demande mondiale de GPU Nvidia qui dépasse largement l'offre disponible, les petits acteurs se retrouvent en bas de la liste d'attente, dans un marché où l'accès au calcul est devenu aussi stratégique que le capital lui-même.

UELes startups IA européennes, également dépendantes des hyperscalers américains pour l'accès aux GPU Nvidia, sont exposées à la même tension structurelle qui freine leur développement face aux priorités internes des fournisseurs cloud.

InfrastructureOpinion
1 source
GPT-5.5 et la super-application OpenAI Codex
335Latent Space 

GPT-5.5 et la super-application OpenAI Codex

OpenAI a lancé GPT-5.5 le 22 avril 2026, une semaine après la sortie de Claude Opus 4.7 par Anthropic. Le modèle est présenté comme "une nouvelle classe d'intelligence pour le travail réel" et déployé progressivement sur ChatGPT et Codex, l'accès API étant temporairement limité en attendant des vérifications de sécurité supplémentaires. Les benchmarks publiés sont impressionnants : 82,7% sur Terminal-Bench 2.0, 58,6% sur SWE-Bench Pro, 84,9% sur GDPval, 78,7% sur OSWorld-Verified et 84,4% sur BrowseComp. Le tarif API est fixé à 5$/30$ par million de tokens en entrée/sortie pour la version standard, et 30$/180$ pour la version Pro. Selon Artificial Analysis, GPT-5.5 en configuration medium atteint le même niveau que Claude Opus 4.7 au maximum sur leur Intelligence Index, mais à un quart du coût : environ 1 200 dollars contre 4 800. La fenêtre de contexte atteint 1 million de tokens en API, et Sam Altman souligne que le modèle consomme moins de tokens par tâche que son prédécesseur GPT-5.4. Ce lancement ne se résume pas à une simple mise à jour de modèle. GPT-5.5 marque un pivot stratégique d'OpenAI vers l'inférence agentique longue durée et l'efficacité économique, deux dimensions qui comptent davantage pour les entreprises que les scores bruts sur benchmarks académiques. La capacité à exécuter des tâches complexes avec moins d'interventions humaines change concrètement la proposition de valeur pour les développeurs et les équipes techniques. En parallèle, OpenAI a profondément étendu Codex : contrôle du navigateur, intégration avec Google Sheets, Slides, Docs et PDFs, dictée à l'échelle du système d'exploitation, et un mode de revue automatique reposant sur un agent secondaire dit "gardien" qui réduit le nombre de validations nécessaires sur les tâches longues. Codex n'est plus un outil de coding assisté : il devient un agent capable de naviguer dans des interfaces web, capturer des captures d'écran, itérer jusqu'à complétion, et traiter des flux de travail qui couvrent l'assurance qualité, la bureautique et la construction d'applications. Ce lancement s'inscrit dans une course frontale entre OpenAI, Anthropic et Google, dont Gemini 3.1 Pro Preview atteint un niveau comparable à GPT-5.5 à environ 900 dollars selon Artificial Analysis. OpenAI a co-conçu le modèle avec les systèmes NVIDIA GB200/300, et affirme que GPT-5.5 a contribué à améliorer sa propre infrastructure d'inférence, une affirmation qui illustre la direction que prend la compagnie. Sam Altman positionne désormais explicitement OpenAI comme une "entreprise d'inférence IA", signalant que la compétition ne se joue plus seulement sur la qualité des modèles mais sur leur coût d'exploitation à l'échelle. La décision d'absorber Prism et de faire de Codex la base d'une stratégie de superapp unifiée suggère qu'OpenAI cherche à verrouiller les workflows professionnels dans son écosystème, bien au-delà du simple chat.

UELes développeurs et entreprises européens bénéficient d'un modèle agentique de niveau SOTA à coût sensiblement réduit, ce qui modifie concrètement les arbitrages de déploiement IA à grande échelle sur le marché européen.

💬 Le ratio coût/perf, c'est là que ça se joue. GPT-5.5 medium au niveau d'Opus 4.7 max pour un quart du prix, les équipes qui hésitaient vont trancher vite. Et ce pivot vers une superapp avec Codex en moteur, c'est plus ambitieux qu'il n'y paraît : si l'agent gardien tient vraiment sur des tâches longues, OpenAI verrouille les workflows pro bien plus efficacement qu'avec n'importe quel score sur un benchmark.

LLMsOpinion
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
336arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

RechercheOpinion
1 source
Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
337Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source
Tencent et Alibaba négocient une entrée dans DeepSeek à plus de 20 milliards
338Le Big Data 

Tencent et Alibaba négocient une entrée dans DeepSeek à plus de 20 milliards

Tencent et Alibaba sont actuellement en négociation pour prendre une participation au capital de DeepSeek, la startup chinoise d'intelligence artificielle contrôlée par le fonds High-Flyer Capital Management. Selon des informations publiées par The Information, les discussions ont débuté à la mi-avril 2026, initialement autour d'une levée d'au moins 300 millions de dollars pour une valorisation d'environ 10 milliards de dollars. L'intérêt soutenu des investisseurs a rapidement fait grimper les ambitions : la valorisation envisagée dépasse désormais les 20 milliards de dollars. Les actions Alibaba cotées aux États-Unis ont légèrement progressé avant l'ouverture des marchés à l'annonce de ces discussions, signal que les investisseurs perçoivent positivement ce type de rapprochement. Ni le montant final ni la valorisation ne sont toutefois encore arrêtés. Pour Tencent et Alibaba, un investissement dans DeepSeek représente bien plus qu'un pari financier. Les deux groupes cherchent à consolider leur position dans l'IA générative, une technologie qui a déjà transformé leurs activités respectives, du cloud aux services grand public. Tencent, historiquement ancré dans les plateformes sociales et le gaming, entend enrichir ses écosystèmes grâce aux modèles d'IA avancés. Alibaba, de son côté, s'appuie sur l'IA pour soutenir sa division cloud et ses outils B2B. Une prise de participation dans DeepSeek leur permettrait d'accéder à des technologies de pointe dans les modèles de raisonnement et les agents autonomes, deux segments particulièrement gourmands en ressources de calcul et en capitaux. Développer des modèles de nouvelle génération exige en effet des investissements massifs en infrastructure, en données et en puissance de calcul, ce qui explique l'ampleur des montants recherchés. DeepSeek s'est imposé comme un acteur incontournable depuis son lancement en janvier 2025, provoquant à l'époque une véritable onde de choc sur les marchés technologiques mondiaux et obligeant ses concurrents chinois à accélérer leurs propres mises à jour. La startup se distingue par ses avancées dans les modèles de raisonnement et les systèmes autonomes, au coeur de la course à l'IA qui oppose la Chine aux États-Unis. Mais l'opération n'est pas sans risques : DeepSeek n'aurait pas partagé certains de ses modèles avec des fabricants de puces américains et aurait entraîné l'un de ses systèmes les plus avancés sur des technologies Nvidia en dépit des restrictions à l'export imposées par Washington. Ces éléments pourraient susciter des réticences chez certains partenaires internationaux, dans un contexte de tensions technologiques croissantes entre Pékin et Washington. L'entrée de deux géants comme Tencent et Alibaba au capital de DeepSeek marquerait une nouvelle phase dans la consolidation de l'écosystème IA chinois, et renforcerait la capacité du pays à rivaliser avec les leaders mondiaux du secteur.

UELa consolidation de l'écosystème IA chinois autour de DeepSeek pourrait accentuer la pression concurrentielle sur les initiatives européennes d'IA souveraine et affecter l'accès aux modèles open-source DeepSeek pour les entreprises européennes.

CoreWeave a convaincu les marchés obligataires
339The Information AI 

CoreWeave a convaincu les marchés obligataires

En l'espace de quelques semaines d'avril 2026, CoreWeave a levé près de 16 milliards de dollars auprès d'une diversité d'investisseurs rarement vue pour une entreprise technologique. Le 31 mars, la société a bouclé une facilité de crédit de 8,5 milliards de dollars adossée à ses propres processeurs graphiques Nvidia. Le 9 avril, elle a élargi un contrat existant avec Meta Platforms à 21 milliards de dollars pour la fourniture de capacités de calcul. Elle a ensuite émis 1,25 milliard de dollars d'obligations à haut rendement et 3 milliards en titres convertibles, des opérations rapidement augmentées d'un milliard supplémentaire. Dans la foulée, Anthropic a annoncé son arrivée comme nouveau client. La semaine suivante, CoreWeave a placé encore un milliard d'obligations sans même organiser de tournée de présentation auprès des investisseurs. Au milieu de tout cela, la firme de trading Jane Street a investi 1 milliard de dollars dans CoreWeave et s'est engagée à dépenser 6 milliards en services cloud IA sur la plateforme. Le titre de l'entreprise a progressé de 55 % sur le mois. Ce niveau de financement reflète un changement de posture profond chez les investisseurs obligataires, traditionnellement prudents vis-à-vis des entreprises technologiques. Ces acteurs ont longtemps boudé le secteur, jugé trop risqué, et avaient manifesté leur inquiétude l'an dernier face à la vague d'endettement d'Oracle et d'autres constructeurs d'infrastructures IA. Désormais, la demande massive et les engagements fermes de géants comme Meta suffisent à rassurer des fonds tels que Janus Henderson Investors, dont le responsable de la recherche crédit Mike Talaga résume la position : "Nous acceptons le risque de construction parce que la demande est là." Pour les investisseurs, CoreWeave représente un levier direct sur le succès de l'IA, avec une capacité démontrée à livrer de la puissance de calcul et à convaincre ses clients d'en commander davantage. L'entrée de Jane Street, acteur financier et non développeur d'IA, signale en outre que l'appétit pour ces services dépasse désormais le cercle des pure players technologiques. La trajectoire de CoreWeave s'inscrit dans une course effrénée à l'infrastructure déclenchée par les progrès rapides de l'IA générative. La pénurie de capacités de calcul a transformé les fournisseurs de cloud spécialisés en acteurs incontournables du secteur. CoreWeave cherche à consolider son avance en enrichissant son offre de logiciels et de services pour fidéliser ses clients. Nick Robbins, vice-président en charge du développement corporate, reconnaît cependant que l'ère actuelle est "celle de la croyance plutôt que du scepticisme." Cette dynamique pourrait s'emballer à court terme, mais elle comporte des risques systémiques : contrairement aux marchés actions, une turbulence dans l'obligataire peut freiner le crédit à l'échelle de l'économie entière, et de lourdes pertes futures dans ce compartiment pourraient se propager bien au-delà du seul secteur IA.

BusinessOpinion
1 source
Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant
340VentureBeat AI 

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Cirrascale Cloud Services a annoncé lors du Google Cloud Next 2026 à Las Vegas un accord élargi avec Google Cloud pour déployer le modèle Gemini en mode entièrement déconnecté, sur des serveurs physiques isolés d'internet. Cirrascale devient ainsi le premier fournisseur de cloud spécialisé à proposer le modèle phare de Google sous forme d'appliance privée, installée soit dans les centres de données de Cirrascale, soit directement dans les locaux du client. Le système repose sur un serveur certifié Google, fabriqué par Dell, équipé de huit GPU Nvidia et protégé par des mécanismes de calcul confidentiel. Une préversion est disponible immédiatement, avec une disponibilité générale attendue en juin ou juillet 2026. Dave Driggers, PDG de Cirrascale, a insisté sur un point clé : il s'agit du modèle Gemini complet, sans aucune restriction ni version allégée, déployé dans un environnement où les données d'entrée comme de sortie restent entièrement sous le contrôle du client. Fait notable sur le plan technique, les poids du modèle résident uniquement en mémoire volatile : dès que l'alimentation est coupée, le modèle disparaît sans laisser de trace persistante. Cette annonce répond à un problème structurel qui bloque depuis des années les secteurs régulés comme la finance, la santé, la défense et les administrations publiques. Ces organisations devaient jusqu'ici choisir entre accéder aux modèles les plus puissants via des API cloud publiques, au risque d'exposer leurs données sensibles à l'infrastructure d'un tiers, ou se contenter de modèles open source moins performants hébergés en interne. Le déploiement Cirrascale entend supprimer ce compromis. Driggers décrit l'escalade du problème de confiance : après les inquiétudes sur les données propriétaires confiées aux hyperscalers, les entreprises ont pris conscience que les prompts et les réponses générées étaient également récupérés par ces mêmes plateformes pour alimenter leurs propres systèmes, ce qui a rendu la demande de souveraineté totale incontournable. Cette évolution s'inscrit dans un mouvement plus large de migration des modèles d'IA frontier hors des centres de données des grands hyperscalers, vers les infrastructures propres des clients, ce qui représente une rupture avec la logique cloud dominante de la dernière décennie. Driggers distingue explicitement cette offre des déploiements on-premises proposés par Microsoft Azure avec les modèles OpenAI ou par AWS Outposts : dans ces cas, les modèles restent liés à l'infrastructure de leurs éditeurs. Ici, Google ne possède pas le matériel, et son modèle fonctionne en dehors de tout réseau Google. Pour le géant de Mountain View, accepter ce niveau de délégation sur son modèle le plus avancé traduit une stratégie commerciale claire : conquérir les marchés réglementés qui lui étaient jusqu'ici fermés, quitte à renoncer au contrôle direct de l'inférence.

UECe mode de déploiement air-gap répond directement aux exigences du RGPD et de l'AI Act en matière de souveraineté des données, ouvrant potentiellement Gemini aux administrations publiques, établissements de santé et institutions financières européennes soumis à des contraintes strictes de localisation et d'isolation des données.

💬 Le truc des poids uniquement en mémoire volatile, c'est la partie que je trouve la plus maligne. Parce que le blocage dans les secteurs régulés c'était pas juste "mes données sortent du réseau", c'était aussi "quelqu'un peut extraire ou copier le modèle", et là, coupe l'alimentation, ça disparaît. Google accepte de perdre le contrôle de l'inférence de son meilleur modèle pour aller chercher des marchés qui lui étaient fermés depuis des années. Ça, c'est un vrai mouvement.

InfrastructureOpinion
1 source
SpaceX s’allie à Cursor avec une option de rachat à 60 milliards
341Le Big Data 

SpaceX s’allie à Cursor avec une option de rachat à 60 milliards

SpaceX a officialisé le 21 avril 2026 un accord stratégique avec Cursor, l'éditeur de l'assistant de codage IA plébiscité par les développeurs professionnels. La structure de l'opération est atypique : SpaceX dispose soit de verser 10 milliards de dollars à Cursor pour ses travaux de développement, soit de procéder à une acquisition totale valorisant la start-up à 60 milliards de dollars. En parallèle, xAI, autre entité d'Elon Musk, a commencé à louer sa puissance de calcul à Cursor, mobilisant des dizaines de milliers de puces pour l'entraînement de modèles, selon Business Insider. The Information a également révélé que deux cadres importants de Cursor ont rejoint xAI récemment. Cursor, valorisée seulement 2,5 milliards de dollars début 2025, a bondi à 9 milliards quelques mois plus tard, puis à près de 30 milliards après une levée de fonds de 2,3 milliards en série D. L'option à 60 milliards acte une nouvelle étape dans cette ascension spectaculaire. Cet accord repose sur une logique de complémentarité : Cursor apporte son produit et sa base d'utilisateurs, essentiellement des développeurs expérimentés, tandis que SpaceX met à disposition le supercalculateur Colossus, dont la puissance équivaut à un million de puces Nvidia H100. L'objectif affiché est de créer les meilleurs outils d'IA au monde pour le codage et le travail de connaissance. Pour SpaceX, l'enjeu est de s'imposer rapidement sur un segment à forte valeur sans nécessairement décaisser immédiatement les 60 milliards, en conservant une option d'achat. Pour Cursor, l'accord constitue une validation implicite de sa valorisation, supérieure aux 50 milliards que la start-up visait lors de récentes discussions privées. Ce rapprochement s'inscrit dans une logique plus large de consolidation des actifs IA d'Elon Musk, qui cherche à créer un écosystème intégré combinant infrastructure de calcul, modèles de langage et outils de distribution. Le timing n'est pas anodin : SpaceX prépare une introduction en bourse très attendue, et l'intégration d'une brique logicielle à fort potentiel renforcerait son profil de conglomérat technologique au-delà du spatial. Cependant, le partenariat révèle aussi les faiblesses structurelles des deux parties : ni Cursor ni xAI ne disposent aujourd'hui de modèles capables de rivaliser pleinement avec ceux d'OpenAI ou d'Anthropic, qui dominent le marché de l'IA pour développeurs. L'alliance vise précisément à combler ce retard, mais SpaceX doit jongler avec des engagements financiers déjà conséquents, notamment après l'acquisition de xAI et du réseau social X, et les modalités de paiement, cash ou actions, restent à préciser.

Orchestration d'agents
342MIT Technology Review 

Orchestration d'agents

Les agents IA orchestrés en réseau constituent désormais la prochaine grande rupture technologique. Alors que ChatGPT a rendu les grands modèles de langage accessibles au grand public, les outils multi-agents représentent une étape qualitativement différente : des systèmes capables de déléguer, coordonner et exécuter des tâches complexes en parallèle. Claude Code, lancé par Anthropic l'année dernière, permet par exemple de piloter simultanément plusieurs dizaines de sous-agents, chacun affecté à une portion distincte d'une base de code. Chez OpenAI, Codex joue un rôle similaire. Anthropic affirme avoir développé son application de productivité Claude Cowork en seulement dix jours grâce à Claude Code, là où un projet comparable aurait nécessité plusieurs mois. Perplexity a également lancé Computer, un outil généraliste pour professionnels. Google DeepMind propose de son côté Co-Scientist, une plateforme qui permet aux chercheurs de confier à des équipes d'agents la recherche bibliographique, la génération d'hypothèses et la conception d'expériences. L'enjeu dépasse largement le secteur du logiciel. Ces outils s'adressent désormais à tous les cols blancs : gestion de boîtes mail, suivi d'inventaires, traitement des réclamations clients. La promesse centrale est de transformer le travailleur qualifié en chef de projet capable de superviser une équipe d'agents, multipliant ainsi sa productivité. Les partisans de cette technologie évoquent une rupture comparable à ce que la chaîne d'assemblage de Henry Ford a représenté pour l'industrie manufacturière au siècle dernier : une réorganisation profonde du travail de connaissance, potentiellement synonyme de suppressions massives de postes dans les fonctions tertiaires ou, à l'inverse, d'un bond de productivité sans précédent pour ceux qui sauront maîtriser ces outils. La montée en puissance de ces systèmes s'inscrit dans une dynamique portée par les géants de la tech. Des entreprises comme Nvidia et Tencent ont déjà commencé à développer leurs propres agents en s'appuyant sur des bases open source, comme celles popularisées par OpenClaw, un assistant personnel vocal qui avait capté l'attention malgré des failles de sécurité notoires. La vraie question qui se pose aujourd'hui n'est plus technique mais systémique : jusqu'où peut-on laisser des agents autonomes interagir avec des infrastructures critiques, des systèmes de santé, des plateformes financières ou des réseaux sociaux ? Les grands modèles de langage restent imprévisibles, et ce qui n'est qu'une erreur bénigne dans une interface de chat peut devenir un incident grave lorsque l'agent agit directement dans le monde réel. Le secteur avance vite, mais le cadre de contrôle, lui, peine à suivre.

UELa prolifération d'agents autonomes dans les fonctions tertiaires et les infrastructures critiques interpelle directement le cadre réglementaire européen, notamment l'AI Act qui classe certains usages d'agents autonomes comme systèmes à haut risque nécessitant audit et supervision humaine.

OutilsOutil
1 source
ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
343arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

AutreActu
1 source
344AI News 

Anthropic entre à la Maison Blanche : Mythos ouvre les portes de Washington

Le PDG d'Anthropic, Dario Amodei, s'est rendu à la Maison-Blanche vendredi pour rencontrer Susie Wiles, cheffe de cabinet du président Trump, en présence du secrétaire au Trésor Scott Bessent. Les deux parties ont qualifié les échanges de "productifs et constructifs". La visite intervient quelques semaines seulement après qu'une décision de l'administration Trump avait désigné Anthropic comme un "risque dans la chaîne d'approvisionnement", une classification habituellement réservée aux adversaires étrangers, et après que Trump avait lui-même déclaré que son gouvernement ne ferait "plus jamais affaire" avec l'entreprise. Un juge fédéral de San Francisco a depuis bloqué l'application de cette directive, maintenant Anthropic éligible aux contrats avec les agences civiles le temps que le litige se règle. Le différend avec le Pentagone, lui, reste entier. Ce qui a modifié le rapport de force, c'est le modèle Mythos d'Anthropic, un système d'IA spécialisé en cybersécurité aux capacités jugées inégalées. Lors de tests internes, Mythos a localisé des milliers de failles inconnues et critiques dans tous les grands systèmes d'exploitation et navigateurs web, dont un bug vieux de 27 ans dans OpenBSD et une vulnérabilité de 16 ans dans FFmpeg, passée cinq millions de fois à travers des outils automatisés sans être détectée. Anthropic a choisi de ne pas le diffuser publiquement et l'a réservé à un cercle restreint via le "Project Glasswing", une coalition incluant AWS, Apple, Cisco, Google, Microsoft, Nvidia, CrowdStrike et JPMorganChase, soutenue par jusqu'à 100 millions de dollars en crédits d'utilisation. Des agences de renseignement américaines et la CISA (l'agence fédérale de cybersécurité) testent déjà Mythos, et le Trésor a également manifesté son intérêt. Selon Axios, un accord permettant à des agences gouvernementales de rejoindre le programme Glasswing pourrait être conclu rapidement. La réunion de vendredi avait pour objectif explicite de séparer deux dossiers qui s'étaient enchevêtrés : le conflit avec le Pentagone d'un côté, et l'accès du reste du gouvernement fédéral aux outils d'Anthropic de l'autre. En toile de fond, une tension difficile à résoudre : Mythos est un outil à double usage, capable de renforcer les défenses comme d'armer des attaquants. Un conseiller de Trump a résumé la situation à Axios en ces termes : "Tout le monde se plaint, il y a tout ce drame, donc ça a été remonté à Susie pour qu'elle écoute Dario." Sean Cairncross, directeur national de la cybersécurité, doit diriger un groupe de hauts fonctionnaires chargé d'identifier les vulnérabilités des infrastructures critiques, une mission pour laquelle Mythos devient difficile à ignorer.

UELes failles critiques découvertes par Mythos dans des systèmes largement déployés en Europe (OpenBSD, FFmpeg, navigateurs majeurs) concernent indirectement les infrastructures européennes, mais le programme Glasswing et les accords gouvernementaux restent pour l'instant limités aux agences américaines.

💬 Un bug de 27 ans dans OpenBSD, passé cinq millions de fois sous les outils automatisés sans être vu. Ça explique pourquoi Dario Amodei se retrouve à la Maison-Blanche trois semaines après que Trump avait juré de ne plus jamais travailler avec eux. Bon, le problème du double usage, lui, ne se règle pas avec une réunion à Washington.

SécuritéActu
1 source
OpenAI va dépenser plus de 20 milliards de dollars en puces Cerebras et obtenir une participation au capital
345The Information AI 

OpenAI va dépenser plus de 20 milliards de dollars en puces Cerebras et obtenir une participation au capital

OpenAI a conclu un accord majeur avec Cerebras Systems, le fabricant de puces AI concurrent de Nvidia, pour un montant total dépassant 20 milliards de dollars sur trois ans. Selon plusieurs sources proches du dossier, cette somme, deux fois supérieure aux chiffres précédemment évoqués, servira à financer l'utilisation de serveurs équipés des puces Cerebras. En parallèle, OpenAI s'est engagé à injecter environ 1 milliard de dollars supplémentaires pour financer la construction de centres de données destinés à héberger ses produits d'intelligence artificielle. En contrepartie de ces dépenses, OpenAI recevra des bons de souscription donnant accès à une participation minoritaire dans Cerebras, participation qui pourrait croître proportionnellement aux sommes dépensées. Cet accord constitue une tentative directe de réduire la dépendance d'OpenAI envers Nvidia, dont les puces H100 et H200 dominent le marché de l'infrastructure IA. Pour OpenAI, l'enjeu est double : diversifier ses fournisseurs de calcul tout en pesant sur les coûts d'entraînement et d'inférence de ses modèles, qui représentent plusieurs milliards de dollars par an. Cerebras, connue pour ses puces WSE (Wafer Scale Engine) aux performances élevées sur certaines charges de travail, tentait de lancer son introduction en bourse depuis 2024, un processus retardé notamment par des questions réglementaires liées à ses investisseurs du Moyen-Orient. Cet accord avec OpenAI change radicalement sa trajectoire et sa valorisation potentielle. Il s'inscrit dans un mouvement plus large de l'industrie tech visant à diversifier l'approvisionnement en silicium face à la pénurie et au pouvoir de marché de Nvidia, tandis que des acteurs comme AMD, Intel et des startups comme Groq cherchent également à s'imposer comme alternatives crédibles.

💬 20 milliards sur Cerebras, c'est pas une commande de puces, c'est un message envoyé à Jensen Huang. OpenAI commence enfin à construire un levier de négociation réel, parce qu'être client captif de Nvidia à cette échelle, c'est juste intenable sur la durée. Reste à voir si les WSE tiennent la charge en prod sur des workloads variés, parce que Cerebras performe bien dans certains cas mais c'est pas encore la puce universelle qu'on nous vend.

InfrastructureActu
1 source
346Le Big Data 

Pourquoi les infrastructures cloud dédiées à l’IA deviennent un enjeu stratégique en Europe ?

Le groupe SWI (Stoneweg Icona Group) a annoncé l'acquisition d'une participation majoritaire dans Polarise, une société allemande spécialisée dans les infrastructures cloud pour l'intelligence artificielle, valorisant cette dernière à 500 millions d'euros. En parallèle, SWI s'engage à injecter un milliard d'euros supplémentaires pour accélérer le développement de ce qui se veut le premier opérateur d'infrastructures numériques souveraines à l'échelle européenne. Polarise dispose déjà de 14 centres de données opérationnels à travers l'Europe, d'une capacité totale de 2,3 GW via sa plateforme AiOnX, et d'un partenariat privilégié avec Nvidia lui donnant accès direct aux GPU les plus puissants du marché. La société a également lancé la première "AI Factory" d'Allemagne en collaboration avec Deutsche Telekom, positionnant d'emblée ce rapprochement comme une initiative industrielle de premier plan. Max-Hervé George, fondateur et PDG de SWI Group, pilote cette stratégie d'intégration verticale, couvrant la chaîne complète du foncier aux logiciels cloud. L'enjeu est considérable : les entreprises et gouvernements européens cherchent à réduire leur dépendance aux hyperscalers américains, AWS, Azure, Google Cloud, pour les charges de travail les plus sensibles. L'acquisition permet à SWI de proposer un modèle "GPU-as-a-Service" permettant aux organisations de louer de la puissance de calcul GPU à la demande, sans investissement lourd en matériel, via une infrastructure localisée en Europe et soumise au droit européen. Pour les industries de pointe en Allemagne, en France ou en Norvège, cela représente un accès à des capacités de calcul haute performance sans compromis sur la souveraineté des données. Ce modèle favorise également une innovation plus rapide pour les startups et PME qui n'ont pas les moyens de construire leur propre infrastructure. Cette opération s'inscrit dans un mouvement plus large de structuration de la filière IA européenne face à la domination des géants américains et à la montée en puissance des acteurs chinois. L'Union européenne multiplie depuis plusieurs années les appels à bâtir une capacité numérique autonome, notamment à travers le règlement sur l'IA et les investissements du programme Horizon. La rareté des GPU Nvidia, dont Polarise est revendeur agréé, confère à cette alliance un avantage concurrentiel structurel dans un marché sous tension. Les prochaines étapes visent l'extension géographique vers l'Allemagne et la Norvège, deux pays disposant d'une énergie abondante et bon marché indispensable pour alimenter ces infrastructures énergivores. Si SWI tient ses engagements d'investissement, le groupe pourrait devenir un acteur de référence pour les contrats publics et les grandes entreprises cherchant une alternative crédible aux solutions extraeuropéennes.

UEL'acquisition crée un opérateur cloud souverain européen offrant aux entreprises et gouvernements de l'UE une alternative concrète aux hyperscalers américains pour leurs charges de travail sensibles, avec accès aux GPU Nvidia via une infrastructure soumise au droit européen.

InfrastructureOpinion
1 source
OpenAI lève 3 milliards auprès d'investisseurs particuliers dans une levée record de 122 milliards
347TechCrunch AI 

OpenAI lève 3 milliards auprès d'investisseurs particuliers dans une levée record de 122 milliards

OpenAI a bouclé un tour de financement record de 122 milliards de dollars, dont 3 milliards levés directement auprès d'investisseurs particuliers — une démarche inhabituelle pour une entreprise non cotée. Le tour est mené par Amazon, Nvidia et SoftBank, et porte la valorisation de la société à 852 milliards de dollars, la plaçant parmi les entreprises privées les plus valorisées de l'histoire. L'ouverture aux investisseurs retail signale qu'OpenAI prépare activement son introduction en bourse. En associant le grand public à ce tour pré-IPO, la société élargit sa base d'actionnaires et génère une dynamique de marché favorable avant une cotation. Pour les investisseurs institutionnels comme SoftBank — déjà engagé à hauteur de 500 millions de dollars dans le projet Stargate — c'est une opportunité de consolider leur position avant que le titre ne soit accessible à tous. Cette levée intervient dans un contexte de course effrénée aux capitaux dans l'IA générative. OpenAI fait face à la montée en puissance de concurrents comme Anthropic, Google DeepMind et des acteurs chinois tels que DeepSeek. Avec une valorisation frôlant les 1 000 milliards de dollars, l'entreprise fondée par Sam Altman s'approche d'un statut de « trillion-dollar company » avant même son entrée en bourse, une IPO qui pourrait redéfinir les standards du secteur technologique.

UELa valorisation record d'OpenAI à 852 milliards de dollars et sa future IPO renforceront la dépendance des entreprises européennes aux infrastructures IA américaines, aggravant les enjeux de souveraineté numérique de l'UE.

💬 852 milliards avant même l'IPO, c'est du jamais vu et c'est pas un accident. Ouvrir le tour aux particuliers, c'est pas de la générosité envers les petits porteurs, c'est la mécanique classique pour chauffer la base actionnaire et arriver en bourse avec un marché déjà acquis. Ça va faire une IPO spectaculaire sur le papier, bon, reste à voir ce que ça donne quand les vrais chiffres de marge seront publics.

BusinessActu
1 source
Claude rattrape OpenClaw
348The Information AI 

Claude rattrape OpenClaw

Anthropic a multiplié les nouvelles fonctionnalités pour ses agents Claude ces dernières semaines, au point de rivaliser directement avec OpenClaw, l'outil open-source de développement d'agents IA personnels devenu viral. Parmi les ajouts récents : la prise de contrôle complète de l'ordinateur de l'utilisateur pour exécuter des tâches complexes dans n'importe quelle application — lancée lundi soir avec beaucoup de communication —, la réception de commandes via des messageries comme Telegram ou iMessage, la mémorisation d'informations entre les sessions, et l'exécution automatique de tâches récurrentes selon un planning. L'avantage de Claude sur OpenClaw réside surtout dans l'accessibilité et la sécurité. Là où OpenClaw exige une installation en ligne de commande, une configuration manuelle des modèles et des intégrations, Claude ne nécessite qu'une application desktop. Sur le plan de la cybersécurité, Claude Cowork demande une confirmation avant de modifier des fichiers et s'exécute dans une machine virtuelle isolée du système principal — une précaution qui évite les risques qui ont longtemps terni la réputation d'OpenClaw, et qui poussaient certains utilisateurs à acquérir des Mac Mini ou des machines Nvidia dédiées pour cloisonner leurs agents IA. Malgré cette concurrence frontale, OpenClaw reste une force considérable. Les données NPM indiquent que l'outil a été téléchargé plus de 400 000 fois le mardi suivant l'annonce d'Anthropic, proche de son record absolu de 500 000 téléchargements quotidiens atteint plus tôt dans le mois — et ces chiffres n'incluent pas les innombrables forks, comme NemoClaw développé par Nvidia. La bataille pour l'agent IA dominant se joue désormais sur deux terrains : la puissance technique des solutions open-source d'un côté, et la commodité des offres commerciales packagées de l'autre.

UELes nouvelles fonctionnalités d'agents Claude (contrôle d'ordinateur, mémoire persistante, tâches planifiées) sont directement accessibles aux développeurs et entreprises européens souhaitant automatiser leurs workflows.

OutilsOutil
1 source
Mark Zuckerberg et Jensen Huang rejoignent le nouveau conseil technologique de Trump
349The Verge AI 

Mark Zuckerberg et Jensen Huang rejoignent le nouveau conseil technologique de Trump

Mark Zuckerberg (Meta), Larry Ellison (Oracle), Jensen Huang (Nvidia) et Sergey Brin (Google) seront les quatre premiers membres du Conseil des conseillers du président sur la science et la technologie (PCAST), selon le Wall Street Journal. Ce panel, qui aura son mot à dire sur la politique en matière d'IA, comptera 13 membres au départ et pourrait s'étendre à 24. Il sera coprésidé par David Sacks, le « tsar » de l'IA et des cryptomonnaies de Trump, et Michael Kratsios, conseiller technologique de la Maison-Blanche. Cette initiative place directement les PDG des géants technologiques au cœur de la politique fédérale sur l'intelligence artificielle. Leur influence pourrait peser lourd sur les réglementations à venir, les investissements publics et la position américaine face à la concurrence chinoise dans la course à l'IA. Le fait que des dirigeants de sociétés privées siègent officiellement dans un organe consultatif présidentiel soulève aussi des questions sur les conflits d'intérêts potentiels. Le PCAST est une instance historique qui conseille la Maison-Blanche sur la science, la technologie, l'éducation et l'innovation — sa composition reflète la priorité absolue accordée par l'administration Trump à la domination américaine dans le domaine de l'IA.

UELa composition pro-industrie de ce conseil pourrait accélérer la divergence réglementaire entre Washington et Bruxelles, renforçant la pression concurrentielle sur les entreprises européennes d'IA soumises à l'AI Act.

RégulationReglementation
1 source
Des employés de Supermicro inculpés pour contrebande présumée de puces IA d'un milliard de dollars
350The Information AI 

Des employés de Supermicro inculpés pour contrebande présumée de puces IA d'un milliard de dollars

Le département américain de la Justice a inculpé trois employés de Super Micro Computer pour avoir illégalement exporté vers la Chine des serveurs IA avancés d'une valeur d'au moins 2,5 milliards de dollars, en violation des contrôles à l'exportation américains. Les puces spécifiques impliquées n'ont pas été précisées, bien que Nvidia domine largement ce marché. Cette affaire illustre le renforcement de l'application des restrictions américaines sur les technologies d'IA à destination de la Chine.

UELes entreprises européennes exportant des technologies d'IA vers la Chine doivent surveiller de près le renforcement des contrôles américains, qui créent un précédent susceptible d'influencer les réglementations européennes similaires.

RégulationReglementation
1 source