Aller au contenu principal

Dossier NVIDIA — page 5

296 articles · page 5 sur 6

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

Planification VLA à horizon étendu par conditionnement sur traces
201arXiv cs.RO RobotiqueOpinion

Planification VLA à horizon étendu par conditionnement sur traces

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint. Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide. Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

1 source
Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)
202Latent Space 

Bilan AIE Europe et thèse des Agent Labs : épisode croisé Unsupervised Learning x Latent Space (2026)

Enregistré quelques jours après la conférence AIE Europe 2026, un épisode spécial du podcast Unsupervised Learning a réuni Jacob Effron et Shawn Wang, plus connu sous le pseudonyme "swyx", figure centrale de la communauté AI engineering, pour faire le point un an après leur premier épisode croisé avec Latent Space. Les deux animateurs ont passé en revue l'ensemble du paysage IA : infrastructure agentique, guerres du code, formation de modèles spécialisés, valorisations débridées, et ce que signifie vendre à des agents plutôt qu'à des humains. Parmi les points saillants : le playbook des "agent labs", qui consiste à démarrer avec des modèles frontier, à se spécialiser sur un domaine, puis à entraîner ses propres modèles une fois que les données, les volumes d'usage et les économies de latence le justifient. Des entreprises comme Cursor et Cognition sont citées comme exemples concrets de cette trajectoire. Ce que l'épisode documente, c'est la maturation accélérée d'un marché encore en phase d'exploration intensive. L'infrastructure IA a contraint ses acteurs à se réinventer chaque année, tandis que les entreprises applicatives ont mieux résisté à la volatilité des modèles en s'ancrant dans des workflows métier précis. La spécialisation de domaine, la distillation et l'amélioration du contexte ("context engineering") émergent comme leviers de différenciation réels, pas de simples arguments marketing. Le marché du coding IA, l'une des catégories à la croissance la plus rapide, illustre cette dynamique : Anthropic, OpenAI, Cursor et Cognition y ont tous prospéré, mais seule une poignée de noms s'impose comme gagnants réels, un mystère que l'épisode laisse en partie ouvert. La mémoire et la personnalisation sont identifiées comme le prochain grand vecteur de différenciation produit, dans un monde où les modèles récompensent encore trop la fréquence de mention plutôt que la pertinence contextuelle. L'épisode s'inscrit dans un moment charnière : les grands labos frontier tentent d'envahir les verticaux comme la finance et la santé, mais laissent encore de l'espace aux entreprises focalisées qui contrôlent le workflow et le "dernier kilomètre" utilisateur. Swyx se dit plus optimiste qu'avant sur l'open source et sur l'émergence de hardware non-Nvidia, soulignant que chaque accélération de 10x en inférence peut débloquer des expériences produit inédites. L'épisode a été enregistré avant l'annonce de l'accord Cursor-xAI, ce qui lui donne rétrospectivement une valeur de document pré-rupture, un instantané du marché juste avant que la consolidation ne s'accélère davantage. Le marché du coding est présenté comme le modèle préfigurant la trajectoire de toutes les autres verticales IA.

UELa conférence AIE Europe 2026 fournit le cadre géographique, mais l'analyse porte essentiellement sur des acteurs américains ; les startups et développeurs européens peuvent s'inspirer du playbook des 'agent labs' pour calibrer leur propre trajectoire de spécialisation.

BusinessOpinion
1 source
Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI
203SCMP Tech 

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Tencent Holdings a dévoilé jeudi son nouveau modèle d'intelligence artificielle phare, baptisé HY3-Preview, marquant une étape importante dans la stratégie IA du groupe de Shenzhen. C'est le premier grand modèle lancé depuis que Yao Shunyu, ancien chercheur chez OpenAI, a rejoint l'entreprise pour diriger ses efforts en IA fondamentale. Fermé et non accessible au public en open source, HY3-Preview se distingue par une architecture relativement compacte de 295 milliards de paramètres, une taille modeste pour un modèle de cette ambition. Tencent positionne HY3-Preview comme son modèle le plus puissant à ce jour, comparable aux meilleures solutions chinoises disponibles, mais encore en retrait face aux leaders américains comme OpenAI et Google DeepMind. L'arrivée de Yao Shunyu, figure reconnue de la recherche en IA, signale la volonté du groupe de monter en gamme sur les fondations mêmes de ses systèmes, au-delà de ses applications existantes comme Weixin ou Tencent Cloud. Ce lancement s'inscrit dans une intense course technologique entre les géants technologiques chinois, qui cherchent à réduire l'écart avec les États-Unis dans un contexte de restrictions à l'export de puces Nvidia. Alibaba, Baidu, et ByteDance ont chacun intensifié leurs investissements en modèles fondationnels ces derniers mois. Que Tencent, longtemps perçu comme plus discret sur ce terrain, franchisse ce cap avec un recrutement aussi symbolique qu'un ex-OpenAI, témoigne d'une accélération générale de la compétition IA en Asie.

LLMsActu
1 source
Pourquoi DeepSeek cherche encore des financements malgré ses importantes liquidités, selon des sources
204SCMP Tech 

Pourquoi DeepSeek cherche encore des financements malgré ses importantes liquidités, selon des sources

DeepSeek, la start-up chinoise d'intelligence artificielle basée à Hangzhou, lève des fonds externes pour la première fois de son histoire. Selon trois investisseurs directement impliqués dans les négociations, l'entreprise cherche à céder au maximum 3 % de son capital, maintenant volontairement la taille du tour de table à un niveau modeste. Spin-off du fonds spéculatif High-Flyer, DeepSeek dispose pourtant de ressources financières importantes, ce qui rend cette démarche d'autant plus remarquée dans le secteur. Cette levée limitée à 3 % répond à une logique précise : préserver la structure capitalistique de l'entreprise tout en offrant des mécanismes de rétention aux talents clés, dans un contexte de compétition féroce pour les ingénieurs en IA. En restant majoritairement fermée aux investisseurs extérieurs, DeepSeek conserve son indépendance stratégique et évite la pression des actionnaires sur ses décisions de développement, un modèle rare dans un écosystème où la plupart des acteurs brûlent des capitaux à grande échelle. DeepSeek s'est imposée sur la scène mondiale début 2025 avec la sortie de son modèle R1, qui a démontré des performances comparables aux meilleurs modèles américains à une fraction du coût de développement annoncé, provoquant un séisme boursier aux États-Unis. L'entreprise évolue dans un environnement géopolitique tendu, où les restrictions américaines sur les semi-conducteurs contraignent l'accès aux puces Nvidia de dernière génération. Cette levée symbolique pourrait aussi viser à attirer des partenaires stratégiques plutôt que de simples financeurs, alors que la rivalité sino-américaine en IA s'intensifie.

UELa pression concurrentielle de DeepSeek sur les coûts de développement des LLMs accentue les défis stratégiques pour les acteurs et investisseurs européens de l'IA face à la rivalité sino-américaine.

BusinessActu
1 source
UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde
205arXiv cs.RO 

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

UniT (Unified Latent Action Tokenizer via Visual Anchoring) est un framework de recherche présenté début avril 2026 sur arXiv (2604.19734), conçu pour transférer les politiques de mouvement humain directement vers des robots humanoïdes. Le problème adressé est bien documenté : l'entraînement de modèles fondation pour humanoïdes bute sur la rareté des données robotiques. UniT propose d'exploiter les vastes corpus de données égocentrées humaines existants en construisant un espace latent discret partagé entre les deux types de corps. Le mécanisme central, dit tri-branch cross-reconstruction, fonctionne en trois voies : les actions prédisent la vision pour ancrer les cinématiques aux conséquences physiques, la vision reconstruit les actions pour éliminer les biais visuels non pertinents, et une branche de fusion unifie ces modalités purifiées en tokens d'intention physique indépendants de l'embodiment. Le framework est validé sur deux usages : VLA-UniT pour l'apprentissage de politique (Vision-Language-Action), et WM-UniT pour la modélisation du monde, qui permet la génération de vidéos humanoïdes contrôlées par des données de mouvement humain brutes. Les auteurs revendiquent un transfert zero-shot de tâches et une efficacité données state-of-the-art sur benchmark de simulation et sur des déploiements réels, sans toutefois publier de métriques de déploiement chiffrées. L'enjeu central est le "cross-embodiment gap" : un humain et un robot humanoïde partagent une structure morphologique proche mais des cinématiques incompatibles (nombre de degrés de liberté, ratios de membres, actionneurs). Jusqu'ici, combler cet écart nécessitait du retargeting cinématique manuel, de la téléopération coûteuse ou de la simulation synthétique. Si UniT tient ses promesses, il ouvrirait un pipeline d'entraînement hautement scalable à coût marginal faible, puisque les données égocentrées humaines se comptent en millions d'heures. Le claim de zero-shot transfer est le plus fort de l'article, mais il convient de le nuancer : il s'appuie sur des visualisations t-SNE montrant une convergence des représentations humaine et humanoïde dans un espace partagé, ce qui est indicatif mais pas une preuve de généralisation robuste en conditions industrielles réelles. Ce travail s'inscrit dans une vague de recherche sur les modèles fondation pour humanoïdes qui mobilise simultanément Figure AI avec son modèle Helix, Physical Intelligence avec Pi-0 et Pi-0.5, et NVIDIA avec GR00T N2, tous confrontés au même goulot d'étranglement des données. L'approche par ancrage visuel de UniT se distingue des méthodes purement cinématiques comme les retargeters basés sur des squelettes (SMPLify, HumanMimic) en postulant que les conséquences visuelles du mouvement sont universelles indépendamment du corps. Le preprint ne mentionne pas d'affiliation industrielle explicite ni de calendrier de déploiement commercial, et aucun robot cible (Unitree G1, Fourier GR-1, ou autre) n'est nommé dans le résumé disponible. La prochaine étape logique serait une validation sur des benchmarks standardisés comme LIBERO ou RoboMimic, et une comparaison directe avec GR00T N2 sur des tâches dextres en environnement non contrôlé.

AutreOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
206arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

AutreOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
207arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

AutreOpinion
1 source
Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique
208arXiv cs.RO 

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Une étude publiée sur arXiv (2604.17896) examine une lacune structurelle dans l'entraînement des modèles VLA (Vision-Language-Action) : ces architectures, qui transforment des entrées multimodales (vision, langage) directement en commandes motrices pour robots, sont typiquement entraînées par imitation à grande échelle, sans aucune supervision explicite des contraintes physiques dures. Les auteurs intègrent un objectif de faisabilité géométrique dans la phase d'entraînement d'une politique VLA basée sur la diffusion, et évaluent l'impact sur des tâches de manipulation avec obstacles, utilisées comme banc d'essai contrôlé de la faisabilité physique. Les résultats montrent une amélioration de la fiabilité physique, de la performance globale, et de l'efficacité d'apprentissage en régime de faibles données. L'enjeu est significatif pour quiconque déploie des VLA en environnement industriel non contrôlé. Jusqu'ici, l'hypothèse implicite du paradigme d'imitation était que suffisamment de démonstrations permettraient au modèle d'inférer les contraintes géométriques (évitement d'obstacles, faisabilité cinématique) de façon latente. Cette étude apporte une preuve empirique que cette inférence reste incomplète : ajouter un signal de faisabilité explicite, même simple, améliore à la fois la robustesse physique et les performances sur la tâche. L'effet est particulièrement marqué en faible volume de données, ce qui est précisément le régime courant en déploiement réel où les démonstrations sont coûteuses à collecter. Le contexte est celui d'une compétition intense autour des politiques de manipulation généralisable : OpenVLA, pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou encore les travaux issus de RT-2/RT-X font tous le pari de l'imitation à grande échelle comme voie royale. Cette étude ne remet pas en cause ce paradigme, mais propose une correction ciblée, peu coûteuse à intégrer, sur le point précisément où les VLA actuels montrent leurs limites en production : la collision et la faisabilité cinématique. Aucun acteur commercial spécifique n'est impliqué ici, il s'agit d'une contribution académique, mais ses conclusions sont directement exploitables par les équipes d'intégration qui fine-tunent des VLA sur des postes de travail réels.

AutreOpinion
1 source
Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée
209arXiv cs.RO 

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

Une équipe de chercheurs a publié sur arXiv (2604.16886) COIN, pour Chain Of Interaction Benchmark, un nouveau protocole d'évaluation conçu pour mesurer la capacité des agents robotiques généralistes à raisonner et agir de manière interactive sur des tâches à horizon long. Le benchmark se structure en trois sous-ensembles : COIN-50, qui regroupe 50 tâches en environnement quotidien réaliste ; COIN-Primitive, consacré aux primitives d'action causalement dépendantes ; et COIN-Composition, de complexité intermédiaire, ciblant l'apprentissage et la généralisation de compétences. Pour constituer les données d'entraînement, les auteurs ont développé un système de télé-opération mobile en réalité augmentée à faible coût, permettant de collecter 1 000 démonstrations, 50 par tâche primitive. Trois familles d'approches ont été évaluées : CodeAsPolicy (génération de code exécutable par LLM), VLA (Vision-Language-Action models), et H-VLA (VLA hiérarchiques conditionnés au langage). Les résultats révèlent des lacunes critiques dans l'état de l'art actuel. Tous les modèles testés échouent significativement sur les tâches nécessitant un raisonnement interactif séquentiel, par exemple, ouvrir plusieurs tiroirs successifs avant de localiser et saisir un objet sous observabilité partielle. Le fossé constaté ne se situe pas tant dans la compréhension visuelle que dans le passage à l'exécution motrice : les modèles peinent à mettre à jour leurs plans en temps réel en fonction des nouvelles informations acquises à chaque étape. Ce résultat pèse directement sur les prétentions des VLA à opérer en autonomie dans des environnements non contrôlés, un signal d'alarme pour les intégrateurs qui anticipent des déploiements industriels à court terme. COIN s'inscrit dans une vague de benchmarks d'embodied AI cherchant à combler le manque de protocoles standardisés au-delà des tâches statiques de pick-and-place. Des travaux comme LIBERO, RLBench ou BEHAVIOR-1K ont posé des bases, mais aucun n'adressait explicitement la chaîne causale d'interactions sous observabilité partielle à cette granularité. La publication intervient alors que les laboratoires industriels, Physical Intelligence (pi) avec Pi-0, Google DeepMind avec RT-2 ou GR00T N2 de NVIDIA, multiplient les annonces sur la généralisation des VLA. COIN fournit un outil de comparaison indépendant, encore académique, dont l'adoption comme standard de facto dépendra de sa capacité à attirer des soumissions extérieures et à être intégré dans les pipelines d'évaluation des acteurs commerciaux.

AutreActu
1 source
OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste
210arXiv cs.RO 

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

Des chercheurs ont publié le 24 avril 2026 OFlow, un framework destiné à améliorer la robustesse des modèles Vision-Language-Action (VLA) dans les tâches de manipulation robotique. L'approche, présentée dans un preprint arXiv (2604.17876), repose sur deux mécanismes combinés : un module de prédiction temporelle par flow matching, qui anticipe l'évolution de la scène avant d'agir, et une représentation centrée sur les objets pertinents pour la tâche, qui filtre les variations visuelles sans intérêt. Ces deux composants partagent un même espace latent sémantique, à partir duquel la génération des actions continues est conditionnée. Les évaluations couvrent quatre environnements de référence, LIBERO, LIBERO-Plus, MetaWorld et SimplerEnv, ainsi que des expériences en conditions réelles, et montrent des gains de robustesse et de taux de succès par rapport aux baselines VLA standards. Le verrou que tente de lever OFlow est bien identifié dans la communauté : les VLAs actuels raisonnent image par image, sans modèle explicite de ce qui va se passer ni de quels objets comptent vraiment. En séparant les cues visuels liés à la tâche des variations de fond (éclairage, texture, pose de la caméra), OFlow produit des représentations plus stables sous distribution shift, c'est-à-dire lorsque les conditions réelles diffèrent du training data. Pour les intégrateurs et les équipes de déploiement industriel, c'est un point critique : la fragilité des VLAs face aux écarts de conditions est l'un des principaux obstacles à leur passage en production. Les résultats sur SimplerEnv et les tâches réelles sont particulièrement scrutés, car ce benchmark est conçu pour tester explicitement ce gap sim-to-real. OFlow s'inscrit dans une vague de travaux cherchant à doter les VLAs d'une forme de planification implicite, après des modèles comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) qui misent sur des architectures diffusion ou flux pour la génération d'actions. L'originalité revendiquée ici est l'unification dans un espace latent commun, plutôt que d'ajouter des modules séparés. Il s'agit pour l'instant d'un preprint non relu par des pairs, et les benchmarks utilisés, LIBERO notamment, sont bien maîtrisés par la communauté mais n'impliquent pas de robots déployés en production. Les prochaines étapes naturelles seront la validation sur des plateformes hardware variées et une comparaison directe avec les approches concurrentes sur des scénarios industriels réels.

AutreOpinion
1 source
ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé
211arXiv cs.RO 

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

Des chercheurs ont publié le 22 avril 2026 sur arXiv un article présentant ReFineVLA, un cadre d'apprentissage conçu pour améliorer les capacités de raisonnement des modèles Vision-Language-Action (VLA) en robotique. L'approche repose sur deux étapes : un modèle enseignant expert génère d'abord des rationales de raisonnement pour enrichir les jeux de données robotiques existants, puis ces données augmentées servent à affiner des VLA pré-entraînés. Les auteurs évaluent leur méthode sur SimplerEnv, un environnement de simulation de manipulation, en testant deux plateformes robotiques distinctes : le bras WidowX et le Google Robot. ReFineVLA affiche un taux de succès supérieur à la deuxième meilleure méthode sur les deux benchmarks, selon les résultats rapportés. Aucun chiffre précis de marge de progression n'est fourni dans l'abstract. L'enjeu soulevé par ce travail est le fossé entre performance brute et raisonnement explicite dans les VLA actuels. Les modèles existants apprennent des mappings entrée-action fonctionnels mais omettent les étapes logiques intermédiaires, ce qui fragilise leur interprétabilité et leur généralisation sur des tâches longues et complexes. Pour les intégrateurs industriels, cette lacune est critique : un robot qui réussit une tâche sans pouvoir expliquer sa décision est difficile à valider, à certifier, ou à déboguer. ReFineVLA propose d'injecter du raisonnement structuré au moment du fine-tuning plutôt qu'en repensant l'architecture, ce qui est une approche pragmatique pour améliorer des modèles existants comme OpenVLA ou pi0 sans réentraînement complet. Ce travail s'inscrit dans une tendance récente visant à combler le gap entre LLMs raisonnants et politiques robotiques. Des approches comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA ont montré que les VLA pré-entraînés sur de larges corpus peuvent être adaptés à des domaines spécifiques. ReFineVLA pousse cette logique en ciblant explicitement le raisonnement comme vecteur de généralisation. Les évaluations restent cantonnées à la simulation, et la question du transfert sim-to-real n'est pas traitée dans cette version. Les prochaines étapes naturelles seraient une validation sur robot réel et une mesure de l'impact sur des tâches de manipulation longue séquence hors distribution.

AutreOpinion
1 source
Cursor AI : une levée de 2 milliards de dollars pour transformer le codage en entreprise
212Le Big Data 

Cursor AI : une levée de 2 milliards de dollars pour transformer le codage en entreprise

Cursor AI, la start-up américaine spécialisée dans les agents de programmation assistée par intelligence artificielle, est en discussions avancées pour boucler un tour de table de 2 milliards de dollars qui porterait sa valorisation au-delà des 50 milliards. L'opération serait co-dirigée par Andreessen Horowitz, avec la participation de Nvidia, Thrive Capital, et d'autres investisseurs déjà présents au capital comme Accel, Coatue, DST Global et Google. Ce nouveau round intervient quelques mois seulement après une levée de 2,3 milliards de dollars annoncée en novembre 2025, qui valorisait alors l'entreprise à 29,3 milliards, elle-même précédée d'un tour de 900 millions de dollars en juin de la même année. En moins d'un an, Cursor AI aurait donc capté plus de 5 milliards de dollars de financement cumulé, un rythme rarissime même dans le secteur de l'IA. La start-up revendique par ailleurs plus d'un milliard de dollars de revenus annualisés et se présente comme le système qui génère aujourd'hui le plus de code au monde parmi les agents IA. Ce niveau de valorisation traduit une conviction forte des investisseurs : les outils de développement augmentés par l'IA sont en train de devenir une infrastructure critique pour les entreprises. Les agents de Cursor ne se contentent plus de suggérer des lignes de code, ils génèrent des fonctionnalités complètes, corrigent des erreurs, interagissent avec des bases de code complexes, et depuis février 2026, testent eux-mêmes leurs modifications tout en documentant leurs actions via vidéos, journaux détaillés et captures d'écran. Ces capacités de traçabilité répondent directement aux exigences des grandes organisations en matière de gouvernance et de conformité. Pour les équipes d'ingénierie, l'enjeu est concret : accélérer les cycles de livraison, réduire les coûts de développement, et réorienter les développeurs humains vers des tâches à plus forte valeur ajoutée. Cursor AI n'évolue plus dans un espace vide. Depuis que la start-up a défriché ce marché, Google, OpenAI et Anthropic ont lancé leurs propres solutions d'assistance au code, validant par là même la pertinence du créneau. Cette concurrence frontale avec des acteurs disposant de ressources quasi illimitées explique en partie la cadence effrénée des levées de fonds : il s'agit de consolider une avance technologique et commerciale avant que le marché ne se fragmente. La présence simultanée de fonds de capital-risque de premier rang et de géants industriels comme Nvidia ou Google au capital de Cursor signale que l'écosystème du développement logiciel entre dans une phase de restructuration profonde, où les plateformes d'IA ne sont plus de simples outils mais des partenaires de production à part entière.

UELa consolidation rapide du marché des agents de développement IA par des acteurs américains très capitalisés réduit l'espace pour l'émergence d'alternatives européennes compétitives dans ce segment.

BusinessOpinion
1 source
Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence
213The Information AI 

Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence

Google mène des discussions avec Marvell Technology pour développer deux nouveaux puces dédiées à l'inférence d'intelligence artificielle, selon deux sources proches du dossier. La première est une unité de traitement mémoire conçue pour fonctionner en complément des TPU (Tensor Processing Units) déjà fabriqués par Google. La seconde est un nouveau TPU entièrement conçu pour exécuter des modèles d'IA en production. Aucune date officielle n'a été communiquée pour l'instant. Cette démarche illustre la demande explosive pour des puces d'inférence performantes, celles qui font tourner les applications d'IA en temps réel, des agents autonomes aux assistants commerciaux. Contrairement à l'entraînement des modèles, l'inférence mobilise des ressources en continu, à grande échelle, ce qui en fait un enjeu économique majeur pour les grandes plateformes cloud. Optimiser ces puces se traduit directement en réduction de coûts et en amélioration des performances pour des millions d'utilisateurs finaux. La course à la puce d'inférence s'intensifie sur tous les fronts. En mars dernier, Nvidia a présenté à sa conférence GTC un nouveau composant baptisé LPU (Language Processing Unit), construit sur une technologie rachetée à la startup Groq pour 20 milliards de dollars. Google, de son côté, développe ses propres TPU depuis des années pour réduire sa dépendance à Nvidia, et ce partenariat potentiel avec Marvell s'inscrit dans cette stratégie d'autonomie technologique. La bataille pour dominer l'infrastructure d'inférence promet d'être l'un des grands enjeux industriels des prochaines années.

💬 Google qui externalise une partie de sa conception de puces à Marvell, c'est un signal fort : même eux n'ont pas les ressources pour tout faire en interne à ce rythme. L'inférence, c'est le vrai coût caché de l'IA en prod, celui qui explose à mesure qu'on déploie des agents partout. Reste à voir si ce partenariat débouche sur quelque chose de concret, ou si c'est juste une piste parmi dix autres.

InfrastructureActu
1 source
Les bons résultats de TSMC confirment l'élan de l'IA
214The Information AI 

Les bons résultats de TSMC confirment l'élan de l'IA

TSMC, le géant taïwanais de la fabrication de puces électroniques, a publié jeudi ses résultats du premier trimestre 2026 avec une croissance de revenus de 40,6%, dépassant le haut de sa fourchette de prévisions. Le PDG C.C. Wei a relevé l'objectif de croissance annuel à plus de 30%, et déclaré que "la demande liée à l'IA continue d'être extrêmement robuste." Cette évaluation repose sur les retours directs des clients de TSMC, au premier rang desquels Nvidia, ainsi que des grandes firmes cloud qui achètent ces puces. Ces résultats constituent un signal fort pour l'ensemble du secteur technologique. Si TSMC, qui fabrique les puces pour pratiquement tous les grands acteurs de l'IA, affiche une telle croissance, cela laisse présager des résultats solides pour les grandes entreprises tech qui publieront leurs chiffres trimestriels plus tard en avril. Les marchés ont déjà anticipé cette dynamique : depuis fin mars, Microsoft a progressé de 18%, Nvidia de 20%, et le Nasdaq dans son ensemble de 16%. La vigueur de TSMC s'inscrit dans un contexte de multiplication des signaux haussiers autour de l'IA, malgré les incertitudes macroéconomiques mondiales. Le fabricant taïwanais occupe une position unique dans la chaîne de valeur : il est le maillon indispensable entre les concepteurs de puces comme Nvidia ou AMD et les déploiements massifs des hyperscalers comme Microsoft Azure, Google Cloud ou Amazon AWS. La robustesse de sa demande suggère que les investissements en infrastructure IA ne montrent aucun signe de ralentissement, alimentant l'optimisme avant une saison de résultats qui s'annonce décisive pour valider, ou nuancer, l'enthousiasme des marchés.

InfrastructureOpinion
1 source
On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?
215Numerama 

On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?

Apple a lancé début 2025 son MacBook Pro équipé de la puce M5 Pro, disponible à partir de 3 199 euros dans sa configuration 48 Go de RAM unifée. La version haut de gamme, le M5 Max avec 128 Go de mémoire, monte jusqu'à 6 429 euros sans augmentation du stockage. Des journalistes tech ont soumis cette machine à des tests intensifs de LLM locaux, faisant tourner des modèles open source tels que Mistral, DeepSeek, les modèles Alibaba Qwen et plusieurs variantes Google Gemma directement sur le matériel, sans connexion cloud. Ce type de configuration intéresse de plus en plus les développeurs, chercheurs et professionnels qui veulent exécuter des modèles de langage en local pour des raisons de confidentialité, de latence ou de coût. La mémoire unifiée des puces Apple Silicon est une architecture particulièrement adaptée à ce cas d'usage : contrairement aux PC classiques où la RAM et la VRAM sont séparées, le CPU et le GPU partagent le même pool mémoire, ce qui permet de charger entièrement des modèles de 30 à 70 milliards de paramètres sans swap. Les résultats des tests montrent des vitesses d'inférence utilisables au quotidien, loin derrière un GPU NVIDIA haut de gamme mais suffisantes pour un workflow professionnel autonome. Cette tendance s'inscrit dans un mouvement plus large de démocratisation de l'IA locale, accéléré par la sortie de modèles open source performants et compacts. Des acteurs comme Mistral AI, DeepSeek ou Alibaba proposent désormais des versions quantisées de leurs modèles optimisées pour ce type de matériel. Face aux interrogations croissantes sur la souveraineté des données et la dépendance aux API cloud, le couple Apple Silicon + ollama ou LM Studio s'impose comme une alternative crédible pour les professionnels prêts à investir plusieurs milliers d'euros dans une machine autonome.

UELa tendance à l'IA locale répond aux préoccupations européennes de souveraineté des données, et Mistral AI figure parmi les modèles open source testés sur ce type de matériel.

💬 Le M5 Pro 48 Go, c'est le premier Mac où je me dis que l'IA locale est devenue praticable sans compromis majeur. Tu charges un modèle de 30 à 70 milliards de paramètres, ça tourne sur la même mémoire que le reste, pas de swap, pas de GPU externe à brancher. 3 200 euros de base, c'est cher, et la vitesse d'inférence reste loin d'un bon GPU NVIDIA, mais pour du travail autonome sur des données confidentielles, j'ai du mal à voir mieux dans ce format.

InfrastructureActu
1 source
Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués
216MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
Meta parie 21 milliards sur CoreWeave : La nouvelle référence de la valorisation IA ?
217Le Big Data 

Meta parie 21 milliards sur CoreWeave : La nouvelle référence de la valorisation IA ?

Meta a annoncé le 9 avril 2026 un nouvel accord de 21 milliards de dollars avec CoreWeave, portant l'engagement total du groupe envers ce fournisseur de cloud GPU à plus de 35 milliards de dollars. Cet accord court jusqu'en décembre 2032 et couvre principalement des capacités de calcul dédiées à l'inférence, c'est-à-dire le traitement en temps réel des requêtes IA dans les applications grand public. L'action CoreWeave ($CRWV) a bondi d'environ 8 % à l'annonce de la nouvelle. Le partenariat inclut également un accès anticipé à la plateforme NVIDIA Vera Rubin, la prochaine génération de puces IA qui succède à l'architecture Blackwell, déployée sur plusieurs sites avant sa disponibilité commerciale large. Cet accord illustre un changement de paradigme dans la compétition en intelligence artificielle : l'infrastructure compute est désormais aussi stratégique que les modèles eux-mêmes. Les modèles Llama de Meta sont intégrés dans Facebook, Instagram, WhatsApp et Messenger, soit plusieurs milliards d'utilisateurs actifs. À cette échelle, chaque requête mobilise de la puissance de calcul, et la latence comme les coûts deviennent des variables critiques. CoreWeave, spécialisé dans les clusters GPU haute densité, peut déployer des capacités beaucoup plus rapidement qu'un hyperscaler classique en phase de construction, ce qui en fait un relais opérationnel immédiatement exploitable. L'accès anticipé aux puces Vera Rubin donne par ailleurs à Meta un avantage compétitif concret : optimiser ses modèles sur une architecture plus performante avant que ses concurrents ne puissent faire de même. Meta n'abandonne pas pour autant ses investissements internes. Le groupe prévoit entre 115 et 135 milliards de dollars de dépenses d'investissement pour 2026, dont un centre de données estimé à 10 milliards de dollars au Texas. Mais ces infrastructures propres prennent des années à construire, et l'urgence concurrentielle ne permet pas d'attendre. La stratégie adoptée est donc hybride : construire en interne pour le long terme, louer chez CoreWeave pour répondre aux besoins immédiats. Mike Intrator, PDG de CoreWeave, a résumé cette logique en évoquant un risque opérationnel trop élevé pour dépendre d'une seule approche. Ce modèle de redondance computing, mi-propriétaire mi-externalisé, pourrait rapidement devenir la norme dans l'industrie, à mesure que Google, Microsoft et Amazon font face aux mêmes tensions sur les GPU et aux mêmes exigences de rapidité d'exécution.

UECet accord renforce la concentration des ressources GPU chez les acteurs américains, réduisant indirectement la capacité des entreprises européennes à accéder à des infrastructures IA compétitives à coût et délai raisonnables.

InfrastructureOpinion
1 source
Intel TSNC : l’incroyable IA qui va réduire le poids de vos jeux vidéo par 18
218Le Big Data 

Intel TSNC : l’incroyable IA qui va réduire le poids de vos jeux vidéo par 18

Intel a dévoilé une nouvelle technologie baptisée TSNC, pour Texture Set Neural Compression, capable de réduire la taille des textures de jeux vidéo jusqu'à 18 fois par rapport aux formats non compressés. Concrètement, l'outil propose deux profils : une Variante A qui offre une compression jusqu'à 9x avec une perte de qualité visuelle d'environ 5 %, à peine perceptible à l'œil nu, et une Variante B qui pousse la compression à 18x au prix d'une légère dégradation entre 6 et 7 %. Plutôt que d'imposer un format propriétaire incompatible avec les outils existants, Intel a conçu TSNC pour s'intégrer naturellement dans les pipelines de production actuels, en s'appuyant sur la compression par blocs BC1 déjà standard dans l'industrie. Un réseau de neurones est entraîné sur des ensembles de textures similaires, regroupées dans un espace commun, puis un MLP à trois couches se charge de reconstruire les données au moment voulu. Cette décompression peut intervenir à l'installation, lors des temps de chargement, ou en cours de session selon les priorités du développeur. Sur l'architecture Panther Lake avec GPU intégré Arc B390, les cœurs XMX dédiés à l'IA génèrent le premier pixel en 0,194 nanoseconde, une latence pratiquement invisible pour un joueur. L'enjeu est considérable pour l'ensemble de la chaîne, des studios aux joueurs. Les jeux modernes atteignent régulièrement plusieurs dizaines de gigaoctets, une tendance directement liée à l'accumulation de textures haute résolution. Quand la VRAM sature, les performances s'effondrent brutalement. Une compression aussi agressive, sans perte visuelle notable, permettrait de réduire significativement la taille des téléchargements, d'alléger la pression sur la mémoire vidéo et d'améliorer l'expérience sur des machines d'entrée et de milieu de gamme. Intel a d'ailleurs prévu une solution de repli basée sur des instructions classiques pour les GPU plus anciens ou ceux de la concurrence, ce qui ouvre la technologie bien au-delà de son propre écosystème matériel. Cette annonce s'inscrit dans une compétition qui s'intensifie autour de la compression neuronale des textures. Nvidia travaille déjà sur sa propre technologie, baptisée NTC, tandis que Sony serait engagé sur des projets analogues en vue d'une future PlayStation 6. La pression exercée par l'explosion des tailles de jeux pousse toute l'industrie à chercher des solutions alternatives à la simple augmentation de la VRAM ou de la capacité de stockage. Intel, en adoptant une stratégie compatible avec les standards existants, cherche à faciliter l'adoption par les studios sans les forcer à revoir entièrement leurs workflows. La vraie question désormais est celle de l'intégration dans les moteurs de jeu comme Unreal ou Unity, et du calendrier auquel les premiers titres l'exploiteront concrètement.

UELes studios de jeux européens pourraient intégrer TSNC dans leurs pipelines de production pour réduire la taille des jeux et alléger la pression sur la mémoire vidéo, sous réserve d'une adoption par les moteurs Unreal et Unity.

OutilsOutil
1 source
Eric Boyd quitte Microsoft pour diriger l’infrastructure chez Anthropic
219Le Big Data 

Eric Boyd quitte Microsoft pour diriger l’infrastructure chez Anthropic

Eric Boyd a quitté Microsoft la semaine dernière après près de 17 ans au sein de l'entreprise pour rejoindre Anthropic en tant que responsable de l'ensemble de l'infrastructure. Boyd avait intégré Microsoft en 2009 à Redmond, d'abord à la tête de Bing Ads, avant de devenir président de la plateforme IA en 2015, puis de prendre la direction d'Azure AI en 2018 sur nomination de Satya Nadella. Dans ce rôle, il a supervisé le développement des grands modèles de langage de Microsoft et planifié les clusters de calcul utilisés par OpenAI pour entraîner et faire tourner ses modèles, consolidant ainsi la position de Microsoft comme acteur incontournable du cloud IA. Avant cela, il avait passé neuf ans chez Yahoo comme vice-président de l'ingénierie de plateforme, qu'il avait quitté en 2008. Chez Anthropic, Boyd n'occupera pas un simple poste administratif : il est chargé de faire évoluer l'infrastructure critique qui permet à l'entreprise d'héberger, déployer et opérer ses modèles à très grande échelle. Sa mission répond à une urgence concrète, la demande pour les services Claude, et en particulier Claude Code, a connu une croissance explosive ces six derniers mois. Rahul Patil, directeur technique d'Anthropic, a précisé sur LinkedIn que Boyd apportera son expertise des infrastructures pour modèles de base à un moment où la scalabilité devient le principal défi opérationnel de l'entreprise. Pour les utilisateurs de Claude et les entreprises qui s'appuient sur l'API, cette nomination signifie qu'Anthropic mise sérieusement sur sa capacité à tenir la charge, et pas seulement sur la qualité de ses modèles. Ce recrutement s'inscrit dans une séquence d'accélération majeure pour Anthropic. La startup a levé 30 milliards de dollars en février 2026 lors d'un tour de table de série G mené par GIC et Coatue, avec la participation de Microsoft et Nvidia, portant sa valorisation à 380 milliards de dollars. Son chiffre d'affaires annuel récurrent a bondi à 30 milliards de dollars, contre environ 9 milliards fin 2025. Parallèlement, Anthropic recrute activement des profils expérimentés du cloud, deux anciens dirigeants de Google auraient déjà rejoint l'entreprise selon The Information, et négocie pour sécuriser plus de 10 GW de capacité de calcul dans les prochaines années. Un accord avec Google et Broadcom prévoit également le développement ou la location de 3,5 GW de TPU à partir de 2027. L'arrivée de Boyd, l'un des architectes de l'infrastructure IA de Microsoft, illustre qu'Anthropic ne cherche plus seulement à produire les meilleurs modèles : elle veut aussi construire la plomberie pour les délivrer au monde entier.

💬 L'homme qui planifiait les clusters d'entraînement d'OpenAI chez Azure débarque chez Anthropic pour prendre toute l'infrastructure. Bon, les modèles Claude sont déjà excellents, mais si l'infra flanche quand Claude Code explose en prod, tout le reste ne sert à rien, et Boyd a construit exactement cette plomberie à l'échelle industrielle pendant des années. C'est le recrutement qui dit que la course n'est plus seulement sur les modèles.

BusinessOpinion
1 source
OpenClaw vs ChatGPT : quel agent IA local bat le roi du cloud ?
220Le Big Data 

OpenClaw vs ChatGPT : quel agent IA local bat le roi du cloud ?

En 2026, le débat entre agents IA locaux et solutions cloud a pris une nouvelle dimension avec l'émergence d'OpenClaw, un agent dit "skills-based" qui s'exécute directement sur la machine de l'utilisateur. Contrairement à ChatGPT Agent, le mode Operator d'OpenAI lancé dans le courant de l'année, OpenClaw accède au terminal, manipule les fichiers locaux, gère les dépôts Git et peut tourner en arrière-plan même session fermée, envoyant des notifications sur Discord à la fin d'une tâche. ChatGPT Agent fonctionne lui exclusivement dans le navigateur : l'IA clique, défile et remplit des formulaires à la place de l'utilisateur, mais s'arrête dès que l'onglet est fermé. Sur le plan tarifaire, OpenClaw revient à environ 10 à 30 dollars par mois selon la consommation d'API, contre 20 dollars fixes pour l'abonnement ChatGPT Plus incluant l'accès au mode Operator. La différence fondamentale entre les deux approches tient à la souveraineté des données et à la flexibilité technique. Avec OpenClaw, l'utilisateur choisit lui-même ses modèles, Claude 3.5 pour les raisonnements complexes, Llama 3 ou Kimi pour les tâches répétitives, afin d'optimiser ses coûts, tandis que ChatGPT impose l'écosystème OpenAI sans possibilité de substitution. La mémoire d'OpenClaw est persistante via des fichiers stockés sur disque ; celle de ChatGPT Agent est éphémère, réinitialisée à chaque session. Pour les professionnels qui valorisent l'intégration profonde dans leur environnement de travail, scripts actifs, assets locaux, automatisations conditionnelles, l'agent local représente un levier que le cloud ne peut pas reproduire. Nvidia a par ailleurs introduit NemoClaw, une couche de sécurité greffable sur OpenClaw pour encadrer les actions de l'agent et prévenir les comportements non désirés, comblant l'un des reproches traditionnels faits aux solutions locales. Ce duel s'inscrit dans un basculement plus large du marché de l'IA : on ne parle plus de simples chatbots, mais d'agents capables d'agir de manière autonome sur des systèmes réels. OpenAI a misé sur l'accessibilité maximale avec une interface sans friction, au prix d'un contrôle réduit pour l'utilisateur. OpenClaw, porté par une communauté technique exigeante, répond à un besoin croissant de confidentialité et d'autonomie, notamment dans les secteurs sensibles, finance, santé, défense, où héberger des données sur des serveurs tiers reste rédhibitoire. La vraie question pour 2026 n'est donc pas laquelle des deux IA est "plus intelligente", mais laquelle correspond au niveau de contrôle et de confiance que chaque utilisateur est prêt à exercer sur ses outils numériques.

UELa souveraineté des données mise en avant par OpenClaw répond aux exigences du RGPD et aux contraintes des secteurs réglementés en France et en UE (finance, santé, défense), où l'hébergement tiers reste problématique.

OutilsOutil
1 source
Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés
221Siècle Digital 

Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés

Project Glasswing, une initiative de cybersécurité soutenue par douze géants technologiques dont Apple, Google, Microsoft, AWS, Cisco, NVIDIA et JPMorgan Chase, a été lancée pour détecter automatiquement des failles dans les logiciels les plus critiques au monde. Le projet s'appuie sur un système d'intelligence artificielle baptisé Mythos, capable d'analyser en profondeur des bases de code massives pour y repérer des vulnérabilités jusqu'alors inconnues. Plus de quarante organisations gérant des infrastructures logicielles mondiales participent également à l'initiative, coordonnée sous l'égide de la Linux Foundation. Aucun accès public, abonnement commercial ou lancement grand public n'est prévu : le projet fonctionne exclusivement en consortium fermé. L'enjeu est considérable. Les logiciels open source constituent la colonne vertébrale de l'infrastructure numérique mondiale, des serveurs bancaires aux systèmes industriels en passant par les plateformes cloud. Des failles non détectées dans ces composants peuvent exposer des millions d'organisations simultanément, comme l'avait illustré la vulnérabilité Log4Shell en 2021. En automatisant la détection à grande échelle, Mythos promet de réduire drastiquement la fenêtre d'exposition entre l'introduction d'une faille et sa correction, un délai qui se compte aujourd'hui souvent en mois, voire en années. Ce projet s'inscrit dans une tendance de fond : après des années à construire des IA génératives grand public, les grandes entreprises technologiques réorientent une partie de leurs investissements vers des usages à fort impact systémique. La sécurité logicielle, longtemps sous-financée malgré sa criticité, attire désormais des coalitions inédites. Project Glasswing illustre aussi une réponse collective aux pressions réglementaires croissantes en Europe et aux États-Unis, qui imposent aux éditeurs une responsabilité accrue sur la sécurité de leurs chaînes d'approvisionnement logicielles.

UELes pressions réglementaires européennes sur la sécurité des chaînes d'approvisionnement logicielles (Cyber Resilience Act) sont citées comme moteur explicite du projet, qui vise à réduire les risques systémiques pesant sur les infrastructures numériques utilisées en Europe.

SécuritéOpinion
1 source
OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine
222La Tribune 

OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine

OpenAI, Anthropic et Google ont annoncé une collaboration inédite pour contrer ce que les trois entreprises qualifient de "distillation" de leurs modèles d'intelligence artificielle par des entités liées à la Chine. Ce phénomène consiste à utiliser les sorties des grands modèles américains pour entraîner des systèmes concurrents à moindre coût, contournant ainsi les investissements colossaux, plusieurs dizaines de milliards de dollars, réalisés par ces laboratoires. Les rivaux habituels ont décidé de partager leurs données de sécurité pour identifier et bloquer ces pratiques plus efficacement. Cette alliance soulève des enjeux considérables pour la compétitivité technologique américaine. La distillation permet théoriquement à des acteurs étrangers d'obtenir des capacités comparables à celles des modèles de pointe sans en supporter les coûts de recherche et développement, rééquilibrant ainsi le rapport de force dans la course mondiale à l'IA. Pour les trois entreprises, la menace est à la fois commerciale et stratégique : perdre cet avantage compétitif reviendrait à fragiliser une position que Washington considère désormais comme un élément de sécurité nationale à part entière. La démarche s'inscrit dans un contexte de tensions croissantes entre les États-Unis et la Chine sur le terrain technologique, après les restrictions à l'export de puces Nvidia et les débats autour de DeepSeek, le modèle chinois dont l'efficacité avait provoqué une onde de choc sur les marchés début 2025. En mutualisant leur veille, OpenAI, Anthropic et Google cherchent à établir un front commun que chaque entreprise isolément n'aurait pas les moyens de tenir face à des techniques d'extraction en constante évolution.

UELes laboratoires européens d'IA restent exposés aux mêmes pratiques de distillation sans mécanisme de protection collectif équivalent à celui que se dotent désormais les géants américains.

SécuritéActu
1 source
Intel participera à la construction de l'usine de puces IA Terafab d'Elon Musk
223The Verge AI 

Intel participera à la construction de l'usine de puces IA Terafab d'Elon Musk

Intel s'associe au projet Terafab d'Elon Musk, une gigafabrique de puces IA en cours de construction à Austin, au Texas. Le fabricant américain de semi-conducteurs a annoncé mardi qu'il participait à la conception et à la construction de cette installation, dont l'objectif est de fournir des puces IA aux deux entreprises de Musk : SpaceX, récemment fusionnée avec xAI, et Tesla. Aucun chiffre d'investissement n'a été rendu public pour l'instant, mais l'ampleur du site laisse entrevoir un projet de plusieurs milliards de dollars. Ce partenariat est stratégique pour les deux parties. Musk a besoin de volumes massifs de puces pour alimenter ses ambitions : voitures autonomes, robots humanoïdes, et des centres de données qu'il envisage de déployer dans l'espace via SpaceX. Pour Intel, qui traverse une période difficile face à TSMC et Nvidia, décrocher un contrat avec l'un des acteurs les plus en vue de l'IA américaine représente un signal fort sur sa capacité à rester compétitif dans la course aux semi-conducteurs avancés. Terafab s'inscrit dans un mouvement plus large de relocalisation de la production de puces aux États-Unis, accéléré par le CHIPS Act et les tensions géopolitiques autour de Taiwan. Musk, dont SpaceX prépare son introduction en bourse cette année, cherche à sécuriser une chaîne d'approvisionnement indépendante des fabricants asiatiques. Intel, de son côté, mise sur son activité de fonderie pour reconquérir des parts de marché perdues face à ses concurrents.

UELa concentration croissante de la production de puces IA aux États-Unis via des méga-projets comme Terafab risque de renforcer la dépendance européenne vis-à-vis des fournisseurs américains de semi-conducteurs, au détriment des ambitions du Chips Act européen.

Anthropic (Claude) pourrait dépasser OpenAI (ChatGPT) en 2026 et annonce un partenariat avec Google
224Numerama 

Anthropic (Claude) pourrait dépasser OpenAI (ChatGPT) en 2026 et annonce un partenariat avec Google

Anthropic, la startup américaine créatrice de l'assistant Claude AI, a annoncé des projections financières ambitieuses pour 2026, avec des revenus qui pourraient atteindre 30 milliards de dollars. Si ces prévisions se confirment, l'entreprise fondée en 2021 par d'anciens dirigeants d'OpenAI dépasserait son rival direct pour la première fois. Pour soutenir cette montée en puissance, Anthropic a conclu un partenariat stratégique avec Google et le fabricant de semi-conducteurs Broadcom, visant à augmenter significativement la capacité de ses infrastructures serveurs. Ce bond potentiel représenterait un tournant majeur dans la guerre des assistants IA. Dépasser OpenAI, qui domine le marché depuis le lancement de ChatGPT fin 2022, enverrait un signal fort aux entreprises et investisseurs : Claude n'est plus un challenger secondaire mais un concurrent de premier plan. L'alliance avec Google, déjà actionnaire d'Anthropic, et Broadcom permettrait de réduire les goulots d'étranglement liés aux puces et à la puissance de calcul, deux freins critiques à la montée en charge des modèles d'IA générative. Anthropic a levé plusieurs milliards de dollars ces deux dernières années, notamment auprès de Google et d'Amazon, qui ont investi plusieurs milliards dans la société. La concurrence avec OpenAI s'est intensifiée à mesure que les deux entreprises ont multiplié les sorties de modèles, Claude 3.5 et 3.7 ayant reçu des retours très favorables de la communauté développeur. Dans ce contexte, le partenariat avec Broadcom pour la fabrication de puces dédiées s'inscrit dans une tendance plus large : les grands acteurs de l'IA cherchent à réduire leur dépendance à Nvidia en développant leurs propres solutions matérielles.

BusinessOpinion
1 source
Anthropic signe un accord de 3,5 gigawatts avec Broadcom et Google pour des TPU
Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA
226The Decoder 

Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA

DeepSeek prépare le lancement de sa quatrième génération de modèle d'intelligence artificielle, attendue dans les prochaines semaines, et celui-ci tournera exclusivement sur des puces Huawei. Selon des sources citées par The Decoder, les grands groupes technologiques chinois auraient déjà passé des commandes portant sur des centaines de milliers d'unités de ces processeurs. Nvidia, le fabricant américain qui domine habituellement le marché de l'entraînement et de l'inférence IA, a été écarté des phases de test préliminaires. C'est un signal fort pour l'autonomie technologique chinoise en matière d'IA. Jusqu'ici, les puces Huawei Ascend étaient perçues comme inférieures aux GPU Nvidia H100 et H800, rendant leur adoption à grande échelle difficile pour des modèles de pointe. Si DeepSeek v4 tourne efficacement sur cette infrastructure domestique, cela validerait la montée en puissance de l'écosystème matériel chinois et réduirait concrètement la dépendance vis-à-vis des fabricants américains, une vulnérabilité stratégique majeure depuis les restrictions à l'export imposées par Washington. Ce développement s'inscrit dans un contexte de guerre technologique larvée entre les États-Unis et la Chine. Depuis 2022, les restrictions américaines sur l'exportation de semi-conducteurs avancés vers la Chine ont contraint Huawei et ses partenaires à accélérer massivement leurs efforts de R&D sur les puces Ascend. DeepSeek avait déjà surpris le monde en janvier 2025 avec des modèles très performants entraînés à moindre coût. Si v4 confirme la viabilité des puces Huawei à cette échelle, cela pourrait remodeler les équilibres du secteur mondial de l'IA.

UESi les puces Huawei Ascend s'avèrent compétitives pour l'IA de pointe, cela accélère la fragmentation du marché mondial des semi-conducteurs et renforce la pression sur l'Europe pour développer sa propre souveraineté en matière de hardware IA.

InfrastructureOpinion
1 source
Quatre conditions pour installer des centres de données dans l'espace
227MIT Technology Review 

Quatre conditions pour installer des centres de données dans l'espace

En janvier 2026, SpaceX a déposé une demande auprès de la Federal Communications Commission américaine pour lancer jusqu'à un million de centres de données en orbite terrestre. L'objectif affiché est de libérer le plein potentiel de l'intelligence artificielle sans aggraver la crise énergétique et hydrique sur Terre. SpaceX n'est pas seul sur ce créneau : Jeff Bezos a déclaré l'an dernier que l'industrie tech se dirigeait vers une informatique à grande échelle dans l'espace, Google prévoit de lancer une constellation test de 80 satellites de calcul dès l'année prochaine, et la startup Starcloud, basée dans l'État de Washington, a déjà mis en orbite en novembre 2024 un satellite équipé d'un GPU Nvidia H100, marquant le premier test orbital d'une puce IA avancée. Starcloud vise des centres de données orbitaux aussi grands que ceux au sol d'ici 2030. L'attrait de l'espace repose sur deux promesses concrètes : une énergie solaire continue en orbite héliosynchrone, sans jamais passer dans l'ombre de la Terre, et une dissipation thermique naturelle dans le vide, sans recourir aux millions de litres d'eau que consomment les data centers terrestres. Ces derniers pèsent déjà lourd sur les réseaux électriques locaux et génèrent des tensions dans les communautés voisines autour du prix des ressources. Avec la baisse continue des coûts de lancement et les méga-fusées comme Starship promises à réduire encore les tarifs, un point de basculement économique devient envisageable. Mais les obstacles techniques restent formidables : quatre défis majeurs se dressent avant toute mise en oeuvre réelle. Le premier est thermique. Contrairement à l'intuition, l'espace n'est pas froid pour un satellite en orbite constamment éclairée : sans convection possible dans le vide, la température des équipements ne descendrait jamais sous 80 °C, largement au-dessus des seuils acceptables pour l'électronique. Évacuer la chaleur par rayonnement seul exige de grandes surfaces radiatives, ce qui alourdit les satellites et complique leur mise en orbite. Yves Durand, ancien directeur technologique de Thales Alenia Space, juge néanmoins le problème surmontable : son étude de faisabilité de 2024 conclut qu'il est possible de construire des data centers de l'ordre du gigawatt en orbite, en s'appuyant sur des systèmes de fluide réfrigérant déjà développés pour les grands satellites de télécommunication. Les trois autres défis, tout aussi cruciaux, concernent la fiabilité des composants face aux radiations cosmiques, la latence des liaisons avec le sol, et le coût de maintenance d'infrastructures inaccessibles physiquement.

UEThales Alenia Space, entreprise franco-italienne, est citée comme acteur clé de la faisabilité technique des data centers orbitaux, positionnant l'Europe comme contributeur potentiel dans ce marché émergent.

InfrastructureOpinion
1 source
Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement
228Meta Engineering ML 

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

Meta a présenté KernelEvolve, un système d'optimisation de kernels piloté par intelligence artificielle, développé en interne pour accélérer ses modèles de publicité et d'IA générative. Intégré à l'agent Ranking Engineer Agent, KernelEvolve automatise la création et l'optimisation de kernels — ces programmes bas niveau qui traduisent les opérations de haut niveau d'un modèle en instructions spécifiques à chaque puce. Le système cible une infrastructure hétérogène composée de GPU NVIDIA, de GPU AMD, de CPU classiques et des puces MTIA, les accélérateurs personnalisés de Meta. Les résultats publiés sont substantiels : plus de 60 % d'amélioration du débit d'inférence pour le modèle publicitaire Andromeda sur GPU NVIDIA, et plus de 25 % de gain en débit d'entraînement sur les puces MTIA. Des travaux qui auraient normalement demandé plusieurs semaines à des ingénieurs spécialisés ont été accomplis en quelques heures. L'article associé sera présenté au 53e International Symposium on Computer Architecture (ISCA) 2026. L'enjeu est direct et massif : Meta sert chaque jour des milliards d'expériences alimentées par l'IA, des recommandations personnalisées aux assistants génératifs. Chaque requête d'entraînement ou d'inférence repose sur une couche de kernels hautement optimisés, et à mesure que les modèles gagnent en complexité et que le parc matériel se diversifie, le nombre de configurations possibles explose — atteignant des milliers de combinaisons selon le hardware, l'architecture du modèle et le type d'opérateur. L'optimisation manuelle par des experts ne peut plus suivre ce rythme, créant un goulot d'étranglement critique qui freine l'adoption de nouveaux matériels et ralentit les cycles d'itération des modèles. KernelEvolve résout ce problème en traitant l'optimisation comme une recherche automatisée : un environnement d'évaluation dédié teste chaque kernel candidat, renvoie les diagnostics au LLM, et pilote une exploration continue sur des centaines d'alternatives — dépassant les performances des kernels écrits à la main par des experts humains. Cette initiative s'inscrit dans une tendance de fond chez les grandes plateformes technologiques : déléguer des tâches d'ingénierie de bas niveau à des agents IA pour absorber la complexité croissante des infrastructures de calcul. Meta fait face à la même contrainte que Google, Microsoft ou Amazon — accélérer sans cesse les modèles tout en maîtrisant les coûts de calcul sur un parc matériel qui ne cesse de se diversifier. KernelEvolve génère des kernels dans des langages aussi bien de haut niveau comme Triton ou CuteDSL que de bas niveau comme CUDA, HIP ou MTIA C++, ce qui lui confère une portabilité rare. À terme, ce type d'agent pourrait devenir standard dans l'industrie, réduisant drastiquement le besoin d'ingénieurs spécialisés en optimisation matérielle et accélérant la mise en production de nouvelles architectures de modèles sur des puces encore inconnues.

InfrastructureActu
1 source
Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun
229Latent Space 

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Moonlake AI, une startup cofondée par Chris Manning (professeur à Stanford et co-auteur de travaux fondateurs en NLP) et Fan-Yun Sun, propose une approche radicalement différente des modèles de monde actuels. Présentée notamment lors de la Game Developers Conference 2026, l'entreprise mise sur des modèles causaux, multimodaux et efficaces, capables de simuler des environnements interactifs avec de multiples joueurs simultanés, une durée de vie indéfinie et une physique cohérente. Moonlake vient de lancer une Creator Cup dotée de 30 000 dollars pour stimuler l'adoption de ses outils par la communauté de développeurs. L'approche repose sur le bootstrapping à partir de moteurs de jeu existants et l'entraînement d'agents personnalisés, permettant de simuler des environnements, prédire des résultats et planifier sur des horizons longs. Là où des systèmes comme Genie 3 de Google souffrent de limitations significatives — clipping de terrain, absence d'interactivité réelle, immersion plafonnée à 60 secondes — Moonlake s'attaque à ces défauts structurels par une philosophie différente : la structure et la causalité plutôt que la mise à l'échelle aveugle. Comme le soulignent Manning, Sun et Ian Goodfellow dans leur article "Towards Efficient World Models", les modèles état-de-l'art présentent encore des incohérences physiques flagrantes — objets solides flottant dans les airs ou se traversant mutuellement. Leur argument central : pour planifier une action, une vue en haute résolution pixel par pixel est rarement nécessaire. Des représentations partielles combinées à une compréhension sémantique suffisent dans la quasi-totalité des cas, ce qui rend les architectures actuelles surdimensionnées et inefficaces pour la plupart des tâches à valeur économique réelle. Ce projet s'inscrit dans une course intense autour des modèles de monde, où Nvidia, Waymo, Tesla et Google ont chacun publié leurs propres approches ces derniers mois. Yann LeCun a parallèlement levé 1 milliard de dollars pour AMI et publié LeWorldModel, témoignant de l'enjeu stratégique majeur que représente cette technologie pour l'IA incarnée et la robotique. Moonlake se distingue en choisissant les moteurs de jeu comme point de départ d'abstraction, jugeant qu'ils sont mieux adaptés que l'apprentissage pur pour extraire des relations causales fiables entre actions et observations. La présence de l'équipe au GDC 2026 et la diversité des mondes déjà construits par la communauté avec leurs outils suggèrent que cette approche suscite un intérêt concret bien au-delà du cercle académique.

RecherchePaper
1 source
Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart
230The Decoder 

Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart

Des chercheurs de Nvidia, de l'UC Berkeley et de Stanford ont publié un nouveau cadre d'évaluation destiné à mesurer systématiquement la capacité des modèles d'IA à contrôler des robots via du code. Leurs résultats sont sans appel : sans abstractions conçues par des humains, c'est-à-dire sans briques logicielles préfabriquées qui simplifient les tâches complexes, même les meilleurs modèles disponibles échouent à piloter efficacement un robot. En revanche, des approches comme le "test-time compute scaling" ciblé, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement, permettent de combler significativement cet écart de performance. Ces conclusions ont des implications directes pour l'industrie de la robotique autonome. Elles remettent en question l'idée que les grands modèles de langage peuvent, seuls et sans infrastructure spécialisée, prendre en charge le contrôle bas niveau de machines physiques. Pour les entreprises qui misent sur des robots autonomes dans la logistique, la fabrication ou les services, cela signifie que la conception humaine reste indispensable, du moins à court terme, et que l'autonomie complète exige encore un travail d'ingénierie non négligeable. Ce travail s'inscrit dans une course plus large entre les laboratoires de recherche et les industriels pour rendre les robots véritablement programmables par l'IA. Nvidia, déjà très présent dans l'infrastructure d'entraînement des modèles, cherche à étendre son influence vers la couche applicative de la robotique. L'approche par échafaudage agentique, qui enchaîne des modules spécialisés plutôt que de tout déléguer à un seul modèle, semble aujourd'hui la piste la plus prometteuse pour franchir ce verrou technique.

UELes industriels européens de la robotique (logistique, fabrication, services) doivent intégrer que l'autonomie complète par IA nécessite encore une ingénierie humaine substantielle, ce qui prolonge les délais et coûts de déploiement dans leurs feuilles de route.

💬 Sans abstractions humaines, même les meilleurs modèles ratent le contrôle robotique, et ça, c'est pas vraiment une surprise. La vraie info, c'est que l'échafaudage agentique (enchaîner des modules spécialisés plutôt que tout déléguer à un seul modèle) tient mieux ses promesses que le scaling brut à l'entraînement. Reste à voir si ça tient en prod ou si ça reste un beau résultat de labo Stanford.

RobotiqueOpinion
1 source
Les entreprises tournent la page du Shadow AI : Kilo lance KiloClaw for Organizations pour des agents IA sécurisés à grande échelle
231VentureBeat AI 

Les entreprises tournent la page du Shadow AI : Kilo lance KiloClaw for Organizations pour des agents IA sécurisés à grande échelle

La startup Kilo a annoncé le lancement de KiloClaw for Organizations et KiloClaw Chat, une suite d'outils destinée à encadrer l'usage des agents IA autonomes au sein des grandes entreprises. Cette annonce intervient un mois après la mise en disponibilité générale de son produit individuel OpenClaw, qui a déjà séduit plus de 25 000 utilisateurs actifs. Le benchmark propriétaire de Kilo, PinchBench, a quant à lui enregistré plus de 250 000 interactions et a été cité publiquement par Jensen Huang, PDG de Nvidia, lors de sa keynote à la conférence GTC 2026 à San Jose. Co-fondée par Scott Breitenother et Emilie Schario, la société propose un environnement de développement IA multi-modèles hébergé dans le cloud, conçu pour être portable et accessible. Le problème que KiloClaw for Organizations cherche à résoudre est celui du « shadow AI » — ou BYOAI (Bring Your Own AI) : des développeurs et travailleurs du savoir qui déploient des agents IA autonomes sur des infrastructures personnelles, hors du contrôle de leur employeur, pour gérer agendas, dépôts de code ou flux de travail professionnels. Des directeurs IA de sous-traitants gouvernementaux ont confié à Kilo avoir découvert leurs équipes faisant tourner des agents OpenClaw sur des serveurs VPS non répertoriés. « Nous ne voyons rien : pas de journaux d'audit, pas de gestion des identifiants, aucune idée de quelles données touchent quelle API », aurait déclaré l'un d'eux. Face à cette opacité, certaines organisations ont répondu par des interdictions totales des agents autonomes, faute de stratégie claire. Le nouveau produit permet à une entreprise d'acheter un package organisationnel et d'en distribuer l'accès à chaque membre de l'équipe, dans un environnement géré et auditable. Ce lancement s'inscrit dans une dynamique sectorielle plus large. Des acteurs majeurs comme Nvidia (NemoClaw), Cisco (DefenseClaw), Palo Alto Networks et CrowdStrike ont tous annoncé des déclinaisons entreprise d'OpenClaw, avec des mécanismes de gouvernance et de sécurité. Pourtant, selon Anand Kashyap, PDG de la société de sécurité des données Fortanix, l'adoption en entreprise reste faible : les organisations exigent un contrôle IT centralisé, un comportement prévisible et une conformité stricte des données — trois paramètres que les plateformes agentiques autonomes mettent à rude épreuve. Kashyap souligne que les solutions de périmètre traditionnelles ne réduisent pas la surface d'attaque fondamentale. À terme, le marché devrait converger vers des plateformes agentiques avec des agents pré-packagés, des contrôles centralisés et des accès aux données intégrés directement dans les LLM — des technologies comme le Confidential Computing étant appelées à jouer un rôle clé dans cette transition.

UELes entreprises européennes sont confrontées aux mêmes enjeux de shadow AI, aggravés par les obligations de traçabilité et de contrôle imposées par l'AI Act pour les systèmes d'IA à risque déployés en contexte professionnel.

OutilsOutil
1 source
Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
232MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
Ollama accélère les modèles locaux sur Mac grâce au support MLX
233Ars Technica AI 

Ollama accélère les modèles locaux sur Mac grâce au support MLX

Ollama, le système d'exécution qui permet de faire tourner des grands modèles de langage en local, vient d'annoncer la prise en charge du framework open source MLX d'Apple, conçu spécifiquement pour le machine learning sur les puces Apple Silicon. En parallèle, la plateforme a amélioré ses performances de mise en cache et ajoute la prise en charge du format NVFP4 de Nvidia, une technique de compression de modèles qui réduit significativement l'empreinte mémoire. Ces trois avancées conjuguées se traduisent par des gains de vitesse substantiels pour les utilisateurs de Mac équipés de puces M1 ou plus récentes. L'impact est concret pour les développeurs et professionnels qui souhaitent exécuter des modèles IA sans dépendre du cloud : les temps d'inférence diminuent, la consommation mémoire baisse, et des modèles autrefois trop lourds pour tourner confortablement sur un MacBook deviennent utilisables au quotidien. La compression NVFP4 est particulièrement significative car elle permet de faire tenir des modèles plus puissants dans la mémoire unifiée des Mac, sans perte de qualité notable — un verrou technique majeur qui saute. Ces annonces s'inscrivent dans un moment charnière pour l'IA locale. L'engouement autour d'OpenClaw — un projet qui a dépassé les 300 000 étoiles sur GitHub en un temps record, généré des expériences virales comme Moltbook, et suscité une véritable obsession en Chine — a propulsé l'exécution de modèles en local bien au-delà des cercles de chercheurs et de passionnés. Ce qui était niche il y a six mois touche désormais un public bien plus large de développeurs et d'entreprises soucieux de confidentialité, de coûts et d'autonomie vis-à-vis des fournisseurs cloud. Ollama se positionne ainsi comme infrastructure clé de cet écosystème en pleine explosion.

UELes développeurs et entreprises européennes utilisant des Mac Apple Silicon peuvent exécuter des modèles IA en local plus rapidement, renforçant leur autonomie vis-à-vis des fournisseurs cloud et facilitant la conformité RGPD.

OutilsOutil
1 source
Eli Lilly signe un accord avec Insilico Medicine, une biotech cotée Hong-Kong
234Le Big Data 

Eli Lilly signe un accord avec Insilico Medicine, une biotech cotée Hong-Kong

Eli Lilly a annoncé le 29 mars un accord majeur avec Insilico Medicine, biotech internationale cotée à Hong Kong et spécialisée dans l'IA générative appliquée à la découverte de médicaments. Le géant pharmaceutique américain obtient les droits mondiaux exclusifs sur des candidats médicaments oraux en phase préclinique, entièrement conçus par intelligence artificielle. Insilico Medicine recevra un paiement initial de 115 millions de dollars, auquel s'ajouteront des versements liés aux jalons de développement, aux autorisations réglementaires et à la commercialisation — portant la valeur totale potentielle de l'accord à environ 2,75 milliards de dollars, plus des redevances progressives sur les ventes futures. La plateforme au cœur du partenariat, Pharma.AI, combine biologie, chimie et analyse clinique pour identifier de nouvelles cibles thérapeutiques et concevoir des molécules innovantes destinées à des pathologies encore mal prises en charge. Cet accord illustre une transformation profonde de l'industrie pharmaceutique : l'IA n'est plus un outil expérimental mais un moteur concret de R&D. Selon Alex Zhavoronkov, fondateur et PDG d'Insilico Medicine, son entreprise a déjà conçu au moins 28 médicaments à l'aide de l'IA, dont près de la moitié sont actuellement en phase clinique — un chiffre qui témoigne d'une maturité technologique réelle. Pour Eli Lilly, le gain est double : accélérer l'identification de candidats thérapeutiques prometteurs grâce aux capacités d'analyse d'Insilico, tout en explorant de nouveaux mécanismes d'action que les approches traditionnelles auraient du mal à détecter. Andrew Adams, vice-président chargé de la découverte de molécules chez Lilly, souligne que l'IA d'Insilico vient compléter l'expertise clinique du groupe, sans la remplacer. Ce partenariat s'inscrit dans une dynamique sectorielle plus large où les grands laboratoires pharmaceutiques investissent massivement dans l'IA pour réduire les délais et les coûts de développement, traditionnellement estimés à plus d'un milliard de dollars par médicament approuvé. Eli Lilly accélère précisément dans cette direction : le groupe a également conclu un accord avec Nvidia prévoyant un investissement d'un milliard de dollars sur cinq ans pour renforcer infrastructures, talents et puissance de calcul. D'autres acteurs comme Roche déploient des milliers de GPU Nvidia Blackwell — sur le cloud et sur site — pour accélérer recherche, diagnostics et production. À l'horizon se profile une industrie pharmaceutique où la conception de molécules assistée par IA deviendra la norme, avec des implications considérables sur les délais de mise sur le marché et, à terme, sur l'accès à des traitements pour des maladies aujourd'hui sans solution thérapeutique satisfaisante.

UECette tendance à l'adoption massive de l'IA dans la R&D pharmaceutique pourrait influencer les stratégies des laboratoires européens, mais cet accord spécifique n'implique pas directement d'acteurs français ou européens.

BusinessOpinion
1 source
Les prix des H100 s'envolent
235Latent Space 

Les prix des H100 s'envolent

Depuis décembre 2025, les prix de location des GPU H100 de Nvidia repartent fortement à la hausse, effaçant la correction observée début 2025 après le choc DeepSeek R1. Selon le commentateur Dylan sur le podcast Dwarkesh, les H100 valent aujourd'hui davantage qu'il y a trois ans, au moment de leur lancement. Cette inversion de tendance intervient alors que la plupart des acteurs du secteur tablaient sur une dépréciation progressive sur quatre à sept ans. Les raisons avancées sont multiples : une pénurie générale de puces haut de gamme, l'émergence des modèles de raisonnement de décembre 2025, et l'amélioration spectaculaire des logiciels d'inférence, qui rendent une puce de quatre ans beaucoup plus efficace qu'elle ne l'était à sa sortie. Ce retournement a des implications directes sur la rentabilité des centres de données spécialisés en IA. Les modèles économiques construits sur l'hypothèse d'une dépréciation rapide du matériel se trouvent bousculés : un H100 loué plus cher que prévu change profondément les équations de coût par token pour les opérateurs cloud et les startups qui ne possèdent pas leur propre infrastructure. En parallèle, Anthropic serait sur le point de bénéficier d'un financement de Google pour la construction d'un centre de données — selon le Financial Times — ce qui illustre que la compétition frontier est désormais autant une question de capacité électrique et de capital que d'algorithmes. Ce contexte tendu se double d'une semaine chargée pour Anthropic : une fuite interne sur un système baptisé « Claude Mythos » a révélé l'existence d'un nouveau niveau d'abonnement nommé Capybara, décrit comme supérieur à Claude Opus 4.6, plus grand et plus intelligent, avec des scores nettement améliorés en programmation, raisonnement académique et cybersécurité. Le déploiement serait freiné par des contraintes de coût et de sécurité, et la spéculation va bon train autour d'un modèle de classe 10 000 milliards de paramètres évoqué par le PDG Dario Amodei. Pendant ce temps, côté open source, Zhipu a ouvert l'accès à GLM-5.1 à tous les utilisateurs de son offre coding, et la communauté constate que l'écart entre modèles fermés et ouverts n'a jamais été aussi réduit. Des utilisateurs rapportent avoir remplacé des abonnements TTS payants par des modèles locaux comme Qwen 3.5 14B, ou avoir fait tourner Qwen3.5-35B dans 24 Go de VRAM avec seulement 1 % de perte de performance grâce à la quantification — signe que l'économie de l'inférence locale devient viable pour un nombre croissant de cas d'usage professionnels.

UELa hausse des prix des H100 alourdit les coûts d'exploitation des opérateurs cloud et startups européens sans infrastructure propre, fragilisant les modèles économiques construits sur une dépréciation rapide du matériel.

InfrastructureActu
1 source
Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence
236ZDNET FR 

Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence

Arm, le concepteur britannique de puces dont l'architecture équipe la quasi-totalité des smartphones mondiaux, a annoncé le lancement de son propre processeur destiné aux data centers : l'Arm AGI CPU. Contrairement à son modèle historique de simple vente de licences d'architecture, Arm entre cette fois directement sur le marché du silicium, ciblant spécifiquement les charges de travail liées à l'IA agentique — ces systèmes autonomes capables d'enchaîner des tâches complexes sans intervention humaine. Cette annonce marque un tournant stratégique majeur pour l'industrie. L'IA agentique exige des processeurs capables de gérer des flux de raisonnement continus et intensifs, un segment jusqu'ici dominé par les GPU de Nvidia et les puces custom de Google (TPU) ou Amazon (Trainium). En proposant un CPU optimisé pour ces usages, Arm s'attaque à un marché en croissance explosive, tout en challengeant ses propres clients comme Qualcomm et Apple qui s'appuient sur ses licences. Le mouvement s'inscrit dans un contexte de consolidation verticale accélérée : Meta, Microsoft et Amazon développent leurs propres puces, tandis que SoftBank — propriétaire d'Arm depuis 2016 et reintroduit en bourse en 2023 — pousse à une montée en valeur ajoutée. La concurrence sera néanmoins rude face à des acteurs comme AMD, Intel et surtout Nvidia, dont l'emprise sur l'infrastructure IA reste considérable. Les prochains mois révéleront si Arm peut transformer son omniprésence architecturale en avantage commercial direct sur ce segment stratégique.

UEArm étant une entreprise britannique stratégique soutenue par SoftBank, son entrée sur le marché des processeurs pour data centers pourrait renforcer l'écosystème européen des semi-conducteurs et influencer les choix d'infrastructure IA des acteurs cloud opérant en Europe.

InfrastructureOpinion
1 source
Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis
237Le Monde Pixels 

Manus, une IA chinoise dernier cri prise dans la bataille technologique entre la Chine et les Etats-Unis

Manus, l'agent IA développé par la startup chinoise Butterfly Effect (filiale de Monica), a fait irruption sur la scène mondiale début mars 2025, déclenchant une vague d'enthousiasme sans précédent. En quelques jours, la liste d'attente pour accéder à la version bêta a dépassé un million de personnes, tandis que les démonstrations virales montraient l'agent accomplir de manière autonome des tâches complexes : recherche approfondie, rédaction de rapports, gestion de fichiers, navigation web. Contrairement aux chatbots classiques, Manus agit sans supervision humaine continue. L'émergence de Manus s'inscrit dans un contexte de compétition technologique féroce entre Pékin et Washington. Après le choc DeepSeek en janvier 2025, qui avait démontré qu'une IA chinoise pouvait rivaliser avec les meilleurs modèles américains à moindre coût, Manus confirme que la Chine n'entend pas rester en marge de la révolution des agents IA — un segment jugé stratégique par les deux puissances. Cette montée en puissance intervient alors que les États-Unis ont renforcé leurs restrictions sur l'exportation de puces vers la Chine. Nvidia, dont les GPU H100 sont au cœur du développement IA, se retrouve au centre de ces tensions. La capacité des équipes chinoises à produire des résultats compétitifs malgré ces contraintes matérielles soulève des questions sur l'efficacité réelle des sanctions américaines, et laisse présager une intensification de la rivalité technologique entre les deux blocs.

UELa rivalité sino-américaine sur les puces IA et l'émergence d'agents autonomes chinois compétitifs renforcent la pression sur l'Europe pour accélérer sa propre souveraineté technologique en matière d'IA.

OutilsOpinion
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
238MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
L'avenir de l'IA entre ouverture et propriétaire
239NVIDIA AI Blog 

L'avenir de l'IA entre ouverture et propriétaire

L'intelligence artificielle s'impose comme l'infrastructure technologique centrale de notre époque, portée par un écosystème diversifié de modèles — grands et petits, ouverts et propriétaires, généralistes et spécialisés. Lors d'une session spéciale consacrée aux modèles ouverts à la conférence NVIDIA GTC, Jensen Huang, fondateur et PDG de NVIDIA, a résumé la situation en une phrase : « Propriétaire versus open source n'est pas un débat. C'est propriétaire et open source. » Pour illustrer cet engagement, NVIDIA a annoncé la création de la Nemotron Coalition, une collaboration mondiale inédite regroupant des laboratoires d'IA et des développeurs de modèles pour faire avancer les modèles fondamentaux ouverts. Le premier projet issu de cette coalition sera un modèle de base codéveloppé par Mistral AI et NVIDIA, dont les membres apporteront données, évaluations et expertise sectorielle. Les modèles Nemotron ont déjà été téléchargés plus de 45 millions de fois sur Hugging Face, plateforme sur laquelle NVIDIA est désormais la plus grande organisation avec près de 4 000 membres d'équipe. Plusieurs panels réunissant des figures majeures du secteur — dont Mira Murati (Thinking Machines Lab), Aravind Srinivas (Perplexity), Michael Truell (Cursor) et Arthur Mensch (Mistral) — ont dégagé des tendances clés. Les agents IA s'apprêtent à devenir de véritables collègues capables de mener des tâches complexes sur plusieurs jours. L'IA n'est plus un modèle unique mais un système orchestré : « ce que vous voulez, c'est une orchestra multimodale, multi-modèles et multi-cloud », a déclaré Srinivas. L'ouverture des modèles est présentée comme un moteur d'innovation indispensable, aussi bien pour les grandes entreprises que pour la recherche académique. Murati a insisté sur ce point : « il y a beaucoup d'études à mener qui ne peuvent pas être réalisées uniquement dans les grands laboratoires — c'est là que l'ouverture est précieuse, elle fait avancer la science de l'intelligence. » Cette dynamique s'inscrit dans un tournant structurel où chaque secteur — santé, finance, industrie — a besoin d'une IA adaptée à ses données et workflows spécifiques, rendant la coexistence de modèles ouverts et propriétaires non seulement inévitable, mais souhaitable pour accélérer l'innovation à tous les niveaux.

UEMistral AI, acteur français majeur, est cofondateur de la Nemotron Coalition aux côtés de NVIDIA, ce qui renforce son rôle stratégique dans l'écosystème mondial des modèles ouverts.

LLMsActu
1 source
Les datacenters passent du courant alternatif au continu : la revanche d'Edison
240IEEE Spectrum AI 

Les datacenters passent du courant alternatif au continu : la revanche d'Edison

Les data centers d'IA migrent progressivement de l'alimentation AC vers le DC, éliminant les multiples conversions de courant qui génèrent des pertes d'énergie et nécessitent des quantités massives de cuivre — jusqu'à 200 000 kg pour un data center d'1 GW. En passant directement de 13,8 kV AC à 800 V DC en périphérie du bâtiment, les opérateurs transmettent 85 % plus de puissance avec les mêmes conducteurs, tout en réduisant la chaleur dissipée et l'encombrement des équipements. Des acteurs majeurs comme Vertiv, Delta et Eaton ont présenté à la conférence GTC de Nvidia de nouvelles architectures adaptées aux racks d'IA qui consomment désormais jusqu'à 1 MW, contre 10 kW pour un rack traditionnel.

UELes opérateurs européens de datacenters devront adapter leurs infrastructures d'alimentation pour supporter des racks IA haute densité, impliquant des investissements conséquents en équipements DC.

OutilsOpinion
1 source
Nscale fait irruption dans la cour des grands du développement de centres de données
241The Information AI 

Nscale fait irruption dans la cour des grands du développement de centres de données

Nscale, jeune entreprise dirigée par Josh Payne (ancien mineur de charbon), a levé 2 milliards de dollars à une valorisation de 14,6 milliards, nommé Sheryl Sandberg et Nick Clegg à son conseil d'administration, et signé une lettre d'intention pour fournir 1,35 GW de puissance de calcul à Microsoft. La société prévoit d'acquérir American Intelligence & Power pour développer ce qui pourrait devenir le plus grand complexe de data centers des États-Unis en Virginie-Occidentale, avec 8 GW de capacité planifiés d'ici 2031. Nscale table sur une croissance de revenus de 1,5 milliard à 30 milliards de dollars entre 2025 et 2027, soutenue par des investissements de Nvidia et des partenariats avec Dell.

BusinessActu
1 source
Mastercard surveille la fraude grâce à un nouveau modèle de fondation
242AI News 

Mastercard surveille la fraude grâce à un nouveau modèle de fondation

Mastercard a développé un grand modèle tabulaire (LTM) entraîné sur des milliards de transactions par carte bancaire pour détecter la fraude et renforcer la sécurité des paiements numériques. Contrairement aux LLM, ce modèle analyse les relations entre champs de tableaux multidimensionnels (montants, localisation marchands, incidents de fraude, etc.) sans données personnelles, réduisant ainsi les risques liés à la vie privée. Déployé en cybersécurité avec l'appui de Nvidia et Databricks, il améliore déjà la détection des anomalies, notamment sur les achats à haute valeur et faible fréquence.

UEMastercard opérant dans toute l'UE, ce modèle de détection de fraude pourrait renforcer la sécurité des paiements numériques pour les consommateurs européens dans le cadre de la réglementation PSD2.

BusinessActu
1 source
NemoClaw, analyse et prise en main de la « prison » pour sécuriser les agents IA
243Next INpact 

NemoClaw, analyse et prise en main de la « prison » pour sécuriser les agents IA

NVIDIA a annoncé NemoClaw lors de la GTC, un projet open source en version alpha conçu pour sécuriser les agents IA, notamment OpenClaw. NemoClaw propose un environnement avec des garde-fous de confidentialité et de sécurité, donnant aux utilisateurs le contrôle sur le comportement de leurs agents et la gestion de leurs données. OpenClaw, anciennement Clawdbot/Moltbot, est un agent IA open source développé par Peter Steinberger (désormais chez OpenAI) permettant d'accéder à des données personnelles pour agir comme assistant virtuel.

OutilsOpinion
1 source
Disneyland Paris dévoile Olaf : son robot IA ultra avancé contrôlé par Steam Deck
244Le Big Data 

Disneyland Paris dévoile Olaf : son robot IA ultra avancé contrôlé par Steam Deck

Disneyland Paris lancera le 29 mars 2026 un robot IA d'Olaf (La Reine des Neiges) développé en partenariat entre Disney et NVIDIA, équipé d'une puce Jetson et entraîné via le moteur physique open-source Newton et le simulateur Kamino — jusqu'à 8 000 instances virtuelles en parallèle. Le robot se déplace librement sans rails ni câbles, gérant lui-même l'équilibre et les mouvements, tandis qu'un opérateur humain pilote ses interactions en temps réel via une Steam Deck sous Windows. Il sera intégré au spectacle Celebration in Arendelle dans le nouveau Disney Adventure World, projet à 2 milliards d'euros, et a été présenté par le PDG de NVIDIA Jensen Huang lors de la GTC 2026.

UEDisneyland Paris déploie dès le 29 mars 2026 un robot IA grand public sur sol français, premier déploiement en Europe d'une IA embarquée NVIDIA Jetson dans un contexte de divertissement à grande échelle.

RobotiqueActu
1 source
Voici un nouveau format que j'aimerais essayer
245Ben's Bites 

Voici un nouveau format que j'aimerais essayer

Les entreprises d'IA migrent vers un modèle de vente d'outcomes plutôt que d'outils — Harvey, par exemple, passe des copilots juridiques aux contrats finalisés —, une tendance analysée par Sequoia qui prédit que les agents verticaux capteront les budgets de services bien plus larges. OpenAI affiche 2M+ d'utilisateurs hebdomadaires sur Codex (+20% d'usage API depuis GPT-5.4), Meta a acquis Manus et lancé une app desktop, et Nvidia projette 1 000 Md$ de ventes de puces IA d'ici fin 2027. Côté architecture, la planification détaillée avant exécution s'impose comme l'étape clé du développement agentique, tandis que Claude déploie désormais sa fenêtre de contexte 1M tokens en disponibilité générale.

UELe basculement vers la vente par résultat (outcome-based) pourrait remodeler les budgets IT des entreprises européennes qui adoptent des agents IA verticaux dans leurs processus métier.

BusinessActu
1 source
Meta s’allie à Nebius pour sécuriser 27 milliards de puissance IA
246Le Big Data 

Meta s’allie à Nebius pour sécuriser 27 milliards de puissance IA

Meta a conclu un accord de 27 milliards de dollars avec Nebius, société d'infrastructure cloud IA basée à Amsterdam (issue de la restructuration de Yandex), incluant 12 milliards de capacité de calcul dédiée et jusqu'à 15 milliards d'achats supplémentaires sur cinq ans. Le partenariat comprendra l'un des premiers déploiements à grande échelle de la plateforme NVIDIA Vera Rubin. Nebius, dont l'action a progressé de 35 % depuis janvier pour une capitalisation de 28,6 milliards de dollars, cumule ainsi des contrats géants avec Microsoft (17,4 Md$), Meta et Nvidia, malgré une perte nette de 250 M$ au dernier trimestre.

UENebius, domiciliée à Amsterdam, s'impose comme un acteur européen clé de l'infrastructure cloud IA en cumulant des contrats géants avec les plus grands groupes tech mondiaux.

BusinessActu
1 source
247AI News 

Comment l'économie de l'IA multi-agents influence l'automatisation des entreprises

NVIDIA a lancé Nemotron 3 Super, une architecture open source de 120 milliards de paramètres (12 milliards actifs) conçue pour les systèmes d'IA multi-agents en entreprise, offrant jusqu'à 5× plus de débit et 2× plus de précision que son prédécesseur. Le modèle combine des couches Mamba, des transformers classiques et une technique d'experts spécialisés pour réduire les deux principaux freins à l'automatisation : la « taxe de raisonnement » (coût élevé des agents autonomes) et l'explosion du contexte (jusqu'à +1 500 % de tokens par rapport aux formats standards). Avec une fenêtre de contexte d'un million de tokens, les agents peuvent charger un codebase entier ou des milliers de pages de rapports financiers en mémoire, éliminant la dérive d'objectif et accélérant l'inférence jusqu'à 4× par rapport aux configurations FP8 sur Hopper.

BusinessOutil
1 source
248The Information AI 

Microsoft négocie la location d'un vaste site de datacenter au Texas après le retrait d'Oracle

Microsoft est en négociations avancées pour louer des centaines de mégawatts de capacité de data center sur un campus IA à Abilene, au Texas, après qu'Oracle s'est retiré de la même opportunité. Meta Platforms est également en discussions pour louer le site. L'installation et l'exploitation de ces infrastructures, incluant les puces Nvidia nécessaires aux serveurs IA, coûteraient plusieurs dizaines de milliards de dollars.

BusinessActu
1 source
249AI News 

ABB : la simulation d'IA physique améliore le ROI dans l'automatisation industrielle

ABB Robotics et NVIDIA s'associent pour lancer RobotStudio HyperReality (prévu en 2026), une plateforme intégrant les bibliothèques NVIDIA Omniverse pour combler le fossé entre simulation et réalité en usine. La solution permet de réduire les coûts de déploiement jusqu'à 40 %, d'accélérer la mise sur marché de 50 %, et d'atteindre une précision de positionnement de 0,5 mm (contre 8-15 mm auparavant) grâce à un jumelage numérique à 99 % de fidélité. Des industriels comme Foxconn testent déjà la technologie pour l'assemblage d'appareils grand public, en générant des données synthétiques pour entraîner leurs systèmes sans prototype physique.

UEABB, groupe suisse leader de l'automatisation industrielle, offre aux usines européennes un outil pour réduire de 40 % leurs coûts de déploiement robotique et accélérer leur transition vers l'industrie 4.0.

RobotiqueActu
1 source
250VentureBeat AI 

Le modèle de codage NousCoder-14B de Nous Research fait son entrée dans le moment des assistants Claude pour le code

Nous Research, un startup d'IA open-source soutenu par Paradigm, a dévoilé le 1er janvier un nouveau modèle de programmation compétitif, NousCoder-14B, affirmant qu'il égalise ou surpasse plusieurs systèmes propriétaires plus volumineux, formé en seulement quatre jours avec 48 des derniers GPU Nvidia B200. Ce modèle se distingue par son accessibilité, car Nous Research a publié le modèle, l'environnement d'apprentissage par renforcement, la suite de benchmarks et le support de formation, facilitant la reproduction ou l'extension par des chercheurs disposant de suffisamment de ressources computationnelles. Cela survient alors que Claude Code, un outil agissant de la concurrente Anthropic, suscite beaucoup d'intérêt sur les réseaux sociaux, avec des développeurs témoignant de ses capacités remarquables, illustrant la rapide évolution et la concurrence féroce dans le domaine de l'assistance à la création de logiciels par l'IA.

UENousCoder-14B de Nous Research offre une alternative open-source compétitive aux assistants de codage propriétaires, potentiellement influençant le secteur des outils de développement logiciel en Europe en promouvant l'accessibilité et la transparence, conformément aux principes de l'AI Act.

RechercheOutil
1 source