Aller au contenu principal
InfrastructureNVIDIA AI Blog3h· 2 min de lecture

Modèles ouverts, environnements fermés : Palantir déploie une IA sécurisée dans les agences US avec NVIDIA Nemotron

Source originale ↗·

Palantir a annoncé un nouveau moteur d'intelligence artificielle intégrant les modèles ouverts NVIDIA Nemotron, destiné aux agences fédérales américaines opérant dans des environnements dits "air-gapped", des infrastructures totalement isolées de tout réseau non sécurisé. Concrètement, les agences gouvernementales pourront déployer des modèles Nemotron personnalisés sur leur propre infrastructure, les entraîner sur leurs propres données et conserver la pleine propriété des modèles résultants, y compris des poids qui encodent leur connaissance opérationnelle. Le système repose sur le Sovereign AI Operating System de Palantir, une pile logicielle construite sur ses produits AIP, Ontology, Foundry et Apollo, qui gère les autorisations d'accès aux données et l'isolation architecturale. Les déploiements à grande échelle pourront s'appuyer sur la suite logicielle NVIDIA AI Enterprise.

L'enjeu est considérable : le gouvernement fédéral américain emploie environ 3 millions de fonctionnaires civils et opère dans des domaines aussi variés que le commerce, la santé, l'agriculture, l'énergie, l'éducation et les transports, ce qui en fait l'une des plus grandes "entreprises" du monde. L'IA peut y rationaliser des opérations d'une complexité extrême, de la sécurité alimentaire à la gestion des infrastructures routières. Ce partenariat permet aux agences d'entrer dans une logique de "data flywheel" : les modèles s'améliorent en continu grâce aux nouvelles données et aux retours d'usage, sans que ces informations ne quittent jamais le périmètre de contrôle de l'agence. La transparence des modèles ouverts offre par ailleurs une auditabilité totale, permettant aux chercheurs indépendants d'identifier vulnérabilités, biais ou comportements inattendus, un prérequis non négociable en contexte de sécurité nationale.

Cette annonce s'inscrit dans une tendance plus large qui voit les modèles ouverts s'imposer comme une alternative crédible aux systèmes propriétaires pour les institutions sensibles. L'histoire de l'open source américain, du noyau UNIX en 1969 au Linux Kernel en 1991, de GitHub à Docker, montre que la mise en commun du code a historiquement renforcé la compétitivité technologique des États-Unis. Aujourd'hui, NVIDIA pousse cette logique dans le domaine des grands modèles de langage avec Nemotron, tandis que Palantir apporte son expertise en gouvernance des données souveraines. La combinaison des deux répond à une demande croissante des États et des grandes entreprises qui veulent accéder aux capacités de l'IA frontier sans sacrifier le contrôle sur leurs données stratégiques ni dépendre d'un fournisseur cloud extérieur.

Impact France/UE

La démonstration qu'un déploiement IA souverain en environnement air-gapped est techniquement viable pourrait accélérer les réflexions européennes sur des architectures similaires pour les institutions publiques et défense de l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MIT Technology Review 

Déployer l'IA dans les environnements contraints du secteur public

Les institutions publiques du monde entier subissent une pression croissante pour adopter l'intelligence artificielle, mais leur contexte opérationnel diffère radicalement de celui du secteur privé. Une étude de Capgemini révèle que 79 % des dirigeants du secteur public s'inquiètent de la sécurité des données liées à l'IA, une préoccupation justifiée au regard de la sensibilité des informations gouvernementales et des obligations légales qui les entourent. Han Xiao, vice-président de l'IA chez Elastic, résume la situation : les agences gouvernementales doivent strictement contrôler les données qu'elles envoient sur le réseau, ce qui impose de nombreuses contraintes sur leur approche de l'IA. Une enquête d'Elastic auprès de décideurs publics révèle par ailleurs que 65 % d'entre eux peinent à exploiter leurs données en continu, en temps réel et à grande échelle. Là où le secteur privé présuppose une connectivité permanente au cloud, une infrastructure centralisée et une liberté de mouvement des données, les administrations publiques ne peuvent accepter ces conditions. Elles doivent garantir que leurs données restent sous leur contrôle, que les informations peuvent être vérifiées, et que la continuité des opérations est assurée, y compris dans des environnements où la connexion internet est limitée ou inexistante. S'ajoute à cela un autre obstacle matériel : les administrations achètent rarement des GPU, ces processeurs graphiques indispensables pour faire tourner les grands modèles d'IA, faute d'habitude de gérer ce type d'infrastructure. Ces contraintes cumulées expliquent pourquoi de nombreux projets pilotes d'IA dans le secteur public ne franchissent jamais le stade de l'expérimentation. Face à ces limites, les petits modèles de langage, ou SLM (Small Language Models), apparaissent comme une solution adaptée. Contrairement aux grands modèles comme GPT-4 qui mobilisent des centaines de milliards de paramètres, les SLM n'en utilisent que quelques milliards, ce qui les rend bien moins gourmands en ressources de calcul et permet de les héberger localement, sans dépendance au cloud. Des études empiriques montrent que leurs performances sont comparables, voire supérieures à celles des LLM sur des tâches spécialisées. Les données restent stockées en dehors du modèle et ne sont consultées qu'au moment des requêtes, grâce à des techniques comme la recherche vectorielle et l'ancrage sur des sources vérifiables. Des entreprises comme Elastic positionnent ces approches comme la voie réaliste vers une IA véritablement opérationnelle dans les administrations, à l'heure où la pression politique en faveur de la modernisation numérique ne cesse de s'intensifier.

UELes administrations françaises et européennes, contraintes par le RGPD et les exigences de souveraineté des données, trouvent dans les SLM déployables en local une voie concrète pour dépasser le stade pilote et accélérer leur modernisation numérique sans dépendance au cloud.

InfrastructureOpinion
1 source
NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud
2NVIDIA AI Blog 

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

NVIDIA et Microsoft ont dévoilé lors de Microsoft Build un partenariat élargi pour déployer une pile technologique unifiée dédiée à l'IA agentique, couvrant les PC Windows, le cloud Azure et les environnements locaux. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu en direct depuis Taipei aux côtés de Satya Nadella pour présenter les nouvelles initiatives. Au programme : les PC RTX Spark et les stations DGX Station for Windows, l'accélération GPU de Microsoft Fabric, les modèles ouverts NVIDIA sur Microsoft Foundry, et le runtime sécurisé NVIDIA OpenShell intégré à GitHub Copilot. RTX Spark cible les laptops et petits ordinateurs de bureau avec 1 pétaflop de performance IA, jusqu'à 128 Go de mémoire unifiée et une autonomie toute la journée, avec des systèmes attendus cet automne chez Microsoft Surface, ASUS, Dell, HP, Lenovo et MSI. La DGX Station for Windows, propulsée par le superchip NVIDIA GB300 Grace Blackwell Ultra, offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops en FP4, capable de faire tourner des modèles jusqu'à 1 billion de paramètres, avec des livraisons prévues au quatrième trimestre 2026 chez ASUS, Dell, GIGABYTE, HP, MSI et Supermicro. Ce partenariat marque un tournant dans la course à l'IA agentique d'entreprise en proposant, pour la première fois, une chaîne complète allant du matériel personnel à l'infrastructure cloud. Pour les développeurs et les entreprises, cela signifie pouvoir construire, affiner et déployer des agents IA directement sur Windows sans dépendre exclusivement du cloud. Les modèles Claude d'Anthropic tournent désormais nativement sur les systèmes Blackwell Ultra dans Azure, avec une disponibilité annoncée dans les prochaines semaines. Sur Microsoft Foundry, le nouveau NVIDIA Nemotron 3 Ultra, conçu pour le raisonnement de longue durée dans des tâches de codage, de recherche et de workflows d'entreprise, est disponible dès ce mois-ci, accompagné de Nemotron 3.5 ASR pour la reconnaissance vocale et Nemotron 3.5 Content Safety pour la modération de contenu. Ce rapprochement intervient alors que l'ensemble de l'industrie cherche à concrétiser la promesse des agents IA autonomes capables d'exécuter des tâches complexes sur la durée. NVIDIA, dont les GPU sont devenus incontournables dans les data centers, étend son influence jusqu'au bureau et au PC personnel, concurrençant indirectement Apple Silicon et AMD sur le terrain de l'inférence locale. Le runtime OpenShell, sécurisé nativement, répond aux exigences de gouvernance des grandes entreprises qui hésitent encore à confier des tâches autonomes à des agents. L'intégration des bibliothèques CUDA-X comme cuDF, cuOpt et NeMo directement accessibles aux agents ouvre la voie à des workflows scientifiques plus complexes, notamment avec le modèle Cosmos 3 pour la simulation du monde physique et les modèles météo Earth-2 disponibles via Microsoft Planetary Computer Pro.

UELes entreprises européennes utilisant Azure et Windows bénéficieront d'une chaîne de déploiement IA unifiée du PC personnel au cloud, réduisant la dépendance exclusive à l'infrastructure cloud pour les workflows agentiques.

💬 Jensen Huang qui s'invite en hologramme depuis Taipei pendant le keynote de Satya, c'est le genre de mise en scène qui cache souvent un partenariat creux. Là, non : la DGX Station sous Windows avec 748 Go de mémoire cohérente et 20 pétaflops, c'est du concret pour les boîtes qui refusent de tout mettre dans Azure. Reste à voir si les prix seront accessibles à autre chose qu'aux grands comptes, mais l'idée d'une chaîne complète du laptop au datacenter sans changer de stack, ça change vraiment quelque chose pour les équipes qui font tourner des agents en prod.

InfrastructureActu
1 source
Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA
3NVIDIA AI Blog 

Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA

Le workflow a été bloqué pour revue. Je fais la traduction directement. Taiwan abrite plus de 500 partenaires de l'écosystème NVIDIA, et c'est là que convergent plus d'un million de composants MGX destinés à la nouvelle infrastructure Vera Rubin, répartis sur 25 sites de production. Cette architecture de grande échelle implique l'ensemble de la chaîne d'approvisionnement : des acteurs de la fabrication de puces comme TSMC, SPIL, Kinsus, KYEC et UMTC aux géants de l'assemblage de serveurs que sont Foxconn, Pegatron, Quanta Cloud Technology (QCT), Wistron et Inventec. Mais ces industriels ne se contentent plus de construire l'infrastructure IA mondiale, ils l'appliquent à leurs propres usines. Foxconn déploie les blueprints NVIDIA Factory Operations et NemoClaw pour développer MoMClaw, un agent de gestion des opérations industrielles qui analyse en temps réel les signaux capteurs et machines, et fournit aux opérateurs des plans d'action en langage naturel. Les gains estimés sont substantiels : réduction de 80 % du temps d'analyse des causes racines, hausse de 15 % de la productivité, baisse de 10 % des pannes machines. La société construit par ailleurs un supercalculateur cloud à Taiwan pour 1,4 milliard de dollars, équipé de 10 000 GPU NVIDIA GB300 NVL72. L'enjeu dépasse la seule performance opérationnelle : Taiwan est en train de redéfinir ce que signifie construire de l'infrastructure IA à l'échelle industrielle. TSMC utilise les bibliothèques CUDA-X et des modèles IA pour la lithographie computationnelle, la simulation de transistors et le contrôle qualité, la bibliothèque cuLitho d'NVIDIA améliore le temps de cycle ou le coût de 20 à 50 % par rapport aux solutions CPU, tandis que cuEST accélère la simulation de matériaux semiconducteurs d'un facteur 50. QCT, de son côté, exploite des jumeaux numériques basés sur NVIDIA Omniverse pour planifier ses usines, et développe avec sa filiale Techman Robot un kit IA physique appuyé sur NVIDIA Jetson Thor et la plateforme Isaac GR00T, pour des robots humanoïdes comme le TM Xplore I, capables d'assembler des serveurs. Wistron simule des environnements de test thermique sur ses sites mondiaux grâce au framework PhysicsNeMo et à Cadence Reality DC Design. Cette dynamique s'inscrit dans une transition structurelle du secteur : NVIDIA ne se positionne plus seulement comme fournisseur de GPU, mais comme architecte d'un écosystème industriel intégré, où ses plateformes logicielles (Omniverse, Isaac, Metropolis, NeMo) pilotent autant la production que le produit final. Taiwan, qui concentre l'essentiel de la capacité mondiale de fabrication de semi-conducteurs avancés, devient ainsi le laboratoire grandeur nature de l'IA physique appliquée au manufacturing. Avec la montée en charge de Vera Rubin pour alimenter les "agentic AI factories" à l'échelle mondiale, la question n'est plus de savoir si l'IA va transformer l'industrie manufacturière, mais à quelle vitesse les acteurs qui ne participent pas à cet écosystème pourront rester compétitifs.

InfrastructureActu
1 source
Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell
4AWS ML Blog 

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Amazon Web Services a rendu disponibles sur Amazon SageMaker AI les instances P6-B200, équipées de huit GPU NVIDIA Blackwell B200, pour l'entraînement de modèles de machine learning à grande échelle. Ces GPU de nouvelle génération embarquent 180 Go de mémoire HBM par puce (268 Go sur le B300), contre des capacités bien inférieures sur les générations précédentes, et s'interconnectent via NVLink 5 qui atteint 1,8 To/s de bande passante bidirectionnelle entre GPU. La configuration cible des modèles Transformer allant de 1 à 64 milliards de paramètres, entraînés en parallélisme de données fragmentées (FSDP de PyTorch) sur un nœud unique à huit GPU. L'accès à ces instances peut être réservé via le programme Flexible Training Plan d'AWS pour bénéficier d'une capacité prévisible et d'une gestion automatisée des ressources. Cette architecture modifie concrètement ce qui est réalisable dans l'entraînement de grands modèles. Jusqu'ici, les ingénieurs se heurtaient à trois contraintes classiques : des tailles de batch limitées par la mémoire GPU, des séquences tronquées pour éviter les erreurs out-of-memory, et un fractionnement du modèle sur plusieurs nœuds qui génère une surcharge réseau importante. Avec 180 Go par GPU, certains modèles qui nécessitaient auparavant plusieurs nœuds peuvent désormais tenir sur un seul nœud à huit GPU, ce qui réduit la latence de communication, accélère les cycles d'itération et diminue les coûts d'infrastructure. Des séquences plus longues deviennent viables pour les tâches de dépendances à longue portée, et le nombre d'étapes de synchronisation des gradients diminue avec des batchs plus grands, améliorant le débit global. NVIDIA Blackwell représente la cinquième génération de Tensor Cores de la marque, et son architecture dual-chip marque une rupture par rapport aux générations Ampere et Hopper. L'explosion de la taille des modèles ces trois dernières années, de GPT-3 à 175 milliards de paramètres jusqu'aux modèles actuels dépassant le trillion, a poussé les fournisseurs cloud et les fabricants de puces à repenser conjointement leurs offres. AWS et NVIDIA ont renforcé leur partenariat autour de SageMaker pour proposer une intégration clé en main qui abstrait la gestion de l'infrastructure. Les prochaines étapes pratiques pour les équipes ML consistent à calibrer le format de précision (FP8, BF16 ou FP16 selon la taille du modèle), ajuster le checkpointing d'activations pour équilibrer mémoire et calcul, et décider si la priorité est le débit, la réduction des communications inter-GPU ou la longueur de contexte. L'enjeu pour AWS est de capter une part croissante des budgets d'entraînement de modèles fondationnels, un marché où Google Cloud et Microsoft Azure jouent également des capacités GPU Blackwell.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic