Aller au contenu principal
OutilsMarkTechPost4h

Accélérer l'entraînement des transformers avec NVIDIA Apex et torch.amp

Résumé IASource uniqueImpact UE
Source originale ↗·

Un tutoriel récemment publié propose une approche structurée pour accélérer l'entraînement de modèles Transformer sur GPU en s'appuyant sur NVIDIA Apex, une bibliothèque d'optimisation spécialisée. Le guide couvre en particulier trois composants : FusedAdam, un optimiseur de remplacement pour AdamW, FusedLayerNorm et FusedRMSNorm pour les couches de normalisation, ainsi que l'API de précision mixte torch.amp désormais intégrée nativement dans PyTorch. La démarche commence par la compilation d'Apex depuis les sources avec les extensions CUDA et C++, étape critique car une installation Python seule peut sembler réussie tout en ignorant silencieusement les noyaux haute performance qui font la valeur réelle de la bibliothèque. Le tutoriel inclut ensuite des benchmarks comparant FusedAdam face à PyTorch AdamW, les couches de normalisation fusionnées face aux variantes standard, puis une expérience complète d'entraînement Transformer qui mesure l'écart de débit entre un pipeline FP32 classique et une configuration combinant Apex et AMP.

Les gains en jeu sont concrets : les noyaux CUDA fusionnés permettent de réduire le nombre d'opérations mémoire en combinant plusieurs calculs en un seul passage sur le GPU, ce qui se traduit directement en un débit d'entraînement supérieur et en une réduction du temps par itération. Pour les équipes qui entraînent de grands modèles de langage ou des Transformers profonds sur des infrastructures NVIDIA, ces optimisations peuvent représenter une économie significative en heures de calcul et donc en coût de GPU. La précision mixte, qui permet d'effectuer certains calculs en FP16 tout en maintenant la stabilité numérique en FP32 pour les parties sensibles, réduit également la consommation mémoire et autorise des batchs plus grands, accélérant la convergence.

NVIDIA Apex est un projet open source maintenu par NVIDIA qui a longtemps servi de référence pour l'entraînement en précision mixte avant que PyTorch n'intègre nativement des fonctionnalités équivalentes via torch.amp. Aujourd'hui, certaines parties d'Apex restent pertinentes, notamment les noyaux CUDA fusionnés pour l'optimiseur et la normalisation, là où PyTorch n'offre pas encore d'alternative directe. Le tutoriel prend soin de distinguer les composants encore utiles des parties obsolètes, un arbitrage important dans un écosystème qui évolue rapidement. Avec l'essor des architectures de type GPT, Llama ou Mistral et la multiplication des entraînements à grande échelle, la demande d'outils d'optimisation bas niveau reste forte, et des bibliothèques comme Apex continuent d'alimenter les pipelines des équipes cherchant à extraire chaque milliseconde de leurs GPU NVIDIA.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment l’IA transforme la gestion de chantier en 2026 ?
1Le Big Data 

Comment l’IA transforme la gestion de chantier en 2026 ?

Moins de 10 % des entreprises du bâtiment utilisent aujourd'hui l'intelligence artificielle dans leur gestion opérationnelle, mais 70 % prévoient de franchir le pas dans les prochains mois, soit 15 points de plus qu'il y a un an selon le baromètre Orisha Construction. Le marché mondial de l'IA appliquée à la construction devrait atteindre 4,5 milliards de dollars en 2026. Concrètement, six applications transforment déjà le quotidien des professionnels : la génération automatique de devis, la prédiction des retards, l'optimisation de planning, l'analyse de photos par vision par ordinateur, les chatbots clients pour artisans, et la détection d'anomalies de sécurité. Sur le seul volet du chiffrage, un artisan qui dictait vocalement ses paramètres peut aujourd'hui obtenir un devis structuré en 45 minutes au lieu de quatre heures, avec des relances automatisées (email J+3, SMS J+7, appel J+14) qui font passer le taux de transformation de 15 à 30 %. Les solutions SaaS concernées démarrent entre 150 et 250 euros par mois pour un indépendant, avec un retour sur investissement atteint en trois à quatre mois. L'impact dépasse la simple productivité administrative. En croisant données météo, disponibilité des ressources et historiques de sinistres, les algorithmes de prédiction permettent d'identifier une rupture d'approvisionnement trois semaines à l'avance, laissant le temps de mobiliser un fournisseur alternatif sans perdre un seul jour de chantier. McKinsey et Orisha estiment que cette approche réduit de 15 à 25 % les coûts liés aux erreurs, reprises et retards. Sur le terrain, des drones et caméras fixes capturent quotidiennement l'avancement réel, que l'IA quantifie sans relevé manuel. Les équipements de protection individuelle non portés sont détectés instantanément sur les images, réduisant les risques d'accidents et les responsabilités juridiques. Pour les artisans, un chatbot répond aux demandes de devis en dehors des heures ouvrées, supprimant les pertes de contrats par manque de réactivité. Le paradoxe du secteur est bien connu : la construction affiche une productivité qui progresse d'à peine 1 % par an depuis des décennies, malgré une pression croissante liée à la volatilité des prix des matériaux, la pénurie de compagnons qualifiés et une réglementation de plus en plus dense. C'est précisément cette accumulation de contraintes qui pousse les acteurs à chercher des gains opérationnels rapides et mesurables, plutôt que des transformations structurelles longues. Des éditeurs comme Trustup Pro intègrent déjà plusieurs de ces briques dans des logiciels de suivi de chantier tout-en-un. La prochaine étape, déjà en cours dans les grandes entreprises, est l'interconnexion de ces outils avec les ERP et les plateformes de sous-traitance, pour que le conducteur de travaux dispose d'un tableau de bord prédictif unifié plutôt que d'une série d'alertes isolées.

UELe secteur du bâtiment français est directement visé, avec des éditeurs tricolores comme Orisha Construction et Trustup Pro qui commercialisent déjà ces briques IA à destination des artisans et conducteurs de travaux.

💬 Le bâtiment stagne à +1 % de productivité par an depuis trente ans, et d'un coup 70 % des boîtes seraient prêtes à basculer. Ce chiffre vient d'un éditeur qui vend ces solutions, garde ça en tête. Mais les cas d'usage tiennent la route : 45 minutes pour un devis au lieu de 4 heures, ROI à 3 mois pour 150 euros par mois, c'est le genre de gain mesurable qui convainc un artisan, pas un DSI.

OutilsOutil
1 source
ServiceNow : la plateforme qui transformera votre entreprise avec l’automatisation IA
2Le Big Data 

ServiceNow : la plateforme qui transformera votre entreprise avec l’automatisation IA

ServiceNow s'est imposé comme l'une des plateformes d'automatisation d'entreprise les plus ambitieuses du marché, avec une capitalisation boursière qui dépasse les 150 milliards de dollars. Née comme un simple outil de gestion de tickets informatiques, la société américaine a radicalement transformé son positionnement pour devenir ce qu'elle appelle un "système d'enregistrement unique" pour l'ensemble de l'organisation. Sa Now Platform, architecture cloud-native, centralise aujourd'hui les flux de travail IT, RH et service client sur une infrastructure unifiée. L'entreprise a également lancé Now Assist, son module d'intelligence artificielle générative, capable de résumer automatiquement des tickets complexes, de suggérer des résolutions et de générer des rapports sans intervention humaine. Pour accélérer cette stratégie IA, ServiceNow a multiplié les acquisitions technologiques ces dernières années, absorbant des spécialistes du machine learning et de l'automatisation pour intégrer ces capacités nativement dans sa plateforme. L'enjeu central de cette évolution est la destruction des silos opérationnels qui ralentissent encore la majorité des grandes organisations. En unifiant sur une seule plateforme des processus qui étaient auparavant gérés dans des systèmes disparates, ERP, ITSM, outils RH, ServiceNow promet une visibilité totale sur les opérations et une réduction significative des tâches manuelles répétitives. Son approche low-code permet par ailleurs aux équipes métier, sans compétences techniques avancées, de créer leurs propres workflows sur mesure, ce qui démocratise le développement applicatif au sein d'entreprises qui ne peuvent pas se permettre d'embaucher des développeurs pour chaque besoin interne. Pour les directions informatiques et les DSI, c'est un argument de poids : réduire la dette technique tout en accélérant la transformation numérique sans multiplier les outils. ServiceNow évolue dans un marché ultra-concurrentiel où Microsoft, Salesforce et SAP proposent des offres similaires d'automatisation et d'intégration IA. Ce qui différencie la firme de Santa Clara, c'est sa focalisation exclusive sur l'orchestration des processus inter-départementaux, là où ses concurrents restent souvent cantonnés à des verticales spécifiques. La montée en puissance de l'IA générative dans les entreprises accélère la course : chaque éditeur cherche à se positionner comme le "cerveau" central de l'organisation. ServiceNow mise sur l'exhaustivité de sa plateforme et la profondeur de ses intégrations pour fidéliser des clients grands comptes dont les migrations sont coûteuses et longues. La question qui se pose désormais est celle du retour sur investissement réel pour les entreprises ayant déployé ces outils à grande échelle, un sujet sur lequel les données indépendantes restent encore rares.

UELes DSI des grandes organisations françaises et européennes sont des cibles directes de l'offre ServiceNow, mais l'article ne traite d'aucun enjeu réglementaire ou impact spécifique au marché européen.

OutilsOutil
1 source
Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore
3AWS ML Blog 

Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore

AWS a publié un guide technique détaillant comment construire des systèmes d'agents d'IA générative haute performance en combinant trois technologies complémentaires : Strands Agents, le framework multi-agents d'AWS ; NVIDIA NIM, une plateforme d'inférence accélérée par GPU disponible via build.nvidia.com ; et Amazon Bedrock AgentCore, l'environnement d'exécution managé d'Amazon. L'architecture proposée repose sur un système de trois agents spécialisés fonctionnant en parallèle : un agent d'analyse des personas qui évalue le contenu marketing selon différentes audiences et produit des scores de résonance, un agent de validation qui vérifie la conformité légale et de marque, et un agent agrégateur qui consolide les recommandations. Le tout s'articule autour d'un frontend React qui interroge les résultats de manière asynchrone au fur et à mesure que les agents rendent leurs verdicts. Cette combinaison répond à trois problèmes concrets qui freinent le passage des prototypes IA vers la production : la latence d'inférence sous forte charge, la perte de contexte entre les interactions dans les environnements sans état, et le manque de visibilité sur l'exécution des agents. NVIDIA NIM apporte l'accélération GPU via des technologies comme CUDA et TensorRT-LLM, en exposant des API compatibles OpenAI sans adaptation spécifique au modèle. Bedrock AgentCore prend en charge la persistance de la mémoire partagée entre agents, les mécanismes de checkpoint et de récupération sur erreur, ainsi que l'observabilité intégrée. Strands gère l'orchestration parallèle, le contrôle de flux et l'agrégation des résultats. L'ensemble se déploie sous forme de conteneur Docker dans AgentCore Runtime, éliminant la gestion d'infrastructure à mesure que la charge augmente. Le cas d'usage présenté, la revue automatisée de campagnes marketing, n'est qu'un point d'entrée : la même architecture s'applique aux assistants virtuels, aux pipelines RAG et à l'automatisation de processus de validation complexes. Ce guide s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour capter les workloads IA en production. AWS positionne Bedrock AgentCore comme la couche managée qui simplifie le déploiement d'agents à grande échelle, tandis que NVIDIA consolide sa présence dans la chaîne de valeur logicielle via NIM, bien au-delà de la simple vente de GPU. Strands Agents, framework open source lancé par AWS début 2025, cherche à s'imposer face à LangGraph ou AutoGen comme standard d'orchestration multi-agents. La multiplication de ces briques interopérables signale que les architectures agentiques entrent dans une phase d'industrialisation, où la fiabilité et l'observabilité comptent désormais autant que les capacités du modèle lui-même.

OutilsOutil
1 source
Equinox et JAX en pratique : modules natifs, transformations filtrées, couches à état et pipelines d'entraînement
4MarkTechPost 

Equinox et JAX en pratique : modules natifs, transformations filtrées, couches à état et pipelines d'entraînement

Equinox s'impose discrètement comme l'une des bibliothèques de deep learning les plus élégantes construites sur JAX, l'environnement de calcul numérique de Google. Développée comme une surcouche légère, elle repose sur un principe central : chaque modèle est un eqx.Module, traité nativement comme un PyTree, la structure d'arbre que JAX utilise pour manipuler ses tenseurs. Concrètement, cela signifie qu'une couche Linear, un bloc convolutif Conv1dBlock ou un réseau MLP se décomposent automatiquement en feuilles (les poids, les biais) et en métadonnées structurelles, sans couche d'abstraction cachée. Le tutoriel publié cette semaine détaille l'ensemble du workflow : initialisation des modules, champs statiques via eqx.field(static=True), transformations filtrées comme filterjit et filtergrad, couches avec état comme BatchNorm, et entraînement complet sur un problème de régression synthétique, le tout combiné avec Optax pour l'optimisation et Jaxtyping pour les annotations de forme. L'intérêt pratique d'Equinox réside dans la façon dont il résout une friction fondamentale de JAX : comment gérer des paramètres entraînables et des métadonnées non-différentiables dans le même objet. Avec les transformations filtrées, il devient possible d'appliquer jit ou grad uniquement sur les feuilles numériques du modèle, en excluant automatiquement les chaînes de caractères, entiers ou booléens qui définissent l'architecture. Cette distinction évite les erreurs de traçage silencieuses qui affectent les approches naïves. Pour les chercheurs qui travaillent sur des architectures expérimentales, où l'on mélange souvent des hyperparamètres fixes et des poids appris, c'est un gain de fiabilité et de lisibilité significatif. Les couches comme BatchNorm, qui maintiennent un état interne (moyenne courante, variance), sont également prises en charge de manière explicite, sans recourir à des contournements complexes. Equinox s'inscrit dans un mouvement plus large qui voit JAX gagner du terrain dans la recherche en apprentissage automatique, notamment face à PyTorch. Google DeepMind, qui l'utilise intensivement, ainsi que de nombreux laboratoires académiques ont adopté cet écosystème pour sa capacité à composer des transformations fonctionnelles (différentiation, vectorisation, parallélisme) de façon modulaire. Equinox se positionne comme une alternative à Flax ou Haiku, les deux bibliothèques historiques de l'écosystème JAX, en privilegiant une syntaxe plus proche de PyTorch tout en restant purement fonctionnelle. Avec l'essor des modèles de grande taille et les besoins croissants en parallélisme matériel, des outils qui séparent clairement la structure du modèle de son état numérique devraient continuer à gagner en adoption dans les mois à venir.

OutilsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour