InfrastructureMarkTechPost58min· 2 min de lecture

Prime Intellect publie prime-rl 0.6.0 pour entraîner des modèles MoE à mille milliards de paramètres sur des tâches RL à base d'agents

Prime Intellect a publié la version 0.6.0 de son framework open source prime-rl, conçu pour entraîner des modèles de langage de très grande taille via du reinforcement learning asynchrone. Cette mise à jour majeure cible spécifiquement les modèles Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, avec un focus sur des tâches dites "agentiques" longues et complexes, comme la résolution autonome de bugs logiciels. Pour illustrer les capacités du framework, l'équipe a entraîné GLM-5, le modèle de l'organisation zai-org, sur des tâches d'ingénierie logicielle (SWE) avec des séquences allant jusqu'à 131 000 tokens. Résultat : des temps d'étape inférieurs à cinq minutes, des batchs de 256 rollouts, le tout sur seulement 28 noeuds H200, une efficacité matérielle remarquable pour cette classe de modèles. Le framework est également compatible avec d'autres modèles MoE massifs comme Kimi-K2.7-Code de Moonshot AI ou le Nemotron-3-Ultra-550B de NVIDIA.

Ce type d'infrastructure répond à un problème concret du reinforcement learning à grande échelle : les tâches agentiques génèrent des "outliers" temporels, certains rollouts de code pouvant s'étirer sur plusieurs heures. Dans un système synchrone classique, les GPU restent à l'arrêt en attendant la fin de ces longues exécutions avant chaque mise à jour de politique. prime-rl résout ce goulot d'étranglement en découplant complètement le moteur d'inférence du moteur d'entraînement : les deux fonctionnent et scalent indépendamment, avec un unique point de synchronisation au moment de la mise à jour des poids. Côté inférence, le système combine calcul en FP8 avec les kernels DeepEP et DeepGEMM, un "Wide Expert Parallelism" répartissant les experts sur 32 GPU ou plus, une séparation des workers de prefill et de decode, et un système de gestion hiérarchique du cache KV avec offloading vers CPU ou disque. Le mécanisme "Router Replay" (R3) est particulièrement notable : il rejoue les décisions de routage de l'inférence directement sur le trainer, réduisant le décalage KL d'un ordre de grandeur.

Cette publication s'inscrit dans une course à la scalabilité du post-training par RL, accélérée par le succès des modèles de raisonnement comme DeepSeek-R1 ou les modèles de la série o1 d'OpenAI. L'approche MoE est devenue centrale pour atteindre des capacités de niveau "trillion de paramètres" sans exploser les coûts de calcul à l'inférence, mais elle impose des contraintes d'orchestration redoutables, notamment la coordination des experts entre des dizaines de GPU. Prime Intellect, qui se positionne sur l'entraînement distribué open source, mise sur prime-rl pour démocratiser l'accès à ces techniques jusqu'ici réservées aux grands laboratoires disposant de clusters propriétaires. La compatibilité avec Slurm et des routeurs comme NVIDIA Dynamo suggère une orientation claire vers des déploiements en production à l'échelle industrielle.

Impact France/UE

Les laboratoires et startups européens travaillant sur le post-training par RL peuvent bénéficier de cet outil open source pour entraîner des modèles MoE à très grande échelle sans dépendre de clusters propriétaires.

Dans nos dossiers

Moonshot AI OpenAI DeepSeek NVIDIA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper

1 source

2VentureBeat AI

D&B a reconstruit sa base de 642 millions d'entreprises pour les agents IA

Dun & Bradstreet, entreprise vieille de 180 ans spécialisée dans les données commerciales, vient d'annoncer une refonte complète de son infrastructure de données pour la rendre compatible avec les agents d'intelligence artificielle. Son "Commercial Graph" couvre 642 millions d'entreprises, soit presque le double des 300 millions de dossiers qu'il contenait il y a cinq ans, avec 11 000 champs par enregistrement et 100 milliards de vérifications qualité effectuées chaque mois. Cette base de données, utilisée par près de 200 000 clients dans le monde, analystes crédit, gestionnaires de risques, commerciaux, était conçue pour des humains capables d'attendre quelques secondes et d'interpréter des résultats ambigus. Quand les clients de D&B ont commencé à intégrer des agents IA dans leurs workflows de crédit, d'achats et de chaîne d'approvisionnement, l'architecture existante s'est révélée incompatible. Gary Kotovets, directeur des données et de l'analytique chez D&B, a expliqué à VentureBeat que l'entreprise devait désormais considérer les agents comme une nouvelle catégorie de consommateurs à part entière. Le problème fondamental est que les agents IA ne peuvent pas fonctionner avec des systèmes fragmentés, des latences élevées ou des relations statiques entre entités. Là où un analyste humain naviguait à travers plusieurs bases de données hétérogènes via des requêtes SQL, un agent a besoin d'une réponse en moins d'une seconde, d'une résolution d'entité vérifiée, et de relations dynamiques : si un PDG quitte une entreprise pour une autre, le dossier de risque doit suivre en temps réel ; si une filiale change de propriétaire, la hiérarchie complète doit se mettre à jour automatiquement. D&B a donc migré ses bases vers le cloud, redessiné son schéma de données, construit une couche de "data fabric" unifiant les enregistrements à l'échelle mondiale tout en respectant les contraintes réglementaires régionales, puis exposé l'ensemble via des outils MCP (Model Context Protocol) qui permettent aux agents d'interroger des données structurées avec leur contexte. Un moteur de résolution d'entités valide chaque requête pour garantir qu'une demande portant sur une entreprise renvoie bien vers un enregistrement unique et vérifié. L'entreprise a également créé un nouveau modèle d'authentification spécifique aux agents, distincts des utilisateurs humains. Ce chantier illustre une réalité que Kotovets dit avoir entendue de la bouche de centaines de directeurs des données et directeurs informatiques au cours des six derniers mois : les ambitions en matière d'IA se heurtent systématiquement à des fondations de données non standardisées et inexploitables par des machines. D&B, pourtant l'une des entreprises les mieux dotées en données commerciales structurées au monde, a quand même dû tout reconstruire. La montée en puissance des agents autonomes dans les processus métier critiques, évaluation du risque fournisseur, scoring crédit, due diligence, crée une pression inédite sur les fournisseurs de données pour qu'ils passent d'une logique de consultation humaine à une logique d'alimentation machine en temps réel. D&B se positionne ainsi en infrastructure de référence pour les agents d'entreprise, à un moment où MCP s'impose progressivement comme standard d'interopérabilité entre agents et sources de données.

UELes entreprises européennes clientes de D&B pour le risque crédit ou fournisseur peuvent désormais connecter leurs agents IA à cette base via MCP, dans le respect des contraintes réglementaires régionales incluant le RGPD.

💬 Si D&B, avec 180 ans de données commerciales structurées, a quand même dû tout reconstruire pour les agents IA, ton stack de données a peu de chances de s'en tirer sans casse. C'est le vrai enseignement de cet article, pas les 642 millions d'entreprises ou les 11 000 champs par dossier. Les agents ne tolèrent pas l'ambiguïté, pas la latence, pas les silos, et ça va forcer une vague de refonte data que beaucoup n'ont pas encore budgétisée.

InfrastructureActu

1 source

3MarkTechPost

Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public

Xiaomi, en collaboration avec le groupe système TileRT, a publié MiMo-V2.5-Pro-UltraSpeed, un mode de serving haute vitesse pour son modèle existant MiMo-V2.5-Pro. Ce modèle, basé sur une architecture Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, franchit pour la première fois la barre des 1 000 tokens par seconde sur cette classe de modèles, avec des pics mesurés à 1 200 tokens/s. Ce qui rend la performance remarquable, c'est le matériel utilisé : non pas des puces custom ou des accélérateurs spécialisés, mais un nœud standard de 8 GPU grand public. Le résultat découle de trois techniques coordonnées que Xiaomi qualifie de "codesign modèle-système extrême" : la quantification FP4 (format MXFP4 appliqué sélectivement aux experts MoE, le reste restant en FP8), le décodage spéculatif DFlash, et le moteur d'exécution TileRT. La qualité des benchmarks reste comparable au modèle original grâce à un entraînement avec conscience de la quantification (QAT). Ces vitesses changent concrètement ce qu'il est possible de faire avec un grand modèle en production. À 1 000 tokens/s, des tâches qui supposaient d'attendre plusieurs secondes entre chaque étape deviennent quasi-instantanées : un agent de code peut enchaîner les cycles génération-exécution-correction sans temps mort perceptible, des stratégies de raisonnement Best-of-N peuvent faire tourner des dizaines de branches en parallèle dans le même temps horloge, et des usages temps réel comme la détection de fraude ou le dialogue interactif deviennent viables sans infrastructure dédiée. Les démos publiées montrent la génération d'un jeu Snake en une dizaine de secondes, illustrant la fluidité atteinte pour des tâches de prototypage rapide. DFlash, la pièce centrale du gain de vitesse, résout un problème structurel du décodage spéculatif classique : le modèle brouillon génère les tokens un par un, créant un goulot d'étranglement séquentiel. DFlash utilise une prédiction parallèle masquée par blocs, permettant au modèle brouillon de remplir un bloc entier de positions en un seul passage. Sur des tâches de code, six à sept tokens sur huit sont acceptés à chaque round de vérification, atteignant parfois 7,14 en moyenne. TileRT complète le tableau côté système : à ces vitesses, chaque opérateur ne dure que quelques microsecondes, et les coûts de lancement d'opérateurs traditionnels fracturent le flux d'exécution. TileRT maintient un noyau persistant sur le GPU avec spécialisation par warp, éliminant ces interruptions. Xiaomi positionne cette combinaison comme une réponse directe à la montée en puissance de la vitesse d'inférence comme métrique concurrentielle, face aux investissements croissants de Meta, Google et OpenAI dans leurs propres accélérateurs propriétaires.

UEImpact indirect : les techniques publiées (quantification MXFP4, décodage spéculatif DFlash, moteur TileRT) pourraient réduire les coûts d'inférence pour les entreprises et labos européens déployant de grands modèles, mais aucune adoption ou régulation directement concernée.

InfrastructureOpinion

1 source

4Pandaily

Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V

La startup chinoise de puces IA Yixing Intelligence a annoncé le 22 avril 2026 la clôture d'un tour de série B de 1,5 milliard de yuans, soit environ 210 millions de dollars. Le tour a été co-piloté par plusieurs fonds d'investissement industriels basés à Pékin, avec la participation de multiples investisseurs institutionnels. Fondée en 2022, l'entreprise se spécialise dans les puces IA basées sur l'architecture RISC-V. Sa gamme phare, la série Epoch, cible les grands modèles de langage et les charges de travail en apprentissage profond, avec un support de la précision FP8 et une compatibilité avec des formats de précision inférieure pour améliorer l'efficacité et la flexibilité du déploiement. Yixing propose une solution complète couvrant les puces, les cartes accélératrices PCIe et les clusters de serveurs, accompagnée d'un écosystème logiciel intégrant compilateurs et systèmes d'exécution. Ce financement intervient à un moment où la Chine cherche activement à développer une industrie des semi-conducteurs indépendante face aux restrictions américaines à l'exportation. Pour les acteurs de l'IA qui déploient des infrastructures de calcul intensif, une solution comme celle de Yixing représente une alternative crédible aux GPU d'Nvidia, dont l'accès est de plus en plus limité pour les entreprises chinoises. La technologie d'interconnexion haute vitesse propriétaire de la société, qui permet des déploiements multi-noeuds à grande échelle, répond directement aux besoins des centres de données entraînant des modèles de plusieurs milliards de paramètres. L'essor de Yixing Intelligence s'inscrit dans une dynamique plus large de montée en puissance des champions nationaux de semi-conducteurs en Chine, portée à la fois par les politiques industrielles de Pékin et par l'urgence stratégique créée par les contrôles à l'exportation américains sur les puces avancées. L'architecture RISC-V, ouverte et libre de droits, est au coeur de cette stratégie : elle permet aux entreprises chinoises de concevoir des puces sans dépendre de la propriété intellectuelle d'ARM ou d'x86, majoritairement détenue par des sociétés occidentales. Les fonds levés seront utilisés pour accélérer la mise en production de masse, développer la prochaine génération de produits et élargir l'écosystème partenaire, ce qui laisse anticiper une montée en puissance commerciale significative dans les prochains mois.

InfrastructureActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic