Aller au contenu principal
RechercheVentureBeat AI4sem

De l'entraînement à l'inférence : comment optimiser votre budget de calcul IA de bout en bout

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs des universités du Wisconsin-Madison et de Stanford ont publié un cadre théorique appelé Train-to-Test (T²) scaling laws, qui remet en question les règles d'entraînement des grands modèles de langage en vigueur depuis des années. Leur approche démontre qu'il est plus efficace, sur le plan computationnel, d'entraîner des modèles nettement plus petits sur des volumes de données bien plus importants que ce que préconisent les standards actuels, puis d'utiliser les ressources ainsi économisées pour générer plusieurs échantillons de raisonnement au moment de l'inférence. La règle Chinchilla, référence dominante du secteur depuis 2022, recommande environ 20 tokens d'entraînement par paramètre de modèle. Les concepteurs de familles comme Llama, Gemma ou Qwen s'en écartent déjà délibérément en surinformant leurs modèles compacts, mais sans cadre rigoureux pour calibrer ce surplus. Le framework T² comble précisément ce vide en traitant comme une équation unifiée trois variables jusqu'ici étudiées séparément : la taille du modèle (N), le volume de tokens d'entraînement (D) et le nombre d'échantillons générés à l'inférence (k).

L'impact concret est significatif pour les entreprises qui développent leurs propres modèles ou déploient des workflows agentiques complexes. Comme l'explique Nicholas Roberts, co-auteur de l'article, la pile d'inférence se grippe lorsque chaque appel individuel est coûteux, ce qui arrive systématiquement avec de grands modèles nécessitant un échantillonnage répété. Avec des modèles plus compacts mais surinformés, ce même échantillonnage multiple devient accessible à une fraction du coût. Pour les développeurs d'applications d'IA en entreprise, cela signifie qu'il n'est pas nécessaire de s'appuyer sur des modèles frontières onéreux pour obtenir des performances élevées sur des tâches complexes : des modèles plus petits, correctement entraînés et utilisés avec des stratégies d'inférence adaptées, peuvent surpasser des modèles bien plus larges tout en maintenant des coûts par requête maîtrisables.

Ce travail s'inscrit dans une tension croissante entre deux écoles de pensée dans la recherche sur les LLM : celle qui mise sur l'augmentation continue de la taille des modèles à l'entraînement, et celle qui explore le potentiel du calcul au moment de l'inférence. Les lois d'échelle de préentraînement et de test-time scaling avaient jusqu'ici été développées en silo, malgré leur interdépendance fondamentale : la taille et la durée d'entraînement d'un modèle déterminent directement la qualité et le coût de chacun de ses échantillons d'inférence. Le framework T² introduit une passerelle mathématique entre ces deux domaines, notamment en reliant la métrique de perte continue utilisée à l'entraînement aux métriques de performance réelles utilisées au déploiement, comme le pass@k. Les suites probables incluent une adoption progressive par les équipes qui construisent des agents autonomes multi-étapes, pour lesquels le coût d'inférence est souvent le principal facteur limitant.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
1MarkTechPost 

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU. L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle. L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

RecherchePaper
1 source
2MarkTechPost 

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
3VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source
Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale
4La Tribune 

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour