Aller au contenu principal
LLMs+
LLMsMIT Technology Review3sem

LLMs+

Résumé IASource uniqueImpact UE
Source originale ↗·

Depuis le lancement de ChatGPT fin 2022, les grands modèles de langage (LLM) ont envahi le quotidien de centaines de millions d'utilisateurs et provoqué une course effrénée dans toute l'industrie technologique. Aujourd'hui, la prochaine grande rupture se dessine déjà, et elle ne remplace pas les LLM : elle les prolonge. Ces nouveaux modèles, que l'on pourrait appeler les LLM+, sont conçus pour résoudre des problèmes complexes et multi-étapes qui prendraient des jours ou des semaines à un humain, en opérant de manière autonome sur des durées prolongées. Deux axes de progrès dominent la recherche actuelle : rendre les modèles plus efficaces et moins coûteux à faire tourner, et étendre leur capacité à traiter de grandes quantités d'information sans perdre le fil.

Sur le plan de l'efficacité, plusieurs approches prometteuses émergent. Le "mixture-of-experts" consiste à fragmenter un LLM en sous-modules spécialisés, dont seule une partie est activée selon la tâche en cours, réduisant ainsi massivement la charge de calcul. D'autres chercheurs envisagent d'abandonner les transformeurs, l'architecture neuronale dominante depuis plusieurs années, au profit des modèles de diffusion, habituellement réservés à la génération d'images et de vidéos. En 2025, la startup chinoise DeepSeek a présenté une méthode d'encodage du texte dans des images pour comprimer les coûts de traitement. Ces innovations pourraient rendre les LLM accessibles à une gamme beaucoup plus large d'applications industrielles et académiques, en abaissant significativement les barrières financières à leur déploiement.

L'autre défi central est celui de la fenêtre de contexte, soit la quantité d'information qu'un modèle peut traiter en une seule fois. Il y a deux ans, cette limite se situait à quelques milliers de tokens, soit une trentaine de pages. Les modèles actuels atteignent désormais le million de tokens, l'équivalent d'une pile entière de livres. Mais plus la fenêtre s'allonge, plus les modèles tendent à dériver ou à perdre leur cohérence sur des tâches longues. Une publication récente de chercheurs du MIT CSAIL propose une réponse architecturale : les LLM récursifs. Au lieu d'ingérer un contexte géant d'un seul bloc, ces modèles découpent leur entrée en fragments, les transmettent à des copies d'eux-mêmes qui peuvent elles-mêmes subdiviser et redistribuer le travail. Cette approche distribuée se révèle nettement plus fiable sur des tâches complexes et prolongées, et pourrait constituer le socle des futurs systèmes d'IA capable de travailler en autonomie sur des défis scientifiques ou organisationnels de grande envergure.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Entraînement, alignement et déploiement des LLM : analyse technique approfondie

L'entraînement d'un grand modèle de langage (LLM) moderne repose sur un pipeline en plusieurs étapes distinctes, chacune jouant un rôle précis dans la transformation d'un réseau de neurones brut en un système intelligent et déployable. La première phase, le pré-entraînement, consiste à exposer le modèle à des corpus massifs de textes, livres, sites web, code source, afin qu'il développe une compréhension générale du langage, de la grammaire, du raisonnement et des connaissances du monde. Vient ensuite le fine-tuning supervisé (SFT), où des paires entrée-sortie soigneusement vérifiées permettent d'orienter le comportement du modèle vers des tâches précises, un style de réponse ou des règles métier spécifiques. Pour rendre cette adaptation plus accessible sans recalculer l'intégralité des paramètres du modèle, des techniques comme LoRA (Low-Rank Adaptation) et QLoRA (sa variante quantifiée) permettent un fine-tuning efficace en n'ajustant qu'une fraction des poids. L'alignement avec les préférences humaines passe quant à lui par le RLHF (Reinforcement Learning from Human Feedback), qui affine les sorties selon des critères de sécurité et d'utilité. Plus récemment, GRPO (Group Relative Policy Optimization) est apparu pour renforcer les capacités de raisonnement structuré et de résolution de problèmes en plusieurs étapes. Comprendre ce pipeline est essentiel pour quiconque développe ou intègre des LLMs dans des produits réels. Chaque étape conditionne la suivante : un pré-entraînement faible rend le fine-tuning peu efficace, et un mauvais alignement produit des modèles imprévisibles ou dangereux en production. Le SFT, par exemple, peut transformer une réponse générique ("Essayez de réinitialiser votre mot de passe") en une réponse structurée et empathique adaptée au service client. Les techniques LoRA et QLoRA démocratisent l'adaptation de modèles de grande taille sur du matériel accessible, réduisant les coûts de calcul de manière significative. Le RLHF, popularisé notamment par OpenAI avec ChatGPT, reste la référence pour aligner les modèles sur les attentes humaines, tandis que GRPO représente la nouvelle frontière pour les modèles de raisonnement comme DeepSeek-R1 ou les variantes o1 d'OpenAI. Ce pipeline s'est construit progressivement depuis les premières architectures Transformer de 2017, avec des jalons comme GPT-3 en 2020, qui a démontré la puissance du pré-entraînement à grande échelle, puis InstructGPT en 2022, qui a introduit le RLHF comme standard d'alignement. Aujourd'hui, la course entre les acteurs majeurs, OpenAI, Google DeepMind, Meta, Mistral, Anthropic, se joue précisément sur l'optimisation de ces étapes : qualité des données d'entraînement, efficacité du fine-tuning, robustesse de l'alignement. La montée en puissance des modèles de raisonnement en 2024-2025 a replacé GRPO et les approches similaires au centre des stratégies de recherche, laissant entrevoir des LLMs capables d'une résolution de problèmes complexes nettement plus fiable qu'aujourd'hui.

UEMistral, acteur français, est cité parmi les compétiteurs majeurs dans la course à l'optimisation des pipelines d'entraînement LLM.

LLMsTuto
1 source
Les techniques de distillation des LLM expliquées
2MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source
Affinage par renforcement avec un LLM comme évaluateur
3AWS ML Blog 

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper
1 source
Comprendre la fenêtre de contexte : limites et solutions techniques des LLM
4Le Big Data 

Comprendre la fenêtre de contexte : limites et solutions techniques des LLM

La fenêtre de contexte est la limite fondamentale qui détermine ce qu'un modèle d'intelligence artificielle peut "garder en tête" lors d'une conversation ou d'une analyse de document. Concrètement, tout ce que le modèle traite en une seule fois, qu'il s'agisse de la question posée, de l'historique des échanges, des instructions système et de la réponse en cours de génération, doit tenir dans cet espace mesuré en tokens, des unités linguistiques représentant en moyenne trois quarts de mot. Sur une fenêtre de 2 000 tokens, un texte de 900 mots consomme déjà environ 1 200 tokens en entrée, ne laissant que 800 tokens pour la réponse avant que le modèle ne s'arrête net. Les premiers modèles géraient environ 2 000 tokens, soit 1 500 mots. Aujourd'hui, certains systèmes atteignent 1 million de tokens, l'équivalent d'un roman entier, mais chaque gain décuple les besoins matériels. Cette contrainte a des conséquences directes et mesurables sur la qualité des réponses. L'architecture Transformer, utilisée par tous les grands modèles actuels, calcule les relations entre chaque paire de tokens selon une complexité quadratique O(n²) : 1 000 tokens génèrent un million de connexions, et la mémoire GPU explose rapidement. Résultat : au-delà d'un certain seuil, le modèle perd les informations placées en début de contexte, répète des idées ou invente des faits, phénomène connu sous le nom d'hallucination. Le test "needle-in-haystack", qui consiste à vérifier si un modèle retrouve une information précise noyée dans un long texte, révèle 30 % d'échecs au-delà de 500 000 tokens. Les coûts ne sont pas négligeables non plus : traiter 1 million de tokens coûte environ dix centimes, sans compter les risques de sécurité, car un prompt malveillant placé en début de contexte peut manipuler le comportement du modèle sur toute la durée d'un long document. Pour contourner ces limites, plusieurs approches techniques ont émergé. Le KV-cache, qui mémorise les calculs d'attention déjà effectués plutôt que de les recalculer à chaque nouveau token généré, peut représenter jusqu'à 100 Go de mémoire temporaire mais accélère considérablement la génération. D'autres architectures cherchent à remplacer ou compléter l'attention quadratique par des mécanismes linéaires ou par de la mémoire externe, permettant de traiter des documents bien au-delà des capacités actuelles sans explosion des coûts. L'enjeu est industriel et stratégique : les cas d'usage les plus lucratifs, analyse juridique, recherche médicale, assistance sur des bases de code entières, nécessitent précisément de maintenir la cohérence sur de très longues séquences. La course aux grandes fenêtres de contexte est donc moins une question de prouesse technique que de viabilité économique pour des applications professionnelles à grande échelle.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour