Aller au contenu principal
Fine-tuning oublie, RAG laisse filtrer le contexte : les hyperréseaux génèrent le bon modèle à la demande
RechercheVentureBeat AI5h· 2 min de lecture

Fine-tuning oublie, RAG laisse filtrer le contexte : les hyperréseaux génèrent le bon modèle à la demande

Source originale ↗·

Les équipes d'entreprise observent régulièrement le même scénario : un agent IA convainc en démonstration, puis peine en production, forçant les équipes à superviser ses sorties en continu plutôt qu'à valider uniquement le résultat final. La firme Chroma a testé 18 modèles de premier plan et constaté que tous perdaient en précision à mesure que leurs entrées s'allongeaient, une limite inhérente au mécanisme d'attention, non un défaut que corrigerait un modèle plus puissant. Les entreprises disposent jusqu'ici de deux réponses à ce problème : le fine-tuning, qui intègre les connaissances directement dans les poids du modèle, et l'apprentissage en contexte (RAG), qui les insère à la volée dans le prompt. Ces deux approches ont leurs failles propres : le fine-tuning souffre de l'oubli catastrophique, un problème documenté dès les années 1980 et toujours sans solution en 2026, qui érode les connaissances existantes dès qu'on en enseigne de nouvelles. Le RAG, de son côté, voit la qualité des réponses se dégrader avec l'accumulation de tokens, et un document raté lors de la récupération produit une réponse aussi assurée qu'une réponse correcte. Une troisième voie commence à émerger : générer à la demande, au moment de l'inférence, un modèle spécialisé via un hyperréseau.

L'enjeu concret pour les entreprises est considérable. Tant que les agents ne peuvent pas maintenir leur fiabilité sur des tâches longues sans injection régulière de contexte ou vérification humaine, le gain de productivité attendu reste théorique. Un agent qui nécessite qu'on vérifie chaque étape ne libère pas de bande passante, il la déplace. La promesse d'un système capable de tourner toute une nuit en autonomie et de ne soumettre qu'un résultat final à valider représente un changement de paradigme opérationnel pour les équipes traitant de gros volumes de documentation interne, de politiques changeantes ou de workflows complexes.

Le concept d'hyperréseau, désigné sous ce nom dès 2016, consiste en un réseau neuronal dont la sortie est elle-même le jeu de poids d'un autre réseau. Son application à la génération de modèles de langage spécialisés à partir de documents textuels est récente et très active. Sakana AI a présenté Text-to-LoRA à l'ICML 2025 : cet outil génère un adaptateur de modèle à partir d'une description en langage naturel en une seule passe, sans réentraînement. Un système de 2026 baptisé SHINE qualifie l'adaptation par hyperréseau de "nouvelle frontière prometteuse", précisément parce qu'elle contourne à la fois le coût du fine-tuning et les limites du prompting. L'idée est de remplacer une bibliothèque croissante d'adaptateurs stockés par une génération dynamique selon les besoins, ouvrant la voie à des agents capables d'ajuster leur expertise métier en temps réel sans surcoût de gouvernance ni cycle de réentraînement.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les grands modèles de langage comprennent-ils vraiment le contexte ?
1Apple Machine Learning 

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper
1 source
IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée
2VentureBeat AI 

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Des chercheurs de l'Université Tsinghua et de Z.ai ont mis au point une technique appelée IndexCache, capable d'accélérer jusqu'à 1,82 fois le temps de génération du premier token et d'augmenter de 1,48 fois le débit de génération pour des contextes de 200 000 tokens. Concrètement, IndexCache supprime jusqu'à 75 % des calculs redondants dans les modèles d'attention sparse, et s'applique aux architectures utilisant DeepSeek Sparse Attention (DSA), notamment les familles de modèles DeepSeek et GLM. Des tests préliminaires ont déjà été conduits sur GLM-5, un modèle de 744 milliards de paramètres, avec des résultats probants en conditions de production. Cette optimisation répond à un problème fondamental des grands modèles de langage : le mécanisme d'auto-attention, qui calcule les relations entre chaque token et tous les précédents, voit sa complexité computationnelle croître de façon quadratique avec la longueur du contexte. L'attention sparse — dont DSA est une implémentation efficace introduite avec DeepSeek-V3.2 — résout en partie ce problème en ne traitant qu'un sous-ensemble de tokens pertinents, réduisant la complexité de quadratique à linéaire. Mais les chercheurs ont identifié un goulot d'étranglement résiduel : le module d'indexation léger présent à chaque couche du modèle, chargé de sélectionner ces tokens importants, restait lui-même quadratique, ralentissant considérablement la phase de préfill lors du traitement initial du prompt. IndexCache s'attaque précisément à ce verrou en exploitant une propriété empirique : les couches adjacentes du transformer sélectionnent entre 70 % et 100 % des mêmes tokens. Le système désigne donc un petit nombre de couches "complètes" qui calculent et mettent en cache les indices de tokens, tandis que les couches "partagées" réutilisent simplement ces indices sans recalcul. Contrairement aux techniques classiques de compression du KV cache qui visent à réduire l'empreinte mémoire, IndexCache attaque directement le coût computationnel. L'enjeu est considérable pour les entreprises qui déploient des modèles à grande échelle. Le traitement de longs contextes — documents volumineux, workflows agentiques multi-étapes, raisonnements en chaîne de pensée étendue — représente aujourd'hui l'un des principaux freins économiques à l'adoption des LLM en production, où chaque milliseconde et chaque token coûtent. La course à l'efficacité de l'inférence s'est intensifiée ces derniers mois, avec des approches concurrentes comme la distillation de modèles, la quantification ou la compression du KV cache. IndexCache se positionne comme une technique orthogonale et complémentaire, exploitable sans modification de l'architecture de base. Avec DeepSeek déjà en pointe sur l'optimisation des coûts d'inférence et Z.ai directement impliqué dans ces travaux, la technique a de bonnes chances d'être intégrée rapidement dans les prochaines versions des modèles GLM et DeepSeek, élargissant la fenêtre de contexte praticable sans explosion des coûts.

UELes entreprises et laboratoires européens déployant des modèles DeepSeek ou GLM pourraient bénéficier de gains d'efficacité substantiels sur les inférences longues, réduisant les coûts opérationnels sans modification d'architecture.

RecherchePaper
1 source
3MarkTechPost 

TabPFN : comment l'apprentissage en contexte surpasse Random Forest et CatBoost sur les données tabulaires

TabPFN-2.5, un modèle de fondation pour données tabulaires développé par Prior Labs, s'impose comme un concurrent sérieux face aux références historiques du machine learning structuré que sont Random Forest, XGBoost et CatBoost. Contrairement à ces modèles entraînés spécifiquement sur chaque jeu de données, TabPFN est pré-entraîné sur des millions de tâches synthétiques générées à partir de processus causaux. Lors des tests comparatifs sur un jeu de données de classification binaire contenant 5 000 échantillons et 20 variables (dont 10 informatives et 5 redondantes), TabPFN surpasse les modèles à base d'arbres de décision en termes de précision tout en éliminant la phase d'entraînement itératif classique. Il obtient ses prédictions directement, sans ajustement des hyperparamètres, en s'appuyant uniquement sur ce qu'il a déjà appris. Ce changement de paradigme est significatif pour les praticiens du machine learning. Pendant des années, les modèles à arbres ont dominé les données tabulaires, la forme la plus répandue en entreprise, de la santé à la finance, car les réseaux de neurones profonds n'arrivaient pas à les battre de manière cohérente sur ce format. TabPFN-2.5 renverse cette tendance en appliquant le principe d'apprentissage en contexte aux données structurées, à l'image de ce que font les grands modèles de langage pour le texte. Il se montre compétitif face à des systèmes d'ensemble puissants comme AutoGluon, tout en réduisant drastiquement le temps et l'effort de mise en oeuvre. Pour les équipes data qui passent des heures à optimiser des pipelines ML, c'est une promesse concrète de gain de productivité. Les données tabulaires représentent la grande majorité des cas d'usage réels en machine learning industriel, un domaine longtemps considéré comme l'apanage des modèles classiques. L'essor des modèles de fondation généralistes, d'abord dans le langage, puis dans l'image, laissait entrevoir cette évolution vers le tabular, mais les tentatives précédentes restaient limitées en taille et en performance. TabPFN-2.5 franchit un cap en prenant en charge des jeux de données plus larges et plus complexes que ses versions antérieures. Prior Labs propose également une approche de distillation permettant de convertir les prédictions de TabPFN en modèles plus légers (réseaux de neurones ou ensembles d'arbres), préservant l'essentiel de la précision tout en accélérant l'inférence pour la production. La prochaine étape sera de valider ces résultats à grande échelle sur des benchmarks industriels diversifiés, mais la direction est claire : les modèles de fondation s'attaquent désormais au coeur du machine learning appliqué.

UEPrior Labs, entreprise allemande, porte cette avancée depuis l'UE, offrant aux équipes data européennes un outil réduisant significativement le temps de développement de pipelines ML sur données tabulaires.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
4VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic