Aller au contenu principal
La fin du finetuning
LLMsLatent Space6sem· 2 min de lecture

La fin du finetuning

Source originale ↗·

OpenAI vient d'annoncer la dépréciation de ses API de fine-tuning, marquant un tournant symbolique pour une pratique qui fut longtemps présentée comme un pilier de l'ingénierie IA. Pendant des années, OpenAI se distinguait des grands laboratoires précisément par ce support, et d'innombrables ingénieurs vantaient la promesse d'obtenir "des performances d'o1 à prix de 4o" grâce à cette technique. La décision s'inscrit dans ce que certains observateurs appellent déjà le "massacre des side quests 2026", après l'abandon de Sora. En parallèle, Anthropic se préparerait à lever des fonds à une valorisation supérieure à celle d'OpenAI pour la première fois de son histoire, signal d'un possible renversement de hiérarchie dans le secteur. Les données de veille de cette édition couvrent la période du 11 au 12 mai 2026, avec analyse de 12 subreddits et 544 comptes Twitter.

La fin du fine-tuning chez OpenAI ne signifie pas la mort de la pratique, mais elle révèle une fracture entre les usages mainstream et les acteurs de pointe. Pour 80% de l'industrie, le glissement vers les longs prompts et le prompt engineering était déjà en cours, comme Jeremy Howard l'avait anticipé dès 2023. En revanche, des entreprises comme Cursor ou Cognition, dont la levée de fonds à 25 milliards de dollars est désormais publique, ont au contraire augmenté leur recours au fine-tuning sur modèles ouverts via RLFT. Cette divergence illustre une réalité nouvelle : le fine-tuning devient une technique de haute spécialisation, réservée aux équipes disposant de l'infrastructure et des données nécessaires, tandis que le grand public se tourne vers des modèles de base de plus en plus puissants, guidés par des prompts sophistiqués comme la "Constitution" d'Anthropic.

Sur le front de la recherche, les benchmarks continuent leur course vers davantage de difficulté. Soohak propose 439 problèmes mathématiques de niveau recherche, rédigés par 64 mathématiciens dont 38 enseignants-chercheurs, expressément conçus pour dépasser les olympiades classiques. Google DeepMind présente son AI Co-Mathematician, un agent de recherche asynchrone atteignant 48% sur FrontierMath Tier 4, capable de vérification formelle de théorèmes et de découverte bibliographique. GPT-5.5 aurait résolu la première tâche du ProgramBench, surpassant Opus 4.7 sur plusieurs métriques. Côté retrieval, LightOn démontre qu'un modèle de 149 millions de paramètres, Agent-ModernColBERT, peut rivaliser avec des systèmes bien plus imposants sur BrowseComp-Plus. L'ère où plus grand rimait systématiquement avec meilleur semble s'effriter, tant pour les modèles de production que pour les outils de recherche.

Impact France/UE

LightOn, entreprise française, démontre qu'un modèle de 149M paramètres (Agent-ModernColBERT) rivalise avec des systèmes bien plus imposants sur BrowseComp-Plus, illustrant la compétitivité de l'écosystème IA européen face aux géants américains.

💬 L'analyse de Mathieu

OpenAI déprécie le fine-tuning, et les seuls vraiment surpris sont ceux qui y croyaient encore pour faire du budget. Les vrais utilisateurs, Cursor, Cognition, les boîtes qui font du vrai travail sur modèles, avaient déjà migré vers le fine-tuning sur open source il y a un an. C'est moins la fin d'une technique que l'aveu qu'OpenAI n'était plus le bon endroit pour la pratiquer.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

La forme des choses
1One Useful Thing 

La forme des choses

En octobre 2023, le chercheur Ethan Mollick spéculait sur la forme que prendrait l'intelligence artificielle dans les années à venir. Depuis fin 2025, cette forme est devenue nettement visible : nous sommes entrés dans une nouvelle ère, celle des agents IA autonomes. Des systèmes comme Claude Code, Codex d'OpenAI ou OpenClaw permettent désormais de confier à une IA plusieurs heures de travail humain et d'en recevoir des résultats utiles en quelques minutes. Ce n'est plus de la co-intelligence — où l'humain guide l'IA pas à pas — mais bien une relation de management : on délègue, on supervise, on récupère. Ce changement de paradigme découle directement de l'amélioration exponentielle des capacités des modèles sur les dernières années. Pour illustrer cette progression, Mollick s'appuie sur plusieurs benchmarks majeurs. Le Google-Proof Q&A — test de connaissance où des étudiants en doctorat utilisant Google n'atteignent que 34 % hors de leur domaine et 70 % dedans — est désormais résolu à 94 % par les meilleurs modèles. Sur GDPval, qui mesure les performances de l'IA face à des experts humains expérimentés sur des tâches complexes, les derniers systèmes égalent ou dépassent les humains les plus performants dans 82 % des cas. Le benchmark METR Long Tasks, qui évalue la capacité d'une IA à accomplir de manière autonome et fiable du travail humain, affiche la même courbe ascendante. Même chose pour Humanity's Last Exam, conçu par des professeurs d'université pour résister aux systèmes automatisés. La génération vidéo suit le même chemin : un modèle de ByteDance, encore non disponible aux États-Unis, a produit en une seule passe un mini-documentaire quasi parfait sur des loutres, avec expressions faciales animées et narration cohérente. Ces avancées s'inscrivent dans une dynamique plus large qui redéfinit la relation entre l'humain et la machine. Depuis le lancement de ChatGPT en 2022, la progression a été rapide et continue, sans signe de ralentissement visible avant que les modèles n'atteignent le plafond des tests. Mollick reconnaît que l'IA reste « irrégulière » — excellente sur certaines tâches, défaillante sur d'autres — et que malgré ces capacités impressionnantes, la majorité des organisations n'a pas encore substantiellement changé ses pratiques. Mais ce statu quo ne devrait pas durer : à mesure que les agents autonomes deviennent plus fiables et accessibles, la pression sur les entreprises pour adapter leurs modèles de travail va s'intensifier. La question n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais à quelle vitesse les organisations sauront s'en saisir.

LLMsPaper
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
2MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
OpenAI : « d’ici la fin 2026, on se moquera des IA actuelles comme GPT-5.4 »
3Le Big Data 

OpenAI : « d’ici la fin 2026, on se moquera des IA actuelles comme GPT-5.4 »

Brad Lightcap, directeur des opérations d'OpenAI, a déclaré début avril 2026 que les modèles d'IA actuels, y compris GPT-5.4, paraîtront dépassés d'ici la fin de l'année. Cette affirmation intervient alors que GPT-5.4, lancé il y a quelques jours à peine, affiche déjà un rythme de revenus annualisé d'un milliard de dollars et traite environ 5 000 milliards de tokens par jour. En l'espace de quelques semaines, OpenAI a enchaîné les versions GPT-5.1, 5.2, 5.3 puis 5.4, chacune apportant des gains significatifs sans attendre les longs cycles de recherche et de déploiement qui caractérisaient autrefois le secteur. GPT-5.4 s'est imposé comme le moteur principal des API d'OpenAI presque instantanément, et intègre une capacité nouvelle : le modèle décide lui-même s'il doit raisonner en profondeur ou répondre directement, sans que l'utilisateur ait à choisir un mode particulier. Des améliorations concrètes sont déjà visibles en écriture, en génération de code et dans des secteurs exigeants comme la santé. Ce rythme d'itération inédit transforme en profondeur la manière dont les entreprises et les développeurs adoptent l'IA. Un modèle sorti depuis quelques jours peut déjà devenir dominant à l'échelle mondiale, ce qui compresse les cycles d'adoption et rend obsolètes les intégrations à peine finalisées. Pour les équipes techniques qui s'appuient sur les API d'OpenAI, cela signifie une mise à jour permanente des pratiques et des outils. Le phénomène fonctionne comme un effet boule de neige : plus un modèle est performant, plus il est adopté dans des usages critiques comme le développement logiciel ou l'analyse de données, ce qui génère des revenus permettant de financer le cycle suivant encore plus vite. La barre de ce qui constitue un outil "avancé" se déplace en permanence, rendant les standards d'aujourd'hui potentiellement minimaux demain. Cette dynamique s'inscrit dans une évolution structurelle du secteur. Pendant des années, les progrès en IA se mesuraient en recherche académique publiée et en grands modèles sortis annuellement. Depuis GPT-4, puis o1, puis la série GPT-5, OpenAI a progressivement réduit la durée des cycles d'entraînement et de déploiement. La déclaration de Lightcap marque une accélération supplémentaire : les améliorations ne sont plus linéaires mais exponentielles, chaque génération servant de base accélérée à la suivante. Si cette projection se confirme, les concurrents — Google DeepMind, Anthropic, Meta — devront soutenir un rythme similaire pour rester compétitifs, ce qui soulève des questions sur les ressources de calcul nécessaires et sur la capacité des organisations à intégrer des outils qui évoluent plus vite qu'elles ne peuvent se les approprier.

UELes équipes techniques européennes utilisant les API OpenAI doivent adapter en permanence leurs intégrations face à un rythme d'itération qui rend obsolètes les outils à peine déployés.

LLMsOpinion
1 source
Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI
4Latent Space 

Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI

Lors de la conférence Microsoft Build des 1er et 2 juin 2026, Satya Nadella et Mustafa Suleyman ont annoncé le lancement de sept nouveaux modèles d'intelligence artificielle sous la bannière MAI, la division IA interne de Microsoft. La famille comprend MAI-Thinking-1, le modèle phare de raisonnement, ainsi que MAI-Code-1-Flash pour la génération de code, MAI-Image-2.5 pour la vision, MAI-Transcribe-1.5 pour la transcription vocale et MAI-Voice-2 pour la synthèse vocale. MAI-Thinking-1 est une architecture MoE (Mixture of Experts) de 35 milliards de paramètres actifs, avec une fenêtre de contexte de 256 000 tokens, pré-entraîné sur 30 000 milliards de tokens grâce à 8 192 GPU GB200. Le modèle atteint 97 % sur le benchmark AIME 2025 et 53 % sur SWE-Bench Pro. Microsoft a également publié un rapport technique de 109 pages détaillant son architecture, saluée par la communauté de recherche pour son niveau de transparence inhabituel. Ces annonces marquent une étape significative pour Microsoft, qui se positionne désormais non plus seulement comme plateforme IA mais comme laboratoire de frontier models à part entière. Le fait que MAI-Thinking-1 ait été entraîné sans distillation à partir de modèles tiers, contrairement à de nombreux modèles concurrents, lui confère une crédibilité technique particulière. Des évaluateurs humains indépendants sur la plateforme Surge ont préféré ce modèle à Claude Sonnet 4.6 d'Anthropic dans des tests en aveugle. Pour les entreprises, cette offre ouvre la voie à des fine-tuning spécialisés dans des domaines précis, un créneau que les laboratoires frontier comme OpenAI ou Google ont progressivement abandonné. L'annonce de Web IQ, une nouvelle couche API de recherche et d'ancrage pour agents IA que Microsoft revendique déjà au cœur de "presque tous les agents et chatbots de l'industrie, y compris Copilot et ChatGPT", renforce cette ambition de devenir l'infrastructure invisible de l'IA d'entreprise. Microsoft AI, anciennement connue sous le nom d'Inflection AI après son rachat en 2024, n'existe que depuis deux ans sous cette forme. Le fait qu'elle produise des modèles entraînés de zéro à ce niveau de performance illustre la rapidité de montée en puissance possible avec des ressources computationnelles massives. Build 2026 a également mis en avant GitHub Copilot repositionné comme environnement de développement natif pour agents, une nouvelle Surface RTX Spark Dev Box, et des projets hardware conceptuels comme Solara et Scout. Mustafa Suleyman a décrit Microsoft comme une "machine à escalader des collines", ce qui traduit une stratégie d'amélioration continue et méthodique plutôt que des percées spectaculaires. La prochaine étape sera de voir si MAI-Thinking-1 tient ses promesses dans des déploiements réels, et si Microsoft parvient à convaincre l'écosystème de développeurs de s'appuyer sur ses modèles plutôt que ceux d'OpenAI, dont il reste paradoxalement l'un des principaux investisseurs.

UELes entreprises européennes sur Azure peuvent accéder aux modèles MAI et à l'API Web IQ pour leurs agents IA, réduisant potentiellement leur dépendance aux modèles OpenAI.

💬 MAI-Thinking-1 entraîné de zéro, sans distillation depuis OpenAI ou quiconque, c'est la vraie nouveauté de Build 2026. Ça donne une crédibilité technique que peu s'attendaient à voir en deux ans d'existence. Reste à savoir si les devs vont faire confiance aux MAI plutôt qu'à OpenAI, sachant que Microsoft finance les deux en même temps.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic