Aller au contenu principal
Optimisation élégante des tokens
LLMsLatent Space6sem

Optimisation élégante des tokens

Résumé IASource uniqueImpact UE
Source originale ↗·
Optimisation élégante des tokens
▶ Voir sur YouTube

Google a profité de sa conférence Cloud Next, qui s'est tenue les 21 et 22 avril 2026, pour annoncer ses TPU v8, la huitième génération de ses puces d'entraînement et d'inférence. Les chiffres annoncés sont vertigineux et confirment l'avance matérielle accumulée par Google DeepMind après une décennie d'investissements massifs dans des infrastructures propriétaires. En parallèle, la conférence AI Engineer Miami a vu s'imposer un concept central dans les discussions entre dirigeants tech : le "tokenmaxxing", soit la volonté de maximiser l'usage de l'IA dans les équipes sans pour autant encourager le gaspillage ou la qualité médiocre. Mikhail Parakhin, directeur technique de Shopify, invité de la conférence, a apporté une nuance importante : il préconise d'aller en profondeur plutôt qu'en largeur, c'est-à-dire de lancer des boucles de recherche autonome séquentielles plutôt que de multiplier en parallèle des dizaines d'appels LLM sans cohérence. Dex Horthy, à l'origine du concept de "Context Engineering", a quant à lui publiquement rétracté ses positions les plus enthousiastes sur le vibe coding, encourageant désormais les développeurs à relire le code généré.

Ces débats ne sont pas qu'académiques : ils reflètent une tension réelle au sein des équipes engineering, entre vitesse de génération de code et dette technique. Pour les CTOs et VP d'ingénierie, la question devient comment calibrer l'autonomie accordée aux modèles sans dégrader la qualité architecturale des systèmes. Sur le front des modèles ouverts, plusieurs sorties majeures sont venues nourrir ce débat. Alibaba a publié Qwen3.6-27B, un modèle dense sous licence Apache 2.0 qui surpasse selon ses benchmarks le bien plus lourd Qwen3.5-397B-A17B sur les évaluations de code, dont SWE-bench Verified à 77,2 contre 76,2. Il intègre des modes pensée et non-pensée, un checkpoint multimodal unifié, et a été immédiatement supporté par vLLM, llama.cpp et Ollama. OpenAI a discrètement publié un "Privacy Filter", un modèle MoE léger de 1,5 milliard de paramètres actifs à 50 millions, dédié à la détection et masquage de données personnelles sur de très larges corpus, sous licence Apache 2.0. Xiaomi a de son côté annoncé MiMo-V2.5-Pro, un modèle orienté agents avec 57,2 sur SWE-bench Pro et une capacité déclarée à effectuer plus de 1 000 appels d'outils autonomes.

Ces annonces s'inscrivent dans une dynamique où la course aux modèles ouverts s'intensifie, portée par des acteurs comme Alibaba, Xiaomi et OpenAI lui-même, qui cèdent des briques spécialisées à la communauté. L'événement AI Engineer Miami, dont la prochaine édition se tiendra à Singapour, est devenu un baromètre de ce que l'industrie considère comme les vrais problèmes opérationnels : qualité du code généré, gestion de la vie privée dans les pipelines d'agents, et arbitrage entre quantité et profondeur d'utilisation des LLM. Les TPU v8 de Google rappellent que derrière ces débats de méthode, la compétition infrastructure reste déterminante pour qui peut entraîner et servir les modèles les plus puissants à grande échelle.

Impact France/UE

Les modèles publiés sous licence Apache 2.0 (Qwen3.6-27B, OpenAI Privacy Filter) permettent aux équipes techniques européennes un déploiement local compatible avec les exigences RGPD pour la gestion des données personnelles dans les pipelines d'agents.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L'optimisation des hyperparamètres sur Amazon Nova Forge
1AWS ML Blog 

L'optimisation des hyperparamètres sur Amazon Nova Forge

Amazon a publié un guide technique détaillé sur l'optimisation des hyperparamètres dans Nova Forge, son service cloud dédié à la personnalisation de modèles de langage à grande échelle. Nova Forge permet aux entreprises de partir de points de contrôle anticipés des modèles Amazon Nova, de les entraîner sur leurs données propriétaires tout en les mélangeant à des jeux de données soigneusement sélectionnés par Amazon, et d'héberger les modèles résultants de façon sécurisée sur AWS. Le processus repose sur trois leviers principaux : le taux d'apprentissage, le ratio de mélange des données, la sélection du point de contrôle et les techniques d'entraînement. Selon Amazon, mal calibrer l'un de ces paramètres suffit à compromettre silencieusement toute une campagne d'entraînement, parfois très coûteuse en ressources de calcul. L'enjeu central est ce que les chercheurs appellent l'oubli catastrophique : lorsqu'un modèle est entraîné intensivement sur des données d'un domaine étroit, il tend à écraser les capacités générales acquises lors du pré-entraînement, comme le raisonnement, le suivi d'instructions ou la gestion de conversations multi-tours. Un modèle de service client affiné sur des tickets de support peut ainsi perdre sa capacité à traiter des requêtes ambiguës. Pour contrecarrer ce phénomène, Nova Forge s'appuie sur le mélange de données, qui intègre des corpus Amazon curatés aux données propriétaires pendant l'entraînement, et sur la sélection de point de contrôle, qui permet de doser la quantité d'alignement général conservée. Le taux d'apprentissage reste le paramètre le plus sensible : trop élevé, il déstabilise l'entraînement ou provoque un oubli rapide des capacités de base ; trop bas, il gaspille du calcul en convergeant très lentement. Nova Forge s'inscrit dans une dynamique plus large de démocratisation des modèles frontières propriétaires. Plutôt que de laisser les entreprises se limiter à du fine-tuning superficiel, le service leur permet d'accéder à des checkpoints précoces des modèles Nova et d'y injecter leur propre connaissance métier dès les premières couches d'entraînement. Ce positionnement concurrence directement les offres similaires d'OpenAI, Google et Mistral, qui proposent eux aussi des voies de personnalisation profonde pour les grandes entreprises. La publication de ce guide signale une volonté d'Amazon de réduire le taux d'échec des projets de personnalisation, souvent abandonnés faute de maîtrise des interactions entre hyperparamètres. Les prochaines étapes pour Nova Forge pourraient inclure des outils automatisés de recherche d'hyperparamètres, déjà expérimentés dans d'autres plateformes MLOps, afin de réduire encore la charge d'expertise requise.

LLMsActu
1 source
Qu'est-ce que la dérive de tokenisation et comment y remédier ?
2MarkTechPost 

Qu'est-ce que la dérive de tokenisation et comment y remédier ?

Un modèle de langage peut produire des résultats parfaits à un instant donné, puis se dégrader sans que rien n'ait changé dans les données ou le code. La cause, souvent invisible, se trouve dans la tokenisation : avant tout traitement, un modèle convertit le texte en identifiants numériques appelés tokens, et de minuscules variations de formatage, un espace en début de mot, un saut de ligne, une ponctuation différente, peuvent générer des séquences de tokens entièrement distinctes. Ce phénomène porte un nom : la dérive de tokenisation, ou tokenization drift. Une démonstration concrète avec le tokeniseur GPT-2 (le même schéma Byte-Pair Encoding utilisé par GPT-4, LLaMA et Mistral) l'illustre parfaitement : aucune des sept paires de mots testés, "classify" avec ou sans espace initial, ne produit le même identifiant de token. Mieux encore, " classify" avec espace est encodé en un seul token (36509), tandis que "classify" sans espace devient deux tokens distincts (4871 et 1958). Le modèle ne voit pas seulement un identifiant différent : il reçoit une séquence de longueur différente, ce qui modifie le calcul de l'attention sur l'ensemble du contexte suivant. L'impact dépasse la simple curiosité technique. Lors du fine-tuning par instructions, les modèles apprennent non seulement des tâches, mais aussi la structure dans laquelle ces tâches leur sont présentées : séparateurs spécifiques, préfixes, motifs de formatage. Quand un prompt s'écarte de ces schémas appris, le modèle ne se retrouve plus dans sa distribution familière. Le résultat n'est pas une erreur franche mais quelque chose de plus insidieux : un modèle qui fait de son mieux sur des entrées qu'il n'a jamais été optimisé à traiter. Pour les équipes en production, cela signifie des régressions inexpliquées, des comportements non reproductibles entre environnements, et des bugs difficiles à diagnostiquer car aucun composant visible n'a changé. La solution proposée passe par une boucle légère d'optimisation des prompts : mesurer la dérive entre formats alternatifs via une métrique de distance dans l'espace des tokens, puis sélectionner le format qui maintient les entrées dans la distribution la plus stable. Cette approche s'appuie sur des outils accessibles, NumPy, scikit-learn pour une réduction PCA, seaborn pour la visualisation, et ne nécessite aucun ré-entraînement du modèle. Le sujet s'inscrit dans une réflexion plus large sur la fragilité des systèmes LLM face à des variations superficielles : la robustesse d'un pipeline d'IA ne dépend pas seulement de la qualité du modèle ou des données, mais aussi de la cohérence avec laquelle les entrées sont formatées à chaque étape, de la conception du prompt jusqu'au déploiement en production.

LLMsTuto
1 source
RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA
3Le Big Data 

RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA

La Retrieval-Augmented Generation, ou RAG, est une architecture technique qui associe un modèle de langage à une base documentaire externe, permettant à l'intelligence artificielle de consulter des informations précises avant de formuler une réponse. Concrètement, le processus se déroule en trois temps : les documents de l'entreprise sont d'abord découpés en fragments, puis convertis en représentations mathématiques appelées embeddings, qui transforment le sens d'une phrase en coordonnées numériques. Lorsqu'un utilisateur pose une question, sa requête est elle aussi encodée de cette façon, puis comparée aux vecteurs stockés pour identifier les passages les plus pertinents. Ces extraits sont ensuite injectés dans le prompt envoyé au modèle, qui rédige sa réponse à partir d'un contexte documenté et vérifiable. Contrairement à une recherche par mots-clés classique, le système reconnaît deux phrases sémantiquement proches même si elles n'ont pas de termes en commun. L'intérêt pour les entreprises est considérable. Les modèles de langage traditionnels fonctionnent uniquement à partir de leur corpus d'entraînement : toute information absente ou modifiée depuis génère inévitablement des erreurs, ce que les praticiens appellent les "hallucinations". Le RAG court-circuite ce problème en dotant l'IA d'une mémoire externe dynamique, mise à jour en temps réel. Un service client peut ainsi déployer un assistant conversationnel capable de consulter les procédures internes à jour avant chaque réponse, sans que les données quittent le périmètre de l'organisation. Pour des secteurs manipulant des documents sensibles, comme le juridique, la conformité ou l'ingénierie, cette architecture représente la différence entre un outil expérimental et un outil déployable en production. Le RAG s'est imposé comme l'une des réponses les plus pragmatiques aux limites structurelles des LLM depuis que ces modèles ont commencé à être déployés en entreprise à grande échelle. Les géants du cloud, d'AWS à Microsoft Azure en passant par Google Cloud, proposent désormais des services RAG managés, tandis qu'une constellation de startups comme Pinecone, Weaviate ou Qdrant se sont spécialisées dans les bases vectorielles qui en constituent le socle technique. La question qui reste ouverte est celle de la mise à l'échelle : indexer des dizaines de milliers de documents internes, maintenir la cohérence des embeddings lors des mises à jour, et gérer la latence de récupération sont des défis d'ingénierie non triviaux. Les prochaines évolutions du RAG s'orientent vers des architectures hybrides combinant recherche vectorielle et recherche structurée, ainsi que vers des systèmes capables de raisonner sur plusieurs documents simultanément plutôt que de simplement les concaténer.

LLMsTuto
1 source
Les techniques de distillation des LLM expliquées
4MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour