Aller au contenu principal
LLMsThe Decoder6sem

Les LLM excellent en code et en maths mais peinent sur les questions triviales, et ce n'est pas contradictoire

Résumé IASource uniqueImpact UE
Source originale ↗·

Les grands modèles de langage (LLM) affichent des performances remarquables sur les tâches structurées : ils peuvent remanier des bases de code entières en quelques heures, résoudre des problèmes mathématiques complexes et obtenir des scores proches de l'humain sur les benchmarks académiques les plus exigeants. Pourtant, ces mêmes modèles trébuchent régulièrement sur des questions anodines du quotidien, des situations qui ne requièrent aucune expertise technique mais simplement du bon sens et une compréhension souple du langage naturel informel.

Ce paradoxe apparent n'en est pas un : il révèle une limite structurelle des architectures actuelles. Les LLM excellent dans les domaines où les données d'entraînement sont abondantes, formatées et codifiées, comme le code source ou les démonstrations mathématiques. En revanche, le langage courant est ambigu, chargé de sous-entendus culturels et de contexte implicite, des dimensions que les modèles reproduisent statistiquement sans les comprendre véritablement. Le fossé entre performance sur benchmark et utilité réelle dans la vie quotidienne reste donc considérable.

Ce constat alimente un débat central dans la recherche en IA : les capacités impressionnantes des LLM sur des tâches spécialisées sont-elles le signe d'une intelligence générale émergente, ou simplement le reflet d'une mémorisation sophistiquée de patterns ? Pour les équipes qui développent des assistants grand public chez OpenAI, Google ou Anthropic, combler cet écart entre compétence technique et intelligence conversationnelle ordinaire constitue l'un des défis prioritaires des prochaines années.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Combien de tokens me reste-t-il ? La question que Claude n’arrivera peut-être jamais à résoudre
1Numerama 

Combien de tokens me reste-t-il ? La question que Claude n’arrivera peut-être jamais à résoudre

Anthropic fait face depuis plusieurs semaines à des tensions croissantes autour de la gestion des quotas de tokens de Claude, son assistant IA. Les limites d'utilisation, qui déterminent combien de messages un utilisateur peut envoyer avant d'être temporairement bloqué, sont devenues imprévisibles : certains abonnés payants se retrouvent bridés sans avertissement clair, incapables de savoir combien de capacité il leur reste. L'entreprise américaine a reconnu le problème et procède à des ajustements à chaud, sans pour autant fournir de calendrier précis pour une solution pérenne. Le problème touche en priorité les utilisateurs professionnels et les développeurs qui intègrent Claude dans leurs flux de travail quotidiens. Pour eux, une limite opaque n'est pas un simple désagrément : c'est une rupture de service qui bloque des projets, force des migrations vers des alternatives et érode la confiance dans la plateforme. L'impossibilité de mesurer sa consommation en temps réel empêche toute planification, ce qui tranche avec les standards attendus d'un outil B2B. Cette situation illustre la tension structurelle à laquelle Anthropic est confrontée : le succès fulgurant de Claude dépasse la capacité d'infrastructure de l'entreprise à absorber la demande sans frictions. Anthropic, qui a levé plusieurs milliards de dollars ces dernières années, investit massivement dans ses capacités de calcul, mais la montée en charge reste un défi en temps réel. Dans un secteur où OpenAI, Google et Meta se disputent les mêmes utilisateurs, chaque friction devient un argument commercial pour la concurrence.

UELes abonnés et développeurs européens intégrant Claude dans leurs flux de travail sont directement affectés par ces limitations opaques, sans visibilité sur leur consommation ni calendrier de résolution annoncé.

LLMsOpinion
1 source
Qu'est-ce que la dérive de tokenisation et comment y remédier ?
2MarkTechPost 

Qu'est-ce que la dérive de tokenisation et comment y remédier ?

Un modèle de langage peut produire des résultats parfaits à un instant donné, puis se dégrader sans que rien n'ait changé dans les données ou le code. La cause, souvent invisible, se trouve dans la tokenisation : avant tout traitement, un modèle convertit le texte en identifiants numériques appelés tokens, et de minuscules variations de formatage, un espace en début de mot, un saut de ligne, une ponctuation différente, peuvent générer des séquences de tokens entièrement distinctes. Ce phénomène porte un nom : la dérive de tokenisation, ou tokenization drift. Une démonstration concrète avec le tokeniseur GPT-2 (le même schéma Byte-Pair Encoding utilisé par GPT-4, LLaMA et Mistral) l'illustre parfaitement : aucune des sept paires de mots testés, "classify" avec ou sans espace initial, ne produit le même identifiant de token. Mieux encore, " classify" avec espace est encodé en un seul token (36509), tandis que "classify" sans espace devient deux tokens distincts (4871 et 1958). Le modèle ne voit pas seulement un identifiant différent : il reçoit une séquence de longueur différente, ce qui modifie le calcul de l'attention sur l'ensemble du contexte suivant. L'impact dépasse la simple curiosité technique. Lors du fine-tuning par instructions, les modèles apprennent non seulement des tâches, mais aussi la structure dans laquelle ces tâches leur sont présentées : séparateurs spécifiques, préfixes, motifs de formatage. Quand un prompt s'écarte de ces schémas appris, le modèle ne se retrouve plus dans sa distribution familière. Le résultat n'est pas une erreur franche mais quelque chose de plus insidieux : un modèle qui fait de son mieux sur des entrées qu'il n'a jamais été optimisé à traiter. Pour les équipes en production, cela signifie des régressions inexpliquées, des comportements non reproductibles entre environnements, et des bugs difficiles à diagnostiquer car aucun composant visible n'a changé. La solution proposée passe par une boucle légère d'optimisation des prompts : mesurer la dérive entre formats alternatifs via une métrique de distance dans l'espace des tokens, puis sélectionner le format qui maintient les entrées dans la distribution la plus stable. Cette approche s'appuie sur des outils accessibles, NumPy, scikit-learn pour une réduction PCA, seaborn pour la visualisation, et ne nécessite aucun ré-entraînement du modèle. Le sujet s'inscrit dans une réflexion plus large sur la fragilité des systèmes LLM face à des variations superficielles : la robustesse d'un pipeline d'IA ne dépend pas seulement de la qualité du modèle ou des données, mais aussi de la cohérence avec laquelle les entrées sont formatées à chaque étape, de la conception du prompt jusqu'au déploiement en production.

LLMsTuto
1 source
Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code
3Numerama 

Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code

Anthropic a maladroitement rendu accessible au public le code source de Claude Code, son assistant de programmation destiné aux développeurs. Des chercheurs et internautes curieux ont rapidement épluché les fichiers exposés, y décelant plusieurs projets internes jusqu'alors inconnus. Parmi les découvertes les plus frappantes : un système de « mémoire infinie » permettant à Claude de retenir des informations sur le long terme, un mécanisme de traitement en arrière-plan baptisé « rêves nocturnes », un mode « Master Claude » suggérant une hiérarchie entre instances du modèle, un suivi des états émotionnels comme la frustration — et, plus surprenant encore, un concept de Tamagotchi impliquant une forme de présence persistante et évolutive de l'IA. Cette fuite involontaire offre une fenêtre rare sur la feuille de route d'Anthropic, révélant des ambitions qui vont bien au-delà d'un simple assistant de code. La notion de mémoire persistante et d'états internes rappelle les débats en cours sur les agents autonomes : des modèles capables de maintenir une continuité entre les sessions, de mémoriser le contexte d'un projet sur des semaines, voire de développer une forme de « personnalité » stable. Ces fonctionnalités, si elles aboutissent, changeraient fondamentalement la relation entre un développeur et son outil IA. Anthropic se positionne depuis sa fondation en 2021 comme un acteur de l'IA « sûre et responsable », face à OpenAI et Google. Claude Code, lancé pour concurrencer GitHub Copilot et Cursor, est au cœur de cette stratégie commerciale. La fuite survient dans un contexte de compétition acharnée entre les grands labs, où chaque avancée technique est jalousement gardée. L'entreprise n'a pas encore commenté publiquement l'étendue exacte de l'exposition, ni confirmé le calendrier de déploiement de ces fonctionnalités.

LLMsActu
1 source
Comprendre la fenêtre de contexte : limites et solutions techniques des LLM
4Le Big Data 

Comprendre la fenêtre de contexte : limites et solutions techniques des LLM

La fenêtre de contexte est la limite fondamentale qui détermine ce qu'un modèle d'intelligence artificielle peut "garder en tête" lors d'une conversation ou d'une analyse de document. Concrètement, tout ce que le modèle traite en une seule fois, qu'il s'agisse de la question posée, de l'historique des échanges, des instructions système et de la réponse en cours de génération, doit tenir dans cet espace mesuré en tokens, des unités linguistiques représentant en moyenne trois quarts de mot. Sur une fenêtre de 2 000 tokens, un texte de 900 mots consomme déjà environ 1 200 tokens en entrée, ne laissant que 800 tokens pour la réponse avant que le modèle ne s'arrête net. Les premiers modèles géraient environ 2 000 tokens, soit 1 500 mots. Aujourd'hui, certains systèmes atteignent 1 million de tokens, l'équivalent d'un roman entier, mais chaque gain décuple les besoins matériels. Cette contrainte a des conséquences directes et mesurables sur la qualité des réponses. L'architecture Transformer, utilisée par tous les grands modèles actuels, calcule les relations entre chaque paire de tokens selon une complexité quadratique O(n²) : 1 000 tokens génèrent un million de connexions, et la mémoire GPU explose rapidement. Résultat : au-delà d'un certain seuil, le modèle perd les informations placées en début de contexte, répète des idées ou invente des faits, phénomène connu sous le nom d'hallucination. Le test "needle-in-haystack", qui consiste à vérifier si un modèle retrouve une information précise noyée dans un long texte, révèle 30 % d'échecs au-delà de 500 000 tokens. Les coûts ne sont pas négligeables non plus : traiter 1 million de tokens coûte environ dix centimes, sans compter les risques de sécurité, car un prompt malveillant placé en début de contexte peut manipuler le comportement du modèle sur toute la durée d'un long document. Pour contourner ces limites, plusieurs approches techniques ont émergé. Le KV-cache, qui mémorise les calculs d'attention déjà effectués plutôt que de les recalculer à chaque nouveau token généré, peut représenter jusqu'à 100 Go de mémoire temporaire mais accélère considérablement la génération. D'autres architectures cherchent à remplacer ou compléter l'attention quadratique par des mécanismes linéaires ou par de la mémoire externe, permettant de traiter des documents bien au-delà des capacités actuelles sans explosion des coûts. L'enjeu est industriel et stratégique : les cas d'usage les plus lucratifs, analyse juridique, recherche médicale, assistance sur des bases de code entières, nécessitent précisément de maintenir la cohérence sur de très longues séquences. La course aux grandes fenêtres de contexte est donc moins une question de prouesse technique que de viabilité économique pour des applications professionnelles à grande échelle.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour