Aller au contenu principal
#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6
LLMsNext INpact6sem· 2 min de lecture

#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6

Source originale ↗·

Depuis le lancement d'Opus 4.7, de nombreux utilisateurs d'Anthropic constatent que leur forfait de tokens s'épuise nettement plus vite qu'avec la version précédente du modèle. Les tarifs affichés sont pourtant identiques : 5 dollars par million de tokens en entrée et 25 dollars par million en sortie, exactement comme pour Opus 4.6. Mais Anthropic reconnaît lui-même qu'une même requête peut consommer entre 1,0 et 1,35 fois plus de tokens avec Opus 4.7, selon le type de contenu, en raison d'un nouveau tokeniseur intégré au modèle. À cela s'ajoute un comportement de raisonnement plus intensif : Opus 4.7 génère davantage de tokens de sortie lorsqu'il fait face à des tâches complexes, car il mobilise un effort cognitif plus soutenu. Des tests comparatifs sur des prompts simples ont mis en évidence une consommation supérieure de 41 % par rapport à Opus 4.6. Claude Code, l'outil de développement assisté d'Anthropic, était particulièrement touché, avant qu'Anthropic n'intervienne pour réduire la verbosité des réponses.

Cette sur-consommation a des conséquences financières directes et non négligeables pour les développeurs et les entreprises qui utilisent l'API à grande échelle. À usage identique, le coût réel d'Opus 4.7 dépasse celui d'Opus 4.6 malgré un tarif affiché identique, ce qui brouille la lisibilité budgétaire pour les équipes techniques. Pour les abonnés aux forfaits à volume fixe, c'est une érosion accélérée des quotas mensuels, parfois sans modification de leurs pratiques d'utilisation. Le problème touche aussi bien les développeurs indépendants que les équipes professionnelles intégrant Claude dans des pipelines automatisés.

Ce décalage entre prix nominal et coût réel illustre une tension croissante dans l'industrie des LLM : les modèles deviennent plus capables, mais leur économie d'usage se complexifie. Le passage à un nouveau tokeniseur, décision technique invisible pour l'utilisateur final, peut bouleverser les budgets sans que les grilles tarifaires ne changent d'un centime. Anthropic a partiellement corrigé le tir en limitant la longueur des réponses, mais la question de la transparence sur le coût effectif des tokens reste ouverte, d'autant que les prochaines versions de Claude continueront probablement d'évoluer dans cette direction de raisonnement étendu.

Impact France/UE

Les développeurs et entreprises européens utilisant l'API Claude d'Anthropic subissent une hausse de coût réel de 20 à 41% sans modification du tarif affiché, dégradant la prévisibilité budgétaire des équipes techniques intégrant Claude dans des pipelines automatisés.

💬 L'analyse de Mathieu

41% de tokens en plus sur des prompts simples, avec un tarif affiché inchangé, c'est une hausse de prix déguisée. Le nouveau tokeniseur d'Opus 4.7 est une décision technique totalement invisible pour l'utilisateur, mais elle peut faire sauter des budgets entiers sans que personne n'ait changé la moindre ligne de code. Bonne chance pour l'expliquer à ton DAF.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?
1Le Big Data 

Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?

Anthropic a lancé Claude Opus 4.8 le 28 mai 2026, seulement 41 jours après la version 4.7, un rythme inhabituel dans un secteur où les nouvelles versions majeures nécessitent généralement plusieurs mois. Disponible au même prix que son prédécesseur, ce modèle affiche des progrès mesurables sur plusieurs benchmarks clés : 84 % sur Online-Mind2Web, qui évalue les interactions autonomes avec des interfaces numériques, et des gains notables sur Terminal-Bench 2.1, dédié à la programmation en ligne de commande. Plus frappant encore, les évaluations internes d'Anthropic indiquent que le modèle est environ quatre fois moins susceptible de laisser passer des erreurs dans son propre code qu'Opus 4.7. Sur le plan fonctionnel, les utilisateurs de Claude AI ont désormais accès à cinq niveaux de raisonnement ajustables, tandis que Claude Code intègre les Dynamic Workflows, permettant de planifier des tâches complexes en mobilisant plusieurs sous-agents en parallèle sur de larges bases de code. Ce qui distingue Opus 4.8 ne réside pas uniquement dans les scores, mais dans un changement de philosophie profond : le modèle a été conçu pour mieux reconnaître ses propres limites et signaler ses incertitudes plutôt que de produire des réponses erronées avec assurance. Dans un contexte professionnel où une IA trop confiante peut induire en erreur des équipes entières, cette prudence constitue une valeur ajoutée concrète. Pour les développeurs qui utilisent Claude Code dans des pipelines agentiques, la réduction des erreurs non détectées et la capacité à orchestrer des sous-agents en parallèle ouvrent des cas d'usage jusqu'ici trop risqués pour être déployés en production. Le gain d'efficacité est également tangible : le modèle atteint des résultats équivalents en moins d'étapes intermédiaires, ce qui réduit les coûts d'inférence sur les longues tâches. Cette version s'inscrit dans une période de concurrence intense entre Anthropic, OpenAI et Google, où chaque éditeur cherche à dominer le segment des agents autonomes. La version 4.7 avait suscité des critiques sur ses comportements imprévisibles et sa tendance à l'excès de confiance, des défauts qui nuisaient à l'adoption en entreprise. En répondant directement à ces reproches en moins de six semaines, Anthropic signale qu'il est capable d'itérer aussi vite que ses rivaux sans sacrifier la fiabilité. La question qui demeure ouverte est celle de la durabilité de ce rythme : à 41 jours par version, l'entreprise devra démontrer que la qualité peut tenir la cadence.

UELes équipes de développement européennes utilisant Claude Code dans des pipelines agentiques bénéficient des améliorations de fiabilité et de la réduction des coûts d'inférence, sans impact réglementaire ou institutionnel spécifique à la France ou l'UE.

💬 41 jours entre deux versions majeures, c'est du jamais vu chez Anthropic. Ce qui compte vraiment là-dedans, c'est pas les scores (on peut faire dire ce qu'on veut aux benchmarks), c'est que le modèle est maintenant conçu pour signaler ses incertitudes plutôt que d'affirmer des erreurs avec aplomb, et en pipeline agentique, c'est la différence entre un outil qu'on ose déployer en prod et un truc qu'on surveille en permanence. Reste à voir si ce rythme tient dans 3 mois.

LLMsOpinion
1 source
2The Decoder 

Premiers tests : Opus 4.7 coûte nettement plus cher que 4.6 malgré les tarifs identiques d'Anthropic

Anthropic a maintenu les tarifs d'Opus 4.7 au même niveau que ceux de son prédécesseur Opus 4.6, avec un prix identique par token. Pourtant, les premières mesures réelles effectuées par des utilisateurs de Claude Code révèlent que chaque requête revient en pratique bien plus cher. La raison : un nouveau tokenizer intégré à Opus 4.7 qui décompose le même texte en jusqu'à 47 % de tokens supplémentaires. Autrement dit, un prompt identique génère désormais un volume de tokens sensiblement plus élevé, ce qui fait mécaniquement grimper la facture à chaque appel à l'API. Pour les développeurs qui utilisent Claude Code de manière intensive, l'impact est immédiat et concret. Sans aucune modification de leurs usages ni de leurs prompts, leurs coûts opérationnels augmentent de façon significative, potentiellement de l'ordre de 30 à 47 % selon les cas. Cette hausse déguisée contourne la communication officielle sur les prix et complique la planification budgétaire des équipes techniques qui s'appuient sur l'API d'Anthropic. Ce phénomène illustre une tension croissante dans l'industrie des LLM : les annonces tarifaires en prix par token masquent souvent des évolutions architecturales qui modifient profondément le coût réel d'utilisation. Anthropic n'est pas la première entreprise à opérer ce type de changement discret via une mise à jour de tokenizer. La publication de ces mesures par la communauté Claude Code devrait pousser Anthropic à clarifier sa communication, alors que la concurrence entre OpenAI, Google et les acteurs open source s'intensifie sur le terrain des prix.

UELes développeurs européens utilisant l'API Claude doivent anticiper une hausse réelle de leurs coûts opérationnels de 30 à 47 % lors du passage à Opus 4.7, sans que les tarifs officiels publiés par Anthropic n'en fassent mention.

💬 Le tarif par token n'a pas bougé, mais le nouveau tokenizer d'Opus 4.7 découpe le même texte en jusqu'à 47 % de morceaux de plus. Résultat : une facture en hausse de 30 à 47 % sans que la page de pricing d'Anthropic en souffle mot. C'est le genre de truc qu'on découvre en prod, pas dans un communiqué.

LLMsActu
1 source
Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres
3VentureBeat AI 

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres

Le 27 avril 2026, un développeur utilisant le pseudonyme @arb8020 sur X a mis au jour un passage pour le moins étrange dans le dépôt GitHub open source de Codex, l'outil de codage d'OpenAI. Dans un fichier nommé models.json, une directive répétée quatre fois concernant GPT-5.5 ordonnait au modèle de ne jamais parler de "gobelins, gnomes, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures" sauf si le sujet était "absolument et sans ambiguïté pertinent" pour la requête de l'utilisateur. La publication est devenue virale en quelques heures sur Reddit et X, suscitant une vague de spéculations : des utilisateurs rapportaient que GPT-5.5 qualifiait spontanément les bugs techniques de "gremlins", ou que certains agents basés sur le modèle semblaient "obsédés par les gobelins", comme l'a illustré Barron Roth, Senior Project Manager chez Google, avec une capture d'écran de son agent OpenClaw. Sam Altman lui-même a rejoint la discussion, publiant avec humour une capture d'un prompt demandant de "lancer l'entraînement de GPT-6 avec des gobelins supplémentaires". Cette affaire dépasse le simple anecdote. Elle met en lumière les limites encore mal comprises du Reinforcement Learning from Human Feedback (RLHF), la technique centrale qui permet d'aligner les grands modèles de langage sur les préférences humaines. Comme l'ont noté des chercheurs sur Hacker News, il s'agit d'un "problème de l'éléphant rose" : interdire explicitement à un modèle de penser à quelque chose peut paradoxalement renforcer la saillance de ce concept dans son mécanisme d'attention. Pour une entreprise valorisée à plus de 300 milliards de dollars et dont les modèles sont utilisés par des millions de professionnels, voir une directive aussi surprenante s'infiltrer en production souligne à quel point le comportement émergent des LLMs reste difficile à contrôler, même avec des équipes de pointe. OpenAI a répondu dès le lendemain avec un billet de blog officiel intitulé "Where the goblins came from", apportant une explication technique. La cause n'est pas un bug classique, mais un effet de bord inattendu de la fonctionnalité de personnalisation introduite dans ChatGPT en juillet 2025. Contrairement à ce que l'on pourrait supposer, cette personnalisation (modes Professionnel, Amical, Efficace, Candide, etc.) n'est pas appliquée après l'entraînement du modèle, mais intégrée directement dans le pipeline d'entraînement de bout en bout des modèles GPT. C'est précisément cette intégration profonde qui a produit des comportements non anticipés, forçant l'équipe à ajouter des instructions correctives explicites dans le fichier de configuration. L'incident illustre un défi structurel pour tout le secteur : plus les modèles sont personnalisables et entraînés de manière holistique, plus les interactions entre objectifs distincts deviennent imprévisibles.

UELes développeurs et entreprises européens utilisant GPT-5.5 peuvent être exposés à des comportements émergents imprévus, mais l'impact reste indirect et mondial sans spécificité France/UE.

LLMsOpinion
1 source
Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée
4VentureBeat AI 

Alibaba lance Qwen3.7-Plus : texte, vidéo et images pour 0,4 $/1,6 $ par million de tokens, mais en source fermée

Alibaba a lancé cette semaine Qwen3.7-Plus, son dernier grand modèle de langage multimodal, capable de traiter simultanément du texte, des vidéos et des images. Le modèle est proposé à 0,40 dollar par million de tokens en entrée et 1,60 dollar en sortie, soit 60 % moins cher que son prédécesseur Qwen3.7-Max, sorti quelques semaines plus tôt mais limité au texte seul. Avec une fenêtre de contexte d'un million de tokens et jusqu'à 256 000 tokens dédiés au raisonnement interne, Qwen3.7-Plus cible explicitement les usages agentiques complexes, comme la migration de bases de code ou l'analyse automatisée de documents visuels. Le modèle intègre aussi un paramètre API baptisé "preservethinking", qui conserve les blocs de raisonnement internes entre les tours de conversation, évitant à l'agent de perdre le fil de sa logique au milieu d'une tâche longue. La rupture la plus notable n'est pas technique : Qwen3.7-Plus est distribué sous licence commerciale fermée, uniquement via l'API Alibaba Cloud et le service Qwen Chat. C'est un virage stratégique majeur pour un groupe qui avait construit sa réputation internationale sur la publication de modèles open source puissants, proches de l'état de l'art. Des entreprises comme Airbnb s'appuyaient justement sur ces modèles en accès libre. Pour les développeurs et organisations qui avaient intégré l'open source Qwen dans leurs infrastructures, ce changement de cap impose soit de migrer vers l'API payante d'Alibaba, soit de se tourner vers un concurrent. Sur le plan tarifaire, Qwen3.7-Plus reste compétitif face à des modèles comme MiniMax-M3 (0,30/1,20 dollar) ou Gemini 3.1 Flash-Lite de Google (0,25/1,50 dollar), mais il est dépassé en prix bas par DeepSeek-V4-Flash (0,14/0,28 dollar). Ce lancement s'inscrit dans une dynamique de consolidation des stratégies de monétisation chez les grands labos chinois. Après avoir inondé le marché de modèles open source pour gagner en adoption et en réputation, Alibaba suit une trajectoire similaire à celle d'OpenAI ou Anthropic : garder les modèles les plus capables derrière un accès payant. La fonctionnalité "preservethinking" avait déjà été introduite avec la génération Qwen 3.6, sur les modèles open weight Qwen3.6-27B et le Max propriétaire, signe que la stratégie de différenciation entre open et closed s'élabore depuis plusieurs mois. Avec la course aux modèles multimodaux et agentiques qui s'accélère, l'enjeu pour Alibaba est de ne pas perdre les développeurs séduits par l'ouverture, tout en capturant les revenus que seule une offre cloud fermée peut générer à grande échelle.

UELes développeurs et organisations européennes ayant intégré les modèles Qwen open source dans leurs infrastructures devront migrer vers l'API payante d'Alibaba Cloud ou se tourner vers des alternatives, représentant une contrainte opérationnelle et potentiellement financière concrète.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic