BusinessNext INpact6sem· 2 min de lecture

☕️ Quand l’IA agentique coûte plus cher que de payer ses employés humains

Résumé IASource uniqueImpact UE Take éditorial

Les grandes entreprises technologiques font face à une équation économique qui commence à gripper sérieusement leurs ambitions d'IA : la facturation à l'usage des agents IA, calculée en tokens et non plus en abonnements forfaitaires, rend ces systèmes plus onéreux que les employés humains qu'ils sont censés remplacer ou assister. Le CTO d'Uber, Praveen Neppalli Naga, a reconnu avoir épuisé la totalité de son budget IA 2026 en seulement quatre mois. Bryan Catanzaro, vice-président en charge de l'apprentissage profond appliqué chez Nvidia, est encore plus direct : pour son équipe, le coût de la puissance de calcul dépasse désormais celui des salaires. Microsoft, après avoir encouragé en décembre dernier des milliers de ses développeurs à utiliser Claude Code d'Anthropic, vient d'annuler ces licences et les contraint à migrer vers GitHub Copilot CLI. Ce même GitHub Copilot, qui avait limité fin avril les nouveaux abonnements individuels, basculera en juin vers une facturation indexée sur la consommation réelle de tokens.

Cette pression économique a engendré un phénomène pervers baptisé « tokenmaxxing » : des employés génèrent artificiellement de l'activité IA pour gonfler leurs statistiques de consommation, moins pour produire du code utile que pour paraître surproductifs aux yeux de leur hiérarchie. Amazon a fixé comme objectif que 80 % de ses développeurs utilisent l'IA chaque semaine et suit leur consommation de tokens. Meta est allé plus loin encore, avec un tableau de bord interne attribuant le statut de « Token Legend » aux plus grands consommateurs. Ce que ces pratiques révèlent, c'est que les métriques de tokens sont devenues des indicateurs de performance managériale avant d'être des mesures de valeur créée.

La question de fond est structurelle : les modèles agentiques consomment beaucoup plus de tokens par tâche que les modèles classiques, et cette intensité ne sera pas compensée par la baisse des coûts unitaires. Un rapport Gartner estime que le coût d'inférence sur un LLM sophistiqué pourrait chuter de 90 % d'ici 2030, mais prévoit néanmoins que le coût total de l'IA continuera d'augmenter si la consommation progresse plus vite que la déflation tarifaire. Jensen Huang, PDG de Nvidia, imaginait récemment un futur où 100 agents IA travailleraient aux côtés de chaque employé humain de son entreprise, une vision qui semble économiquement intenable dans le modèle de facturation actuel. L'industrie se retrouve donc devant un choix structurant : soit les prix s'effondrent suffisamment vite, soit les entreprises doivent revoir radicalement leur usage de l'IA agentique, sous peine de financer des dépenses dont le retour reste difficile à démontrer.

Impact France/UE

Les entreprises européennes qui adoptent des agents IA à grande échelle sont exposées aux mêmes pressions économiques liées à la facturation à l'usage, remettant en question la viabilité budgétaire de leurs projets d'IA agentique.

💬 L'analyse de Mathieu

Uber qui épuise son budget IA en quatre mois, Nvidia qui dit que le compute dépasse les salaires : c'est pas un bug, c'est le modèle. Les agents consomment structurellement 10 à 100 fois plus de tokens qu'un chat classique, et aucune baisse de prix unitaire ne rattrapera ça avant 2-3 ans. Le tokenmaxxing chez Amazon et Meta, des gens qui gonflent leur conso pour paraître productifs sur un dashboard, c'est juste le signe qu'on a mis la mauvaise métrique au centre.

Dans nos dossiers

Agents IA Microsoft NVIDIA Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

Token, compute, dérive des usages : pourquoi l’IA peut coûter plus cher que vos équipes ?

Dans certaines entreprises, la facture mensuelle liée à l'intelligence artificielle dépasse désormais celle des salaires humains. C'est le constat documenté par Axios dans une enquête publiée fin avril 2026, qui révèle que le coût du traitement des requêtes IA excède, dans certains cas, celui des équipes en chair et en os. Bryan Catanzaro, responsable chez Nvidia, a confirmé le phénomène pour ses propres équipes. Le New York Times rapporte que certains utilisateurs intensifs atteignent plus de 150 000 dollars de dépenses mensuelles en tokens, certains ingénieurs dépensant davantage en usage d'IA qu'ils ne touchent en salaire. Chez Uber, des équipes utilisant des outils comme Claude Code ont déjà épuisé leur budget annuel d'IA bien avant la fin de l'exercice, selon The Information. Le phénomène a même un nom dans les milieux tech : le "tokenmaxxing", pratique où les ingénieurs maximisent délibérément leur consommation de tokens, parfois comme indicateur implicite de performance. Ce glissement remet en cause la promesse fondatrice de l'IA en entreprise : réduire les coûts grâce à l'automatisation. L'équation est plus complexe que prévu. Chaque requête envoyée à un modèle consomme des tokens facturés, et lorsque les agents s'exécutent en parallèle sans supervision directe, les volumes explosent. La structure de coût des entreprises se transforme en profondeur : les dépenses, autrefois fixes et prévisibles via les ressources humaines, deviennent variables, dépendantes de l'usage, et donc difficiles à piloter. Pour les organisations qui n'ont pas mis en place de garde-fous, la dérive peut être rapide. Chez Meta, l'utilisation de l'IA est désormais intégrée dans l'évaluation des performances des employés, ce qui pousse mécaniquement à une consommation accrue. Google et Microsoft adoptent des dynamiques similaires, une grande part du code produit étant déjà générée par des modèles. Cette situation profite directement aux fournisseurs de modèles. OpenAI et Anthropic bénéficient de la hausse de consommation, Anthropic ayant d'ailleurs relevé ses tarifs récemment. Les investisseurs parient sur la capacité des modèles les plus efficaces à capter davantage de clients en offrant un meilleur ratio performance-coût. Du côté des entreprises consommatrices, les réponses restent expérimentales. Jensen Huang, PDG de Nvidia, a évoqué l'idée de distribuer des quotas de tokens aux employés, à l'image d'une enveloppe salariale dédiée à l'IA, ce qui transformerait l'accès à la puissance de calcul en véritable avantage compétitif individuel. Le compute est en passe de devenir une ligne budgétaire stratégique aussi sensible que la masse salariale, obligeant les directions financières à repenser leur manière de gouverner ces outils avant que la facture ne devienne incontrôlable.

UELes entreprises européennes adoptant des agents IA à grande échelle sont exposées aux mêmes dérives budgétaires documentées aux États-Unis, sans cadre de gouvernance des coûts IA encore établi au niveau sectoriel ou réglementaire.

BusinessOpinion

1 source

2Next INpact

Chez Meta, l’IA coûte cher et les agents ne vont pas assez vite

Lors d'un town hall organisé jeudi 2 juillet chez Meta, deux discours contradictoires ont émergé sur l'état de l'intelligence artificielle du groupe. Mark Zuckerberg a reconnu que le développement des agents IA n'avançait pas au rythme espéré, admettant que « la trajectoire du développement agentique au cours des quatre derniers mois au moins ne s'est pas vraiment accélérée ». Cet aveu intervient après une réorganisation massive : 7 000 salariés ont été transférés vers les équipes IA, dans un climat de tension interne, et environ 10 % des effectifs du groupe ont été supprimés en début d'année. De son côté, Alexandr Wang, ancien patron de Scale AI et désormais à la tête du Meta Superintelligence Labs, a tenu un discours nettement plus optimiste. Il a annoncé qu'un nouveau modèle, nom de code « Watermelon », est en cours d'entraînement avec une puissance de calcul largement supérieure à celle d'« Avocado », le nom interne de Muse Spark, premier modèle maison après l'échec de Llama. Selon Wang, Watermelon viserait un niveau proche de GPT-5.5 d'OpenAI, qui dispose déjà en accès limité de GPT-5.6. Ce grand écart entre les deux dirigeants illustre les difficultés de Meta à transformer des investissements colossaux en résultats concrets. Le groupe a annoncé un budget compris entre 125 et 145 milliards de dollars cette année pour ses seules infrastructures IA, un pari financier immense qui repose sur l'hypothèse que les outils agentiques amélioreront rapidement la productivité interne et la compétitivité face à des concurrents comme Claude Code d'Anthropic. Or, si les agents ne progressent pas assez vite, c'est tout le calendrier de rentabilisation qui se trouve fragilisé, avec des conséquences directes pour les salariés déjà touchés par les licenciements et pour la crédibilité de Meta auprès des investisseurs, qui scrutent les six prochains mois annoncés par Zuckerberg comme délai pour voir des bénéfices tangibles. Cette pression explique aussi pourquoi Meta chercherait, selon une indiscrétion de Bloomberg, à diversifier ses sources de revenus en louant sa puissance de calcul à d'autres entreprises, se positionnant ainsi en concurrent d'AWS, Google Cloud et Microsoft Azure. L'idée serait de vendre l'accès à des modèles hébergés sur ses propres serveurs, dont Muse Spark, sur le modèle de Bedrock d'Amazon. Cette diversification traduit une volonté de rentabiliser une infrastructure de plus en plus coûteuse, pendant que Wang promet en parallèle une mise à jour majeure de Muse pour rapprocher ses capacités de programmation de celles de Claude Code, dans une course où Meta, malgré des moyens considérables et le recrutement de profils prestigieux via Scale AI, peine encore à démontrer une avance technologique nette sur ses rivaux.

💬 Zuckerberg qui admet en public que les agents n'accélèrent pas, chez Meta ça n'arrive jamais, c'est le signe que la pression interne devient intenable. Sur le papier, Wang promet Watermelon quasi au niveau de GPT-5.5 pendant que la boîte cherche à louer son calcul à la concurrence, ça ressemble plus à une couverture qu'à une stratégie claire. Le chiffre à retenir : Meta a six mois pour transformer 140 milliards de dollars d'infrastructure en résultats visibles, et si les agents ne suivent pas, c'est toute la crédibilité du pari IA du groupe qui saute.

BusinessActu

1 source

3The Decoder

GPT-5.5 coûte 49 à 92 % plus cher que son prédécesseur, selon la longueur des entrées

OpenAI a doublé le prix affiché de GPT-5.5 par rapport à GPT-5.4, justifiant cette hausse par la promesse que des réponses plus courtes compenseraient le surcoût pour les utilisateurs. Mais une analyse conduite par OpenRouter, plateforme d'agrégation de modèles de langage, révèle que la réalité est bien différente : en s'appuyant sur des données d'utilisation réelles, OpenRouter conclut que les coûts effectifs ont augmenté de 49 à 92 % selon la longueur des requêtes soumises au modèle. Cette hausse tarifaire a des conséquences directes pour les développeurs et les entreprises qui intègrent GPT-5.5 dans leurs applications via l'API d'OpenAI. Une augmentation pouvant frôler les 100 % sur certains usages représente un choc budgétaire significatif, en particulier pour les startups et les équipes traitant de gros volumes de requêtes. Le fait que l'écart entre le tarif officiel et le coût réel soit si prononcé soulève également des questions sur la transparence des grilles tarifaires publiées par OpenAI. Anthropic a, elle aussi, relevé le prix de son modèle haut de gamme Opus 4.7, confirmant une tendance de fond dans l'industrie. Les deux entreprises se préparent à une introduction en bourse, ce qui pourrait expliquer une stratégie visant à améliorer leur rentabilité à court terme. Alors que la concurrence entre les grands acteurs de l'IA reste intense, cette course à la hausse des prix suggère que la phase de conquête à prix coûtant laisse progressivement place à une logique de monétisation plus agressive.

UELes startups et développeurs européens intégrant GPT-5.5 ou Opus 4.7 via API subissent une hausse effective de 49 à 92 % de leurs coûts opérationnels, les contraignant à revoir leurs budgets ou à évaluer des alternatives open-source.

💬 La "promesse de réponses plus courtes qui compensent", c'était du flan. OpenRouter a sorti les vraies données d'utilisation : +49 à +92% sur les coûts réels selon la longueur des requêtes, loin de ce qu'annonce le tarif officiel. Entre les deux boîtes en pré-IPO qui remontent leurs marges simultanément, le signal est assez lisible.

BusinessOpinion

1 source

4VentureBeat AI

L'IA agentique en entreprise : les vrais coûts, risques de sécurité et enjeux culturels

Les entreprises qui déploient des agents IA en production se heurtent à trois obstacles concrets, selon Brian Gracely, directeur senior de la stratégie produit chez Red Hat, qui s'exprimait lors du récent événement AI Impact de VentureBeat. Beaucoup de dirigeants d'entreprise, influencés par les annonces spectaculaires du secteur, craignent d'avoir déjà pris un retard critique sur leurs concurrents en matière d'agents autonomes. Or cette inquiétude repose largement sur une idée fausse : les équipes progressent en réalité bien plus vite qu'elles ne l'anticipent une fois qu'elles se lancent dans le développement. Ce progrès rapide entraîne cependant un autre défi de taille. L'usage des agents IA génère des volumes de requêtes largement supérieurs à ceux de l'ère des chatbots, ce qui fait exploser les coûts et transforme leur gestion, autrefois une simple question technique, en sujet récurrent des conseils d'administration. Les entreprises prennent aussi conscience de leur dépendance à une poignée de fournisseurs de modèles. Selon Gracely, deux ou trois grands acteurs du marché reconnaissent déjà perdre de l'argent et cherchent à entrer en Bourse pour combler ce déficit, ce qui pousse les entreprises à explorer des alternatives leur donnant plus de contrôle sur leurs coûts et leur infrastructure. Le principal poste de surcoût identifié par Gracely tient à une habitude répandue : utiliser systématiquement le modèle le plus puissant disponible, quelle que soit la complexité réelle de la tâche. Pour résoudre une réclamation d'assurance, illustre-t-il, inutile de mobiliser un modèle capable de retracer l'histoire de la civilisation occidentale ou de connaître les résultats de la Coupe du monde de football. Le levier le plus rapide pour réduire les dépenses consiste donc à ajuster la taille du modèle à la tâche, via le routage sémantique : les requêtes sont automatiquement classées puis dirigées vers le modèle adapté, sans que l'utilisateur ait à choisir. Des techniques d'infrastructure comme la mise en cache des requêtes répétitives limitent en parallèle le recours effectif aux GPU. Ensemble, ces outils démontrent qu'efficacité et innovation ne sont pas mutuellement exclusives. Cette discipline financière autour de la consommation de tokens rappelle les pratiques FinOps qu'il a fallu des années pour affiner autour des dépenses de cloud computing, et les mêmes cadres méthodologiques devraient s'y transférer, même si le vocabulaire change. Gracely insiste sur la nécessité d'une pédagogie interne pour que les équipes financières comprennent ce qu'est un token, comme elles ont dû apprendre par le passé ce qu'était une instance EC2 ou un bucket S3, afin que les équipes cessent de recourir par défaut au modèle le plus prestigieux pour des tâches qui n'en ont pas besoin. Par ailleurs, la vitesse à laquelle les outils d'IA détectent aujourd'hui les vulnérabilités logicielles oblige les entreprises à repenser leurs cycles de gestion des correctifs, les procédures traditionnelles de patch management se révélant souvent trop lentes face à des menaces identifiées presque instantanément.

💬 Le vrai coût de l'IA agentique, c'est pas le modèle, c'est le réflexe de balancer le plus gros modèle sur tout, même une réclamation d'assurance. Le routage sémantique et le cache, c'est le FinOps du cloud qui recommence, sauf qu'il faut cette fois expliquer aux équipes finance ce qu'est un token. Selon Le Fil IA, les entreprises qui gagnent sur les agents IA ne sont pas celles qui ont le plus gros modèle, mais celles qui savent quand ne pas s'en servir.

BusinessOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic