La dette de prompts, de récupération et…

54

1VentureBeat AI

L'IA en entreprise entre dans une zone d'incertitude d'évaluation : les agents gagnent en autonomie plus vite que les entreprises ne peuvent les vérifier

Les entreprises qui déploient des agents IA en production accordent de plus en plus d'autonomie à ces systèmes, au moment même où leur confiance dans les méthodes d'évaluation automatisées s'effondre. Selon l'enquête VB Pulse menée en juin 2026 auprès de 157 répondants qualifiés dans des entreprises de plus de 100 salariés, la moitié d'entre elles ont déjà déployé un agent ou une fonctionnalité basée sur un LLM qui avait pourtant réussi ses évaluations internes, avant de provoquer un incident visible par les clients. Un quart des entreprises concernées ont connu ce type d'échec plus d'une fois. L'échantillon, auto-sélectionné, ne constitue pas un sondage probabiliste et doit être lu comme une tendance plutôt qu'une mesure exacte. Malgré cela, les entreprises ne ralentissent pas l'automatisation : 66% des répondants autorisent déjà certains déploiements en production sans supervision humaine, ou construisent des systèmes destinés à le permettre dans les douze prochains mois. Seuls 5% affirment faire pleinement confiance aux évaluations automatisées censées justifier ces décisions de mise en production. Les raisons de cette défiance sont précises : 29% pointent un mauvais alignement entre les scores obtenus et les résultats réels observés en production, 21% évoquent des biais ou des incohérences, 18% un manque d'explicabilité, et 17% des risques de fuite de données ou de confidentialité. Ce décalage, que les analystes appellent le fossé d'évaluation, illustre un problème structurel : contrairement aux logiciels traditionnels testés sur des entrées et sorties définies, un agent choisit sa propre séquence d'actions, appelle des outils, modifie des états et peut réagir différemment d'une exécution à l'autre. Il peut ainsi récupérer le bon compte client mais modifier le mauvais champ, rédiger une demande de remboursement valide mais l'envoyer sans validation, ou réussir cinq appels d'outils avant qu'un sixième ne divulgue des données sensibles. Pour les entreprises, l'enjeu dépasse la vitesse des tests : c'est la fiabilité même des scores qui est en cause. Ce constat rejoint les recommandations du NIST, qui appelle à des tests en conditions réelles et à une surveillance post-déploiement, car le comportement d'un modèle varie selon les invites, les utilisateurs et le contexte. Cette problématique doit être au cœur des discussions lors de la conférence VB Transform 2026, où sera défendue l'idée que les entreprises déploient d'abord leurs agents, avant que les couches de contrôle telles que la gestion des identités, l'évaluation, le suivi des coûts et l'orchestration ne suivent. L'année à venir s'annonce donc comme un cycle de rattrapage, avec des budgets réorientés vers les outils de gouvernance. Les orientations d'Anthropic sur l'évaluation des agents insistent sur une distinction essentielle entre réussir une fois et réussir systématiquement, ce qui pousse les équipes à traiter la répétabilité comme une métrique de premier plan, en testant les mêmes scénarios plusieurs fois, en faisant varier les formulations et en intégrant chaque incident de production comme un nouveau test de non-régression.

💬 Bon, là on touche au vrai problème de 2026. Une IA qui réussit ses évals internes puis fait n'importe quoi en prod, c'est plus l'exception, c'est la norme, et le pire c'est que 66% des boîtes accélèrent quand même vers le sans-supervision. Si je dois retenir une phrase : on est en train de généraliser l'autonomie des agents plus vite qu'on sait la mesurer, et ça va finir par coûter cher à quelqu'un.

BusinessActu

1 source

L'IA en entreprise : un défi que le code seul ne résout pas

37

2VentureBeat AI

L'IA en entreprise : un défi que le code seul ne résout pas

Selon Michael Ameling, directeur produit de la plateforme technologique SAP Business Technology Platform, 81% des organisations disposent d'une stratégie détaillée en matière d'intelligence artificielle, mais seulement 12 à 16% d'entre elles parviennent effectivement à une exécution pilotée par l'IA. Le problème ne vient presque jamais de la qualité du code généré par les outils d'IA. Les entreprises qui ont investi massivement dans ces technologies se heurtent à un mur lorsque ce code doit fonctionner dans leurs environnements existants, car générer du code et le rendre opérationnel sont deux problèmes distincts. Pour les grandes entreprises, notamment les multinationales clientes de SAP dont certains systèmes tournent depuis dix ou vingt ans, le code doit répondre à des exigences strictes de conformité, de sécurité et de maintenabilité sur le long terme, des contraintes que la gestion du cycle de vie logiciel ne résout pas d'elle-même. Ce constat a des implications concrètes pour l'industrie. Les équipes développent des prototypes convaincants, puis découvrent qu'elles n'ont pas accès aux données nécessaires, aux intégrations requises ou aux permissions pour faire tourner leur solution en conditions réelles. L'IA amplifie la maturité existante d'une organisation en matière de données et de processus, mais elle ne peut pas s'y substituer. Ce défi s'intensifie à mesure que l'IA passe de la simple production de code à l'exécution autonome d'actions: la latence, les coûts et la charge système augmentent fortement lorsque des agents fonctionnent en continu sur des données en direct plutôt que de produire un résultat ponctuel. Les exigences de performance d'un agent autonome opérant sur les systèmes transactionnels d'une multinationale n'ont rien à voir avec celles d'un simple copilote de développement. Le véritable défi architectural, souvent sous-estimé, est celui de l'intégration dans des environnements hétérogènes combinant cloud, infrastructures legacy sur site et applications métier jamais conçues pour communiquer entre elles. Selon Ameling, la modernisation des systèmes reste indispensable, mais c'est justement l'IA qui en démultiplie la valeur: l'accès fédéré aux données et l'harmonisation des processus ne sont pas des alternatives à la mise à niveau d'un paysage informatique fragmenté, ils en sont la condition de rentabilité. Pour répondre à ces besoins, SAP mise sur sa Business AI Platform, qui regroupe des outils comme Joule Studio, l'Integration Suite, le Business Data Cloud et le SAP AI Agent Hub, afin de donner à la logique générée par l'IA une connaissance précise et à jour des systèmes d'entreprise sur lesquels elle doit s'exécuter.

UESAP, editeur europeen majeur base en Allemagne, compte de nombreuses entreprises francaises et europeennes parmi ses clients concernes par ces defis d'execution de l'IA en entreprise.

💬 Bon, sur le papier 81% des boîtes ont une stratégie IA, mais 12 à 16% seulement passent à l'exécution, ça dit tout. Le code généré, c'est jamais le problème: le mur, c'est les accès aux données, les intégrations, les permissions sur des systèmes qui tournent depuis vingt ans. Retiens celle-là: l'IA n'invente pas la maturité data d'une boîte, elle se contente de l'amplifier, en bien comme en mal.

BusinessActu

1 source

L'IA agentique en entreprise : les vrais coûts, risques de sécurité et enjeux culturels

45

3VentureBeat AI

L'IA agentique en entreprise : les vrais coûts, risques de sécurité et enjeux culturels

Les entreprises qui déploient des agents IA en production se heurtent à trois obstacles concrets, selon Brian Gracely, directeur senior de la stratégie produit chez Red Hat, qui s'exprimait lors du récent événement AI Impact de VentureBeat. Beaucoup de dirigeants d'entreprise, influencés par les annonces spectaculaires du secteur, craignent d'avoir déjà pris un retard critique sur leurs concurrents en matière d'agents autonomes. Or cette inquiétude repose largement sur une idée fausse : les équipes progressent en réalité bien plus vite qu'elles ne l'anticipent une fois qu'elles se lancent dans le développement. Ce progrès rapide entraîne cependant un autre défi de taille. L'usage des agents IA génère des volumes de requêtes largement supérieurs à ceux de l'ère des chatbots, ce qui fait exploser les coûts et transforme leur gestion, autrefois une simple question technique, en sujet récurrent des conseils d'administration. Les entreprises prennent aussi conscience de leur dépendance à une poignée de fournisseurs de modèles. Selon Gracely, deux ou trois grands acteurs du marché reconnaissent déjà perdre de l'argent et cherchent à entrer en Bourse pour combler ce déficit, ce qui pousse les entreprises à explorer des alternatives leur donnant plus de contrôle sur leurs coûts et leur infrastructure. Le principal poste de surcoût identifié par Gracely tient à une habitude répandue : utiliser systématiquement le modèle le plus puissant disponible, quelle que soit la complexité réelle de la tâche. Pour résoudre une réclamation d'assurance, illustre-t-il, inutile de mobiliser un modèle capable de retracer l'histoire de la civilisation occidentale ou de connaître les résultats de la Coupe du monde de football. Le levier le plus rapide pour réduire les dépenses consiste donc à ajuster la taille du modèle à la tâche, via le routage sémantique : les requêtes sont automatiquement classées puis dirigées vers le modèle adapté, sans que l'utilisateur ait à choisir. Des techniques d'infrastructure comme la mise en cache des requêtes répétitives limitent en parallèle le recours effectif aux GPU. Ensemble, ces outils démontrent qu'efficacité et innovation ne sont pas mutuellement exclusives. Cette discipline financière autour de la consommation de tokens rappelle les pratiques FinOps qu'il a fallu des années pour affiner autour des dépenses de cloud computing, et les mêmes cadres méthodologiques devraient s'y transférer, même si le vocabulaire change. Gracely insiste sur la nécessité d'une pédagogie interne pour que les équipes financières comprennent ce qu'est un token, comme elles ont dû apprendre par le passé ce qu'était une instance EC2 ou un bucket S3, afin que les équipes cessent de recourir par défaut au modèle le plus prestigieux pour des tâches qui n'en ont pas besoin. Par ailleurs, la vitesse à laquelle les outils d'IA détectent aujourd'hui les vulnérabilités logicielles oblige les entreprises à repenser leurs cycles de gestion des correctifs, les procédures traditionnelles de patch management se révélant souvent trop lentes face à des menaces identifiées presque instantanément.

💬 Le vrai coût de l'IA agentique, c'est pas le modèle, c'est le réflexe de balancer le plus gros modèle sur tout, même une réclamation d'assurance. Le routage sémantique et le cache, c'est le FinOps du cloud qui recommence, sauf qu'il faut cette fois expliquer aux équipes finance ce qu'est un token. Selon Le Fil IA, les entreprises qui gagnent sur les agents IA ne sont pas celles qui ont le plus gros modèle, mais celles qui savent quand ne pas s'en servir.

BusinessOpinion

1 source

La prochaine phase de l'IA en entreprise concerne les décisions, pas les expérimentations

38

4The Information AI

La prochaine phase de l'IA en entreprise concerne les décisions, pas les expérimentations

Lors de la conférence Milken Institute Global Conference de cette année, les échanges sur l'IA en entreprise ont changé de nature. La question posée par les dirigeants n'était plus de savoir si l'IA allait rapporter, mais comment. Beaucoup ont moins insisté sur la démonstration du retour sur investissement que sur le positionnement de leur entreprise pour le capter. Cette tension entre les capacités de l'IA et la capacité des organisations à suivre le rythme est apparue partout, des tables rondes à un dîner privé coorganisé par Bianca Anghelina, fondatrice et PDG d'Aily Labs, et Cory Weinberg de The Information. Des fonds de private equity ont annoncé une vague de coentreprises avec des laboratoires d'IA de pointe au moment même où s'ouvrait Milken, une manière opportune de justifier des valorisations élevées, même si les questions les plus difficiles sur l'emploi restaient largement sans réponse. L'analogie historique revenue sans cesse dans la bouche des dirigeants: la délocalisation. Comme elle avant elle, l'IA redessine le travail dans la santé, la finance, l'assurance et le service client, avec des gains à court terme plus incrémentaux que transformateurs. Pete Stavros, de KKR, l'a dit sans détour: les bénéfices dans son portefeuille ont progressé d'environ 5%, loin des 50% que suggèrent les gros titres. Martín Escobari, de General Atlantic, s'est montré plus optimiste, estimant que la technologie est prête à automatiser la majorité du travail de bureau, et que ce qui manque, c'est la priorisation et la diffusion. Lors du dîner, les dirigeants qui décrivaient des succès avec l'IA partageaient un même réflexe: la considérer comme une couche de décision transversale à l'entreprise, plutôt que comme une collection d'outils isolés. Un exemple est venu de la certification de pierres précieuses: après le rachat d'IGI par Blackstone, des systèmes de détection d'images pilotés par IA sont utilisés pour identifier les diamants de synthèse, avec une précision d'environ 95%, surpassant les évaluateurs humains sur certaines tâches de classification. Des dirigeants du secteur de la santé ont décrit un recours croissant aux grands modèles de langage pour interpréter des analyses sanguines, faire émerger des diagnostics possibles et alimenter les échanges sur la prévention. C'est précisément ce que construit Aily Labs, présentée comme la première plateforme d'intelligence décisionnelle nativement pilotée par l'IA pour les grandes entreprises, conçue pour faire passer les groupes du Fortune 500 de données fragmentées à un impact mesurable sur le compte de résultat en moins de deux semaines. La plateforme d'Aily orchestre des agents IA autonomes qui ne se contentent pas de faire remonter des informations: ils exécutent des décisions, avec des effets qui remontent jusqu'au chiffre d'affaires et au résultat net, dans la finance, la chaîne d'approvisionnement, la R&D et les opérations commerciales. L'objectif, selon Anghelina, est de donner à chaque niveau de l'organisation la même intelligence en temps réel et la capacité d'agir dessus. La distinction entre une IA qui signale un problème et une IA qui agit est revenue à plusieurs reprises: pour Anghelina, c'est précisément là que la plupart des déploiements en entreprise s'enlisent, un système repère un problème de stock puis laisse un humain reprendre la main. L'agent de gestion des stocks d'Aily va plus loin en remontant à la cause racine d'un sur ou sous-stockage et en agissant de façon autonome pour limiter les dégâts avant qu'ils n'affectent le résultat. Dans un déploiement chez un client du Fortune 500, cela s'est traduit par 685 millions de dollars de valeur d'inventaire débloquée. Un des constats marquants du dîner porte sur l'écart entre l'usage de l'IA par les dirigeants et celui du reste de leurs organisations. Plusieurs cadres ont décrit l'IA comme un collaborateur permanent, capable de synthétiser l'ensemble du compte de résultat, de stress-tester des décisions et d'accélérer des travaux qui prenaient auparavant plusieurs jours. Anghelina a été directe sur ce que révèle cet écart: la question n'est plus de savoir si l'IA a sa place dans les conseils d'administration, mais pourquoi elle y reste cantonnée. L'objectif, selon elle, ne se limite pas à améliorer les informations dont dispose la direction, il s'agit de bâtir une source unique d'intelligence en temps réel à partir de laquelle chaque salarié, du PDG jusqu'au terrain, doit pouvoir opérer. Mais la réalité est très différente quelques étages plus bas, où une large part de la main-d'œuvre reste au tout début de la courbe d'adoption, un décalage qui illustre bien l'ampleur du chantier qui attend encore la plupart des entreprises.

💬 Le vrai chiffre à retenir c'est les 5% de Pete Stavros, pas les 50% des gros titres. Ça confirme ce que je répète depuis des mois: l'IA en entreprise avance par frictions et cas d'usage précis (le tri de diamants, les stocks débloqués à 685 millions), pas par grand soir automatisé. Et l'écart qu'Anghelina pointe, entre des dirigeants qui traitent déjà l'IA comme un collègue et des équipes qui n'ont pas encore commencé, c'est le vrai goulot d'étranglement des deux prochaines années, bien avant la question des capacités du modèle.

BusinessActu

1 source

La dette de prompts, de récupération et d'évaluation redéfinit discrètement le risque de l'IA en entreprise

À lire aussi

L'IA en entreprise entre dans une zone d'incertitude d'évaluation : les agents gagnent en autonomie plus vite que les entreprises ne peuvent les vérifier

L'IA en entreprise : un défi que le code seul ne résout pas

L'IA agentique en entreprise : les vrais coûts, risques de sécurité et enjeux culturels

La prochaine phase de l'IA en entreprise concerne les décisions, pas les expérimentations