Aller au contenu principal
Resolve AI veut corriger les dégâts causés par le boom du code IA sur les systèmes en production
OutilsVentureBeat AI6sem· 2 min de lecture

Resolve AI veut corriger les dégâts causés par le boom du code IA sur les systèmes en production

Source originale ↗·

Resolve AI, la startup spécialisée dans la gestion des incidents de production, a annoncé une refonte majeure de sa plateforme. Soutenue par les fonds Greylock et Lightspeed Venture Partners, la société déploie désormais un système d'enquête multi-agents développé par son laboratoire de recherche interne. Concrètement, au lieu d'envoyer un seul agent IA diagnostiquer une panne en production, la plateforme mobilise maintenant une équipe d'agents spécialisés qui explorent plusieurs hypothèses en parallèle, vérifient mutuellement leurs conclusions et reconstituent la chaîne causale complète, de la cause racine jusqu'aux symptômes visibles. Selon Spiros Xanthos, PDG et co-fondateur, ce changement architectural a permis de doubler la précision dans l'identification des causes racines sur les benchmarks internes de l'entreprise. Ces évaluations, construites à partir de centaines de cas complexes inspirés d'incidents réels rencontrés chez des clients comme Coinbase, Salesforce, DoorDash et Zscaler, sont conçues pour refléter la difficulté des pannes en environnement de production à grande échelle. L'annonce intervient quelques mois après la levée de série A de 125 millions de dollars qui avait valorisé Resolve AI à 1 milliard de dollars en début d'année.

L'enjeu opérationnel est considérable. Les agents de Resolve AI jouent désormais le rôle de premiers répondants pour chaque alerte d'astreinte, effectuant un premier tri en moins de cinq minutes, avant même qu'un ingénieur humain n'ait ouvert son ordinateur. Xanthos rappelle que le délai de résolution moyen va habituellement de plusieurs dizaines de minutes à plusieurs heures selon la gravité de l'incident. DoorDash affirme avoir réduit ce délai jusqu'à 87 % grâce à la plateforme, soit une accélération de quatre à cinq fois par rapport à la situation antérieure. Un gain concret et direct pour les équipes d'ingénierie, qui subissent une pression croissante depuis que la génération de code assistée par IA leur permet de livrer beaucoup plus de logiciels qu'il y a deux ans.

C'est précisément ce paradoxe que Resolve AI cherche à résoudre. L'adoption des outils de génération de code IA a explosé, mais la face opérationnelle du cycle de vie logiciel, le débogage, la surveillance post-déploiement, l'audit de santé des systèmes, reste largement manuelle. La startup fait le pari que ce côté de l'équation constitue le prochain grand terrain d'investissement pour l'IA. Un défi technique de taille subsiste néanmoins : les grands modèles de langage peuvent produire des diagnostics plausibles mais erronés, risquant d'envoyer une équipe corriger la mauvaise cause pendant qu'une panne persiste. Pour y répondre, Resolve AI mise précisément sur la vérification croisée entre agents, chaque conclusion devant être confirmée indépendamment avant d'être soumise aux ingénieurs humains.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI 

Une enquête révèle que 43 % du code généré par IA nécessite des corrections en production

Selon une enquête menée auprès de 200 responsables senior en fiabilité des systèmes et DevOps dans de grandes entreprises américaines, britanniques et européennes, 43 % des modifications de code générées par l'IA nécessitent un débogage manuel en production, même après avoir passé les tests d'assurance qualité et de staging. Ces chiffres sont tirés du rapport 2026 State of AI-Powered Engineering de Lightrun, publié en avant-première par VentureBeat. Aucun des répondants n'a indiqué pouvoir valider un correctif suggéré par l'IA en un seul cycle de redéploiement : 88 % en nécessitent deux à trois, et 11 % entre quatre et six. Fait marquant, zéro pourcent des responsables ingénierie se disent « très confiants » dans le bon comportement du code IA une fois en production. Ces résultats ont des conséquences concrètes et immédiates pour l'industrie. En mars 2026, Amazon a subi deux pannes majeures directement liées à des modifications de code assistées par IA déployées sans validation appropriée : le 2 mars, une interruption de six heures a causé 120 000 commandes perdues et 1,6 million d'erreurs sur le site ; le 5 mars, une panne encore plus sévère a provoqué une chute de 99 % du volume de commandes aux États-Unis, soit environ 6,3 millions de commandes annulées. Amazon a réagi en lançant une réinitialisation de sécurité sur 90 jours couvrant 335 systèmes critiques, et toute modification de code assistée par IA doit désormais être approuvée par un ingénieur senior avant déploiement. Pour Or Maimon, directeur commercial de Lightrun, ces incidents illustrent une réalité que les données confirment : « nos processus de validation ont été conçus pour l'échelle de l'ingénierie humaine, mais aujourd'hui les développeurs sont devenus des auditeurs de volumes massifs de code qu'ils n'ont pas écrit. » Le contexte est celui d'une adoption massive et rapide de l'IA dans le développement logiciel. Satya Nadella (Microsoft) et Sundar Pichai (Google) ont tous deux affirmé qu'environ un quart du code de leurs entreprises est désormais généré par IA. Le marché AIOps, dédié à la gestion de ces opérations, est estimé à 18,95 milliards de dollars en 2026 et devrait atteindre 37,79 milliards d'ici 2031. Pourtant, le rapport 2025 DORA de Google montre que l'adoption de l'IA est corrélée à une augmentation d'environ 10 % de l'instabilité du code, et que 30 % des développeurs font peu ou pas confiance au code généré automatiquement. La vitesse de production permise par ces outils dépasse largement la capacité des équipes à valider ce code en environnement réel, créant un déséquilibre structurel entre productivité affichée et fiabilité opérationnelle.

UELes entreprises européennes incluses dans l'étude sont directement exposées à ces risques opérationnels, et les équipes d'ingénierie en France et en UE devraient revoir leurs processus de validation du code généré par IA.

💬 43 % du code IA qui lâche en prod, c'est pas une surprise, c'est une confirmation de ce que beaucoup savaient déjà mais ne voulaient pas dire à voix haute. Les pannes Amazon en mars ont mis un visage sur des stats, et là ça devient difficile à ignorer pour les décideurs. Le vrai problème, c'est pas l'IA qui génère du mauvais code, c'est qu'on a accéléré la production sans toucher aux processus de validation, qui eux n'ont pas bougé d'un centimètre.

OutilsOutil
1 source
IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains
2VentureBeat AI 

IBM lance Bob pour sécuriser le codage IA en production, via routage multi-modèles et contrôles humains

IBM a lancé hier à l'échelle mondiale Bob, sa plateforme de développement logiciel propulsée par l'intelligence artificielle. L'outil, conçu pour écrire, tester et gérer du code tout au long du cycle de développement, est déjà utilisé par plus de 80 000 employés d'IBM après avoir démarré avec seulement 100 utilisateurs internes à l'été 2025. Bob repose sur un routage multi-modèles : il peut s'appuyer sur les modèles Granite d'IBM, les modèles Claude d'Anthropic, ou encore ceux de la société française Mistral, ainsi que sur des modèles distillés plus légers. Les modèles open source comme Qwen d'Alibaba sont explicitement exclus. Selon IBM, certaines équipes ont économisé jusqu'à 70 % du temps sur certaines tâches, soit en moyenne dix heures par semaine. Neal Sundaresan, directeur général de l'automatisation et de l'IA chez IBM, résume la philosophie de la plateforme : « La capacité du modèle seule ne suffit pas. La façon dont vous le déployez, dont vous structurez le contexte, et dont vous maintenez les humains dans la boucle détermine si l'IA tient réellement ses promesses. » Ce qui distingue Bob de concurrents comme Cursor ou Claude Code, c'est le niveau de contrôle et de gouvernance qu'il impose sur les workflows agentiques. Là où d'autres outils placent le développeur au début de la tâche pour qu'il enchaîne les étapes manuellement, Bob introduit des points de contrôle humains structurés à intervalles réguliers, tout en permettant à des agents IA d'accomplir des tâches complexes en plusieurs étapes. Cette approche répond directement aux besoins des grandes entreprises, qui craignent les failles de sécurité et les défaillances d'orchestration lorsque des agents autonomes accèdent à des données en production. Pour les directions techniques et les équipes d'audit, la traçabilité et la capacité à intervenir à tout moment priment sur la vitesse. Cette annonce s'inscrit dans une tension croissante dans l'industrie entre deux visions de l'IA agentique. D'un côté, des systèmes ouverts et autonomes comme OpenClaw ou NemoClaw de Nvidia, qui poussent les limites de l'automatisation dans des environnements bac à sable. De l'autre, des plateformes comme Bob qui privilégient la fiabilité, l'auditabilité et la supervision humaine. OpenAI a récemment ajouté dans son Agents SDK un support pour des implémentations en bac à sable, tandis que Kilo lançait Kilo Claw centré sur la sécurité des agents autonomes. IBM, fort de ses décennies d'expérience dans les systèmes d'entreprise critiques, choisit délibérément la prudence. Sundaresan le dit sans détour : « Il vaut mieux ouvrir la grille lentement que de dire, 'oups, comment je la referme maintenant ?' »

UEMistral, startup française, est intégrée nativement comme l'un des modèles supportés par Bob aux côtés de Claude et Granite, lui offrant une vitrine directe auprès des 80 000 développeurs IBM et renforçant la crédibilité des LLMs européens dans les environnements enterprise critiques.

OutilsOutil
1 source
Des agents IA en production pour la conformite financiere : les lecons de Stripe
3AWS ML Blog 

Des agents IA en production pour la conformite financiere : les lecons de Stripe

Stripe, le géant américain des paiements en ligne, a déployé en production un système d'agents IA dédié à la conformité financière, développé sur Amazon Web Services avec Amazon Bedrock. L'entreprise traite 1 400 milliards de dollars de volume de paiements annuels dans 50 pays, en servant des millions d'entreprises allant des startups aux 62 % des sociétés du Fortune 500. Pour gérer les risques de fraude et respecter les obligations réglementaires à cette échelle, ses équipes de conformité devaient examiner des milliers de transactions chaque jour. Le système d'agents, conçu selon un cadre ReAct, a permis de réduire de 26 % le temps de traitement des dossiers, tout en obtenant un taux de satisfaction de 96 % auprès des analystes internes. Les décisions finales restent systématiquement entre les mains d'experts humains. Ce déploiement illustre un problème structurel que rencontrent toutes les grandes institutions financières : les analystes qualifiés passaient jusqu'à 80 % de leur temps à naviguer entre des systèmes fragmentés pour rassembler des documents, au lieu de réaliser des évaluations de risque à haute valeur ajoutée. L'agent IA automatise cette phase de pré-investigation et d'agrégation documentaire, libérant les équipes pour les jugements complexes. À l'échelle mondiale, le coût de la conformité financière est estimé à 206 milliards de dollars par an. L'approche de Stripe permettrait d'identifier 95 % des attaques par test de carte en temps réel et de réduire de 20 % les frictions inutiles pour les clients légitimes, tout en conservant la traçabilité intégrale exigée par les régulateurs grâce à des journaux d'audit immuables. La croissance rapide de Stripe, qui représente aujourd'hui environ 1,3 % du PIB mondial numérique, a rendu intenable une mise à l'échelle des équipes de conformité proportionnelle au volume de transactions. L'entreprise a opté pour une architecture en trois composantes : décomposition des tâches et orchestration des révisions, cadre d'agents ReAct, et services d'infrastructure dédiés. Une attention particulière a été portée à l'optimisation des coûts via le prompt caching et à la gouvernance, avec des workflows d'approbation configurables et des points de contrôle humains à chaque étape critique. Ce modèle, co-développé par les équipes de Stripe et d'AWS, est présenté comme une référence pour les organisations souhaitant industrialiser la conformité sans sacrifier la qualité ni l'auditabilité, dans un contexte où les régulateurs financiers du monde entier renforcent leurs exigences en matière de traçabilité des décisions assistées par IA.

UELes établissements financiers européens soumis aux obligations KYC/AML et aux futures exigences de traçabilité de l'AI Act peuvent s'appuyer sur ce retour d'expérience pour évaluer l'automatisation de leur conformité via des agents IA.

OutilsOutil
1 source
Architectures avancées pour le RAG enrichi par graphes : dépasser la recherche vectorielle en production
4VentureBeat AI 

Architectures avancées pour le RAG enrichi par graphes : dépasser la recherche vectorielle en production

Le RAG vectoriel standard, qui consiste à découper des documents en fragments, les encoder dans une base vectorielle et récupérer les résultats les plus proches par similarité cosinus, s'impose depuis plusieurs années comme l'architecture de référence pour ancrer les grands modèles de langage dans des données privées. Mais pour des domaines métier fortement interconnectés comme la chaîne d'approvisionnement, la conformité financière ou la détection de fraude, cette approche atteint rapidement ses limites. Elle capture la similarité sémantique mais ignore la structure. Un modèle ne peut pas répondre à la question "Comment le retard sur le composant X va-t-il affecter la livraison Q3 du client Y ?" si la base vectorielle ne "sait" pas que ce composant fait partie de cette livraison. C'est le problème documenté dans cet article par des ingénieurs ayant travaillé sur les systèmes de logging haute performance de Meta et l'infrastructure de données privées chez Cognee. La solution proposée est une architecture hybride dite "Graph RAG", combinant recherche vectorielle et base de données graphe. Concrètement, lors de l'ingestion des documents, un modèle LLM ou un système de reconnaissance d'entités nommées (NER) extrait les entités et les relations pour les stocker dans un graphe Neo4j, les embeddings vectoriels étant conservés comme propriétés des noeuds. À la requête, le système effectue d'abord un scan vectoriel pour identifier des points d'entrée sémantiquement pertinents, puis traverse les relations du graphe pour reconstituer le contexte structurel complet. L'exemple illustratif est parlant: une recherche vectorielle sur "risques de production" récupère bien un article signalant des inondations en Thaïlande ayant arrêté l'usine d'un fournisseur A, mais sans lien explicite vers les usines clientes en aval, le modèle hallucine ou répond "je ne sais pas" alors que l'information est présente dans le système. Avec le graphe, une requête Cypher permet de traverser les dépendances fournisseur vers usine et de remonter l'impact réel. L'article s'inscrit dans une évolution structurelle de l'ingénierie RAG en production. La leçon clé tirée de Meta est que la structure doit être imposée à l'ingestion, pas reconstruite après coup à partir de données désordonnées. Cette approche "Flat RAG vers Graph RAG" répond à une demande croissante des entreprises qui déploient des LLM sur des données opérationnelles complexes, où les réponses incorrectes ont des conséquences business directes. Neo4j est actuellement le principal acteur côté base de données graphe, tandis que des startups comme Cognee cherchent à industrialiser cette couche d'extraction de connaissance. Les prochaines étapes naturelles incluent la mise à l'échelle de l'extraction d'entités en temps réel et l'intégration de ces architectures dans les frameworks d'agents LLM comme LangGraph ou LlamaIndex.

💬 Le problème du RAG vectoriel sur des données métier complexes, tout le monde le voit en prod depuis un moment. Cette architecture Graph RAG, avec Neo4j et une extraction d'entités à l'ingestion, c'est le genre de solution qui demande un vrai effort d'intégration mais qui répond enfin à des cas réels, pas juste des démos de chaîne logistique imaginaire. Reste à voir si ça scale proprement en temps réel, parce que le NER sur de gros volumes, c'est jamais aussi simple que dans les articles.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic