Aller au contenu principal
Promptimus : améliorer automatiquement des prompts LLM déjà performants
OutilsAmazon Science6sem· 2 min de lecture

Promptimus : améliorer automatiquement des prompts LLM déjà performants

Source originale ↗·

Amazon Web Services a dévoilé Promptimus, une méthode d'optimisation automatique des prompts pour grands modèles de langage (LLM), destinée aux entreprises qui cherchent à améliorer des prompts déjà bien rodés sans repartir de zéro. La particularité du système repose sur une boucle d'itération en quatre étapes : il prend en entrée un prompt existant, un petit jeu de données JSONL de 20 à 50 exemples, et des métriques de performance définies par l'utilisateur. Trois agents IA spécialisés collaborent en coulisses, un analyseur de métriques, un agent de débogage et un agent de nettoyage de code, pour identifier précisément les points de défaillance, en diagnostiquer les causes profondes, et affiner chirurgicalement le prompt en conséquence. Le système inclut également un mode édition qui permet de modifier uniquement les parties défaillantes d'un prompt complexe, sans toucher à la logique métier qui fonctionne déjà.

L'enjeu est considérable pour les entreprises. Dans les déploiements industriels, les prompts ne sont pas de simples instructions génériques : ils encodent des exigences légales précises, comme la conformité HIPAA pour les systèmes de santé, ou des règles de tolérance au risque pour les plateformes de trading financier. Ces prompts sont construits par des experts métier sur des semaines, voire des mois. Or, chaque fois qu'un fournisseur comme Anthropic, OpenAI, Google, Meta ou Alibaba sort un nouveau modèle, ces prompts soigneusement calibrés perdent en efficacité, les différences de comportement entre modèles suffisent à dégrader les performances. Promptimus est conçu pour être agnostique au modèle : il peut réoptimiser un prompt conçu pour un modèle source et l'adapter rapidement à un modèle cible, en comparant les résultats entre les deux.

La difficulté sous-jacente que Promptimus cherche à résoudre est bien connue des équipes d'ingénierie prompt : les méthodes d'optimisation automatique existantes fonctionnent bien pour créer des prompts depuis zéro, mais peinent à améliorer ceux qui sont déjà excellents. Les suggestions génériques comme « sois plus créatif » ou « ajoute des exemples » n'ont aucun effet sur un prompt déjà optimisé, dont les marges d'amélioration restent très spécifiques et difficiles à cibler. Les scores scalaires comme retour d'information ne donnent aucune indication sur le pourquoi des échecs. Face à la cadence d'évolution des modèles fondamentaux, la reoptimisation manuelle est coûteuse et retarde l'adoption de modèles plus performants. Promptimus vise à industrialiser ce processus de migration, en automatisant entièrement l'analyse des métriques et la génération des points de contrôle de débogage via du code Python importable.

Impact France/UE

Les entreprises européennes déployant des LLMs en production pourraient utiliser Promptimus pour automatiser la migration de leurs prompts lors des mises à jour de modèles fondamentaux, réduisant les coûts de réécriture manuelle.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents
1AWS ML Blog 

AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents

Amazon a annoncé le lancement en préversion d'AgentCore Optimization, une nouvelle fonctionnalité intégrée à sa plateforme Amazon Bedrock AgentCore. Cette brique complète ce qu'Amazon appelle la boucle "observer, évaluer, améliorer" pour les agents IA en production. Concrètement, le système analyse automatiquement les traces de production, génère des recommandations d'optimisation pour les prompts système ou les descriptions d'outils, puis propose deux mécanismes de validation : l'évaluation par lot sur des jeux de données prédéfinis, et les tests A/B en conditions réelles via AgentCore Gateway, avec découpage du trafic en production à un pourcentage configurable et résultats assortis d'intervalles de confiance et de signification statistique. NTT DATA, partenaire annoncé lors du lancement, indique que des processus qui nécessitaient auparavant plusieurs semaines d'ajustement manuel de prompts peuvent désormais s'exécuter en cycles rapides et reproductibles. L'enjeu est de taille pour les équipes produit qui déploient des agents IA : la qualité d'un agent se dégrade silencieusement à mesure que les modèles évoluent, que le comportement des utilisateurs change, et que les prompts sont réutilisés dans des contextes imprévus. Jusqu'ici, la remédiation reposait entièrement sur l'intuition du développeur, lire des traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, un cycle qui introduit souvent de nouveaux problèmes en corrigeant les anciens. AgentCore Optimization remplace cette boucle artisanale par un processus systématique fondé sur les données : les recommandations sont générées à partir des traces réelles et validées avant tout déploiement, éliminant la part de pari inhérente aux corrections en aveugle. Amazon Bedrock AgentCore, déjà utilisé par des milliers de développeurs pour construire des agents capables de raisonner et d'agir dans des workflows complexes, s'enrichit ainsi d'une couche d'amélioration continue qui manquait jusqu'à présent à l'écosystème. Les grandes équipes disposent certes d'équipes scientifiques dédiées et de benchmarks centralisés, mais ces dispositifs fonctionnent sur des cycles hebdomadaires ou mensuels, pendant que les agents dérivent en production chaque jour. En intégrant la traçabilité OpenTelemetry, les évaluateurs built-in (taux de succès, précision de sélection d'outils, sécurité), et la possibilité de simuler des jeux de données via un acteur LLM jouant le rôle de l'utilisateur final, Amazon positionne AgentCore comme une plateforme complète pour industrialiser l'optimisation des agents, une capacité qui pourrait devenir un critère de choix déterminant face à des concurrents comme Google Vertex AI ou Microsoft Azure AI Foundry.

UELes équipes européennes déployant des agents IA sur Amazon Bedrock peuvent désormais automatiser l'optimisation de leurs prompts et outils, réduisant des cycles d'ajustement manuel qui duraient plusieurs semaines à des itérations rapides et reproductibles.

OutilsOutil
1 source
SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle
2VentureBeat AI 

SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle

Microsoft Research Asia a publié SkillOpt, un framework open source sous licence MIT conçu pour optimiser automatiquement les compétences des agents IA. Ces compétences, appelées "skills", sont des ensembles d'instructions stockées dans des fichiers texte au format markdown (.md) qui permettent à un agent de s'adapter à des flux de travail d'entreprise complexes, sans modifier les paramètres du modèle sous-jacent. Développé par Yifan Yang, Senior Research SDE chez Microsoft Research Asia, SkillOpt introduit un optimiseur qui traite ces documents texte comme des objets entraînables, les faisant évoluer de manière systématique à partir des retours de performance. Sur plusieurs benchmarks industriels, il surpasse les méthodes existantes et améliore significativement la précision de modèles comme GPT-5.5 et Qwen, produisant des artefacts compacts et transférables vers de nouveaux domaines. L'enjeu est concret : aujourd'hui, affiner ces fichiers de compétences est un processus manuel et risqué. Les équipes procèdent par essais-erreurs, sans garantie que chaque modification représente réellement une amélioration. Yang identifie trois défaillances récurrentes dans les approches actuelles : l'absence de contrôle d'amplitude des modifications, qui provoque une dérive progressive des instructions ; l'absence de validation, qui laisse des corrections superficiellement raisonnables dégrader silencieusement les performances ; et l'absence de mémoire négative, qui permet aux mêmes erreurs de se reproduire indéfiniment. Pour illustrer la fragilité du système actuel, Yang cite un cas précis : une réécriture non contrôlée a fait chuter GPT-5.5 sur le benchmark SpreadsheetBench de 41,8 à 41,1, soit une régression invisible jusqu'à ce qu'elle soit mesurée. Ce problème est particulièrement critique dans les workflows multi-étapes, là où les grands modèles sont les plus vulnérables, non pas sur le raisonnement, mais sur la discipline procédurale : formats de sortie, auto-vérification, politiques d'utilisation des outils. Avant SkillOpt, plusieurs approches existaient sans résoudre ce problème de fond. Des méthodes d'optimisation de prompts comme TextGrad et GEPA traitent les textes comme des objets optimisables via le feedback de trajectoires d'exécution, mais se limitent à des configurations de prompt unique plutôt qu'à des artefacts de compétences persistants et réutilisables. Des méthodes comme EvoSkill et Trace2Skill convertissent les expériences d'exécution en bibliothèques de compétences domaine-spécifiques, mais sans le contrôle mathématique qui garantit que chaque itération est réellement une amélioration. SkillOpt comble ce vide en appliquant une discipline comparable à l'apprentissage profond, avec contrôle du pas d'optimisation, validation systématique et mémoire des échecs, au texte naturel plutôt qu'aux poids d'un réseau de neurones. La publication en open source signale que Microsoft vise une adoption large dans l'écosystème des agents IA d'entreprise, un marché en pleine structuration où la fiabilité procédurale devient un avantage compétitif décisif.

💬 Ce qui me plaît là-dedans, c'est que ça s'attaque enfin au vrai problème : pas le modèle, mais les instructions qu'on lui donne. Tuner des fichiers markdown à la main en espérant que ça s'améliore, c'est exactement le genre de bricolage qui fait perdre des heures aux équipes sans qu'elles s'en rendent compte. Reste à voir si ça tient sur des workflows vraiment complexes, mais le fait que Microsoft sorte ça en open source, ça sent le pari sur l'adoption longue.

OutilsOutil
1 source
Amazon Bedrock Data Automation : améliorer la précision de l'extraction de plans
3AWS ML Blog 

Amazon Bedrock Data Automation : améliorer la précision de l'extraction de plans

Amazon Web Services a enrichi son service Amazon Bedrock Data Automation (BDA) d'une fonctionnalité appelée "blueprint instruction optimization", conçue pour améliorer automatiquement la précision d'extraction de données structurées à partir de documents non structurés, factures, contrats, formulaires fiscaux ou dossiers d'inscription. Le principe repose sur des blueprints, des schémas personnalisables qui définissent les champs à extraire (numéro de commande, montant total, date, demandes spéciales) accompagnés d'instructions en langage naturel guidant le modèle. Jusqu'ici, lorsqu'un champ était mal extrait, les équipes devaient affiner manuellement ces instructions en boucle. Désormais, il suffit de fournir entre trois et dix documents d'exemple avec les valeurs attendues : BDA analyse les écarts entre ses résultats et la vérité terrain, puis reformule automatiquement les instructions de chaque champ en quelques minutes. Aucun fine-tuning de modèle séparé n'est nécessaire. L'impact est direct pour les équipes en charge de l'automatisation documentaire dans les entreprises. Traiter des documents provenant de centaines de fournisseurs différents posait un problème structurel : les libellés varient ("subtotal" vs "total"), les mises en page changent selon les périodes ou les partenaires, et la qualité des scans dégrade encore la reconnaissance. Ce cycle d'itération manuelle pouvait prendre plusieurs semaines par type de document. Avec cette optimisation automatisée, ce délai tombe à quelques minutes, ce qui réduit considérablement le coût de mise en production de pipelines de traitement intelligent de documents (IDP). Les organisations qui gèrent de grands volumes documentaires, assureurs, cabinets comptables, services achats, sont les premières bénéficiaires. Cette annonce s'inscrit dans la stratégie d'AWS visant à rendre l'automatisation documentaire accessible sans expertise en machine learning. Amazon Bedrock Data Automation, lancé pour unifier classification, extraction, normalisation et validation via une seule API, fait face à une concurrence croissante d'acteurs spécialisés comme Google Document AI ou Microsoft Azure Form Recognizer, ainsi que de solutions fondées sur des modèles de vision généralistes. En supprimant la nécessité de fine-tuner un modèle tout en automatisant le travail d'ingénierie des prompts, AWS réduit la barrière d'entrée pour les équipes métier. La prochaine étape logique serait d'étendre cette optimisation à des flux documentaires plus complexes impliquant plusieurs types de documents interconnectés, un enjeu central pour des secteurs comme la finance ou la santé.

UELes entreprises françaises et européennes gérant de grands volumes documentaires (assureurs, cabinets comptables, services achats) peuvent réduire leurs délais de mise en production de pipelines d'extraction documentaire de plusieurs semaines à quelques minutes, sans expertise en machine learning.

OutilsOutil
1 source
Lowe's : les données sémantiques améliorent ses agents IA
4The Information AI 

Lowe's : les données sémantiques améliorent ses agents IA

Lowe's, le géant américain de la distribution de bricolage, a récemment intégré deux outils de gestion des données, une couche sémantique et un graphe de connaissances, pour améliorer les performances de ses agents d'intelligence artificielle. Chandhu Nair, vice-président senior de l'entreprise, a expliqué que ces technologies permettent désormais à l'IA de mieux assister les clients dans le suivi de leurs commandes et d'aider les responsables de magasins à coordonner le travail quotidien des employés. Lowe's exploite un assistant d'achat alimenté par l'IA pour ses clients ainsi qu'un coach commercial intelligent destiné à ses vendeurs, tous deux développés en partenariat avec OpenAI au cours des deux dernières années. La chaîne a également déployé un agent spécialisé pour ses équipes financières, chargé de vérifier l'exactitude du traitement des factures, une priorité compte tenu du volume considérable de transactions que génère son statut de cinquième plus grand importateur aux États-Unis. L'apport concret de la couche sémantique réside dans sa capacité à standardiser les définitions des indicateurs métiers, ce que l'entreprise entend précisément par "revenu" ou "client", afin que l'IA ne travaille pas sur des données ambiguës ou incohérentes. Couplée au graphe de connaissances, qui cartographie les relations entre les différents types de données de l'entreprise, cette approche rend les agents nettement plus fiables et efficaces dans leurs décisions. Pour une enseigne comme Lowe's, qui gère des milliers de références produits, des dizaines de milliers d'employés et des millions de transactions, la précision des données est directement liée à la qualité du service rendu. Cette démarche s'inscrit dans une bataille plus large que se livrent les grands acteurs du logiciel d'entreprise. Microsoft, Databricks et SAP se disputent actuellement le contrôle des couches sémantiques au sein des systèmes d'information des grandes entreprises, conscients que celui qui maîtrise la définition des données maîtrise aussi l'intelligence artificielle qui les exploite. Le cas Lowe's illustre comment les détaillants de grande taille transforment leurs infrastructures de données héritées en socle opérationnel pour une IA agentique déployée à grande échelle.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic