OutilsMarkTechPost6h· 2 min de lecture

Cisco AI présente FAPO : optimisation des prompts par pipeline, attribution des erreurs par étape et orchestration Claude Code

Résumé IASource uniqueImpact UE Take éditorial

Cisco AI a dévoilé FAPO, pour Fully Automated Prompt Optimization, un système d'optimisation automatisée des pipelines LLM orchestré par des agents Claude Code. Le principe est simple : l'utilisateur fournit un jeu de données et une première ébauche de prompt, et FAPO prend en charge le reste, évaluation, classification des erreurs, proposition de variantes, validation et itération, jusqu'à atteindre un seuil de précision cible. Le projet est publié en open source sous licence Apache 2.0 et supporte également Codex comme agent d'optimisation alternatif. Dans les évaluations internes de Cisco, FAPO surpasse GEPA, l'optimiseur de prompts de référence, sur 15 des 18 combinaisons modèle-benchmark testées, avec un gain moyen de 14,1 points de pourcentage. Sur les benchmarks HoVer et IFBench, où FAPO a escaladé jusqu'à modifier la structure du pipeline, l'écart atteint +33,8 points de pourcentage sur six paires comparées.

Ce que FAPO change concrètement, c'est la façon dont les équipes d'ingénierie déboguent des pipelines multi-étapes. Jusqu'ici, lorsqu'un pipeline LLM renvoie une mauvaise réponse, identifier quelle étape a fauté exige d'inspecter manuellement les sorties intermédiaires, un travail fastidieux et peu fiable. FAPO introduit une attribution d'échec au niveau de chaque étape, classant les pannes en quatre catégories : défaillances de récupération, défaillances en cascade, défaillances de format, et défaillances de raisonnement. Cette granularité permet au système de cibler précisément ce qui doit changer. L'optimisation procède par paliers croissants, d'abord les formulations de prompts, puis les paramètres comme la température ou le retrieval_k, enfin la topologie du pipeline lui-même, par exemple en ajoutant un nœud de réflexion ou en adoptant un pattern ReAct. Chaque proposition est validée par un agent indépendant, avec des garde-fous contre le surapprentissage : inspection limitée au jeu d'entraînement, fichiers de variantes immuables, et un ensemble de test réservé à une évaluation finale en une seule passe.

Ce lancement s'inscrit dans une dynamique plus large d'industrialisation de l'ingénierie des prompts. Small wording changes can swing accuracy by 20 percent, note Cisco, un constat qui illustre à quel point l'optimisation manuelle reste fragile et non scalable. FAPO est construit autour d'un moteur central nommé Hephaestus, agnostique au domaine, qui exécute des chaînes modélisées comme des graphes d'état LangGraph. L'architecture multi-tenant permet d'optimiser plusieurs tâches en parallèle sans interférence. Les trois fournisseurs supportés nativement sont OpenAI, Baseten et SageMaker. En positionnant Claude Code comme chef d'orchestre de ce cycle fermé, Cisco propose une vision où l'agent IA ne génère plus seulement du code, mais optimise activement d'autres systèmes IA, une étape vers des pipelines capables de s'améliorer de façon autonome.

💬 L'analyse de Mathieu

Ce que FAPO résout vraiment, c'est pas l'écriture de prompts, c'est le débogage de pipeline multi-étapes, un truc que tout le monde fait à la main aujourd'hui avec des logs à fouiller. Classer les pannes en quatre types (récupération, cascade, format, raisonnement) et cibler précisément quelle étape corriger, c'est le genre de granularité qu'on n'avait pas dans les outils open source. Les +14 points sur les benchmarks Cisco, bon, c'est interne, faut rester prudent, mais la direction est claire.

Dans nos dossiers

OpenAI Claude Code Agents IA Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Optimisation de prompts par réflexion avec GEPA : multi-composants, feedback structuré et validation

GEPA, un framework d'optimisation de prompts par évolution réflexive, permet d'améliorer automatiquement les instructions données à un modèle de langage en analysant ses erreurs et en générant des variantes plus performantes. Dans un tutoriel récent, des développeurs ont mis en oeuvre cette approche pour résoudre des problèmes arithmétiques formulés en langage naturel. L'architecture repose sur deux modèles distincts : GPT-4o-mini d'OpenAI comme modèle d'exécution des tâches, et GPT-4.1 comme modèle de réflexion chargé d'améliorer les prompts. Le système démarre avec un prompt initial faible, génère un benchmark déterministe de 18 problèmes (réductions commerciales, distances de voyage, calculs de portefeuille, opérations en chaîne), puis itère jusqu'à un budget maximal de 100 appels métriques. Le dataset est séparé en 12 exemples d'entraînement et 6 de validation pour mesurer la généralisation. Ce qui distingue GEPA d'une simple optimisation manuelle, c'est sa capacité à faire évoluer simultanément plusieurs composantes d'un prompt. Ici, ce ne sont pas seulement les instructions générales qui changent, mais aussi les règles de format de sortie, les deux évoluant ensemble comme un système couplé. Le modèle de réflexion reçoit un retour structuré et actionnable sur les raisons précises de l'échec d'un prompt candidat, ce qui lui permet de cibler ses corrections plutôt que de procéder à l'aveugle. Cette boucle d'amélioration automatisée réduit considérablement le travail manuel de prompt engineering, un processus qui peut prendre des heures à des équipes entières chez des entreprises déployant des LLMs en production. Pour les ingénieurs et les chercheurs, cela signifie qu'un système peut apprendre de ses propres erreurs de façon systématique, sans intervention humaine à chaque itération. Le prompt engineering automatisé représente l'un des axes de recherche les plus actifs dans l'écosystème des modèles de langage. Des frameworks comme DSPy de Stanford, TextGrad ou encore APE (Automatic Prompt Engineer) ont ouvert cette voie ces deux dernières années, cherchant à remplacer l'intuition humaine par une optimisation guidée par des métriques. GEPA se positionne dans cette lignée en y ajoutant la dimension réflexive : le modèle n'optimise pas à l'aveugle, il comprend pourquoi un prompt échoue. L'utilisation de LiteLLM comme couche d'abstraction permet en outre de brancher n'importe quel fournisseur de modèles, ce qui rend l'approche agnostique à l'infrastructure. À mesure que les LLMs s'intègrent dans des pipelines critiques, la capacité à optimiser automatiquement les prompts sur des benchmarks maison devient un avantage concurrentiel direct, réduisant les coûts d'inférence et améliorant la fiabilité sans multiplier les appels humains en boucle.

💬 Le prompt engineering à la main, c'est des heures perdues à tâtonner pour gagner 3% de perf. Ce qui distingue GEPA des frameworks similaires (DSPy, TextGrad, APE), c'est que le système comprend pourquoi un prompt rate avant de proposer mieux, pas juste une variation à l'aveugle. Reste à voir si ça tient sur des tâches moins propres que des problèmes arithmétiques, mais le principe, là, il est solide.

OutilsTuto

1 source

2MarkTechPost

Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références

Microsoft a publié SkillOpt, un framework open source conçu pour optimiser automatiquement les "skills", des prompts structurés qui guident le comportement des modèles de langage. Un tutoriel de référence détaille son implémentation complète sur le benchmark SearchQA, un jeu de questions-réponses fondé sur des extraits de documents. Le pipeline utilise GPT-4o comme modèle optimiseur et GPT-4o-mini comme modèle cible, en s'appuyant sur l'API OpenAI via une compatibilité Azure. Le workflow d'optimisation enchaîne six étapes distinctes : rollout (génération de réponses), reflection (analyse des erreurs), aggregation (consolidation des observations), selection (choix des meilleures améliorations), updating (réécriture du prompt) et validation-based gating (validation avant d'accepter chaque nouvelle version du skill). Le tutoriel tourne avec un échantillon limité à 24 exemples, sur deux epochs avec des batchs de 8, pour contenir les coûts en tokens. Ce que rend possible SkillOpt est significatif : plutôt que d'ajuster les poids d'un modèle par entraînement classique, coûteux et nécessitant des GPU, il optimise uniquement le texte du prompt par itération automatique. Cela permet à n'importe quel développeur d'améliorer les performances d'un modèle sur une tâche précise sans toucher à l'infrastructure d'entraînement. L'outil mesure l'évolution de la précision en "hard accuracy" et "soft accuracy" à chaque cycle, offre un suivi de l'usage cumulatif en tokens, et visualise l'historique des modifications du skill. Cette transparence donne aux équipes un contrôle fin sur le compromis entre coût et gain de performance, un avantage concret pour les produits IA en production. SkillOpt s'inscrit dans une tendance plus large portée par Microsoft Research : l'optimisation automatique de prompts, parfois appelée "prompt engineering automatisé" ou APO (Automatic Prompt Optimization). Des travaux antérieurs comme DSPy de Stanford ou ProTeGi avaient ouvert cette voie, mais SkillOpt mise sur une architecture modulaire et une compatibilité avec les backends Azure OpenAI et OpenAI standard pour maximiser l'adoption en entreprise. La publication du code sur GitHub sous forme de dépôt clonable avec dépendances pip illustre la volonté de Microsoft d'ancrer cet outil dans les workflows MLOps existants. L'enjeu à terme est d'industrialiser l'amélioration continue des agents IA sans intervention humaine à chaque itération, une capacité qui deviendra centrale à mesure que les entreprises déploient des systèmes LLM à grande échelle.

UELes équipes IA européennes déployant des agents LLM sur Azure OpenAI peuvent adopter SkillOpt pour automatiser l'amélioration continue de leurs prompts sans coûts d'entraînement supplémentaires.

OutilsOutil

1 source

3MarkTechPost

Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage

NVIDIA a publié un tutoriel complet détaillant comment construire un pipeline d'optimisation de bout en bout à l'aide de son outil NVIDIA Model Optimizer, combinant entraînement, élagage (pruning) et ajustement fin (fine-tuning) d'un réseau de neurones profond, le tout dans Google Colab sans infrastructure dédiée. Le pipeline repose sur l'architecture ResNet appliquée au jeu de données CIFAR-10, et utilise la technique FastNAS pour réduire la complexité computationnelle du modèle sous une contrainte de 60 millions de FLOPs (opérations en virgule flottante). Concrètement, le modèle est d'abord entraîné sur 12 000 exemples pendant 20 époques pour établir une référence, puis soumis à l'élagage structurel FastNAS qui supprime systématiquement les couches et filtres les moins utiles, avant une phase de fine-tuning de 12 époques pour récupérer la précision perdue. Cette approche répond à un besoin pressant dans l'industrie : déployer des modèles d'IA performants sur des matériels contraints, comme les appareils embarqués, les téléphones mobiles ou les serveurs à faible consommation. En réduisant le nombre de FLOPs sans sacrifier significativement la précision, FastNAS permet de rendre un modèle jusqu'à plusieurs fois plus léger et plus rapide à l'inférence. Pour les équipes ML en entreprise, cela se traduit par des coûts de déploiement réduits, une latence moindre et une empreinte énergétique plus faible. Le fait que l'ensemble du pipeline soit reproductible dans Colab, avec gestion des seeds et des sous-ensembles de données, le rend accessible à des équipes sans cluster GPU dédié. NVIDIA développe Model Optimizer dans le cadre de sa stratégie plus large pour contrôler toute la chaîne de valeur de l'IA, de l'entraînement jusqu'au déploiement sur ses propres puces. FastNAS s'inscrit dans une famille de techniques de compression de modèles qui inclut également la quantification et la distillation, toutes intégrées dans l'écosystème NVIDIA TensorRT. Face à la montée en puissance des outils open source comme la bibliothèque PEFT de Hugging Face ou les approches de pruning de PyTorch, NVIDIA positionne Model Optimizer comme une solution intégrée et orientée production. La prochaine étape logique de ce pipeline serait la conversion du modèle élaguévers le format ONNX ou TensorRT pour un déploiement sur GPU NVIDIA, bouclant ainsi la boucle entre recherche et mise en production industrielle.

OutilsTuto

1 source

4VentureBeat AI

Anthropic refond Claude Design : imports de systèmes de design, allers-retours de code et optimisation des tokens

Anthropic a annoncé mercredi une refonte majeure de Claude Design, son outil de création visuelle lancé en avril 2026 comme "aperçu de recherche". L'original avait séduit plus d'un million d'utilisateurs en une semaine, mais s'était heurté à un problème critique : une consommation de tokens astronomique. Un testeur de PCWorld avait épuisé 80 % de son quota hebdomadaire Claude Pro en à peine 25 minutes, le temps de générer trois variantes d'un seul prototype de page web. La mise à jour corrige ce défaut tout en introduisant une fonctionnalité stratégiquement beaucoup plus ambitieuse : l'import de design systems complets. Les équipes peuvent désormais connecter leurs composants depuis un dépôt GitHub, des fichiers de design ou des uploads directs. Une fois importés, Claude construit exclusivement avec ces composants, vérifie sa production en temps réel et corrige automatiquement les écarts avant même d'afficher le résultat. Un nouveau rôle administrateur permet aux grandes organisations de verrouiller un système approuvé et d'interdire toute modification individuelle. Ce changement transforme fondamentalement la proposition de valeur du produit. En avril, Claude Design générait des visuels impressionnants mais stylistiquement arbitraires, ce qui convenait aux indépendants et startups. Pour une entreprise de 10 000 personnes possédant 200 pages de chartes graphiques, c'était inutilisable. L'import de design systems répond directement à la question que posent les décideurs en entreprise lors de tout achat logiciel : "Peut-on contrôler ce que l'outil produit ?" En ingérant les boutons, typographies, tokens de couleurs et règles d'espacement d'une marque, puis en validant chaque sortie avant de la présenter, Claude Design vise une conformité visuelle systématique que même les équipes de designers humains peinent à maintenir à grande échelle. Cette évolution s'inscrit dans une expansion produit d'une rapidité rare pour Anthropic. En dix semaines, la société a lancé Claude Opus 4.8, publié puis suspendu le modèle Fable 5, déployé dix templates d'agents pour les services financiers, signé une alliance pluriannuelle avec DXC Technology pour intégrer Claude dans l'infrastructure IT des plus grandes banques et compagnies aériennes mondiales, et lancé Claude for Small Business avec des intégrations QuickBooks et PayPal. Les utilisateurs de Claude Code consacrent désormais en moyenne 20 heures par semaine à l'outil. La trajectoire est claire : Anthropic ne cherche plus seulement à proposer un assistant conversationnel, mais à faire de Claude un collaborateur embarqué dans les systèmes où le travail se produit concrètement, des pipelines de développement aux workflows créatifs des grandes marques.

UELes équipes design de grandes organisations françaises et européennes disposant de chartes graphiques strictes pourraient bénéficier de la fonctionnalité d'import de systèmes de design, mais aucune réglementation ou entreprise européenne n'est directement impliquée.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic