Aller au contenu principal
Créer des fonctions de récompense efficaces avec AWS Lambda pour personnaliser Amazon Nova
OutilsAWS ML Blog1h

Créer des fonctions de récompense efficaces avec AWS Lambda pour personnaliser Amazon Nova

1 source couvre ce sujet·Source originale ↗·

Amazon Web Services propose une méthode concrète pour personnaliser ses modèles de langage Amazon Nova grâce à AWS Lambda comme moteur d'évaluation. L'approche repose sur le Reinforcement Fine-tuning (RFT), une technique d'apprentissage par renforcement qui se distingue du traditionnel Supervised Fine-tuning (SFT) : là où le SFT exige des milliers d'exemples annotés avec des raisonnements détaillés, le RFT apprend à partir de signaux d'évaluation appliqués aux réponses finales du modèle. Concrètement, une fonction Lambda reçoit les réponses générées par Nova lors de l'entraînement, les évalue selon plusieurs critères (exactitude, sécurité, formatage, concision) et retourne un score numérique, généralement compris entre -1 et 1. Les scores élevés renforcent les comportements positifs ; les scores faibles les découragent. Ce cycle se répète des milliers de fois pour affiner progressivement le modèle, avec Amazon CloudWatch qui surveille la distribution des scores en temps réel.

L'intérêt de cette architecture est double, technique et économique. Sur le plan technique, elle permet de définir des systèmes de récompense multi-dimensionnels qui capturent des critères de qualité nuancés, réduisant ainsi le risque de "reward hacking", ces situations où un modèle exploite des raccourcis pour maximiser son score sans réellement progresser sur les objectifs visés. Un cas typique serait une réponse de service client qui doit simultanément être précise, empathique, concise et conforme à l'identité de la marque : autant de critères difficiles à couvrir avec des exemples annotés. Sur le plan économique, Lambda s'adapte automatiquement à la charge d'entraînement sans qu'une équipe ait à gérer une infrastructure dédiée, rendant la personnalisation de modèles fondamentaux accessible à des développeurs sans expertise approfondie en machine learning.

Cette publication s'inscrit dans une concurrence intense entre les grands fournisseurs cloud pour démocratiser la personnalisation des grands modèles de langage. Google, Microsoft et AWS se disputent les entreprises qui souhaitent adapter des modèles fondamentaux à leurs cas d'usage métier sans repartir de zéro. Amazon Nova, lancé fin 2024, représente l'offensive d'AWS sur ce marché avec une gamme de modèles positionnés sur le rapport performance/coût. En proposant une intégration native entre RFT, Lambda et CloudWatch, AWS cherche à réduire la friction technique qui freine encore l'adoption en entreprise. Deux variantes coexistent selon les besoins : RLVR (Reinforcement Learning via Verifiable Rewards) pour les tâches à réponses objectivement vérifiables comme du code ou des calculs, et RLAIF (Reinforcement Learning via AI Feedback) pour des évaluations plus subjectives. Les prochaines étapes logiques seront l'extension de ces outils à d'autres modèles Nova et une intégration plus poussée avec les pipelines MLOps existants sur AWS.

À lire aussi

1VentureBeat AI 

Le développement piloté par les spécifications s'impose pour le code agentique en entreprise

Le développement logiciel piloté par les spécifications s'impose comme la méthode de référence pour déployer des agents de codage autonomes à l'échelle des grandes entreprises. Amazon Web Services en est l'exemple le plus documenté : l'équipe derrière le nouvel environnement de développement Kiro IDE a utilisé Kiro pour construire Kiro lui-même, réduisant les cycles de développement de deux semaines à deux jours. Une équipe d'ingénieurs AWS a mené à bien un projet de refonte architecturale initialement prévu sur dix-huit mois avec trente développeurs, en six personnes en soixante-seize jours. Chez Amazon.com, la fonctionnalité "Add to Delivery", qui permet aux acheteurs d'ajouter des articles après validation de leur commande, a été livrée deux mois avant le calendrier prévu grâce à cette approche. Alexa+, Amazon Finance, Amazon Stores, Fire TV, Last Mile Delivery et Prime Video intègrent désormais tous le développement piloté par les spécifications dans leurs méthodes de production. Ce qui rend cette méthode structurante, c'est qu'elle résout le problème de confiance fondamental posé par le code généré par l'IA. Un agent qui produit cent cinquante commits par semaine dépasse largement la capacité de relecture humaine : aucune équipe ne peut valider manuellement ce volume. La spec devient alors un moteur de vérification automatique. Rédigée avant qu'une seule ligne de code soit écrite, elle définit ce que le système doit faire, ses propriétés attendues et ce que "correct" signifie concrètement. À partir de cette base, des techniques de test basées sur les propriétés et de l'IA neurosymbolique génèrent automatiquement des centaines de cas de test dérivés directement de la spécification, couvrant des cas limites qu'aucun développeur n'aurait envisagé. L'agent peut ainsi se corriger en boucle, en réinjectant les échecs de build et de test dans son propre raisonnement, jusqu'à produire un code à la fois fonctionnel et vérifiable. Cette évolution s'inscrit dans une transformation plus large du secteur. Il y a un an, le "vibe coding" avait popularisé l'idée que n'importe qui pouvait produire du code avec l'IA, au prix d'une qualité souvent médiocre. Le développement piloté par les spécifications répond à la question suivante : comment faire confiance à ce code à grande échelle ? Les équipes qui adoptent cette méthode ne traitent plus l'IA comme un outil ponctuellement consulté, mais comme un agent autonome ancré à une source de vérité permanente. La prochaine étape annoncée est celle d'agents capables de rédiger leurs propres spécifications, utilisant la spec comme mécanisme d'autocorrection et de vérification. Les entreprises qui maîtriseront ce modèle prendront une avance structurelle significative sur celles qui continuent à coder sans cadre formel.

OutilsOutil
1 source
2MarkTechPost 

Tutoriel NVIDIA PhysicsNeMo : Darcy Flow, FNOs, PINNs, modèles de substitution et benchmarking d'inférence

NVIDIA a publié PhysicsNeMo, une bibliothèque dédiée à l'apprentissage automatique informé par la physique, et un tutoriel complet en montre l'implémentation pratique sur Google Colab. Le guide couvre l'ensemble du pipeline scientifique : génération de données pour le problème de l'écoulement de Darcy 2D, entraînement de modèles avancés dont l'opérateur de Fourier neuronal (FNO) et un réseau convolutif de base, ainsi qu'une introduction aux réseaux de neurones informés par la physique (PINNs). Le tutoriel se conclut par une comparaison d'architectures, une évaluation des prédictions et un benchmark d'inférence, avec sauvegarde des modèles entraînés. Techniquement, le problème de Darcy 2D sert de cas d'école : il s'agit de résoudre l'équation -∇·(k(x,y)∇u(x,y)) = f(x,y) sur un domaine carré de résolution 64×64, où k représente le champ de perméabilité en entrée et u le champ de pression en sortie, les données étant générées via des champs aléatoires gaussiens et un solveur par différences finies. Ce type d'outil intéresse directement les ingénieurs et chercheurs qui travaillent sur des simulations physiques coûteuses en calcul. Les opérateurs neuronaux comme le FNO peuvent apprendre des solutions d'équations aux dérivées partielles sans résoudre le système à chaque fois, réduisant les temps de calcul de plusieurs ordres de grandeur par rapport aux solveurs classiques. Pour des domaines comme la modélisation des écoulements souterrains, la conduction thermique, la mécanique des fluides ou la conception de matériaux, ces modèles de substitution (surrogate models) permettent d'explorer des milliers de scénarios là où un simulateur numérique traditionnel n'en traiterait que quelques dizaines dans le même temps. Le benchmark d'inférence inclus dans le tutoriel permet de quantifier précisément ce gain. PhysicsNeMo s'inscrit dans une tendance de fond portée par NVIDIA depuis plusieurs années : outiller la communauté scientifique avec des frameworks qui combinent deep learning et contraintes physiques. La bibliothèque fait écho à d'autres initiatives similaires comme DeepMind's GraphCast pour la météo ou les travaux de Microsoft sur les modèles de simulation climatique. L'enjeu est de démocratiser la scientific machine learning en abaissant la barrière d'entrée technique : en proposant une implémentation fonctionnelle sur Colab, accessible sans infrastructure GPU dédiée pour les premiers tests, NVIDIA cible aussi bien les doctorants en physique computationnelle que les équipes R&D industrielles. Le fait que le tutoriel propose des implémentations de secours (fallback) lorsque PhysicsNeMo n'est pas disponible suggère une conception pensée pour la robustesse et l'adoption progressive dans des environnements de production variés.

OutilsTuto
1 source
Microsoft teste des agents IA similaires à OpenClaw pour 365 Copilot
3The Verge AI 

Microsoft teste des agents IA similaires à OpenClaw pour 365 Copilot

Microsoft explore l'intégration de fonctionnalités inspirées d'OpenClaw dans son assistant 365 Copilot, selon un rapport de The Information. Omar Shahine, vice-président corporate de Microsoft, a confirmé à la publication que la société « explore le potentiel de technologies comme OpenClaw dans un contexte d'entreprise ». L'objectif affiché est de permettre à 365 Copilot de « fonctionner de manière autonome en continu », en exécutant des tâches au nom des utilisateurs sans intervention humaine constante. Cette évolution marquerait un tournant significatif pour la suite bureautique de Microsoft, utilisée par des centaines de millions de professionnels dans le monde. Un Copilot capable d'agir en autonomie permanente, traiter des e-mails, planifier des réunions, rédiger des documents, transformerait l'assistant d'un outil réactif en un véritable agent proactif. Pour les entreprises, cela représente autant une promesse de productivité qu'un défi en matière de contrôle, de conformité et de sécurité des données. OpenClaw est une plateforme open-source qui permet de créer des agents IA tournant localement sur l'appareil de l'utilisateur, sans dépendre du cloud. Sa popularité a fortement progressé ces derniers mois, portée par l'intérêt croissant pour les agents autonomes et la souveraineté des données. Microsoft n'est pas seul sur ce terrain : Google, Salesforce et plusieurs startups misent également sur les agents IA d'entreprise. L'intégration éventuelle dans 365 Copilot, déjà déployé chez de nombreuses grandes entreprises, donnerait à Microsoft un avantage concurrentiel considérable dans la course aux assistants professionnels autonomes.

UELes entreprises européennes utilisant Microsoft 365 devront évaluer les implications de conformité RGPD et d'AI Act si Copilot évolue vers une exécution autonome et continue de tâches en leur nom.

OutilsOutil
1 source
Microsoft prépare de nouvelles fonctionnalités pour Copilot, inspirées d'OpenClaw
4The Information AI 

Microsoft prépare de nouvelles fonctionnalités pour Copilot, inspirées d'OpenClaw

Microsoft développe de nouvelles fonctionnalités pour son assistant Copilot, directement inspirées d'OpenClaw, l'agent IA open source qui a bouleversé le secteur de l'intelligence artificielle ces derniers mois. Selon des déclarations faites dimanche à The Information, Omar Shahine, vice-président de Microsoft, a confirmé la création d'une équipe dédiée chargée d'explorer les possibilités offertes par des technologies comme OpenClaw dans un contexte d'entreprise. L'objectif central est de déployer un réseau d'agents toujours actifs, capables de travailler 24h/24 et 7j/7 pour le compte des utilisateurs au sein des applications Microsoft 365. Cette initiative répond à une pression concurrentielle croissante sur le segment des clients professionnels, notamment de la part d'Anthropic. Pour Microsoft, l'enjeu est de transformer Copilot d'un simple assistant conversationnel en un véritable opérateur autonome capable d'exécuter des tâches complexes sans intervention humaine constante. Ce type d'agents persistants pourrait modifier en profondeur la façon dont les entreprises délèguent des processus entiers à l'IA, allant bien au-delà de la simple génération de texte. Ce virage s'inscrit dans une dynamique plus large où les grandes plateformes logicielles cherchent à intégrer des capacités agentiques avancées avant que des acteurs spécialisés ne s'imposent sur ce marché. OpenClaw, en tant que projet open source, a imposé un nouveau standard d'autonomie et d'exécution de tâches pour les agents IA, forçant des géants comme Microsoft à accélérer leur feuille de route. L'intégration dans l'écosystème Microsoft 365, utilisé par des centaines de millions de professionnels, donnerait à ces agents une portée considérable si le projet aboutit.

UEL'intégration d'agents IA autonomes dans Microsoft 365, massivement adopté par les entreprises françaises et européennes, pourrait transformer en profondeur la façon dont les organisations délèguent leurs processus métier à l'IA.

OutilsOutil
1 source