Aller au contenu principal
Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique
OutilsAWS ML Blog6sem

Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon Bedrock introduit l'ajustement par renforcement (Reinforcement Fine-Tuning, ou RFT) via des API compatibles OpenAI, marquant une évolution significative dans la personnalisation des grands modèles de langage sur infrastructure cloud. Disponible depuis décembre 2025 avec les modèles Nova, la fonctionnalité s'est étendue en février 2026 aux modèles open weight comme OpenAI GPT OSS 20B et Qwen 3 32B.

Contrairement au fine-tuning supervisé classique, qui exige de vastes ensembles de données d'exemples entrée/sortie, le RFT permet à un modèle d'apprendre par itération : il génère plusieurs réponses, reçoit un score pour chacune via une fonction de récompense, et affine progressivement ses décisions. Cette approche réduit considérablement le volume de données d'entraînement nécessaires tout en permettant une amélioration continue — un avantage majeur pour les équipes qui ne disposent pas de milliers d'exemples annotés.

Le workflow présenté s'appuie sur le jeu de données mathématique GSM8K pour illustrer l'ensemble du pipeline : configuration de l'authentification, déploiement d'une fonction de récompense via AWS Lambda, lancement d'un job d'entraînement, puis inférence à la demande sur le modèle affiné. Les composants clés — modèle acteur, état (contexte + historique), action (réponse générée) et score de récompense — forment une boucle d'apprentissage en ligne qui rend le système particulièrement efficace sur des tâches vérifiables comme les mathématiques ou la génération de code, où la correction peut être automatisée sans annotation humaine.

La compatibilité avec les API OpenAI simplifie l'adoption pour les équipes déjà familières de cet écosystème, et la prise en charge de modèles open weight ouvre la voie à des cas d'usage plus variés sans dépendance à des modèles propriétaires. Amazon positionne ainsi Bedrock comme une plateforme complète de personnalisation LLM, capable de rivaliser avec les offres de fine-tuning avancées d'OpenAI et de Google.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Affinage par renforcement sur Amazon Bedrock : bonnes pratiques
1AWS ML Blog 

Affinage par renforcement sur Amazon Bedrock : bonnes pratiques

Amazon a intégré le Reinforcement Fine-Tuning (RFT) à sa plateforme Bedrock, permettant aux entreprises de personnaliser ses modèles maison Amazon Nova ainsi que plusieurs modèles open source sans avoir besoin de vastes jeux de données étiquetés. Selon les résultats publiés par l'entreprise, cette technique peut générer jusqu'à 66 % de gain de précision par rapport aux modèles de base, à un coût et une complexité réduits. Concrètement, le RFT fonctionne différemment de l'apprentissage supervisé classique : au lieu de s'entraîner sur des paires entrée/sortie correctes, le modèle génère des réponses candidates, qui sont ensuite notées par une fonction de récompense, et ses paramètres sont mis à jour pour favoriser les réponses les mieux notées. Cette boucle itéractive, générer, scorer, ajuster, permet au modèle de découvrir des stratégies que de simples exemples statiques ne pourraient pas lui enseigner. La fonction de récompense est implémentée via AWS Lambda, directement appelée par Bedrock pendant l'entraînement. Cette approche ouvre des possibilités concrètes pour deux grandes familles de tâches. D'un côté, les tâches à critères vérifiables automatiquement : génération de code devant passer des tests unitaires, raisonnement mathématique avec réponses exactes, extraction de données structurées devant respecter un schéma strict, ou orchestration d'API. C'est ce qu'Amazon appelle le RLVR (Reinforcement Learning with Verifiable Rewards). De l'autre côté, les tâches subjectives comme la modération de contenu, les chatbots ou la rédaction créative, où un modèle juge évalue les sorties selon une grille d'évaluation détaillée, approche baptisée RLAIF (Reinforcement Learning with AI Feedback). Pour les équipes techniques, l'intérêt est d'éviter la collecte laborieuse de milliers d'exemples annotés, particulièrement difficile à réaliser pour des tâches de raisonnement complexe où l'expertise humaine est coûteuse. Le RFT s'inscrit dans une tendance lourde de l'industrie IA depuis les succès de DeepSeek-R1 début 2025, qui avait démontré que l'entraînement par renforcement sur des tâches vérifiables pouvait produire des capacités de raisonnement spectaculaires à moindre coût. Amazon emboîte le pas en industrialisant cette technique dans un service cloud managé, ce qui la rend accessible aux équipes sans infrastructure d'entraînement propre. En proposant RFT directement dans Bedrock avec des métriques de suivi intégrées et des guidelines de tuning d'hyperparamètres, Amazon cherche à s'imposer face à Azure et Google Cloud sur le segment de la personnalisation de modèles en entreprise. Le dataset GSM8K, utilisé comme exemple de référence dans la documentation, illustre bien l'ambition : transformer des modèles généralistes en spécialistes fiables sur des domaines métier précis, sans expertise en machine learning approfondie.

UELes entreprises européennes sur AWS peuvent désormais affiner des modèles IA sans jeux de données annotés massifs ni infrastructure ML propre, abaissant la barrière d'entrée pour la personnalisation de modèles en production.

OutilsOutil
1 source
2AWS ML Blog 

Amazon Bedrock : comprendre le cycle de vie des modèles

Amazon Web Services a formalisé le cycle de vie des modèles de fondation (FM) disponibles sur sa plateforme Bedrock, en introduisant un cadre structuré en trois états distincts : Actif, Hérité (Legacy) et Fin de vie (EOL). Ce système vise à donner aux entreprises une visibilité suffisante pour planifier leurs migrations sans interruption de service. Concrètement, un modèle reste disponible au minimum 12 mois après son lancement, puis passe en état Legacy avec un préavis d'au moins 6 mois avant sa date de fin de vie. AWS a également introduit une nouvelle phase intermédiaire appelée "extended access" pour les modèles dont la fin de vie est postérieure au 1er février 2026 : après 3 mois en état Legacy, le modèle entre dans cette période d'accès étendu pendant laquelle les utilisateurs actifs peuvent continuer à l'utiliser au moins 3 mois supplémentaires. Durant cette fenêtre, les demandes d'augmentation de quota ne seront plus approuvées et les tarifs peuvent être ajustés par le fournisseur du modèle, avec notification préalable. Cet encadrement change concrètement la manière dont les équipes techniques doivent gérer leurs applications IA en production. Jusqu'ici, une fin de vie pouvait surprendre des équipes insuffisamment préparées, entraînant des pannes ou des migrations précipitées. Avec ce calendrier prévisible, les développeurs peuvent anticiper les transitions, tester les modèles de remplacement via la console Bedrock ou l'API, et adapter leur code sans urgence. L'état d'un modèle est désormais exposé directement dans les réponses API via le champ modelLifecycle, accessible lors d'appels GetFoundationModel ou ListFoundationModels. Il faut toutefois noter que les comptes inactifs en phase Legacy, c'est-à-dire n'ayant pas appelé le modèle pendant 15 jours ou plus, peuvent perdre l'accès prématurément. La migration vers un nouveau modèle reste une action manuelle : rien ne se fait automatiquement lorsqu'un modèle atteint sa date EOL. Cette politique s'inscrit dans un contexte où Amazon Bedrock multiplie les modèles disponibles, provenant de fournisseurs comme Anthropic, Meta, Mistral ou Cohere, chacun avec ses propres cycles de mise à jour. À mesure que ces modèles évoluent rapidement, l'accumulation de versions obsolètes pose des problèmes de maintenance et de sécurité pour AWS comme pour ses clients. En clarifiant les règles du jeu, AWS cherche à professionnaliser la gestion du cycle de vie des IA en entreprise, sur le modèle de ce que font déjà les plateformes cloud pour leurs APIs et services logiciels. La prochaine étape pour les équipes utilisant Bedrock sera d'intégrer ces états dans leurs processus de surveillance et d'alerte, afin de ne jamais être pris de court lors d'une transition de modèle.

UELes entreprises européennes utilisant Amazon Bedrock doivent intégrer ce nouveau cadre de cycle de vie dans leurs processus de gestion des applications IA en production pour éviter des interruptions de service.

OutilsOpinion
1 source
Amazon Bedrock Projects : gérer les coûts de l'IA
3AWS ML Blog 

Amazon Bedrock Projects : gérer les coûts de l'IA

Amazon a lancé une nouvelle fonctionnalité appelée Amazon Bedrock Projects, qui permet aux équipes techniques d'attribuer précisément les coûts d'inférence IA à des charges de travail spécifiques. Concrètement, chaque "projet" dans Bedrock constitue une frontière logique représentant une application, un environnement ou une expérimentation. Les développeurs associent des tags de ressources à ces projets et transmettent un identifiant de projet dans leurs appels API. Ces données remontent ensuite dans AWS Cost Explorer et AWS Data Exports, les outils de suivi financier d'Amazon Web Services, permettant de filtrer, regrouper et analyser les dépenses par dimension métier : application, équipe, environnement ou centre de coûts. La fonctionnalité est compatible avec les API OpenAI (Responses API et Chat Completions API), ce qui facilite l'intégration pour les équipes déjà habituées à ces standards. Les requêtes envoyées sans identifiant de projet sont automatiquement rattachées à un projet par défaut dans le compte AWS concerné. L'enjeu est direct pour les grandes organisations qui font tourner plusieurs applications IA en parallèle : sans attribution précise, impossible de savoir quelle équipe consomme quoi, ni d'effectuer des refacturations internes (chargebacks) ou d'investiguer des pics de dépenses inexpliqués. Bedrock Projects répond à ce besoin en donnant une visibilité granulaire sur la facture IA, département par département. Une équipe "CustomerExperience" peut ainsi être distinguée d'une équipe "DataScience", chacune avec son propre centre de coûts. Cela permet également de guider les décisions d'optimisation : identifier quels workloads sont disproportionnément coûteux par rapport à leur valeur métier, et agir en conséquence. Cette annonce s'inscrit dans une tendance plus large de maturité de la FinOps appliquée à l'IA. À mesure que les déploiements LLM passent du stade expérimental à la production à grande échelle, la gestion financière devient un enjeu stratégique autant que technique. AWS rejoint ainsi des préoccupations déjà bien présentes chez les DSI et les directeurs financiers, qui voient les budgets cloud IA gonfler rapidement sans toujours disposer des outils pour les piloter. La stratégie de tags recommandée par Amazon -- Application, Environment, Team, CostCenter -- reflète les pratiques standard de gouvernance cloud, mais appliquées désormais spécifiquement à la couche inférence. Les prochaines étapes logiques pourraient inclure des alertes budgétaires par projet ou des quotas d'utilisation, des mécanismes déjà existants dans AWS pour d'autres services et qui manquent encore à Bedrock Projects dans sa forme actuelle.

UELes organisations européennes utilisant AWS Bedrock peuvent désormais mieux contrôler et attribuer leurs coûts d'inférence IA, un enjeu croissant pour les DSI soumis à des contraintes budgétaires strictes.

OutilsActu
1 source
4AWS ML Blog 

Optimiser la recherche sémantique vidéo avec la distillation de modèles Amazon Nova sur Amazon Bedrock

Amazon Web Services a publié un tutoriel détaillé expliquant comment utiliser la technique de distillation de modèles sur Amazon Bedrock pour optimiser les systèmes de recherche sémantique vidéo. Le cœur du problème : les modèles de grande taille comme Claude Haiku d'Anthropic offrent une excellente précision pour interpréter l'intention de recherche des utilisateurs, mais ils allongent le temps de réponse à 2 à 4 secondes, représentant à eux seuls 75 % de la latence totale. La solution proposée consiste à transférer l'intelligence de routage d'un grand modèle dit "enseignant", Amazon Nova Premier, vers un modèle beaucoup plus léger dit "étudiant", Amazon Nova Micro. Le résultat : une réduction des coûts d'inférence de plus de 95 % et une baisse de la latence de 50 %, sans sacrifier la qualité de routage. L'enjeu est considérable pour les entreprises qui gèrent de larges catalogues vidéo. Lorsqu'un utilisateur tape "Olivia qui parle de son enfance dans la pauvreté", le système doit décider automatiquement quels aspects de la vidéo interroger en priorité : les métadonnées textuelles, la transcription audio, les données visuelles ou les informations structurées. Cette logique de routage devient rapidement complexe à l'échelle enterprise, où les attributs peuvent inclure les angles de caméra, le sentiment, les droits de diffusion ou des taxonomies métier propriétaires. Un modèle plus petit et distillé qui maîtrise cette tâche précise permet de traiter davantage de requêtes simultanément, à un coût marginal quasi nul, ce qui change fondamentalement l'équation économique des moteurs de recherche multimodaux. La distillation de modèles se distingue du fine-tuning supervisé classique par un avantage pratique majeur : elle ne nécessite pas de dataset entièrement étiqueté par des humains. Amazon Bedrock génère automatiquement jusqu'à 15 000 paires prompt-réponse en interrogeant le modèle enseignant, en appliquant des techniques de synthèse et d'augmentation de données. Dans ce pipeline, 10 000 exemples synthétiques ont été produits via Nova Premier, chargés sur Amazon S3, puis utilisés pour entraîner Nova Micro. Le modèle résultant est ensuite évalué via Amazon Bedrock Model Evaluation, comparé à la base Nova Micro et au Claude Haiku original. AWS a publié l'intégralité du notebook Jupyter, le script de génération des données et les utilitaires d'évaluation sur GitHub, rendant cette approche reproductible pour toute équipe souhaitant industrialiser la recherche vidéo à grande échelle.

OutilsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour