Aller au contenu principal
OutilsAWS ML Blog7sem

Nova Forge SDK : une solution simple pour personnaliser les modèles Nova pour l'IA en entreprise

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon lance le Nova Forge SDK, un outil destiné à simplifier radicalement la personnalisation des modèles de langage Amazon Nova pour les entreprises. Conçu pour abaisser les barrières techniques à l'entrée, ce kit de développement unifié couvre l'intégralité du cycle de vie de la customisation — de la préparation des données à l'entraînement et jusqu'au déploiement en production.

La personnalisation des LLMs est devenue un impératif pour les entreprises qui ne peuvent se satisfaire de réponses génériques face à leurs workflows propriétaires et leur terminologie métier spécifique. Jusqu'ici, ces projets exigeaient une infrastructure complexe, une gestion laborieuse des dépendances et un investissement technique considérable. Le Nova Forge SDK répond directement à ce frein en proposant des workflows intelligents avec des paramètres par défaut raisonnés, tout en laissant aux utilisateurs avancés un accès complet aux SDK sous-jacents.

L'outil s'articule autour de trois couches : une couche d'entrée (RuntimeManager) pour configurer le matériel, la plateforme et les permissions IAM ; une couche de customisation qui construit automatiquement les configurations de recettes et lance les jobs d'entraînement ; et une couche de sortie qui génère les artefacts finaux — logs CloudWatch, métriques ML Flow, logs TensorBoard — ainsi que le modèle entraîné, déployable sur Amazon SageMaker AI ou Amazon Bedrock. Le SDK supporte l'ensemble du spectre de customisation : SFT (Supervised Fine-Tuning), RFT (Reinforcement Fine-Tuning), DPO (Direct Preference Optimization), ainsi que les approches LoRA et full rank.

Un point technique notable est la prise en charge de la problématique du "catastrophic forgetting" — ce phénomène par lequel un modèle affiné sur des données spécialisées perd ses capacités générales de raisonnement et de suivi d'instructions. Nova Forge permet de démarrer depuis des checkpoints précoces du modèle et de mélanger les données propriétaires avec les datasets curatés par Amazon Nova, offrant ainsi un équilibre entre spécialisation métier et préservation des compétences fondamentales.

Impact France/UE

Les équipes data européennes utilisant des services cloud peuvent désormais personnaliser des modèles LLM via un SDK unifié sans expertise infrastructure spécifique.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Lancez vos expériences de personnalisation Nova avec le SDK Nova Forge

Amazon lance le Nova Forge SDK, un outil qui simplifie la personnalisation de grands modèles de langage (LLM) en éliminant les contraintes de gestion des dépendances et de configuration d'infrastructure. Le SDK supporte l'ensemble du spectre de personnalisation, du fine-tuning supervisé (SFT) au Reinforcement Fine-Tuning (RFT), en s'appuyant sur Amazon SageMaker AI et Amazon Nova Forge. Une étude de cas sur la classification de 60 000 questions Stack Overflow en trois catégories de qualité illustre comment le SDK permet d'entraîner et déployer des modèles personnalisés avec des jeux de données à partir de 3 500 exemples.

OutilsOutil
1 source
OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise
2VentureBeat AI 

OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise

OpenAI a publié Privacy Filter, un modèle open source spécialisé dans la détection et la suppression des informations personnelles identifiables (PII) avant qu'elles n'atteignent un serveur distant. Disponible sur Hugging Face sous licence Apache 2.0, cet outil repose sur 1,5 milliard de paramètres mais n'en active que 50 millions à chaque traitement, grâce à une architecture Sparse Mixture-of-Experts qui réduit considérablement la charge de calcul. Contrairement aux grands modèles de langage classiques qui lisent un texte de gauche à droite, Privacy Filter est un classificateur bidirectionnel de tokens : il analyse chaque phrase dans les deux sens simultanément, ce qui lui permet de mieux distinguer, par exemple, si le prénom "Alice" désigne une personne privée ou un personnage littéraire public. Le modèle gère une fenêtre de contexte de 128 000 tokens, suffisante pour traiter un document juridique entier en une seule passe, et s'appuie sur un décodeur de Viterbi contraint avec un schéma de balisage BIOES pour garantir la cohérence des entités redactées. Il détecte huit catégories de données sensibles : noms de personnes, coordonnées, identifiants numériques, URLs, numéros de compte, dates et identifiants secrets comme les clés API. L'enjeu concret est considérable pour les entreprises soumises au RGPD ou à la réglementation HIPAA dans le secteur de la santé. En déployant Privacy Filter directement sur leurs serveurs internes ou dans leur cloud privé, elles peuvent anonymiser les données localement avant de les envoyer vers un modèle plus puissant comme GPT-5 ou gpt-oss-120b, sans jamais exposer d'informations sensibles à l'extérieur. Ce modèle résout un problème structurel de l'adoption de l'IA en entreprise : le risque que des données confidentielles, médicales ou financières se retrouvent intégrées dans des pipelines d'inférence ou de fine-tuning hébergés dans le cloud. La possibilité de faire tourner le modèle sur un laptop standard ou directement dans un navigateur web abaisse encore davantage la barrière d'entrée. Cette publication s'inscrit dans un retour marqué d'OpenAI vers l'open source, après des années centrées sur des modèles propriétaires accessibles uniquement via ChatGPT et l'API. Début 2025, l'entreprise avait déjà lancé la famille gpt-oss, des modèles à poids ouverts orientés raisonnement, puis ouvert plusieurs outils d'orchestration agentique. Privacy Filter est un dérivé direct de cette famille gpt-oss, réentraîné pour la classification plutôt que la génération. Ce virage stratégique suggère qu'OpenAI cherche à consolider sa position dans l'écosystème développeur face à la concurrence de Meta (LLaMA), Mistral et Google, en proposant des briques d'infrastructure que les entreprises peuvent intégrer sans dépendance à ses services payants. La prochaine étape logique serait l'extension des catégories PII supportées et l'intégration native dans les frameworks agentiques déjà publiés.

UELes entreprises françaises et européennes soumises au RGPD peuvent déployer Privacy Filter en local pour anonymiser leurs données sensibles avant tout envoi vers un service cloud, réduisant directement leur risque de non-conformité réglementaire.

💬 C'est exactement le verrou qui bloquait l'adoption en entreprise depuis deux ans. Un modèle léger, déployable en local, qui filtre les données personnelles avant d'envoyer vers le cloud : sur le papier, c'est le genre de brique qu'on attendait. Et distribuer ça sous Apache 2.0, c'est malin : si ton pipeline s'appuie sur leurs outils gratuits, tu vas finir par appeler leurs modèles payants derrière.

OutilsOutil
1 source
Bluesky lance une application IA pour personnaliser votre fil d'actualité
3The Verge AI 

Bluesky lance une application IA pour personnaliser votre fil d'actualité

Bluesky a dévoilé Attie lors de la conférence Atmosphere, un assistant IA qui permet aux utilisateurs de construire leurs propres algorithmes de fil d'actualité en langage naturel. L'application a été présentée par l'ancienne PDG de Bluesky, Jay Graber, et le directeur technique Paul Frazee. Attie s'appuie sur Claude, le modèle d'Anthropic, et est construit sur l'AT Protocol (atproto), le protocole ouvert qui sous-tend l'ensemble de l'écosystème Bluesky. Concrètement, un utilisateur peut demander à Attie de lui composer un fil centré sur « le folklore, la mythologie et la musique traditionnelle, notamment les traditions celtiques » — et l'IA génère l'algorithme correspondant. Pour l'instant, ces fils personnalisés sont limités à une application autonome Attie, mais l'équipe prévoit de les intégrer directement dans Bluesky et dans toutes les applications compatibles atproto. Ce changement donne aux utilisateurs un contrôle éditorial réel sur ce qu'ils voient, sans dépendre des choix opaques d'un algorithme centralisé imposé par la plateforme — une rupture directe avec le modèle de TikTok ou de X. Cette annonce s'inscrit dans la montée en puissance de Bluesky comme alternative décentralisée aux grands réseaux sociaux, portée par la vague de départs de X depuis le rachat par Elon Musk. L'AT Protocol, conçu pour être ouvert et interopérable, devient ici un terrain d'expérimentation pour une nouvelle génération d'outils IA communautaires. Si Attie se déploie largement, il pourrait redéfinir la relation entre utilisateurs et algorithmes de recommandation à l'échelle d'un réseau social entier.

UEBluesky étant très populaire en France suite aux migrations massives depuis X, Attie offre aux utilisateurs français un contrôle éditorial concret sur leur fil d'actualité sans dépendre d'algorithmes opaques imposés par la plateforme.

OutilsOutil
1 source
Mistral Forge : l’offensive de Mistral AI pour rendre l’IA d’entreprise réellement souveraine
4ZDNET FR 

Mistral Forge : l’offensive de Mistral AI pour rendre l’IA d’entreprise réellement souveraine

Mistral AI lance Forge, une plateforme permettant aux entreprises d'entraîner des modèles d'IA sur leurs propres données, standards et politiques internes. L'objectif est de résoudre le problème de souveraineté numérique en offrant une alternative aux modèles généralistes qui imposent une dépendance aux fournisseurs étrangers. Avec Forge, la startup française positionne l'IA d'entreprise comme réellement contrôlable et adaptée aux besoins spécifiques de chaque organisation.

UEMistral AI, startup française, offre aux entreprises européennes une solution d'entraînement de modèles sur leurs propres données, réduisant concrètement la dépendance aux fournisseurs étrangers et facilitant la conformité au cadre réglementaire européen.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour