Aller au contenu principal
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
OutilsMarkTechPost1h

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

1 source couvre ce sujet·Source originale ↗·

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand.

L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases.

Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

Impact France/UE

Hugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

À lire aussi

Construire un pipeline d'optimisation bayésienne conditionnelle des hyperparamètres avec Hyperopt, TPE et arrêt anticipé
1MarkTechPost 

Construire un pipeline d'optimisation bayésienne conditionnelle des hyperparamètres avec Hyperopt, TPE et arrêt anticipé

Un tutoriel publié récemment détaille l'implémentation complète d'un pipeline d'optimisation bayésienne des hyperparamètres en Python, en combinant la bibliothèque Hyperopt et l'algorithme TPE (Tree-structured Parzen Estimator). L'objectif est de construire un espace de recherche conditionnel qui bascule dynamiquement entre deux familles de modèles (régression logistique et machines à vecteurs de support SVM), en explorant des plages de paramètres distinctes pour chacune. Le code s'appuie sur scikit-learn pour la construction de pipelines et l'évaluation par validation croisée stratifiée en 5 plis, appliquée au jeu de données Breast Cancer. Pour la régression logistique, les paramètres explorés incluent le coefficient de régularisation C sur une plage logarithmique de 1e-4 à 1e2, le solveur (lbfgs ou liblinear) et le nombre d'itérations maximum entre 200 et 2000. Pour le SVM, l'algorithme explore les noyaux rbf et polynomial, ainsi que les paramètres C et gamma. Le tutoriel intègre également un arrêt précoce déclenché dès que les améliorations de la fonction de perte stagnent, ainsi qu'une analyse complète de l'objet Trials, qui consigne l'historique de chaque évaluation effectuée. Pour les praticiens du machine learning, l'optimisation manuelle des hyperparamètres reste coûteuse en temps et peu reproductible. L'approche bayésienne présentée dépasse les méthodes classiques comme la recherche par grille ou la recherche aléatoire : au lieu d'explorer l'espace de paramètres de façon exhaustive ou aveugle, TPE modélise la distribution des configurations performantes et oriente intelligemment les essais suivants. La structure conditionnelle de l'espace de recherche, rendue possible par hp.choice dans Hyperopt, évite de tester des paramètres non pertinents pour une architecture donnée, réduisant ainsi le nombre d'évaluations inutiles. L'intégration du mécanisme d'arrêt précoce basé sur la stagnation des résultats permet en outre d'économiser des ressources de calcul significatives, un avantage concret dès que les modèles deviennent coûteux à entraîner. Hyperopt est une bibliothèque Python open source dont les bases théoriques remontent aux travaux de James Bergstra et ses collaborateurs sur les estimateurs de Parzen et l'optimisation bayésienne. Dans un contexte où l'entraînement de grands modèles mobilise des budgets considérables, l'optimisation efficace des hyperparamètres est devenue un enjeu industriel de premier plan. Des outils concurrents comme Optuna, Ray Tune ou Weights & Biases Sweeps proposent des fonctionnalités similaires voire plus avancées, mais Hyperopt conserve une base d'utilisateurs fidèle pour sa simplicité et son intégration directe dans des pipelines scikit-learn. Le framework présenté est conçu pour être étendu à l'apprentissage profond et aux environnements distribués, ce qui en fait un point d'entrée solide pour des équipes souhaitant industrialiser leur processus de tuning sans repartir de zéro.

OutilsTuto
1 source
Orchestration d'agents
2MIT Technology Review 

Orchestration d'agents

Les agents IA orchestrés en réseau constituent désormais la prochaine grande rupture technologique. Alors que ChatGPT a rendu les grands modèles de langage accessibles au grand public, les outils multi-agents représentent une étape qualitativement différente : des systèmes capables de déléguer, coordonner et exécuter des tâches complexes en parallèle. Claude Code, lancé par Anthropic l'année dernière, permet par exemple de piloter simultanément plusieurs dizaines de sous-agents, chacun affecté à une portion distincte d'une base de code. Chez OpenAI, Codex joue un rôle similaire. Anthropic affirme avoir développé son application de productivité Claude Cowork en seulement dix jours grâce à Claude Code, là où un projet comparable aurait nécessité plusieurs mois. Perplexity a également lancé Computer, un outil généraliste pour professionnels. Google DeepMind propose de son côté Co-Scientist, une plateforme qui permet aux chercheurs de confier à des équipes d'agents la recherche bibliographique, la génération d'hypothèses et la conception d'expériences. L'enjeu dépasse largement le secteur du logiciel. Ces outils s'adressent désormais à tous les cols blancs : gestion de boîtes mail, suivi d'inventaires, traitement des réclamations clients. La promesse centrale est de transformer le travailleur qualifié en chef de projet capable de superviser une équipe d'agents, multipliant ainsi sa productivité. Les partisans de cette technologie évoquent une rupture comparable à ce que la chaîne d'assemblage de Henry Ford a représenté pour l'industrie manufacturière au siècle dernier : une réorganisation profonde du travail de connaissance, potentiellement synonyme de suppressions massives de postes dans les fonctions tertiaires ou, à l'inverse, d'un bond de productivité sans précédent pour ceux qui sauront maîtriser ces outils. La montée en puissance de ces systèmes s'inscrit dans une dynamique portée par les géants de la tech. Des entreprises comme Nvidia et Tencent ont déjà commencé à développer leurs propres agents en s'appuyant sur des bases open source, comme celles popularisées par OpenClaw, un assistant personnel vocal qui avait capté l'attention malgré des failles de sécurité notoires. La vraie question qui se pose aujourd'hui n'est plus technique mais systémique : jusqu'où peut-on laisser des agents autonomes interagir avec des infrastructures critiques, des systèmes de santé, des plateformes financières ou des réseaux sociaux ? Les grands modèles de langage restent imprévisibles, et ce qui n'est qu'une erreur bénigne dans une interface de chat peut devenir un incident grave lorsque l'agent agit directement dans le monde réel. Le secteur avance vite, mais le cadre de contrôle, lui, peine à suivre.

UELa prolifération d'agents autonomes dans les fonctions tertiaires et les infrastructures critiques interpelle directement le cadre réglementaire européen, notamment l'AI Act qui classe certains usages d'agents autonomes comme systèmes à haut risque nécessitant audit et supervision humaine.

OutilsOutil
1 source
Google lance des agents Deep Research capables d'explorer le web et vos données privées
3VentureBeat AI 

Google lance des agents Deep Research capables d'explorer le web et vos données privées

Google a dévoilé lundi une mise à jour majeure de ses agents de recherche autonomes, en lançant deux nouvelles versions de son outil Deep Research dans l'API Gemini : Deep Research et Deep Research Max. Construits sur le modèle Gemini 2.5 Pro, ces agents permettent pour la première fois aux développeurs de combiner des données issues du web ouvert avec des informations internes à l'entreprise via un seul appel API. Ils intègrent également la génération native de graphiques et d'infographies directement dans les rapports produits, ainsi que la connexion à des sources de données tierces grâce au protocole MCP (Model Context Protocol). Les deux agents sont disponibles dès aujourd'hui en prévisualisation publique dans les offres payantes de l'API Gemini. Sur le plan des performances, Google annonce des scores de 93,3 % sur le benchmark DeepSearchQA et 54,6 % sur HLE pour la version Max, selon un message du PDG Sundar Pichai publié sur X. Les deux agents répondent à des besoins différents selon une logique de compromis entre vitesse et exhaustivité. Deep Research, la version standard, est optimisée pour des usages interactifs à faible latence : elle convient aux interfaces utilisateurs qui doivent répondre à des questions analytiques complexes en quasi-temps réel, comme un tableau de bord financier. Deep Research Max, à l'inverse, mobilise un calcul étendu à l'inférence pour produire des analyses plus profondes et mieux sourcées, conçues pour des workflows asynchrones en arrière-plan. C'est l'outil pour une équipe d'analystes qui lance une série de rapports de due diligence avant de quitter le bureau et les récupère entièrement traités le lendemain matin. C'est surtout la prise en charge du protocole MCP qui constitue le saut qualitatif le plus significatif : elle permet aux agents d'interroger des bases de données privées, des référentiels documentaires internes et des services de données spécialisés, transformant Deep Research d'un outil de veille web en quelque chose qui s'approche d'un analyste de données universel. Ce lancement s'inscrit dans une course qui s'intensifie entre les grands acteurs de l'IA pour proposer des systèmes capables de conduire de manière autonome des recherches multi-sources, un travail qui mobilise traditionnellement des heures, voire des jours, d'analyse humaine. Google positionne cette infrastructure comme l'épine dorsale des workflows de recherche en entreprise, notamment dans la finance, les sciences du vivant et l'intelligence de marché. La première version de Deep Research avait été lancée en décembre 2025 via l'Interactions API, et le produit aurait « gagné beaucoup de terrain en trois mois », selon Logan Kilpatrick, responsable des relations développeurs chez Google AI. Ce déploiement accéléré signale que Google entend faire de son API Gemini une plateforme centrale pour les applications d'agents d'entreprise, un segment où OpenAI, Anthropic et Microsoft se disputent également une position dominante.

UELes entreprises européennes intégrant leurs données internes via MCP devront vérifier la conformité RGPD avant d'adopter cette API.

OutilsOutil
1 source
Windows et Copilot : 5 astuces secrètes à connaître
4Le Big Data 

Windows et Copilot : 5 astuces secrètes à connaître

Microsoft intègre depuis plusieurs mois Copilot directement dans Windows 11, transformant l'assistant d'intelligence artificielle en outil natif accessible depuis n'importe quel contexte de travail. Parmi les fonctionnalités les moins connues, le raccourci clavier Alt + Barre d'espace permet d'invoquer Copilot instantanément par-dessus toute application ouverte, sans quitter l'écran actif. Sur les PC labellisés Copilot+, une touche physique dédiée remplit la même fonction. L'interface s'affiche soit en panneau latéral fixe, soit en fenêtre flottante compacte, selon les préférences configurées dans les paramètres système. Par ailleurs, Windows 11 intègre désormais un mode vocal accessible via une icône micro dans l'interface de l'assistant, permettant des échanges parlés en temps réel, avec transcription immédiate et réponse écrite, ou lue à voix haute selon le matériel. Le raccourci Win + H active quant à lui la dictée globale du système comme alternative complémentaire. Ces fonctionnalités changent concrètement la manière dont les professionnels interagissent avec leur machine. L'objectif affiché de Microsoft est de réduire les micro-interruptions : consulter l'IA sans minimiser ses fenêtres, poser une question vocalement sans structurer sa phrase, obtenir une aide sur une formule Excel ou une reformulation sans changer d'application. Pour les utilisateurs qui passent de longues heures sur des tâches cognitives, le gain en concentration est réel. Le mode vocal est particulièrement pertinent pour le brainstorming ou l'explication de problèmes complexes, où la fluidité orale dépasse la rapidité de frappe. Ces usages font de Copilot moins un moteur de recherche amélioré qu'un véritable partenaire de travail intégré au flux quotidien. Cette évolution s'inscrit dans la stratégie globale de Microsoft de placer l'IA au coeur de Windows, accélérée depuis l'investissement massif dans OpenAI et le lancement de Copilot en 2023. La certification Copilot+ PC, introduite en 2024, définit un nouveau standard matériel incluant une puce NPU dédiée aux traitements d'IA locaux, permettant des fonctions comme Recall ou la génération d'images en temps réel. L'enjeu pour Microsoft est double : différencier Windows face à macOS sur le terrain de l'IA embarquée, et pousser les entreprises vers des abonnements Microsoft 365 Copilot, facturés 30 dollars par utilisateur par mois. La question qui reste ouverte est celle de l'adoption réelle : beaucoup de ces raccourcis et modes restent ignorés du grand public, ce qui explique la multiplication de guides pratiques pour démocratiser des usages que Microsoft juge pourtant centraux dans sa vision de l'informatique personnelle de demain.

UELes entreprises françaises et européennes sous Microsoft 365 sont directement concernées par l'abonnement Copilot à 30 $/utilisateur/mois, un surcoût à peser dans leurs décisions d'adoption.

OutilsOutil
1 source