Aller au contenu principal
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
OutilsMarkTechPost3sem

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Résumé IASource uniqueImpact UE
Source originale ↗·

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand.

L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases.

Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

Impact France/UE

Hugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch
1MarkTechPost 

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch

NVIDIA a lancé AITune, un outil open source destiné à automatiser l'optimisation des modèles PyTorch pour l'inférence sur GPU. Disponible sous licence Apache 2.0 et installable via PyPI, cet outil s'adresse aux équipes qui déploient des modèles de deep learning en production et qui souhaitent éviter le travail d'ingénierie manuel habituellement requis pour choisir et configurer les backends d'optimisation. AITune prend en charge plusieurs frameworks, TensorRT, Torch-TensorRT, TorchAO et Torch Inductor, et les évalue automatiquement sur le matériel cible pour sélectionner le plus performant, sans que le développeur ait à intervenir. Il couvre une large gamme de cas d'usage : vision par ordinateur, traitement du langage naturel, reconnaissance vocale et IA générative. Le résultat de l'optimisation est sérialisé dans un fichier .ait, compilé une seule fois et rechargeable à chaque redéploiement sans temps de chauffe. L'outil répond à un problème concret qui ralentissait les équipes MLOps depuis des années : le fossé entre le modèle entraîné par un chercheur et le modèle réellement efficace en conditions de production. Jusqu'ici, comparer TensorRT, Torch-TensorRT ou TorchAO nécessitait de les configurer et tester séparément, souvent avec du code sur mesure. AITune effondre ce travail en une seule API Python. Il propose deux modes : un mode AOT (ahead-of-time), qui profile tous les backends, valide la correction des sorties et sélectionne le meilleur pour chaque sous-module du modèle ou de la pipeline, et un mode JIT (just-in-time), qui s'active via une variable d'environnement et optimise les modules à la volée sans modifier le code existant. Le mode AOT est le plus puissant : il détecte les axes dynamiques comme la longueur de séquence dans les LLMs, permet de mélanger différents backends dans une même pipeline, et met en cache les artefacts pour éviter de recompiler à chaque redéploiement. Ce lancement s'inscrit dans un effort plus large de NVIDIA pour simplifier le chemin entre la recherche et la production à mesure que la pression sur les coûts d'inférence s'intensifie. Avec la multiplication des modèles déployés à grande échelle, notamment des LLMs et des modèles de vision, le choix du backend d'optimisation est devenu un levier critique de rentabilité. TensorRT existe depuis plus d'une décennie, mais son intégration dans des pipelines PyTorch complexes restait laborieuse. En proposant une abstraction unifiée et automatisée, NVIDIA positionne AITune comme un outil de référence pour les équipes d'ingénierie ML, potentiellement en concurrence directe avec des solutions propriétaires ou des pipelines maison. La disponibilité en open source sous Apache 2.0 devrait favoriser une adoption rapide, notamment dans les entreprises qui cherchent à optimiser leurs coûts GPU sans investir dans des équipes spécialisées en compilation de modèles.

UELes équipes MLOps européennes peuvent adopter immédiatement cet outil open source via PyPI pour réduire leurs coûts d'inférence GPU en production, sans dépendance à des solutions propriétaires.

OutilsOutil
1 source
Siemens lance un système d'IA pour l'ingénierie d'automatisation
2AI News 

Siemens lance un système d'IA pour l'ingénierie d'automatisation

Siemens a dévoilé l'Eigen Engineering Agent, un système d'intelligence artificielle conçu pour planifier et valider des tâches d'ingénierie en automatisation industrielle. Intégré directement dans la plateforme TIA Portal (Totally Integrated Automation Engineering), qui compte plus de 600 000 utilisateurs dans le monde, cet agent autonome est capable d'interpréter des cahiers des charges, de générer du code pour automates programmables (PLC), de configurer des interfaces homme-machine (HMI) et d'affiner ses résultats jusqu'à ce qu'ils atteignent les critères de performance définis. Le système décompose les problèmes d'ingénierie en étapes séquentielles, évalue chaque résultat en boucle fermée, puis soumet la version finale à la validation d'un ingénieur humain. Selon Siemens, il exécute ces tâches deux à cinq fois plus vite que les workflows manuels équivalents. Des pilotes ont été menés auprès de plus de 100 entreprises dans 19 pays, impliquant notamment ANDRITZ Metals, CASMT et Prism Systems. Prism Systems a utilisé l'outil pour générer et importer du code SCL (Structured Control Language), tandis que CASMT l'a appliqué à la configuration de dispositifs, la génération de code et la visualisation HMI dans des lignes de production, réduisant ainsi les transferts entre spécialistes et les délais de livraison. L'Eigen Engineering Agent est disponible au sein du portfolio Xcelerator de Siemens. L'enjeu est considérable pour un secteur industriel sous pression. Les estimations du marché prévoient un déficit mondial pouvant atteindre sept millions de travailleurs dans la fabrication d'ici 2030, avec environ un poste d'ingénieur sur cinq actuellement non pourvu dans certains secteurs. Un outil capable d'automatiser des tâches d'ingénierie complexes et répétitives sans sacrifier la précision représente donc une réponse directe à cette pénurie structurelle. Pour les industriels, cela signifie concrètement des cycles de développement raccourcis, moins de dépendance à des spécialistes rares, et la possibilité d'intégrer des environnements hérités ou non documentés grâce à la capacité du système à lire les hiérarchies de contrôle et les dépendances de composants existants. Cette annonce s'inscrit dans une stratégie d'investissement massive de Siemens dans l'IA industrielle, matérialisée par un engagement d'un milliard d'euros annoncé précédemment. Le groupe allemand mobilise aujourd'hui plus de 1 500 spécialistes en IA et détient plus de 2 000 familles de brevets liés à l'IA à l'échelle mondiale. Le lancement de l'Eigen Engineering Agent illustre la transition du secteur industriel vers des systèmes d'IA agentiques, capables non plus seulement d'assister, mais d'exécuter des workflows complets de bout en bout. Les déploiements initiaux se concentrent sur l'ingénierie d'automatisation, mais Siemens indique que l'architecture est conçue pour s'étendre à d'autres segments de la chaîne de valeur industrielle, ouvrant la voie à une automatisation plus large des processus d'ingénierie dans les usines connectées.

UESiemens, groupe industriel allemand de référence en Europe, déploie cet agent directement dans les usines manufacturières européennes confrontées à une pénurie structurelle d'ingénieurs en automatisation, avec un potentiel de réduction des délais de livraison et de la dépendance aux spécialistes rares dans le tissu industriel français et européen.

OutilsOutil
1 source
AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents
3MarkTechPost 

AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents

Kevin Gu, ingénieur chez thirdlayer.inc, a publié AutoAgent, une bibliothèque open source qui automatise l'optimisation des agents IA. En l'espace de 24 heures d'exécution autonome, le système a atteint la première place sur SpreadsheetBench avec un score de 96,5 %, et la meilleure performance GPT-5 sur TerminalBench avec 55,1 %. Le projet est disponible sur GitHub avec une architecture délibérément minimaliste : un fichier agent.py qui contient l'intégralité du harness sous test, un fichier program.md que l'humain édite pour donner la directive, et un journal d'expériences results.tsv maintenu automatiquement par le méta-agent pour tracer l'historique de chaque run. Le principe est simple mais radical : là où un ingénieur IA passe des journées à ajuster manuellement les prompts système, les définitions d'outils et la logique d'orchestration de son agent, AutoAgent confie cette boucle d'itération à un second agent, le méta-agent, qui lit la directive, inspecte agent.py, exécute le benchmark, analyse les échecs, réécrit les parties pertinentes et recommence. L'humain ne touche jamais agent.py directement. Ce ratchet loop, proposer une modification, mesurer le score, conserver si meilleur, rejeter sinon, est directement inspiré du projet autoresearch d'Andrej Karpathy, qui applique la même logique à l'entraînement de modèles ML. AutoAgent transpose ce mécanisme au niveau du harness : le prompt système, les outils disponibles, le routage entre sous-agents et la stratégie d'orchestration. Concrètement, toute équipe qui développe des agents complexes pourrait déléguer la phase d'optimisation la plus fastidieuse à un processus nocturne entièrement automatisé, réduisant drastiquement le temps humain consacré au réglage fin. Cette publication s'inscrit dans une tendance plus large d'automatisation de l'ingénierie IA elle-même, souvent désignée sous le terme "méta-apprentissage" ou "self-improvement". Depuis que les LLMs ont démontré leur capacité à écrire et modifier du code de manière fiable, plusieurs laboratoires et chercheurs indépendants explorent des architectures où un modèle supervise l'amélioration d'un autre, ou de lui-même. AutoAgent se distingue par sa portée pratique immédiate : il ne requiert pas d'infrastructure exotique, s'appuie sur le format Harbor pour exprimer les benchmarks, et peut être adapté à n'importe quel domaine via les dossiers tasks/ et .agent/. Les résultats sur TerminalBench et SpreadsheetBench, deux benchmarks reconnus dans la communauté, donnent une crédibilité concrète à l'approche. La question ouverte reste celle du contrôle : lorsqu'un méta-agent réécrit librement la logique d'orchestration d'un système en production, les garanties de sécurité et de prévisibilité du comportement final deviennent un enjeu non trivial que la bibliothèque n'adresse pas encore explicitement.

💬 C'est exactement la boucle que tout dev d'agents rêve d'automatiser, et là quelqu'un l'a fait en un seul fichier. Le score sur SpreadsheetBench est bluffant, bon, reste à voir ce que ça donne sur des tâches moins balisées qu'un benchmark. La vraie question, c'est quand le méta-agent commence à réécrire l'orchestration en prod sans que tu comprennes pourquoi ça marche.

OutilsOutil
1 source
Salesforce lance Agentforce Operations pour corriger les workflows qui bloquent l'IA en entreprise
4VentureBeat AI 

Salesforce lance Agentforce Operations pour corriger les workflows qui bloquent l'IA en entreprise

Salesforce a lancé Agentforce Operations, une nouvelle plateforme de gestion des workflows d'entreprise conçue pour rendre les processus back-office compatibles avec les agents IA. Présentée lors d'un entretien accordé à VentureBeat par Sanjna Parulekar, vice-présidente senior des Produits chez Salesforce, cette solution permet aux entreprises de télécharger leurs processus existants ou d'utiliser des modèles prédéfinis appelés Blueprints. Le système décompose ensuite ces workflows en tâches précises et structurées, assignées à des agents spécialisés. L'objectif est de créer une couche intermédiaire de contrôle d'exécution qui impose une structure déterministe aux processus que les agents sont censés suivre, là où la plupart des outils d'automatisation traditionnels s'appuient sur des décisions probabilistes. Le problème que Salesforce cherche à résoudre est fondamental pour toute organisation qui déploie des agents IA à grande échelle : les workflows d'entreprise ont été conçus autour du jugement humain, pas de l'exécution machine. Des années de contournements, d'étapes implicites et de décisions tacites ont produit des processus qui se brisent dès qu'un agent tente de les suivre à la lettre. Parulekar a résumé le constat de son équipe : "La défaillance d'un processus se trouve souvent dans votre document de spécifications produit." Sans couche de contrôle, les entreprises risquent de déployer des agents qui aggravent les coûts au lieu de les réduire. Agentforce Operations introduit aussi de l'observabilité via un modèle de traçage des sessions, et permet d'intégrer des points de validation humaine pour rendre le processus plus transparent et auditable. La plateforme arrive dans un contexte où les entreprises commencent à mesurer que la capacité de raisonnement des modèles IA n'est pas le goulot d'étranglement principal, c'est la cohérence des processus qui les sous-tendent. Mais cette approche soulève un risque structurel : codifier un workflow défaillant l'ancre à l'échelle. Une fois les processus distribués entre agents, la question du gouvernance se pose avec acuité, qui possède le processus, qui le valide, qui le fait évoluer quand les conditions changent ? Brandon Metcalf, fondateur et CEO d'Asymbl, une entreprise d'orchestration de la main-d'œuvre, souligne que la clé reste un objectif partagé entre humains et agents : "Il faut que quelqu'un soit responsable du résultat à livrer, que ce soit une personne ou un agent." Le vrai défi de l'IA en entreprise n'est donc plus technique, il est organisationnel et politique.

UELes organisations françaises et européennes qui déploient des agents IA en entreprise disposent d'un nouveau référentiel d'orchestration et d'observabilité pour sécuriser leurs workflows back-office.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour