Aller au contenu principal
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
OutilsMarkTechPost6sem

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Résumé IASource uniqueImpact UE
Source originale ↗·

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand.

L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases.

Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

Impact France/UE

Hugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch
1MarkTechPost 

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch

NVIDIA a lancé AITune, un outil open source destiné à automatiser l'optimisation des modèles PyTorch pour l'inférence sur GPU. Disponible sous licence Apache 2.0 et installable via PyPI, cet outil s'adresse aux équipes qui déploient des modèles de deep learning en production et qui souhaitent éviter le travail d'ingénierie manuel habituellement requis pour choisir et configurer les backends d'optimisation. AITune prend en charge plusieurs frameworks, TensorRT, Torch-TensorRT, TorchAO et Torch Inductor, et les évalue automatiquement sur le matériel cible pour sélectionner le plus performant, sans que le développeur ait à intervenir. Il couvre une large gamme de cas d'usage : vision par ordinateur, traitement du langage naturel, reconnaissance vocale et IA générative. Le résultat de l'optimisation est sérialisé dans un fichier .ait, compilé une seule fois et rechargeable à chaque redéploiement sans temps de chauffe. L'outil répond à un problème concret qui ralentissait les équipes MLOps depuis des années : le fossé entre le modèle entraîné par un chercheur et le modèle réellement efficace en conditions de production. Jusqu'ici, comparer TensorRT, Torch-TensorRT ou TorchAO nécessitait de les configurer et tester séparément, souvent avec du code sur mesure. AITune effondre ce travail en une seule API Python. Il propose deux modes : un mode AOT (ahead-of-time), qui profile tous les backends, valide la correction des sorties et sélectionne le meilleur pour chaque sous-module du modèle ou de la pipeline, et un mode JIT (just-in-time), qui s'active via une variable d'environnement et optimise les modules à la volée sans modifier le code existant. Le mode AOT est le plus puissant : il détecte les axes dynamiques comme la longueur de séquence dans les LLMs, permet de mélanger différents backends dans une même pipeline, et met en cache les artefacts pour éviter de recompiler à chaque redéploiement. Ce lancement s'inscrit dans un effort plus large de NVIDIA pour simplifier le chemin entre la recherche et la production à mesure que la pression sur les coûts d'inférence s'intensifie. Avec la multiplication des modèles déployés à grande échelle, notamment des LLMs et des modèles de vision, le choix du backend d'optimisation est devenu un levier critique de rentabilité. TensorRT existe depuis plus d'une décennie, mais son intégration dans des pipelines PyTorch complexes restait laborieuse. En proposant une abstraction unifiée et automatisée, NVIDIA positionne AITune comme un outil de référence pour les équipes d'ingénierie ML, potentiellement en concurrence directe avec des solutions propriétaires ou des pipelines maison. La disponibilité en open source sous Apache 2.0 devrait favoriser une adoption rapide, notamment dans les entreprises qui cherchent à optimiser leurs coûts GPU sans investir dans des équipes spécialisées en compilation de modèles.

UELes équipes MLOps européennes peuvent adopter immédiatement cet outil open source via PyPI pour réduire leurs coûts d'inférence GPU en production, sans dépendance à des solutions propriétaires.

OutilsOutil
1 source
Siemens lance un système d'IA pour l'ingénierie d'automatisation
2AI News 

Siemens lance un système d'IA pour l'ingénierie d'automatisation

Siemens a dévoilé l'Eigen Engineering Agent, un système d'intelligence artificielle conçu pour planifier et valider des tâches d'ingénierie en automatisation industrielle. Intégré directement dans la plateforme TIA Portal (Totally Integrated Automation Engineering), qui compte plus de 600 000 utilisateurs dans le monde, cet agent autonome est capable d'interpréter des cahiers des charges, de générer du code pour automates programmables (PLC), de configurer des interfaces homme-machine (HMI) et d'affiner ses résultats jusqu'à ce qu'ils atteignent les critères de performance définis. Le système décompose les problèmes d'ingénierie en étapes séquentielles, évalue chaque résultat en boucle fermée, puis soumet la version finale à la validation d'un ingénieur humain. Selon Siemens, il exécute ces tâches deux à cinq fois plus vite que les workflows manuels équivalents. Des pilotes ont été menés auprès de plus de 100 entreprises dans 19 pays, impliquant notamment ANDRITZ Metals, CASMT et Prism Systems. Prism Systems a utilisé l'outil pour générer et importer du code SCL (Structured Control Language), tandis que CASMT l'a appliqué à la configuration de dispositifs, la génération de code et la visualisation HMI dans des lignes de production, réduisant ainsi les transferts entre spécialistes et les délais de livraison. L'Eigen Engineering Agent est disponible au sein du portfolio Xcelerator de Siemens. L'enjeu est considérable pour un secteur industriel sous pression. Les estimations du marché prévoient un déficit mondial pouvant atteindre sept millions de travailleurs dans la fabrication d'ici 2030, avec environ un poste d'ingénieur sur cinq actuellement non pourvu dans certains secteurs. Un outil capable d'automatiser des tâches d'ingénierie complexes et répétitives sans sacrifier la précision représente donc une réponse directe à cette pénurie structurelle. Pour les industriels, cela signifie concrètement des cycles de développement raccourcis, moins de dépendance à des spécialistes rares, et la possibilité d'intégrer des environnements hérités ou non documentés grâce à la capacité du système à lire les hiérarchies de contrôle et les dépendances de composants existants. Cette annonce s'inscrit dans une stratégie d'investissement massive de Siemens dans l'IA industrielle, matérialisée par un engagement d'un milliard d'euros annoncé précédemment. Le groupe allemand mobilise aujourd'hui plus de 1 500 spécialistes en IA et détient plus de 2 000 familles de brevets liés à l'IA à l'échelle mondiale. Le lancement de l'Eigen Engineering Agent illustre la transition du secteur industriel vers des systèmes d'IA agentiques, capables non plus seulement d'assister, mais d'exécuter des workflows complets de bout en bout. Les déploiements initiaux se concentrent sur l'ingénierie d'automatisation, mais Siemens indique que l'architecture est conçue pour s'étendre à d'autres segments de la chaîne de valeur industrielle, ouvrant la voie à une automatisation plus large des processus d'ingénierie dans les usines connectées.

UESiemens, groupe industriel allemand de référence en Europe, déploie cet agent directement dans les usines manufacturières européennes confrontées à une pénurie structurelle d'ingénieurs en automatisation, avec un potentiel de réduction des délais de livraison et de la dépendance aux spécialistes rares dans le tissu industriel français et européen.

OutilsOutil
1 source
Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face
3MarkTechPost 

Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face

L'équipe de recherche de Perplexity AI a réécrit de zéro son tokeniseur Unigram en Rust et publié le code en open source dans son dépôt pplx-garden, dédié à ses technologies d'inférence. Le résultat est saisissant : à des longueurs d'entrée typiques de production, la nouvelle implémentation divise par 5 la latence médiane (p50) par rapport à la bibliothèque tokenizers de Hugging Face, par 2 par rapport à SentencePiece en C++, et par 1,5 par rapport au tokeniseur IREE en C. En conditions réelles, Perplexity a mesuré une réduction de 5 à 6 fois de l'utilisation CPU dans sa pile d'inférence, et un gain de plusieurs dizaines de millisecondes sur la latence de ses modèles de reranking. La solution atteint zéro allocation sur le tas en régime permanent, ce qui change fondamentalement la courbe de performance à grande échelle. Ce gain n'est pas anecdotique : il révèle un angle mort souvent ignoré de l'inférence LLM. La conversation autour des coûts se concentre presque exclusivement sur les GPU, les caches KV et les noyaux d'attention. Mais des modèles plus compacts, comme les encodeurs d'embeddings, les classifieurs et les modèles de reranking, présentent un profil radicalement différent. Un reranker tel que XLM-RoBERTa, doté d'un vocabulaire Unigram de 250 000 tokens, peut terminer son calcul GPU en quelques millisecondes seulement. La tokenisation côté CPU devient alors le vrai goulot d'étranglement, surtout lorsqu'il faut traiter des centaines de documents par requête. Pour des systèmes à fort trafic comme celui de Perplexity, optimiser cette étape revient à réduire directement les coûts d'infrastructure et la latence perçue par l'utilisateur final. La lenteur de l'implémentation de Hugging Face tenait à trois problèmes structurels : chaque correspondance dans le trie déclenchait une allocation mémoire via String::from_utf8, générant jusqu'à 299 000 allocations pour une entrée de 16 000 tokens ; chaque nœud du trie reposait sur une HashMap entraînant quatre chargements mémoire dépendants par octet ; enfin, les buffers de la table de programmation dynamique étaient réalloués à chaque appel, saturant le cache L2 à mesure que les entrées s'allongent. Perplexity a d'abord validé un portage sans allocation avec la même structure de trie, réduisant déjà la latence de 326 µs à 155 µs, avant d'introduire un Double-Array Trie pour éliminer le coût résiduel du parcours de pointeurs. L'algorithme de Viterbi, introduit en 1967 pour la segmentation probabiliste, reste au cœur du tokeniseur Unigram formalisé par Kudo en 2018 et intégré à SentencePiece. En publiant leur implémentation, Perplexity offre à l'ensemble de l'écosystème open source un composant critique dont les bénéfices dépassent largement leur propre infrastructure.

UELes équipes techniques européennes travaillant avec des tokeniseurs Unigram à grande échelle peuvent intégrer directement cette bibliothèque open source pour réduire la latence et les coûts CPU de leurs pipelines d'inférence.

OutilsActu
1 source
AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents
4MarkTechPost 

AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents

Kevin Gu, ingénieur chez thirdlayer.inc, a publié AutoAgent, une bibliothèque open source qui automatise l'optimisation des agents IA. En l'espace de 24 heures d'exécution autonome, le système a atteint la première place sur SpreadsheetBench avec un score de 96,5 %, et la meilleure performance GPT-5 sur TerminalBench avec 55,1 %. Le projet est disponible sur GitHub avec une architecture délibérément minimaliste : un fichier agent.py qui contient l'intégralité du harness sous test, un fichier program.md que l'humain édite pour donner la directive, et un journal d'expériences results.tsv maintenu automatiquement par le méta-agent pour tracer l'historique de chaque run. Le principe est simple mais radical : là où un ingénieur IA passe des journées à ajuster manuellement les prompts système, les définitions d'outils et la logique d'orchestration de son agent, AutoAgent confie cette boucle d'itération à un second agent, le méta-agent, qui lit la directive, inspecte agent.py, exécute le benchmark, analyse les échecs, réécrit les parties pertinentes et recommence. L'humain ne touche jamais agent.py directement. Ce ratchet loop, proposer une modification, mesurer le score, conserver si meilleur, rejeter sinon, est directement inspiré du projet autoresearch d'Andrej Karpathy, qui applique la même logique à l'entraînement de modèles ML. AutoAgent transpose ce mécanisme au niveau du harness : le prompt système, les outils disponibles, le routage entre sous-agents et la stratégie d'orchestration. Concrètement, toute équipe qui développe des agents complexes pourrait déléguer la phase d'optimisation la plus fastidieuse à un processus nocturne entièrement automatisé, réduisant drastiquement le temps humain consacré au réglage fin. Cette publication s'inscrit dans une tendance plus large d'automatisation de l'ingénierie IA elle-même, souvent désignée sous le terme "méta-apprentissage" ou "self-improvement". Depuis que les LLMs ont démontré leur capacité à écrire et modifier du code de manière fiable, plusieurs laboratoires et chercheurs indépendants explorent des architectures où un modèle supervise l'amélioration d'un autre, ou de lui-même. AutoAgent se distingue par sa portée pratique immédiate : il ne requiert pas d'infrastructure exotique, s'appuie sur le format Harbor pour exprimer les benchmarks, et peut être adapté à n'importe quel domaine via les dossiers tasks/ et .agent/. Les résultats sur TerminalBench et SpreadsheetBench, deux benchmarks reconnus dans la communauté, donnent une crédibilité concrète à l'approche. La question ouverte reste celle du contrôle : lorsqu'un méta-agent réécrit librement la logique d'orchestration d'un système en production, les garanties de sécurité et de prévisibilité du comportement final deviennent un enjeu non trivial que la bibliothèque n'adresse pas encore explicitement.

💬 C'est exactement la boucle que tout dev d'agents rêve d'automatiser, et là quelqu'un l'a fait en un seul fichier. Le score sur SpreadsheetBench est bluffant, bon, reste à voir ce que ça donne sur des tâches moins balisées qu'un benchmark. La vraie question, c'est quand le méta-agent commence à réécrire l'orchestration en prod sans que tu comprennes pourquoi ça marche.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour