Aller au contenu principal

Hugging Face· sujet

145 articlesmis à jour le 2026-06-09

Plateforme open source de modèles, datasets et outils IA : suivi des sorties, intégrations, financements et de son rôle dans l'écosystème.

Hub d'actualité sur Hugging Face, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA
68 11%
articles (vs 30j préc.)
5.3%
de la couverture IA
Souvent associé à
InférenceNVIDIAAgenticFine-tuningOpenAI

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant Hugging Face. Voir le Baromètre IA complet

À retenir · 30 derniers jours

Hugging Face occupe une place particulière dans l'écosystème IA : ni laboratoire qui sort les modèles les plus puissants, ni cloud géant, mais le point de passage où ces modèles circulent. La plateforme héberge des centaines de milliers de modèles ouverts, de jeux de données et de démos, et ses bibliothèques (Transformers, Diffusers, Datasets) sont devenues l'outillage par défaut de fait pour qui développe ou teste un modèle. C'est l'infrastructure discrète sur laquelle repose une grande partie de l'IA open source.

Cette centralité explique aussi son poids stratégique. Quand un acteur publie un modèle sous licence permissive, c'est souvent ici qu'il atterrit en premier, ce qui fait de Hugging Face un baromètre de l'ouverture du secteur. Le revers existe : être le dépôt par défaut, c'est aussi devenir une cible, comme l'ont montré des cas de fichiers malveillants déguisés en modèles légitimes. La confiance dans la chaîne d'approvisionnement logicielle de l'IA s'y joue largement.

Pour un professionnel, comprendre Hugging Face, c'est comprendre où se trouvent les modèles, comment ils sont distribués et quels risques accompagnent cette facilité d'accès.

Dans ce hub, nous suivons l'évolution de la plateforme, ce qui s'y publie de marquant et les enjeux de sécurité et de gouvernance de l'open source IA.

Toute l'actualité Hugging Face

Flux automatique. Articles classés par pertinence, agrégés en continu.

Tutoriel NVIDIA cuTile en Python : noyaux GPU tuilés pour vecteurs et matrices dans Colab
1MarkTechPost OutilsTuto

Tutoriel NVIDIA cuTile en Python : noyaux GPU tuilés pour vecteurs et matrices dans Colab

NVIDIA a lancé cuTile Python, une interface de programmation GPU par tuiles permettant d'écrire des kernels de style CUDA directement en Python, sans passer par le C++. Un tutoriel détaillé, conçu pour fonctionner sur Google Colab, guide les développeurs à travers trois exemples progressifs : addition de vecteurs, addition de matrices et multiplication de matrices. L'environnement requiert au minimum le pilote NVIDIA R580 et le CUDA Toolkit 13.1, des prérequis que Colab ne satisfait pas toujours en configuration standard. Le package s'installe via PyPI sous le nom cuda-tile[tileiras], et le tutoriel intègre un mode de repli automatique sur PyTorch pour garantir l'exécutabilité du notebook même lorsque les conditions du runtime ne sont pas réunies. L'enjeu est considérable pour la communauté des développeurs en machine learning et en IA. Jusqu'ici, écrire des kernels GPU personnalisés et hautement optimisés exigeait de maîtriser le CUDA C++, un langage bas niveau réservé à un profil d'ingénieur très spécialisé. cuTile Python abaisse cette barrière en exposant une abstraction par tuiles directement en Python, le langage de référence de l'écosystème IA. Concrètement, les développeurs peuvent désormais contrôler finement comment les tenseurs sont chargés, calculés et stockés en mémoire GPU, puis comparer les performances de leurs kernels personnalisés avec les opérations standard de PyTorch. Ce niveau de contrôle, auparavant réservé à des équipes spécialisées dans des laboratoires comme Google DeepMind ou Meta FAIR, devient accessible à un cercle bien plus large de praticiens. Cette initiative s'inscrit dans une tendance de fond chez NVIDIA à rendre son écosystème CUDA plus accessible aux développeurs Python, face à la montée en puissance de compilateurs alternatifs comme Triton d'OpenAI ou JAX de Google. Triton, intégré nativement à PyTorch depuis 2022, avait déjà ouvert cette voie en permettant d'écrire des opérations GPU optimisées en Python pur. cuTile se positionne comme la réponse directe de NVIDIA, en s'appuyant sur son propre stack logiciel et ses nouvelles générations de pilotes. Le fait que le tutoriel soit explicitement conçu pour Colab, l'environnement de notebooks gratuit de Google, signale une stratégie d'adoption large : abaisser le coût d'entrée pour que les étudiants, chercheurs et ingénieurs puissent expérimenter sans infrastructure dédiée. La prochaine étape naturelle sera l'intégration de cuTile dans les frameworks d'entraînement majeurs comme HuggingFace Accelerate ou PyTorch Lightning, ce qui pourrait redéfinir comment les équipes optimisent leurs pipelines à grande échelle.

1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
2arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

RechercheOpinion
1 source
Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
3VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes
4MarkTechPost 

NVIDIA lance Nemotron 3 Ultra, un hybride Mamba-Transformer open source à 550 milliards de paramètres pour agents autonomes

NVIDIA a dévoilé Nemotron 3 Ultra, son modèle d'intelligence artificielle le plus ambitieux à ce jour : un modèle à mélange d'experts (MoE) de 550 milliards de paramètres au total, dont seulement 55 milliards sont activés à chaque token. Conçu spécifiquement pour les agents autonomes de longue durée, il repose sur une architecture hybride Mamba-Attention, une alternative aux Transformers purs. Les couches Mamba gèrent les longues séquences avec une mise à l'échelle sous-quadratique, tandis que quelques couches Attention assurent un rappel précis sur de grands contextes. Le modèle a été pré-entraîné sur 20 000 milliards de tokens, puis sa fenêtre de contexte a été étendue à 1 million de tokens. NVIDIA annonce un débit d'inférence jusqu'à six fois supérieur à celui de modèles open source comparables, à précision équivalente. Le pipeline de post-entraînement combine apprentissage supervisé (SFT), apprentissage par renforcement à récompense vérifiable (RLVR) et une distillation multi-enseignants (MOPD). Les données publiées en open source incluent 50 millions d'exemples SFT, 2 millions de tâches RL et 55 environnements RL, auxquels s'ajoutent 173 milliards de tokens de code GitHub fraîchement collectés. Ce modèle répond à un défi concret du déploiement d'agents IA : plus un agent opère longtemps, plus le nombre de tokens traités explose, et plus le coût d'inférence devient prohibitif. Nemotron 3 Ultra inverse cette dynamique grâce à sa structure MoE et à l'architecture Mamba, dont le coût de décodage reste constant quelle que soit la longueur de la séquence. Pour les entreprises qui construisent des agents capables d'utiliser des outils, de planifier sur de nombreux tours et de raisonner sur de longs contextes, c'est une amélioration directe de viabilité économique. La publication simultanée des jeux de données d'entraînement et des 15 nouveaux environnements RL est également significative : elle permet à la communauté de reproduire et d'affiner le pipeline sans repartir de zéro, ce que les grands modèles fermés ne permettent pas. Nemotron 3 Ultra s'inscrit dans la stratégie de NVIDIA visant à imposer sa stack logicielle dans l'écosystème IA open source, en complément de ses GPU. L'entraînement n'a pas été sans accrocs : deux divergences de loss ont été documentées. La première, vers 8 000 milliards de tokens, était due à une réduction de gradient en BF16 qui écrasait silencieusement la contribution du mécanisme de prédiction multi-token. La seconde, vers 16 000 milliards de tokens, reste inexpliquée et a conduit NVIDIA à tronquer l'entraînement à 20 000 milliards de tokens. Ces incidents, publiquement documentés, constituent une contribution rare à l'ingénierie de l'entraînement à grande échelle. Le modèle est publié en open weights via Hugging Face, positionnant NVIDIA comme un acteur de référence dans la course aux modèles ouverts face à Meta, Mistral et Google.

UELa publication en open weights avec les jeux de données d'entraînement (50 M exemples SFT, 2 M tâches RL) permet aux équipes de recherche et entreprises européennes de reproduire, affiner et déployer ce modèle sans dépendance propriétaire, renforçant leur capacité à développer des agents autonomes compétitifs à moindre coût d'inférence.

💬 L'architecture Mamba pour des agents longs, c'est le problème qu'on se prend en pleine figure dès qu'on essaie de faire tourner quelque chose de sérieux en prod. 55 milliards actifs sur 550, contexte à un million de tokens sans faire exploser les coûts à chaque requête, les datasets publiés avec, ça change vraiment l'équation pour qui construit sur de l'open source. Et documenter deux divergences de loss en cours d'entraînement, dont une inexpliquée, c'est rare, et franchement plus utile que trois posts de blog soignés.

LLMsOpinion
1 source
Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public
5Le Big Data 

Gemma 4 12B : Google apporte l’IA multimodale sur les PC grand public

Google a lancé le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle multimodal conçu pour fonctionner sur des ordinateurs grand public disposant de seulement 16 Go de mémoire vive. Contrairement aux grands modèles qui nécessitent des infrastructures cloud coûteuses, ce modèle intermédiaire de la famille Gemma est capable de traiter simultanément du texte, des images et de l'audio directement en local. Selon Google, ses performances sur plusieurs benchmarks se rapprochent de celles du modèle Gemma 26B, pourtant bien plus imposant. Le modèle est d'ores et déjà accessible via des outils populaires comme LM Studio, Ollama, les applications Google AI Edge Gallery et AI Edge Eloquent, ainsi qu'une interface en ligne de commande nommée LiteRT-LM. Les poids préentraînés sont disponibles sur Hugging Face et Kaggle. L'enjeu principal est la souveraineté des données et l'accessibilité de l'IA avancée. En permettant l'exécution locale d'un modèle multimodal capable de transcrire, reformater ou traduire du contenu vocal sans connexion internet, Google ouvre la voie à des cas d'usage concrets pour les professionnels et particuliers soucieux de ne pas envoyer leurs données vers des serveurs distants. L'analyse de documents, les assistants personnels et l'automatisation de tâches deviennent envisageables sur une machine ordinaire, sans abonnement cloud. C'est un changement de paradigme potentiellement significatif pour les entreprises de taille moyenne, les développeurs indépendants et les utilisateurs dans des environnements à connectivité limitée. Cette annonce s'inscrit dans une tendance de fond qui voit les grands acteurs de l'IA rivaliser sur le segment des modèles compacts et open, face à la montée de concurrents comme Meta avec Llama, Mistral ou encore Microsoft. La véritable originalité architecturale de Gemma 4 12B réside dans l'abandon des encodeurs séparés pour le traitement visuel et audio : au lieu d'assembler plusieurs briques spécialisées, le modèle intègre nativement ces modalités dans son réseau principal, réduisant les calculs intermédiaires et la consommation mémoire. Cette approche, techniquement délicate à mettre en oeuvre sans sacrifier les performances, représente aussi la première fois qu'un modèle intermédiaire de la gamme Gemma gère nativement l'audio. Google positionne ainsi Gemma 4 12B comme une brique de base pour des applications dites agentiques, capables d'agir de manière autonome sur l'appareil de l'utilisateur, un segment sur lequel la compétition entre laboratoires devrait s'intensifier dans les prochains mois.

UELes entreprises et développeurs européens peuvent désormais exécuter un modèle multimodal en local sans transférer leurs données vers des serveurs américains, une avancée directement pertinente pour la conformité RGPD.

💬 C'est le genre de modèle qu'on attendait : multimodal, 16 Go de RAM, dispo sur Ollama maintenant. L'audio natif sans encodeur séparé, c'est la vraie nouveauté technique, et ça change quelque chose pour qui veut traiter de la voix en local sans envoyer ses données quelque part. Reste à voir si les perfs tiennent dans les vrais usages, mais j'ai déjà lancé le pull.

LLMsOpinion
1 source
Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go
6VentureBeat AI 

Google lance Gemma 4 12B open source : analyse audio et vidéo, fonctionne en local sur un PC de 16 Go

Google a lancé ce mardi Gemma 4 12B, un modèle d'intelligence artificielle open source de 11,95 milliards de paramètres, publié sous licence Apache 2.0 et conçu pour fonctionner entièrement en local sur un ordinateur portable d'entreprise standard disposant de 16 Go de VRAM ou de mémoire unifiée. Disponible immédiatement en téléchargement gratuit sur Hugging Face et Kaggle, ainsi que via Google AI Edge Gallery, le modèle intègre une fenêtre de contexte de 256 000 tokens, un mode de raisonnement pas à pas, et des capacités natives d'appel de fonctions pour la construction d'agents autonomes. Sa particularité architecturale principale est une structure dite "Unifiée" sans encodeur séparé : les flux audio bruts et les données visuelles sont projetés directement dans l'espace d'embedding du modèle via de simples couches linéaires, le tout sans modules de traitement secondaires. L'encodeur visuel est remplacé par un module de seulement 35 millions de paramètres reposant sur une unique multiplication matricielle, et l'encodeur audio est supprimé entièrement. Cette approche change concrètement les conditions d'utilisation pour les équipes techniques en entreprise. En éliminant les encodeurs secondaires, Gemma 4 12B réduit la latence d'inférence multimodale et abaisse les besoins en mémoire à un seuil atteignable par des machines grand public. Pour les secteurs soumis à des contraintes réglementaires strictes comme la santé, la finance ou la défense, la possibilité de traiter localement des documents confidentiels, du code propriétaire ou des transcriptions de réunions sans envoyer ces données vers des API tierces représente un avantage décisif. Le modèle rivalise par ailleurs en performance avec le Gemma 26B Mixture-of-Experts de Google, malgré un gabarit bien inférieur, ce qui en fait un outil crédible pour des déploiements sans connexion réseau ou dans des environnements à fort niveau de sécurité. Cette publication s'inscrit dans une tendance de fond chez les grands acteurs de l'IA : proposer des modèles capables de tourner à la périphérie du réseau, là où les contraintes de coût, de latence ou de confidentialité rendent les solutions cloud insuffisantes. Alors que la plupart des laboratoires se concentrent sur la course aux modèles toujours plus grands, Google maintient un effort parallèle sur la gamme Gemma pour couvrir les usages embarqués et offline. L'intégration native du mode "thinking" et du tool use positionne Gemma 4 12B comme une base sérieuse pour construire des agents logiciels autonomes fonctionnant sans infrastructure cloud, un segment en pleine expansion à mesure que les entreprises cherchent à déployer l'IA sur des postes de travail isolés ou dans des environnements industriels contraints.

UELe traitement entièrement local sans transmission vers des serveurs tiers facilite la conformité RGPD pour les entreprises européennes des secteurs réglementés comme la santé et la finance.

💬 C'est le genre de truc qu'on attendait depuis 2 ans : un modèle multimodal qui tourne sur ta machine sans envoyer tes données chez Google. Supprimer les encodeurs séparés pour projeter audio et vidéo directement dans l'espace d'embedding, c'est pas du cosmétique, ça réduit la mémoire nécessaire à quelque chose d'atteignable sur du matériel grand public. Pour les boîtes en santé ou finance qui se battent avec le RGPD, t'as enfin une base sérieuse.

LLMsActu
1 source
Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI
7AWS ML Blog 

Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI

Amazon Web Services publie un guide technique détaillant comment améliorer la précision des appels d'outils dans les agents IA, en combinant deux techniques d'entraînement, le Supervised Fine-Tuning (SFT) et le Direct Preference Optimization (DPO), sur sa plateforme Amazon SageMaker AI. L'exemple concret porte sur Qwen3 1.7B, un petit modèle de langage, entraîné via des jobs SageMaker AI, un service entièrement géré prenant en charge les configurations multi-GPU et multi-nœuds à la demande. L'objectif est d'apprendre à un modèle à sélectionner le bon outil, dans le bon format, sans briser la chaîne d'actions d'un workflow automatisé. Quand un agent IA appelle le mauvais outil ou formate incorrectement ses paramètres, les conséquences sont directes : délais de traitement allongés, taux d'erreurs en hausse, coûts de support accrus et expérience utilisateur dégradée. Pour les organisations qui font passer leurs applications agentiques du pilote à la production, fiabiliser cette couche d'interaction avec les outils externes est devenu un prérequis non négociable. Le SFT permet d'enseigner au modèle le vocabulaire et les contraintes propres à chaque outil via des exemples explicites. Le DPO, lui, raffine ce comportement en intégrant des préférences directement dans la boucle d'entraînement, sous la forme de paires "réponse préférée / réponse rejetée", sans avoir besoin de fonctions de récompense ni de modèles de récompense distincts, ce qui réduit significativement les ressources et le temps d'entraînement par rapport au reinforcement learning classique. Le DPO s'appuie sur des travaux publiés en 2023 (arXiv:2305.18290) et s'intègre notamment via la bibliothèque HuggingFace TRL, qui prend en entrée des triplets prompt / réponse choisie / réponse rejetée. SageMaker AI ajoute une couche d'infrastructure managée : les clusters haute performance se lancent à la demande, s'arrêtent automatiquement en fin de job, et les métriques d'entraînement remontent vers MLflow intégré à SageMaker pour analyse ultérieure. Cette approche en deux temps, SFT pour la connaissance des outils, DPO pour l'alignement fin sur les comportements souhaités, trace une voie praticable pour les équipes qui veulent construire des agents robustes sans gérer elles-mêmes l'infrastructure d'entraînement. À mesure que les modèles plus petits gagnent en précision grâce à ces techniques, la frontière entre un LLM généraliste et un agent spécialisé fiable en production continue de se réduire.

LLMsTuto
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
8arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

RobotiqueOpinion
1 source
Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab
9MarkTechPost 

Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab

Liquid AI a publié LFM2, un modèle de langage conçu pour fonctionner efficacement sur des appareils à ressources limitées, et un tutoriel complet détaille désormais comment le personnaliser sur Google Colab via une chaîne d'outils entièrement open source. Le workflow s'appuie sur QLoRA (Quantized Low-Rank Adaptation), qui permet de charger le modèle en précision 4 bits via bitsandbytes, réduisant drastiquement l'empreinte mémoire GPU. On part du checkpoint de base LFM2-1.2B, disponible sur Hugging Face sous l'identifiant LiquidAI/LFM2-1.2B, pour enchaîner deux étapes d'entraînement : d'abord un ajustement supervisé (SFT) sur 500 exemples du dataset HuggingFaceTB/smoltalk en 60 étapes, puis un alignement par préférences via DPO (Direct Preference Optimization) en 40 étapes supplémentaires. Les bibliothèques utilisées sont transformers (version 4.55 minimum), TRL, PEFT, accelerate et datasets. Un adaptateur LoRA de rang 16 est entraîné puis fusionné dans le modèle, produisant un checkpoint prêt au déploiement. Ce type de pipeline démocratise concrètement la personnalisation de modèles pour des développeurs sans infrastructure dédiée : l'ensemble du processus tient sur un GPU Colab gratuit ou pro, là où un fine-tuning classique nécessiterait plusieurs GPU A100. La combinaison SFT + DPO représente aujourd'hui la méthode de référence pour obtenir un modèle à la fois instruit (qui suit des consignes) et aligné (qui préfère des réponses de qualité à des réponses médiocres). L'intérêt particulier de LFM2 réside dans son architecture optimisée pour l'inférence on-device, ce qui rend ce tutoriel utile non seulement pour le prototypage cloud, mais aussi pour préparer des modèles embarqués sur mobile ou edge hardware. Liquid AI est une startup fondée en 2023 par des chercheurs du MIT, connue pour ses modèles Liquid Foundation Models (LFM) basés sur des architectures d'équations différentielles neuronales, alternatives aux transformeurs classiques. LFM2 marque une nouvelle génération de ces modèles, avec un accent mis sur l'efficacité computationnelle. Le recours à DPO plutôt qu'au classique RLHF (Reinforcement Learning from Human Feedback) s'inscrit dans une tendance forte depuis 2023 : DPO élimine le modèle de récompense intermédiaire, simplifiant l'entraînement tout en produisant des résultats comparables. La mise à disposition de ce guide complet avec code exécutable sur Colab s'inscrit dans une dynamique plus large de démocratisation du fine-tuning, portée par Hugging Face et la communauté open source, face aux modèles propriétaires d'OpenAI ou Anthropic qui restent des boîtes noires non personnalisables.

LLMsTuto
1 source
Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF
10arXiv cs.RO 

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Des chercheurs ont publié le 1er juin 2026 sur arXiv une étude portant sur le fine-tuning de modèles Vision-Language-Action (VLA) pour manipulateurs mobiles à 11 degrés de liberté (DoF), en l'occurrence le Toyota HSR. Ils ont comparé SmolVLA (450 millions de paramètres, entraînement sur la tête d'action uniquement) et π0.5 de Physical Intelligence (3,3 milliards de paramètres), évalués sur 60 essais réels (20 par variante). Le résultat central : le checkpoint affichant la meilleure erreur quadratique moyenne (MSE) agrégée n'est pas celui qui performe le mieux sur le robot physique. π0.5 à 80 000 étapes obtient un score de 4,0/4, devançant la variante expert-only à 3 000 étapes (3,75/4) et HSR-SmolVLA (3,5/4), avec une significativité statistique confirmée (Mann-Whitney p ≤ 0,010), malgré une MSE totale plus élevée pour le modèle gagnant. L'enjeu est méthodologique autant que pratique. Sur un robot hétérogène comme le HSR, les articulations faciles à prédire (tête, base) tirent la MSE agrégée vers le bas et masquent les joints critiques (bras) qui continuent d'échouer. Dans la variante expert-only de π0.5, geler le backbone et n'entraîner que la tête d'action fait chuter la MSE totale sous la baseline, mais dégrade précisément la précision du bras. L'analyse par groupe (bras, pince, tête, base roulante) révèle que c'est l'erreur du groupe bras hors ligne, et non la MSE totale ni l'erreur de la base, qui corrèle le plus fidèlement avec la performance réelle. Ce constat remet en question une pratique courante dans le déploiement de VLA sur robots multi-segments. Le Toyota HSR est une plateforme de référence en manipulation domestique et en recherche académique. Les modèles VLA s'imposent comme paradigme dominant depuis les travaux RT-2 de Google DeepMind (2023), suivis de π0 et π0.5 de Physical Intelligence (San Francisco), SmolVLA de HuggingFace (Paris), ou encore OpenVLA de Stanford. Le problème de la sélection de checkpoint par MSE agrégée était jusqu'ici peu documenté pour les espaces d'action hétérogènes. Le code de cette étude est publié en open source sur GitHub, ce qui permet une réplication directe. Prochaine étape logique : valider cette approche per-group sur d'autres plateformes humanoïdes à espace d'action encore plus fragmenté.

UESmolVLA de HuggingFace (Paris) est l'un des deux modèles centralement évalués, et les résultats méthodologiques (sélection de checkpoint par groupe d'articulations) guident directement les équipes européennes déployant des VLA sur manipulateurs mobiles hétérogènes.

💬 Évaluer un checkpoint VLA par la MSE totale sur un robot à 11 DOF, c'est se raconter des histoires. Les articulations simples, tête et base roulante, tirent le score agrégé vers le bas et cachent que le bras, lui, continue de foirer : le modèle gagnant sur la métrique standard n'est pas celui qui tient en conditions réelles. Ce papier le prouve proprement avec 60 essais physiques, et avec SmolVLA de HuggingFace dans le lot, c'est pas juste un résultat académique.

RechercheOpinion
1 source
Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face
11MarkTechPost 

Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face

L'équipe de recherche de Perplexity AI a réécrit de zéro son tokeniseur Unigram en Rust et publié le code en open source dans son dépôt pplx-garden, dédié à ses technologies d'inférence. Le résultat est saisissant : à des longueurs d'entrée typiques de production, la nouvelle implémentation divise par 5 la latence médiane (p50) par rapport à la bibliothèque tokenizers de Hugging Face, par 2 par rapport à SentencePiece en C++, et par 1,5 par rapport au tokeniseur IREE en C. En conditions réelles, Perplexity a mesuré une réduction de 5 à 6 fois de l'utilisation CPU dans sa pile d'inférence, et un gain de plusieurs dizaines de millisecondes sur la latence de ses modèles de reranking. La solution atteint zéro allocation sur le tas en régime permanent, ce qui change fondamentalement la courbe de performance à grande échelle. Ce gain n'est pas anecdotique : il révèle un angle mort souvent ignoré de l'inférence LLM. La conversation autour des coûts se concentre presque exclusivement sur les GPU, les caches KV et les noyaux d'attention. Mais des modèles plus compacts, comme les encodeurs d'embeddings, les classifieurs et les modèles de reranking, présentent un profil radicalement différent. Un reranker tel que XLM-RoBERTa, doté d'un vocabulaire Unigram de 250 000 tokens, peut terminer son calcul GPU en quelques millisecondes seulement. La tokenisation côté CPU devient alors le vrai goulot d'étranglement, surtout lorsqu'il faut traiter des centaines de documents par requête. Pour des systèmes à fort trafic comme celui de Perplexity, optimiser cette étape revient à réduire directement les coûts d'infrastructure et la latence perçue par l'utilisateur final. La lenteur de l'implémentation de Hugging Face tenait à trois problèmes structurels : chaque correspondance dans le trie déclenchait une allocation mémoire via String::from_utf8, générant jusqu'à 299 000 allocations pour une entrée de 16 000 tokens ; chaque nœud du trie reposait sur une HashMap entraînant quatre chargements mémoire dépendants par octet ; enfin, les buffers de la table de programmation dynamique étaient réalloués à chaque appel, saturant le cache L2 à mesure que les entrées s'allongent. Perplexity a d'abord validé un portage sans allocation avec la même structure de trie, réduisant déjà la latence de 326 µs à 155 µs, avant d'introduire un Double-Array Trie pour éliminer le coût résiduel du parcours de pointeurs. L'algorithme de Viterbi, introduit en 1967 pour la segmentation probabiliste, reste au cœur du tokeniseur Unigram formalisé par Kudo en 2018 et intégré à SentencePiece. En publiant leur implémentation, Perplexity offre à l'ensemble de l'écosystème open source un composant critique dont les bénéfices dépassent largement leur propre infrastructure.

UELes équipes techniques européennes travaillant avec des tokeniseurs Unigram à grande échelle peuvent intégrer directement cette bibliothèque open source pour réduire la latence et les coûts CPU de leurs pipelines d'inférence.

OutilsActu
1 source
EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM
12MarkTechPost 

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

L'équipe EAGLE, en collaboration avec les équipes vLLM et TorchSpec, a publié le 26 mai 2026 EAGLE 3.1, une mise à jour ciblée de son algorithme de décodage spéculatif pour l'inférence de grands modèles de langage. Le décodage spéculatif consiste à utiliser un petit modèle rapide pour proposer plusieurs tokens en avance, que le grand modèle cible valide ensuite en parallèle, accélérant significativement le traitement. EAGLE 3.1 introduit deux corrections architecturales précises : une normalisation FC appliquée après chaque état caché du modèle cible, et une rétroaction des états cachés post-normalisation vers l'étape de décodage suivante. L'équipe a également entraîné et publié en open source un modèle draft EAGLE 3.1 pour Kimi K2.6, disponible sur HuggingFace, servant de référence de déploiement en conditions réelles. Ces corrections résolvent un problème de fiabilité concret baptisé "attention drift" : à mesure que la profondeur de spéculation augmente, le petit modèle draft commence à focaliser son attention sur ses propres sorties plutôt que sur le contexte original, dégradant la stabilité et le taux d'acceptation des tokens proposés. En pratique, cela se traduisait par des performances médiocres sur les entrées longues, les templates de chat non standards ou les prompts système hors distribution, précisément les conditions rencontrées en production. Avec EAGLE 3.1, le taux d'acceptation en contexte long est jusqu'à deux fois plus élevé qu'avec EAGLE 3, et la méthode se comporte désormais de manière cohérente quel que soit l'environnement de déploiement. L'intégration dans vLLM est rétrocompatible : les checkpoints EAGLE 3 existants fonctionnent sans modification. La famille EAGLE est devenue l'une des implémentations de décodage spéculatif les plus déployées, tant en recherche qu'en production. L'enjeu derrière cette mise à jour est stratégique : les équipes d'inférence cherchent à réduire la latence et le coût de servir des modèles toujours plus grands, et le décodage spéculatif est l'une des rares techniques permettant des gains mesurables sans changer le modèle cible. La plateforme TorchSpec, qui assure désormais le support d'entraînement pour EAGLE 3.1, vise à réduire le coût d'expérimentation pour les prochaines générations d'algorithmes spéculatifs. La publication simultanée d'un modèle draft pour Kimi K2.6 suggère une convergence entre les équipes de recherche et les fournisseurs de modèles pour standardiser ce type d'optimisation à l'échelle industrielle.

UELes équipes françaises et européennes déployant des LLMs en production via vLLM peuvent bénéficier d'une réduction de latence et d'un meilleur taux d'acceptation en contexte long, sans modifier leur infrastructure existante.

💬 Ce qu'ils appellent "attention drift", c'est exactement ce qui fait foirer le décodage spéculatif sur les prompts longs en prod, et personne n'avait vraiment réglé ça proprement jusqu'ici. EAGLE 3.1 corrige ça avec deux ajustements architecturaux chirurgicaux, et le résultat parle : taux d'acceptation doublé en contexte long. Que les checkpoints EAGLE 3 tournent sans modification, c'est le détail qui fait toute la différence pour les équipes qui ont déjà du déploiement en route.

RecherchePaper
1 source
Concevoir un pipeline de récupération et reclassement haute précision avec le reranker Zerank-2 de ZeroEntropy
13MarkTechPost 

Concevoir un pipeline de récupération et reclassement haute précision avec le reranker Zerank-2 de ZeroEntropy

ZeroEntropy a publié Zerank-2, un modèle de reranking basé sur l'architecture Qwen3 avec 4 milliards de paramètres, conçu pour améliorer la précision des systèmes de recherche documentaire. Ce cross-encoder fonctionne selon une logique différente des modèles de récupération classiques : au lieu de comparer des vecteurs d'embeddings indépendants, il analyse conjointement chaque paire requête-document pour produire un score de pertinence calibré. Le modèle, accessible via l'identifiant zeroentropy/zerank-2-reranker sur HuggingFace, pèse environ 8 Go en mémoire GPU et s'intègre directement dans la bibliothèque sentence-transformers. Un tutoriel complet illustre son usage à travers des cas concrets en finance, droit et code, avec une évaluation quantitative via la métrique NDCG@10. L'apport principal de ce type de système réside dans l'architecture en deux étapes qu'il rend possible. Un premier modèle léger dit bi-encoder récupère rapidement un ensemble de candidats depuis une large base documentaire, puis Zerank-2 reclasse ces candidats avec une précision bien supérieure, au prix d'un calcul plus intensif mais limité à un sous-ensemble réduit. Cette combinaison permet d'atteindre la précision d'un cross-encoder sans en subir le coût computationnel à grande échelle. Pour les équipes qui construisent des moteurs de recherche d'entreprise, des pipelines RAG (Retrieval-Augmented Generation) ou des systèmes de questions-réponses, ce gain de précision peut être décisif : un reranker bien calibré réduit les hallucinations des LLM en leur fournissant des passages réellement pertinents, et améliore la satisfaction des utilisateurs finaux sur des requêtes complexes ou ambiguës. Le reranking est devenu un composant central dans l'écosystème RAG depuis que les limites des bi-encoders seuls sont bien documentées : ces modèles encodent requête et document séparément, perdant les interactions fines entre les deux. Des acteurs comme Cohere avec son modèle rerank-v3, ou Jina AI avec jina-reranker-v2, ont popularisé cette approche ces deux dernières années. ZeroEntropy entre sur ce marché avec un modèle open-source de 4 milliards de paramètres, une taille qui le rend déployable sur des GPU grand public tout en offrant des performances compétitives. La base Qwen3, développée par Alibaba et reconnue pour son efficacité en contexte multilingue, confère à Zerank-2 une robustesse potentielle sur des corpus non exclusivement anglophones. La prochaine étape naturelle pour les équipes qui adoptent cet outil sera d'évaluer ses performances sur des benchmarks standardisés comme BEIR, et d'explorer son intégration dans des frameworks RAG populaires tels que LangChain ou LlamaIndex.

UELa base Qwen3 multilingue de Zerank-2 peut avantager les équipes françaises et européennes construisant des pipelines RAG sur des corpus en français.

OutilsOutil
1 source
Free, Orange et EDF s’allient pour créer une AI Gigafactory en France
14Le Big Data 

Free, Orange et EDF s’allient pour créer une AI Gigafactory en France

Le 20 mai 2026, huit grands groupes français ont annoncé la création du consortium AION pour porter la candidature de la France au programme européen des AI Gigafactories. Parmi eux : Iliad (la maison mère de Free), Orange, EDF, Capgemini, Scaleway, Ardian, Artefact et Bull. L'objectif est de construire une infrastructure capable d'héberger, d'entraîner et de déployer des modèles d'intelligence artificielle à très grande échelle, entièrement sur sol européen. Chaque membre apporte une brique stratégique : Bull fournit les supercalculateurs haute performance, EDF sécurise l'approvisionnement en électricité bas carbone, Orange et Scaleway assurent le cloud et l'hébergement des données, tandis que Capgemini et Artefact se concentrent sur l'intégration de l'IA en entreprise. Iliad et Ardian apportent le capital et l'expertise numérique pour soutenir un projet de très long terme. Le consortium peut également s'appuyer sur un écosystème plus large incluant Hugging Face, INRIA, Nokia, LightOn et Schneider Electric. L'enjeu est direct : aujourd'hui, l'essentiel de la puissance de calcul utilisée pour entraîner les grands modèles d'IA repose sur des infrastructures américaines, Microsoft, Google, Amazon. Pour les entreprises françaises et européennes des secteurs sensibles comme la santé, l'industrie ou les services publics, cette dépendance pose des problèmes concrets de souveraineté des données et de conformité réglementaire. Une gigafactory IA en France offrirait une alternative crédible, d'autant que le mix énergétique français, nucléaire et hydraulique, produit une électricité moins carbonée et plus stable que dans beaucoup de pays européens. Or les infrastructures IA consomment des volumes d'énergie colossaux, ce qui fait de l'accès à une énergie abondante et décarbonée un avantage compétitif aussi déterminant que les semi-conducteurs. Le consortium indique par ailleurs vouloir privilégier les technologies open source pour éviter de recréer des dépendances aux solutions propriétaires. Ce projet s'inscrit dans une dynamique européenne plus large : la Commission européenne a lancé son programme AI Gigafactories pour doter le continent d'infrastructures capables de rivaliser avec celles des États-Unis et de la Chine, dans un contexte où la course aux modèles génératifs et aux agents IA s'accélère. La France, qui abrite déjà des acteurs de premier plan comme Mistral AI et Hugging Face, tente de transformer cet avantage écosystémique en infrastructure physique souveraine. AION devra encore préciser le calendrier de déploiement et les montants d'investissement engagés, mais la mobilisation de groupes aussi diversifiés, télécoms, énergie, cloud, conseil, finance, signal que la France mise sur une approche de filière plutôt que sur un champion unique pour peser dans la prochaine phase de l'IA industrielle.

UELe consortium AION, porté par EDF, Orange, Iliad et Capgemini, vise à offrir aux entreprises françaises et européennes des secteurs sensibles (santé, industrie, services publics) une alternative souveraine aux infrastructures cloud américaines, en réponse directe au programme européen des AI Gigafactories.

💬 Bon, sur le papier, c'est exactement ce qu'il manquait. Avoir EDF dans la boucle pour sécuriser de l'énergie nucléaire bas carbone, c'est l'argument que personne d'autre en Europe ne peut vraiment sortir, et ça change tout quand tes GPU tournent 24h/24. La question maintenant : calendrier, montants, et si ce consortium reste soudé quand il faudra écrire les vrais chèques.

Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0
15VentureBeat AI 

Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0

Le laboratoire canadien d'intelligence artificielle Cohere a dévoilé Command A+, un modèle de langage de 218 milliards de paramètres conçu pour le raisonnement complexe, le traitement de documents multimodaux et les workflows agentiques. La particularité de cette annonce réside dans sa licence : pour la première fois de son histoire, Cohere publie ses poids sous licence Apache 2.0, une des licences open source les plus permissives, disponibles gratuitement sur Hugging Face. Le modèle repose sur une architecture Sparse Mixture-of-Experts (MoE) : seulement 25 milliards de paramètres sur les 218 sont activés lors de chaque génération. Cette efficacité architecturale est renforcée par une quantification poussée. Command A+ est disponible en format 4-bit (W4A4), ce qui lui permet de tourner sur un seul GPU NVIDIA Blackwell B200 ou deux NVIDIA H100, tout en atteignant 375 tokens par seconde avec une latence de 113 millisecondes au premier token, soit 63 % plus rapide et 17 % moins de latence que son prédécesseur Command A Reasoning. Un tokeniseur entièrement repensé assure par ailleurs un support natif de 48 langues, avec une meilleure efficacité pour les langues non européennes. Ce lancement marque une percée technique sur la quantification sans perte, un problème qui freinait jusqu'ici l'adoption des grands modèles en production. En ne quantifiant à 4 bits que les réseaux d'experts MoE tout en conservant la pleine précision sur les couches d'attention, et en appliquant une technique appelée Quantization-Aware Distillation, Cohere parvient à comprimer massivement le modèle sans dégrader ses capacités de raisonnement. Pour les entreprises, cela signifie concrètement qu'un modèle de niveau frontier peut désormais s'exécuter en interne, sur leur propre infrastructure, sans dépendre d'API tierces ni exposer leurs données sensibles à des tiers. C'est une rupture nette avec les modèles propriétaires de OpenAI ou Anthropic, estimés à plusieurs milliers de milliards de paramètres et uniquement accessibles via le cloud. Ce pari s'inscrit dans la stratégie dite d'IA souveraine défendue par Aidan Gomez, cofondateur de Cohere et ancien chercheur chez Google, l'un des auteurs du célèbre article « Attention Is All You Need » qui a posé les bases des transformers modernes. L'idée est de permettre aux gouvernements, grandes entreprises et développeurs de déployer des modèles de niveau frontier entièrement sous leur contrôle. Cette publication intervient peu après l'annonce d'une fusion entre Cohere et le laboratoire allemand Aleph Alpha, deux acteurs qui misent sur la souveraineté numérique face à la domination américaine. Avec Command A+, Cohere ne s'attaque pas seulement au marché des API cloud : il repositionne l'open source comme une réponse crédible aux géants propriétaires, au moment où les exigences réglementaires et la sensibilité aux données poussent de plus en plus d'organisations à reprendre la main sur leur infrastructure IA.

UELa fusion Cohere–Aleph Alpha et la licence Apache 2.0 de Command A+ permettent aux organisations européennes de déployer un modèle frontier en interne sur leur propre infrastructure, renforçant la souveraineté numérique face aux plateformes cloud américaines et facilitant la conformité à l'AI Act.

💬 Deux H100 pour un modèle de 218 milliards de paramètres sans perte de qualité, c'est pas rien. La technique qui quantifie uniquement les couches MoE tout en gardant la pleine précision sur l'attention, c'est une vraie trouvaille, pas juste de la compression agressive qui dégrade en douce. Et Cohere qui ouvre ses poids en Apache 2.0 pour la première fois de son histoire, ça c'est le signal fort pour toutes les orgas européennes qui voulaient du souverain sans se faire distancer techniquement.

LLMsOpinion
1 source
Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel
16arXiv cs.RO 

Sparse ActionGen : accélération de la politique de diffusion par élagage en temps réel

Publiée sur arXiv (identifiant 2601.12894v2), la méthode Sparse ActionGen (SAG) s'attaque au principal frein à l'utilisation en production de la Diffusion Policy : son processus de débruitage multi-étapes, dont la latence est incompatible avec un contrôle visuomoteur temps réel. SAG introduit un mécanisme adaptatif "prune-then-reuse" : à chaque itération du pipeline diffusif, un composant léger conditionné par l'observation courante de l'environnement, le "diffusion pruner", identifie les calculs redondants et les substitue par des activations précédemment mises en cache. La méthode ajoute une stratégie "one-for-all" en zigzag qui mutualise ces caches à la fois sur l'axe des pas de temps et des blocs du réseau. Testée sur plusieurs benchmarks robotiques (non précisés dans le résumé public), SAG annonce une accélération jusqu'à 4x par rapport à la Diffusion Policy standard, sans dégradation de performance mesurée. L'impact potentiel est significatif pour la robotique de manipulation. La Diffusion Policy s'est imposée depuis 2023 comme la méthode de référence pour l'imitation learning à haute précision, grâce à sa capacité à représenter des distributions d'actions multimodales : un robot peut évaluer plusieurs stratégies valides face à une même situation. Mais le débruitage itératif génère une latence qui rend le contrôle en boucle fermée haute fréquence difficile. Les approches existantes (DDIM, consistency models, schedules de cache statiques) contournaient le problème sans s'adapter à la dynamique réelle de l'interaction. La nouveauté de SAG est cet élagage adaptatif au rollout courant. Un facteur 4x sur la vitesse de génération, confirmé sur benchmarks académiques, est un résultat notable, même si les gains restent à valider sur matériel physique en conditions industrielles. La Diffusion Policy a été formalisée par Chi et al. (2023, Columbia University) et intégrée depuis dans des frameworks comme LeRobot de HuggingFace. SAG s'inscrit dans une vague d'optimisations post-entraînement qui cherchent à rendre les politiques génératives compatibles avec le temps réel embarqué sans reprendre un cycle d'entraînement complet, en concurrence avec des approches comme la distillation de consistency models. Aucun partenariat industriel ni déploiement terrain n'est annoncé; la méthode reste au stade de la publication académique, avec une page projet dédiée mais sans code public disponible à ce stade.

UEImpact indirect : HuggingFace (France) intègre la Diffusion Policy dans LeRobot, et une disponibilité future de SAG pourrait accélérer ce framework, mais aucun lien direct ni déploiement européen annoncé à ce stade.

💬 Le problème de latence de la Diffusion Policy, c'était l'éléphant dans la pièce depuis 2023. SAG y répond sans toucher à l'entraînement, juste en élagant les calculs redondants à la volée, et un gain de 4x sur benchmarks c'est pas rien. Reste que le code n'est pas dispo et qu'on n'a aucun test sur matériel réel, donc pour LeRobot et compagnie, c'est à surveiller mais pas encore à intégrer.

RecherchePaper
1 source
Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor
17MarkTechPost 

Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor

Un tutoriel technique publié récemment propose une implémentation complète pour compresser et évaluer des modèles de langage ajustés par instruction, en comparant trois méthodes de quantification post-entraînement : FP8 dynamique, GPTQ W4A16, et SmoothQuant combiné à GPTQ W8A8. Le point de départ est le modèle Qwen2.5-0.5B-Instruct de l'entreprise chinoise Alibaba, utilisé en baseline FP16. L'ensemble du pipeline repose sur la bibliothèque open source llmcompressor, associée à compressed-tensors et à l'écosystème HuggingFace Transformers. Chaque variante compressée est évaluée selon cinq critères mesurables : taille sur disque, latence de génération, débit en tokens par seconde, perplexité sur WikiText-2, et qualité subjective des réponses générées. La valeur concrète de ce travail réside dans la mise en évidence des compromis réels entre performance et efficacité pour le déploiement en production. La quantification réduit la mémoire GPU nécessaire et accélère l'inférence, deux contraintes centrales pour toute équipe souhaitant servir un LLM à moindre coût. En passant de FP16 à FP8 ou à W4A16, on peut diviser la taille du modèle par deux ou plus, avec un impact variable sur la perplexité selon la méthode choisie. SmoothQuant, qui lisse les distributions d'activation avant de quantifier, permet d'appliquer une quantification 8 bits sur les poids et les activations simultanément, ce qui se traduit par un meilleur rapport qualité-compression que la quantification naïve. Pour les équipes qui doivent faire tourner des modèles sur du matériel contraint, comme un GPU T4 de Google Colab, ces différences ne sont pas théoriques mais directement opérationnelles. La quantification post-entraînement s'est imposée comme l'une des réponses pratiques à l'explosion de la taille des modèles de langage depuis 2022. Là où le fine-tuning quantifié (QAT) nécessite de réentraîner le modèle, le PTQ agit après coup sur les poids déjà entraînés, ce qui le rend bien plus accessible. Des outils comme llmcompressor, développé par la startup Neural Magic (rachetée par Red Hat en 2024), ou AWQ et GGUF popularisés par llama.cpp, ont démocratisé ces techniques. Le choix de Qwen2.5 comme modèle de référence est révélateur : avec 0,5 milliard de paramètres, il reste assez léger pour tourner sur un GPU grand public tout en étant représentatif des architectures modernes. Les prochaines étapes naturelles de ce type de travail incluent l'extension à des modèles plus grands, l'intégration de frameworks de serving comme vLLM ou TGI, et la comparaison avec des approches de pruning structuré ou de distillation.

UELes techniques de quantification présentées permettent aux équipes européennes de servir des LLMs sur du matériel contraint sans dépendre d'infrastructures cloud coûteuses, s'appuyant sur l'écosystème HuggingFace Transformers, dont la startup est à forte présence en France.

LLMsTuto
1 source
Hugging Face a hébergé un logiciel malveillant se faisant passer pour une version d'OpenAI
18AI News 

Hugging Face a hébergé un logiciel malveillant se faisant passer pour une version d'OpenAI

Un dépôt frauduleux hébergé sur Hugging Face, se faisant passer pour une version officielle d'OpenAI, a diffusé un logiciel malveillant de type infostealer sur des machines Windows avant d'être retiré de la plateforme. Selon une analyse publiée par la société de sécurité IA HiddenLayer, le dépôt baptisé "Open-OSS/privacy-filter" imitait fidèlement la page du projet OpenAI Privacy Filter : le fichier README avait été copié presque à l'identique, et les attaquants avaient intégré un fichier loader.py contenant un mécanisme d'infection dissimulé derrière du code d'apparence légitime. Ce fichier désactivait la vérification SSL, décodait une URL encodée en base64 pointant vers jsonkeeper.com, puis transmettait des instructions à PowerShell sur les machines Windows. Un fichier batch supplémentaire était ensuite téléchargé depuis un domaine contrôlé par les attaquants, et le malware s'installait en créant une tâche planifiée imitant une mise à jour légitime de Microsoft Edge. La charge finale était un infostealer écrit en Rust ciblant les navigateurs dérivés de Chromium et Firefox, Discord, les portefeuilles de cryptomonnaies, les configurations FileZilla et les informations système, tout en cherchant à désactiver l'interface Windows Antimalware Scan Interface. Le dépôt aurait enregistré environ 244 000 téléchargements et atteint la liste des projets "trending" sur Hugging Face avec 667 likes en moins de 18 heures, mais ces chiffres pourraient avoir été artificiellement gonflés par les attaquants. L'incident illustre un risque croissant dans la chaîne d'approvisionnement logicielle des équipes d'IA. Les développeurs et data scientists clonent régulièrement des modèles directement dans des environnements d'entreprise ayant accès au code source, aux identifiants cloud et aux systèmes internes, ce qui transforme un dépôt compromis en vecteur d'intrusion à fort impact. L'utilisation de jsonkeeper.com comme canal de commande et contrôle permettait aux attaquants de modifier le contenu malveillant sans toucher au dépôt lui-même, rendant la détection encore plus difficile. Sakshi Grover, directrice de recherche senior en cybersécurité chez IDC, rappelle que les outils d'analyse de composition logicielle traditionnels ont été conçus pour inspecter les manifestes de dépendances, les bibliothèques et les images de conteneurs, et restent peu adaptés pour identifier une logique de chargement malveillante nichée dans des dépôts d'IA. Cet incident s'inscrit dans une série d'avertissements récents concernant les registres publics de modèles d'IA. Des chercheurs avaient déjà signalé des modèles dissimulant du code malveillant dans des fichiers Pickle sérialisés, contournant les scanners de la plateforme. HiddenLayer a également identifié six autres dépôts Hugging Face utilisant une logique de chargement quasi identique et partageant la même infrastructure que l'attaque principale. La tendance de fond est claire : les attaquants considèrent désormais les workflows de développement IA comme une porte d'entrée vers des environnements normalement sécurisés, en exploitant non pas les modèles eux-mêmes, mais leurs éléments périphériques comme les scripts de configuration, les notebooks et les fichiers de dépendances. En réponse, IDC préconise dans son rapport FutureScape de novembre 2025 que 60 % des systèmes d'IA agentique disposent d'un inventaire exhaustif de leurs composants d'ici 2027, permettant aux entreprises de tracer l'origine, la version approuvée et les éléments exécutables de chaque artefact IA utilisé.

UEHugging Face étant une entreprise fondée en France et massivement utilisée par les équipes IA européennes, cet incident expose directement les développeurs et data scientists du continent à des risques de compromission via leur chaîne d'approvisionnement logicielle IA.

💬 C'est le genre d'attaque qu'on voyait venir depuis longtemps. Les devs IA ont pris l'habitude de cloner des dépôts entiers directement dans leurs envs de boîte, avec les accès cloud et les tokens qui vont avec, et c'est exactement ça que les attaquants ont ciblé, pas le modèle, le script Python autour. Hugging Face doit assumer son rôle de registre de confiance, pas juste de plateforme de partage.

SécuritéActu
1 source
La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace
19Robotics Business Review 

La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace

Eric Chan, cofondateur et chief scientist de Rhoda AI, était l'invité de l'épisode 242 du Robot Report Podcast pour présenter l'approche de sa startup dans l'entraînement de robots physiques. Rhoda AI est sortie de stealth en mars 2026 et développe ce qu'elle appelle un modèle DVA (Direct Video Action), une architecture qui exploite des vidéos issues d'internet pour entraîner des politiques de contrôle robot, sans recourir massivement à la téléopération humaine. La startup a publié une démonstration d'un robot bimanuel réalisant une tâche de décantage (transfert de liquide entre contenants) piloté par une politique DVA. Chan apporte un profil académique solide: doctorat en informatique de Stanford, passé par NVIDIA, Google, NASA et WorldLabs avant de cofonder Rhoda AI. Le problème central que Chan soulève est structurel pour toute l'industrie robotique: les pipelines de collecte de données par téléopération sont coûteux, lents à passer à l'échelle, et produisent des données souvent trop spécialisées pour généraliser. Exploiter la vidéo internet, déjà disponible en quantité massive, représente une alternative potentiellement disruptive, à condition de résoudre le gap de correspondance entre observation visuelle passive et action motrice. Si l'approche DVA tient ses promesses d'apprentissage zero-shot ou few-shot, elle pourrait réduire significativement les coûts de déploiement pour les intégrateurs industriels et accélérer le passage prototype-to-production, un obstacle qui freine actuellement la majorité des projets d'IA physique. Il faut cependant noter que la démonstration publiée reste une preuve de concept en environnement contrôlé, et qu'aucun chiffre de performance en déploiement réel (taux de succès, robustesse aux variations d'environnement) n'a été communiqué à ce stade. Rhoda AI s'inscrit dans une course plus large à l'exploitation de données vidéo pour la robotique généraliste. Physical Intelligence (Pi-0), NVIDIA avec GR00T N2, et HuggingFace avec LeRobot travaillent tous sur des approches similaires de Vision-Language-Action (VLA) ou de pré-entraînement sur données hétérogènes à grande échelle. La spécificité revendiquée de Rhoda AI est de cibler directement la vidéo brute d'internet plutôt que des datasets robotiques capturés en laboratoire, ce qui la rapproche de l'approche fondatrice des LLMs appliquée au contrôle physique. La société étant très récemment sortie de stealth, les étapes annoncées -- pilotes industriels, benchmarks comparatifs avec l'état de l'art -- restent à confirmer. La prochaine échéance sectorielle visible est le Robotics Summit and Expo 2026 à Boston, où plusieurs acteurs du marché, dont Tesla et Toyota Research Institute, présenteront leurs travaux en IA physique.

💬 L'idée de base, c'est exactement ce qu'on a fait avec les LLMs : prendre les données qui existent déjà sur internet plutôt que d'en produire à la main. Appliqué à la robotique physique, ça a du sens, parce que la téléopération c'est lent, cher, et ça ne scale pas au-delà du labo. La démo en environnement contrôlé, c'est bien, mais reste à voir ce que ça donne avec de la vraie variabilité terrain, parce que c'est là que tous les autres ont calé.

RobotiqueActu
1 source
Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données
20MarkTechPost 

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper
1 source
Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini
21VentureBeat AI 

Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini

Hugging Face, la startup new-yorkaise fondée il y a dix ans et devenue la référence mondiale pour l'hébergement de modèles d'IA open source, a lancé un App Store dédié à son robot de bureau Reachy Mini. Cette boutique d'applications compte déjà plus de 200 créations communautaires, toutes téléchargeables gratuitement par les propriétaires du robot. Le Reachy Mini, commercialisé à 299 dollars depuis juillet 2025 après le rachat de la startup Pollen Robotics par Hugging Face, s'est vendu à environ 10 000 unités en moins d'un an. Petit robot de bureau fixe, il est équipé d'une caméra, d'un haut-parleur et d'un microphone, et peut désormais être programmé sans aucune compétence en ingénierie grâce à l'agent IA maison baptisé "ML Intern". Il suffit de décrire un comportement en langage naturel, comme "faire un signe de la main quand quelqu'un dit bonjour", et l'agent génère, teste et déploie le code correspondant en quelques minutes. L'enjeu dépasse largement la nouveauté gadget : Hugging Face veut faire pour la robotique ce qu'Apple a fait pour le smartphone, c'est-à-dire rendre la création d'applications accessibles à des millions de personnes sans formation technique. Jusqu'ici, développer une application robotique nécessitait de maîtriser des SDK propriétaires, la gestion du firmware et des abstractions matérielles complexes. En éliminant cette barrière, la plateforme permet à des non-ingénieurs de livrer des logiciels robotiques fonctionnels en moins d'une heure. Le PDG Clément Delangue voit également dans ce store un terrain d'expérimentation pour les créateurs de modèles d'IA, qui pourront tester les capacités physiques de leurs nouvelles architectures directement sur un robot réel. La difficulté historique de la robotique tient au manque de données d'entraînement spécifiques : là où les grands modèles de langage ont pu s'appuyer sur des centaines de milliards de lignes de code généraliste via GitHub, les dépôts robotiques restent marginaux, avec seulement 17 000 repositories publics recensés. Hugging Face contourne ce problème en proposant une couche d'abstraction agnostique, compatible avec GPT-5.5, Claude Opus 4.6, Gemini Live, OpenAI Realtime et plusieurs autres modèles. Cette ouverture multiple crée un écosystème qui ne dépend d'aucun acteur unique. La prochaine étape sera probablement l'introduction d'options de monétisation pour les développeurs d'applications, absentes au lancement. Si la dynamique se confirme, Hugging Face pourrait transformer le Reachy Mini en plateforme de référence pour la robotique grand public, à l'heure où Boston Dynamics, Figure et d'autres misent sur des machines bien plus coûteuses et fermées.

UEHugging Face est fondée par des Français et Pollen Robotics (fabricant du Reachy Mini) est une startup française de Bordeaux, ce lancement positionne l'écosystème français en tête de la robotique grand public open source mondiale.

💬 300 dollars, 200 apps communautaires, un agent qui génère le code depuis une phrase, bon, sur le papier c'est exactement ce qu'il fallait pour que la robotique grand public décolle enfin. La comparaison avec l'App Store d'Apple est surjouée, mais les briques techniques sont là cette fois, et Pollen Robotics de Bordeaux dans la boucle c'est un beau signal pour l'écosystème français. Reste à voir si les usages dépassent le gadget de bureau dans six mois.

RobotiqueOpinion
1 source
Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle
22arXiv cs.RO 

Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle

Phone2Act est un framework de téleopération publié sur arXiv (2605.01948) qui transforme un smartphone grand public en contrôleur de robot à 6 degrés de liberté (DoF) via Google ARCore. Développé sur une architecture ROS 2 modulaire, le système découple la logique de contrôle des spécificités matérielles grâce à des noeuds bridge interchangeables, ce qui permet de passer d'un cobot industriel à un bras bimanuel bas coût sans modification de code. Un composant baptisé Universal Recorder synchronise des flux RGB multi-caméras avec le retour d'état du robot, puis exporte les démonstrations directement au format LeRobot, supprimant toute étape de post-traitement. Le framework a été validé en affinant le modèle VLA GR00T-N1.5 de NVIDIA sur 130 épisodes collectés, atteignant un taux de succès de 90 % sur une tâche réelle de pick-and-place multi-étapes déployée sur un Dobot CR5 physique. Ce résultat interpelle à plusieurs titres. La collecte de données de manipulation reste l'un des goulets d'étranglement les plus coûteux du pipeline d'entraînement VLA (Vision-Language-Action) : les frameworks existants supposent du matériel spécialisé, exosquelettes, gants haptiques, SpaceMouse, représentant souvent plusieurs milliers d'euros par poste. Phone2Act abaisse ce seuil à la possession d'un smartphone compatible ARCore. Les 90 % de succès sur tâche physique réelle, obtenus avec seulement 130 épisodes, suggèrent que la qualité des données collectées est suffisante pour le fine-tuning de modèles de fondation actuels. Pour un intégrateur ou un laboratoire à budget contraint, le facteur limitant n'est plus le matériel de collecte, mais le temps opérateur. Il faut toutefois noter que les vidéos de démonstration ne couvrent qu'une seule tâche, et que 130 épisodes représente un volume très limité pour tirer des conclusions généralisables. La problématique du coût de la donnée robotique est centrale depuis l'essor des modèles VLA fin 2023. Des initiatives comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace, 2024) ont standardisé les formats de datasets sans résoudre l'acquisition terrain à bas coût. Phone2Act s'inscrit dans cette continuité en ciblant le format LeRobot comme sortie native. Face à lui, des systèmes comme ALOHA 2 (Google DeepMind/Stanford) ou les kits SO-100/SO-101 (The Robot Company) restent liés à des plateformes matérielles spécifiques. Le Dobot CR5 retenu pour les tests est un cobot industriel d'entrée de gamme, aux alentours de 15 000 euros, ce qui délimite le périmètre cible. Le code source et les données collectées n'étaient pas encore publics au moment de la soumission arXiv.

UEImpact indirect pour les laboratoires européens utilisant le format LeRobot (HuggingFace) ; aucune institution française ou européenne n'est directement impliquée dans le développement du framework.

RobotiqueOpinion
1 source
Guide complet pour construire un pipeline de détection et suppression des données personnelles avec OpenAI Privacy Filter
23MarkTechPost 

Guide complet pour construire un pipeline de détection et suppression des données personnelles avec OpenAI Privacy Filter

OpenAI a mis à disposition sur HuggingFace un modèle de classification de tokens baptisé openai/privacy-filter, conçu pour détecter et masquer automatiquement les données personnelles dans des textes. Un tutoriel détaillé publié cette semaine montre comment construire, étape par étape, un pipeline complet de détection et de rédaction des informations personnellement identifiables (PII) prêt pour la production. Le système, implémenté en Python avec les bibliothèques Transformers d'HuggingFace, PyTorch et pandas, identifie huit catégories de données sensibles : noms de personnes, adresses e-mail, numéros de téléphone, adresses physiques, URL privées, dates, numéros de compte et secrets. Chaque entité détectée est remplacée par un marqueur typé comme [PRIVATEPERSON] ou [PRIVATEEMAIL], ce qui préserve la lisibilité du texte tout en occultant les informations sensibles. Le pipeline fonctionne aussi bien sur GPU que sur CPU, avec un seuil de confiance configurable fixé par défaut à 0,50 pour filtrer les faux positifs. L'intérêt concret de ce type de pipeline est considérable pour les entreprises qui manipulent des données clients avant de les envoyer vers des LLM externes ou des systèmes de journalisation. En substituant les entités sensibles par des placeholders sémantiquement clairs plutôt qu'un simple [REDACTED] générique, le texte reste exploitable par des modèles en aval sans exposer de données privées. Cette approche répond directement aux exigences du RGPD et aux politiques d'utilisation des API d'IA, qui interdisent souvent l'envoi de données personnelles non anonymisées. Le pipeline inclut également un système de rapport structuré convertissant les résultats en dataframes pandas, ce qui facilite l'audit et le traitement par lots à grande échelle. La protection des données personnelles dans les flux d'ingestion vers les LLM est devenue un enjeu critique depuis que des entreprises comme Samsung ont interdit l'usage de ChatGPT en interne après des fuites accidentelles de code source confidentiel. La mise à disposition d'un modèle dédié par OpenAI sur HuggingFace marque une évolution : plutôt que de laisser chaque organisation bricoler sa propre solution d'anonymisation, un modèle de référence mutualisé, entraîné spécifiquement sur cette tâche, peut s'intégrer directement dans les pipelines existants. Le choix d'une architecture de classification de tokens, plus précise que les approches par expressions régulières, permet de gérer les ambiguïtés contextuelles, comme distinguer une date de naissance privée d'une date de publication publique. Les prochaines étapes naturelles pour ce type de système incluent le support multilingue, l'ajout de catégories sectorielles (numéros de sécurité sociale, données médicales), et l'intégration dans des frameworks d'orchestration comme LangChain ou LlamaIndex.

UELe pipeline répond directement aux obligations du RGPD pour les entreprises européennes qui transmettent des données personnelles à des LLM externes, réduisant le risque de non-conformité.

OutilsOutil
1 source
Meta FAIR publie NeuralSet : un package Python pour la neuro-IA compatible fMRI, M/EEG, signaux neuronaux et embeddings HuggingFace
24MarkTechPost 

Meta FAIR publie NeuralSet : un package Python pour la neuro-IA compatible fMRI, M/EEG, signaux neuronaux et embeddings HuggingFace

Le laboratoire FAIR de Meta a publié NeuralSet, un framework Python destiné à la recherche en Neuro-IA, dont l'objectif est de résoudre l'un des obstacles les plus tenaces du domaine : l'intégration des données cérébrales dans les pipelines d'apprentissage profond. Le projet s'appuie sur cinq abstractions centrales, Events, Extractors, Segments, Batch Data et une couche Backend, pour représenter toute expérience neuroscientifique sous forme de métadonnées légères et pilotées par événements, entièrement dissociées des signaux bruts, volumineux et coûteux en mémoire. Chaque enregistrement, qu'il s'agisse d'une session fMRI, d'un mot prononcé lors d'une tâche cognitive ou d'un stimulus vidéo, est modélisé comme un dictionnaire Python léger contenant un type, un temps de début, une durée et un identifiant de session. L'ensemble d'une étude est compilé dans un DataFrame pandas unique, ce qui permet de filtrer et de recombiner des jeux de données massifs sans charger un seul octet de signal en mémoire. Au moment du calcul effectif, des Extractors font le lien avec les bibliothèques spécialisées existantes : FmriExtractor délègue à Nilearn, tandis que MegExtractor et EegExtractor s'appuient sur MNE-Python. L'intégration native de l'écosystème HuggingFace permet d'aligner automatiquement les signaux neuronaux avec des embeddings issus de modèles comme DINOv2, CLIP, Wav2Vec, Whisper, GPT-2 ou LLaMA. L'enjeu est considérable pour la communauté scientifique. Jusqu'à présent, les chercheurs en Neuro-IA devaient construire des pipelines ad hoc pour chaque expérience, avec manipulation manuelle des données, mise en cache artisanale et configurations backend complexes. NeuralSet rend ce travail d'infrastructure partageable et reproductible via des objets Chain chaînables et cachables. Pour les laboratoires qui travaillent avec les jeux de données publics d'OpenNeuro, désormais à l'échelle du téraoctet, ou avec des protocoles expérimentaux intégrant de la parole continue et de la vidéo, ce gain de temps représente des semaines de développement économisées par projet. Cela ouvre également la voie à des comparaisons directes entre modalités cérébrales différentes, fMRI, EEG, iEEG, fNIRS, EMG, spikes, en ne changeant qu'un paramètre de configuration. La sortie de NeuralSet s'inscrit dans un mouvement plus large d'industrialisation des outils Neuro-IA, un champ à l'intersection des neurosciences computationnelles et des grands modèles de langage. Les outils historiques comme MNE-Python, Nilearn ou fMRIPrep, conçus avant l'ère du deep learning, n'étaient pas pensés pour l'alignement temporel avec des embeddings haute dimension ni pour le chargement paresseux de datasets massifs. FAIR, qui mène depuis plusieurs années des travaux sur la correspondance entre activité cérébrale et représentations de modèles d'IA, positionne NeuralSet comme une infrastructure commune pour accélérer cette recherche. Le framework est compatible avec les datasets au format BIDS, standard ouvert dominant en neuroimagerie, ce qui facilite son adoption immédiate sur les grandes bases publiques existantes.

RecherchePaper
1 source
OpenAI lance Privacy Filter, un modèle open source d'anonymisation des données personnelles
25MarkTechPost 

OpenAI lance Privacy Filter, un modèle open source d'anonymisation des données personnelles

OpenAI a discrètement publié sur Hugging Face un modèle open source baptisé Privacy Filter, sous licence Apache 2.0, conçu spécifiquement pour détecter et supprimer automatiquement les données personnelles (PII) dans des textes. Le modèle est suffisamment léger pour tourner directement dans un navigateur web ou sur un ordinateur portable, tout en étant assez rapide pour des pipelines de traitement à haut débit. Il reconnaît huit catégories de données sensibles : numéros de compte, adresses privées, e-mails, noms de personnes, numéros de téléphone, URLs, dates privées et secrets. Cette dernière catégorie couvre les tokens d'authentification, les mots de passe et les chaînes à haute entropie. OpenAI reconnaît dans la fiche du modèle deux limites connues : la détection manquée de formats de credentials inédits et de secrets fragmentés sur plusieurs tokens. Ce qui rend Privacy Filter techniquement remarquable, c'est l'écart entre ses 1,5 milliard de paramètres totaux et ses seulement 50 millions de paramètres actifs à l'inférence, soit un rapport de 1 à 30. Cet écart s'explique par une architecture sparse mixture-of-experts (MoE) : pour chaque token traité, seuls 4 experts parmi 128 sont activés, les autres restant dormants. Le modèle repose sur 8 blocs transformer avec un residual stream de largeur 640, une attention groupée (GQA) avec embeddings positionnels rotatifs (RoPE), et bénéficie d'une fenêtre de contexte de 128 000 tokens. Son entraînement s'est déroulé en trois phases distinctes : préentraînement autorégressif classique style GPT, puis conversion architecturale avec remplacement de la tête de prédiction par une tête de classification et activation d'une attention bidirectionnelle (fenêtre locale de 257 tokens), et enfin fine-tuning supervisé sur des données PII étiquetées. La publication de Privacy Filter intervient dans un contexte où les équipes techniques cherchent à intégrer des outils d'IA dans leurs pipelines de données sans envoyer d'informations sensibles vers des APIs tierces. Ce modèle s'inscrit directement dans cette tendance des outils IA déployables en local, sur du matériel standard, sans dépendance cloud. Pour les organisations soumises au RGPD ou à des contraintes de conformité strictes, la capacité à nettoyer automatiquement des logs, des datasets ou du contenu utilisateur avant stockage représente un gain opérationnel concret. OpenAI positionne ainsi Privacy Filter comme une brique d'infrastructure réutilisable, et son architecture MoE issue de la même famille que gpt-oss laisse entrevoir une stratégie de réutilisation de checkpoints préentraînés pour des tâches spécialisées, une approche plus économique que de repartir de zéro pour chaque cas d'usage.

UELes équipes techniques soumises au RGPD disposent d'un outil local gratuit pour anonymiser automatiquement les données personnelles sans les envoyer vers des APIs tierces.

OutilsOutil
1 source
Les 10 meilleurs modèles d'IA physique pour robots en 2026
26MarkTechPost 

Les 10 meilleurs modèles d'IA physique pour robots en 2026

En 2026, une nouvelle génération de modèles d'IA dits "physiques" s'impose comme la colonne vertébrale de la robotique industrielle et de recherche. Ces systèmes ne génèrent pas du texte, mais des commandes motrices : ils permettent à des robots réels d'exécuter des tâches complexes dans des usines, entrepôts et laboratoires. Dix modèles dominent ce paysage. NVIDIA a lancé sa série GR00T N dès mars 2025 au GTC, avec une première version ouverte et personnalisable. La version N1.7, publiée le 17 avril 2026 en accès anticipé, est un modèle de 3 milliards de paramètres, sous licence Apache 2.0, entraîné sur 20 854 heures de vidéo égocentrique humaine couvrant plus de 20 catégories de tâches. NVIDIA a également identifié la première loi d'échelle pour la dextérité robotique : passer de 1 000 à 20 000 heures de données humaines double les performances. Google DeepMind, de son côté, a dévoilé Gemini Robotics 1.5 en septembre 2025, un modèle vision-langage-action bâti sur Gemini 2.0, et a publié le 14 avril 2026 une version Gemini Robotics-ER 1.6 améliorant le raisonnement spatial, développée en collaboration avec Boston Dynamics. Ces avancées marquent un tournant concret pour l'industrie robotique. Des partenaires comme Agile Robots, Agility Robotics, Foxlink, NEURA Robotics et Lightwheel testent ou déploient déjà ces systèmes sur du matériel réel. Les modèles permettent désormais à des robots bimanuels d'accomplir des tâches en plusieurs étapes, de lire des instruments complexes, ou d'apprendre à partir de simples vidéos d'humains au travail, sans nécessiter des mois de génération de données synthétiques. NVIDIA a réduit ce délai à environ 36 heures grâce à son architecture GR00T-Dreams. Pour les opérateurs industriels, cela signifie des cycles de déploiement raccourcis et une polyvalence accrue des robots sans reprogrammation manuelle lourde. Ce bond technologique s'inscrit dans une convergence entre les grands modèles de langage et la robotique physique, amorcée depuis 18 mois environ. Des acteurs comme Physical Intelligence, avec ses modèles pi0 et pi0.5 basés sur le flow matching, Figure AI avec Helix, ou encore OpenVLA et le SmolVLA open-source d'HuggingFace LeRobot, enrichissent un écosystème désormais très dense. NVIDIA s'appuie également sur ses Cosmos World Foundation Models pour simuler des environnements d'entraînement réalistes. La compétition s'intensifie entre approches ouvertes, comme GR00T N1.7, et systèmes propriétaires à accès restreint comme Gemini Robotics 1.5, dont la disponibilité reste limitée à des partenaires sélectionnés. Les prochains mois verront probablement les premières mises en production à grande échelle dans les lignes d'assemblage et la logistique automatisée.

UEL'entreprise allemande NEURA Robotics figure parmi les partenaires industriels testant ces systèmes, et les opérateurs européens de la logistique et de l'assemblage pourraient bénéficier de cycles de déploiement robotique significativement raccourcis.

RobotiqueActu
1 source
Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage
27MarkTechPost 

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Microsoft a publié OpenMementos, un jeu de données conçu pour entraîner des modèles de langage capables de raisonnement long, structuré et compressible. Le dataset, disponible sur HuggingFace sous l'identifiant microsoft/OpenMementos, organise chaque trace de raisonnement en une série de blocs délimités par des tokens spéciaux (<|blockstart|>, <|blockend|>) accompagnés chacun de leur résumé condensé, appelé memento, encadré par <|summarystart|> et <|summaryend|>. Un tutoriel technique détaillé, conçu pour fonctionner directement dans Google Colab, montre comment accéder au dataset en mode streaming sans le télécharger intégralement, analyser sa structure interne, mesurer les taux de compression bloc-par-bloc sur 500 exemples répartis selon le domaine et la source, puis préparer les données pour un fine-tuning supervisé. L'ensemble du pipeline repose sur des bibliothèques Python standard : HuggingFace Datasets, Transformers, Pandas et Matplotlib. La valeur centrale d'OpenMementos réside dans son architecture de compression. Chaque réponse longue d'un modèle de raisonnement est découpée en blocs discrets, puis chaque bloc est automatiquement réduit à un memento de quelques phrases. Le tutoriel mesure ce rapport de compression en caractères et en mots par domaine, révélant à quel point les mementos permettent de préserver l'essentiel du raisonnement avec une fraction du volume textuel. Cette structure est directement exploitable pour l'entraînement : plutôt que de forcer un modèle à reproduire intégralement des chaînes de pensée verbeuses, on peut l'entraîner à produire des résumés intermédiaires compacts, ce qui réduit les coûts de calcul à l'inférence tout en maintenant la cohérence logique sur des problèmes complexes. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires d'IA depuis fin 2024 : comment rendre les modèles de raisonnement économiquement viables. Les approches chain-of-thought et les architectures de type "thinking model", popularisées par OpenAI avec o1 puis par DeepSeek-R1 et Qwen-QwQ, génèrent des traces de raisonnement extrêmement longues et coûteuses à stocker, transmettre et inférer. Microsoft répond à ce défi avec une solution de compression supervisée des traces, en annotant explicitement les résumés intermédiaires au niveau des blocs. OpenMementos fournit ainsi une base d'entraînement structurée pour des modèles capables de "penser de façon compacte", une propriété qui pourrait devenir déterminante à mesure que les applications industrielles exigent des latences et des coûts d'inférence maîtrisés sur des tâches de raisonnement multi-étapes.

RecherchePaper
1 source
DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5
28VentureBeat AI 

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

DeepSeek, la startup chinoise d'intelligence artificielle issue du fonds de trading quantitatif High-Flyer Capital Management, a publié DeepSeek-V4, un modèle de langage aux capacités proches des meilleurs systèmes mondiaux. Avec 1 600 milliards de paramètres organisés selon une architecture Mixture-of-Experts (MoE), ce modèle est disponible gratuitement sous licence MIT commercialement permissive, sur la plateforme Hugging Face et via l'API de DeepSeek. Son tarif d'accès : 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie, soit environ 5,22 dollars pour une utilisation combinée standard. Avec les entrées mises en cache, ce coût descend à 3,63 dollars. À titre de comparaison, GPT-5.5 d'OpenAI coûte 35 dollars pour la même transaction, et Claude Opus 4.7 d'Anthropic 30 dollars. Une version allégée, DeepSeek-V4-Flash, est proposée à seulement 0,42 dollar combiné, au prix d'une baisse de performance. Deli Chen, chercheur chez DeepSeek, a décrit cette sortie sur X comme "un travail d'amour", réalisé 484 jours après le lancement du V3, avec cette formule : "L'AGI appartient à tout le monde." L'impact économique est immédiat et brutal pour les acteurs américains du secteur. DeepSeek-V4-Pro coûte environ six fois moins cher que Claude Opus 4.7 et sept fois moins que GPT-5.5 en conditions normales, et jusqu'à dix fois moins avec les entrées en cache. La version Flash, elle, revient à moins de 1 % du tarif des modèles premium américains. Pour les entreprises traitant de gros volumes de requêtes, cette différence de coûts transforme radicalement le calcul de rentabilité : des tâches d'automatisation jugées trop onéreuses avec les modèles fermés américains deviennent soudainement viables. Développeurs et directions techniques sont contraints de réévaluer leurs choix d'infrastructure, et les fournisseurs positionnés sur le haut de gamme voient leur argument tarifaire sérieusement fragilisé. Ce lancement s'inscrit dans la continuité du "moment DeepSeek" de janvier 2025, quand le modèle R1 avait stupéfait la communauté internationale en rivalisant avec les meilleurs systèmes propriétaires américains à une fraction de leur coût de développement. Depuis, la startup avait publié plusieurs mises à jour de ses séries R1 et V3, mais la communauté attendait un successeur de grande envergure. Ce DeepSeek-V4 est d'ores et déjà qualifié de "deuxième moment DeepSeek", et il ravive les débats sur la pérennité commerciale des modèles fermés face aux alternatives open source chinoises. Il soulève également des questions sur la capacité de DeepSeek à maintenir cette trajectoire malgré les restrictions américaines sur l'exportation de puces haut de gamme, contraintes que l'entreprise semble contourner avec une efficacité croissante grâce à des optimisations architecturales poussées.

UEL'écart de prix, jusqu'à six fois inférieur aux modèles premium américains, permet aux entreprises européennes de rentabiliser des projets d'automatisation IA jusqu'ici jugés trop coûteux.

💬 Six fois moins cher qu'Opus 4.7, performances comparables, licence MIT. C'est exactement le scénario que les équipes produit chez OpenAI et Anthropic essayaient de ne pas avoir à gérer, et il arrive quand même. "L'AGI appartient à tout le monde", dit DeepSeek, bon, sur le papier c'est beau, mais le vrai truc c'est que des automatisations qu'on refusait de budgéter il y a six mois deviennent rentables dès ce soir.

LLMsOpinion
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
29arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

RechercheOpinion
1 source
OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise
30VentureBeat AI 

OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise

OpenAI a publié Privacy Filter, un modèle open source spécialisé dans la détection et la suppression des informations personnelles identifiables (PII) avant qu'elles n'atteignent un serveur distant. Disponible sur Hugging Face sous licence Apache 2.0, cet outil repose sur 1,5 milliard de paramètres mais n'en active que 50 millions à chaque traitement, grâce à une architecture Sparse Mixture-of-Experts qui réduit considérablement la charge de calcul. Contrairement aux grands modèles de langage classiques qui lisent un texte de gauche à droite, Privacy Filter est un classificateur bidirectionnel de tokens : il analyse chaque phrase dans les deux sens simultanément, ce qui lui permet de mieux distinguer, par exemple, si le prénom "Alice" désigne une personne privée ou un personnage littéraire public. Le modèle gère une fenêtre de contexte de 128 000 tokens, suffisante pour traiter un document juridique entier en une seule passe, et s'appuie sur un décodeur de Viterbi contraint avec un schéma de balisage BIOES pour garantir la cohérence des entités redactées. Il détecte huit catégories de données sensibles : noms de personnes, coordonnées, identifiants numériques, URLs, numéros de compte, dates et identifiants secrets comme les clés API. L'enjeu concret est considérable pour les entreprises soumises au RGPD ou à la réglementation HIPAA dans le secteur de la santé. En déployant Privacy Filter directement sur leurs serveurs internes ou dans leur cloud privé, elles peuvent anonymiser les données localement avant de les envoyer vers un modèle plus puissant comme GPT-5 ou gpt-oss-120b, sans jamais exposer d'informations sensibles à l'extérieur. Ce modèle résout un problème structurel de l'adoption de l'IA en entreprise : le risque que des données confidentielles, médicales ou financières se retrouvent intégrées dans des pipelines d'inférence ou de fine-tuning hébergés dans le cloud. La possibilité de faire tourner le modèle sur un laptop standard ou directement dans un navigateur web abaisse encore davantage la barrière d'entrée. Cette publication s'inscrit dans un retour marqué d'OpenAI vers l'open source, après des années centrées sur des modèles propriétaires accessibles uniquement via ChatGPT et l'API. Début 2025, l'entreprise avait déjà lancé la famille gpt-oss, des modèles à poids ouverts orientés raisonnement, puis ouvert plusieurs outils d'orchestration agentique. Privacy Filter est un dérivé direct de cette famille gpt-oss, réentraîné pour la classification plutôt que la génération. Ce virage stratégique suggère qu'OpenAI cherche à consolider sa position dans l'écosystème développeur face à la concurrence de Meta (LLaMA), Mistral et Google, en proposant des briques d'infrastructure que les entreprises peuvent intégrer sans dépendance à ses services payants. La prochaine étape logique serait l'extension des catégories PII supportées et l'intégration native dans les frameworks agentiques déjà publiés.

UELes entreprises françaises et européennes soumises au RGPD peuvent déployer Privacy Filter en local pour anonymiser leurs données sensibles avant tout envoi vers un service cloud, réduisant directement leur risque de non-conformité réglementaire.

💬 C'est exactement le verrou qui bloquait l'adoption en entreprise depuis deux ans. Un modèle léger, déployable en local, qui filtre les données personnelles avant d'envoyer vers le cloud : sur le papier, c'est le genre de brique qu'on attendait. Et distribuer ça sous Apache 2.0, c'est malin : si ton pipeline s'appuie sur leurs outils gratuits, tu vas finir par appeler leurs modèles payants derrière.

OutilsOutil
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
31arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

AutreOpinion
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
32MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source
Le pari open source de la Chine
33MIT Technology Review 

Le pari open source de la Chine

Les laboratoires d'IA chinois ont adopté une stratégie radicalement différente de leurs rivaux américains : au lieu de monétiser leurs modèles derrière des API payantes, ils les publient en open-weight, c'est-à-dire sous forme de packages téléchargeables que n'importe quel développeur peut adapter et faire tourner sur ses propres serveurs. Ce tournant a pris une dimension mondiale en janvier 2025, lorsque DeepSeek a publié son modèle de raisonnement R1, qui a égalé les meilleures performances américaines à une fraction du coût annoncé. Dans la foulée, un véritable écosystème s'est structuré autour de ce modèle : Z.ai (anciennement Zhipu), Moonshot, Alibaba avec sa famille Qwen, et MiniMax ont tous suivi la même logique, en publiant des modèles de plus en plus capables. En août 2025, une étude menée par des chercheurs du MIT et de Hugging Face a établi que les modèles open-weight chinois représentaient 17,1 % des téléchargements mondiaux de modèles d'IA, dépassant pour la première fois la part américaine, fixée à 15,86 %. Les modèles Qwen d'Alibaba comptent aujourd'hui plus de variantes créées par des utilisateurs que ceux de Google et Meta réunis. L'impact de cette stratégie dépasse largement les benchmarks techniques. À mesure que l'enthousiasme autour de l'IA se tasse et que les entreprises passent des expérimentations aux déploiements concrets, les outils moins chers et plus personnalisables prennent l'avantage. Les modèles chinois permettent aux développeurs aux budgets limités d'expérimenter davantage, et le format open-weight leur donne la liberté d'adapter les modèles sans négocier de contrat commercial avec un acteur américain. Cette combinaison de prix bas et de liberté technique crée une adhérence forte : une fois qu'un écosystème se construit autour d'un modèle, comme l'ont montré Linux et Android, l'adoption se traduit naturellement en revenus API. Le Sud global, notamment Singapour, la Malaisie, le Kenya ou le Brésil, embrasse ouvertement ces outils, y voyant un chemin vers une souveraineté numérique. Derrière cette générosité apparente se cachent des calculs stratégiques précis. Sans accès aux puces de pointe bloquées par les contrôles à l'exportation américains, les laboratoires chinois compensent en ouvrant leurs modèles : plus les développeurs extérieurs contribuent et testent, plus vite le cycle d'amélioration s'accélère. Ce n'est pas sans tensions : en février 2026, Anthropic a accusé plusieurs laboratoires chinois de pratiques illicites de distillation, consistant à entraîner un nouveau modèle sur les sorties d'un autre. Les modèles chinois sont par ailleurs soumis aux exigences de censure du gouvernement de Pékin. Malgré ces limites, la dynamique est enclenchée : l'avenir de l'IA sera plus multipolaire que Silicon Valley ne l'anticipait, et rien ne semble pouvoir inverser cette tendance.

UELes modèles open-weight chinois offrent aux développeurs et entreprises européens une alternative concrète aux APIs américaines payantes, renforçant la souveraineté numérique de l'UE sans dépendance contractuelle envers les géants du Silicon Valley.

LLMsOpinion
1 source
34MarkTechPost 

Tutoriel : faire tourner PrismML Bonsai LLM 1-bit sur CUDA avec GGUF, benchmarks, chat, JSON et RAG

PrismML a publié une pile de déploiement optimisée pour faire tourner Bonsai, un modèle de langage de 1,7 milliard de paramètres quantifié à 1 bit, sur GPU via accélération CUDA. Le modèle utilise le format GGUF avec une quantisation Q1\0\g128, et s'appuie sur une version personnalisée de llama.cpp distribuée par PrismML-Eng sur GitHub sous la balise de version prism-b8194-1179bfc. Un tutoriel complet détaille l'installation de l'environnement depuis Google Colab : vérification du GPU et de la version CUDA, installation des dépendances Python (huggingface\_hub, requests, tqdm, openai), téléchargement des binaires précompilés adaptés à la version CUDA détectée (12.4, 12.8 ou 13.1), puis chargement du modèle Bonsai-1.7B pour l'inférence. Le guide couvre ensuite sept cas d'usage concrets : inférence de base, benchmarking, conversation multi-tours, génération JSON structurée, génération de code, mode serveur compatible avec l'API OpenAI, et un pipeline RAG (retrieval-augmented generation) minimal. L'intérêt principal de Bonsai réside dans son empreinte mémoire extrêmement réduite grâce à la quantisation 1 bit : là où un modèle de 1,7 milliard de paramètres en FP16 occuperait environ 3,4 Go de VRAM, la version 1 bit descend bien en dessous de 1 Go, rendant le modèle utilisable sur des GPU d'entrée de gamme ou dans des environnements cloud à ressources limitées. La compatibilité avec le serveur OpenAI permet de brancher Bonsai directement sur des applications existantes sans modifier le code client. Pour les développeurs qui construisent des agents, des chatbots ou des pipelines RAG sur du matériel modeste, c'est une alternative sérieuse aux modèles quantifiés classiques en 4 ou 8 bits. La quantisation à 1 bit est une direction de recherche active depuis la publication de BitNet par Microsoft en 2023, qui avait montré qu'un modèle entraîné nativement en 1 bit pouvait conserver une qualité compétitive à faible coût computationnel. Bonsai s'inscrit dans cette lignée, et PrismML mise sur llama.cpp comme moteur d'inférence universel, bien implanté dans la communauté open source depuis sa création par Georgi Gerganov fin 2022. Le format GGUF, successeur de GGML, est aujourd'hui le standard de facto pour le déploiement local de LLMs quantifiés. La prochaine étape logique pour PrismML sera de proposer des modèles Bonsai dans des tailles supérieures (7B, 13B) pour mesurer si la qualité tient à plus grande échelle, et de valider les performances sur des benchmarks standardisés face à des modèles comme Phi-3 Mini ou Gemma 3.

💬 Moins d'1 Go de VRAM pour faire tourner un LLM complet, c'est le genre de chiffre qui change vraiment ce qu'on peut faire sur du matos lambda. La compatibilité API OpenAI en prime, ça veut dire qu'on branche ça sur un projet existant en cinq minutes. Bon, 1,7B de paramètres ça reste petit, reste à voir ce que ça vaut sur des tâches un peu exigeantes face à un Phi-3 Mini bien quantifié en 4 bits.

LLMsTuto
1 source
35MarkTechPost 

Guide de programmation complet pour exécuter les modèles open-weight GPT d'OpenAI avec des workflows d'inférence avancés

OpenAI a publié une version open-weight de ses modèles GPT sous l'identifiant openai/gpt-oss-20b, un modèle de 20 milliards de paramètres téléchargeable depuis HuggingFace et exécutable localement via la bibliothèque Transformers. Un guide technique détaillé, publié récemment, explique comment déployer ce modèle dans Google Colab en s'appuyant sur la quantification native MXFP4, les activations en torch.bfloat16, et le système devicemap="auto" pour l'allocation GPU automatique. Le modèle pèse environ 40 Go en téléchargement et nécessite au minimum 16 Go de VRAM, ce qui impose l'usage d'un GPU de type T4 ou A100, disponibles sur Colab Pro. Le tutoriel couvre l'installation des dépendances précises (Transformers 4.51+, accelerate, sentencepiece), le chargement du modèle avec trustremote_code=True, puis l'exécution de workflows complets : génération structurée, streaming, dialogue multi-tours, appel d'outils et inférence en batch. La mise à disposition de ce modèle en open-weight représente un changement significatif pour les développeurs et chercheurs qui souhaitent inspecter, modifier ou déployer un LLM de la famille GPT sans dépendre de l'API d'OpenAI. Contrairement aux modèles hébergés, gpt-oss-20b offre une transparence totale sur l'architecture, un contrôle complet des paramètres d'inférence (température, topp, longueur de séquence), et la possibilité d'exécution hors ligne sur infrastructure privée. Pour les entreprises soumises à des contraintes de confidentialité des données, ou pour les équipes de recherche qui ont besoin de reproductibilité, c'est une alternative concrète aux API fermées. Le guide recommande d'ailleurs les paramètres temperature=1.0 et topp=1.0 pour reproduire le comportement officiel du modèle. Ce mouvement s'inscrit dans une dynamique plus large de publication de modèles open-weight par les grands laboratoires : Meta avec Llama, Mistral AI avec ses modèles libres, ou encore Google avec Gemma. OpenAI, longtemps perçu comme le plus fermé des acteurs majeurs, adopte ici une stratégie différente en libérant un modèle intermédiaire techniquement capable. La compatibilité avec l'écosystème HuggingFace et Transformers facilite l'adoption immédiate par la communauté. Les prochaines étapes pourraient inclure des fine-tunings spécialisés par la communauté, des déploiements sur hardware grand public via des solutions comme llama.cpp ou Ollama, et une évaluation comparative approfondie face à Llama 3 ou Mistral Large, ce qui permettra de situer précisément gpt-oss-20b dans le paysage des modèles ouverts.

UELes équipes européennes soumises au RGPD peuvent désormais déployer un modèle de la famille GPT en infrastructure privée, sans transférer de données vers les serveurs d'OpenAI.

💬 OpenAI qui lâche un open-weight, ça faisait longtemps qu'on en parlait sans y croire. 20 milliards de paramètres, compatible HuggingFace, déployable sur ta propre infra, c'est exactement ce que réclamaient les équipes sous RGPD depuis des mois. Reste à voir si ça tient face à Llama 3 une fois les benchmarks sérieux posés.

LLMsTuto
1 source
36AWS ML Blog 

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow. L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production. Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

LLMsOutil
1 source
37MarkTechPost 

Implémentation pratique de systèmes multi-agents avec SmolAgents : exécution de code, appels d'outils et orchestration dynamique

SmolAgents, le framework minimaliste d'agents IA publié par HuggingFace, fait l'objet d'un tutoriel technique détaillé montrant comment construire des systèmes multi-agents prêts pour la production. La version stable utilisée est la 1.24.0, couplée au modèle OpenAI gpt-4o-mini via l'interface LiteLLM. Le tutoriel couvre l'ensemble de la chaîne : installation des dépendances (smolagents, duckduckgo-search, wikipedia), configuration sécurisée des clés API, création d'outils personnalisés (conversion de températures, vérification de nombres premiers, stockage clé-valeur en mémoire), puis orchestration de plusieurs agents collaborant entre eux. Deux paradigmes d'agents sont explorés en parallèle : le CodeAgent, qui génère et exécute du code Python dans un environnement sandbox, et le ToolCallingAgent, qui appelle des outils de façon structurée. Depuis la version 1.8.0, la gestion multi-agents se fait en passant directement des sous-agents via le paramètre managedagents, la classe ManagedAgent ayant été supprimée. Ce type de tutoriel révèle l'état réel des pratiques en matière de développement d'agents IA en 2025 : les développeurs cherchent des frameworks légers, modulaires et transparents, en réaction à la complexité des solutions précédentes comme LangChain ou AutoGen. SmolAgents répond à ce besoin en exposant une boucle d'exécution simple (tâche, génération de code, exécution, observation, itération jusqu'à finalanswer()), tout en permettant une gestion dynamique des outils via un dictionnaire agent.tools modifiable à la volée. Pour les équipes qui construisent des applications IA en production, cette approche réduit les abstractions inutiles et facilite le débogage, deux points critiques lorsque les agents opèrent dans des environnements réels avec des données sensibles ou des contraintes de latence. L'essor de SmolAgents s'inscrit dans une tendance plus large : après l'enthousiasme pour les agents autonomes "tout-en-un", l'industrie converge vers des architectures modulaires où des agents spécialisés collaborent plutôt qu'un seul agent tente de tout faire. HuggingFace, fort de sa communauté open-source et de son écosystème de modèles, positionne SmolAgents comme l'alternative légère aux frameworks propriétaires, compatible avec des LLMs locaux ou des API tierces. La suppression de ManagedAgent en v1.8.0 illustre la maturité croissante du framework et sa volonté de simplifier l'API à mesure que les cas d'usage se stabilisent. Les prochaines évolutions attendues portent sur l'intégration native d'outils de recherche, de mémoire persistante et de sandboxing renforcé, des briques essentielles pour déployer des agents dans des contextes d'entreprise.

UEHuggingFace, entreprise fondée en France, consolide son écosystème open-source avec SmolAgents, offrant aux équipes de développement européennes une alternative légère et auditable aux frameworks d'agents propriétaires.

💬 SmolAgents fait exactement ce qu'il promet : rester petit. Après des mois à me battre avec LangChain sur des trucs qui auraient dû prendre 10 lignes, voir un framework qui expose sa boucle d'exécution à plat, sans magie cachée, c'est presque reposant. Reste à voir si ça tient quand les agents tournent avec de vraies contraintes de latence et des données sensibles, mais c'est le bon pari.

OutilsTuto
1 source
Tutoriel pratique : ASR avec identification du locuteur, TTS en temps réel et pipelines speech-to-speech avec Microsoft VibeVoice
38MarkTechPost 

Tutoriel pratique : ASR avec identification du locuteur, TTS en temps réel et pipelines speech-to-speech avec Microsoft VibeVoice

Microsoft a publié VibeVoice, un système de traitement de la parole combinant reconnaissance vocale avancée et synthèse vocale expressive, accompagné d'un tutoriel complet permettant de déployer l'ensemble du pipeline directement dans Google Colab. Le modèle ASR (reconnaissance automatique de la parole) pèse 7 milliards de paramètres et nécessite environ 14 Go de téléchargement lors de la première utilisation. Il s'appuie sur la bibliothèque Transformers de HuggingFace, avec un support spécifique via la classe VibeVoiceAsrForConditionalGeneration. Le tutoriel couvre l'installation des dépendances, le clonage du dépôt officiel depuis GitHub, et la configuration de l'environnement d'exécution, avant de plonger dans des cas d'usage concrets : transcription de podcasts avec identification des locuteurs, traitement audio par lots, génération de parole longue durée avec différents préréglages vocaux, et déploiement d'une interface interactive via Gradio. Un pipeline bout-en-bout speech-to-speech est également présenté, permettant de transformer directement une entrée audio en sortie vocale synthétisée. L'intérêt majeur de VibeVoice réside dans sa capacité à combiner dans un même système la diarisation des locuteurs, la transcription guidée par contexte et la synthèse vocale expressive multilingue, avec un exemple en allemand fourni dans les données de démonstration hébergées sur HuggingFace. Pour les développeurs et chercheurs, cela représente un gain concret : là où il fallait auparavant assembler plusieurs modèles spécialisés (un pour la transcription, un pour la détection des locuteurs, un pour la synthèse), VibeVoice propose une interface unifiée. La prise en charge native de device_map="auto" et du format float16 facilite également le déploiement sur GPU grand public sans optimisation manuelle. Le fait que le tutoriel soit conçu pour Colab rend le modèle accessible sans infrastructure locale dédiée. Microsoft s'inscrit avec VibeVoice dans une compétition intense autour des modèles de parole fondationnels, face à OpenAI Whisper, Meta SeamlessM4T ou encore Google USM. La publication simultanée d'un tutoriel détaillé et de jeux de données d'exemple sur HuggingFace suggère une stratégie d'adoption communautaire, cherchant à ancrer VibeVoice comme référence dans l'écosystème open source. L'intégration dans Transformers, bibliothèque centrale de l'industrie, est un signal fort : Microsoft ne veut pas que VibeVoice reste un projet isolé, mais qu'il devienne un composant standard dans les pipelines de traitement audio. Les prochaines étapes probables incluent des versions plus légères pour un déploiement embarqué, et une extension du support multilingue au-delà des langues déjà couvertes.

OutilsOutil
1 source
L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro
39VentureBeat AI 

L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro

Z.ai, startup chinoise cotée à la Bourse de Hong Kong depuis début 2026 avec une capitalisation de 52,83 milliards de dollars, a publié le 7 avril 2026 son modèle GLM-5.1 sous licence MIT, permettant à toute entreprise de le télécharger, l'adapter et l'exploiter commercialement via Hugging Face. Ce modèle de 754 milliards de paramètres en architecture Mixture-of-Experts dispose d'une fenêtre de contexte de 202 752 tokens. Sa caractéristique principale est sa capacité à travailler de façon autonome jusqu'à huit heures consécutives sur une tâche complexe, enchaînant jusqu'à 1 700 étapes d'exécution et plusieurs milliers d'appels d'outils, contre une vingtaine d'étapes pour les meilleurs modèles fin 2024 selon le fondateur Lou. Sur le benchmark SWE-Bench Pro, il dépasse Claude Opus 4.6 et GPT-5.4, deux des références actuelles en ingénierie logicielle automatisée. Ce lancement illustre une rupture dans la façon de concevoir la performance des modèles d'IA. Là où la concurrence investit massivement dans les tokens de raisonnement pour gagner en logique à court terme, Z.ai parie sur l'endurance : la capacité d'un modèle à maintenir sa cohérence d'objectif sur des séquences d'exécution très longues. Les tests publiés dans leur rapport technique sont frappants : chargé d'optimiser une base de données vectorielle en Rust (benchmark VectorDBBench), GLM-5.1 a enchaîné 655 itérations et plus de 6 000 appels d'outils, atteignant 21 500 requêtes par seconde, contre 3 547 pour Claude Opus 4.6 dans les meilleures conditions. Le modèle a identifié et résolu six goulots d'étranglement structurels, introduisant de lui-même des techniques comme le IVF cluster probing, la compression vectorielle f16 ou un pipeline à deux étages combinant présélection u8 et reclassement f16. Ce n'est plus un assistant, c'est un département R&D autonome. Le contexte de cette publication est stratégique. Z.ai, connue pour sa famille de modèles GLM open source, avait sorti le mois précédent GLM-5 Turbo sous licence propriétaire uniquement. Le choix du MIT pour GLM-5.1 est délibéré : il s'agit de capter la communauté des développeurs et de s'imposer comme le principal acteur indépendant de LLM en Asie, à l'heure où la Chine tente de reprendre la main sur l'IA open source face aux modèles américains à accès restreint. La notion de "temps de travail autonome" que Lou décrit comme "la courbe la plus importante après les lois d'échelle" pourrait redéfinir les critères d'évaluation de l'industrie entière. Si ce cap se confirme, les prochaines versions de modèles concurrents devront répondre non plus uniquement sur la précision à court terme, mais sur leur capacité à tenir la distance sur des projets entiers.

UELes entreprises et développeurs européens peuvent télécharger et exploiter GLM-5.1 librement sous licence MIT via Hugging Face, offrant une alternative open source compétitive aux modèles propriétaires américains pour des tâches d'ingénierie logicielle autonome longue durée.

LLMsOpinion
1 source
Gemma 4 dépasse les 2 millions de téléchargements
40Latent Space 

Gemma 4 dépasse les 2 millions de téléchargements

Gemma 4, le modèle open source de Google DeepMind, a franchi les 2 millions de téléchargements en moins d'une semaine après son lancement, selon les données compilées par AINews pour la période du 4 au 6 avril 2026. Ce rythme d'adoption est remarquable : à titre de comparaison, Gemma 3 avait totalisé 6,7 millions de téléchargements sur l'ensemble de l'année écoulée, et Gemma 2 avait atteint 1,4 million depuis son lancement en juin 2024. Seul Qwen 3.5, avec environ 27 millions de téléchargements cumulés depuis le lancement de son modèle phare 397B-A17B, dépasse largement ces chiffres. Google a par ailleurs annoncé une keynote dédiée à Gemma 4 depuis Londres dans les prochains jours. Sur le terrain, les signaux d'adoption sont concrets : le modèle Gemma 4 E2B tourne sur iPhone 17 Pro à environ 40 tokens par seconde via MLX, Red Hat a publié des versions quantifiées du modèle 31B en formats NVFP4 et FP8-block, et Ollama a déployé Gemma 4 sur son cloud, adossé aux GPU NVIDIA Blackwell. Ce qui distingue Gemma 4 des précédentes sorties open source, c'est moins sa performance sur les benchmarks que sa capacité à fonctionner directement sur du matériel grand public, en particulier les puces Apple Silicon. Cette dynamique "local-first" crée une pression réelle sur les abonnements payants aux services cloud d'IA : plusieurs observateurs ont souligné que Gemma 4 en local comble suffisamment l'écart de qualité pour rendre un abonnement Claude moins indispensable pour certains usages. HuggingFace héberge gratuitement le modèle, ce qui ouvre la voie à son intégration dans des workflows d'agents sans coût d'inférence. L'ensemble des signaux pointe vers un déplacement structurel : les modèles ouverts ne sont plus seulement des alternatives pour les développeurs expérimentés, ils deviennent des références pour l'inférence en bordure de réseau. Le succès de Gemma 4 illustre également un phénomène plus large : la réussite d'un modèle open source repose désormais autant sur la coordination écosystémique que sur la qualité des poids eux-mêmes. Le lancement a été accompagné d'un soutien simultané de HuggingFace, vLLM, llama.cpp, Ollama, NVIDIA, Unsloth, SGLang, Docker et Cloudflare, une mobilisation rarement vue à cette échelle. En parallèle, Hermes Agent de Nous Research a capté l'attention de la communauté des développeurs d'agents, notamment grâce à sa boucle d'auto-amélioration combinant mémoire persistante et génération autonome de compétences -- une approche qui se distingue d'OpenClaw par son architecture plus opinionée et des compétences définies par les auteurs humains plutôt que générées à la volée. Ces deux dynamiques -- l'essor du local et la maturation des frameworks d'agents open source -- dessinent les contours d'un écosystème IA de plus en plus décentralisé.

UEHuggingFace, entreprise d'origine française, héberge gratuitement Gemma 4, facilitant son intégration dans les workflows européens sans coût d'inférence.

LLMsOpinion
1 source
[AINews] Vendredi Saint
41Latent Space 

[AINews] Vendredi Saint

Google a lancé Gemma 4 le 3 avril 2026, sous licence Apache 2.0, marquant un tournant dans sa stratégie open source. La famille de modèles comprend plusieurs variantes, dont le 26B A4B (une architecture MoE, mixture of experts) et le modèle 31B, conçus pour le raisonnement, les workflows agentiques, la multimodalité et l'usage sur appareil local. Dès le premier jour, l'écosystème était prêt : vLLM, llama.cpp, Ollama, Intel (Xeon, Xe GPU, Core Ultra), Unsloth et Hugging Face Inference Endpoints ont tous annoncé une compatibilité immédiate. François Chollet a qualifié Gemma 4 de modèle open source le plus solide jamais produit par Google, recommandant le backend JAX via KerasHub, tandis que Demis Hassabis a mis en avant l'efficacité du modèle, qui surpasserait des modèles dix fois plus grands selon les benchmarks internes. Les premiers tests sur matériel grand public confirment des performances remarquables : 162 tokens par seconde sur une RTX 4090 à 19,5 Go de VRAM, 34 tokens par seconde sur un Mac mini M4 avec 16 Go de RAM, et même un portage fonctionnel sur iPhone via Swift MLX. L'importance de cette sortie tient autant à la licence qu'aux performances. En optant pour Apache 2.0, Google lève les restrictions habituelles sur l'usage commercial et la redistribution, ce qui ouvre la voie à une intégration dans des produits tiers sans friction juridique. Clément Delangue (Hugging Face) et plusieurs autres acteurs du secteur ont salué ce choix comme une vraie libération des poids, contrairement aux licences restrictives qui avaient accompagné des releases précédentes. Sur le plan technique, la compression TurboQuant réduit le cache KV de 13,3 Go à 4,9 Go pour le modèle 31B à 128 000 tokens de contexte, ce qui rend ce niveau de performance accessible sur du matériel abordable. Le modèle E4B est même présenté comme capable de tourner directement sur smartphones et ordinateurs portables. En parallèle de Gemma 4, le framework agentique open source Hermes Agent, développé par Nous Research, s'impose comme la surprise de la journée. De nombreux développeurs ont signalé avoir migré depuis OpenClaw vers Hermes, citant une meilleure stabilité sur les tâches longues. L'équipe de Nous a livré une infrastructure concrète : un système de mémoire modulaire compatible avec plusieurs backends (Honcho, mem0, Hindsight, RetainDB), une création autonome de compétences et une mémoire procédurale réutilisable. La thèse émergente dans la communauté est que l'avantage compétitif ne réside plus seulement dans le modèle lui-même, mais dans le harness, c'est-à-dire le système d'orchestration qui l'entoure. Cette double actualité, un modèle de base puissant et libre d'un côté, un framework agentique mature de l'autre, dessine les contours d'un écosystème open source qui se rapproche sérieusement des capacités propriétaires.

UEHugging Face (entreprise française) a intégré Gemma 4 en priorité dans ses Inference Endpoints sous licence Apache 2.0, offrant aux développeurs et entreprises européennes un accès immédiat à un modèle open source exploitable commercialement sans restriction juridique.

LLMsActu
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
42MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source
Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)
43MarkTechPost 

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

Hugging Face a officiellement publié TRL (Transformer Reinforcement Learning) v1.0, marquant le passage de cette bibliothèque d'un outil de recherche expérimental à un framework stable et prêt pour la production. Cette version unifie l'ensemble du pipeline de post-entraînement — la séquence Supervised Fine-Tuning (SFT), Reward Modeling et alignement — sous une API standardisée et cohérente. Concrètement, les développeurs disposent désormais d'une interface en ligne de commande dédiée, d'un système de configuration unifié basé sur des fichiers YAML, et d'une suite élargie d'algorithmes d'alignement incluant DPO, GRPO, KTO et ORPO. Une simple commande comme trl sft --modelnameor_path meta-llama/Llama-3.1-8B suffit désormais à lancer un entraînement complet, là où il fallait auparavant écrire des centaines de lignes de code personnalisé. Cette standardisation change concrètement la donne pour les équipes d'ingénierie qui travaillent sur des modèles de langage. Le post-entraînement — cette phase où l'on affine un modèle de base pour qu'il suive des instructions, adopte un ton particulier ou développe des capacités de raisonnement — était jusqu'ici souvent traité comme un art obscur, réservé aux équipes de recherche disposant de ressources importantes. TRL v1.0 démocratise ce processus : les classes de configuration comme SFTConfig ou GRPOConfig héritent directement de transformers.TrainingArguments, assurant une compatibilité totale avec l'écosystème Hugging Face. L'intégration native avec Accelerate permet de passer d'un GPU local à un cluster multi-nœuds en FSDP ou DeepSpeed sans modifier le code. Le support natif de LoRA et QLoRA via PEFT rend le fine-tuning de modèles à plusieurs milliards de paramètres accessible sur du matériel grand public ou d'entreprise de gamme intermédiaire. TRL existe depuis plusieurs années comme référence dans la communauté de recherche sur l'alignement des LLMs, mais son API fragmentée et son manque de stabilité en freinaient l'adoption industrielle. La version 1.0 intervient dans un contexte où le post-entraînement est devenu un avantage compétitif central : des modèles comme DeepSeek-R1 ou les versions récentes de LLaMA ont démontré que la phase d'alignement — notamment via GRPO, qui élimine le modèle critique pour réduire l'empreinte mémoire — peut transformer radicalement les capacités d'un modèle de base. En unifiant PPO, DPO, GRPO, KTO et ORPO dans un seul framework documenté, Hugging Face positionne TRL comme l'infrastructure standard du fine-tuning open source, face aux solutions propriétaires des grands laboratoires. Les prochaines étapes devraient inclure une intégration plus poussée avec le Hub Hugging Face pour la gestion des expériences et des artefacts d'entraînement.

UETRL v1.0, publié par Hugging Face — entreprise d'origine française — renforce la capacité des équipes européennes à développer et aligner des LLMs en open source, sans dépendre des pipelines propriétaires des grands laboratoires américains.

LLMsOutil
1 source
Microsoft AI lance Harrier-OSS-v1 : une nouvelle famille de modèles d'embeddings multilingues atteignant l'état de l'art sur Multilingual MTEB v2
44MarkTechPost 

Microsoft AI lance Harrier-OSS-v1 : une nouvelle famille de modèles d'embeddings multilingues atteignant l'état de l'art sur Multilingual MTEB v2

Microsoft a publié Harrier-OSS-v1, une famille de trois modèles d'embedding de texte multilingues qui décrochent les meilleurs scores du moment sur le benchmark Multilingual MTEB v2, la référence principale pour évaluer la qualité des représentations vectorielles de texte. La famille comprend trois variantes : un modèle de 270 millions de paramètres, un de 0,6 milliard, et un de 27 milliards. Tous trois partagent une fenêtre de contexte de 32 768 tokens — soit entre 32 et 64 fois celle des modèles classiques comme les dérivés de BERT — et produisent des embeddings de dimensions variables (1 024, 2 048 ou 5 376 selon la taille). Les modèles sont disponibles en open source sur HuggingFace. Ce lancement représente une rupture technique notable dans le domaine des embeddings. Contrairement aux architectures encodeur bidirectionnelles qui dominent ce secteur depuis BERT en 2018, Harrier repose sur une architecture décodeur-seulement, identique à celle des grands modèles de langage modernes. Pour obtenir un vecteur représentatif d'un texte entier, le modèle utilise le mécanisme de last-token pooling : l'état caché du dernier token de la séquence sert de représentation agrégée, puis est normalisé. La fenêtre de 32k tokens est particulièrement précieuse pour les systèmes RAG (Retrieval-Augmented Generation), où l'obligation de découper de longs documents en petits morceaux dégrade souvent la cohérence sémantique. Par ailleurs, les modèles plus petits (270M et 0,6B) ont été entraînés par distillation de connaissance à partir de modèles enseignants plus grands, leur permettant d'atteindre des performances supérieures à ce que leur taille laisserait espérer — un avantage concret pour les déploiements contraints en mémoire ou en latence. La course aux embeddings multilingues s'intensifie depuis que les applications RAG et la recherche sémantique sont devenues des composantes centrales des produits IA en entreprise. Microsoft entre sur ce terrain avec une approche instruction-tuned : pour obtenir les performances annoncées, chaque requête doit être précédée d'une instruction décrivant la tâche (par exemple, "Retrieve semantically similar text"), tandis que les documents sont encodés sans instruction. Ce design permet au modèle d'adapter dynamiquement son espace vectoriel selon le cas d'usage — recherche web, mining de traductions, classification. Face à des concurrents comme Cohere, Voyage AI ou les modèles E5 de Microsoft lui-même, Harrier-OSS-v1 se positionne comme une option open source sérieuse couvrant une gamme de tailles adaptée à des contraintes très différentes, du serveur embarqué au cluster GPU haute capacité.

UELes modèles open source multilingues couvrant les langues européennes permettent aux équipes R&D et entreprises de déployer des systèmes RAG performants sans dépendance à une API propriétaire.

LLMsActu
1 source
Guide complet du pipeline d'agents nanobot : outils, mémoire, sous-agents et planification cron
45MarkTechPost 

Guide complet du pipeline d'agents nanobot : outils, mémoire, sous-agents et planification cron

Le framework nanobot, développé par le laboratoire HKUDS de l'Université de Hong Kong, s'impose comme l'une des solutions les plus légères pour construire des agents IA personnels complets. Rédigé en environ 4 000 lignes de Python, il embarque l'ensemble du pipeline agent : boucle de raisonnement, exécution d'outils, persistance mémoire, chargement de compétences (skills), gestion de sessions, délégation à des sous-agents et planification via cron. Un tutoriel publié récemment propose d'en reconstruire chaque sous-système à la main, en utilisant le modèle gpt-4o-mini d'OpenAI comme moteur LLM, afin de comprendre précisément leur fonctionnement plutôt que de simplement les utiliser en boîte noire. Le tutoriel progresse étape par étape : depuis une simple boucle d'appel d'outil jusqu'à un pipeline de recherche multi-étapes capable de lire et d'écrire des fichiers, de stocker des mémoires à long terme, et de déléguer des tâches à des agents parallèles fonctionnant en arrière-plan. Ce type de ressource pédagogique a une valeur pratique immédiate pour les développeurs qui souhaitent construire des agents IA sans dépendre de frameworks lourds comme LangChain ou AutoGen, dont la complexité et l'opacité sont souvent citées comme obstacles à la maintenance et à la compréhension. Nanobot mise sur la lisibilité du code source pour permettre aux équipes techniques de personnaliser chaque composant : outils sur mesure, architectures d'agents propres, logiques de scheduling adaptées. Pour un développeur solo ou une petite équipe, pouvoir déployer un agent personnel — capable d'effectuer des recherches, de mémoriser des contextes entre sessions et de lancer des tâches planifiées — en s'appuyant sur moins de 5 000 lignes de code auditables représente un changement d'échelle significatif. Nanobot s'inscrit dans une tendance plus large de miniaturisation des frameworks agentiques, portée par la maturité croissante des API LLM et la volonté de réduire la dette technique dans les projets IA. Alors que les grandes plateformes comme OpenAI ou Anthropic poussent leurs propres solutions d'orchestration, des projets open source légers comme nanobot, smolagents (HuggingFace) ou DSPy cherchent à garder le contrôle dans les mains des développeurs. HKUDS, connu pour ses travaux sur les systèmes de recommandation et les graphes de connaissances, confirme ici une diversification vers l'ingénierie agentique appliquée. Les prochaines évolutions du framework pourraient intégrer une compatibilité multi-modèles élargie, notamment vers les LLM open source via Ollama, et un système de partage de skills entre utilisateurs.

OutilsTuto
1 source
Entraînez des modèles d'IA gratuitement avec Unsloth et Hugging Face Jobs
46HuggingFace Blog 

Entraînez des modèles d'IA gratuitement avec Unsloth et Hugging Face Jobs

"Apprenez à entraîner des modèles d'IA gratuitement avec Unsloth et Hugging Face Jobs. Utilisez ces outils pour exploiter le pouvoir de l'apprentissage automatique sans dépenser un centime." Résumé: Exploitez gratuitement le potentiel de l'apprentissage automatique via Unsloth et Hugging Face Jobs pour entraîner des modèles d'IA sans coûts financiers.

UEOffre gratuite d'entraînement de modèles d'IA via Unsloth et Hugging Face Jobs, permettant aux entreprises européennes, y compris en France, de déployer l'apprentissage automatique sans dépenser, en conformité potentielle avec la future AI Act et RGPD.

RechercheOutil
1 source
CUGA sur Hugging Face : Démocratisation des agents d'IA configurable
47HuggingFace Blog 

CUGA sur Hugging Face : Démocratisation des agents d'IA configurable

CUGA, un projet open-source, est maintenant disponible sur Hugging Face, une plateforme pour le développement et le partage de modèles de langage. Ce projet, mené par l'Institut de Recherche en Informatique de Toulouse (IRIT), vise à démocratiser les agents d'IA configurable. Les utilisateurs peuvent personnaliser ces agents pour diverses tâches, comme la génération de texte ou la traduction, en modifiant simplement des paramètres préconfigurés. Cette initiative permet un accès plus large aux outils d'IA avancés, rendant la personnalisation des agents d'IA plus accessible et intuitif pour les débutants et les experts.

RechercheOutil
1 source
Découvrez swift-huggingface: Le client Swift complet pour Hugging Face
48HuggingFace Blog 

Découvrez swift-huggingface: Le client Swift complet pour Hugging Face

Titre: Présentation de swift-huggingface : le client Swift complet pour Hugging Face Ce projet introduit swift-huggingface, un client Swift complet pour l'API Hugging Face, facilitant l'accès aux modèles de langage et aux transformations de texte. Il prend en charge plusieurs modèles populaires comme GPT-2, GPT-3, BERT et Transformer. Ce client offre une intégration fluide avec les bibliothèques Swift existantes, permettant aux développeurs de tirer parti des capacités avancées des modèles Hugging Face dans leurs applications Swift.

UEAucun impact direct — Ce projet swift-huggingface, un client Swift pour Hugging Face, ne concerne pas spécifiquement des entreprises ou des secteurs français/européens, mais il fournit un outil utile pour les développeurs dans la communauté Swift, potentiellement facilitant l'intégration d'IA dans les applications Swift.

RechercheOutil
1 source
OVHcloud et les Fournisseurs d'Inférence sur Hugging Face, un Mariage Incandescent 🌪️
49HuggingFace Blog 

OVHcloud et les Fournisseurs d'Inférence sur Hugging Face, un Mariage Incandescent 🌪️

OVHcloud intègre les fournisseurs d'inférences Hugging Face, offrant un accès direct et optimisé aux modèles de traitement du langage naturel. Cette collaboration permet aux utilisateurs d'accélérer les applications AI, en bénéficiant des infrastructures de pointe d'OVHcloud et de la bibliothèque Hugging Face Models. Les performances sont améliorées grâce à l'utilisation de GPU puissants, facilitant ainsi l'accès aux modèles avancés de traitement du langage naturel.

UEOVHcloud intègre les fournisseurs d'inférences Hugging Face, améliorant l'accès des entreprises françaises aux modèles avancés de traitement du langage naturel via des infrastructures de pointe, conforme au RGPD.

RechercheOutil
1 source
Créer et diffuser aisément des nuclei ROCm grâce à Hugging Face
50HuggingFace Blog 

Créer et diffuser aisément des nuclei ROCm grâce à Hugging Face

Titre: Construisez et partagez facilement les noyaux ROCm avec Hugging Face Résumé: Hugging Face introduit un outil pour simplifier la création et le partage de noyaux ROCm, permettant aux développeurs d'exploiter efficacement les GPU Radeon pour l'IA et le calcul haute performance.

UEAucun impact direct — Cet article se concentre sur un outil pour simplifier la création et le partage de noyaux ROCm pour GPU Radeon, sans mentionner de spécificités liées à des entreprises françaises, des lois européennes, des secteurs ou des opportunités/menaces concrètes en France ou dans l'Union Européenne.

OutilsOutil
1 source

Suivre Hugging Face en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour