Aller au contenu principal

Dossier Hugging Face — page 3

145 articles · page 3 sur 3

Plateforme open source de modèles, datasets et outils IA : suivi des sorties, intégrations, financements et de son rôle dans l'écosystème.

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks
101MarkTechPost CréationOutil

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks

La synthèse vocale par intelligence artificielle a connu une accélération spectaculaire en 2026, au point que la frontière entre voix humaine et voix synthétique est devenue difficile à percevoir. Les deux références de l'industrie pour comparer ces modèles sont le classement Artificial Analysis Speech Arena, qui attribue un score ELO basé sur les préférences humaines en aveugle, et le TTS Arena de Hugging Face, qui fonctionne sur le même principe de vote A/B. Au 30 mai 2026, le top 5 de l'Artificial Analysis Speech Arena est occupé par Gemini 3.1 Flash TTS de Google, Realtime TTS-2 d'Inworld (en Research Preview), Sonic 3.5, Realtime TTS 1.5 Max et Fun-Realtime-TTS-Preview. Parmi les acteurs les plus remarquables, Inworld AI, un laboratoire fondé par des anciens de Google et DeepMind, a lancé TTS-1.5 le 21 janvier 2026, suivi de Realtime TTS-2 plus tard dans l'année. Son modèle propose deux niveaux : Mini, optimisé pour la latence avec un temps avant premier audio inférieur à 130 millisecondes au 90e percentile, et Max, sous 250 millisecondes. La tarification va de 25 dollars par million de caractères pour le Mini jusqu'à 5 dollars en offre Enterprise. Google DeepMind, de son côté, a publié Gemini 3.1 Flash TTS le 15 avril 2026, accessible via l'API Gemini, AI Studio et Vertex AI. Ces évolutions ont des implications directes pour les développeurs et les entreprises qui intègrent la voix dans leurs produits. Une latence sous les 100 millisecondes est désormais atteignable pour certains systèmes temps réel, ce qui rend les agents vocaux réellement utilisables dans des contextes grand public, comme le service client automatisé ou les jeux vidéo. Inworld revendique 30 % de plage expressive supplémentaire et 40 % de stabilité en plus par rapport à sa génération précédente, deux critères critiques pour des applications qui ne peuvent se permettre ni monotonie ni erreurs de prononciation. Les tarifs agressifs, notamment l'offre Enterprise à 5 dollars le million de caractères, signalent une course vers la commoditisation du TTS, similaire à ce que le marché des LLM a vécu entre 2023 et 2025. La comparaison entre modèles reste néanmoins complexe, car aucun benchmark ne capture l'ensemble des dimensions pertinentes. La qualité perçue, le taux d'erreur de caractères mesuré par méthode aller-retour (transcription ASR puis comparaison avec l'entrée), la latence de queue et la couverture linguistique obéissent à des logiques distinctes. Inworld couvre 15 langues pour TTS-1.5 mais plus de 100 pour TTS-2, tandis que les classements ELO fluctuent d'une semaine à l'autre. L'enjeu pour les équipes produit est d'identifier l'axe non négociable de leur application, qu'il s'agisse de la latence pour un assistant vocal ou de la fidélité phonétique pour un usage éditorial, avant de choisir leur fournisseur dans un marché qui reste en recomposition permanente.

1 source
Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents
102MarkTechPost 

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents

Un tutoriel de programmation publié récemment propose une approche complète pour exploiter le jeu de données lambda/hermes-agent-reasoning-traces, une collection structurée de traces de raisonnement issues de modèles d'agents IA. Le guide couvre quatre étapes distinctes : le chargement et l'inspection du dataset, la construction de parseurs pour extraire les composants clés (traces de réflexion, appels d'outils, réponses), l'analyse statistique des comportements (fréquence d'utilisation des outils, longueur des conversations, taux d'erreurs), et enfin la conversion du dataset dans un format compatible avec l'entraînement supervisé. Le dataset est disponible en plusieurs configurations, notamment "kimi" et "glm-5.1", correspondant à des architectures d'agents différentes, et peut être chargé via la bibliothèque Hugging Face datasets. Les outils utilisés incluent Python 3, pandas, matplotlib, seaborn, transformers, accelerate et trl. Comprendre comment un agent IA raisonne en interne avant d'agir est un enjeu clé pour quiconque cherche à améliorer, déboguer ou affiner ces systèmes. Ce tutoriel permet de séparer concrètement la "pensée" interne d'un modèle (blocs `) de ses actions externes (blocs ) et des retours qu'il reçoit (), grâce à des parseurs basés sur des expressions régulières. Cette granularité est précieuse pour les équipes qui développent des agents autonomes : elle permet de détecter des comportements anormaux, d'identifier des appels d'outils malformés, ou de repérer des patterns de raisonnement défaillants avant de lancer un cycle de fine-tuning. La dernière étape du guide, la préparation du dataset pour le supervised fine-tuning (SFT), rend les données directement exploitables avec des frameworks comme TRL de Hugging Face. Le dataset hermes-agent-reasoning-traces` s'inscrit dans un mouvement plus large de publication de données d'entraînement spécialisées pour les agents IA multi-tours, capables d'utiliser des outils externes. Avec l'essor des architectures de type "agentic" dans des produits comme les assistants à code, les agents de recherche ou les copilotes professionnels, la qualité des traces de raisonnement utilisées pour l'entraînement devient un levier différenciant. Des acteurs comme Lambda, Kimi (Moonshot AI) ou encore les équipes derrière GLM (Tsinghua/Zhipu AI) contribuent à cet écosystème de données ouvertes. La tendance va vers des modèles capables de justifier leurs décisions étape par étape, ce qui exige précisément le type d'infrastructure d'analyse décrite dans ce tutoriel. Les prochaines évolutions pourraient inclure des métriques automatisées de qualité du raisonnement ou des benchmarks standardisés sur ce type de traces.

💬 Ce dataset de traces de raisonnement, c'est du matériel brut pour quiconque entraîne ou débogue un agent en ce moment. La partie intéressante c'est moins le fine-tuning que l'analyse en amont : repérer les appels d'outils malformés ou les boucles de raisonnement avant de lancer un cycle d'entraînement, ça évite de brûler des GPU pour rien. Reste que les configs "kimi" et "glm-5.1" sont assez spécifiques, difficile de généraliser sans retravailler les parseurs de fond en comble.

LLMsTuto
1 source
10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang
103MarkTechPost 

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper
1 source
Implémentation Python pour le benchmarking de parsing de documents avec LlamaIndex ParseBench
104MarkTechPost 

Implémentation Python pour le benchmarking de parsing de documents avec LlamaIndex ParseBench

LlamaIndex a publié ParseBench, un jeu de données de référence conçu pour évaluer de manière rigoureuse les systèmes d'analyse de documents. Hébergé sur Hugging Face sous l'identifiant llamaindex/ParseBench, ce benchmark est structuré autour de plusieurs dimensions d'évaluation distinctes : extraction de texte brut, reconnaissance de tableaux, interprétation de graphiques et respect de la mise en page. La procédure d'utilisation s'appuie sur un pipeline Python standardisé mobilisant des bibliothèques open source comme datasets, pandas, PyMuPDF (alias fitz), rapidfuzz et rich. Les données sont distribuées au format JSONL, avec des fichiers PDF associés accessibles directement depuis le dépôt Hugging Face via hfhubdownload. Le pipeline de référence décrit dans le tutoriel officiel construit un extracteur de texte léger basé sur PyMuPDF, compare les sorties aux annotations de référence grâce à des métriques de similarité floue (fuzz), et produit des visualisations de la distribution des exemples par dimension. L'importance de ParseBench réside dans le manque criant de standards objectifs pour comparer les moteurs d'analyse documentaire, qu'il s'agisse de solutions OCR classiques, de modèles de vision-langage ou de parseurs hybrides. Jusqu'ici, les équipes évaluaient leurs systèmes sur des jeux de données internes non reproductibles, rendant toute comparaison inter-organisations impossible. Avec ce benchmark unifié, les développeurs peuvent mesurer la qualité de l'extraction sur chaque dimension séparément, texte, tableaux, graphiques, layout, et identifier précisément où leurs pipelines échouent. Pour les entreprises qui traitent des volumes importants de documents (contrats, rapports financiers, publications scientifiques), disposer d'un tel outil de mesure change concrètement la façon dont on sélectionne et valide un moteur de parsing avant de le passer en production. ParseBench s'inscrit dans une tendance plus large portée par LlamaIndex, qui cherche à standardiser l'outillage autour des pipelines RAG (retrieval-augmented generation). La qualité de l'extraction documentaire est en effet le maillon critique souvent négligé de ces architectures : un PDF mal parsé produit des embeddings bruités, ce qui dégrade directement les réponses des assistants IA en aval. Plusieurs acteurs du secteur, comme Unstructured, LlamaParse ou encore Docling d'IBM, se livrent une concurrence directe sur ce segment. L'arrivée d'un benchmark public et reproductible oblige désormais ces acteurs à rendre des comptes sur des métriques communes. Les prochaines étapes probables incluent l'intégration de modèles de vision-langage comme GPT-4o ou Qwen-VL comme baselines supplémentaires, et l'extension du benchmark à des formats au-delà du PDF.

OutilsOutil
1 source
L'hypothèse de LoRA qui ne tient pas en production
105MarkTechPost 

L'hypothèse de LoRA qui ne tient pas en production

LoRA (Low-Rank Adaptation) est devenu la méthode de référence pour adapter les grands modèles de langage à moindre coût : plutôt que de modifier l'intégralité des paramètres d'un modèle, la technique n'entraîne que de petites matrices de rang réduit, ce qui diminue considérablement la mémoire et le temps de calcul nécessaires. Mais LoRA repose sur une hypothèse silencieuse : toutes les mises à jour d'un modèle se ressemblent structurellement. En réalité, ce n'est pas le cas. Quand on fine-tune un modèle pour modifier son style (ton, format, persona), les changements sont concentrés dans quelques dimensions seulement, et LoRA les gère parfaitement avec un rang faible comme rank-8. En revanche, quand on cherche à lui enseigner de nouvelles connaissances factuelles (données médicales, statistiques sportives, informations juridiques), l'information est distribuée sur de nombreuses dimensions simultanément, et un rang faible ne peut en capturer qu'une fraction : le modèle paraît sûr de lui mais produit des réponses incomplètes ou incorrectes. Augmenter le rang pour compenser déclenche un autre problème : la formule de mise à l'échelle standard de LoRA, qui divise par r, affaiblit le signal d'apprentissage à mesure que le rang grandit. RS-LoRA (Rank-Stabilized LoRA) corrige cela en remplaçant la division par r par une division par √r, un changement d'un seul caractère dans le code qui stabilise l'apprentissage même à des rangs élevés comme rank-32. Les conséquences pratiques sont significatives pour toutes les équipes qui déploient des LLMs dans des domaines à forte densité factuelle : médecine, droit, finance. Utiliser un LoRA standard pour injecter des connaissances spécialisées crée une illusion de performance, le modèle répond avec fluidité et apparente confiance, mais ses réponses peuvent être partiellement fausses. Le problème est d'autant plus dangereux qu'il reste invisible : sans tests rigoureux sur les faits précis que l'on cherchait à enseigner, le modèle passe tous les benchmarks généraux et échoue silencieusement sur les cas critiques en production. Cette limitation de LoRA n'est pas nouvelle dans la littérature académique, mais elle reste sous-estimée dans les pratiques industrielles. LoRA a été introduit en 2021 par des chercheurs de Microsoft comme alternative efficace au fine-tuning complet, et il s'est imposé comme méthode dominante grâce à sa facilité d'implémentation dans des bibliothèques comme Hugging Face PEFT. RS-LoRA représente l'une des améliorations formalisées de cette approche, aux côtés d'autres variantes comme DoRA ou AdaLoRA, qui cherchent toutes à mieux adapter la technique selon les régimes d'apprentissage. À mesure que les LLMs s'imposent dans des secteurs critiques, savoir quelle technique choisir selon le type de connaissance à injecter devient une compétence essentielle pour les équipes ML, bien au-delà du sujet de recherche théorique.

LLMsPaper
1 source
Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM
106MarkTechPost 

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper
1 source
OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex
107MarkTechPost 

OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex

OpenAI a publié en open source Euphony, un outil de visualisation fonctionnant directement dans le navigateur, conçu pour transformer des données de conversation structurées en vues interactives lisibles. L'outil prend en charge deux formats propriétaires d'OpenAI : les conversations au format Harmony et les fichiers de session Codex au format JSONL. Euphony peut ingérer ces données de trois manières : en collant du JSON directement depuis le presse-papiers, en chargeant un fichier local, ou en pointant vers une URL publique, y compris des datasets hébergés sur Hugging Face. Une fois les données chargées, l'outil détecte automatiquement le format et rend une timeline de conversation navigable, avec un panneau d'inspection des métadonnées, un mode grille pour parcourir rapidement de grands datasets, un mode édition pour modifier le contenu JSONL dans le navigateur, et un filtrage basé sur JMESPath pour interroger les structures JSON complexes. Ce problème est concret pour quiconque travaille avec des agents IA multi-étapes : un agent Codex qui lit des fichiers, appelle des API, génère du code et révise ses propres sorties peut produire des centaines de lignes de JSON brut, où tokens bruts, chaînes décodées et métadonnées structurées s'entremêlent. Sans outillage dédié, retracer ce que le modèle faisait à chaque étape revient à reconstituer un puzzle sans image de référence. Euphony répond directement à ce besoin en rendant exploitable une richesse de données qui jusqu'ici restait enfouie dans des fichiers difficilement lisibles à l'œil nu. Pour les équipes d'évaluation et de fine-tuning, la possibilité d'inspecter des champs de métadonnées par conversation, scores, sources, labels, directement dans l'interface représente un gain de productivité significatif. Le contexte technique éclaire pourquoi cet outil était nécessaire. Le format Harmony, utilisé pour entraîner la série de modèles open-weight gpt-oss d'OpenAI, est structurellement plus riche qu'un format de chat standard : il supporte des sorties multi-canaux (raisonnement, appels d'outils, réponses normales dans une même conversation), des hiérarchies d'instructions basées sur les rôles (system, developer, user, assistant) et des namespaces d'outils nommés. Cette richesse est précieuse pour l'entraînement et l'évaluation, mais elle rend l'inspection manuelle particulièrement pénible. Euphony est disponible en deux modes : un mode purement frontend sans dépendance serveur, activé via la variable d'environnement VITEEUPHONYFRONTEND_ONLY=true, et un mode assisté par un serveur FastAPI local qui gère le chargement de datasets volumineux et le rendu Harmony côté backend. L'outil est également conçu pour être intégré comme composant web dans d'autres applications, ce qui ouvre la voie à une adoption dans des pipelines d'évaluation ou des interfaces internes d'équipes IA.

OutilsOutil
1 source
108Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source
Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV
109MarkTechPost 

Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV

NVIDIA a publié KVPress, une bibliothèque open source conçue pour compresser le cache clé-valeur (KV cache) des grands modèles de langage et réduire drastiquement leur consommation mémoire lors des inférences sur de longs contextes. Un tutoriel complet publié récemment par des ingénieurs en IA illustre son fonctionnement concret à travers une implémentation pas-à-pas exécutable sur Google Colab. L'exemple s'appuie sur le modèle Qwen2.5-1.5B-Instruct de Qwen, chargé en quantification 4 bits via la bibliothèque BitsAndBytes, et fait appel à la version 0.4.0 de KVPress. Deux stratégies de compression sont comparées : ExpectedAttentionPress, qui estime l'importance des tokens en fonction de l'attention attendue, et KnormPress, qui s'appuie sur la norme des vecteurs K pour éliminer les entrées peu pertinentes. Le pipeline génère un corpus synthétique long, pose des questions ciblées sur ce corpus, puis mesure les écarts de performance et d'empreinte mémoire entre la génération standard et les différentes configurations compressées. L'enjeu est considérable pour l'industrie du traitement du langage naturel. Le KV cache est le principal goulot d'étranglement mémoire lors de l'inférence sur de longs contextes : chaque token généré alimente un cache qui grossit linéairement, rendant les fenêtres de 32 000, 128 000 voire un million de tokens extrêmement coûteuses en VRAM. KVPress permet de ne conserver dans ce cache que les entrées jugées les plus informatives, en supprimant dynamiquement les tokens à faible contribution. Pour les développeurs déployant des applications d'analyse de documents, de recherche d'information ou d'agents conversationnels à mémoire longue, cette compression peut rendre viables des scénarios qui nécessiteraient sinon du matériel de classe A100 ou H100. La possibilité de faire tourner ces expériences sur Colab, avec une simple GPU grand public, illustre bien la baisse de barrière à l'entrée que KVPress ambitionne d'offrir. La gestion du KV cache est devenue l'un des fronts les plus actifs de la recherche en inférence LLM depuis que les fenêtres contextuelles ont explosé en 2023-2024. Des techniques comme Sliding Window Attention, PagedAttention (à la base de vLLM) ou les approches de quantification du cache ont émergé pour répondre à cette pression. NVIDIA, en proposant KVPress comme couche d'abstraction modulaire compatible avec le pipeline Hugging Face Transformers, cherche à standardiser l'accès à ces optimisations pour un public plus large que les seules équipes d'infrastructure. La prochaine étape naturelle sera d'évaluer ces stratégies sur des modèles de plus grande taille et sur des benchmarks de rétention d'information à longue portée, pour quantifier précisément le compromis entre taux de compression et fidélité des réponses dans des cas d'usage de production.

OutilsTuto
1 source
Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export
110MarkTechPost 

Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export

ModelScope, la plateforme de partage de modèles d'intelligence artificielle développée par Alibaba et son laboratoire DAMO Academy, s'impose comme une alternative crédible à Hugging Face pour les développeurs souhaitant accéder à des modèles pré-entraînés, des jeux de données et des pipelines d'inférence. Un tutoriel complet publié récemment détaille un workflow de bout en bout exécutable sur Google Colab, couvrant l'installation de l'environnement, la recherche de modèles via le hub ModelScope, le téléchargement de snapshots comme BERT, le chargement du jeu de données IMDB, le fine-tuning d'un classificateur de sentiment, son évaluation et son export pour déploiement. La procédure repose sur un écosystème de bibliothèques Python incluant PyTorch, Transformers d'Hugging Face, Accelerate, scikit-learn et Optimum, avec une compatibilité GPU vérifiée dès le départ via CUDA. Ce type de guide pratique a une valeur concrète pour les équipes d'ingénierie et de recherche qui cherchent à industrialiser leurs workflows IA sans repartir de zéro. En montrant que ModelScope s'intègre nativement avec les outils Hugging Face, notamment les pipelines Transformers pour l'analyse de sentiment ou la vision par ordinateur, le tutoriel réduit la barrière à l'entrée pour les équipes déjà familières de cet écosystème. La possibilité de télécharger localement des snapshots de modèles, d'accéder à des datasets comme IMDB via l'API MsDataset, et d'exporter les modèles fine-tunés vers des formats de production (via Optimum) en fait un outil pertinent aussi bien pour l'expérimentation que pour des déploiements à plus grande échelle. ModelScope a été lancé en 2022 par Alibaba DAMO Academy avec l'ambition de construire un écosystème ouvert de modèles centré sur la communauté chinoise et internationale du machine learning. La plateforme héberge des milliers de modèles dans des domaines variés, NLP, vision, audio, multimodal, et se positionne directement face à Hugging Face, qui reste la référence mondiale avec plus de 500 000 modèles disponibles. La dépendance au réseau chinois pour certaines API (la recherche de modèles peut être indisponible hors de Chine, comme le mentionne le tutoriel lui-même) constitue une friction réelle pour les utilisateurs occidentaux. Néanmoins, avec l'accélération des sorties de modèles chinois performants comme Qwen, DeepSeek ou Yi, ModelScope devient un point d'accès incontournable pour quiconque souhaite travailler avec ces modèles dès leur publication, souvent avant leur disponibilité sur d'autres plateformes.

OutilsTuto
1 source
Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage
111MarkTechPost 

Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage

NVIDIA a publié un tutoriel complet détaillant comment construire un pipeline d'optimisation de bout en bout à l'aide de son outil NVIDIA Model Optimizer, combinant entraînement, élagage (pruning) et ajustement fin (fine-tuning) d'un réseau de neurones profond, le tout dans Google Colab sans infrastructure dédiée. Le pipeline repose sur l'architecture ResNet appliquée au jeu de données CIFAR-10, et utilise la technique FastNAS pour réduire la complexité computationnelle du modèle sous une contrainte de 60 millions de FLOPs (opérations en virgule flottante). Concrètement, le modèle est d'abord entraîné sur 12 000 exemples pendant 20 époques pour établir une référence, puis soumis à l'élagage structurel FastNAS qui supprime systématiquement les couches et filtres les moins utiles, avant une phase de fine-tuning de 12 époques pour récupérer la précision perdue. Cette approche répond à un besoin pressant dans l'industrie : déployer des modèles d'IA performants sur des matériels contraints, comme les appareils embarqués, les téléphones mobiles ou les serveurs à faible consommation. En réduisant le nombre de FLOPs sans sacrifier significativement la précision, FastNAS permet de rendre un modèle jusqu'à plusieurs fois plus léger et plus rapide à l'inférence. Pour les équipes ML en entreprise, cela se traduit par des coûts de déploiement réduits, une latence moindre et une empreinte énergétique plus faible. Le fait que l'ensemble du pipeline soit reproductible dans Colab, avec gestion des seeds et des sous-ensembles de données, le rend accessible à des équipes sans cluster GPU dédié. NVIDIA développe Model Optimizer dans le cadre de sa stratégie plus large pour contrôler toute la chaîne de valeur de l'IA, de l'entraînement jusqu'au déploiement sur ses propres puces. FastNAS s'inscrit dans une famille de techniques de compression de modèles qui inclut également la quantification et la distillation, toutes intégrées dans l'écosystème NVIDIA TensorRT. Face à la montée en puissance des outils open source comme la bibliothèque PEFT de Hugging Face ou les approches de pruning de PyTorch, NVIDIA positionne Model Optimizer comme une solution intégrée et orientée production. La prochaine étape logique de ce pipeline serait la conversion du modèle élaguévers le format ONNX ou TensorRT pour un déploiement sur GPU NVIDIA, bouclant ainsi la boucle entre recherche et mise en production industrielle.

OutilsTuto
1 source
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
112MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
113AWS ML Blog 

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Amazon Web Services a annoncé une intégration entre Amazon SageMaker Unified Studio et les buckets Amazon S3 grand public, permettant d'exploiter des données non structurées directement dans les workflows de machine learning. Le cas d'usage présenté illustre l'affinage du modèle Llama 3.2 11B Vision Instruct — développé par Meta — pour des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou documents scannés. Le modèle de base atteint un score ANLS de 85,3 % sur le benchmark DocVQA, une métrique mesurant la similarité entre réponse prédite et réponse attendue. Pour l'affinage, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 exemples d'entraînement associant image, question et réponse. Trois versions affinées sont produites avec des volumes de données variables : 1 000, 5 000 et 10 000 images, orchestrées entièrement via SageMaker Unified Studio et évaluées avec Amazon SageMaker MLflow en mode serverless. Cet affinement ciblé permet aux équipes data de dépasser les limites d'un modèle généraliste sans reconstruire une infrastructure complexe de bout en bout. Pour les entreprises traitant des documents à haute valeur — contrats, factures, rapports médicaux — gagner quelques points de précision au-delà de 85 % peut représenter une différence opérationnelle significative. L'intégration native entre S3 et le catalogue SageMaker supprime une friction majeure : les données non structurées (images, PDF, textes bruts) deviennent des actifs directement exploitables par les équipes ML sans pipeline d'ingestion personnalisé. Le suivi des expériences via MLflow serverless permet en outre de comparer objectivement les trois variantes affinées et de documenter les gains de performance, une exigence croissante dans les déploiements enterprise. Cette annonce s'inscrit dans la stratégie d'AWS pour faire de SageMaker Unified Studio une plateforme unifiée couvrant l'ensemble du cycle MLOps, depuis l'ingestion des données brutes jusqu'au déploiement en production. La montée en puissance des modèles multimodaux — capables de traiter simultanément texte et image — crée une demande forte pour des outils d'affinage accessibles, sans que chaque équipe doive maîtriser les subtilités de l'entraînement distribué. AWS positionne ici SageMaker JumpStart comme point d'accès aux modèles fondamentaux, tandis que l'infrastructure d'entraînement repose sur des instances p4de.24xlarge, des GPU haute performance nécessitant une demande d'augmentation de quota. La prochaine étape logique pour AWS sera d'élargir cette intégration à d'autres formats de données non structurées et à davantage de modèles fondamentaux, dans un contexte où Google, Microsoft Azure et les plateformes spécialisées comme Modal ou Together AI se disputent le même terrain des équipes ML entreprise.

OutilsOutil
1 source
Bienvenue à GPT OSS, la nouvelle famille de modèles open-source signée OpenAI !
114HuggingFace Blog 

Bienvenue à GPT OSS, la nouvelle famille de modèles open-source signée OpenAI !

Bienvenue à GPT OSS, la nouvelle famille de modèles open-source de OpenAI! Cette initiative met à disposition des chercheurs et développeurs un accès direct à l'architecture de base de GPT-3. Les détails techniques incluent l'utilisation de Python et Transformers de Hugging Face, avec la possibilité d'entraînement sur GPU multi-têtes. OpenAI fournit également un exemple de code pour initier un modèle GPT-2 sur une machine avec plusieurs GPU.

UEOpenAI lance GPT OSS, offrant aux chercheurs et développeurs européens, y compris ceux en France, un accès direct à l'architecture de base de GPT-3, stimulant l'innovation dans les secteurs de l'IA tout en respectant les réglementations telles que le RGPD et en préparant les entreprises à l'application de l'AI Act.

RechercheOutil
1 source
Critiques de règles: Un modèle d'apprentissage automatique sous la loupe
115HuggingFace Blog 

Critiques de règles: Un modèle d'apprentissage automatique sous la loupe

Bienvenue à NVIDIA Llama Nemotron Nano VLM sur le Hugging Face Hub. NVIDIA présente une nouvelle version miniature de son modèle de traitement du langage, offrant des performances optimisées pour les appareils mobiles. Ce modèle, appelé Nemotron Nano, est maintenant disponible sur la plateforme Hugging Face Hub, permettant aux développeurs d'intégrer facilement ces capacités avancées dans leurs applications.

OutilsOutil
1 source
La Bibliothèque de Transformation: standardisation des définitions de modèles
116HuggingFace Blog 

La Bibliothèque de Transformation: standardisation des définitions de modèles

La Bibliothèque Transformers: Standardisation des Définitions de Modèles Cette bibliothèque, maintenant standardisée, offre des définitions cohérentes pour les modèles de transformers, simplifiant ainsi leur mise en œuvre et la réutilisation. Elle est maintenue par Hugging Face et inclut des modèles populaires comme BERT, RoBERTa et T5.

UELa Bibliothèque Transformers standardisée simplifie la mise en œuvre et la réutilisation de modèles pour les entreprises européennes, facilitant la conformité avec les réglementations comme le RGPD en améliorant l'efficacité et la transparence des systèmes d'IA.

OutilsOutil
1 source
Classement mondial du tournoi Open LLM : 2e place en arabe
117HuggingFace Blog 

Classement mondial du tournoi Open LLM : 2e place en arabe

Le classement Open Arabic LLM est une évaluation comparative des modèles de langage arabe. Il met en avant OpenLLM, un modèle développé par DPRK, qui domine avec une précision de 88,1%. Le modèle de Hugging Face, arabic-bert, se place deuxième avec 85,2%. OpenLLM démontre une amélioration significative par rapport à son prédécesseur, OpenLLM v1, qui avait obtenu 78,9% de précision. Ce classement met en lumière les avancées dans les modèles de traitement du langage arabe, avec DPRK en tête grâce à OpenLLM.

UEAucun impact direct — Cet article se concentre sur un classement mondial de modèles de langage arabe, n'abordant pas spécifiquement les entreprises françaises ou européennes, les lois (comme l'AI Act ou le RGPD) ou les secteurs concernés par la France ou l'Union Européenne.

LLMsOutil
1 source