Aller au contenu principal

Dossier Qwen3 — page 3

193 articles · page 3 sur 4

Qwen3, la famille de modèles de langage d'Alibaba : versions, performances, disponibilité open source et cas d'usage suivis au fil de l'actualité IA.

TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel
101MarkTechPost OutilsOutil

TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel

TinyFish vient de publier BigSet, un système multi-agents open source sous licence AGPL-3.0, conçu pour automatiser la construction de jeux de données structurés à partir du web en langage naturel. Le principe est simple : l'utilisateur décrit en une phrase les données qu'il souhaite obtenir, par exemple "les entreprises YC actuellement en train de recruter des ingénieurs, avec leur stade de financement, leur localisation et le nombre de postes ouverts", et BigSet se charge d'inférer le schéma, de collecter les données sur le web, de dédupliquer les résultats et d'exporter le tout en CSV ou XLSX. Le code source complet est disponible sur GitHub. La génération d'un dataset prend entre 2 et 5 minutes, le temps que les agents effectuent de vraies recherches web. Une fonctionnalité de rafraîchissement automatique permet de maintenir les données à jour selon une cadence paramétrable : 30 minutes, 6 heures, 12 heures, quotidienne ou hebdomadaire. L'architecture repose sur un pipeline en cinq étapes clairement séparées. Claude Sonnet 4.6, accessible via OpenRouter, intervient en premier pour inférer le schéma : noms de colonnes, types de données, clés primaires et sources potentielles, avant tout accès web. Un agent orchestrateur basé sur Qwen (qwen/qwen3.7-max, via OpenRouter) identifie ensuite les entités correspondant à la description. Des sous-agents sont alors déployés en parallèle, chacun responsable d'une seule ligne du tableau final, avec un budget plafonné à 6 appels d'outils. Chaque agent utilise TinyFish Fetch pour récupérer le contenu des pages, extrait les champs pertinents, puis insère la ligne avec une attribution de source traçable. La déduplication par clé primaire est appliquée avant l'export final. La stack technique s'appuie sur Next.js 16, React 19, Fastify, TypeScript, Convex pour la base de données, et Mastra pour l'orchestration des workflows IA. BigSet s'attaque à un problème persistant dans le travail avec les données web : la fragmentation du pipeline entre identification des sources, scraping, conception du schéma, déduplication et planification des mises à jour. Ces étapes restent manuelles et chronophages, que l'on construise un dataset ou cent. En abstrayant l'ensemble de cette chaîne derrière une description en langage naturel, TinyFish cible directement les analystes, journalistes de données, équipes produit et chercheurs qui ont besoin de tableaux structurés sans vouloir maintenir une infrastructure de scraping. Le système est auto-hébergé via Docker, ce qui répond aussi aux préoccupations de confidentialité des données. TinyFish, qui développe par ailleurs ses propres outils de recherche et de fetch web, positionne BigSet comme une couche d'abstraction entre un besoin en données et une table exploitable, dans un écosystème où les agents IA commencent à remplacer les pipelines ETL traditionnels.

1 source
Concevoir un pipeline de récupération et reclassement haute précision avec le reranker Zerank-2 de ZeroEntropy
102MarkTechPost 

Concevoir un pipeline de récupération et reclassement haute précision avec le reranker Zerank-2 de ZeroEntropy

ZeroEntropy a publié Zerank-2, un modèle de reranking basé sur l'architecture Qwen3 avec 4 milliards de paramètres, conçu pour améliorer la précision des systèmes de recherche documentaire. Ce cross-encoder fonctionne selon une logique différente des modèles de récupération classiques : au lieu de comparer des vecteurs d'embeddings indépendants, il analyse conjointement chaque paire requête-document pour produire un score de pertinence calibré. Le modèle, accessible via l'identifiant zeroentropy/zerank-2-reranker sur HuggingFace, pèse environ 8 Go en mémoire GPU et s'intègre directement dans la bibliothèque sentence-transformers. Un tutoriel complet illustre son usage à travers des cas concrets en finance, droit et code, avec une évaluation quantitative via la métrique NDCG@10. L'apport principal de ce type de système réside dans l'architecture en deux étapes qu'il rend possible. Un premier modèle léger dit bi-encoder récupère rapidement un ensemble de candidats depuis une large base documentaire, puis Zerank-2 reclasse ces candidats avec une précision bien supérieure, au prix d'un calcul plus intensif mais limité à un sous-ensemble réduit. Cette combinaison permet d'atteindre la précision d'un cross-encoder sans en subir le coût computationnel à grande échelle. Pour les équipes qui construisent des moteurs de recherche d'entreprise, des pipelines RAG (Retrieval-Augmented Generation) ou des systèmes de questions-réponses, ce gain de précision peut être décisif : un reranker bien calibré réduit les hallucinations des LLM en leur fournissant des passages réellement pertinents, et améliore la satisfaction des utilisateurs finaux sur des requêtes complexes ou ambiguës. Le reranking est devenu un composant central dans l'écosystème RAG depuis que les limites des bi-encoders seuls sont bien documentées : ces modèles encodent requête et document séparément, perdant les interactions fines entre les deux. Des acteurs comme Cohere avec son modèle rerank-v3, ou Jina AI avec jina-reranker-v2, ont popularisé cette approche ces deux dernières années. ZeroEntropy entre sur ce marché avec un modèle open-source de 4 milliards de paramètres, une taille qui le rend déployable sur des GPU grand public tout en offrant des performances compétitives. La base Qwen3, développée par Alibaba et reconnue pour son efficacité en contexte multilingue, confère à Zerank-2 une robustesse potentielle sur des corpus non exclusivement anglophones. La prochaine étape naturelle pour les équipes qui adoptent cet outil sera d'évaluer ses performances sur des benchmarks standardisés comme BEIR, et d'explorer son intégration dans des frameworks RAG populaires tels que LangChain ou LlamaIndex.

UELa base Qwen3 multilingue de Zerank-2 peut avantager les équipes françaises et européennes construisant des pipelines RAG sur des corpus en français.

OutilsOutil
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
103arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

RobotiqueOpinion
1 source
Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos
104MarkTechPost 

Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos

L'équipe de recherche de ByteDance a publié Lance, un modèle d'intelligence artificielle capable de comprendre, générer et modifier des images et des vidéos au sein d'une seule et même architecture. Présenté dans un article de recherche disponible sur arXiv, Lance organise ses capacités autour de trois familles de sorties : texte, images et vidéos. Côté compréhension, il prend en charge la description d'images et de vidéos, les questions-réponses visuelles, la reconnaissance optique de caractères et le raisonnement visuel. Côté génération, il couvre la création d'images et de vidéos à partir de texte, la conversion image-vers-vidéo, la génération guidée par un sujet, et l'édition cohérente multi-tours sur les deux modalités. Le modèle repose sur une architecture de 3 milliards de paramètres initialisée depuis Qwen2.5-VL 3B de Alibaba, et intègre le codec vidéo 3D causal VAE de Wan2.2, également développé par ByteDance. Réunir compréhension et génération dans un seul modèle représente un défi technique de premier ordre, car les deux tâches tirent dans des directions opposées : la compréhension requiert des représentations sémantiques compactes alignées sur le langage, tandis que la génération exige des représentations continues à bas niveau pour préserver textures, géométrie et dynamiques temporelles. La plupart des systèmes existants contournent cette tension en séparant les deux blocs puis en les connectant après coup. Lance est l'un des rares modèles à les unifier nativement dès l'entraînement, grâce à une architecture à double flux de type mixture-of-experts : un expert dédié à la compréhension (LLMUND) et un expert dédié à la génération (LLMGEN), partageant le même contexte d'entrée sans se concurrencer sur les mêmes paramètres. Pour les professionnels du multimédia, des plateformes de contenu ou des développeurs d'outils créatifs, cette convergence ouvre la voie à des pipelines considérablement simplifiés. Le principal obstacle architectural résidait dans la coexistence de types de tokens hétérogènes au sein d'une même séquence : tokens textuels, tokens visuels sémantiques produits par le encodeur ViT de Qwen2.5-VL, et tokens latents continus issus du VAE avec un sous-échantillonnage spatial de 16× et temporel de 4×. Le positionnement rotatif standard en 3D (3D-RoPE) ne permettait pas de distinguer ces groupes, créant des ambiguïtés de frontières préjudiciables à l'alignement entre tâches. ByteDance a introduit MaPE (Modality-Aware Rotary Positional Encoding), qui applique un décalage temporel fixe à chaque groupe de modalité selon son ordre dans la séquence, tout en laissant les coordonnées spatiales intactes. Lance s'inscrit dans une course plus large entre les grands laboratoires asiatiques et occidentaux pour produire des modèles visuels unifiés : des approches similaires ont été explorées par Google avec Gemini et par des équipes académiques, mais peu ont démontré une couverture aussi complète du cycle image-vidéo dans un seul modèle entraîné conjointement.

RecherchePaper
1 source
Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor
105MarkTechPost 

Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor

Un tutoriel technique publié récemment propose une implémentation complète pour compresser et évaluer des modèles de langage ajustés par instruction, en comparant trois méthodes de quantification post-entraînement : FP8 dynamique, GPTQ W4A16, et SmoothQuant combiné à GPTQ W8A8. Le point de départ est le modèle Qwen2.5-0.5B-Instruct de l'entreprise chinoise Alibaba, utilisé en baseline FP16. L'ensemble du pipeline repose sur la bibliothèque open source llmcompressor, associée à compressed-tensors et à l'écosystème HuggingFace Transformers. Chaque variante compressée est évaluée selon cinq critères mesurables : taille sur disque, latence de génération, débit en tokens par seconde, perplexité sur WikiText-2, et qualité subjective des réponses générées. La valeur concrète de ce travail réside dans la mise en évidence des compromis réels entre performance et efficacité pour le déploiement en production. La quantification réduit la mémoire GPU nécessaire et accélère l'inférence, deux contraintes centrales pour toute équipe souhaitant servir un LLM à moindre coût. En passant de FP16 à FP8 ou à W4A16, on peut diviser la taille du modèle par deux ou plus, avec un impact variable sur la perplexité selon la méthode choisie. SmoothQuant, qui lisse les distributions d'activation avant de quantifier, permet d'appliquer une quantification 8 bits sur les poids et les activations simultanément, ce qui se traduit par un meilleur rapport qualité-compression que la quantification naïve. Pour les équipes qui doivent faire tourner des modèles sur du matériel contraint, comme un GPU T4 de Google Colab, ces différences ne sont pas théoriques mais directement opérationnelles. La quantification post-entraînement s'est imposée comme l'une des réponses pratiques à l'explosion de la taille des modèles de langage depuis 2022. Là où le fine-tuning quantifié (QAT) nécessite de réentraîner le modèle, le PTQ agit après coup sur les poids déjà entraînés, ce qui le rend bien plus accessible. Des outils comme llmcompressor, développé par la startup Neural Magic (rachetée par Red Hat en 2024), ou AWQ et GGUF popularisés par llama.cpp, ont démocratisé ces techniques. Le choix de Qwen2.5 comme modèle de référence est révélateur : avec 0,5 milliard de paramètres, il reste assez léger pour tourner sur un GPU grand public tout en étant représentatif des architectures modernes. Les prochaines étapes naturelles de ce type de travail incluent l'extension à des modèles plus grands, l'intégration de frameworks de serving comme vLLM ou TGI, et la comparaison avec des approches de pruning structuré ou de distillation.

UELes techniques de quantification présentées permettent aux équipes européennes de servir des LLMs sur du matériel contraint sans dépendre d'infrastructures cloud coûteuses, s'appuyant sur l'écosystème HuggingFace Transformers, dont la startup est à forte présence en France.

LLMsTuto
1 source
Les entreprises peuvent entraîner des modèles d'IA personnalisés depuis leurs workflows de production, sans équipe ML
106VentureBeat AI 

Les entreprises peuvent entraîner des modèles d'IA personnalisés depuis leurs workflows de production, sans équipe ML

Empromptu AI, une startup basée à San Francisco, a lancé jeudi une plateforme baptisée Alchemy Models, conçue pour transformer automatiquement les workflows de production d'entreprise en données d'entraînement pour des modèles d'IA personnalisés. Le principe est simple : chaque requête traitée par une application IA, chaque correction apportée par un expert métier à ses résultats, constitue un signal d'apprentissage. Jusqu'ici, ces données disparaissaient dans le vide. Alchemy les capte en continu via une infrastructure appelée Golden Data Pipelines, soumet les sorties de l'application à des experts internes pour validation, puis utilise ces données vérifiées pour lancer des cycles de fine-tuning successifs. Les modèles résultants, que la société appelle Expert Nano Models, sont de petits modèles spécialisés sur une tâche précise plutôt que sur le raisonnement général. L'entreprise est dirigée par Shanea Leven, qui a présenté la plateforme en exclusivité à VentureBeat. Les clients conservent la propriété intégrale des poids du modèle, qui sont portables et exportables moyennant frais. La plateforme est compatible avec Llama, Qwen et d'autres modèles de base. L'enjeu commercial est direct pour les entreprises qui s'appuient aujourd'hui sur des API de modèles fondamentaux : les coûts d'inférence augmentent avec l'usage, les données qui entraînent ces modèles profitent aux fournisseurs et non aux clients, et la personnalisation pour des tâches métier spécifiques reste limitée. Alchemy propose une sortie de cette dépendance en faisant de l'application elle-même la source de données d'entraînement, sans équipe ML ni étape séparée de collecte et d'étiquetage. Comme le résume Leven : "L'application IA que les clients construisent déjà nettoie les données." La gouvernance, les garde-fous et les contrôles de conformité sont intégrés au même pipeline, ce qui signifie que la traçabilité suit le processus d'entraînement. La contrainte principale reste le volume : les premiers déploiements tournent sur le modèle de base le temps que l'application accumule suffisamment de données de production pour déclencher un cycle de fine-tuning utile. Sur le marché du fine-tuning entreprise, Empromptu se positionne face à des acteurs établis comme OpenAI avec son API de fine-tuning et Amazon Web Services avec Bedrock Custom Models. Ces deux solutions imposent aux organisations d'apporter leurs propres jeux de données préparés séparément et de gérer le processus en dehors de leur stack applicatif, ce qui nécessite une équipe ML dédiée. La différenciation d'Alchemy repose sur l'intégration : le workflow applicatif est le pipeline d'entraînement, et non un projet distinct. La question de la soutenabilité économique et du délai avant le premier cycle de fine-tuning efficace reste ouverte, Leven elle-même reconnaissant sans détour que "l'entraînement du modèle prendra du temps". La startup s'adresse à un moment charnière où de nombreuses entreprises cherchent à protéger leur avantage compétitif face à la généralisation rapide des outils IA.

OutilsOutil
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
107MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Les techniques de distillation des LLM expliquées
108MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source
HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures
109arXiv cs.RO 

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

Des chercheurs ont publié HumanNet, un corpus vidéo d'un million d'heures centré sur les activités humaines, conçu pour alimenter l'apprentissage de l'intelligence embodied à grande échelle. Disponible sous forme de preprint arXiv (2605.06747), le dataset couvre des perspectives à la fois à la première et à la troisième personne, et capture des interactions fines avec des objets, l'utilisation d'outils, et des comportements de longue durée dans des environnements réels variés. Au-delà de la vidéo brute, HumanNet fournit des annotations centrées sur l'interaction : légendes textuelles, descriptions de mouvement, et signaux liés aux mains et au corps. L'expérience clé de validation compare deux configurations d'entraînement continu à partir du modèle Qwen VLM : 1 000 heures de vidéo égocentrique tirées de HumanNet surpassent 100 heures de données issues de robots réels (Magic Cobot) sur un ensemble fixe de données de validation. Ce résultat, s'il se confirme à plus grande échelle, remet en cause un dogme du secteur : l'idée que les modèles VLA (Vision-Language-Action) nécessitent impérativement des données collectées sur des robots physiques pour progresser. La collecte de données robot est coûteuse, lente, et difficile à diversifier, ce qui constitue l'un des principaux goulots d'étranglement dans la course aux systèmes généralistes. HumanNet propose un chemin alternatif : exploiter la vidéo humaine comme substitut scalable et économique, en transférant des représentations motrices et interactives vers les systèmes robotiques. Il faut toutefois nuancer l'ambition de la démonstration : la validation présentée se limite à une seule ablation contrôlée sur un sous-ensemble de tâches, et aucun résultat en déploiement réel sur des robots n'est encore disponible. Ce projet s'inscrit dans une compétition plus large pour constituer des datasets à grande échelle pour l'embodied AI. Des corpus comme Ego4D (Meta, 3 500 heures), Epic-Kitchens ou Something-Something ont posé des jalons, mais aucun n'atteignait le million d'heures ni ne proposait ce niveau d'annotation motion-aware. Côté modèles, les concurrents directs incluent pi-0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind et Helix de Figure AI, tous confrontés au même problème de rareté des données robot. HumanNet ne s'accompagne d'aucune annonce commerciale ni de timeline de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche qui devra être validée dans des contextes robotiques réels avant de modifier les pratiques des intégrateurs.

💬 1000 heures de vidéo humaine qui surpassent 100 heures de données robot réel, c'est le genre de résultat qui fait mal au dogme du secteur. Si ça se confirme, ça change tout sur le goulot d'étranglement de la robotique généraliste : la collecte de données robot est un cauchemar logistique et financier, et là on parle de le contourner avec du YouTube. Bon, une ablation sur un sous-ensemble de tâches, c'est pas encore la preuve en déploiement, mais l'idée est là.

RechercheOpinion
1 source
9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore
110MarkTechPost 

9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore

En 2026, le développement piloté par les spécifications (SDD pour spec-driven development) s'impose comme une réponse structurelle à un problème croissant dans les équipes de développement augmentées par l'IA : générer du code rapidement ne sert à rien si ce code ne correspond pas aux besoins réels du système. Un classement des neuf outils les plus utilisés pour mettre en oeuvre cette approche met en lumière trois acteurs majeurs. AWS Kiro (kiro.dev) est un IDE agentique qui guide les développeurs en trois phases formalisées, Exigences, Design et Tâches, et produit trois artefacts structurés. Il utilise la notation EARS pour les user stories et un système de hooks événementiels qui déclenchent automatiquement des vérifications (tests, mises à jour de documentation, scans de sécurité) à chaque sauvegarde de fichier. Côté modèles, Kiro s'appuie sur un routeur automatique combinant Claude Sonnet, Qwen, DeepSeek, GLM et MiniMax. GitHub Spec Kit (93 000 étoiles, version 0.8.7 publiée le 7 mai 2026) est l'option open source la plus adoptée, compatible avec plus de 30 agents dont Claude Code, Copilot et Gemini CLI. BMAD-METHOD, lui, orchestre plus de 12 agents spécialisés couvrant l'ensemble du cycle de développement logiciel ; sa version 6.6.0, sortie le 29 avril 2026, totalise 46 700 étoiles et 5 500 forks sur GitHub. L'enjeu central de ces outils est de renverser la logique de travail habituelle : au lieu de coder d'abord et d'affiner ensuite, le développeur formalise son intention en amont, et le code devient une sortie générée à partir de cette spécification. Pour les équipes professionnelles, cela réduit significativement le risque de divergence entre ce qui est produit et ce qui était réellement attendu, un problème qui coûte cher en retours arrière et en dette technique. Kiro s'adresse aux équipes qui veulent un environnement familier (il est construit sur Code OSS), tandis que Spec Kit convient aux équipes souhaitant conserver leur IDE existant. BMAD-METHOD cible des projets plus complexes nécessitant une coordination entre rôles distincts (product management, architecture, QA, etc.). Ce mouvement vers le SDD reflète une maturité croissante dans l'usage de l'IA en développement logiciel. La première vague d'outils misait sur la vitesse brute de génération de code ; la deuxième, celle que ces neuf outils incarnent, mise sur la cohérence et la traçabilité. GitHub a résumé la philosophie de Spec Kit en une formule : le code est désormais la sortie de dernier kilomètre, l'intention est la source de vérité. BMAD introduit avec sa V6 une équipe d'agents multi-plateformes, permettant à la même configuration de fonctionner indifféremment sur Claude Code, Cursor ou Codex. La convergence de ces approches suggère que la prochaine bataille dans les outils de développement ne se jouera pas sur la qualité du code généré, mais sur la qualité des spécifications qui le précèdent.

💬 La première vague d'outils IA misait sur la vitesse brute, et on a tous couru après. Bon, résultat : du code généré en 10 minutes qu'on passe 3 heures à corriger parce que la spec était dans la tête du dev et nulle part ailleurs. Kiro et Spec Kit ne règlent pas tout, mais l'idée de formaliser l'intention avant le code, c'est le truc qu'on aurait dû faire dès le départ.

OutilsOutil
1 source
NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B
111MarkTechPost 

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

Des chercheurs de NVIDIA ont publié une étude intégrée à NeMo RL v0.6.0 qui accélère significativement la phase d'entraînement par renforcement des grands modèles de langage grâce au décodage spéculatif. Le principe repose sur un petit modèle dit "brouillon" qui propose plusieurs tokens en avance, tandis que le modèle principal, celui qu'on entraîne réellement, les vérifie via un mécanisme de rejet statistique. Sur 32 GPU GB200 (8 nœuds NVL72), cette approche réduit la latence de génération de 100 secondes à 56,6 secondes sur la tâche RL-Zero, soit un gain de 1,8× sur la génération. À l'échelle d'un modèle de 235 milliards de paramètres, les projections donnent un gain de bout en bout de 2,5×. Le framework EAGLE-3 est utilisé comme moteur de brouillon, compatible avec n'importe quel modèle pré-entraîné sans nécessiter de tête de prédiction multi-token native. Ce résultat est particulièrement précieux parce qu'il ne sacrifie rien à la fidélité d'entraînement. La génération par rollout représente entre 65 et 72 % du temps total d'une étape RL, mesure faite sur Qwen3-8B dans deux configurations, RL-Think et RL-Zero. C'est donc le seul goulet d'étranglement qui vaille la peine d'être attaqué. Or les méthodes habituelles d'accélération, exécution asynchrone, replay hors-politique, précision réduite, introduisent toutes un décalage de distribution qui contamine le signal d'entraînement. Le décodage spéculatif, lui, garantit mathématiquement que la distribution de sortie du modèle cible reste identique à ce qu'elle aurait été sans brouillon. Aucune correction hors-politique, aucun biais introduit dans la récompense. L'intégration dans une boucle d'entraînement par renforcement posait néanmoins un défi d'ingénierie non trivial : à chaque mise à jour des poids de la politique, le modèle brouillon doit rester aligné avec cette politique en évolution. NVIDIA a résolu cela avec une architecture à deux chemins dans NeMo RL, un chemin général via EAGLE-3 et un chemin natif pour les modèles disposant de têtes MTP intégrées. Lorsque l'adaptation en ligne du brouillon est activée, les états cachés et log-probabilités issus du passage avant du vérificateur MegatronLM sont réutilisés pour superviser la tête brouillon via un gradient détaché, de sorte que l'entraînement du brouillon n'interfère jamais avec le gradient de politique. Cette fonctionnalité est désormais disponible en production dans NeMo RL v0.6.0, aux côtés du backend SGLang, de l'optimiseur Muon et de l'entraînement long contexte YaRN.

💬 Le vrai problème du RLHF à grande échelle, c'est que 70% du temps tu le passes juste à générer des rollouts. NVIDIA s'y attaque proprement avec le décodage spéculatif dans NeMo : un modèle brouillon qui anticipe, un modèle principal qui valide, et la garantie mathématique que la distribution reste intacte, pas de biais hors-politique introduit en douce. 1,8× sur 8B, 2,5× visé sur 235B, c'est le genre d'optimisation qu'on attendait depuis qu'on fait du RL sérieusement.

LLMsPaper
1 source
World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture
112MarkTechPost 

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels. Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production. Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.

UELes studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.

RecherchePaper
1 source
Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time
113SCMP Tech 

Alibaba, ByteDance et Zhipu AI figurent dans le premier classement IA du magazine Time

Le magazine Time a publié pour la première fois un classement dédié à l'intelligence artificielle, intitulé "10 Most Influential AI Companies of 2026", dans le cadre de son palmarès annuel Time100 Most Influential Companies. Trois entreprises chinoises y figurent : Alibaba Group Holding, ByteDance et Zhipu AI. Les sept autres places sont occupées par six sociétés américaines et par Mistral AI, seule représentante européenne du classement. La présence de trois acteurs chinois dans ce top 10 mondial illustre la montée en puissance de l'écosystème IA de Pékin face à la Silicon Valley. ByteDance, connu pour TikTok, s'est imposé dans la course aux grands modèles de langage avec son modèle Doubao. Alibaba pousse son modèle Qwen, disponible en open source, tandis que Zhipu AI, startup soutenue par des fonds d'État, développe la série GLM. Leur inclusion dans un classement américain aussi emblématique que le Time100 signale que la domination américaine sur l'IA n'est plus une évidence pour les observateurs occidentaux eux-mêmes. Ce classement intervient dans un contexte de compétition technologique intense entre les États-Unis et la Chine, aggravée par les restrictions américaines sur les exportations de puces Nvidia vers Pékin. Malgré ces obstacles, les laboratoires chinois ont continué à publier des modèles compétitifs, notamment après le choc DeepSeek début 2025. L'entrée de Mistral AI dans ce palmarès confirme également que l'Europe cherche à s'imposer comme troisième pôle de l'IA mondiale, même si son poids reste modeste face aux deux géants.

UEMistral AI est la seule entreprise européenne dans le classement Time100 IA 2026, signal de reconnaissance internationale pour l'écosystème français mais aussi de la faiblesse relative de l'Europe face aux géants américains et chinois.

BusinessActu
1 source
Implémentation Python pour le benchmarking de parsing de documents avec LlamaIndex ParseBench
114MarkTechPost 

Implémentation Python pour le benchmarking de parsing de documents avec LlamaIndex ParseBench

LlamaIndex a publié ParseBench, un jeu de données de référence conçu pour évaluer de manière rigoureuse les systèmes d'analyse de documents. Hébergé sur Hugging Face sous l'identifiant llamaindex/ParseBench, ce benchmark est structuré autour de plusieurs dimensions d'évaluation distinctes : extraction de texte brut, reconnaissance de tableaux, interprétation de graphiques et respect de la mise en page. La procédure d'utilisation s'appuie sur un pipeline Python standardisé mobilisant des bibliothèques open source comme datasets, pandas, PyMuPDF (alias fitz), rapidfuzz et rich. Les données sont distribuées au format JSONL, avec des fichiers PDF associés accessibles directement depuis le dépôt Hugging Face via hfhubdownload. Le pipeline de référence décrit dans le tutoriel officiel construit un extracteur de texte léger basé sur PyMuPDF, compare les sorties aux annotations de référence grâce à des métriques de similarité floue (fuzz), et produit des visualisations de la distribution des exemples par dimension. L'importance de ParseBench réside dans le manque criant de standards objectifs pour comparer les moteurs d'analyse documentaire, qu'il s'agisse de solutions OCR classiques, de modèles de vision-langage ou de parseurs hybrides. Jusqu'ici, les équipes évaluaient leurs systèmes sur des jeux de données internes non reproductibles, rendant toute comparaison inter-organisations impossible. Avec ce benchmark unifié, les développeurs peuvent mesurer la qualité de l'extraction sur chaque dimension séparément, texte, tableaux, graphiques, layout, et identifier précisément où leurs pipelines échouent. Pour les entreprises qui traitent des volumes importants de documents (contrats, rapports financiers, publications scientifiques), disposer d'un tel outil de mesure change concrètement la façon dont on sélectionne et valide un moteur de parsing avant de le passer en production. ParseBench s'inscrit dans une tendance plus large portée par LlamaIndex, qui cherche à standardiser l'outillage autour des pipelines RAG (retrieval-augmented generation). La qualité de l'extraction documentaire est en effet le maillon critique souvent négligé de ces architectures : un PDF mal parsé produit des embeddings bruités, ce qui dégrade directement les réponses des assistants IA en aval. Plusieurs acteurs du secteur, comme Unstructured, LlamaParse ou encore Docling d'IBM, se livrent une concurrence directe sur ce segment. L'arrivée d'un benchmark public et reproductible oblige désormais ces acteurs à rendre des comptes sur des métriques communes. Les prochaines étapes probables incluent l'intégration de modèles de vision-langage comme GPT-4o ou Qwen-VL comme baselines supplémentaires, et l'extension du benchmark à des formats au-delà du PDF.

OutilsOutil
1 source
OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel
115MarkTechPost 

OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel

L'équipe OpenMOSS, en collaboration avec MOSI.AI et le Shanghai Innovation Institute, a publié MOSS-Audio, un modèle de fondation open source conçu pour unifier dans un seul système toutes les tâches de compréhension audio. Disponible en quatre variantes, MOSS-Audio-4B-Instruct, 4B-Thinking, 8B-Instruct et 8B-Thinking, il repose sur les modèles de langage Qwen3-4B et Qwen3-8B, atteignant respectivement environ 4,6 et 8,6 milliards de paramètres. Le modèle est capable de transcrire de la parole avec alignement temporel au niveau du mot, d'identifier les caractéristiques d'un locuteur, d'analyser ses émotions, de détecter des événements acoustiques, d'interpréter des sons d'ambiance, d'analyser des contenus musicaux et de répondre à des questions précisément ancrées dans le temps, du type "qu'a dit l'intervenant à la deuxième minute". Les variantes Instruct sont optimisées pour des sorties structurées en production, tandis que les variantes Thinking sont conçues pour le raisonnement en plusieurs étapes, grâce à un entraînement par chaîne de pensée et par apprentissage par renforcement. Jusqu'ici, accomplir l'ensemble de ces tâches nécessitait d'assembler plusieurs systèmes spécialisés distincts, chacun dédié à une modalité précise. MOSS-Audio supprime ce besoin d'orchestration en offrant un seul modèle polyvalent utilisable sans commutation. Pour les développeurs et les entreprises qui traitent des flux audio complexes, des réunions enregistrées ou des podcasts, cela représente un gain d'infrastructure significatif. Les capacités de raisonnement temporel, c'est-à-dire la possibilité de répondre à des questions référencées dans le temps sur un enregistrement, ouvrent aussi des cas d'usage qui n'étaient pas accessibles avec des architectures séparées, notamment l'analyse automatisée de contenus longs. L'architecture de MOSS-Audio repose sur trois composants : un encodeur audio, un adaptateur de modalité et un grand modèle de langage. L'encodeur, entraîné de zéro plutôt qu'emprunté à une solution existante, produit des représentations temporelles continues à 12,5 Hz. Une innovation clé baptisée DeepStack permet d'injecter des caractéristiques issues des couches intermédiaires de l'encodeur directement dans le modèle de langage, en plus de la couche finale, ce qui préserve les informations acoustiques de bas niveau comme la prosodie ou les événements transitoires. Le modèle s'inscrit dans une dynamique d'open source audio qui s'accélère depuis 2024, portée par des acteurs chinois cherchant à combler l'écart avec les laboratoires occidentaux dans le domaine du traitement multimodal. Le code source est disponible sur GitHub sous licence publique.

LLMsActu
1 source
Le dirigeant d'Aixin Yuanzhi mise sur les puces haute performance comme moteur de croissance des entreprises en 2026
11636Kr 

Le dirigeant d'Aixin Yuanzhi mise sur les puces haute performance comme moteur de croissance des entreprises en 2026

Le fabricant chinois de semi-conducteurs Aixtek (爱芯元智) a profité du Salon de l'automobile de Pékin pour annoncer la formation de la « Qianli Alliance » avec Qianli Technology et Jiyue, tout en confirmant le lancement de sa puce M97 pour le troisième trimestre 2025. Sa fondatrice Qiu Xiaoshen a déclaré publiquement que la puce, dédiée à l'assistance à la conduite à haute puissance de calcul, avait déjà passé l'étape du « tape-out » et entrait dans son cycle de développement standard. Dotée de plus de 700 TOPS de puissance de calcul, elle sera progressivement intégrée dans plusieurs modèles de véhicules dès 2026. Aujourd'hui, les produits traditionnels de calcul embarqué représentent encore plus de 80 % du chiffre d'affaires d'Aixtek, mais la direction prévoit que cette répartition se rééquilibrera profondément dans les trois prochaines années. La M97 est conçue pour résoudre un problème structurel que Qiu Xiaoshen identifie comme le talon d'Achille des puces d'assistance à la conduite actuelles : la bande passante mémoire insuffisante. Elle explique qu'une puce de 2 000 TOPS ne délivre pas sa pleine puissance si la bande passante DDR est le goulot d'étranglement. En choisissant un procédé de fabrication d'une génération d'avance sur les concurrents (5 nm ou 4 nm contre 7 nm), Aixtek vise des fréquences DDR supérieures à 8 533 MT/s, voire 9 600 MT/s, contre un maximum de 6 400 MT/s en 7 nm. Ce saut de procédé réduit également la surface du die et améliore les rendements de production, ce qui contribue à la maîtrise des coûts. La stratégie d'Aixtek s'inscrit dans un contexte où l'évolution technologique de la conduite autonome reste incertaine, mais converge vers des architectures de plus en plus gourmandes en calcul : modèles end-to-end, VLM (Vision-Language Models), et désormais VLA (Vision-Language-Action), qui tentent de fusionner compréhension sémantique et pilotage en un seul modèle. L'entreprise, qui se positionne comme une plateforme de puces « neutre et indépendante » afin de laisser aux constructeurs le choix de leur fournisseur, mise également sur le calcul en périphérie (edge computing) : deux nouvelles puces edge seront lancées au second semestre 2025, compatibles avec les grands modèles comme Qwen. Qiu Xiaoshen voit dans les boîtiers d'agents IA locaux, capables de faire tourner un LLM à domicile sans passer par le cloud, un marché grand public à fort potentiel d'explosion.

UEImpact indirect sur les équipementiers automobiles européens qui suivent l'évolution des puces ADAS chinoises comme référence concurrentielle.

InfrastructureActu
1 source
kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles
117MarkTechPost 

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

La gestion de la mémoire GPU représente l'un des défis les plus concrets du déploiement de modèles de langage en production, et kvcached apporte une réponse directe à ce problème. Ce projet open source, conçu comme une surcouche à vLLM, remplace l'allocateur statique de cache KV par une solution élastique et dynamique. Un tutoriel récent détaille son implémentation pas à pas, en déployant deux modèles Qwen2.5 (versions 0,5 milliard et 1,5 milliard de paramètres d'Alibaba) via une API compatible OpenAI sur les ports 8001 et 8002, avec vLLM 0.10.2 et une extension CUDA compilée à l'installation. L'activation se fait via quelques variables d'environnement, ENABLEKVCACHED et KVCACHEDAUTOPATCH, sans modifier le code source du serveur d'inférence. L'enjeu est significatif pour quiconque gère des infrastructures d'IA avec des charges de travail irrégulières. Avec l'allocation statique classique, la mémoire VRAM est réservée au démarrage du serveur et reste bloquée, que le modèle soit sollicité ou non. kvcached permet au contraire à la mémoire de se redistribuer en temps réel selon l'activité effective de chaque modèle. Dans un scénario multi-modèles sur un seul GPU, cela signifie concrètement qu'un modèle inactif libère de la mémoire au profit d'un autre qui subit un pic de requêtes, ce que les ingénieurs appellent une charge "bursty". Les expériences du tutoriel mesurent et visualisent directement cette différence en termes d'utilisation VRAM et de latence, avec une limite de contexte fixée à 2 048 tokens. Ce type d'outil s'inscrit dans une tendance de fond : optimiser l'utilisation des GPU pour réduire les coûts d'inférence, qui constituent désormais la majorité des dépenses opérationnelles des applications LLM à grande échelle. vLLM, maintenu par une communauté active et adopté par des dizaines d'entreprises d'infrastructure IA, reste la référence pour le serving haute performance, mais son modèle d'allocation mémoire statique montre ses limites face aux charges variables. Des projets comme kvcached, qui s'y greffent sans réécriture profonde, offrent une voie pragmatique vers une meilleure densité de déploiement. La prochaine étape logique, suggérée par la structure même du tutoriel, est l'extension à des architectures de serveurs partagés entre plusieurs équipes ou clients, ce que l'on appelle le multi-tenant serving, qui deviendra incontournable à mesure que les coûts GPU restent élevés.

UELes équipes techniques françaises déployant des LLMs en production via vLLM pourraient réduire leurs coûts GPU grâce à cette optimisation open source, sans impact réglementaire ou stratégique propre à la France/UE.

InfrastructureTuto
1 source
Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage
118MarkTechPost 

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Microsoft a publié OpenMementos, un jeu de données conçu pour entraîner des modèles de langage capables de raisonnement long, structuré et compressible. Le dataset, disponible sur HuggingFace sous l'identifiant microsoft/OpenMementos, organise chaque trace de raisonnement en une série de blocs délimités par des tokens spéciaux (<|blockstart|>, <|blockend|>) accompagnés chacun de leur résumé condensé, appelé memento, encadré par <|summarystart|> et <|summaryend|>. Un tutoriel technique détaillé, conçu pour fonctionner directement dans Google Colab, montre comment accéder au dataset en mode streaming sans le télécharger intégralement, analyser sa structure interne, mesurer les taux de compression bloc-par-bloc sur 500 exemples répartis selon le domaine et la source, puis préparer les données pour un fine-tuning supervisé. L'ensemble du pipeline repose sur des bibliothèques Python standard : HuggingFace Datasets, Transformers, Pandas et Matplotlib. La valeur centrale d'OpenMementos réside dans son architecture de compression. Chaque réponse longue d'un modèle de raisonnement est découpée en blocs discrets, puis chaque bloc est automatiquement réduit à un memento de quelques phrases. Le tutoriel mesure ce rapport de compression en caractères et en mots par domaine, révélant à quel point les mementos permettent de préserver l'essentiel du raisonnement avec une fraction du volume textuel. Cette structure est directement exploitable pour l'entraînement : plutôt que de forcer un modèle à reproduire intégralement des chaînes de pensée verbeuses, on peut l'entraîner à produire des résumés intermédiaires compacts, ce qui réduit les coûts de calcul à l'inférence tout en maintenant la cohérence logique sur des problèmes complexes. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires d'IA depuis fin 2024 : comment rendre les modèles de raisonnement économiquement viables. Les approches chain-of-thought et les architectures de type "thinking model", popularisées par OpenAI avec o1 puis par DeepSeek-R1 et Qwen-QwQ, génèrent des traces de raisonnement extrêmement longues et coûteuses à stocker, transmettre et inférer. Microsoft répond à ce défi avec une solution de compression supervisée des traces, en annotant explicitement les résumés intermédiaires au niveau des blocs. OpenMementos fournit ainsi une base d'entraînement structurée pour des modèles capables de "penser de façon compacte", une propriété qui pourrait devenir déterminante à mesure que les applications industrielles exigent des latences et des coûts d'inférence maîtrisés sur des tâches de raisonnement multi-étapes.

RecherchePaper
1 source
119AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
120MarkTechPost 

Moonshot AI et des chercheurs de Tsinghua proposent PrfaaS : une architecture KVCache inter-datacenters qui repense le déploiement des LLM à grande échelle

Des chercheurs de Moonshot AI et de l'Université Tsinghua ont publié une architecture nouvelle baptisée PrfaaS (Prefill-as-a-Service), qui repense fondamentalement la manière dont les grands modèles de langage traitent les inférences à grande échelle. Le principe : délocaliser la phase de prefill, c'est-à-dire le traitement initial des tokens d'entrée, vers des clusters dédiés et bourrés de puissance de calcul, puis transférer le cache clé-valeur (KVCache) résultant via un réseau Ethernet classique vers des clusters locaux chargés du décodage. Les gains mesurés sont substantiels : dans une étude de cas portant sur un modèle interne hybride de 1 000 milliards de paramètres, PrfaaS affiche un débit 54 % supérieur à une architecture homogène classique, et 32 % supérieur à une configuration hétérogène naïve. À coût matériel égal, le gain net est d'environ 15 %, le reste de l'avantage provenant du choix de GPU plus puissants (H200) pour le prefill couplés à des H20 pour le décodage. Ce que change cette architecture, c'est qu'elle lève une contrainte qui paralysait l'industrie depuis des années : la nécessité de co-localiser prefill et décodage dans le même datacenter, voire le même rack, en raison des débits colossaux imposés par les réseaux RDMA. Les modèles denses classiques avec attention groupée (GQA) génèrent des KVCache à environ 60 Gbps pour une requête de 32 000 tokens, un volume qui rend toute séparation inter-datacenter impraticable sans infrastructure réseau spécialisée extrêmement coûteuse. PrfaaS ouvre la voie à une mutualisation géographique des ressources de calcul, ce qui représente un levier majeur d'optimisation des coûts pour les opérateurs de LLM à l'échelle industrielle. Ce qui rend cette approche viable aujourd'hui, c'est une évolution profonde au niveau des modèles eux-mêmes. Une nouvelle génération d'architectures hybrides, dont Kimi Linear, MiMo-V2-Flash, Qwen3.5-397B et Ring-2.5-1T, mêle des couches d'attention complète à des couches à complexité linéaire ou à fenêtre glissante. Seules les couches d'attention complète produisent un KVCache croissant avec la longueur du contexte ; les autres maintiennent des états de taille fixe. Résultat : MiMo-V2-Flash ne génère que 4,66 Gbps de débit KV à 32 000 tokens contre 59,93 Gbps pour un modèle dense comparable, soit une réduction de 13 fois. Pour le modèle interne de 1T paramètres, ce chiffre tombe à 3,19 Gbps, un niveau compatible avec une simple liaison Ethernet inter-datacenter. C'est cette convergence entre optimisation architecturale des modèles et disaggrégation géographique de l'inférence qui fait de PrfaaS une proposition concrète et non plus spéculative.

UELes opérateurs européens déployant des LLM à grande échelle pourraient à terme adopter cette approche pour réduire leurs coûts d'infrastructure GPU, mais aucune entreprise ou institution européenne n'est directement impliquée.

InfrastructureOpinion
1 source
121Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source
122AWS ML Blog 

Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM

AWS et ses partenaires ont publié des résultats de benchmarks démontrant que le décodage spéculatif (speculative decoding) sur les puces AWS Trainium2, couplé au framework vLLM et à Kubernetes, permet d'accélérer la génération de tokens jusqu'à trois fois pour les charges de travail intensives en décodage. Les tests ont été réalisés avec les modèles Qwen3, une famille de modèles de langage développée par Alibaba. La technique repose sur l'utilisation de deux modèles en tandem : un petit modèle "brouillon" (draft model) qui propose plusieurs tokens en avance, et le modèle principal qui vérifie ces propositions en une seule passe. Résultat : une latence inter-token réduite et un coût par token généré significativement plus faible. L'impact est particulièrement marqué pour les applications comme les assistants à l'écriture, les agents de code ou tout système génératif qui produit beaucoup plus de tokens qu'il n'en consomme en entrée. Dans ces cas, la phase de décodage représente l'essentiel du coût d'inférence. Le problème fondamental du décodage autorégressif classique est que les accélérateurs matériels restent largement sous-utilisés : chaque étape ne produit qu'un seul token, ce qui génère de petites opérations matricielles inefficaces et monopolise inutilement la bande passante mémoire du cache KV. Le décodage spéculatif transforme ce goulot d'étranglement en permettant au modèle cible de traiter n tokens simultanément lors de la vérification, amortissant ainsi les accès mémoire et densifiant les calculs. Deux paramètres clés pilotent les performances de cette approche : le choix du modèle brouillon et la valeur de numspeculativetokens, qui détermine combien de tokens sont proposés à chaque passe. Le modèle brouillon doit partager le même tokenizer et le même vocabulaire que le modèle principal, idéalement appartenir à la même famille architecturale, pour maximiser le taux d'acceptation des tokens proposés. Un taux d'acceptation élevé est crucial : si le modèle principal rejette trop souvent les suggestions, les gains de performance s'évaporent et le coût de calcul du modèle brouillon devient une charge nette. Fixer numspeculativetokens trop bas limite les gains ; trop haut, cela multiplie les rejections anticipées. Cette publication s'inscrit dans une tendance plus large de la course à l'optimisation de l'inférence LLM, où AWS cherche à positionner ses puces Trainium comme alternative crédible aux GPU Nvidia, notamment pour les entreprises cherchant à réduire leurs coûts d'inférence à grande échelle.

UELes entreprises européennes utilisant AWS pourraient réduire leurs coûts d'inférence LLM en migrant vers Trainium2, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

InfrastructureActu
1 source
123AWS ML Blog 

Déploiements par cas d'usage sur SageMaker JumpStart

Amazon a annoncé le lancement des déploiements optimisés sur SageMaker JumpStart, une nouvelle fonctionnalité qui permet aux entreprises utilisant AWS de configurer leurs modèles d'intelligence artificielle en fonction de cas d'usage précis plutôt que de simples paramètres techniques génériques. Disponible dès maintenant dans SageMaker Studio, cette mise à jour concerne une trentaine de modèles au lancement, dont plusieurs variantes de Meta Llama 3.1 et 3.2 (de 1B à 70B paramètres), Mistral 7B et Mistral Small 24B, les modèles Qwen3 d'Alibaba (jusqu'à 32B), Phi-3 de Microsoft, Gemma de Google et Falcon3 de TII. Les utilisateurs choisissent d'abord un cas d'usage textuel, rédaction générative, interaction de type chat, résumé de contenu, questions-réponses, puis sélectionnent une contrainte d'optimisation parmi quatre options : coût, débit, latence ou performance équilibrée. Une configuration de déploiement préconfigurée est alors générée automatiquement pour l'endpoint SageMaker. Ce changement répond à une limite concrète du système précédent : JumpStart proposait jusque-là de configurer les déploiements selon le nombre d'utilisateurs simultanés attendus, avec visibilité sur la latence P50, le temps avant le premier token (TTFT) et le débit en tokens par seconde. Ce modèle était utile pour des scénarios généralistes, mais ignorait que les performances optimales varient radicalement selon le type de tâche. Un système de résumé de documents longs n'a pas les mêmes besoins qu'un chatbot temps réel ou qu'un pipeline de génération de contenu en batch. En exposant directement ces dimensions aux équipes produit et data, AWS réduit la friction entre la sélection d'un modèle et sa mise en production effective, sans exiger d'expertise fine en infrastructure GPU ni en tuning de serving. Cette évolution s'inscrit dans la compétition acharnée que se livrent les grands fournisseurs cloud, AWS, Google Cloud et Microsoft Azure, pour capter les budgets d'inférence IA des entreprises. SageMaker JumpStart existe depuis plusieurs années comme point d'entrée vers les modèles pré-entraînés sur AWS, mais la plateforme cherche à monter en valeur face à des alternatives comme Vertex AI Model Garden ou Azure AI Studio qui proposent également des expériences de déploiement guidées. Le support des modèles image et vidéo est annoncé comme prochaine étape, et la liste des modèles compatibles est présentée comme amenée à s'élargir rapidement. Pour les entreprises déjà dans l'écosystème AWS, cette simplification pourrait accélérer les cycles de mise en production de modèles open-source sans passer par des équipes MLOps dédiées.

UELes entreprises européennes déployant des modèles open-source sur AWS peuvent réduire leur dépendance aux équipes MLOps grâce à cette simplification du cycle de mise en production.

OutilsOutil
1 source
124Latent Space 

[AINews] Classement des meilleurs modèles locaux - avril 2026

En avril 2026, la communauté des modèles d'IA locaux a établi un nouveau consensus sur les meilleurs modèles disponibles, après une veille régulière des forums Reddit comme r/localLlama et r/localLLM. Le classement ne repose pas sur les benchmarks théoriques mais sur ce que les utilisateurs recommandent concrètement au quotidien. Qwen 3.5 s'impose comme la famille la plus recommandée toutes catégories confondues, tandis que Gemma 4 de Google gagne rapidement en popularité pour les déploiements locaux de petite et moyenne taille. GLM-5 et GLM-4.7 figurent désormais dans les discussions sur les "meilleurs modèles open-source", aux côtés de MiniMax M2.5 et M2.7, particulièrement cités pour les tâches agentiques et les workflows à forte utilisation d'outils. DeepSeek V3.2 reste solidement dans le peloton de tête des modèles open-weight généralistes, et GPT-oss 20B émerge comme option pratique pour un usage local, notamment pour ses variantes non censurées. Pour le code, le verdict est sans appel : Qwen3-Coder-Next domine largement. Ce palmarès reflète un basculement significatif dans la manière dont les développeurs et les passionnés consomment l'IA : plutôt que de dépendre de services cloud payants, ils privilégient des modèles qu'ils peuvent faire tourner sur leur propre matériel. Cette dynamique démocratise l'accès à des capacités avancées tout en préservant la confidentialité des données. La performance de Qwen 3.5 sur un large spectre d'usages indique que les modèles de taille intermédiaire ont atteint un niveau de maturité suffisant pour remplacer des API commerciales dans de nombreux contextes professionnels. Ce relevé s'inscrit dans une accélération générale de l'écosystème open-weight depuis fin 2024, portée par des acteurs comme Alibaba (Qwen), Google (Gemma), Zhipu AI (GLM) et DeepSeek. La compétition s'est déplacée des grands laboratoires fermés vers un terrain où les sorties se succèdent à un rythme soutenu et où la communauté joue un rôle d'arbitre. La prochaine génération de modèles locaux, notamment Qwen3-Coder-Next pour le développement logiciel, laisse entrevoir des capacités agentiques croissantes qui pourraient transformer les workflows d'ingénierie sans nécessiter de connexion à des services externes.

UEL'adoption croissante de modèles open-weight locaux offre aux développeurs et entreprises européens une alternative concrète aux API cloud américaines, réduisant l'exposition aux risques de dépendance et renforçant la souveraineté des données.

LLMsActu
1 source
125MarkTechPost 

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts. Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues. Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

RecherchePaper
1 source
Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV
126MarkTechPost 

Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV

NVIDIA a publié KVPress, une bibliothèque open source conçue pour compresser le cache clé-valeur (KV cache) des grands modèles de langage et réduire drastiquement leur consommation mémoire lors des inférences sur de longs contextes. Un tutoriel complet publié récemment par des ingénieurs en IA illustre son fonctionnement concret à travers une implémentation pas-à-pas exécutable sur Google Colab. L'exemple s'appuie sur le modèle Qwen2.5-1.5B-Instruct de Qwen, chargé en quantification 4 bits via la bibliothèque BitsAndBytes, et fait appel à la version 0.4.0 de KVPress. Deux stratégies de compression sont comparées : ExpectedAttentionPress, qui estime l'importance des tokens en fonction de l'attention attendue, et KnormPress, qui s'appuie sur la norme des vecteurs K pour éliminer les entrées peu pertinentes. Le pipeline génère un corpus synthétique long, pose des questions ciblées sur ce corpus, puis mesure les écarts de performance et d'empreinte mémoire entre la génération standard et les différentes configurations compressées. L'enjeu est considérable pour l'industrie du traitement du langage naturel. Le KV cache est le principal goulot d'étranglement mémoire lors de l'inférence sur de longs contextes : chaque token généré alimente un cache qui grossit linéairement, rendant les fenêtres de 32 000, 128 000 voire un million de tokens extrêmement coûteuses en VRAM. KVPress permet de ne conserver dans ce cache que les entrées jugées les plus informatives, en supprimant dynamiquement les tokens à faible contribution. Pour les développeurs déployant des applications d'analyse de documents, de recherche d'information ou d'agents conversationnels à mémoire longue, cette compression peut rendre viables des scénarios qui nécessiteraient sinon du matériel de classe A100 ou H100. La possibilité de faire tourner ces expériences sur Colab, avec une simple GPU grand public, illustre bien la baisse de barrière à l'entrée que KVPress ambitionne d'offrir. La gestion du KV cache est devenue l'un des fronts les plus actifs de la recherche en inférence LLM depuis que les fenêtres contextuelles ont explosé en 2023-2024. Des techniques comme Sliding Window Attention, PagedAttention (à la base de vLLM) ou les approches de quantification du cache ont émergé pour répondre à cette pression. NVIDIA, en proposant KVPress comme couche d'abstraction modulaire compatible avec le pipeline Hugging Face Transformers, cherche à standardiser l'accès à ces optimisations pour un public plus large que les seules équipes d'infrastructure. La prochaine étape naturelle sera d'évaluer ces stratégies sur des modèles de plus grande taille et sur des benchmarks de rétention d'information à longue portée, pour quantifier précisément le compromis entre taux de compression et fidélité des réponses dans des cas d'usage de production.

OutilsTuto
1 source
Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export
127MarkTechPost 

Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export

ModelScope, la plateforme de partage de modèles d'intelligence artificielle développée par Alibaba et son laboratoire DAMO Academy, s'impose comme une alternative crédible à Hugging Face pour les développeurs souhaitant accéder à des modèles pré-entraînés, des jeux de données et des pipelines d'inférence. Un tutoriel complet publié récemment détaille un workflow de bout en bout exécutable sur Google Colab, couvrant l'installation de l'environnement, la recherche de modèles via le hub ModelScope, le téléchargement de snapshots comme BERT, le chargement du jeu de données IMDB, le fine-tuning d'un classificateur de sentiment, son évaluation et son export pour déploiement. La procédure repose sur un écosystème de bibliothèques Python incluant PyTorch, Transformers d'Hugging Face, Accelerate, scikit-learn et Optimum, avec une compatibilité GPU vérifiée dès le départ via CUDA. Ce type de guide pratique a une valeur concrète pour les équipes d'ingénierie et de recherche qui cherchent à industrialiser leurs workflows IA sans repartir de zéro. En montrant que ModelScope s'intègre nativement avec les outils Hugging Face, notamment les pipelines Transformers pour l'analyse de sentiment ou la vision par ordinateur, le tutoriel réduit la barrière à l'entrée pour les équipes déjà familières de cet écosystème. La possibilité de télécharger localement des snapshots de modèles, d'accéder à des datasets comme IMDB via l'API MsDataset, et d'exporter les modèles fine-tunés vers des formats de production (via Optimum) en fait un outil pertinent aussi bien pour l'expérimentation que pour des déploiements à plus grande échelle. ModelScope a été lancé en 2022 par Alibaba DAMO Academy avec l'ambition de construire un écosystème ouvert de modèles centré sur la communauté chinoise et internationale du machine learning. La plateforme héberge des milliers de modèles dans des domaines variés, NLP, vision, audio, multimodal, et se positionne directement face à Hugging Face, qui reste la référence mondiale avec plus de 500 000 modèles disponibles. La dépendance au réseau chinois pour certaines API (la recherche de modèles peut être indisponible hors de Chine, comme le mentionne le tutoriel lui-même) constitue une friction réelle pour les utilisateurs occidentaux. Néanmoins, avec l'accélération des sorties de modèles chinois performants comme Qwen, DeepSeek ou Yi, ModelScope devient un point d'accès incontournable pour quiconque souhaite travailler avec ces modèles dès leur publication, souvent avant leur disponibilité sur d'autres plateformes.

OutilsTuto
1 source
[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances
128Next INpact 

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Faire tourner un grand modèle de langage sur sa propre machine est désormais accessible à quiconque dispose d'un ordinateur suffisamment puissant. Des outils comme Ollama permettent d'installer et d'utiliser localement des LLM tels que Mistral, LLaMA ou Qwen, sans connexion internet et sans envoyer la moindre donnée à un serveur tiers. L'article propose un tutoriel pas à pas pour configurer cet environnement en local, accompagné d'un comparatif de performances entre deux configurations : un serveur équipé de 24 cœurs CPU sans GPU, et un autre disposant d'une carte graphique dédiée. Le résultat est sans appel : l'écart de vitesse d'inférence entre les deux setups est énorme, le GPU surclassant massivement le CPU seul pour ce type de charge de travail. L'enjeu central est la confidentialité des données. Utiliser ChatGPT, Claude ou Le Chat implique d'envoyer ses requêtes sur les serveurs d'OpenAI, Anthropic ou Mistral, où elles peuvent potentiellement servir à l'entraînement ou à l'amélioration des modèles. Pour les professionnels manipulant des données sensibles, documents juridiques, médicaux, financiers, code propriétaire, cette dépendance aux infrastructures cloud représente un risque réel. L'exécution locale supprime complètement ce vecteur : le modèle tourne sur la machine de l'utilisateur, les données n'en sortent jamais. C'est aussi une question d'autonomie : pas de quota d'API, pas d'abonnement mensuel, pas de coupure de service. Deux contraintes techniques conditionnent la faisabilité de cette approche. D'abord la mémoire : les poids d'un modèle de 7 milliards de paramètres occupent environ 4 à 8 Go selon le niveau de quantisation, tandis qu'un modèle de 70 milliards en requiert facilement 40 Go ou plus. Ensuite la puissance de calcul : un GPU accélère les opérations matricielles qui constituent le cœur de l'inférence, là où un CPU seul produit des réponses lentes et difficilement utilisables en pratique. Cette architecture locale n'est pas nouvelle, la communauté open source travaille dessus depuis la publication de LLaMA par Meta en 2023, mais elle est devenue beaucoup plus accessible grâce à des outils comme Ollama, LM Studio ou llama.cpp, qui abstraient la complexité technique. L'essor des modèles compacts et quantisés (3B, 7B, 14B paramètres) rend aujourd'hui possible une expérience satisfaisante même sur du matériel grand public, à condition de disposer d'une carte graphique avec suffisamment de VRAM.

UELes professionnels européens soumis au RGPD peuvent éliminer le risque d'envoi de données sensibles vers des serveurs américains en exécutant leurs modèles en local.

OutilsTuto
1 source
Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur
129AWS ML Blog 

Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur

Amazon a introduit une fonctionnalité de personnalisation de modèles sans serveur dans SageMaker AI, permettant aux équipes d'améliorer drastiquement les capacités d'appel d'outils des agents IA sans gérer d'infrastructure GPU. Dans un cas concret publié début avril 2026, des ingénieurs ont affiné le modèle Qwen 2.5 7B Instruct en utilisant la technique RLVR (Reinforcement Learning with Verifiable Rewards) et ont obtenu une amélioration de 57% du score de qualité des appels d'outils sur des scénarios inédits, c'est-à-dire des outils que le modèle n'avait jamais vus lors de l'entraînement. La méthode repose sur un principe simple : le modèle génère huit réponses candidates par prompt, une fonction de récompense vérifie lesquelles sont correctes, et l'algorithme GRPO (Group Relative Policy Optimization) renforce les comportements qui surpassent la moyenne du groupe. SageMaker AI prend en charge les familles de modèles Amazon Nova, Llama, Qwen et DeepSeek, avec un suivi des métriques via MLflow intégré. L'enjeu est concret : les agents IA en production échouent fréquemment lors des appels d'outils, qu'il s'agisse d'halluciner des fonctions inexistantes, de passer des paramètres incorrects, ou de déclencher une action là où ils devraient demander une clarification. Ces erreurs bloquent le déploiement en production et détruisent la confiance des utilisateurs. La nouvelle approche serverless d'Amazon supprime l'obstacle opérationnel majeur que représentait jusqu'ici le fine-tuning par renforcement : achat de GPU, orchestration mémoire entre les phases de rollout et d'entraînement, infrastructure de récompenses, gestion des checkpoints. Les équipes peuvent désormais se concentrer sur leurs données, leur modèle et leur fonction de récompense, le reste étant géré par la plateforme. Le fine-tuning supervisé classique (SFT) montre ses limites pour ce type de tâche : il nécessite des exemples étiquetés pour chaque comportement souhaité, mais peine à généraliser la prise de décision entre appeler un outil, demander des informations supplémentaires, ou refuser d'agir. RLVR contourne ce problème en exploitant la nature vérifiable des appels d'outils : soit le modèle a appelé la bonne fonction avec les bons paramètres, soit non. Cette objectivité binaire rend l'appel d'outils particulièrement adapté à l'apprentissage par renforcement. Amazon positionne cette offre dans un marché de l'IA agentique en forte croissance, où des acteurs comme Google (Vertex AI), Microsoft (Azure ML) et des startups spécialisées se disputent les équipes qui cherchent à industrialiser des agents fiables, avec un accès simplifié via SageMaker Studio et un compte AWS standard.

OutilsActu
1 source
Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique
130AWS ML Blog 

Amazon Bedrock propose l'ajustement par renforcement via des API compatibles OpenAI : guide technique

Amazon Bedrock, la plateforme cloud d'IA d'AWS, propose depuis décembre 2025 le Reinforcement Fine-Tuning (RFT), une méthode avancée de personnalisation de modèles de langage. Le service a d'abord été lancé avec les modèles Nova d'Amazon, avant d'être étendu en février 2026 aux modèles open source comme OpenAI GPT OSS 20B et Qwen 3 32B. Concrètement, le RFT permet d'entraîner un modèle à partir d'un petit ensemble de prompts — sans avoir besoin de milliers d'exemples étiquetés — en lui faisant générer plusieurs réponses possibles, puis en lui attribuant des scores selon la qualité de chaque réponse. Le modèle apprend ensuite à privilégier les stratégies qui produisent les meilleurs résultats. L'exemple utilisé dans le tutoriel est le dataset mathématique GSM8K, appliqué au modèle gpt-oss-20B hébergé sur Bedrock. Ce qui distingue le RFT du fine-tuning supervisé classique, c'est sa capacité d'apprentissage en boucle fermée : le modèle génère lui-même les réponses sur lesquelles il s'entraîne, plutôt que de mémoriser des paires entrée-sortie figées. Cette approche est particulièrement puissante pour des tâches vérifiables comme les mathématiques ou la génération de code, où la correction peut être évaluée automatiquement sans intervention humaine. Au fil de l'entraînement, le modèle rencontre naturellement des scénarios de plus en plus complexes, ce qui lui permet de s'améliorer en continu sans que l'équipe doive constituer et annoter un dataset massif en amont. Le résultat : des gains de performance significatifs sur des tâches complexes comme le raisonnement logique ou les conversations multi-tours. Le Reinforcement Learning appliqué aux LLMs est la technique qui a permis à des modèles comme ChatGPT d'aligner leurs réponses sur les préférences humaines — une méthode connue sous le nom de RLHF. Amazon Bedrock l'industrialise ici en automatisant tout le pipeline, de l'authentification au déploiement d'une fonction de récompense via Lambda, jusqu'à l'inférence sur le modèle personnalisé.

OutilsTuto
1 source
131MarkTechPost 

L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres

L'équipe Baidu Qianfan a lancé Qianfan-OCR, un modèle de 4 milliards de paramètres capable d'analyser des documents, détecter la mise en page et extraire du texte en une seule passe, via une architecture vision-langage basée sur Qwen3-4B. Le modèle introduit un mécanisme "Layout-as-Thought" qui génère une représentation structurée de la mise en page avant de produire le résultat final, réduisant la longueur de sortie de 50 %. Sur les principaux benchmarks, il se classe premier parmi les modèles de bout en bout : 93,12 sur OmniDocBench v1.5, 880 sur OCRBench, et 87,9 de score moyen en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B.

OutilsActu
1 source
L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM
132MarkTechPost 

L'optimisation bayésienne : pourquoi la nouvelle méthode d'entraînement de Google AI est la clé du raisonnement des LLM

Des chercheurs de Google ont identifié une limite majeure des LLMs comme Llama-3-70B et Qwen-2.5-32B : leur incapacité à mettre à jour leurs "croyances" au fil des interactions, plafonnant dès le premier échange. Ils ont développé le Bayesian Teaching, une technique d'entraînement qui apprend aux modèles à raisonner comme un assistant bayésien — en maintenant et mettant à jour une distribution de probabilités sur les préférences utilisateur à chaque round. Contre-intuitivement, entraîner les modèles sur des "suppositions éclairées" (souvent fausses en début d'apprentissage) s'est révélé plus efficace que de les entraîner sur les bonnes réponses, permettant à des modèles comme Gemma-2-9B et Llama-3-8B d'approcher les performances du modèle bayésien de référence.

RecherchePaper
1 source