Aller au contenu principal
L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper
LLMsMarkTechPost6sem· 2 min de lecture

L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper

Source originale ↗·

L'équipe Qwen a publié FlashQLA, une bibliothèque open source de kernels GPU haute performance, sous licence MIT. Construite sur le framework de compilation TileLang, elle est spécifiquement optimisée pour le mécanisme d'attention linéaire Gated Delta Network (GDN), qui est au coeur des modèles hybrides Qwen3.5 et Qwen3.6. Sur les GPU NVIDIA de la génération Hopper (H100, H200), FlashQLA atteint une accélération de 2 à 3 fois sur la passe avant (inference et entraînement) et de 2 fois sur la passe arrière (calcul des gradients), par rapport à la bibliothèque de référence Flash Linear Attention (FLA) et ses kernels Triton. Ces gains reposent sur deux innovations principales documentées : un parallélisme de contexte intra-carte déclenché automatiquement par les propriétés mathématiques du gate exponentiel du GDN, et une reformulation algébrique optimisée pour les unités de calcul matérielles de l'architecture Hopper.

Ces résultats ont une portée concrète pour quiconque entraîne ou déploie des modèles de langage sur des séquences longues. L'attention classique de type softmax souffre d'une complexité quadratique en O(n²) : doubler la longueur de la séquence multiplie le coût de calcul par quatre. L'attention linéaire ramène ce coût à O(n), ce qui rend le traitement de longs documents, de code ou de conversations beaucoup moins onéreux. Or, l'efficacité de l'attention linéaire dépend en grande partie de la qualité des kernels GPU sous-jacents. En exploitant les instructions warpgroup-level des Tensor Cores et les pipelines de données asynchrones propres à Hopper, fonctionnalités que Triton ne peut pas toujours exploiter pleinement, FlashQLA libère une partie du potentiel matériel que les implémentations existantes laissaient sur la table.

Ce travail s'inscrit dans une compétition intense autour de l'optimisation bas niveau des modèles de langage, un terrain souvent invisible mais décisif. Depuis FlashAttention (2022), plusieurs équipes cherchent à accélérer les opérations d'attention directement au niveau du kernel, c'est-à-dire la routine de calcul qui s'exécute réellement sur le processeur graphique. Qwen, développé par Alibaba Cloud, a fait le choix d'une architecture hybride pour ses derniers modèles : des couches GDN alternent avec des couches d'attention complète, combinant efficacité sur les longues séquences et expressivité là où elle est le plus utile. En publiant FlashQLA sous MIT, l'équipe ouvre cette optimisation à l'ensemble de la communauté, y compris aux chercheurs et entreprises qui construisent des pipelines sur ces architectures hybrides. La prochaine étape probable est l'intégration dans les frameworks d'entraînement dominants comme vLLM ou SGLang, ce qui élargirait significativement l'impact de cette bibliothèque.

Impact France/UE

Aucun impact direct, mais les chercheurs et entreprises européens disposant de GPU NVIDIA Hopper peuvent intégrer cette bibliothèque MIT pour accélérer l'entraînement et l'inférence de leurs modèles à attention linéaire.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Zyphra publie ZAYA1-8B-Diffusion-Preview : le premier modèle de diffusion MoE converti à partir d'un LLM autorégressif, avec une accélération jusqu'à 7,7x
1MarkTechPost 

Zyphra publie ZAYA1-8B-Diffusion-Preview : le premier modèle de diffusion MoE converti à partir d'un LLM autorégressif, avec une accélération jusqu'à 7,7x

Le laboratoire d'IA californien Zyphra a publié ZAYA1-8B-Diffusion-Preview, un modèle de langage à diffusion issu de la conversion de son modèle autorégressif ZAYA1-8B-base existant. La conversion a nécessité 600 milliards de tokens d'entraînement intermédiaire à une longueur de contexte de 32 000 tokens, suivis de 500 milliards de tokens pour étendre nativement ce contexte à 128 000, puis une phase de fine-tuning supervisé en mode diffusion. Le résultat est le premier modèle à diffusion de type MoE (Mixture of Experts) converti à partir d'un LLM autorégressif, et le premier modèle de ce type entraîné sur des GPU AMD. Les gains de vitesse atteignent jusqu'à 7,7x par rapport au décodage autorégressif classique, sans dégradation notable des performances sur les benchmarks standards, avec même des améliorations sur certains, comme LCB-v6. L'enjeu technique est de taille. Les modèles de langage classiques génèrent les tokens un par un, ce qui oblige le GPU à charger depuis la mémoire le cache KV (les représentations de tous les tokens précédents) à chaque étape. Ce mécanisme rend le système limité par la bande passante mémoire plutôt que par la puissance de calcul, un goulot d'étranglement croissant alors que les GPU modernes voient leur capacité de calcul progresser bien plus vite que leur bande passante mémoire. Le modèle à diffusion contourne ce problème en générant 16 tokens simultanément dans un même bloc, tous partageant le même cache KV. L'opération devient alors dominée par le calcul plutôt que par les transferts mémoire, ce qui permet d'exploiter le matériel beaucoup plus efficacement. Un mécanisme inspiré du décodage spéculatif sélectionne ensuite les tokens acceptés, avec l'avantage que le même modèle joue à la fois le rôle de spéculateur et de vérificateur, éliminant le coût d'exécution de deux modèles distincts comme dans des approches concurrentes telles qu'EAGLE. La stratégie de Zyphra tranche avec les approches habituelles : plutôt que d'entraîner un modèle à diffusion de zéro, l'entreprise a converti un checkpoint existant, une décision motivée par deux raisons pratiques. L'entraînement from scratch en mode diffusion est techniquement difficile, avec peu de recettes établies. Surtout, la diffusion n'apporte aucun avantage à l'entraînement, la contrainte de bande passante mémoire n'existe qu'à l'inférence, ce qui permet de réutiliser entièrement les pipelines de préentraînement existants. Ce modèle s'inscrit dans une compétition plus large autour de l'efficacité à l'inférence, où plusieurs acteurs, dont Inception Labs et Mercury, explorent les modèles à diffusion comme alternative aux architectures autoregressives dominantes. La publication de ZAYA1-8B-Diffusion-Preview en accès ouvert sur Hugging Face, accompagnée d'une documentation technique détaillée, signale que Zyphra mise sur la transparence pour s'imposer dans ce domaine encore émergent.

💬 7,7x plus rapide sans perte sur les benchmarks, c'est le genre de chiffre qu'on a du mal à ignorer. Ce qui est malin ici, c'est pas d'avoir choisi la diffusion, c'est d'avoir converti un checkpoint existant plutôt que de repartir à zéro, parce que le gain n'existe qu'à l'inférence, pas à l'entraînement. Reste à voir si ça tient en prod.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
2MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité
3Ars Technica AI 

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google a lancé ce printemps sa nouvelle gamme de modèles d'IA ouverts, Gemma 4, conçus pour fonctionner en local sur le matériel des utilisateurs. Quelques semaines seulement après ce lancement, l'entreprise publie des modèles auxiliaires appelés "MTP drafters" (drafters à prédiction multi-token), exploitant une technique connue sous le nom de décodage spéculatif. Le principe : ces modèles légers anticipent les prochains tokens avant que le modèle principal ne les génère, ce qui peut accélérer la vitesse de génération jusqu'à trois fois par rapport à une inférence classique. Gemma 4 repose sur la même architecture de base que Gemini, le modèle frontier de Google, mais est optimisé pour tourner sur une seule machine, y compris sur un GPU grand public avec quantification. L'enjeu est considérable pour quiconque veut utiliser des modèles puissants sans dépendre d'un service cloud. En local, les contraintes matérielles sont sévères : bande passante mémoire limitée, absence de clusters de TPUs comme ceux dont dispose Google en interne. Le décodage spéculatif contourne en partie ces goulots d'étranglement en parallélisant une partie du travail d'inférence. Pour les développeurs et chercheurs qui font tourner des modèles sur leur propre infrastructure, un gain de 3x sur la vitesse de génération représente une différence très concrète en termes de productivité et de coût opérationnel. Google a également profité du lancement de Gemma 4 pour changer de licence : exit la licence Gemma propriétaire des versions précédentes, place à l'Apache 2.0, bien plus permissive et appréciée de l'écosystème open source. Ce choix positionne Gemma 4 comme un concurrent direct de Llama de Meta ou des modèles Mistral, dans une course où la liberté d'usage est devenue un argument de poids. Les MTP drafters sont encore présentés comme expérimentaux, mais ils signalent clairement la direction que prend Google : rendre ses modèles ouverts non seulement plus capables, mais aussi plus rapides à exploiter sur du matériel ordinaire.

UELe passage à la licence Apache 2.0 et le gain de vitesse x3 via le décodage spéculatif rendent Gemma 4 directement exploitable par les développeurs et laboratoires européens souhaitant déployer des modèles puissants en local, sans dépendance cloud.

💬 Le décodage spéculatif, ça fait des années qu'on en parle en labo, mais là Google le rend pratique sur un GPU grand public. Le vrai truc de cette annonce, c'est quand même le passage à Apache 2.0, les anciennes licences Gemma c'était de l'open source du dimanche. Reste à voir si le x3 tient en prod réelle, parce que les benchmarks Google ont une tendance connue à se dégonfler un peu.

LLMsActu
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
4Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic