Aller au contenu principal
Zyphra publie ZAYA1-8B-Diffusion-Preview : le premier modèle de diffusion MoE converti à partir d'un LLM autorégressif, avec une accélération jusqu'à 7,7x
LLMsMarkTechPost6sem· 2 min de lecture

Zyphra publie ZAYA1-8B-Diffusion-Preview : le premier modèle de diffusion MoE converti à partir d'un LLM autorégressif, avec une accélération jusqu'à 7,7x

Source originale ↗·

Le laboratoire d'IA californien Zyphra a publié ZAYA1-8B-Diffusion-Preview, un modèle de langage à diffusion issu de la conversion de son modèle autorégressif ZAYA1-8B-base existant. La conversion a nécessité 600 milliards de tokens d'entraînement intermédiaire à une longueur de contexte de 32 000 tokens, suivis de 500 milliards de tokens pour étendre nativement ce contexte à 128 000, puis une phase de fine-tuning supervisé en mode diffusion. Le résultat est le premier modèle à diffusion de type MoE (Mixture of Experts) converti à partir d'un LLM autorégressif, et le premier modèle de ce type entraîné sur des GPU AMD. Les gains de vitesse atteignent jusqu'à 7,7x par rapport au décodage autorégressif classique, sans dégradation notable des performances sur les benchmarks standards, avec même des améliorations sur certains, comme LCB-v6.

L'enjeu technique est de taille. Les modèles de langage classiques génèrent les tokens un par un, ce qui oblige le GPU à charger depuis la mémoire le cache KV (les représentations de tous les tokens précédents) à chaque étape. Ce mécanisme rend le système limité par la bande passante mémoire plutôt que par la puissance de calcul, un goulot d'étranglement croissant alors que les GPU modernes voient leur capacité de calcul progresser bien plus vite que leur bande passante mémoire. Le modèle à diffusion contourne ce problème en générant 16 tokens simultanément dans un même bloc, tous partageant le même cache KV. L'opération devient alors dominée par le calcul plutôt que par les transferts mémoire, ce qui permet d'exploiter le matériel beaucoup plus efficacement. Un mécanisme inspiré du décodage spéculatif sélectionne ensuite les tokens acceptés, avec l'avantage que le même modèle joue à la fois le rôle de spéculateur et de vérificateur, éliminant le coût d'exécution de deux modèles distincts comme dans des approches concurrentes telles qu'EAGLE.

La stratégie de Zyphra tranche avec les approches habituelles : plutôt que d'entraîner un modèle à diffusion de zéro, l'entreprise a converti un checkpoint existant, une décision motivée par deux raisons pratiques. L'entraînement from scratch en mode diffusion est techniquement difficile, avec peu de recettes établies. Surtout, la diffusion n'apporte aucun avantage à l'entraînement, la contrainte de bande passante mémoire n'existe qu'à l'inférence, ce qui permet de réutiliser entièrement les pipelines de préentraînement existants. Ce modèle s'inscrit dans une compétition plus large autour de l'efficacité à l'inférence, où plusieurs acteurs, dont Inception Labs et Mercury, explorent les modèles à diffusion comme alternative aux architectures autoregressives dominantes. La publication de ZAYA1-8B-Diffusion-Preview en accès ouvert sur Hugging Face, accompagnée d'une documentation technique détaillée, signale que Zyphra mise sur la transparence pour s'imposer dans ce domaine encore émergent.

💬 L'analyse de Mathieu

7,7x plus rapide sans perte sur les benchmarks, c'est le genre de chiffre qu'on a du mal à ignorer. Ce qui est malin ici, c'est pas d'avoir choisi la diffusion, c'est d'avoir converti un checkpoint existant plutôt que de repartir à zéro, parce que le gain n'existe qu'à l'inférence, pas à l'entraînement. Reste à voir si ça tient en prod.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte
1MarkTechPost 

Google AI lance DiffusionGemma, un modèle MoE ouvert à 26B paramètres, jusqu'à 4 fois plus rapide par diffusion de texte

Google a publié DiffusionGemma, un modèle expérimental open source de 26 milliards de paramètres en architecture Mixture of Experts (MoE), sous licence Apache 2.0. Contrairement aux modèles de langage classiques qui génèrent les tokens un par un de gauche à droite, DiffusionGemma produit des blocs entiers de texte en parallèle, ce qui lui permet d'atteindre jusqu'à quatre fois la vitesse de génération des modèles autorégressifs traditionnels. Sur un GPU NVIDIA H100, il dépasse les 1 000 tokens par seconde ; sur un RTX 5090, il atteint plus de 700 tokens par seconde. Lors de l'inférence, seuls 3,8 milliards de paramètres sont activés. Le modèle, construit sur la base Gemma 4 26B-A4B, est multimodal : il traite du texte, des images et de la vidéo en entrée, dispose d'une fenêtre de contexte de 256 000 tokens, supporte plus de 140 langues et tient dans 18 Go de VRAM une fois quantifié, le rendant compatible avec les GPU grand public haut de gamme. L'intérêt principal de DiffusionGemma réside dans ses cas d'usage à contrainte de latence forte : édition de texte en ligne, itération rapide, génération de structures non linéaires. En déplaçant le goulot d'étranglement de la bande passante mémoire vers le calcul pur, le modèle exploite mieux les cœurs tensoriels inactifs des GPU locaux. Google cible explicitement les développeurs et chercheurs qui travaillent sur des workflows interactifs en local, où la vitesse prime sur la qualité absolue. L'entreprise est toutefois transparente sur le compromis : DiffusionGemma génère plus vite, mais sa qualité de sortie reste inférieure à celle de Gemma 4 autorégressif standard. Pour les productions critiques nécessitant une qualité maximale, Google recommande toujours ses modèles classiques. Le mécanisme au cœur de DiffusionGemma s'appelle Uniform State Diffusion, inspiré des générateurs d'images IA qui partent d'un bruit visuel pour le raffiner progressivement. Appliqué au texte, le modèle démarre avec un canvas de 256 tokens aléatoires, effectue plusieurs passes en attention bidirectionnelle, verrouille les tokens à haute confiance et les utilise comme contexte pour résoudre les positions adjacentes, jusqu'à ce que le texte converge. Cette attention bidirectionnelle, où chaque token peut en observer un autre dans n'importe quelle direction, tranche radicalement avec les modèles autorégressifs contraints à ne regarder qu'en arrière. Elle permet en outre une auto-correction en temps réel : si la confiance d'un token chute, le modèle peut le re-bruiter et le remplacer lors d'une passe suivante. Pour les sorties longues, Google a développé la Block Autoregressive Diffusion : une fois un bloc de 256 tokens finalisé, il est validé dans le cache KV et un nouveau canvas démarre, conditonné sur l'historique précédent. Cette approche hybride combine la vitesse du traitement parallèle et la stabilité séquentielle des architectures classiques.

UELes développeurs et chercheurs européens bénéficient d'un modèle open source sous licence Apache 2.0 utilisable sur GPU grand public, offrant une alternative locale à faible latence sans dépendance à des services cloud externes.

LLMsOpinion
1 source
DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte
2Le Big Data 

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion
1 source
Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille
3MarkTechPost 

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille

Zyphra AI a publié ZAYA1-8B, un petit modèle de langage de type Mixture of Experts (MoE) comptant 760 millions de paramètres actifs pour 8,4 milliards de paramètres au total. Entraîné intégralement sur des processeurs AMD, un cluster de 1 024 cartes AMD Instinct MI300x interconnectées via AMD Pensando Pollara, construit en partenariat avec IBM, le modèle est désormais disponible sous licence Apache 2.0 sur Hugging Face et en endpoint serverless sur Zyphra Cloud. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives avec des modèles bien plus grands sur les benchmarks de mathématiques et de code : il surpasse Claude 4.5 Sonnet et GPT-5-High sur le HMMT'25, une compétition de mathématiques avancées (89,6 points contre 88,3), et se rapproche des meilleurs modèles open-weight comme DeepSeek-V3.2. Cette efficacité repose sur une méthode inédite de calcul à l'inférence baptisée Markovian RSA, ainsi que sur une architecture MoE++ combinant trois innovations techniques : une attention convolutive compressée réduisant le KV-cache d'un facteur 8, un routeur basé sur un réseau de neurones MLP avec équilibrage de charge par contrôleur PID, et un mécanisme de mise à l'échelle résiduelle apprise pour stabiliser l'entraînement en profondeur. La distinction entre paramètres actifs et paramètres totaux est au coeur de l'intérêt du modèle. Dans un modèle classique, tous les paramètres s'activent à chaque token traité ; dans un MoE, seule une fraction des experts est sollicitée à chaque inférence. Avec seulement 760 millions de paramètres actifs par passe, ZAYA1-8B peut tourner en local sur des appareils grand public, s'intégrer dans des pipelines à calcul augmenté et servir des requêtes avec une latence réduite, tout en maintenant des performances proches de modèles dix fois plus grands. Pour les développeurs et entreprises qui cherchent à déployer des capacités de raisonnement avancées sans infrastructure lourde, ce rapport coût-performance représente une avancée concrète. ZAYA1-8B s'inscrit dans une tendance de fond qui voit plusieurs laboratoires challenger, DeepSeek en tête depuis début 2025, démontrer que l'architecture et la méthode d'entraînement comptent autant que la taille brute des modèles. Zyphra, encore peu connu du grand public, affirme avoir bâti un pipeline d'entraînement en cinq étapes post-préentraînement, intégrant notamment un échauffement au raisonnement, du reinforcement learning en cascade, et des étapes spécifiques de calcul augmenté à l'inférence. L'entraînement entièrement réalisé sur AMD est également un signal politique : dans un secteur dominé par Nvidia, valider une chaîne de production complète sur hardware concurrent ouvre la voie à une diversification des infrastructures IA. Les prochains modèles de Zyphra, selon ses propres communications, viseront des tailles supérieures avec la même philosophie d'efficacité par paramètre.

LLMsOpinion
1 source
Moonshot AI publie Kimi K2.7-Code : un modèle de code avec +21,8 % sur Kimi Code Bench v2 par rapport à K2.6
4MarkTechPost 

Moonshot AI publie Kimi K2.7-Code : un modèle de code avec +21,8 % sur Kimi Code Bench v2 par rapport à K2.6

Moonshot AI a publié cette semaine Kimi K2.7-Code, un nouveau modèle d'intelligence artificielle spécialisé dans la programmation et conçu pour des tâches d'ingénierie logicielle longues et complexes. Disponible sur Hugging Face sous licence MIT modifiée et accessible via l'API Kimi, le modèle repose sur une architecture Mixture-of-Experts avec 1 000 milliards de paramètres au total, dont 32 milliards activés par token. Il intègre 384 experts, une fenêtre de contexte de 256 000 tokens, et un encodeur visuel MoonViT de 400 millions de paramètres permettant de traiter texte, images et vidéos dans un même prompt. Le modèle pèse environ 595 Go sur disque, une cible clairement réservée aux serveurs, déployable via vLLM, SGLang ou KTransformers. Sur le Kimi Code Bench v2, il progresse de 50,9 à 62,0, soit une hausse de 21,8 % par rapport à son prédécesseur K2.6. Il surpasse également Claude Opus 4.8 sur le benchmark MCP Mark Verified (81,1 contre 76,4) et se rapproche de GPT-5.5 sur MLS Bench Lite. Ce qui distingue K2.7-Code des modèles de génération de code classiques, c'est sa capacité à enchaîner de nombreuses étapes autonomes : lire des fichiers, modifier du code sur plusieurs modules, exécuter des outils, puis vérifier les résultats jusqu'à correction. Moonshot revendique également une réduction d'environ 30 % de la consommation de tokens de raisonnement par rapport à K2.6, un gain qui se répercute directement sur les coûts dans les workflows agentiques où chaque étape de planification, de retry et de vérification est facturée comme des tokens de sortie. Pour les équipes qui utilisent ce type de modèle sur des centaines ou milliers de cycles, cet effet est significatif : coût unitaire plus bas, étapes plus rapides, et davantage de marge avant d'atteindre les limites de contexte. Le modèle est également intégré à Kimi Code, une plateforme de codage par abonnement. Kimi K2.7-Code s'inscrit dans une course intense entre laboratoires asiatiques et américains sur les modèles de codage agentique. Moonshot AI, startup chinoise fondée en 2023 et déjà connue pour ses modèles Kimi à très longue fenêtre de contexte, accélère sur ce segment en ciblant explicitement des cas d'usage professionnels : refactorisation à l'échelle d'un dépôt entier, revue de code sur de grandes pull requests, intégration CI/CD via le protocole MCP, et analyse combinée de logs, captures d'écran et code source. La contrainte du mode de raisonnement obligatoire, le désactiver provoque une erreur API, trahit une philosophie assumée : le modèle est pensé pour l'autonomie, pas pour la réponse instantanée. Face à GPT-5.5 et Claude Opus 4.8, K2.7-Code comble une partie de l'écart mais ne les dépasse pas sur la majorité des benchmarks, laissant ouverte la question de sa position réelle dans des conditions de production indépendantes.

💬 La réduction de 30 % des tokens de raisonnement, c'est le vrai chiffre à retenir ici, pas les benchmarks maison. Pour des workflows agentiques à l'échelle, ça change le calcul économique plus que n'importe quelle courbe de performance. 595 Go sur disque et le mode raisonnement non désactivable, ce sont deux signaux clairs : Moonshot construit pour les serveurs, pas pour les makers.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic