
Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10
Zyphra a publié Zamba2-VL, une famille de modèles de vision-langage (VLM) open source déclinée en trois tailles : 1,2 milliard, 2,7 milliards et 7 milliards de paramètres. Ces modèles sont capables d'analyser conjointement des images et du texte, graphiques, documents, photos, pour répondre à des questions ou extraire des informations. Contrairement à la quasi-totalité des VLM ouverts actuels, qui reposent sur un Transformer dense comme moteur de langage, Zamba2-VL intègre une architecture hybride combinant des couches Mamba2 (de type SSM, state-space model) et des blocs Transformer partagés. Le modèle utilise le tokeniseur de Mistral v0.1 et a été entraîné sur 100 milliards de tokens de données visuelles et textuelles issues du web ouvert. Pour l'encodage visuel, Zyphra a retenu le Vision Transformer de Qwen2.5-VL, choisi pour sa gestion native des résolutions dynamiques et ses embeddings positionnels 2D rotatifs.
L'avantage principal de cette architecture se mesure à l'inférence : là où l'attention des Transformers classiques évolue de façon quadratique avec la longueur des séquences, les couches Mamba2 opèrent en temps quasi-linéaire avec un état récurrent de taille fixe. Sur un préfixe de 32 000 tokens, Zamba2-VL affiche un temps avant premier token (TTFT) inférieur d'environ un ordre de grandeur à celui de ses concurrents Transformer, tout en maintenant des scores comparables. C'est un avantage décisif pour des usages embarqués ou en périphérie (edge), où mémoire et latence sont contraintes. Sur 14 benchmarks couvrant la compréhension de documents, le comptage visuel et la perception générale, le modèle 2,7B atteint 90,9 sur DocVQA et 82,5 sur PixMoCount, surpassant largement InternVL3.5-2B (32,8) et Qwen3-VL-2B (55,7) sur ce dernier test. Il reste en revanche en retrait sur les benchmarks de raisonnement intensif comme MMMU (37,7 contre 49,9 pour InternVL3.5-2B) et MathVista.
Cette publication s'inscrit dans une dynamique plus large qui voit les architectures SSM et hybrides progressivement s'imposer comme alternatives sérieuses aux Transformers purs, notamment pour les contraintes d'inférence à bas coût. Zyphra, qui développe la famille Zamba2 depuis plusieurs mois, cible explicitement les gammes 1,2B et 2,7B pour des déploiements sur appareils et en périphérie de réseau, un segment en forte croissance avec la multiplication des assistants locaux et des applications industrielles d'analyse documentaire. Les modèles sont publiés en open source, ce qui devrait accélérer l'adoption et permettre à la communauté d'évaluer indépendamment les compromis entre efficacité d'inférence et performance sur les tâches de raisonnement complexe, domaine où les hybrides SSM-Transformer restent encore challengés par les architectures full-attention à plus grande échelle.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




