Dossier Qwen3 — page 3

296 articles · page 3 sur 6

Qwen3, la famille de modèles de langage d'Alibaba : versions, performances, disponibilité open source et cas d'usage suivis au fil de l'actualité IA.

101MarkTechPost OutilsOutil

Gigatoken : un tokeniseur BPE en Rust qui encode le texte à 24,53 Go/s, jusqu'à 989 fois plus vite que HuggingFace Tokenizers

Marcel Rød, doctorant à Stanford, a publié Gigatoken, un tokenizer BPE (byte-pair encoding) écrit en Rust sous licence MIT, capable d'encoder du texte à 24,53 Go/s sur une seule machine. Le benchmark de référence, réalisé avec le tokenizer GPT-2 sur le corpus owt_train.txt de 11,9 Go et une machine bi-socket AMD EPYC 9565 à 144 cœurs, place Gigatoken loin devant ses concurrents : tiktoken d'OpenAI atteint 36,0 Mo/s et HuggingFace Tokenizers 24,8 Mo/s sur le même matériel, soit des écarts de 681 fois et 989 fois. Sur un Apple M4 Max à 16 cœurs, Gigatoken traite le même corpus à 8,79 Go/s (1268 fois plus vite que HuggingFace, 140 fois plus vite que tiktoken), et sur un AMD Ryzen 7 9800X3D grand public, 6,27 Go/s, soit 106 et 68 fois plus rapide. La bibliothèque, disponible sur PyPI en version 0.9.0 depuis le 21 juillet 2026 via pip install gigatoken, couvre 23 familles de tokenizers dont GPT-2, GPT-OSS, Llama 3 à 4, Qwen 2 à 3.6, DeepSeek V3/R1/V4, GLM 4 et 5, Kimi K2, Nemotron 3, Phi-4, OLMo 2/3, ModernBERT, Gemma et Mistral. Cette performance change la donne pour un maillon de la chaîne d'entraînement des modèles de langage rarement optimisé, alors même qu'il conditionne la vitesse de préparation des jeux de données massifs utilisés pour l'entraînement des LLM. Un tokenizer 989 fois plus rapide réduit drastiquement le temps et le coût de calcul nécessaires pour préparer des corpus de plusieurs téraoctets, une étape jusqu'ici considérée comme un goulot d'étranglement secondaire face à l'entraînement lui-même. Gigatoken propose deux modes d'utilisation : un mode de compatibilité qui encapsule un tokenizer HuggingFace ou tiktoken existant en préservant une parité exacte des résultats, mais avec un gain plus modeste de 200 à 300 fois selon Marcel Rød en raison du surcoût lié à Python, et une API native en Rust qui lit directement les fichiers et produit les chiffres records annoncés. Les gains ne proviennent pas d'une amélioration de la boucle de fusion BPE elle-même, mais de deux optimisations généralement négligées. La première concerne la prétokenisation : la plupart des implémentations délèguent cette étape à un moteur d'expressions régulières, quand Gigatoken utilise une machine à états écrite à la main. Le journal d'optimisation du projet détaille une progression méthodique, d'une base en fancy-regex à environ 47 Mio/s jusqu'à 1049 Mio/s en mono-thread, en passant par une table de correspondance de 256 octets pour un dispatch en temps constant, la technique SWAR (SIMD Within A Register) traitant huit octets à la fois sans intrinsèques spécifiques à une architecture, puis une exploitation du parallélisme d'instructions via deux curseurs indépendants qui exploite les ports d'exécution inactifs du processeur. Au total, cette seule optimisation de la prétokenisation représente un gain de 22,3 fois par rapport à l'implémentation par expressions régulières. La seconde optimisation repose sur la mise en cache des pré-tokens déjà rencontrés, une technique que Marcel Rød décrit comme délicate à implémenter en pratique en raison de la croissance rapide du cache et de la distribution à longue traîne des mots, le tout combiné à une minimisation des interactions entre Python et les threads.

Dossier Qwen3 — page 3

Gigatoken : un tokeniseur BPE en Rust qui encode le texte à 24,53 Go/s, jusqu'à 989 fois plus vite que HuggingFace Tokenizers

NVIDIA lance Cosmos 3 Edge, un modèle de monde ouvert à 4 milliards de paramètres capable de raisonner et de générer des actions robotiques en local

IA : Avec un modèle moins coûteux et « résistant à la censure », Mira Murati rivalise avec les modèles chinois

Le consortium Soofi publie Soofi S 30B-A3B, un modèle hybride Mamba-Transformer MoE ouvert pour l'allemand et l'anglais

Le compagnon IA de Superapp franchit un nouveau million d'utilisateurs

Robbyant lance LingBot-VLA 2.0, un modèle VLA open source de 6 milliards de paramètres pour la manipulation robotique multi-morphologies

La Chine encadre les IA compagnons : ce que Pékin vise réellement

Anthropic relance Claude Fable 5 avec des garde-fous de sécurité renforcés

Meta dévoile Brain2Qwerty v2 : décoder des phrases entières depuis les signaux cérébraux, sans implant

Liquid AI lance LFM2.5-230M avec support llama.cpp, MLX, vLLM, SGLang et ONNX pour l'inférence sur appareil

Utiliser des agents de code en local

Données d'affinage supervisé avec NVIDIA Open-SWE-Traces : trajectoires, patches, budgets de tokens et métriques d'outils

DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement

DFlash accélère le décodage spéculatif par blocs de tokens en parallèle, jusqu'à 15x plus de débit sur NVIDIA Blackwell

NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial

Liquid AI lance LFM2.5-Embedding-350M et LFM2.5-ColBERT-350M pour la recherche multilingue en 11 langues

Paralléliser le décodage spéculatif avec P-EAGLE sur Amazon SageMaker AI

Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage

Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs

Nouvelles licornes à 10 milliards dans l'infra IA : Fireworks, Baseten (et OpenRouter en chemin)

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

Nous Research publie CNA : pilotage de circuits MLP épars sans entraînement SAE ni modification des poids

Amazon SageMaker AI prend en charge l'API compatible OpenAI

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

FlashQLA : Alibaba dévoile une arme secrète qui accélère l’IA jusqu’à 3 fois

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0

Conduire ou choisir son resto ? Alibaba ne veut plus que vous choisissiez

Optimisation élégante des tokens

Les « exportations de tokens » peuvent-elles donner un avantage à la Chine dans l'ère de l'IA ?

Import AI 454 : automatiser la recherche sur l'alignement, étude de sécurité d'un modèle chinois, HiFloat4

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

On a testé le MacBook Pro M5 Pro avec 48 Go de RAM : la config parfaite pour de l’IA locale ?

MIT, NVIDIA et Zhejiang University proposent TriAttention, une compression du cache KV à débit 2,5 fois supérieur

AI Engineer Europe 2026

L'IA transforme les décisions de production des petits vendeurs en ligne

Les prix des H100 s'envolent

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Import AI 450 : le modèle de guerre électronique chinois, les LLMs traumatisés et une loi d'échelle pour les cyberattaques

NVIDIA publie Nemotron-Cascade 2 : un MoE open source de 30 milliards de paramètres avec 3 milliards actifs, offrant un meilleur raisonnement et de solides capacités agentiques

Import AI 449 : des LLMs entraînent d'autres LLMs ; entraînement distribué 72B ; la vision par ordinateur est plus difficile que le texte génératif

Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)