
Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs
Liquid AI a lancé LFM2.5-8B-A1B, un modèle de langage de type Mixture-of-Experts (MoE) conçu pour fonctionner directement sur des appareils grand public. Le modèle embarque 8,3 milliards de paramètres au total, mais n'en active que 1,5 milliard par token généré, ce qui réduit considérablement la charge de calcul à chaque inférence. Son architecture hybride combine 24 couches : 18 blocs de convolution LIV à double porte et 6 couches GQA. La fenêtre de contexte atteint 131 072 tokens, soit quatre fois plus que son prédécesseur LFM2-8B-A1B (32 768 tokens). Le modèle couvre neuf langues dont l'arabe, le chinois et le japonais. Par rapport à la version précédente, le volume de pré-entraînement est passé de 12 000 à 38 000 milliards de tokens, et le vocabulaire a doublé de 65 536 à 128 000 entrées, améliorant la tokenisation des scripts non-latins comme le hindi, le thaï ou l'arabe. LFM2.5-8B-A1B est également un modèle raisonnant : il produit une chaîne de pensée explicite avant chaque réponse. Les gains sur les benchmarks sont substantiels : le taux de non-hallucination AA-Omniscience bondit de 7,46 à 63,47, le score IFEval passe de 79,44 à 91,84, et MATH500 grimpe de 74,80 à 88,76.
Ce modèle ouvre concrètement la voie à des agents IA autonomes capables de tourner sans cloud, directement sur un téléphone, un laptop ou une puce dédiée. Sur un CPU Apple M5 Max, il atteint 253 tokens par seconde en restant sous 6 Go de mémoire ; sur smartphone, le débit tient autour de 30 tokens par seconde. Sur un seul GPU NVIDIA H100, le débit monte à 18 500 tokens par seconde. Pour les développeurs, le modèle est compatible dès le premier jour avec llama.cpp, MLX, vLLM, SGLang et ONNX, ainsi qu'avec la plateforme edge LEAP de Liquid AI. Cette accessibilité technique signifie que des applications d'entreprise ou grand public peuvent intégrer un raisonnement structuré et une exécution d'outils sans dépendre d'une infrastructure cloud coûteuse, ce qui réduit la latence, les coûts et les risques de confidentialité.
Liquid AI est une startup fondée par des chercheurs du MIT, connue pour ses architectures alternatives aux transformers classiques. LFM2.5 s'inscrit dans une série de modèles hybrides pensés pour l'inférence en périphérie du réseau (edge). Pour réduire les hallucinations, l'équipe a introduit deux étapes de reinforcement learning : une pour éliminer les boucles de raisonnement infinies via une pénalisation des mots déclencheurs comme "Wait…", une autre basée sur une récompense avg@k pour entraîner le modèle à s'abstenir plutôt qu'à inventer. Dans un secteur où Gemma de Google ou les modèles Qwen d'Alibaba dominent la course aux petits modèles performants, Liquid AI positionne LFM2.5-8B-A1B comme une alternative architecturalement différente, capable de rivaliser avec des modèles bien plus lourds sur les tâches agentiques et l'instruction following.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


