Liquid AI lance LFM2.5-230M avec support llama.cpp, MLX, vLLM, SGLang et ONNX pour l'inférence sur appareil
Liquid AI a lancé son modèle le plus compact à ce jour, le LFM2.5-230M, un modèle texte de 230 millions de paramètres disponible en open-weight sur Hugging Face. La startup publie deux versions : un modèle de base pour le fine-tuning et une version instruction-tuned prête à l'emploi. Le modèle repose sur l'architecture LFM2, combinant huit blocs de convolution LIV à double porte et six blocs d'attention groupée (GQA), un agencement hybride conçu pour maximiser la vitesse d'inférence sur CPU. Il a été pré-entraîné sur 19 000 milliards de tokens, puis affiné en trois étapes : supervision par distillation depuis le modèle frère LFM2.5-350M, optimisation par préférence directe (DPO), et apprentissage par renforcement multi-domaine. Il tourne à 213 tokens par seconde sur un Samsung Galaxy S25 Ultra et à 42 tokens par seconde sur un Raspberry Pi 5, avec une empreinte mémoire de 293 à 375 Mo en quantification 4-bit. La compatibilité est immédiate avec llama.cpp, MLX, vLLM, SGLang et ONNX.
Ce modèle s'impose sur des tâches précises : le suivi d'instructions et l'extraction de données structurées. Sur le benchmark IFEval, il obtient 71,71 points, devançant nettement le Qwen3.5-0.8B (59,94) et le Gemma 3 1B (63,49), deux modèles pourtant trois à quatre fois plus lourds. Sur CaseReportBench, un test d'extraction clinique, il score 22,51 contre 2,28 pour Gemma 3 1B. Concrètement, cela ouvre la voie à des pipelines de traitement massif, Liquid AI cite l'exemple de 100 000 rapports cliniques parsés localement en champs structurés, sans coût d'API par token. Le modèle a également été déployé sur un robot humanoïde Unitree G1, tournant entièrement sur le module embarqué NVIDIA Jetson Orin, où il traduit des instructions en langage naturel en séquences d'appels d'outils invoquant les primitives du framework SONIC de NVIDIA.
Liquid AI, fondée en 2023 à partir de travaux du MIT sur les réseaux neuronaux à états liquides, s'est positionnée dès le départ sur des architectures alternatives aux transformers classiques. Le LFM2.5-230M s'inscrit dans une stratégie de couverture du spectre complet, des petits modèles embarqués aux grands modèles cloud. La société est transparente sur les limites : ce modèle n'est pas recommandé pour les tâches de raisonnement avancé, la génération de code ou les mathématiques complexes, son score MMLU-Pro de 20,25 reste très en deçà du Qwen3.5-0.8B (37,42). La vraie bataille se joue sur les appareils de périphérie, robots, hubs domotiques, assistants mobiles, où la taille du modèle et la vitesse d'inférence priment sur la polyvalence. Avec la montée des architectures agentiques embarquées, la capacité à faire tourner un modèle capable d'enchaîner des appels d'outils en local, sans latence réseau ni dépendance cloud, devient un avantage concurrentiel réel.
Le traitement local de données sensibles (médicales, juridiques) sans appel API cloud représente un atout concret pour la conformité RGPD des entreprises européennes.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



