Aller au contenu principal
LLMsMarkTechPost3h· 2 min de lecture

Liquid AI lance LFM2.5-230M avec support llama.cpp, MLX, vLLM, SGLang et ONNX pour l'inférence sur appareil

Source originale ↗·

Liquid AI a lancé son modèle le plus compact à ce jour, le LFM2.5-230M, un modèle texte de 230 millions de paramètres disponible en open-weight sur Hugging Face. La startup publie deux versions : un modèle de base pour le fine-tuning et une version instruction-tuned prête à l'emploi. Le modèle repose sur l'architecture LFM2, combinant huit blocs de convolution LIV à double porte et six blocs d'attention groupée (GQA), un agencement hybride conçu pour maximiser la vitesse d'inférence sur CPU. Il a été pré-entraîné sur 19 000 milliards de tokens, puis affiné en trois étapes : supervision par distillation depuis le modèle frère LFM2.5-350M, optimisation par préférence directe (DPO), et apprentissage par renforcement multi-domaine. Il tourne à 213 tokens par seconde sur un Samsung Galaxy S25 Ultra et à 42 tokens par seconde sur un Raspberry Pi 5, avec une empreinte mémoire de 293 à 375 Mo en quantification 4-bit. La compatibilité est immédiate avec llama.cpp, MLX, vLLM, SGLang et ONNX.

Ce modèle s'impose sur des tâches précises : le suivi d'instructions et l'extraction de données structurées. Sur le benchmark IFEval, il obtient 71,71 points, devançant nettement le Qwen3.5-0.8B (59,94) et le Gemma 3 1B (63,49), deux modèles pourtant trois à quatre fois plus lourds. Sur CaseReportBench, un test d'extraction clinique, il score 22,51 contre 2,28 pour Gemma 3 1B. Concrètement, cela ouvre la voie à des pipelines de traitement massif, Liquid AI cite l'exemple de 100 000 rapports cliniques parsés localement en champs structurés, sans coût d'API par token. Le modèle a également été déployé sur un robot humanoïde Unitree G1, tournant entièrement sur le module embarqué NVIDIA Jetson Orin, où il traduit des instructions en langage naturel en séquences d'appels d'outils invoquant les primitives du framework SONIC de NVIDIA.

Liquid AI, fondée en 2023 à partir de travaux du MIT sur les réseaux neuronaux à états liquides, s'est positionnée dès le départ sur des architectures alternatives aux transformers classiques. Le LFM2.5-230M s'inscrit dans une stratégie de couverture du spectre complet, des petits modèles embarqués aux grands modèles cloud. La société est transparente sur les limites : ce modèle n'est pas recommandé pour les tâches de raisonnement avancé, la génération de code ou les mathématiques complexes, son score MMLU-Pro de 20,25 reste très en deçà du Qwen3.5-0.8B (37,42). La vraie bataille se joue sur les appareils de périphérie, robots, hubs domotiques, assistants mobiles, où la taille du modèle et la vitesse d'inférence priment sur la polyvalence. Avec la montée des architectures agentiques embarquées, la capacité à faire tourner un modèle capable d'enchaîner des appels d'outils en local, sans latence réseau ni dépendance cloud, devient un avantage concurrentiel réel.

Impact France/UE

Le traitement local de données sensibles (médicales, juridiques) sans appel API cloud représente un atout concret pour la conformité RGPD des entreprises européennes.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
Le LFM2.5-230M de Liquid AI surpasse des modèles 4 fois plus grands en extraction de données et tourne partout
2VentureBeat AI 

Le LFM2.5-230M de Liquid AI surpasse des modèles 4 fois plus grands en extraction de données et tourne partout

Liquid AI, une startup fondée par d'anciens chercheurs du MIT, a lancé le 26 juin 2026 son modèle de langage le plus compact à ce jour : LFM2.5-230M. Avec seulement 230 millions de paramètres, ce modèle de fondation est conçu pour fonctionner directement sur les appareils, smartphones, ordinateurs portables, systèmes robotiques, sans connexion permanente au cloud. Malgré sa taille réduite, il surpasse à la tâche d'extraction de données des modèles jusqu'à quatre fois plus grands, notamment le Qwen3.5-0.8B d'Alibaba (800 millions de paramètres) et le Gemma 3 1B de Google (1 milliard de paramètres). Sur un Samsung Galaxy S25 Ultra équipé d'un Snapdragon Gen4, il atteint 213 tokens par seconde en décodage ; sur un Raspberry Pi 5, il maintient 42 tokens par seconde. Sa fenêtre de contexte de 32 000 tokens lui permet d'ingérer de longs documents ou des flux continus de données de télémétrie robotique. Son empreinte mémoire reste inférieure à 400 Mo. Le modèle est entraîné sur 19 000 milliards de tokens et proposé sous licence duale : gratuit pour les entreprises générant moins de 10 millions de dollars de revenus annuels, payant au-delà. Pour les équipes data et les développeurs d'applications embarquées, l'enjeu est concret. Les entreprises s'appuient encore largement sur des pipelines ETL (Extract, Transform, Load) rigides et basés sur des règles fixes, des systèmes qui se brisent dès qu'un document change de format ou qu'un schéma évolue. LFM2.5-230M ouvre la voie à un « AI ETL » capable d'inférer automatiquement les correspondances de données, de détecter les dérives de schéma et de structurer des sources non structurées, PDF, e-mails, formulaires web, en JSON sans intervention humaine. Ce type de flux agentique léger peut désormais s'exécuter localement, sans dépendance au cloud, ce qui réduit la latence, les coûts d'infrastructure et les risques liés à la confidentialité des données. Cette sortie illustre une fracture croissante dans l'industrie de l'IA. D'un côté, Anthropic, OpenAI, Google, Microsoft et Meta poussent leurs modèles vers des centaines de milliards, voire des milliers de milliards de paramètres pour atteindre les performances dites frontier. De l'autre, une course parallèle s'intensifie autour de l'efficience architecturale pour l'inférence locale. Liquid AI mise sur son architecture LFM2, un système hybride combinant convolutions à courte portée et mécanismes d'attention groupée, qui contourne les coûts quadratiques en mémoire des transformers classiques. Cette approche permet d'obtenir des vitesses d'inférence élevées sur du matériel contraint, là où les transformers purs s'essoufflent. Le positionnement de Liquid AI, efficience plutôt que mise à l'échelle brutale, pourrait séduire un segment d'entreprises que les géants du cloud peinent à servir : celles qui ont besoin d'IA performante sans exposer leurs données ni investir dans une infrastructure coûteuse.

LLMsOpinion
1 source
Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
3MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?
4Le Big Data 

Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?

Liquid AI a lancé le 28 mai 2026 son nouveau modèle LFM2.5-8B-A1B, une intelligence artificielle conçue pour fonctionner directement sur des appareils grand public : smartphones, ordinateurs portables, PC, mais aussi des robots et des serveurs légers. Le modèle repose sur une architecture Mixture-of-Experts (MoE) : il dispose de 8 milliards de paramètres au total, mais n'en active qu'1,5 milliard par requête, ce qui réduit drastiquement les besoins en puissance de calcul. Par rapport à son prédécesseur LFM2-8B-A1B, sorti en 2025, il intègre une fenêtre de contexte élargie de 32 768 à 128 000 tokens, un vocabulaire doublé à 128 000 entrées, et un volume d'entraînement multiplié par trois, passant de 12 à 38 billions de tokens. Il introduit également un raisonnement explicite en chaîne de réflexion avant de produire ses réponses, une première pour cette gamme. Il est compatible nativement avec llama.cpp, MLX, vLLM et SGLang. Cette sortie est significative parce qu'elle cible directement un angle mort de l'IA actuelle : la dépendance au cloud. La quasi-totalité des modèles performants exigent une infrastructure serveur coûteuse, ce qui les rend inaccessibles en usage local ou dans des contextes à faible connectivité. En faisant fonctionner une IA avancée directement sur le matériel de l'utilisateur, Liquid AI ouvre la voie à des applications plus privées, plus réactives et moins onéreuses. L'entreprise revendique les meilleures vitesses de sa catégorie sur CPU comme sur GPU, et des performances comparables à des modèles bien plus lourds sur des benchmarks de suivi d'instructions et de tâches agentiques. Le doublement du vocabulaire améliore aussi concrètement la qualité pour des langues non latines comme l'hindi, le thaï, l'arabe ou l'indonésien, jusqu'ici mal servies par les grands modèles occidentaux. Liquid AI s'inscrit dans un mouvement plus large d'optimisation des modèles dit "edge-first", qui vise à rapprocher l'IA du matériel plutôt que de la centraliser dans des datacenters. Face à des acteurs comme Google avec Gemma, Microsoft avec Phi ou Meta avec Llama, la startup mise sur une architecture hybride originale combinant MoE, GQA et blocs de convolution courte pour se différencier. L'ajout de phases d'apprentissage par renforcement pour réduire les hallucinations et améliorer le raisonnement suit également la tendance imposée par les modèles o1 d'OpenAI et DeepSeek-R1. La suite logique pour Liquid AI sera de démontrer ces performances dans des cas d'usage réels embarqués, là où la vitesse et la frugalité en ressources comptent autant que les scores sur des benchmarks académiques.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic