Aller au contenu principal
Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs
LLMsMarkTechPost18h

Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs

Résumé IASource uniqueImpact UE
Source originale ↗·

Liquid AI a lancé LFM2.5-8B-A1B, un modèle de langage de type Mixture-of-Experts (MoE) conçu pour fonctionner directement sur des appareils grand public. Le modèle embarque 8,3 milliards de paramètres au total, mais n'en active que 1,5 milliard par token généré, ce qui réduit considérablement la charge de calcul à chaque inférence. Son architecture hybride combine 24 couches : 18 blocs de convolution LIV à double porte et 6 couches GQA. La fenêtre de contexte atteint 131 072 tokens, soit quatre fois plus que son prédécesseur LFM2-8B-A1B (32 768 tokens). Le modèle couvre neuf langues dont l'arabe, le chinois et le japonais. Par rapport à la version précédente, le volume de pré-entraînement est passé de 12 000 à 38 000 milliards de tokens, et le vocabulaire a doublé de 65 536 à 128 000 entrées, améliorant la tokenisation des scripts non-latins comme le hindi, le thaï ou l'arabe. LFM2.5-8B-A1B est également un modèle raisonnant : il produit une chaîne de pensée explicite avant chaque réponse. Les gains sur les benchmarks sont substantiels : le taux de non-hallucination AA-Omniscience bondit de 7,46 à 63,47, le score IFEval passe de 79,44 à 91,84, et MATH500 grimpe de 74,80 à 88,76.

Ce modèle ouvre concrètement la voie à des agents IA autonomes capables de tourner sans cloud, directement sur un téléphone, un laptop ou une puce dédiée. Sur un CPU Apple M5 Max, il atteint 253 tokens par seconde en restant sous 6 Go de mémoire ; sur smartphone, le débit tient autour de 30 tokens par seconde. Sur un seul GPU NVIDIA H100, le débit monte à 18 500 tokens par seconde. Pour les développeurs, le modèle est compatible dès le premier jour avec llama.cpp, MLX, vLLM, SGLang et ONNX, ainsi qu'avec la plateforme edge LEAP de Liquid AI. Cette accessibilité technique signifie que des applications d'entreprise ou grand public peuvent intégrer un raisonnement structuré et une exécution d'outils sans dépendre d'une infrastructure cloud coûteuse, ce qui réduit la latence, les coûts et les risques de confidentialité.

Liquid AI est une startup fondée par des chercheurs du MIT, connue pour ses architectures alternatives aux transformers classiques. LFM2.5 s'inscrit dans une série de modèles hybrides pensés pour l'inférence en périphérie du réseau (edge). Pour réduire les hallucinations, l'équipe a introduit deux étapes de reinforcement learning : une pour éliminer les boucles de raisonnement infinies via une pénalisation des mots déclencheurs comme "Wait…", une autre basée sur une récompense avg@k pour entraîner le modèle à s'abstenir plutôt qu'à inventer. Dans un secteur où Gemma de Google ou les modèles Qwen d'Alibaba dominent la course aux petits modèles performants, Liquid AI positionne LFM2.5-8B-A1B comme une alternative architecturalement différente, capable de rivaliser avec des modèles bien plus lourds sur les tâches agentiques et l'instruction following.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
1MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
2MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
3MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)
4MarkTechPost 

AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)

Une équipe de chercheurs chinois a publié AntAngelMed, un modèle de langage médical open-source présenté comme le plus grand et le plus performant de sa catégorie. Avec 103 milliards de paramètres au total, il repose sur une architecture Mixture-of-Experts (MoE) avec un ratio d'activation de 1/32 : seuls 6,1 milliards de paramètres sont effectivement mobilisés lors du traitement d'une requête. Construit à partir de Ling-flash-2.0, un modèle de base développé par inclusionAI, AntAngelMed intègre plusieurs optimisations techniques, notamment un routage sigmoïde sans perte auxiliaire, une couche de prédiction multi-token (MTP) et un positionnement rotatif partiel (Partial-RoPE). Son entraînement se déroule en trois phases : une pré-entraînement continu sur de vastes corpus médicaux (encyclopédies, publications académiques, textes web), un affinage supervisé sur un jeu de données mêlant raisonnement général et scénarios cliniques (dialogues médecin-patient, diagnostics, cas éthiques), puis un renforcement par apprentissage via l'algorithme GRPO (Group Relative Policy Optimization), issu des travaux de DeepSeekMath. Sur GPU H20, le modèle dépasse 200 tokens par seconde, avec un contexte supporté de 128 000 tokens grâce à l'extrapolation YaRN. La performance revendiquée est frappante : avec seulement 6,1 milliards de paramètres activés, AntAngelMed rivalise selon ses créateurs avec des modèles denses d'environ 40 milliards de paramètres, soit un facteur d'efficacité de 7x. Sa vitesse d'inférence est environ 3 fois supérieure à celle d'un modèle dense de 36 milliards de paramètres. Une version quantifiée en FP8 combinée au décodage spéculatif EAGLE3 améliore encore le débit à concurrence de 32 requêtes simultanées : +71% sur le benchmark HumanEval et +45% sur GSM8K. Ces gains sont particulièrement significatifs pour des déploiements médicaux, où la rapidité de réponse et la fiabilité des informations ont un impact direct sur les décisions cliniques, et où le coût de calcul conditionne l'accessibilité des outils dans les systèmes de santé sous-dotés. Le développement d'AntAngelMed s'inscrit dans une dynamique plus large de démocratisation des IA médicales spécialisées. Jusqu'ici, les modèles de santé performants tendaient à être propriétaires ou trop gourmands en ressources pour un déploiement hospitalier étendu. L'architecture MoE, popularisée notamment par Mistral et DeepSeek, permet de contourner cette contrainte en dissociant capacité totale et coût d'inférence. La publication en open-source sur ModelScope ouvre la voie à des adaptations locales dans des contextes aux infrastructures limitées. Le recours au GRPO pour aligner le modèle sur des critères d'empathie, de sécurité et de raisonnement fondé sur les preuves reflète la maturité croissante des approches d'alignement dans le domaine médical, secteur où les hallucinations peuvent avoir des conséquences concrètes et graves.

UELes établissements de santé européens, notamment ceux aux infrastructures limitées, pourraient déployer ce modèle open-source pour des applications cliniques, sous réserve de conformité avec l'AI Act qui classe l'IA médicale en catégorie à haut risque.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour