Aller au contenu principal
Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles
LLMsThe Decoder6sem· 1 min de lecture

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Source originale ↗·

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI.

Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs.

Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GLM-5.2 de Zhipu AI rivalise avec les meilleurs modeles propriétaires sur les benchmarks de codage
1The Decoder 

GLM-5.2 de Zhipu AI rivalise avec les meilleurs modeles propriétaires sur les benchmarks de codage

Le laboratoire chinois Zhipu AI a publié GLM-5.2, un nouveau modèle de langage open source distribué sous licence MIT. Le modèle supporte une fenêtre de contexte stable d'un million de tokens, ce qui lui permet de traiter des projets logiciels entiers en une seule session. Sur le benchmark FrontierSWE, conçu pour évaluer les performances sur des tâches de programmation longues de plusieurs heures, GLM-5.2 n'affiche qu'un point de pourcentage de retard sur Claude Opus 4.8 d'Anthropic, l'un des modèles fermés les plus performants du moment dans cette catégorie. C'est un résultat significatif pour l'écosystème open source : un modèle librement accessible et modifiable parvient à rivaliser avec les systèmes propriétaires sur des tâches de développement logiciel complexes et de longue durée. Pour les entreprises et développeurs indépendants, cela signifie un accès à des capacités de codage avancées sans dépendance à des API payantes ni contraintes de confidentialité des données. Le fait que GLM-5.2 soit sous licence MIT le rend également librement utilisable dans des produits commerciaux. Les limites restent réelles : en raisonnement général, GLM-5.2 accuse encore un retard notable face aux modèles fermés comme GPT-4o ou Claude Opus. Zhipu AI s'inscrit dans une vague de laboratoires chinois, aux côtés de DeepSeek, Qwen ou Baichuan, qui rattrapent progressivement les leaders occidentaux sur des domaines ciblés. L'enjeu est désormais de savoir si cette convergence sur le code va s'étendre aux capacités cognitives plus larges, et à quel rythme.

UELes entreprises et développeurs européens peuvent accéder à des capacités de codage avancées sans dépendance à des API payantes ni contraintes de confidentialité des données, grâce à la licence MIT de GLM-5.2.

LLMsOpinion
1 source
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
2MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
3Latent Space 

[AINews] Classement des meilleurs modèles locaux - avril 2026

En avril 2026, la communauté des modèles d'IA locaux a établi un nouveau consensus sur les meilleurs modèles disponibles, après une veille régulière des forums Reddit comme r/localLlama et r/localLLM. Le classement ne repose pas sur les benchmarks théoriques mais sur ce que les utilisateurs recommandent concrètement au quotidien. Qwen 3.5 s'impose comme la famille la plus recommandée toutes catégories confondues, tandis que Gemma 4 de Google gagne rapidement en popularité pour les déploiements locaux de petite et moyenne taille. GLM-5 et GLM-4.7 figurent désormais dans les discussions sur les "meilleurs modèles open-source", aux côtés de MiniMax M2.5 et M2.7, particulièrement cités pour les tâches agentiques et les workflows à forte utilisation d'outils. DeepSeek V3.2 reste solidement dans le peloton de tête des modèles open-weight généralistes, et GPT-oss 20B émerge comme option pratique pour un usage local, notamment pour ses variantes non censurées. Pour le code, le verdict est sans appel : Qwen3-Coder-Next domine largement. Ce palmarès reflète un basculement significatif dans la manière dont les développeurs et les passionnés consomment l'IA : plutôt que de dépendre de services cloud payants, ils privilégient des modèles qu'ils peuvent faire tourner sur leur propre matériel. Cette dynamique démocratise l'accès à des capacités avancées tout en préservant la confidentialité des données. La performance de Qwen 3.5 sur un large spectre d'usages indique que les modèles de taille intermédiaire ont atteint un niveau de maturité suffisant pour remplacer des API commerciales dans de nombreux contextes professionnels. Ce relevé s'inscrit dans une accélération générale de l'écosystème open-weight depuis fin 2024, portée par des acteurs comme Alibaba (Qwen), Google (Gemma), Zhipu AI (GLM) et DeepSeek. La compétition s'est déplacée des grands laboratoires fermés vers un terrain où les sorties se succèdent à un rythme soutenu et où la communauté joue un rôle d'arbitre. La prochaine génération de modèles locaux, notamment Qwen3-Coder-Next pour le développement logiciel, laisse entrevoir des capacités agentiques croissantes qui pourraient transformer les workflows d'ingénierie sans nécessiter de connexion à des services externes.

UEL'adoption croissante de modèles open-weight locaux offre aux développeurs et entreprises européens une alternative concrète aux API cloud américaines, réduisant l'exposition aux risques de dépendance et renforçant la souveraineté des données.

LLMsActu
1 source
Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures
4The Decoder 

Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures

Xiaomi a publié MiMo-V2.5-Pro, un modèle open-weight orienté vers le codage autonome qui rivalise avec Claude Opus 4.6 d'Anthropic sur les principaux benchmarks de programmation. Selon le fabricant chinois, le modèle consomme entre 40 et 60 % de tokens en moins que son concurrent d'Anthropic pour des performances comparables, ce qui représente une économie substantielle à l'échelle. Le modèle est conçu pour fonctionner de façon autonome sur des tâches longues, pouvant s'étendre sur plusieurs heures sans intervention humaine. Cet écart d'efficacité change la donne pour les entreprises qui souhaitent intégrer des agents de codage dans leurs flux de travail. Moins de tokens signifient des coûts d'inférence réduits et des sessions plus longues sans interruption, deux contraintes qui freinent encore l'adoption des agents autonomes en production. Pour les équipes d'ingénierie, c'est un argument concret : un modèle open-weight aussi capable mais nettement moins gourmand rend l'automatisation du code accessible à davantage d'organisations. MiMo-V2.5-Pro s'inscrit dans une dynamique plus large qui oppose les fournisseurs chinois de modèles open-weight aux acteurs américains. Deepseek avait ouvert la voie en début d'année en démontrant qu'un entraînement efficace pouvait produire des résultats proches de ceux d'OpenAI à une fraction du coût. Xiaomi poursuit cette logique en déplaçant le terrain de compétition : il ne s'agit plus seulement de scores sur les benchmarks, mais de savoir quel modèle peut exécuter le plus longtemps et le plus économiquement une tâche complexe en conditions réelles.

UELes équipes d'ingénierie européennes peuvent adopter ce modèle open-weight pour réduire leurs coûts d'inférence de 40 à 60 % sur les agents de codage autonomes, sans dépendre d'un fournisseur américain.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic