Aller au contenu principal
Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming
LLMsMarkTechPost13sem· 2 min de lecture

Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming

Source originale ↗·

Z.AI a publié un tutoriel complet présentant les capacités avancées de son modèle GLM-5, conçu pour construire des systèmes agentiques prêts pour la production. Le guide couvre l'intégralité du cycle de développement : configuration via le SDK Z.AI (compatible avec l'interface OpenAI), réponses en streaming, mode de raisonnement approfondi (dit "thinking mode"), conversations multi-tours, appels de fonctions, sorties structurées, et construction d'un agent multi-outils complet. L'installation se fait via pip avec les paquets zai-sdk et openai, et l'authentification repose sur une clé API obtenue gratuitement sur z.ai. Dès les premières lignes de code, GLM-5 répond à des questions techniques — comme expliquer l'architecture Mixture-of-Experts en trois phrases — avec une consommation de tokens détaillée et un contrôle fin via les paramètres temperature et max_tokens.

Ce qui distingue GLM-5 des modèles classiques est son mode de raisonnement enchaîné (chain-of-thought), qui expose le processus interne du modèle avant de fournir une réponse finale. Sur des problèmes logiques ou mathématiques — l'exemple du fermier avec 17 moutons dont "tous sauf 9 s'enfuient" illustre le piège classique de la lecture rapide — le modèle affiche séparément son raisonnement intermédiaire et sa conclusion. Cette transparence est particulièrement précieuse pour les équipes qui déploient des agents autonomes dans des contextes critiques : débogage plus facile, auditabilité améliorée, et meilleure confiance dans les décisions du modèle. Le streaming en temps réel des tokens, géré chunk par chunk, rend l'expérience utilisateur fluide même pour des réponses longues et complexes.

GLM-5 s'inscrit dans la dynamique actuelle d'ouverture des modèles chinois à l'écosystème international. Z.AI, filiale de Zhipu AI — laboratoire issu de l'Université Tsinghua — positionne GLM-5 comme un concurrent direct aux modèles d'OpenAI et Anthropic, avec une compatibilité API volontairement calquée sur le standard OpenAI pour faciliter la migration. La prise en charge native du function calling et des sorties structurées permet d'intégrer GLM-5 dans des pipelines d'automatisation complexes sans couche d'adaptation. Alors que les entreprises cherchent à diversifier leurs dépendances vis-à-vis des fournisseurs américains, ce type de modèle — accessible, documenté, et compatible avec les outils existants — représente une alternative crédible pour les développeurs européens et asiatiques construisant des applications d'IA en production.

Impact France/UE

GLM-5 offre aux développeurs européens une alternative compatible OpenAI pour diversifier leurs dépendances vis-à-vis des fournisseurs américains, accessible gratuitement via une clé API.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils
1MarkTechPost 

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Arcee AI a publié Trinity Large Thinking, un modèle de raisonnement en open-weight distribué sous licence Apache 2.0. Architecturalement, il s'agit d'un modèle Mixture-of-Experts (MoE) sparse totalisant 400 milliards de paramètres, mais qui n'en active que 13 milliards par token grâce à une stratégie de routage 4-sur-256. Cette conception permet d'atteindre la densité de connaissance d'un modèle massif tout en conservant des latences comparables à des architectures bien plus légères. Le modèle a été pré-entraîné sur 17 000 milliards de tokens avec l'optimiseur Muon, plus efficace que l'AdamW standard, et intègre un mécanisme d'attention hybride local/global avec attention gating pour mieux gérer les longs contextes. Il supporte une fenêtre de contexte de 262 144 tokens sur OpenRouter. Sur le benchmark PinchBench, dédié aux agents autonomes, Trinity Large Thinking occupe actuellement la deuxième place, derrière Claude Opus 4.6. Ce lancement est significatif pour les développeurs qui construisent des agents IA autonomes : Trinity Large Thinking est conçu spécifiquement pour les tâches longues et complexes, les appels d'outils multi-tours et le suivi d'instructions précises sur des workflows étendus. Contrairement aux modèles de chat généralistes, il intègre une phase de "réflexion" interne avant chaque réponse, ce qui lui permet de planifier des tâches en plusieurs étapes et de vérifier sa logique avant de générer une sortie. Cette combinaison de raisonnement structuré, de fiabilité multi-tours et de fenêtre de contexte étendue répond directement aux exigences des environnements d'automatisation logicielle, où les erreurs cumulatives sur de longues séquences d'actions sont le principal point de défaillance. L'émergence de ce modèle s'inscrit dans une tendance de fond : le déplacement du centre de gravité de l'IA générative vers des systèmes capables de raisonnement multi-étapes, jusqu'ici dominé par des acteurs propriétaires comme OpenAI avec o3 ou Anthropic avec Claude. Arcee AI, spécialisé dans les LLM d'entreprise et les modèles compacts à haute performance, propose ici une alternative ouverte et auditables pour les organisations qui ne peuvent ou ne souhaitent pas dépendre d'API fermées. Deux innovations techniques internes méritent attention : SMEBU (Soft-clamped Momentum Expert Bias Updates), une stratégie d'équilibrage de charge qui prévient l'effondrement des experts dans les architectures MoE, et l'utilisation du Muon optimizer pour améliorer l'efficacité d'entraînement. La suite logique sera de voir si la communauté open-source s'empare du modèle pour des déploiements auto-hébergés, et si Arcee maintient ce niveau de performance dans des évaluations tierces indépendantes au-delà de PinchBench.

UELa licence Apache 2.0 permet aux organisations européennes de déployer un modèle de raisonnement compétitif en auto-hébergement, réduisant leur dépendance aux API fermées américaines et s'alignant sur les objectifs de souveraineté numérique européenne.

LLMsOpinion
1 source
Construire un workflow stable avec les traces Fable 5 dans Colab : analyse d'appels d'outils, audit et entraînement
2MarkTechPost 

Construire un workflow stable avec les traces Fable 5 dans Colab : analyse d'appels d'outils, audit et entraînement

Le jeu de données "Fable-5-traces", publié par Glint Research sur Hugging Face sous l'identifiant Glint-Research/Fable-5-traces, rassemble des traces réelles d'agents de codage fonctionnant avec le modèle Fable 5. Un tutoriel technique détaille comment construire un pipeline d'analyse complet de ces données dans Google Colab, en contournant délibérément les bibliothèques instables comme datasets, scikit-learn ou scipy. Le workflow s'appuie sur le téléchargement manuel d'un fichier JSONL unique nommé fable5cotmerged.jsonl via huggingfacehub, puis enchaîne l'inspection des fichiers de dépôt, la normalisation des appels d'outils, un audit structurel du dataset, la détection de secrets potentiels via des expressions régulières couvrant des formats comme sk-, hf, AKIA ou githubpat, et la visualisation de distributions clés comme les types de sorties, les outils appelés ou la longueur des textes produits. Ces traces constituent des données d'entraînement précieuses pour affiner des modèles de langage sur des tâches de programmation réelles. Le tutoriel montre comment en extraire des exports "safe no-CoT" au format SFT, directement exploitables pour du fine-tuning supervisé sans exposer les raisonnements intermédiaires de l'agent. Un classificateur Naive Bayes écrit en Python pur, entraîné sur ces traces, sert de baseline quantitative pour tester si le contexte d'une conversation prédit le type de sortie produit et les outils sollicités, avant d'engager des ressources de fine-tuning plus coûteuses. L'attention portée à la détection de secrets intégrés dans les traces répond à un risque documenté : les datasets publics de traces d'agents contiennent parfois des credentials réels capturés par inadvertance lors des sessions d'enregistrement. Fable 5, le dernier modèle d'Anthropic, s'inscrit dans une génération de modèles dont les traces d'utilisation commencent à circuler publiquement, aux côtés de jeux de données comme SWE-bench ou les trajectoires OpenHands. La décision de construire un pipeline autonome sans dépendances lourdes répond aux contraintes concrètes des environnements Colab, où les incompatibilités de versions ont régulièrement brisé des notebooks complexes. En proposant un workflow stable reposant sur Python standard, pandas et matplotlib, ce tutoriel abaisse la barrière d'entrée pour les chercheurs et praticiens qui souhaitent analyser le comportement des agents de codage, repérer des biais dans leurs sorties ou assembler leurs propres jeux de données d'entraînement à partir de traces existantes. La disponibilité croissante de ce type de données soulève aussi des questions sur la gouvernance de leur publication, notamment autour de la confidentialité des sessions capturées et des risques de fuite d'informations sensibles.

💬 Des traces d'agents de codage réels sur HuggingFace, analysables sans dépendances lourdes, c'est le genre de ressource qui fait progresser vite le fine-tuning maison. Mais le vrai signal dans ce tutoriel, c'est la détection de credentials : des clés API et tokens GitHub capturés par inadvertance dans les sessions d'enregistrement, qui finissent publiés dans des datasets publics sans que personne n'ait nettoyé. Les équipes qui diffusent ce genre de traces vont devoir y penser avant de déposer, parce que le problème va s'aggraver à mesure que les données d'agents circulent.

LLMsTuto
1 source
GLM-5.2 : guide pratique de l'API compatible OpenAI, raisonnement, appels de fonctions et récupération longue durée
3MarkTechPost 

GLM-5.2 : guide pratique de l'API compatible OpenAI, raisonnement, appels de fonctions et récupération longue durée

Zhipu AI a mis à disposition une API hébergée pour son modèle GLM-5.2, entièrement compatible avec les clients OpenAI, permettant aux développeurs d'accéder au modèle sans avoir à l'exécuter localement. L'API est disponible via cinq fournisseurs distincts : la plateforme native z.ai, OpenRouter, Together AI, Requesty et HuggingFace, tous accessibles avec la bibliothèque Python openai standard. La tarification s'établit à 1,40 dollar par million de tokens en entrée et 4,40 dollars par million de tokens en sortie. Le modèle propose un contrôle fin du niveau de raisonnement via un paramètre reasoningeffort avec trois niveaux (désactivé, high, max), ainsi qu'un mode "thinking" qui expose la trace de raisonnement interne du modèle avant la réponse finale. Le tutoriel couvre l'ensemble du spectre fonctionnel : chat de base, raisonnement en streaming, appel de fonctions, agent à outils, sortie JSON structurée, récupération longue-contexte et estimation de coût à la volée. La compatibilité OpenAI de GLM-5.2 est sa proposition de valeur centrale : un développeur qui utilise déjà GPT-4o ou Claude via l'API d'Anthropic peut basculer vers GLM-5.2 en changeant uniquement l'URL de base et la clé API, sans réécrire son code. Le contrôle du niveau de raisonnement représente un avantage concret par rapport aux modèles qui imposent un mode de réflexion unique : les tâches simples peuvent être traitées rapidement et à moindre coût avec le mode désactivé, tandis que les problèmes complexes mobilisent la pleine capacité de raisonnement. L'exposition de la trace de pensée (reasoningcontent) dans la réponse est également utile pour le débogage ou pour construire des interfaces qui montrent le raisonnement du modèle à l'utilisateur final. GLM-5.2 s'inscrit dans la vague de modèles chinois à raisonnement avancé qui rivalisent désormais frontalement avec les offres américaines, notamment DeepSeek-R1 et Qwen de Alibaba, sur les benchmarks de raisonnement mathématique et logique. La décision de Zhipu AI de proposer une API compatible OpenAI reflète une stratégie d'adoption agressive : plutôt que de demander aux développeurs d'apprendre une nouvelle interface, le modèle s'intègre dans les outils existants. La disponibilité sur des agrégateurs comme OpenRouter et HuggingFace élargit encore l'accès, particulièrement en dehors de la Chine. À mesure que la concurrence entre fournisseurs de modèles s'intensifie, la compatibilité d'API et la transparence du raisonnement deviennent des critères de sélection aussi importants que les performances brutes sur les benchmarks.

💬 La vraie astuce de Zhipu, c'est pas le modèle lui-même, c'est la stratégie d'adoption. Un dev qui tourne sur GPT-4o ou Claude change deux lignes de code et c'est parti, sans réapprendre quoi que ce soit. On est en train de voir les modèles chinois prendre des parts de marché non pas sur les benchmarks, mais sur le confort de migration, et ça, c'est beaucoup plus redoutable que n'importe quel score MMLU.

LLMsTuto
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
4MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic