Aller au contenu principal
Le méta-système de Poetiq construit un cadre universel améliorant tous les LLM sur LiveCodeBench Pro sans affinage
LLMsMarkTechPost6sem· 2 min de lecture

Le méta-système de Poetiq construit un cadre universel améliorant tous les LLM sur LiveCodeBench Pro sans affinage

Source originale ↗·

La startup Poetiq a publié des résultats qui retiennent l'attention dans le domaine de l'IA : son système baptisé Meta-System a atteint un nouveau niveau de performance sur LiveCodeBench Pro, un benchmark compétitif de codage, en construisant et optimisant automatiquement son propre environnement d'inférence. Sans entraîner les modèles sous-jacents ni accéder à leurs paramètres internes, le Meta-System a permis à GPT 5.5 High de passer de 89,6 % à 93,9 % sur ce benchmark. Plus spectaculaire encore : Gemini 3.1 Pro, le modèle sur lequel le système a été optimisé, bondit de 78,6 % à 90,9 %, surpassant ainsi Gemini 3 Deep Think de Google lui-même, crédité de 88,8 % mais non accessible via API pour vérification externe. Il s'agit du troisième benchmark public de Poetiq, et le choix de LiveCodeBench Pro était délibéré.

Ce que Poetiq appelle un « harness » est la couche d'orchestration enveloppant un modèle de langage : elle contrôle comment le modèle est sollicité, comment les sorties sont structurées, comment les réponses sont assemblées sur plusieurs appels, et comment les solutions sont évaluées. Traditionnellement, ces architectures sont construites à la main par des ingénieurs. La proposition de Poetiq est que le Meta-System les construit et les optimise de manière entièrement automatique, par amélioration récursive. En pratique, le système développe de meilleures stratégies de questionnement, affine des chaînes de raisonnement séquentielles, et assemble les réponses de façon adaptive, en intégrant les apprentissages de tâches précédentes. L'impact est immédiat pour l'industrie : si un tel système peut améliorer n'importe quel modèle sans accès privilégié ni réentraînement coûteux, cela repositionne la compétition non plus uniquement sur la qualité intrinsèque des modèles, mais sur la sophistication de l'infrastructure qui les entoure.

LiveCodeBench Pro a été conçu pour résister à deux défauts récurrents des benchmarks : la contamination des données et le surapprentissage. Il puise ses problèmes dans les compétitions de programmation compétitive, valide les solutions via un cadre de tests complet, et impose des contraintes strictes de mémoire et de temps d'exécution, notamment en C++. Le benchmark est aussi mis à jour en continu, ce qui le distingue des évaluations statiques qui finissent par devenir obsolètes. Pour Poetiq, le codage représente la catégorie commerciale la plus répandue de l'IA aujourd'hui, mêlant raisonnement, récupération d'information et génération de logique procédurale complexe. L'entreprise entend démontrer que l'amélioration récursive automatique des harnesses constitue une voie complémentaire au scaling traditionnel des modèles, avec des gains substantiels à la clé pour tous les acteurs souhaitant tirer davantage de valeur des LLM existants.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google constitue une équipe spécialisée pour améliorer ses modèles de code
1The Information AI 

Google constitue une équipe spécialisée pour améliorer ses modèles de code

Google a constitué une équipe spéciale de chercheurs et ingénieurs au sein de DeepMind, dédiée à l'amélioration de ses modèles d'IA pour la génération de code. Cette initiative, révélée par trois sources internes, vise à automatiser davantage le développement logiciel en interne, et à terme, à accélérer la recherche en intelligence artificielle elle-même. L'opération a été lancée en réponse directe aux récentes sorties de modèles d'Anthropic, selon deux des personnes interrogées. L'enjeu est considérable : les chercheurs de Google DeepMind estiment que les outils de codage d'Anthropic surpassent actuellement les capacités de Gemini dans ce domaine. Pour une entreprise dont l'infrastructure logicielle est l'une des plus complexes au monde, perdre du terrain sur la génération de code représente un désavantage compétitif majeur, aussi bien en productivité interne qu'en attractivité commerciale face aux développeurs. Cette mobilisation s'inscrit dans une course effrénée entre les grands laboratoires d'IA autour du codage autonome. Anthropic a fait de Claude un outil de référence pour les développeurs, notamment via des agents capables de modifier des bases de code entières. Google, malgré ses ressources considérables et ses modèles Gemini, se retrouve en position de rattrapage sur ce créneau stratégique. La capacité à automatiser sa propre recherche en IA constitue potentiellement un avantage décisif dans la compétition à long terme.

UELes développeurs et entreprises européens utilisant des outils de génération de code IA pourraient bénéficier à terme d'une amélioration des capacités de Gemini dans ce domaine concurrentiel.

LLMsActu
1 source
Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming
2MarkTechPost 

Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming

Z.AI a publié un tutoriel complet présentant les capacités avancées de son modèle GLM-5, conçu pour construire des systèmes agentiques prêts pour la production. Le guide couvre l'intégralité du cycle de développement : configuration via le SDK Z.AI (compatible avec l'interface OpenAI), réponses en streaming, mode de raisonnement approfondi (dit "thinking mode"), conversations multi-tours, appels de fonctions, sorties structurées, et construction d'un agent multi-outils complet. L'installation se fait via pip avec les paquets zai-sdk et openai, et l'authentification repose sur une clé API obtenue gratuitement sur z.ai. Dès les premières lignes de code, GLM-5 répond à des questions techniques — comme expliquer l'architecture Mixture-of-Experts en trois phrases — avec une consommation de tokens détaillée et un contrôle fin via les paramètres temperature et max_tokens. Ce qui distingue GLM-5 des modèles classiques est son mode de raisonnement enchaîné (chain-of-thought), qui expose le processus interne du modèle avant de fournir une réponse finale. Sur des problèmes logiques ou mathématiques — l'exemple du fermier avec 17 moutons dont "tous sauf 9 s'enfuient" illustre le piège classique de la lecture rapide — le modèle affiche séparément son raisonnement intermédiaire et sa conclusion. Cette transparence est particulièrement précieuse pour les équipes qui déploient des agents autonomes dans des contextes critiques : débogage plus facile, auditabilité améliorée, et meilleure confiance dans les décisions du modèle. Le streaming en temps réel des tokens, géré chunk par chunk, rend l'expérience utilisateur fluide même pour des réponses longues et complexes. GLM-5 s'inscrit dans la dynamique actuelle d'ouverture des modèles chinois à l'écosystème international. Z.AI, filiale de Zhipu AI — laboratoire issu de l'Université Tsinghua — positionne GLM-5 comme un concurrent direct aux modèles d'OpenAI et Anthropic, avec une compatibilité API volontairement calquée sur le standard OpenAI pour faciliter la migration. La prise en charge native du function calling et des sorties structurées permet d'intégrer GLM-5 dans des pipelines d'automatisation complexes sans couche d'adaptation. Alors que les entreprises cherchent à diversifier leurs dépendances vis-à-vis des fournisseurs américains, ce type de modèle — accessible, documenté, et compatible avec les outils existants — représente une alternative crédible pour les développeurs européens et asiatiques construisant des applications d'IA en production.

UEGLM-5 offre aux développeurs européens une alternative compatible OpenAI pour diversifier leurs dépendances vis-à-vis des fournisseurs américains, accessible gratuitement via une clé API.

LLMsTuto
1 source
Affinage par renforcement avec un LLM comme évaluateur
3AWS ML Blog 

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper
1 source
GLM-5.2 à poids ouverts de Z.ai surpasse GPT-5.5 sur plusieurs benchmarks de codage long terme, pour un sixième du coût
4VentureBeat AI 

GLM-5.2 à poids ouverts de Z.ai surpasse GPT-5.5 sur plusieurs benchmarks de codage long terme, pour un sixième du coût

La startup chinoise Z.ai (anciennement Zhipu AI) a annoncé le 17 juin 2026 la disponibilité immédiate de GLM-5.2, un modèle de langage open-weights de 753 milliards de paramètres conçu spécifiquement pour les tâches de développement logiciel autonomes et de longue durée. Le modèle est accessible dès maintenant sur Hugging Face, via l'API Z.ai et dans plus de 20 environnements de développement tiers. Il dispose d'une fenêtre de contexte stable d'un million de tokens et des abonnements entreprise démarrent à 12,60 dollars par mois. Ses poids sont publiés sous licence MIT sans restriction, permettant à quiconque de le télécharger, de le personnaliser et de le déployer localement. Sur les benchmarks industriels, GLM-5.2 surpasse GPT-5.5 d'OpenAI sur plusieurs épreuves clés : SWE-bench Pro (62,1 contre 58,6), FrontierSWE (74,4 % contre 72,6 %), MCP-Atlas (77,0 contre 75,3) et PostTrainBench (34,3 % contre 25,0 %). Il talonne Claude Opus 4.8 d'Anthropic sur la quasi-totalité de ces tests. La sortie de GLM-5.2 arrive à un moment stratégiquement décisif pour les entreprises qui dépendent de modèles d'IA de pointe. La semaine précédente, l'administration Trump a publié une directive de contrôle des exportations interdisant aux ressortissants étrangers d'utiliser Claude Fable 5 d'Anthropic, ce qui a conduit Anthropic à retirer ce modèle de l'accès global pour tous les utilisateurs. Pour les responsables techniques en dehors des États-Unis, GLM-5.2 offre une alternative concrète : un modèle de niveau frontier hébergeable en interne, hors de portée des restrictions géographiques et des aléas réglementaires américains. Son coût d'exploitation réduit à un sixième de celui des modèles propriétaires équivalents renforce encore son attrait pour les organisations soucieuses de maîtriser leur infrastructure IA. Sur le plan architectural, GLM-5.2 introduit une optimisation appelée IndexShare, qui réutilise un même indexeur pour quatre couches d'attention sparse consécutives, réduisant de 2,9 fois le nombre de FLOPs par token à longueur de contexte maximale. Le modèle intègre également une couche Multi-Token Prediction améliorée, qui accroît de 20 % la longueur des tokens acceptés lors de l'inférence, ainsi que des modes de raisonnement sélectionnables, "Max" pour la puissance maximale, "High" pour un équilibre performance-latence. Z.ai s'inscrit ainsi dans une tendance de fond portée par des acteurs chinois comme DeepSeek, qui misent sur l'open-source et l'efficacité architecturale pour rivaliser avec les laboratoires occidentaux disposant de budgets bien supérieurs. Avec GLM-5.2, la compétition pour le leadership en IA agentic se déplace clairement au-delà des frontières américaines.

UELes entreprises et développeurs français et européens disposent désormais d'une alternative frontier auto-hébergeable sous licence MIT, hors de portée des restrictions d'exportation américaines qui ont récemment limité l'accès aux modèles de pointe d'Anthropic.

💬 Le moment est trop bien choisi pour être un hasard. Z.ai sort un 753 milliards de paramètres open-weights qui passe devant GPT-5.5 sur le code, MIT, hébergeable où tu veux, pile une semaine après qu'Anthropic a dû couper Fable 5 globalement sur pression de Washington. Pour les boîtes européennes qui cherchaient une sortie de la dépendance cloud américaine, bon, la voilà.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic