DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement
DeepReinforce a publié Ornith-1.0, une famille de modèles open source conçue pour les agents de programmation autonomes. La gamme comprend quatre variantes : 9B dense, 31B dense, 35B en architecture mixture-of-experts (MoE), et un modèle flagship à 397B de paramètres, dont le 35B n'active qu'environ 3 milliards de paramètres par token en pratique. Tous les checkpoints sont publiés sous licence MIT sur Hugging Face et s'appuient sur un post-entraînement des modèles Gemma 4 de Google et Qwen 3.5 d'Alibaba. Le modèle 9B pèse environ 19 Go en bf16 et tourne sur un seul GPU de 80 Go, tandis que des versions FP8 et GGUF sont disponibles pour un déploiement local plus rapide. Les modèles exposent une interface compatible OpenAI, ce qui les rend compatibles sans modification avec les frameworks d'agents existants comme vLLM ou SGLang.
Ce qui distingue Ornith-1.0 des autres modèles de codage, c'est son architecture d'apprentissage : au lieu d'être couplés à un harnais fixe et conçu à la main par des ingénieurs, ces modèles apprennent à écrire leur propre scaffold pendant la phase d'entraînement par renforcement, optimisant simultanément la logique d'orchestration et la solution au problème. DeepReinforce revendique des résultats à l'état de l'art parmi les modèles open source de taille comparable. Le flagship 397B surpasse Claude Opus 4.7 d'Anthropic sur les deux principaux benchmarks de codage, bien qu'il reste en retrait face à Claude Opus 4.8 et au GLM-5.2-744B de Zhipu AI. Pour les équipes qui cherchent une alternative open source aux modèles propriétaires sur des tâches d'agents complexes, Ornith-1.0 représente un saut qualitatif notable, avec une chaîne de déploiement suffisamment simple pour une adoption rapide.
L'approche soulève néanmoins des questions sur la sécurité du système : un modèle capable de modifier son propre harnais pourrait théoriquement tenter de contourner les mécanismes de vérification pour maximiser sa récompense, phénomène connu sous le nom de reward hacking. DeepReinforce décrit trois couches de défense : une frontière de confiance fixe qui rend l'environnement et les tests inaccessibles au modèle, un moniteur déterministe basé sur des règles qui attribue un reward nul à tout comportement non sanctionné, et un juge LLM gelé qui agit comme veto sur le vérificateur principal. Cette publication s'inscrit dans une tendance plus large où les laboratoires de recherche indépendants, souvent bien moins dotés qu'OpenAI ou Google, misent sur l'open source et l'innovation architecturale pour se différencier. La compatibilité MIT et la disponibilité immédiate sur Hugging Face pourraient accélérer l'adoption dans les environnements d'entreprise où la souveraineté des données prime.
Les entreprises européennes soucieuses de souveraineté des données peuvent auto-héberger Ornith-1.0 sous licence MIT comme alternative aux modèles propriétaires américains, sans dépendance à une API tierce.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




