Aller au contenu principal
LLMsMarkTechPost3h· 2 min de lecture

DeepReinforce publie Ornith-1.0 : une famille de modèles de code open source qui apprend ses propres structures d'apprentissage par renforcement

Source originale ↗·

DeepReinforce a publié Ornith-1.0, une famille de modèles open source conçue pour les agents de programmation autonomes. La gamme comprend quatre variantes : 9B dense, 31B dense, 35B en architecture mixture-of-experts (MoE), et un modèle flagship à 397B de paramètres, dont le 35B n'active qu'environ 3 milliards de paramètres par token en pratique. Tous les checkpoints sont publiés sous licence MIT sur Hugging Face et s'appuient sur un post-entraînement des modèles Gemma 4 de Google et Qwen 3.5 d'Alibaba. Le modèle 9B pèse environ 19 Go en bf16 et tourne sur un seul GPU de 80 Go, tandis que des versions FP8 et GGUF sont disponibles pour un déploiement local plus rapide. Les modèles exposent une interface compatible OpenAI, ce qui les rend compatibles sans modification avec les frameworks d'agents existants comme vLLM ou SGLang.

Ce qui distingue Ornith-1.0 des autres modèles de codage, c'est son architecture d'apprentissage : au lieu d'être couplés à un harnais fixe et conçu à la main par des ingénieurs, ces modèles apprennent à écrire leur propre scaffold pendant la phase d'entraînement par renforcement, optimisant simultanément la logique d'orchestration et la solution au problème. DeepReinforce revendique des résultats à l'état de l'art parmi les modèles open source de taille comparable. Le flagship 397B surpasse Claude Opus 4.7 d'Anthropic sur les deux principaux benchmarks de codage, bien qu'il reste en retrait face à Claude Opus 4.8 et au GLM-5.2-744B de Zhipu AI. Pour les équipes qui cherchent une alternative open source aux modèles propriétaires sur des tâches d'agents complexes, Ornith-1.0 représente un saut qualitatif notable, avec une chaîne de déploiement suffisamment simple pour une adoption rapide.

L'approche soulève néanmoins des questions sur la sécurité du système : un modèle capable de modifier son propre harnais pourrait théoriquement tenter de contourner les mécanismes de vérification pour maximiser sa récompense, phénomène connu sous le nom de reward hacking. DeepReinforce décrit trois couches de défense : une frontière de confiance fixe qui rend l'environnement et les tests inaccessibles au modèle, un moniteur déterministe basé sur des règles qui attribue un reward nul à tout comportement non sanctionné, et un juge LLM gelé qui agit comme veto sur le vérificateur principal. Cette publication s'inscrit dans une tendance plus large où les laboratoires de recherche indépendants, souvent bien moins dotés qu'OpenAI ou Google, misent sur l'open source et l'innovation architecturale pour se différencier. La compatibilité MIT et la disponibilité immédiate sur Hugging Face pourraient accélérer l'adoption dans les environnements d'entreprise où la souveraineté des données prime.

Impact France/UE

Les entreprises européennes soucieuses de souveraineté des données peuvent auto-héberger Ornith-1.0 sous licence MIT comme alternative aux modèles propriétaires américains, sans dépendance à une API tierce.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
1MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)
2Next INpact 

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)

Google a lancé Gemma 4, sa nouvelle famille de modèles d'intelligence artificielle en open source, quelques jours avant le week-end de Pâques 2026. La gamme comprend quatre variantes baptisées E2B, E4B, 26B A4B et 31B, offrant respectivement 2,3, 4,5, 25,2 et 30,7 milliards de paramètres. Le modèle 26B A4B adopte une architecture Mixture of Experts (MoE), ce qui signifie que seuls 3,8 milliards de paramètres sont effectivement activés lors de chaque inférence, réduisant considérablement la puissance de calcul nécessaire. Tous les modèles sont multimodaux : ils traitent du texte et des images, les deux plus petits ajoutant la reconnaissance vocale. Les fenêtres de contexte atteignent 128 000 tokens pour les modèles E2B et E4B, et 256 000 tokens pour les deux plus grands. L'ensemble de la famille intègre un mode de raisonnement pas-à-pas, une prise en charge native des outils pour les workflows d'agents, ainsi que des capacités de génération et correction de code. La licence retenue est Apache 2.0, considérée comme l'une des plus permissives : elle autorise la modification, la distribution et l'usage commercial sans contrainte majeure, à condition de conserver les mentions de copyright. Ce changement de licence est la décision la plus significative de cette annonce. Jusqu'ici, Google publiait ses modèles Gemma sous une licence maison, les "Gemma Terms of Use", qui lui permettait de restreindre l'utilisation à sa discrétion. En passant à Apache 2.0, Google offre aux développeurs, entreprises et chercheurs une garantie juridique bien plus solide pour intégrer ces modèles dans des produits commerciaux ou des recherches sensibles. La diversité des tailles proposées, notamment les variantes à 2,3 et 4,5 milliards de paramètres, permet de faire tourner Gemma 4 directement sur des ordinateurs personnels ou des smartphones, sans envoyer de données vers des serveurs tiers. Pour les entreprises soucieuses de confidentialité ou les développeurs indépendants aux ressources limitées, c'est un argument concret et immédiat. Avec cette décision, Google rejoint un camp qui compte déjà Mistral avec son modèle 7B publié en septembre 2023, OpenAI avec gpt-oss-120b et Alibaba avec sa famille Qwen, tous distribués sous Apache 2.0. Meta reste en retrait avec ses modèles LLaMA, soumis à une licence plus restrictive. Le contexte concurrentiel est intense : le marché des modèles ouverts s'est considérablement animé ces dix-huit derniers mois, et Google cherche à s'y positionner comme un acteur sérieux face à des alternatives bien établies. L'annonce intervient également au moment où Anthropic durcit ses conditions d'accès pour les applications tierces sur ses modèles payants, un contraste saisissant qui renforce l'attrait de l'approche ouverte de Google. Les suites dépendront de l'adoption par la communauté et des benchmarks indépendants, mais la combinaison licence permissive et gamme de tailles variées donne à Gemma 4 de sérieux atouts pour s'imposer dans l'écosystème open source.

UELa licence Apache 2.0 et les variantes légères (2-4 milliards de paramètres) permettent aux entreprises et développeurs européens d'intégrer Gemma 4 dans des produits commerciaux ou de le déployer en local, un atout concret pour la conformité RGPD.

💬 La vraie nouvelle, c'est pas les 31 milliards de paramètres, c'est Apache 2.0. Google arrête de jouer avec ses licences maison qui laissaient planer un doute juridique permanent sur l'usage commercial, et ça change tout pour les boîtes qui hésitaient à s'engager. Le petit E2B à 2,3 milliards avec 128k de contexte qui tourne en local, bon, sur le papier c'est exactement ce qu'on attendait pour des usages RGPD-friendly. Reste à voir ce que les benchmarks indépendants vont donner, parce que Google sait aussi soigner ses annonces de Pâques.

LLMsOpinion
1 source
Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils
3MarkTechPost 

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Arcee AI a publié Trinity Large Thinking, un modèle de raisonnement en open-weight distribué sous licence Apache 2.0. Architecturalement, il s'agit d'un modèle Mixture-of-Experts (MoE) sparse totalisant 400 milliards de paramètres, mais qui n'en active que 13 milliards par token grâce à une stratégie de routage 4-sur-256. Cette conception permet d'atteindre la densité de connaissance d'un modèle massif tout en conservant des latences comparables à des architectures bien plus légères. Le modèle a été pré-entraîné sur 17 000 milliards de tokens avec l'optimiseur Muon, plus efficace que l'AdamW standard, et intègre un mécanisme d'attention hybride local/global avec attention gating pour mieux gérer les longs contextes. Il supporte une fenêtre de contexte de 262 144 tokens sur OpenRouter. Sur le benchmark PinchBench, dédié aux agents autonomes, Trinity Large Thinking occupe actuellement la deuxième place, derrière Claude Opus 4.6. Ce lancement est significatif pour les développeurs qui construisent des agents IA autonomes : Trinity Large Thinking est conçu spécifiquement pour les tâches longues et complexes, les appels d'outils multi-tours et le suivi d'instructions précises sur des workflows étendus. Contrairement aux modèles de chat généralistes, il intègre une phase de "réflexion" interne avant chaque réponse, ce qui lui permet de planifier des tâches en plusieurs étapes et de vérifier sa logique avant de générer une sortie. Cette combinaison de raisonnement structuré, de fiabilité multi-tours et de fenêtre de contexte étendue répond directement aux exigences des environnements d'automatisation logicielle, où les erreurs cumulatives sur de longues séquences d'actions sont le principal point de défaillance. L'émergence de ce modèle s'inscrit dans une tendance de fond : le déplacement du centre de gravité de l'IA générative vers des systèmes capables de raisonnement multi-étapes, jusqu'ici dominé par des acteurs propriétaires comme OpenAI avec o3 ou Anthropic avec Claude. Arcee AI, spécialisé dans les LLM d'entreprise et les modèles compacts à haute performance, propose ici une alternative ouverte et auditables pour les organisations qui ne peuvent ou ne souhaitent pas dépendre d'API fermées. Deux innovations techniques internes méritent attention : SMEBU (Soft-clamped Momentum Expert Bias Updates), une stratégie d'équilibrage de charge qui prévient l'effondrement des experts dans les architectures MoE, et l'utilisation du Muon optimizer pour améliorer l'efficacité d'entraînement. La suite logique sera de voir si la communauté open-source s'empare du modèle pour des déploiements auto-hébergés, et si Arcee maintient ce niveau de performance dans des évaluations tierces indépendantes au-delà de PinchBench.

UELa licence Apache 2.0 permet aux organisations européennes de déployer un modèle de raisonnement compétitif en auto-hébergement, réduisant leur dépendance aux API fermées américaines et s'alignant sur les objectifs de souveraineté numérique européenne.

LLMsOpinion
1 source
Cohere publie en open source un agent de code fonctionnant sur un seul H100
4VentureBeat AI 

Cohere publie en open source un agent de code fonctionnant sur un seul H100

Cohere a lancé mardi North Mini Code, un modèle de codage agentique open source de 30 milliards de paramètres au format mixture-of-experts (MoE), avec seulement 3 milliards de paramètres actifs par token. Disponible sur Hugging Face sous licence Apache 2.0, il supporte une fenêtre de contexte de 256 000 tokens et une génération maximale de 64 000 tokens. Sa particularité technique : il tourne sur un seul GPU H100, et Nick Frosst, cofondateur de Cohere, l'a même démontré en fonctionnement sur un Mac Studio via MLX avec 20 Go de RAM. Le modèle a été entraîné via deux phases de fine-tuning supervisé suivies d'apprentissage par renforcement sur plus de 70 000 tâches vérifiables issues d'environ 5 000 dépôts, dédupliqués par rapport à SWE-Bench. Cohere revendique des performances supérieures aux modèles open source jusqu'à quatre fois plus grands, dont des modèles à 120 milliards de paramètres. North Mini Code représente une alternative concrète aux modèles propriétaires pour les équipes d'ingénierie qui veulent déployer des pipelines de codage agentique en interne, sans dépendre d'API externes. Le modèle gère l'orchestration de sous-agents, la cartographie d'architecture, la revue de code sur de larges bases de code multi-fichiers et le travail en environnement terminal. Selon les mesures indépendantes d'Artificial Analysis, il atteint 210 tokens par seconde avec un temps au premier token de 0,25 seconde, contre une médiane de 1,95 seconde pour sa catégorie. Face à Mistral Devstral Small 2 (24 milliards de paramètres dense), Cohere revendique un débit de sortie 2,8 fois supérieur et une latence inter-token réduite de 30 % dans des conditions matérielles identiques. Ces chiffres positionnent le modèle comme une option sérieuse pour des charges de production à volume élevé. Il existe néanmoins un point de vigilance notable : lors des tests de l'Intelligence Index d'Artificial Analysis, North Mini Code a généré 75 millions de tokens en sortie pour compléter l'évaluation, contre une médiane de 25 millions pour les modèles comparables. Cette verbosité excessive peut tripler les coûts d'inférence dans des pipelines agentiques intensifs, là où chaque appel enchaîne plusieurs étapes. Cohere a par ailleurs entraîné le modèle sur trois scaffolds d'agents distincts (SWE-Agent, Mini-SWE-Agent et OpenCode) plutôt qu'un seul, gagnant 10 points de pourcentage sur l'évaluation OpenCode tout en maintenant les performances sur SWE-Agent. Le modèle s'inscrit dans un marché en rapide consolidation face à GitHub Copilot, Cursor et les derniers modèles Mistral, où la capacité à s'auto-héberger sur du matériel standard devient un avantage différenciant majeur pour les entreprises soucieuses de contrôle et de coût.

UELe modèle open source sous licence Apache 2.0 offre aux équipes d'ingénierie européennes une option concrète d'auto-hébergement pour des pipelines de codage agentique, réduisant la dépendance aux API propriétaires américaines dans un contexte de sensibilité croissante à la souveraineté des données.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic