LLMsVentureBeat AI · 11 juin 2026, 00:52· 2 min de lecture

Des chercheurs affirment avoir entraîné un modèle fondamental de zéro pour environ 1 500 dollars

Des chercheurs de la startup Sapient Intelligence affirment avoir entraîné un grand modèle de langage de zéro pour environ 1 500 dollars. Le modèle, baptisé HRM-Text, compte un milliard de paramètres et repose sur une architecture radicalement différente des Transformers classiques : le Hierarchical Recurrent Model (HRM), introduit par Sapient en 2025. Contrairement aux LLM traditionnels qui s'entraînent sur des prédictions de tokens bruts à partir de milliards de pages web, HRM-Text se forme exclusivement sur des paires instruction-réponse, mimant directement les cas d'usage réels en entreprise. Malgré cette empreinte réduite en données et en calcul, le modèle atteint des performances comparables à des modèles open source bien plus volumineux sur les benchmarks sectoriels de référence, selon les résultats publiés par l'équipe de recherche.

Ce résultat bouleverse une hypothèse fondamentale de l'industrie : que l'entraînement d'un modèle fondationnel est réservé aux géants disposant de centaines de millions de dollars. Pour les secteurs comme la finance, l'assurance ou la banque, cela ouvre une voie concrète vers des modèles propriétaires entraînés sur des données internes, sans dépendre d'un fournisseur externe comme OpenAI ou Google. Guan Wang, PDG de Sapient Intelligence, résume l'enjeu : une banque ou un fonds spéculatif peut avoir besoin d'un modèle qui comprend ses règles de conformité, ses modèles de risque et ses mémos d'analystes, sans jamais exposer ces données à l'extérieur. HRM-Text rend ce scénario économiquement viable, là où le fine-tuning de modèles denses existants reste lourd, coûteux et difficile à contrôler.

L'architecture HRM découple le traitement en deux couches distinctes : une couche stratégique à évolution lente, chargée du raisonnement de haut niveau, et une couche d'exécution rapide pour les décisions immédiates. Cette séparation permet au modèle de concentrer sa puissance de calcul sur la compréhension de la tâche plutôt que sur la mémorisation de données internet sans rapport. Wang pointe les limites du paradigme dominant : "L'addiction à l'échelle dit : quand le modèle échoue, agrandis-le, ajoute des données, ajoute des GPU. Cela a fonctionné, mais on atteint un point de rendements décroissants." L'approche de Sapient s'inscrit dans un courant émergent qui remet en cause la toute-puissance du scaling, aux côtés d'autres travaux comme ceux de DeepSeek sur l'efficience architecturale. Si les performances annoncées se confirment à plus grande échelle et dans des cas d'usage réels, le modèle économique de l'IA d'entreprise pourrait être profondément reconfiguré.

Impact France/UE

Les banques et assureurs européens pourraient entraîner des modèles propriétaires sur leurs données internes pour moins de 2 000 dollars, réduisant leur dépendance aux fournisseurs externes et facilitant la conformité aux exigences de l'AI Act en matière de contrôle des données sensibles.

Dans nos dossiers

OpenAI DeepSeek Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Quelqu'un a affiné MiniCPM5-1B d'OpenBMB sur des traces de Claude Fable 5 pour un modèle de raisonnement local de 657 Mo

Un développeur communautaire connu sous le pseudonyme GnLOLot a publié un modèle de langage d'un milliard de paramètres capable de fonctionner entièrement en local, sans clé API ni appel vers le cloud. Baptisé MiniCPM5-1B-Claude-Opus-Fable5-Thinking, il est distribué au format GGUF pour les moteurs compatibles llama.cpp. Il s'appuie sur MiniCPM5-1B, un modèle de base publié par le laboratoire chinois OpenBMB, doté de 1,08 milliard de paramètres, d'une architecture LlamaForCausalLM classique à 24 couches avec attention par groupes de requêtes, et d'une fenêtre de contexte de 131 072 tokens. OpenBMB revendique déjà le meilleur score open source de sa catégorie sur ce modèle de base, qui intègre nativement un mode de raisonnement activable via le paramètre enablethinking, offrant un choix entre mode "Think" et mode "No Think". GnLOLot a ensuite affiné ce socle sur des données issues de Fable 5, le modèle Claude d'Anthropic, dans le but d'améliorer les capacités de codage et de suivi d'instructions. Le paquet GGUF propose quatre niveaux de quantification : Q4KM autour de 657 Mo, Q5KM autour de 751 Mo, Q80 autour de 1,1 Go recommandé par défaut, et F16 autour de 2,1 Go. Le modèle s'installe directement via Ollama, llama.cpp, LM Studio, Jan ou KoboldCpp, avec une commande d'une ligne pour Ollama et des réglages d'échantillonnage suggérés de température 0,9 et top_p 0,95 en mode réflexion. L'enjeu de cette publication tient moins à ses performances qu'à ce qu'elle révèle sur les limites du fine-tuning léger appliqué à des traces générées par un grand modèle propriétaire. La méthode employée n'est pas une distillation classique au sens technique du terme, puisque personne n'a accès aux poids ni aux logits internes de Claude. Il s'agit en réalité d'un ajustement supervisé effectué sur des conversations et des raisonnements produits en sortie par le modèle Anthropic, puis utilisés comme données d'entraînement pour le petit modèle. Cette distinction compte : un modèle d'un milliard de paramètres ne peut pas absorber la capacité de raisonnement d'un modèle frontière, il ne peut qu'imiter son style de réponse et son format d'expression. Pour les utilisateurs et développeurs qui cherchent des outils légers et embarquables, cela signifie que le modèle peut sembler produire des réponses au ton proche de Claude, sans pour autant en égaler la fiabilité ou la profondeur de raisonnement. Cette initiative s'inscrit dans une tendance plus large de la communauté open source consistant à capturer le style de sortie des grands modèles fermés pour l'injecter dans des architectures compactes et gratuites. OpenBMB, de son côté, utilise une véritable distillation par politique entre ses propres modèles enseignant et élève, une approche méthodologiquement différente et documentée. Aucun benchmark ni jeu de données d'entraînement n'a été publié pour ce dérivé, ce qui rend les affirmations de performance actuellement invérifiables. La question reste également ouverte sur le plan juridique : la licence Apache 2.0 couvre les poids du modèle de base, mais l'entraînement sur des sorties générées par Claude soulève une interrogation sur les conditions d'utilisation qu'Anthropic impose à ses propres résultats, un point que la fiche du modèle laisse sans réponse.

💬 C'est pas de la distillation, c'est du copiage de style. Personne n'a accès aux poids ni aux logits de Claude, donc GnLOLot a juste entraîné son 1,08 milliard de paramètres à imiter le ton de Fable 5, pas sa capacité de raisonnement, et c'est toute la nuance que le nom du modèle fait oublier. Reste la question qu'on esquive à chaque fois dans ce genre de projet: entraîner un modèle sur les sorties d'un labo propriétaire sans base claire dans ses conditions d'utilisation, c'est un pari juridique déguisé en projet open source.

LLMsOpinion

1 source

2VentureBeat AI

ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300

La startup californienne Zyphra, basée à Palo Alto, a publié cette semaine ZAYA1-8B, un modèle de langage de raisonnement à architecture mixture-of-experts (MoE) comptant un peu plus de 8 milliards de paramètres, dont seulement 760 millions sont actifs simultanément. Disponible gratuitement sur Hugging Face sous licence Apache 2.0, le modèle peut être téléchargé, modifié et déployé immédiatement par les entreprises comme par les développeurs indépendants. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives face à GPT-5-High d'OpenAI et DeepSeek-V3.2 sur plusieurs benchmarks tiers. Mais ce qui attire surtout l'attention, c'est la plateforme matérielle utilisée pour l'entraîner : des GPU AMD Instinct MI300, les puces concurrentes de Nvidia lancées il y a près de trois ans, sur lesquelles Zyphra a fait tourner l'intégralité de son pipeline d'entraînement. Ce modèle illustre une tendance de fond dans le secteur : pendant qu'OpenAI et Anthropic s'affrontent sur des modèles toujours plus massifs, une nouvelle génération de laboratoires mise sur la densité d'intelligence plutôt que sur la taille brute. Avec 760 millions de paramètres actifs seulement, ZAYA1-8B peut tourner sur du matériel bien moins coûteux, ouvrant la porte à des déploiements locaux ou embarqués inaccessibles aux géants du secteur. Sur le plan matériel, la réussite de l'entraînement sur AMD MI300 est un signal fort : elle démontre concrètement qu'il existe une alternative viable aux GPU Nvidia, qui dominent jusqu'ici quasi exclusivement l'écosystème d'entraînement de modèles IA. L'architecture MoE++ propriétaire de Zyphra repose sur trois innovations techniques. La première, l'attention convolutive compressée (CCA), réduit de huit fois la taille du cache KV par rapport à l'attention multi-têtes classique, ce qui améliore l'efficacité sur les contextes longs. La deuxième remplace le routeur linéaire standard des modèles MoE par un réseau de neurones multi-couches plus expressif, stabilisé par un mécanisme de rééquilibrage inspiré des contrôleurs PID de l'automatique industrielle. La troisième, le Learned Residual Scaling, contrôle la croissance des normes résiduelles sur les 40 couches du modèle pour éviter les problèmes de gradient. En amont de l'entraînement, Zyphra a intégré le raisonnement dès la phase de préentraînement, en développant une technique baptisée AP Trimming qui compresse les longues chaînes de pensée en supprimant leur partie médiane tout en préservant le problème et la solution finale. À l'inférence, la méthode Markovian RSA permet d'améliorer la qualité des réponses sans simplement allonger la chaîne de raisonnement, une approche qui constitue selon Zyphra la principale source de gain de performance du modèle.

UELe modèle étant publié sous Apache 2.0 sur Hugging Face, les développeurs et entreprises européens peuvent le télécharger et le déployer immédiatement pour des cas d'usage locaux à faible coût matériel.

LLMsOpinion

1 source

3VentureBeat AI

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion

1 source

4VentureBeat AI

Anthropic lance Claude Opus 5, un modèle IA moins cher pour le code, les agents et les entreprises

Anthropic a lancé Claude Opus 5 vendredi, un modèle que l'entreprise présente comme délivrant presque toute l'intelligence de son modèle phare Claude Fable 5, mais à moitié prix. Disponible immédiatement sur toutes les plateformes d'Anthropic, Opus 5 est facturé 5 dollars par million de tokens en entrée et 25 dollars par million en sortie, un tarif inchangé par rapport à son prédécesseur Opus 4.8. Il devient le modèle par défaut sur Claude Max, l'offre premium grand public, et le modèle le plus puissant accessible sur Claude Pro. Sur le plan des performances, Anthropic annonce de nouveaux records sur plusieurs évaluations de codage et de travail de connaissance, dont Frontier-Bench et GDPval-AA. Sur Frontier-Bench v0.1, un benchmark de codage agentique en ligne de commande, Opus 5 obtient un score de 43,3%, plus du double des 18,7% d'Opus 4.8 et nettement devant les 33,7% de Fable 5, tout en coûtant moins cher par tâche. Sur ARC-AGI 3, qui évalue la résolution de problèmes inédits, le score serait trois fois supérieur à celui du meilleur modèle concurrent. Sur OSWorld 2.0, un test d'usage informatique autonome, Opus 5 dépasserait le meilleur résultat de Fable 5 pour un peu plus d'un tiers du coût. Anthropic reconnaît toutefois qu'Opus 5 reste derrière Mythos 5, un modèle concurrent, sur les tâches de cybersécurité et de recherche en biologie, et qu'un modèle de la famille OpenAI garde l'avantage sur un benchmark de codage agentique. Ce lancement traduit un changement de stratégie dans la course à l'IA, qui glisse de la pure performance vers l'économie de l'usage quotidien. Pour Anthropic, l'essentiel du travail professionnel se situe dans une zone intermédiaire de difficulté, où une intelligence proche de la pointe mais délivrée à moindre coût l'emporte sur une intelligence maximale mais coûteuse. L'entreprise positionne désormais sa gamme par usage: Fable 5 pour les projets autonomes de plusieurs jours, Opus 5 comme modèle de référence pour le travail complexe quotidien, Sonnet 5 pour les usages à grande échelle où le coût par appel prime, et Haiku 4.5 pour les sous-agents et réponses instantanées. Un réglage d'effort ajustable permet aussi aux entreprises d'arbitrer entre intelligence, vitesse et consommation de tokens. Cette annonce s'inscrit dans un contexte où les benchmarks classiques atteignent leurs limites, poussant les laboratoires à distinguer les tâches bornées, avec un résultat précis et mesurable, des missions longues et autonomes s'étalant sur plusieurs jours. Anthropic lui-même admet que ses évaluations ne mesurent pas la durée ni la capacité à rester cohérent sur des étapes multiples, un terrain où Fable 5 garde l'avantage. Cette frontière entre tâches ponctuelles et travail agentique prolongé pourrait devenir, en 2026, le principal axe de différenciation entre Anthropic, OpenAI et les autres acteurs du secteur.

💬 Opus 5 au même prix que son prédécesseur mais avec un score qui double sur Frontier-Bench, c'est le vrai signal : la course à l'IA ne se joue plus sur qui a le modèle le plus intelligent, mais sur qui livre le plus d'intelligence par dollar dépensé. Anthropic vient d'admettre à voix haute ce que tout le monde pressentait, l'essentiel du taf pro ne demande pas une IA au sommet absolu, juste une IA solide et pas ruineuse à faire tourner en boucle toute la journée. Reste que sur les tâches longues et autonomes, celles qui s'étalent sur plusieurs jours, Fable 5 garde la main, et c'est là que la vraie bataille de 2026 va se jouer.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic