
Des chercheurs affirment avoir entraîné un modèle fondamental de zéro pour environ 1 500 dollars
Des chercheurs de la startup Sapient Intelligence affirment avoir entraîné un grand modèle de langage de zéro pour environ 1 500 dollars. Le modèle, baptisé HRM-Text, compte un milliard de paramètres et repose sur une architecture radicalement différente des Transformers classiques : le Hierarchical Recurrent Model (HRM), introduit par Sapient en 2025. Contrairement aux LLM traditionnels qui s'entraînent sur des prédictions de tokens bruts à partir de milliards de pages web, HRM-Text se forme exclusivement sur des paires instruction-réponse, mimant directement les cas d'usage réels en entreprise. Malgré cette empreinte réduite en données et en calcul, le modèle atteint des performances comparables à des modèles open source bien plus volumineux sur les benchmarks sectoriels de référence, selon les résultats publiés par l'équipe de recherche.
Ce résultat bouleverse une hypothèse fondamentale de l'industrie : que l'entraînement d'un modèle fondationnel est réservé aux géants disposant de centaines de millions de dollars. Pour les secteurs comme la finance, l'assurance ou la banque, cela ouvre une voie concrète vers des modèles propriétaires entraînés sur des données internes, sans dépendre d'un fournisseur externe comme OpenAI ou Google. Guan Wang, PDG de Sapient Intelligence, résume l'enjeu : une banque ou un fonds spéculatif peut avoir besoin d'un modèle qui comprend ses règles de conformité, ses modèles de risque et ses mémos d'analystes, sans jamais exposer ces données à l'extérieur. HRM-Text rend ce scénario économiquement viable, là où le fine-tuning de modèles denses existants reste lourd, coûteux et difficile à contrôler.
L'architecture HRM découple le traitement en deux couches distinctes : une couche stratégique à évolution lente, chargée du raisonnement de haut niveau, et une couche d'exécution rapide pour les décisions immédiates. Cette séparation permet au modèle de concentrer sa puissance de calcul sur la compréhension de la tâche plutôt que sur la mémorisation de données internet sans rapport. Wang pointe les limites du paradigme dominant : "L'addiction à l'échelle dit : quand le modèle échoue, agrandis-le, ajoute des données, ajoute des GPU. Cela a fonctionné, mais on atteint un point de rendements décroissants." L'approche de Sapient s'inscrit dans un courant émergent qui remet en cause la toute-puissance du scaling, aux côtés d'autres travaux comme ceux de DeepSeek sur l'efficience architecturale. Si les performances annoncées se confirment à plus grande échelle et dans des cas d'usage réels, le modèle économique de l'IA d'entreprise pourrait être profondément reconfiguré.
Les banques et assureurs européens pourraient entraîner des modèles propriétaires sur leurs données internes pour moins de 2 000 dollars, réduisant leur dépendance aux fournisseurs externes et facilitant la conformité aux exigences de l'AI Act en matière de contrôle des données sensibles.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




