RechercheMarkTechPost · 19 avr. 2026, 22:47· 2 min de lecture

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

Un développeur indépendant nommé Kye Gomez a publié sur GitHub un projet open-source appelé OpenMythos, une reconstruction théorique de l'architecture supposée de Claude Mythos d'Anthropic, écrite entièrement en PyTorch. Anthropic n'ayant jamais publié de documentation technique sur Mythos, Gomez a travaillé à partir de la littérature académique existante pour formuler une hypothèse concrète et vérifiable. Le projet n'est ni un modèle fuité, ni un fine-tune, ni une distillation, c'est une conjecture rendue exécutable. L'architecture proposée repose sur ce que la recherche appelle les Recurrent-Depth Transformers (RDT), également appelés Looped Transformers. Contrairement à un transformer classique comme LLaMA ou GPT, où chaque couche possède ses propres poids indépendants, un RDT applique le même bloc de poids de façon itérative, jusqu'à T=16 fois par passe. OpenMythos structure cela en trois parties : un Prélude, un Bloc Récurrent et une Coda. Le Bloc Récurrent intègre une couche Mixture-of-Experts inspirée de DeepSeekMoE, avec sélection dynamique d'experts à chaque itération, ainsi que le mécanisme Multi-Latent Attention de DeepSeek-V2, qui compresse les tenseurs KV et réduit la mémoire nécessaire d'un facteur 10 à 20. Résultat : 770 millions de paramètres qui, selon l'auteur, rivalisent avec un transformer standard de 1,3 milliard.

Ce qui distingue fondamentalement cette architecture est que le raisonnement se déroule entièrement dans un espace latent continu, sans émission de tokens intermédiaires entre les étapes de boucle. Des travaux académiques récents, notamment Saunshi et al. (2025) et le projet COCONUT (2024), montrent formellement que chaque itération d'un RDT équivaut fonctionnellement à une étape de chain-of-thought, mais dans l'espace des vecteurs réels plutôt que des tokens discrets. Cette distinction est capitale : le modèle peut encoder plusieurs alternatives en parallèle à chaque passe, là où le chain-of-thought classique force un chemin unique et séquentiel. En pratique, cela permettrait d'obtenir des capacités de raisonnement profondes avec nettement moins de paramètres stockés, la profondeur étant une fonction du nombre d'itérations à l'inférence, et non de la taille du modèle.

OpenMythos s'inscrit dans une tendance croissante de reverse engineering public des grands modèles propriétaires. Anthropic, comme OpenAI, publie peu sur ses choix architecturaux, ce qui pousse la communauté à reconstruire ces systèmes par inférence à partir des brevets, des papiers cités et des comportements observés. Les RDT ne sont pas nouveaux, des travaux de Universal Transformers (Dehghani et al., 2018) aux recherches récentes sur les looped networks, mais leur application à l'échelle des modèles commerciaux reste peu documentée. Si l'hypothèse de Gomez s'avère correcte ou même partiellement juste, elle aurait des implications importantes sur la façon dont l'industrie envisage le rapport entre taille de modèle et capacité de raisonnement, ouvrant potentiellement la voie à des architectures plus efficaces accessibles à des acteurs disposant de moins de ressources computationnelles.

Dans nos dossiers

Claude Mythos Anthropic DeepSeek OpenAI

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

Ant Group, via sa filiale dédiée à l'IA incarnée Robbyant, a mis en open source le 8 juillet 2026 LingBot-Vision, une famille de Vision Transformers auto-supervisés conçus pour la perception spatiale dense. Les poids sont publiés sous licence Apache-2.0 sur Hugging Face en quatre tailles : ViT-giant, ViT-large, ViT-base et ViT-small, accompagnés d'un rapport technique et d'un code d'inférence. Le modèle phare, ViT-g/16, compte environ 1,1 milliard de paramètres et a été entraîné avec un nouvel objectif baptisé masked boundary modeling, sur un corpus soigneusement sélectionné d'environ 161 millions d'images issues d'un ensemble web de 2 milliards d'images, sans aucune annotation humaine, sans détecteur de contours externe, et sans backbone pré-entraîné pour amorcer l'apprentissage. Le corpus est dix fois plus petit que le LVD-1689M utilisé par DINOv3, et le modèle consomme moins d'un tiers du nombre d'exemples d'entraînement de ce dernier. Pour les déploiements à budget réduit, ce modèle principal est distillé en versions ViT-L (300 millions de paramètres), ViT-B (86 millions) et ViT-S, chacune en tête des tâches de prédiction dense dans sa catégorie de taille. L'enjeu est que la plupart des modèles de vision actuels sont entraînés pour l'invariance sémantique : ils apprennent à identifier ce qui figure dans une image tout en négligeant précisément la structure spatiale fine (contours d'objets, discontinuités de profondeur) dont dépendent les robots et autres systèmes physiquement incarnés. LingBot-Vision inverse cette priorité en traitant les frontières comme un signal natif d'entraînement plutôt que comme un simple résultat en aval. Le résultat est un modèle de seulement 1 milliard de paramètres qui égale ou dépasse des modèles jusqu'à sept fois plus gros sur des tâches de perception spatiale dense, y compris le DINOv3 à 7 milliards de paramètres. Pour l'industrie de la robotique et des systèmes embarqués, cela ouvre la voie à des modèles de vision plus légers, moins coûteux à entraîner et à déployer, sans sacrifier la précision géométrique nécessaire à la navigation, la manipulation d'objets ou l'interaction physique avec l'environnement. Sur le plan technique, la méthode s'appuie sur le paradigme d'auto-distillation DINO/iBOT, où un modèle enseignant (une copie EMA de l'élève) génère des cibles que l'élève doit retrouver à partir de vues masquées. Contrairement au masquage aléatoire classique, qui traite les zones de contours comme n'importe quelle autre région alors qu'elles sont les plus riches en information, LingBot-Vision force les tokens porteurs de frontières dans le masque et leur attribue une cible géométrique explicite en plus de la cible sémantique. Les frontières sont modélisées comme un champ dense de segments, discrétisé en 32 catégories par canal pour transformer la prédiction en classification stable, avec un effet secondaire élégant : un test statistique sans paramètre permet de valider chaque frontière détectée par rapport à l'hypothèse nulle d'absence de structure. Cette approche s'inscrit dans une tendance plus large de l'IA incarnée, où des acteurs comme Ant Group cherchent à doter les robots de représentations visuelles plus proches de la géométrie réelle du monde, un terrain où des concurrents comme Meta (DINOv3) restent des références mais pourraient désormais être challengés par des modèles nettement plus économes en données et en calcul.

💬 Robbyant bat DINOv3 avec un modèle sept fois plus petit et dix fois moins de données d'entraînement, juste en changeant ce qu'on apprend au réseau plutôt qu'en le gonflant. On a passé des années à bourrer les modèles de vision de paramètres pour qu'ils reconnaissent des chats, alors qu'un robot a surtout besoin de contours nets et de profondeur. Bon, sur le papier c'est solide pour la perception dense, reste à voir si ça tient une fois embarqué sur du matériel bas coût plutôt que sur un banc de test.

RechercheActu

1 source

2MarkTechPost

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

RecherchePaper

1 source

3MarkTechPost

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper

1 source

4MarkTechPost

A-Evolve : l'équivalent PyTorch pour les systèmes d'agents autonomes, remplaçant le réglage manuel par la mutation d'état automatisée et l'auto-correction

Une équipe de chercheurs affiliés à Amazon a publié A-Evolve, une infrastructure universelle conçue pour automatiser le développement d'agents IA autonomes. Le framework repose sur un moteur de mutation qui modifie directement les fichiers de configuration, les prompts et le code d'un agent — regroupés dans une structure appelée Agent Workspace — pour en améliorer les performances de façon itérative, sans intervention humaine. Le cycle de fonctionnement s'articule en cinq étapes : l'agent tente une tâche, le système observe les résultats, un moteur d'évolution identifie les points de défaillance et modifie les fichiers, un module de validation vérifie qu'aucune régression n'est introduite, puis l'agent redémarre avec le workspace mis à jour. Chaque mutation est taguée sous Git (evo-1, evo-2…) pour permettre un rollback automatique si nécessaire. Les tests initiaux ont été conduits sur des modèles de la série Claude d'Anthropic, sur des benchmarks exigeants dont SWE-bench, le standard de référence pour évaluer la résolution autonome de tickets GitHub. L'enjeu est de taille : aujourd'hui, construire un agent IA performant exige un travail manuel intensif. Quand un agent échoue sur une tâche, l'ingénieur doit inspecter les logs, diagnostiquer la logique défaillante, réécrire les prompts et recommencer — un cycle chronophage qui freine le passage à l'échelle. A-Evolve automatise précisément cette boucle, ce que ses créateurs comparent à l'impact qu'a eu PyTorch sur le deep learning en 2016 : PyTorch avait éliminé le calcul manuel des gradients et démocratisé l'entraînement de réseaux de neurones ; A-Evolve ambitionne de faire de même pour la conception d'agents, en remplaçant le tuning artisanal par un processus systématique et reproductible. Pour les équipes d'ingénierie IA en entreprise, cela pourrait réduire drastiquement le temps de développement et permettre de déployer des agents spécialisés dans des domaines variés sans expertise pointue à chaque itération. Le projet s'inscrit dans une course plus large à l'automatisation de l'automatisation elle-même — ce que la communauté appelle parfois le "méta-apprentissage" ou l'auto-amélioration des systèmes IA. Amazon n'est pas seul sur ce terrain : OpenAI, DeepMind et plusieurs startups explorent des approches similaires d'optimisation automatique d'agents. Ce qui distingue A-Evolve est son architecture modulaire de type "Bring Your Own" : l'utilisateur peut brancher n'importe quelle architecture d'agent (ReAct, multi-agent), n'importe quel environnement d'exécution (sandbox de code, CLI cloud) et n'importe quel algorithme d'évolution (mutation pilotée par LLM ou par renforcement). Le code est disponible sur GitHub sous le compte A-EVO-Lab. La vraie question reste celle de la généralisation : les gains de performance observés sur SWE-bench se traduiront-ils sur des tâches métier réelles, moins standardisées ? C'est le prochain test que l'industrie imposera à ce type de framework.

💬 La comparaison avec PyTorch, c'est gonflé, mais pas complètement faux. Automatiser la boucle debug-réécriture-test sur des agents, c'est exactement ce qui bloque la mise à l'échelle aujourd'hui, et le fait que ça soit testé sur SWE-bench avec Claude donne du crédit. La vraie question c'est si ça tient sur des tâches métier réelles, moins propres qu'un benchmark standard.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic