MiniMax Sparse Attention (MSA) : attention…

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

38

1MarkTechPost

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

Ant Group, via sa filiale dédiée à l'IA incarnée Robbyant, a mis en open source le 8 juillet 2026 LingBot-Vision, une famille de Vision Transformers auto-supervisés conçus pour la perception spatiale dense. Les poids sont publiés sous licence Apache-2.0 sur Hugging Face en quatre tailles : ViT-giant, ViT-large, ViT-base et ViT-small, accompagnés d'un rapport technique et d'un code d'inférence. Le modèle phare, ViT-g/16, compte environ 1,1 milliard de paramètres et a été entraîné avec un nouvel objectif baptisé masked boundary modeling, sur un corpus soigneusement sélectionné d'environ 161 millions d'images issues d'un ensemble web de 2 milliards d'images, sans aucune annotation humaine, sans détecteur de contours externe, et sans backbone pré-entraîné pour amorcer l'apprentissage. Le corpus est dix fois plus petit que le LVD-1689M utilisé par DINOv3, et le modèle consomme moins d'un tiers du nombre d'exemples d'entraînement de ce dernier. Pour les déploiements à budget réduit, ce modèle principal est distillé en versions ViT-L (300 millions de paramètres), ViT-B (86 millions) et ViT-S, chacune en tête des tâches de prédiction dense dans sa catégorie de taille. L'enjeu est que la plupart des modèles de vision actuels sont entraînés pour l'invariance sémantique : ils apprennent à identifier ce qui figure dans une image tout en négligeant précisément la structure spatiale fine (contours d'objets, discontinuités de profondeur) dont dépendent les robots et autres systèmes physiquement incarnés. LingBot-Vision inverse cette priorité en traitant les frontières comme un signal natif d'entraînement plutôt que comme un simple résultat en aval. Le résultat est un modèle de seulement 1 milliard de paramètres qui égale ou dépasse des modèles jusqu'à sept fois plus gros sur des tâches de perception spatiale dense, y compris le DINOv3 à 7 milliards de paramètres. Pour l'industrie de la robotique et des systèmes embarqués, cela ouvre la voie à des modèles de vision plus légers, moins coûteux à entraîner et à déployer, sans sacrifier la précision géométrique nécessaire à la navigation, la manipulation d'objets ou l'interaction physique avec l'environnement. Sur le plan technique, la méthode s'appuie sur le paradigme d'auto-distillation DINO/iBOT, où un modèle enseignant (une copie EMA de l'élève) génère des cibles que l'élève doit retrouver à partir de vues masquées. Contrairement au masquage aléatoire classique, qui traite les zones de contours comme n'importe quelle autre région alors qu'elles sont les plus riches en information, LingBot-Vision force les tokens porteurs de frontières dans le masque et leur attribue une cible géométrique explicite en plus de la cible sémantique. Les frontières sont modélisées comme un champ dense de segments, discrétisé en 32 catégories par canal pour transformer la prédiction en classification stable, avec un effet secondaire élégant : un test statistique sans paramètre permet de valider chaque frontière détectée par rapport à l'hypothèse nulle d'absence de structure. Cette approche s'inscrit dans une tendance plus large de l'IA incarnée, où des acteurs comme Ant Group cherchent à doter les robots de représentations visuelles plus proches de la géométrie réelle du monde, un terrain où des concurrents comme Meta (DINOv3) restent des références mais pourraient désormais être challengés par des modèles nettement plus économes en données et en calcul.

💬 Robbyant bat DINOv3 avec un modèle sept fois plus petit et dix fois moins de données d'entraînement, juste en changeant ce qu'on apprend au réseau plutôt qu'en le gonflant. On a passé des années à bourrer les modèles de vision de paramètres pour qu'ils reconnaissent des chats, alors qu'un robot a surtout besoin de contours nets et de profondeur. Bon, sur le papier c'est solide pour la perception dense, reste à voir si ça tient une fois embarqué sur du matériel bas coût plutôt que sur un banc de test.

RechercheActu

1 source

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

44

2MarkTechPost

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

Un développeur indépendant nommé Kye Gomez a publié sur GitHub un projet open-source appelé OpenMythos, une reconstruction théorique de l'architecture supposée de Claude Mythos d'Anthropic, écrite entièrement en PyTorch. Anthropic n'ayant jamais publié de documentation technique sur Mythos, Gomez a travaillé à partir de la littérature académique existante pour formuler une hypothèse concrète et vérifiable. Le projet n'est ni un modèle fuité, ni un fine-tune, ni une distillation, c'est une conjecture rendue exécutable. L'architecture proposée repose sur ce que la recherche appelle les Recurrent-Depth Transformers (RDT), également appelés Looped Transformers. Contrairement à un transformer classique comme LLaMA ou GPT, où chaque couche possède ses propres poids indépendants, un RDT applique le même bloc de poids de façon itérative, jusqu'à T=16 fois par passe. OpenMythos structure cela en trois parties : un Prélude, un Bloc Récurrent et une Coda. Le Bloc Récurrent intègre une couche Mixture-of-Experts inspirée de DeepSeekMoE, avec sélection dynamique d'experts à chaque itération, ainsi que le mécanisme Multi-Latent Attention de DeepSeek-V2, qui compresse les tenseurs KV et réduit la mémoire nécessaire d'un facteur 10 à 20. Résultat : 770 millions de paramètres qui, selon l'auteur, rivalisent avec un transformer standard de 1,3 milliard. Ce qui distingue fondamentalement cette architecture est que le raisonnement se déroule entièrement dans un espace latent continu, sans émission de tokens intermédiaires entre les étapes de boucle. Des travaux académiques récents, notamment Saunshi et al. (2025) et le projet COCONUT (2024), montrent formellement que chaque itération d'un RDT équivaut fonctionnellement à une étape de chain-of-thought, mais dans l'espace des vecteurs réels plutôt que des tokens discrets. Cette distinction est capitale : le modèle peut encoder plusieurs alternatives en parallèle à chaque passe, là où le chain-of-thought classique force un chemin unique et séquentiel. En pratique, cela permettrait d'obtenir des capacités de raisonnement profondes avec nettement moins de paramètres stockés, la profondeur étant une fonction du nombre d'itérations à l'inférence, et non de la taille du modèle. OpenMythos s'inscrit dans une tendance croissante de reverse engineering public des grands modèles propriétaires. Anthropic, comme OpenAI, publie peu sur ses choix architecturaux, ce qui pousse la communauté à reconstruire ces systèmes par inférence à partir des brevets, des papiers cités et des comportements observés. Les RDT ne sont pas nouveaux, des travaux de Universal Transformers (Dehghani et al., 2018) aux recherches récentes sur les looped networks, mais leur application à l'échelle des modèles commerciaux reste peu documentée. Si l'hypothèse de Gomez s'avère correcte ou même partiellement juste, elle aurait des implications importantes sur la façon dont l'industrie envisage le rapport entre taille de modèle et capacité de raisonnement, ouvrant potentiellement la voie à des architectures plus efficaces accessibles à des acteurs disposant de moins de ressources computationnelles.

RecherchePaper

1 source

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

41

3MarkTechPost

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper

1 source

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

41

4MarkTechPost

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche, ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv. Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser, via des tokens explicites ` et `, renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène. La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

UELes poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

RecherchePaper

1 source

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

À lire aussi

Robbyant d'Ant Group publie en open source LingBot-Vision, un modèle de vision de 1 milliard de paramètres pour la perception spatiale dense

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel