Aller au contenu principal
TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
RechercheMarkTechPost13sem· 2 min de lecture

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Source originale ↗·

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv.

Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites <present> et <absent> — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène.

La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

Impact France/UE

Les poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions
1arXiv cs.RO 

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

Des chercheurs ont publié SpaCeFormer, un nouveau modèle de segmentation d'instances 3D en vocabulaire ouvert capable d'analyser une scène entière en seulement 0,14 seconde, soit 100 à 1000 fois plus vite que les pipelines existants combinant vision 2D et reconstruction 3D. Le modèle repose sur un transformeur dit « space-curve » sans proposition préalable, qui combine une attention par fenêtres spatiales avec une sérialisation via la courbe de Morton pour produire des caractéristiques cohérentes dans l'espace. Un décodeur amélioré par RoPE prédit ensuite directement les masques d'instances à partir de requêtes apprises, sans faire appel à des propositions de régions externes. Pour l'entraîner, les auteurs ont constitué SpaCeFormer-3M, le plus grand jeu de données de segmentation 3D en vocabulaire ouvert jamais créé : 3 millions de légendes cohérentes sur plusieurs vues, couvrant 604 000 instances issues de 7 400 scènes. Ce dataset atteint un rappel de masques 21 fois supérieur aux approches monovues précédentes, soit 54,3 % contre 2,5 % à un seuil IoU supérieur à 0,5. Les performances obtenues sur les benchmarks de référence illustrent un saut qualitatif significatif. Sur ScanNet200, SpaCeFormer atteint un score mAP zero-shot de 11,1, soit 2,8 fois mieux que la meilleure méthode sans proposition antérieure. Sur ScanNet++ et Replica, il dépasse respectivement 22,9 et 24,1 mAP, surpassant tous les modèles précédents y compris ceux exploitant des entrées 2D multi-vues. Cette combinaison de vitesse et de précision ouvre la voie à des applications temps réel dans des environnements non structurés, où les catégories d'objets ne peuvent pas être définies à l'avance. La segmentation d'instances 3D en vocabulaire ouvert est une brique fondamentale pour la robotique autonome et la réalité augmentée ou virtuelle : un robot ou un casque AR doit pouvoir identifier et délimiter n'importe quel objet dans une scène, même inconnu. Les méthodes antérieures souffraient soit d'une latence prohibitive liée à l'agrégation de sorties de modèles fondationnaux sur plusieurs centaines de secondes, soit d'une fragmentation des masques due à l'absence de cohérence multi-vues. SpaCeFormer résout les deux verrous simultanément, et la mise à disposition publique du dataset SpaCeFormer-3M devrait accélérer les travaux de la communauté sur ce problème.

RecherchePaper
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
2MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
TabFM de Google AI : un modèle de fondation tabulaire à attention hybride pour la classification et la régression sans apprentissage préalable
3MarkTechPost 

TabFM de Google AI : un modèle de fondation tabulaire à attention hybride pour la classification et la régression sans apprentissage préalable

Google Research a présenté TabFM, un modèle de fondation conçu pour les données tabulaires, disponible dès maintenant sur Hugging Face et GitHub. Contrairement aux approches classiques, TabFM effectue de la classification et de la régression sur des tableaux jamais vus auparavant sans aucun entraînement spécifique, sans réglage d'hyperparamètres ni ingénierie de variables : chaque prédiction sort d'un seul passage direct dans le modèle. L'ensemble du jeu de données, exemples d'entraînement et lignes à prédire compris, est traité comme un unique prompt géant, sur lequel le modèle applique de l'apprentissage en contexte. L'architecture combine deux approches existantes : l'attention alternée ligne/colonne inspirée de TabPFN, qui capture les interactions entre variables, et le mécanisme d'apprentissage en contexte de TabICL, appliqué après compression de chaque ligne en un vecteur dense pour limiter le coût de calcul. Le modèle a été entraîné exclusivement sur des centaines de millions de jeux de données synthétiques, générés à partir de modèles causaux structurels intégrant des fonctions aléatoires variées. Il a été évalué sur TabArena, un benchmark évolutif basé sur des scores Elo, couvrant 38 jeux de données de classification et 13 de régression. Google prévoit par ailleurs d'intégrer TabFM à BigQuery via une future commande SQL nommée AI.PREDICT. L'enjeu pour les entreprises est concret : les données tabulaires sont au cœur de l'infrastructure décisionnelle, qu'il s'agisse de détecter un risque de résiliation client ou une fraude financière. Jusqu'ici, les méthodes à base d'arbres comme XGBoost, AdaBoost ou les forêts aléatoires dominaient ce terrain grâce à leur robustesse, mais au prix d'un travail manuel conséquent : ajuster un XGBoost à un nouveau jeu de données demande rarement un simple appel de fonction, et les data scientists passent souvent des heures à optimiser les hyperparamètres et façonner les variables avant d'obtenir un signal fiable. En supprimant cette étape, TabFM promet de réduire drastiquement le temps nécessaire pour exploiter un nouveau jeu de données, tout en rendant l'analyse tabulaire accessible sans expertise poussée en modélisation. Cette annonce s'inscrit dans une logique plus large chez Google, qui présente TabFM comme l'équivalent tabulaire de TimesFM, son modèle zéro-shot dédié aux séries temporelles. L'idée est de transposer aux tableaux le succès du apprentissage en contexte popularisé par les grands modèles de langage, capables d'apprendre une nouvelle tâche à partir d'exemples sans mise à jour de leurs poids. Le principal obstacle restait la rareté des données tabulaires ouvertes de qualité, les jeux industriels étant souvent propriétaires ou sensibles, d'où le recours massif à des données synthétiques pour l'entraînement. Reste à voir si les performances observées sur TabArena se confirmeront face aux méthodes à base d'arbres sur des cas d'usage réels en production.

RechercheOpinion
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
4MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic