Aller au contenu principal
TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
RechercheMarkTechPost1h

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

1 source couvre ce sujet·Source originale ↗·

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv.

Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites <present> et <absent> — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène.

La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

Impact France/UE

Les poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

À lire aussi

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic
1Le Big Data 

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper
1 source
L'IA d'un jeune professionnel détecte des troubles de santé mentale
2IEEE Spectrum AI 

L'IA d'un jeune professionnel détecte des troubles de santé mentale

Abhishek Appaji, professeur associé en ingénierie de l'électronique médicale au B.M.S. College of Engineering de Bengaluru, en Inde, vient d'être désigné lauréat du prix IEEE Theodore W. Hissey Outstanding Young Professional Award 2026, qui sera remis ce mois-ci lors de la cérémonie IEEE Honors à New York. Membre senior de l'IEEE, ce chercheur de 36 ans a consacré sa carrière au développement d'outils diagnostiques alimentés par l'intelligence artificielle destinés aux communautés les moins bien desservies. Parmi ses réalisations déployées dans des zones reculées de l'Inde figurent une machine d'analyse rétinienne capable de détecter diverses pathologies, ainsi qu'un lit connecté surveillant en continu les constantes vitales des patients. Il est également co-fondateur de Glucotek, une startup basée à Brisbane, en Australie, née d'un bootcamp entrepreneurial au MIT en 2017, dont l'objectif initial était de mettre au point un dispositif non invasif de mesure de la glycémie pour gérer le diabète gestationnel. L'impact de ses travaux dépasse largement le cadre académique. En ciblant délibérément les populations éloignées des grands centres hospitaliers, Appaji cherche à combler le fossé entre innovation technologique et accès aux soins. Ses outils permettent à des médecins généralistes ou à du personnel paramédical de réaliser des diagnostics qui nécessitaient auparavant des équipements coûteux ou des spécialistes absents de ces régions. Sa thèse de doctorat, soutenue à l'Université de Maastricht aux Pays-Bas et portant sur les méthodes computationnelles d'analyse des vaisseaux rétiniens, ouvre une piste diagnostique particulièrement prometteuse : les altérations microvasculaires visibles dans la rétine refléteraient les changements neurovasculaires associés à des troubles psychiatriques comme la schizophrénie ou le trouble bipolaire, offrant potentiellement un moyen de dépistage non invasif de ces conditions. Le parcours d'Appaji illustre une tendance de fond dans la recherche en santé numérique : l'exploitation de l'IA et du deep learning pour transformer des signaux biologiques subtils en outils diagnostiques accessibles et précis. Formé en Inde avant de passer par le MIT et Maastricht, il incarne le profil du chercheur-entrepreneur capable de faire le pont entre laboratoire et marché. Son engagement bénévole au sein de l'IEEE Young Professionals Bangalore Section, où il a mis en place des programmes de mentorat et des ateliers technologiques, témoigne d'une vision plus large : former la prochaine génération d'ingénieurs à produire un impact concret. Alors que les systèmes de santé des pays à revenus intermédiaires cherchent à intégrer l'IA sans exploser leurs budgets, les approches développées par Appaji pourraient servir de modèle pour une médecine de précision véritablement inclusive.

RecherchePaper
1 source
Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun
3Latent Space 

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Moonlake AI, une startup cofondée par Chris Manning (professeur à Stanford et co-auteur de travaux fondateurs en NLP) et Fan-Yun Sun, propose une approche radicalement différente des modèles de monde actuels. Présentée notamment lors de la Game Developers Conference 2026, l'entreprise mise sur des modèles causaux, multimodaux et efficaces, capables de simuler des environnements interactifs avec de multiples joueurs simultanés, une durée de vie indéfinie et une physique cohérente. Moonlake vient de lancer une Creator Cup dotée de 30 000 dollars pour stimuler l'adoption de ses outils par la communauté de développeurs. L'approche repose sur le bootstrapping à partir de moteurs de jeu existants et l'entraînement d'agents personnalisés, permettant de simuler des environnements, prédire des résultats et planifier sur des horizons longs. Là où des systèmes comme Genie 3 de Google souffrent de limitations significatives — clipping de terrain, absence d'interactivité réelle, immersion plafonnée à 60 secondes — Moonlake s'attaque à ces défauts structurels par une philosophie différente : la structure et la causalité plutôt que la mise à l'échelle aveugle. Comme le soulignent Manning, Sun et Ian Goodfellow dans leur article "Towards Efficient World Models", les modèles état-de-l'art présentent encore des incohérences physiques flagrantes — objets solides flottant dans les airs ou se traversant mutuellement. Leur argument central : pour planifier une action, une vue en haute résolution pixel par pixel est rarement nécessaire. Des représentations partielles combinées à une compréhension sémantique suffisent dans la quasi-totalité des cas, ce qui rend les architectures actuelles surdimensionnées et inefficaces pour la plupart des tâches à valeur économique réelle. Ce projet s'inscrit dans une course intense autour des modèles de monde, où Nvidia, Waymo, Tesla et Google ont chacun publié leurs propres approches ces derniers mois. Yann LeCun a parallèlement levé 1 milliard de dollars pour AMI et publié LeWorldModel, témoignant de l'enjeu stratégique majeur que représente cette technologie pour l'IA incarnée et la robotique. Moonlake se distingue en choisissant les moteurs de jeu comme point de départ d'abstraction, jugeant qu'ils sont mieux adaptés que l'apprentissage pur pour extraire des relations causales fiables entre actions et observations. La présence de l'équipe au GDC 2026 et la diversité des mondes déjà construits par la communauté avec leurs outils suggèrent que cette approche suscite un intérêt concret bien au-delà du cercle académique.

RecherchePaper
1 source
Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain
4Le Big Data 

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Meta a présenté le 26 mars 2026 TRIBE v2 (Trimodal Brain Encoder), un modèle d'intelligence artificielle open source capable de prédire l'activité cérébrale humaine en réponse à une image, un son ou un texte. Entraîné sur plus de 500 heures d'enregistrements IRM fonctionnelle issus de plus de 700 participants, le modèle simule l'activation de près de 70 000 voxels cérébraux — des unités tridimensionnelles qui traduisent les variations de flux sanguin dans le cerveau. Son architecture repose sur trois étages : des encodeurs spécialisés par modalité (V-JEPA pour la vision, Wav2Vec2-BERT pour l'audio, Llama 3.x pour le texte), un module Transformer qui aligne ces signaux dans le temps pour tenir compte du délai entre perception et activation cérébrale, puis une couche de projection qui produit une carte prédictive des activations. Les performances annoncées sont deux à trois fois supérieures aux approches antérieures, et le modèle fonctionne en zero-shot : il prédit l'activité d'un nouveau sujet sans recalibrage individuel préalable, ce qui est rare dans ce domaine. Cette capacité de généralisation change la donne pour la recherche en neurosciences cognitives. Jusqu'ici, tout travail d'exploration cérébrale exigeait un accès à un scanner IRM, une infrastructure lourde et coûteuse. TRIBE v2 ouvre la possibilité de simuler des réponses cérébrales à grande échelle, à partir de n'importe quel contenu numérique, sans contrainte matérielle. Pour les chercheurs en perception sensorielle, en troubles cognitifs ou en interfaces cerveau-machine, cela représente un accélérateur potentiel considérable. Dans l'industrie, le modèle pourrait être utilisé pour évaluer l'impact attentionnel d'un contenu publicitaire, d'une interface ou d'un environnement sonore — des applications qui posent déjà des questions éthiques sur l'usage de modèles prédictifs du comportement cérébral. TRIBE v2 s'inscrit dans une trajectoire entamée avec la première version du modèle, qui avait remporté l'Algonauts 2025 Brain Encoding Challenge, une compétition internationale de référence sur la prédiction de l'activité cérébrale. Meta franchit ici une étape qualitative en passant d'un modèle sujet-spécifique à un modèle généraliste, capable de capturer des régularités cérébrales communes à travers une population large et diversifiée. La décision de publier TRIBE v2 en open source reflète la stratégie globale de Meta AI en matière de recherche fondamentale : rendre les outils disponibles à la communauté scientifique pour accélérer l'adoption et positionner l'entreprise comme acteur central de l'IA cognitive. Reste à voir comment la communauté s'emparera de ces capacités, et quels garde-fous encadreront des usages potentiellement intrusifs de la modélisation cérébrale prédictive.

UELes chercheurs européens en neurosciences cognitives peuvent accéder librement à TRIBE v2 pour simuler des réponses cérébrales à grande échelle sans infrastructure IRM, ouvrant de nouvelles perspectives pour la recherche sur les troubles cognitifs et les interfaces cerveau-machine.

💬 Le zero-shot sur des prédictions d'activité cérébrale, c'est le truc qui m'impressionne ici, pas la com' de Meta. Jusqu'ici, tout modèle de ce genre demandait un recalibrage par sujet, une IRM, une infra complète — là, tu balances un contenu, le modèle te sort une carte d'activation sans scanner. La question c'est pas si la recherche en neurosciences va s'en emparer, c'est si les équipes pub' vont l'utiliser avant elles.

RecherchePaper
1 source