Recherche — page 9

671 articles · page 9 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts. Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues. Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

Recherche — page 9

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Le Québec mobilise des fonds pour faire de Montréal un leader mondial de l’intelligence artificielle

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour

Cette IA prédit l’insuffisance cardiaque… 5 ans avant qu’elle n’arrive

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Un quart des citations dans les réponses des chatbots IA provient du journalisme, selon une étude Muckrack

Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises

SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

L'IA d'un jeune professionnel détecte des troubles de santé mentale

Moonlake : les modèles causaux du monde doivent être multimodaux, interactifs et efficaces – Chris Manning et Fan-yun Sun

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Optimisation de politique relative de groupe personnalisée pour l'alignement aux préférences hétérogènes

Améliorer la qualité et la robustesse des systèmes de synthèse vocale basés sur les LLM

ADeLe : prédire et expliquer les performances de l'IA selon les tâches

Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas

Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place

Toutes les IA échouent à ce test d’humanité

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x

Cette IA peut créer de nouveaux génomes

IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle

A-Evolve : l'équivalent PyTorch pour les systèmes d'agents autonomes, remplaçant le réglage manuel par la mutation d'état automatisée et l'auto-correction

MetaClaw entraîne des agents IA pendant vos réunions en consultant Google Calendar

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer

OPINION. « Quand le chat avalera le perroquet »

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

TRIBE v2 : Meta lance une IA capable de simuler les réactions du cerveau

TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche

TRIBE v2 (Meta) : l'IA qui lit le cerveau humain

L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états

Athena : représentations intermédiaires pour la génération itérative d'applications guidée par LLM

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action