RechercheVentureBeat AI · 12 juin 2026, 18:39· 2 min de lecture

PixelRAG surpasse les analyseurs de texte en précision et réduit de 10 fois le coût en tokens des agents IA

Résumé IASource uniqueImpact UE Pourquoi ça compte

Une équipe de chercheurs des universités UC Berkeley, Princeton et EPFL, en collaboration avec Databricks, a publié cette semaine un article présentant PixelRAG, un système de recherche augmentée par récupération (RAG) qui abandonne complètement l'étape de conversion en texte des pages web. Plutôt que de transformer le HTML en texte brut avant de l'indexer, PixelRAG prend des captures d'écran des pages, découpe ces images en tuiles de 1 024 pixels et les encode directement dans un index vectoriel interrogeable par un modèle de langage à vision. Le système a été testé sur 30 millions de tuiles couvrant l'intégralité des 7 millions d'articles de Wikipédia, et surpasse les pipelines RAG traditionnels sur six benchmarks distincts, avec un gain de précision allant jusqu'à 18,1 % par rapport aux approches textuelles.

L'enjeu est considérable pour toutes les entreprises qui déploient des agents IA sur leurs bases documentaires internes ou sur le web ouvert. Les pipelines RAG actuels échouent pour trois raisons mesurables : la conversion HTML détruit 36,6 % des réponses avant même l'indexation, les infoboxes bourrées de mots-clés écrasent les paragraphes pertinents dans 55,2 % des cas, et les 8,2 % restants sont perdus lors de la lecture finale à cause d'une mise en forme aplatie. PixelRAG contourne ces trois problèmes d'un coup en conservant la hiérarchie visuelle, les tableaux, le gras et la mise en page, que les parseurs textuels éliminent irrémédiablement. Le système réduit également les coûts en tokens des agents IA d'un facteur 10, puisque les tuiles images sont bien plus compactes que les longues chaînes de texte nettoyé qu'un parseur produit habituellement.

L'architecture repose sur quatre étapes entièrement visuelles : le rendu des pages via Playwright à une largeur fixe de 875 pixels, leur découpage en tuiles stockées localement hors ligne, leur encodage en vecteurs de 2 048 dimensions grâce au modèle Qwen3-VL-Embedding-2B dans un index FAISS d'environ 120 Go, et enfin la lecture par un modèle vision-langage capable d'interpréter simultanément contenu et mise en page. Le choix de cette approche reflète une conviction plus large des auteurs : améliorer les parseurs est une course sans fin, chaque site web exigeant un traitement sur mesure, alors que les modèles de vision récents permettent désormais de traiter directement la page rendue comme le ferait un humain. Yichuan Wang, doctorant à UC Berkeley et auteur principal, résume l'ambition : construire un système de récupération universel, sans ingénierie spécifique par site, en s'appuyant sur les progrès rapides des modèles multimodaux.

Impact France/UE

La participation de l'EPFL à cette recherche représente une contribution européenne ; les entreprises du continent déployant des agents IA sur des bases documentaires pourront bénéficier d'une réduction de coûts en tokens si l'approche est adoptée.

💬 L'analyse de Mathieu

Arrêter d'améliorer les parseurs et passer aux screenshots directement, c'est le genre de pivot qu'on n'ose pas faire parce que ça remet tout en question. Là, Berkeley, Princeton et l'EPFL montrent que ça marche vraiment, avec 18% de gain en précision et un facteur 10 sur les tokens. Reste à voir ce que ça donne à l'échelle d'une base documentaire d'entreprise, mais sur le principe, c'est du solide.

Dans nos dossiers

Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA

Des chercheurs du King's College London et de l'Alan Turing Institute ont développé xMemory, une nouvelle technique de mémoire pour les agents d'intelligence artificielle conçus pour fonctionner sur de longues durées et plusieurs sessions. Le problème qu'ils cherchent à résoudre est concret : les pipelines RAG (Retrieval-Augmented Generation) standard, qui permettent aux LLMs de puiser dans des données externes, ne sont pas adaptés aux assistants persistants. xMemory organise les conversations en une hiérarchie structurée de thèmes sémantiques, puis les recherche de haut en bas, du thème général vers les détails bruts, au lieu de faire des recherches directes dans les journaux de conversation bruts. Les résultats sont significatifs : selon les chercheurs, le système ramène la consommation de tokens de plus de 9 000 à environ 4 700 tokens par requête sur certaines tâches, tout en améliorant la qualité des réponses et le raisonnement sur le long terme. L'enjeu est majeur pour les entreprises qui déploient des agents IA dans des contextes métiers, assistants personnalisés, outils de décision multi-sessions, support client continu. Le problème fondamental du RAG classique dans ce contexte, c'est que la mémoire d'un agent n'est pas une base de données diverse, mais un flux continu et corrélé de conversations. Les passages récupérés se ressemblent souvent, contiennent des quasi-doublons, et sont liés par des coréférences et des dépendances temporelles strictes. Résultat : les systèmes classiques récupèrent trop d'informations similaires sur un même sujet, par exemple, plusieurs variantes de "j'aime les oranges", en ratant des faits catégoriels essentiels pour répondre à la vraie question. Les tentatives de correction par filtrage ou compression après récupération aggravent souvent le problème, car elles suppriment accidentellement des éléments de contexte indispensables. L'approche xMemory repose sur un principe qu'ils appellent "découplage vers agrégation" : au lieu d'interroger directement les logs de conversation, le système décompose d'abord le flux en faits sémantiques distincts et autonomes, puis les regroupe dans une hiérarchie de thèmes. Cette structure évite la redondance, deux passages similaires assignés à des composants sémantiques différents ne seront pas récupérés ensemble. C'est une réponse directe à l'un des angles morts les plus sous-estimés du déploiement LLM en entreprise : la gestion de la mémoire à long terme. Alors que la demande pour des agents IA cohérents et personnalisés explose, xMemory propose une architecture qui réduit à la fois les coûts de calcul et les hallucinations liées à une mémoire mal gérée, un double gain qui pourrait rapidement influencer la façon dont les équipes d'ingénierie construisent leurs pipelines d'agents persistants.

UELa recherche, menée par le King's College London et l'Alan Turing Institute, pourrait influencer les architectures d'agents IA adoptées par les équipes d'ingénierie européennes cherchant à réduire les coûts de déploiement et améliorer la cohérence des assistants persistants.

RecherchePaper

1 source

2VentureBeat AI

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Une équipe de chercheurs issue de six institutions américaines, NYU, Columbia, Princeton, l'Université du Maryland, Harvard et le Lawrence Livermore National Laboratory, a publié cette semaine un article présentant les Latent Context Language Models (LCLMs), une nouvelle famille de modèles encodeur-décodeur capables de compresser le contexte d'entrée avant qu'il n'atteigne le décodeur. Résultat : une réduction du contexte jusqu'à 16 fois, avec des sorties générées 8,8 fois plus rapidement que les méthodes actuelles de référence sur le benchmark RULER. À un taux de compression de 4x, la précision atteint 91,76 % contre 94,41 % sans compression, soit moins de 3 points de perte pour diviser la taille du contexte par quatre. À 16x, où 93,75 % des tokens d'entrée sont supprimés, la précision descend à 75,06 %, mais surpasse encore toutes les méthodes de compression KV cache testées au même ratio. L'architecture repose sur un encodeur de 0,6 milliard de paramètres couplé à un décodeur de 4 milliards, entraîné sur plus de 350 milliards de tokens. Les modèles sont disponibles en open source sur HuggingFace. Ce travail s'attaque à un goulot d'étranglement croissant dans les systèmes d'IA en production : plus un agent fonctionne longtemps, plus il accumule de tokens issus de documents récupérés, de traces de raisonnement et d'historique de conversation, et plus la mémoire et le calcul nécessaires explosent. Contrairement aux méthodes de compression KV cache dominantes, qui chargent quand même le cache complet avant d'en supprimer des entrées, les LCLMs compriment la séquence de tokens en amont, ce qui réduit directement la charge côté décodeur. « Notre objectif était d'entraîner des modèles de bout en bout capables de gérer des contextes très longs de manière efficace et précise. Si vous y parvenez, tout devient moins cher et plus rapide », explique Micah Goldblum, co-responsable du projet et chercheur à Columbia. Les gains se confirment aussi sur des entrées courtes : sur GSM8K, un benchmark de problèmes mathématiques, les LCLMs surpassent toutes les autres méthodes testées, quel que soit le taux de compression. La compression de contexte n'est pas un problème nouveau, mais la plupart des solutions existantes souffrent d'un compromis rédhibitoire en production : soit elles dégradent trop la précision, soit les économies de mémoire ne se traduisent pas en gains de vitesse réels dans les infrastructures de déploiement standard. Les LCLMs sont conçus pour s'intégrer directement dans une architecture agentique existante, il suffit de faire passer les documents récupérés par le compresseur avant de les injecter dans le contexte du modèle. L'équipe a également démontré comment construire des agents capables de décompresser sélectivement les passages pertinents, à la manière d'un lecteur qui parcourt rapidement un texte avant de zoomer sur les détails utiles. Avec la montée en puissance des systèmes d'agents longs et des pipelines RAG à grande échelle, ce type de compression en amont pourrait devenir une brique technique incontournable pour maîtriser les coûts d'inférence.

UELes startups et entreprises européennes développant des agents IA ou des pipelines RAG pourraient bénéficier indirectement de cette technique open source pour réduire leurs coûts d'inférence sans impact spécifique à la France ou à l'UE.

💬 Moins de 3 points de précision pour diviser le contexte par 4, c'est le compromis qu'on attendait pour que ça tienne en prod. Ce qui tranche avec les approches KV cache, c'est que la compression se fait en amont du décodeur : les gains se traduisent en vitesse réelle, pas juste en mémoire sur le papier. Si tu fais du RAG ou de l'agentique, ça vaut le détour sur HuggingFace cette semaine.

RecherchePaper

1 source

3VentureBeat AI

RecursiveMAS accélère l'inférence multi-agents de 2,4x et réduit l'usage des tokens de 75 %

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign et de l'Université Stanford ont développé RecursiveMAS, un nouveau cadre pour systèmes multi-agents qui multiplie la vitesse d'inférence par 2,4 et réduit l'utilisation de tokens de 75 %. Le principe central est de remplacer la communication textuelle entre agents par des échanges dans l'espace des représentations latentes (embeddings). Concrètement, plutôt que chaque agent génère du texte que le suivant doit lire et interpréter, les agents se transmettent directement leurs représentations vectorielles internes, évitant toute génération de tokens intermédiaires. Le système s'inspire des modèles de langage récursifs, dans lesquels un ensemble de couches partagées traite les données en boucle pour approfondir le raisonnement sans ajouter de paramètres. Dans RecursiveMAS, chaque agent joue le rôle d'une couche : il reçoit une représentation latente, la traite, puis la passe au suivant. Après le dernier agent, les sorties sont renvoyées au premier, déclenchant un nouveau cycle de raisonnement. Seul l'agent final produit un texte à la dernière itération. Les expériences montrent des gains de précision sur des domaines exigeants comme la génération de code, le raisonnement médical et la recherche d'information. L'impact de cette architecture est direct et mesurable pour les équipes qui développent ou déploient des systèmes d'IA complexes. Une accélération de 2,4 fois de l'inférence et une réduction de 75 % des tokens utilisés signifient des coûts de calcul et d'API considérablement réduits à l'échelle. RecursiveMAS est également nettement moins coûteux à entraîner que les méthodes classiques de fine-tuning complet ou les approches LoRA, ce qui en fait une option viable pour des équipes aux ressources limitées. En permettant d'entraîner l'ensemble du système comme une unité cohérente plutôt que comme une collection d'agents isolés, le cadre ouvre la voie à des systèmes capables de s'adapter et de s'améliorer collectivement au fil du temps, sans les goulots d'étranglement typiques de la génération séquentielle de texte. Les systèmes multi-agents ont émergé comme une réponse aux limites des modèles de langage individuels face à des tâches complexes nécessitant coordination, vérification ou spécialisation. Mais leur passage à l'échelle bute sur un problème fondamental : la communication par texte impose une séquentialité coûteuse, chaque agent devant attendre que le précédent ait terminé de générer sa réponse avant de commencer sa propre analyse. Des approches comme le prompt engineering ou le fine-tuning individuel n'adressent qu'une partie du problème. RecursiveMAS propose une rupture architecturale en traitant le système entier comme un seul modèle récursif unifié. Si les résultats expérimentaux se confirment en conditions réelles, cette approche pourrait redéfinir la manière dont les architectures multi-agents sont conçues et optimisées, avec des implications importantes pour l'IA appliquée à la médecine, au droit, à la programmation et à la recherche scientifique.

UELes équipes européennes développant des pipelines multi-agents pourraient bénéficier indirectement de réductions de coûts de calcul si cette architecture de recherche est adoptée et intégrée dans des frameworks open source.

💬 Passer les embeddings directement entre agents plutôt que de générer du texte à chaque étape, c'est une idée qui aurait dû arriver il y a deux ans. 75 % de tokens en moins et 2,4x plus vite sur du code et du raisonnement médical, c'est pas du flan. Bon, sur le papier c'est Illinois et Stanford, mais faut que LangGraph ou un équivalent s'en empare pour que ça compte vraiment en prod.

RecherchePaper

1 source

4VentureBeat AI

L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger

Des chercheurs de Redis ont publié une étude révélant qu'affiner les modèles d'embeddings pour améliorer la précision d'un système RAG peut réduire silencieusement la qualité de récupération générale jusqu'à 40 %. Le papier, intitulé "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization", a été conduit par Srijith Rajamohan, responsable de la recherche en IA chez Redis, et ses coauteurs. L'équipe a testé ce qui se produit lorsqu'on entraîne un modèle d'embedding à détecter des phrases quasi-identiques mais de sens opposé, par exemple une négation qui inverse complètement la signification d'une phrase. Résultat : cette sensibilité compositionnelle améliore effectivement la précision ciblée, mais détruit la capacité du modèle à récupérer correctement des documents sur des sujets variés qu'il n'a pas appris à traiter spécifiquement. La dégradation atteint 8 à 9 % sur les petits modèles, et jusqu'à 40 % sur un modèle d'embedding de taille intermédiaire actuellement utilisé en production dans de nombreuses entreprises. Les conséquences sont particulièrement sévères pour les pipelines agentiques, où une erreur de récupération ne renvoie pas seulement une mauvaise réponse mais déclenche une cascade d'actions incorrectes en aval. Rajamohan résume le problème central : une forte similarité sémantique ne garantit pas une correspondance exacte d'intention. Les modèles d'embeddings compressent une phrase entière en un seul point dans un espace vectoriel à haute dimension, ce qui fonctionne bien pour la correspondance thématique large, mais échoue quand deux phrases aux mots presque identiques ont des significations opposées. En affinant le modèle pour éloigner ces phrases structurellement différentes, on lui retire l'espace vectoriel qu'il utilisait pour la récupération générale. Les deux objectifs se disputent les mêmes dimensions. L'étude note également que certaines erreurs, notamment les confusions de liaisons grammaticales (quel modificateur s'applique à quel mot dans un contrat, par exemple), ne s'améliorent presque pas avec cet entraînement ciblé, précisément là où une erreur coûte le plus cher. Ce qui rend le problème difficile à diagnostiquer, c'est que les métriques d'évaluation mesurent uniquement la tâche entraînée, pas la régression sur la récupération générale. Elle n'apparaît qu'en production. Les solutions habituelles, comme la recherche hybride combinant embeddings et mots-clés, ou le passage à un modèle plus grand, ne règlent pas le problème architectural sous-jacent. Rajamohan est explicite : "On ne peut pas s'en sortir par la taille." La recherche suggère que les équipes enterprise doivent choisir explicitement entre précision compositionnelle et généralisation large, plutôt que d'optimiser pour l'une en ignorant l'impact sur l'autre. L'enjeu dépasse le seul RAG classique, car les architectures agentiques qui prolifèrent en 2025 et 2026 amplifient chaque erreur de récupération en décision opérationnelle.

UELes entreprises européennes déployant des pipelines RAG agentiques en production sont exposées à ce risque de dégradation silencieuse et doivent revoir leur stratégie d'évaluation des embeddings.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic