Aller au contenu principal
OutilsMarkTechPost6h· 2 min de lecture

Le titre traduit : « Tutoriel RAG-Anything : créer un pipeline de récupération multimodal pour texte, tableaux, équations et images dans Colab »

Source originale ↗·

Un tutoriel publié sur MarkTechPost détaille la construction d'un pipeline de récupération multimodale baptisé RAG-Anything, conçu pour traiter simultanément du texte, des tableaux, des équations et des images au sein d'un notebook Google Colab. Le processus démarre par l'installation des dépendances nécessaires, notamment les bibliothèques raganything avec les extensions image et texte, le SDK OpenAI en version 1.0.0 ou supérieure, ainsi que reportlab, pandas, matplotlib et tabulate. Une attention particulière est portée à la bibliothèque Pillow, réinstallée en version 11.3.0 pour éviter les conflits de dépendances, avec un nettoyage systématique du cache des modules Python avant et après cette opération. Le tutoriel configure ensuite un environnement de travail structuré avec des répertoires dédiés aux ressources, aux sorties, au stockage et aux journaux, tout en définissant des paramètres d'exécution comme une taille de chunk de 900 caractères, un chevauchement de 120 caractères et un délai d'expiration de 240 secondes pour les appels aux modèles. La clé API OpenAI est saisie de façon sécurisée au moment de l'exécution plutôt que stockée en dur, une pratique destinée à garder le notebook sûr à partager et à réutiliser.

Ce type de démonstration importe car il illustre une tendance de fond dans le développement d'applications basées sur les grands modèles de langage : le passage de systèmes de récupération d'information limités au texte brut vers des architectures capables d'ingérer des documents complexes mêlant graphiques, tableaux de données et formules mathématiques. Pour les équipes techniques qui construisent des assistants documentaires, des outils de recherche interne ou des chatbots d'entreprise, la capacité à interroger un rapport contenant à la fois du texte narratif et des visualisations sans perte d'information représente un gain concret de fidélité et de pertinence des réponses. Le tutoriel montre également comment configurer des fonctions distinctes pour le chat, la vision et les embeddings via l'API OpenAI, une architecture modulaire qui permet d'adapter chaque composant du pipeline à un modèle spécifique selon les besoins de coût ou de performance.

Le contexte plus large de ce tutoriel s'inscrit dans l'essor rapide des architectures RAG, ou génération augmentée par récupération, qui combinent des bases de connaissances externes avec la puissance générative des modèles de langage pour produire des réponses ancrées dans des données réelles et vérifiables. Alors que la première génération d'outils RAG se concentrait presque exclusivement sur des corpus textuels, la demande croissante pour des systèmes capables de traiter des rapports financiers, des articles scientifiques ou des documents techniques riches en tableaux et en schémas a poussé des projets comme RAG-Anything à émerger. Le tutoriel teste plusieurs modes de récupération, naïf, local, global et hybride, chacun offrant un compromis différent entre rapidité, précision et compréhension contextuelle. Cette diversité de modes reflète les choix auxquels sont confrontées les équipes qui déploient ces systèmes en production, où le bon équilibre dépend souvent de la nature des documents traités et du volume de requêtes à traiter.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Tutoriel Google ADK : pipeline multi-agents pour chargement de données, tests statistiques, visualisation et rapports en Python

Google a publié son Agent Development Kit (ADK), un framework Python open source permettant de construire des systèmes multi-agents capables de réaliser des analyses de données complexes de bout en bout. Un tutoriel détaillé illustre comment assembler un pipeline complet en Python, en utilisant Google ADK aux côtés de bibliothèques établies comme pandas, numpy, scipy, matplotlib et seaborn, ainsi que le modèle GPT-4o-mini d'OpenAI via l'interface LiteLLM. Le système s'articule autour d'un agent analyste central qui orchestre plusieurs agents spécialisés, chacun responsable d'une tâche précise : chargement des données, exploration statistique, tests d'hypothèses, transformations de tableaux, génération de visualisations et production de rapports. L'installation ne nécessite que quelques commandes pip, et l'accès à l'API est sécurisé dès le départ via des variables d'environnement ou les secrets Colab. Ce type d'architecture multi-agents représente un changement concret dans la façon dont les data scientists et les équipes analytiques peuvent automatiser leurs flux de travail. Plutôt que d'enchaîner manuellement des scripts disparates, un agent coordinateur distribue les tâches à des spécialistes, ce qui rend le pipeline modulaire, testable et extensible sans réécriture complète. L'utilisation d'un DataStore centralisé sous forme de singleton garantit que tous les agents partagent le même état et que les résultats intermédiaires restent accessibles tout au long du processus. Pour les entreprises qui manipulent régulièrement de grands volumes de données, ce modèle réduit la friction opérationnelle et ouvre la voie à des analyses reproductibles pilotées par des LLMs, sans dépendre d'une infrastructure lourde. L'annonce s'inscrit dans une tendance plus large : depuis début 2025, plusieurs acteurs majeurs ont lancé leurs propres frameworks d'agents IA, notamment Microsoft avec AutoGen, Anthropic avec son Model Context Protocol, et OpenAI avec ses Assistants API. Google ADK se distingue par son intégration native avec l'écosystème Google Cloud et sa compatibilité avec des modèles tiers via LiteLLM, ce qui le rend agnostique au fournisseur. Le tutoriel cible explicitement un usage en production, avec gestion des erreurs, sérialisation JSON robuste et sessions en mémoire via InMemorySessionService. La prochaine étape logique serait l'intégration avec des sources de données réelles, des bases de données SQL ou des API métier, transformant ce pipeline pédagogique en socle d'une véritable plateforme d'analyse autonome.

OutilsOutil
1 source
Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals
2AWS ML Blog 

Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals

Amazon a annoncé le lancement de quatre nouveaux évaluateurs multimodaux dans son SDK Strands Evals, conçus pour juger automatiquement la qualité des réponses textuelles générées à partir d'images. Baptisés Overall Quality, Correctness, Faithfulness et Instruction Following, ces évaluateurs fonctionnent sur Amazon Bedrock et s'intègrent directement dans le flux de travail Case/Experiment/Report de Strands Evals. Leur principe : envoyer l'image source, la requête et la réponse du modèle à un modèle juge multimodal, qui retourne un score (sur une échelle de Likert 1-5 ou binaire) accompagné d'un raisonnement exploitable pour le débogage. Ils supportent deux modes d'évaluation, avec ou sans réponse de référence, et peuvent être branchés directement dans des pipelines d'intégration continue pour détecter automatiquement hallucinations visuelles, erreurs factuelles et violations d'instructions. La limitation des évaluateurs textuels classiques est au coeur de cette annonce. Un juge qui ne voit pas l'image peut valider un texte bien rédigé tout en laissant passer des erreurs critiques : un modèle qui invente une tendance dans un graphique qui ne la montre pas, hallucine un produit absent d'une photo, ou ignore une instruction de format. Ces trois types d'échecs nécessitent trois types de corrections différents, et les agréger en un seul score global rend le débogage quasi impossible. Sans évaluation multimodale automatisée, les équipes sont coincées entre la revue humaine, coûteuse et non scalable, et des proxys textuels qui manquent précisément les défaillances qui comptent, notamment dans des cas d'usage comme la lecture de factures, l'analyse de tableaux de bord ou la description de captures d'écran. L'enjeu est considérable à l'échelle de l'industrie. Selon Gartner, 80 % des logiciels d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Cette transition rapide pousse les équipes d'ingénierie à construire des pipelines d'évaluation capables de suivre la complexité croissante des modèles déployés. Strands Evals s'inscrit dans l'écosystème d'agents IA open source qu'Amazon a commencé à assembler ces derniers mois, avec une ambition claire : fournir une chaîne d'outils complète, de la construction à l'évaluation des agents. Ces quatre évaluateurs représentent une brique manquante pour les équipes qui travaillent sur le commerce visuel, la compréhension de documents ou tout système où la vérité de terrain réside dans l'image et non dans le texte. La prochaine étape logique sera d'étendre ces mécanismes à des modalités supplémentaires, vidéo, audio, à mesure que les modèles fondamentaux gagnent en capacités.

OutilsOutil
1 source
Construire un pipeline complet d'observabilité et d'évaluation Langfuse pour le traçage, la gestion des prompts, le scoring et les expériences
3MarkTechPost 

Construire un pipeline complet d'observabilité et d'évaluation Langfuse pour le traçage, la gestion des prompts, le scoring et les expériences

Langfuse, plateforme open-source d'ingénierie LLM, propose un pipeline complet couvrant quatre dimensions critiques du développement d'applications à base de grands modèles de langage : le tracing des appels, la gestion centralisée des prompts, le scoring d'évaluation et les expérimentations sur datasets. Le tutoriel publié cette semaine détaille une implémentation complète, compatible aussi bien avec l'API OpenAI (notamment le modèle gpt-4o-mini) qu'avec un LLM déterministe simulé, permettant à tout développeur d'explorer chaque fonctionnalité sans dépendre d'un accès payant. L'intégration commence par la connexion au client Langfuse via des clés d'authentification publique et secrète (formats pk-lf- et sk-lf-), avec support des régions EU, US et des instances auto-hébergées. Le pipeline instrumente ensuite des fonctions Python simples puis un mini-pipeline RAG (Retrieval-Augmented Generation), en attachant à chaque appel LLM des métadonnées de trace, un modèle, des paramètres de température et des identifiants de prompt. Pour les équipes qui développent des produits IA en production, cette approche résout un problème central : la boîte noire des LLMs. Avec Langfuse, chaque génération devient observable, chaque prompt est versionné et centralisé, et chaque réponse peut recevoir un score d'évaluation automatique ou humain. Cela permet de détecter les régressions de qualité entre versions de prompts, de comparer les performances de différents modèles sur un même dataset, et de construire une boucle d'amélioration continue documentée. Les équipes produit et ML gagnent une visibilité structurée sur ce qui se passe réellement à l'intérieur de leurs pipelines, ce qui est aujourd'hui l'un des manques les plus critiques dans le déploiement d'applications LLM à l'échelle. Langfuse s'inscrit dans un écosystème en pleine structuration autour de l'observabilité LLM, aux côtés de solutions comme LangSmith (LangChain), Weights & Biases Weave ou Helicone. Sa différenciation principale repose sur son caractère open-source et la possibilité de l'auto-héberger, ce qui répond directement aux contraintes de conformité et de souveraineté des données des entreprises européennes. La montée en maturité de ces outils reflète un tournant dans l'industrie : les LLMs ne sont plus des prototypes à évaluer manuellement, mais des composants de production qui exigent la même rigueur d'ingénierie que n'importe quel service critique. L'intégration native avec le SDK OpenAI via un simple remplacement d'import facilite une adoption progressive, sans refonte d'architecture, ce qui devrait accélérer son adoption dans des stacks existantes.

UELangfuse étant open-source et auto-hébergeable, les entreprises européennes peuvent l'adopter en respectant leurs contraintes RGPD et de souveraineté des données, sans dépendre d'infrastructures américaines.

OutilsOutil
1 source
Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte
4MarkTechPost 

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic