TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel
TinyFish vient de publier BigSet, un système multi-agents open source sous licence AGPL-3.0, conçu pour automatiser la construction de jeux de données structurés à partir du web en langage naturel. Le principe est simple : l'utilisateur décrit en une phrase les données qu'il souhaite obtenir, par exemple "les entreprises YC actuellement en train de recruter des ingénieurs, avec leur stade de financement, leur localisation et le nombre de postes ouverts", et BigSet se charge d'inférer le schéma, de collecter les données sur le web, de dédupliquer les résultats et d'exporter le tout en CSV ou XLSX. Le code source complet est disponible sur GitHub. La génération d'un dataset prend entre 2 et 5 minutes, le temps que les agents effectuent de vraies recherches web. Une fonctionnalité de rafraîchissement automatique permet de maintenir les données à jour selon une cadence paramétrable : 30 minutes, 6 heures, 12 heures, quotidienne ou hebdomadaire.
L'architecture repose sur un pipeline en cinq étapes clairement séparées. Claude Sonnet 4.6, accessible via OpenRouter, intervient en premier pour inférer le schéma : noms de colonnes, types de données, clés primaires et sources potentielles, avant tout accès web. Un agent orchestrateur basé sur Qwen (qwen/qwen3.7-max, via OpenRouter) identifie ensuite les entités correspondant à la description. Des sous-agents sont alors déployés en parallèle, chacun responsable d'une seule ligne du tableau final, avec un budget plafonné à 6 appels d'outils. Chaque agent utilise TinyFish Fetch pour récupérer le contenu des pages, extrait les champs pertinents, puis insère la ligne avec une attribution de source traçable. La déduplication par clé primaire est appliquée avant l'export final. La stack technique s'appuie sur Next.js 16, React 19, Fastify, TypeScript, Convex pour la base de données, et Mastra pour l'orchestration des workflows IA.
BigSet s'attaque à un problème persistant dans le travail avec les données web : la fragmentation du pipeline entre identification des sources, scraping, conception du schéma, déduplication et planification des mises à jour. Ces étapes restent manuelles et chronophages, que l'on construise un dataset ou cent. En abstrayant l'ensemble de cette chaîne derrière une description en langage naturel, TinyFish cible directement les analystes, journalistes de données, équipes produit et chercheurs qui ont besoin de tableaux structurés sans vouloir maintenir une infrastructure de scraping. Le système est auto-hébergé via Docker, ce qui répond aussi aux préoccupations de confidentialité des données. TinyFish, qui développe par ailleurs ses propres outils de recherche et de fetch web, positionne BigSet comme une couche d'abstraction entre un besoin en données et une table exploitable, dans un écosystème où les agents IA commencent à remplacer les pipelines ETL traditionnels.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




