Aller au contenu principal
MolmoWeb, l'agent web entièrement open source d'AI2, navigue sur internet à partir de captures d'écran
OutilsThe Decoder12sem· 1 min de lecture

MolmoWeb, l'agent web entièrement open source d'AI2, navigue sur internet à partir de captures d'écran

Source originale ↗·

L'Allen Institute for AI (AI2) vient de lancer MolmoWeb, un agent web entièrement open source capable de naviguer sur internet en s'appuyant uniquement sur des captures d'écran. Contrairement aux approches traditionnelles qui analysent le code HTML des pages, MolmoWeb perçoit le web comme un humain — visuellement — et interagit avec les interfaces sans accès au DOM sous-jacent.

Cette approche est notable car elle ouvre la voie à des agents capables d'opérer sur n'importe quel site, y compris ceux dont le code est obfusqué ou les interfaces hautement dynamiques. L'enjeu est de taille pour le secteur : les agents web autonomes représentent l'une des applications les plus concrètes de l'IA générative, avec des débouchés directs en automatisation de tâches, assistance numérique et robotique logicielle.

Malgré des architectures compactes de 4 et 8 milliards de paramètres, les modèles MolmoWeb surpassent plusieurs systèmes propriétaires nettement plus grands sur les benchmarks standards de navigation web. Ce rapport performance/taille illustre les progrès réalisés dans l'entraînement ciblé d'agents visuels. L'intégralité des poids, du code et des données d'entraînement est publiée en open source, dans la continuité de la démarche d'AI2 avec la famille Molmo lancée fin 2024.

Cette publication renforce la position d'AI2 comme acteur clé de l'open source en IA, face aux approches fermées de Google, OpenAI ou Anthropic sur le terrain des agents web. La transparence totale du modèle permettra à la communauté de l'auditer, de l'affiner et potentiellement de le déployer dans des environnements souverains sans dépendance à des API tierces.

Impact France/UE

Les chercheurs et développeurs européens peuvent adopter MolmoWeb sans dépendre de services propriétaires américains, réduisant ainsi les coûts et les contraintes de souveraineté numérique.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Warp : comment le terminal open source réinvente le code à l’ère de l’IA agentique
1Le Big Data 

Warp : comment le terminal open source réinvente le code à l’ère de l’IA agentique

Warp est un terminal de développement conçu en Rust qui ambitionne de remplacer les émulateurs classiques comme iTerm2 ou les consoles natives des systèmes d'exploitation. L'outil, développé pour corriger la lenteur et le manque d'ergonomie des interfaces en ligne de commande existantes, intègre désormais une couche d'intelligence artificielle agentique directement au coeur de l'environnement de travail. Contrairement aux assistants de code classiques qui suggèrent une ligne ou corrigent une erreur à la demande, Warp fonctionne en mode autonome : le développeur formule un objectif en langage naturel, et le système planifie puis exécute les étapes nécessaires sans intervention manuelle à chaque décision. L'outil analyse l'arborescence du projet, indexe les configurations et cartographie les dépendances via une base vectorielle locale, ce qui lui permet d'adapter ses actions à l'architecture réelle de l'application. Une fois une instruction validée, il lance une boucle continue d'action et de vérification, pouvant écrire des scripts, démarrer des serveurs, lire les erreurs et corriger le code source en cas d'échec. L'impact pour les équipes de développement est direct : la plateforme vise à éliminer la fragmentation cognitive qui caractérise le quotidien des ingénieurs, contraints de jongler en permanence entre leur éditeur de code, la documentation en ligne et un outil d'IA générative externe. Ce va-et-vient constant, qui génère une fatigue cognitive réelle et des pertes de temps importantes, devient obsolète lorsque la documentation, l'analyse des pannes et l'exécution sont regroupées dans un même environnement. Le développeur passe du rôle d'exécutant de commandes mémorisées à celui de superviseur de processus automatisés, concentrant son attention sur la conception plutôt que sur les micro-décisions répétitives. Le contexte est celui d'une stagnation de plusieurs décennies du terminal traditionnel, dont l'interface n'a pas fondamentalement évolué depuis quarante ans malgré l'explosion de la complexité des projets logiciels. Warp s'inscrit dans une tendance plus large de l'industrie qui cherche à intégrer l'IA non plus comme un module externe mais comme une couche native des outils de développement, à l'image de ce que GitHub Copilot a fait pour les éditeurs de code. La distinction clé que pose Warp est celle entre l'assistance ponctuelle et l'agentivité réelle, un positionnement qui entre en concurrence directe avec des environnements comme Cursor ou les extensions IA de VS Code, mais sur le terrain du terminal plutôt que de l'éditeur. L'enjeu pour la startup est de convaincre une profession historiquement attachée à ses outils que la ligne de commande peut devenir un centre de pilotage intelligent sans sacrifier la maîtrise que les ingénieurs revendiquent sur leur environnement.

OutilsOutil
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
2MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source
Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire
3The Decoder 

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Un nouveau modèle vocal open source baptisé Audio Interaction vient d'être publié avec ses poids, son code source et ses instructions de déploiement sur GitHub, sous licence Apache 2.0. Sa particularité technique est de prendre une décision toutes les 0,4 secondes : parler ou se taire. Contrairement à la plupart des assistants vocaux actuels, il n'attend pas la fin d'un enregistrement pour répondre, mais écoute en continu un flux audio pour transcrire, traduire, converser et détecter des sons du quotidien comme une toux. Les données d'entraînement seront publiées séparément dans un second temps. Cette approche représente un changement de paradigme pour les interfaces vocales. Les modèles comme GPT-4o ou Qwen3.5-Omni fonctionnent encore en mode tour par tour : ils attendent que l'utilisateur finisse de parler avant de traiter la demande. Audio Interaction brise cette contrainte en analysant le flux sonore en temps réel, ce qui ouvre la voie à des interactions bien plus naturelles, notamment pour les assistants embarqués, les outils d'accessibilité ou les applications de traduction simultanée. La licence Apache 2.0 le rend immédiatement utilisable par des développeurs et des entreprises sans restriction commerciale. Le modèle s'inscrit dans une course intense autour de l'audio nativement multimodal, accélérée par la présentation de GPT-4o en mai 2024. L'ouverture complète de la chaîne, des poids aux données, reste encore rare dans ce domaine dominé par des solutions propriétaires, et pourrait stimuler une vague de recherche indépendante sur les modèles vocaux en temps réel. La publication imminente des données d'entraînement permettra à la communauté de reproduire et d'affiner les résultats de manière transparente.

UELes développeurs et entreprises européens peuvent adopter librement ce modèle vocal sous licence Apache 2.0 pour intégrer des interfaces vocales temps réel dans leurs applications, sans restriction commerciale.

💬 0,4 secondes pour décider de parler ou se taire, c'est le détail qui change tout. Le mode tour par tour des assistants actuels casse l'illusion à chaque échange, et là on a enfin une alternative ouverte avec les poids, le code, et une Apache 2.0 qui ne bloque personne. Les données d'entraînement arrivent "dans un second temps", bon, j'attends de voir si c'est complet.

OutilsActu
1 source
TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel
4MarkTechPost 

TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel

TinyFish vient de publier BigSet, un système multi-agents open source sous licence AGPL-3.0, conçu pour automatiser la construction de jeux de données structurés à partir du web en langage naturel. Le principe est simple : l'utilisateur décrit en une phrase les données qu'il souhaite obtenir, par exemple "les entreprises YC actuellement en train de recruter des ingénieurs, avec leur stade de financement, leur localisation et le nombre de postes ouverts", et BigSet se charge d'inférer le schéma, de collecter les données sur le web, de dédupliquer les résultats et d'exporter le tout en CSV ou XLSX. Le code source complet est disponible sur GitHub. La génération d'un dataset prend entre 2 et 5 minutes, le temps que les agents effectuent de vraies recherches web. Une fonctionnalité de rafraîchissement automatique permet de maintenir les données à jour selon une cadence paramétrable : 30 minutes, 6 heures, 12 heures, quotidienne ou hebdomadaire. L'architecture repose sur un pipeline en cinq étapes clairement séparées. Claude Sonnet 4.6, accessible via OpenRouter, intervient en premier pour inférer le schéma : noms de colonnes, types de données, clés primaires et sources potentielles, avant tout accès web. Un agent orchestrateur basé sur Qwen (qwen/qwen3.7-max, via OpenRouter) identifie ensuite les entités correspondant à la description. Des sous-agents sont alors déployés en parallèle, chacun responsable d'une seule ligne du tableau final, avec un budget plafonné à 6 appels d'outils. Chaque agent utilise TinyFish Fetch pour récupérer le contenu des pages, extrait les champs pertinents, puis insère la ligne avec une attribution de source traçable. La déduplication par clé primaire est appliquée avant l'export final. La stack technique s'appuie sur Next.js 16, React 19, Fastify, TypeScript, Convex pour la base de données, et Mastra pour l'orchestration des workflows IA. BigSet s'attaque à un problème persistant dans le travail avec les données web : la fragmentation du pipeline entre identification des sources, scraping, conception du schéma, déduplication et planification des mises à jour. Ces étapes restent manuelles et chronophages, que l'on construise un dataset ou cent. En abstrayant l'ensemble de cette chaîne derrière une description en langage naturel, TinyFish cible directement les analystes, journalistes de données, équipes produit et chercheurs qui ont besoin de tableaux structurés sans vouloir maintenir une infrastructure de scraping. Le système est auto-hébergé via Docker, ce qui répond aussi aux préoccupations de confidentialité des données. TinyFish, qui développe par ailleurs ses propres outils de recherche et de fetch web, positionne BigSet comme une couche d'abstraction entre un besoin en données et une table exploitable, dans un écosystème où les agents IA commencent à remplacer les pipelines ETL traditionnels.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic