
Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
MolmoWeb-4B, le nouvel agent web multimodal développé par Allen Institute for AI (Ai2), représente une approche radicalement différente de l'automatisation web : au lieu d'analyser le code HTML ou le DOM d'une page, il comprend et interagit avec les sites internet directement à partir de captures d'écran, comme le ferait un utilisateur humain.
Cette capacité à raisonner sur la vision plutôt que sur la structure du code ouvre des perspectives importantes pour les agents IA autonomes. Les approches traditionnelles d'automatisation web dépendent de sélecteurs CSS ou d'arbres DOM fragiles, qui tombent en panne dès qu'un site est mis à jour. Un agent guidé par la vision est par nature plus robuste et généralisable, capable d'opérer sur n'importe quel site sans adaptation spécifique.
Le modèle repose sur 4 milliards de paramètres et peut fonctionner avec seulement 6 Go de VRAM grâce à une quantification NF4 en 4 bits via la librairie BitsAndBytes. Son espace d'action couvre les interactions essentielles du navigateur : goto(url), click(x, y) en coordonnées normalisées, type(), scroll(), press(), ainsi que la gestion multi-onglets. Le raisonnement est structuré en étapes explicites (THOUGHT / ACTION), permettant au modèle de maintenir un contexte cohérent sur plusieurs actions consécutives. L'implémentation complète repose sur Transformers d'HuggingFace avec AutoModelForImageTextToText.
Le tutoriel démontre le modèle sur des pages vierges, des captures synthétiques et des scénarios de navigation multi-étapes, offrant une base concrète pour expérimenter avec ce type d'architecture. Avec la montée en puissance des agents web autonomes, MolmoWeb positionne Ai2 comme un acteur de référence dans la recherche ouverte sur les agents multimodaux, face aux approches propriétaires de Google et OpenAI.
Cet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




