Aller au contenu principal
RechercheMarkTechPost9h

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

Impact France/UE

Cet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

In this tutorial, we explore MolmoWeb , Ai2’s open multimodal web agent that understands and interacts with websites directly from screenshots, without relying on HTML or DOM parsing. We set up the full environment in Colab, load the MolmoWeb-4B model with efficient 4-bit quantization, and build the exact prompting workflow that lets the model reason about a web task and predict browser actions. Also, we test the model on blank pages, synthetic web screenshots, and multi-step browsing scenarios to understand how screenshot-based web agents actually think, act, and maintain context across steps. Copy Code Copied Use a different Browser print("=" * 70) print("SECTION 1: Installing dependencies...") print("=" * 70) import subprocess, sys def pip_install(*packages): subprocess.check_call( [sys.executable, "-m", "pip", "install", "-q"] + list(packages) ) pip_install( "transformers>=4.48.0", "accelerate", "bitsandbytes", "jinja2", "Pillow", "requests", "datasets", "matplotlib", "torch", ) import torch import re import json import textwrap from PIL import Image, ImageDraw, ImageFont import requests from io import BytesIO from jinja2 import Template import matplotlib.pyplot as plt import matplotlib.patches as patches from transformers import AutoProcessor, AutoModelForImageTextToText, BitsAndBytesConfig print(f"PyTorch {torch.__version__} | CUDA available: {torch.cuda.is_available()}") if torch.cuda.is_available(): print(f" GPU: {torch.cuda.get_device_name(0)}") mem_gb = torch.cuda.get_device_properties(0).total_mem / 1e9 print(f" VRAM: {mem_gb:.1f} GB") print("\n" + "=" * 70) print("SECTION 2: Loading MolmoWeb-4B model...") print("=" * 70) CHECKPOINT = "allenai/MolmoWeb-4B" QUANTIZE = True if QUANTIZE: print("Using 4-bit NF4 quantization (fits ~6 GB VRAM)") bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=True, ) model = AutoModelForImageTextToText.from_pretrained( CHECKPOINT, trust_remote_code=True, quantization_config=bnb_config, device_map="auto", ) else: print("Loading in full bfloat16 precision") model = AutoModelForImageTextToText.from_pretrained( CHECKPOINT, trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="auto", ) processor = AutoProcessor.from_pretrained( CHECKPOINT, trust_remote_code=True, padding_side="left", ) print(f"Model loaded: {CHECKPOINT}") print(f" Device map: {model.hf_device_map if hasattr(model, 'hf_device_map') else 'single device'}") We set up the entire environment by installing all required dependencies and importing the core libraries needed for the tutorial. We ensure the runtime is properly configured for GPU usage and verify CUDA availability and device details. By the end of this step, we will have established a stable foundation for running MolmoWeb efficiently in Colab. Copy Code Copied Use a different Browser print("\n" + "=" * 70) print("SECTION 3: Understanding the prompt template & action space") print("=" * 70) MOLMOWEB_THINK_TEMPLATE = Template(""" # GOAL {{ task_description }} # PREVIOUS STEPS {% for action in past_actions -%} ## Step {{ action['index'] }} THOUGHT: {{ action['thought'] }} ACTION: {{ action['action'] }} {% endfor %} # CURRENTLY ACTIVE PAGE Page {{ page_index }}: {{ page_title }} | {{ page_url }} # NEXT STEP """) SYSTEM_MESSAGE = "molmo_web_think" print(""" MolmoWeb Action Space: goto(url) - Navigate to a URL click(x, y) - Click at normalised coordinates (0.0-1.0) type("text") - Type text into focused element scroll(dir) - Scroll the page (up/down) press("key") - Press a key (Enter, Tab, etc.) new_tab() - Open a new tab switch_tab(n) - Switch to tab n go_back() - Navigate back send_msg("text") - Reply to the user with an answer """) print("=" * 70) print("SECTION 4: Defining helper functions") print("=" * 70) def build_prompt(task_description, past_actions=None, page_title=None, page_url="about:blank", page_index=0): """Build the full MolmoWeb prompt from components.""" if past_actions is None: past_actions = [] user_message = MOLMOWEB_THINK_TEMPLATE.render( task_description=task_description, past_actions=past_actions, page_title=page_title, page_url=page_url, page_index=page_index, ) return f"{SYSTEM_MESSAGE}: {user_message}" def run_inference(prompt, image, max_new_tokens=300): """Run a single forward pass through MolmoWeb and return decoded text.""" messages = [ { "role": "user", "content": [ {"type": "text", "text": prompt}, {"type": "image", "image": image}, ], } ] inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True, padding=True, ) inputs = {k: v.to(model.device) for k, v in inputs.items()} with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16): output = model.generate(**inputs, max_new_tokens=max_new_tokens) generated_tokens = output[0, inputs["input_ids"].size(1):] return processor.decode(generated_tokens, skip_special_tokens=True) def

À lire aussi

1TechCrunch AI7h

Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde

Paragraphe 1: Le 28 avril dernier, Deccan AI, un concurrent de Mercor, a annoncé une levée de fonds de 25 millions de dollars pour renforcer sa présence en Inde. Cette entreprise s'est spécialisée dans l'embauche de professionnels locaux pour gérer la qualité dans un marché naissant et dispersé d'entraînement en intelligence artificielle (IA). Paragraphe 2: Cette initiative est cruciale car elle permet à Deccan AI de tirer parti des compétences pointues en IA de l'Inde, un pays qui a rapidement gagné en réputation dans ce domaine. En concentrant ses ressources humaines localisées, Deccan vise à se démarquer dans un marché fragmenté où la qualité et l'efficacité sont essentielles pour attirer des clients. Cette stratégie pourrait non seulement renforcer sa position concurrentielle face à Mercor, mais aussi contribuer au leadership global de l'Inde dans l'industrie de l'IA. Paragraphe 3: Ce mouvement se produit alors que l'intérêt mondial pour les solutions d'IA continue de croître, avec un accent particulier sur la qualité et l'efficacité des systèmes d'apprentissage automatique. En s'appuyant sur le talent local, Deccan AI cherche à répondre efficacement à cette demande croissante tout en renforçant sa propre capacité innovante dans un secteur de plus en plus compétitif.

RechercheReglementation
1 source
2Ars Technica AI14h

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper
1 source
3Numerama17h

Google a peut-être réglé la crise de la mémoire vive (RAM) avec un algorithme

Google a dévoilé TurboQuant, un nouvel algorithme de quantification capable de diviser par six les besoins en mémoire vive des modèles d'intelligence artificielle. Cette avancée mathématique s'attaque directement à l'un des principaux goulots d'étranglement du secteur : la consommation colossale de RAM exigée par les IA modernes. L'impact potentiel est considérable. En réduisant drastiquement l'empreinte mémoire, TurboQuant pourrait permettre de faire tourner des modèles bien plus puissants sur du matériel existant, démocratisant ainsi l'accès à des IA avancées sans nécessiter d'investissements matériels massifs. L'essor des grands modèles de langage a provoqué une pression sans précédent sur les infrastructures GPU et CPU. La crise de la RAM est devenue un enjeu stratégique majeur pour l'ensemble de l'industrie.

UEUne réduction par six des besoins en RAM des modèles IA pourrait permettre aux entreprises et laboratoires européens de déployer des modèles plus puissants sur leur infrastructure existante, abaissant la barrière d'entrée pour la recherche et l'industrie IA en Europe.

RecherchePaper
1 source
4MIT Technology Review18h

Cette startup veut changer la façon dont les mathématiciens font des maths

Axiom Math, une startup basée à Palo Alto en Californie, a lancé un outil gratuit baptisé Axplorer, conçu pour aider les mathématiciens à découvrir des patterns mathématiques susceptibles de débloquer des problèmes restés sans solution depuis des décennies. L'outil est une refonte de PatternBoost, développé en 2024 par François Charton — aujourd'hui chercheur chez Axiom — lorsqu'il travaillait encore chez Meta. Là où PatternBoost nécessitait un supercalculateur, Axplorer tourne sur un simple Mac Pro. L'an dernier, PatternBoost avait permis de résoudre un problème réputé difficile en théorie des graphes, le problème des quatre-cycles de Turán — un défi qui consiste à maximiser le nombre de connexions entre des points sans former de boucles à quatre nœuds. Axiom Math a également utilisé un autre de ses outils, AxiomProver, pour résoudre quatre problèmes mathématiques majeurs en 2025. La démarche d'Axiom s'inscrit dans un mouvement plus large : rendre accessibles des outils d'IA puissants à l'ensemble de la communauté mathématique, et non plus seulement aux équipes disposant de clusters GPU. C'est précisément ce que souligne la fondatrice et PDG de la startup, Carina Hong : les mathématiques ne se résument pas à trouver des solutions à des problèmes existants, elles sont avant tout exploratoires. Charton, lui, est sceptique face aux récents succès des grands modèles de langage comme GPT-5 sur des problèmes ouverts — notamment ceux laissés par le mathématicien Paul Erdős. Selon lui, ces victoires concernent des problèmes peu étudiés, pas les grands défis sur lesquels les meilleurs esprits ont travaillé pendant des années. Axplorer adopte une approche différente : l'utilisateur soumet un exemple, l'outil en génère d'autres similaires, l'utilisateur sélectionne les plus prometteurs, et le cycle recommence — une logique proche de celle d'AlphaEvolve de Google DeepMind, mais accessible à tous. Les avancées en mathématiques ont des répercussions profondes sur l'informatique, l'IA de nouvelle génération et la sécurité internet. Cette initiative s'inscrit dans le cadre du programme expMath (Exponentiating Mathematics) lancé par la DARPA, l'agence de recherche avancée du Pentagone, pour encourager l'adoption des outils d'IA dans la recherche mathématique fondamentale.

UEL'outil gratuit Axplorer est accessible à toute la communauté mathématique européenne, et son co-créateur François Charton est un chercheur français.

RecherchePaper
1 source