Alibaba dévoile Page Agent, un agent IA JavaScript qui contrôle les interfaces web en langage naturel via le DOM
Alibaba a mis en ligne Page Agent, une bibliothèque open source sous licence MIT qui transforme n'importe quelle application web en interface pilotable par commandes en langage naturel. Contrairement à Playwright, Puppeteer, Selenium ou browser-use, qui pilotent un navigateur depuis un processus externe en lisant des captures d'écran ou en passant par le protocole Chrome DevTools, Page Agent s'exécute directement à l'intérieur de la page, sous forme de simple code JavaScript. Le codebase est écrit en TypeScript et s'appuie sur browser-use, dont il reprend le traitement du DOM et les prompts. Sa technique centrale, baptisée « déshydratation du DOM », consiste à scanner le Document Object Model dès qu'une commande arrive, à repérer chaque élément interactif (boutons, liens, champs de saisie), puis à lui attribuer un index, un rôle et un libellé. Le résultat est un « FlatDomTree », une carte textuelle compacte de la page, débarrassée du balisage superflu, que le modèle de langage lit à la place des pixels. Le projet est structuré en plusieurs paquets : @page-agent/core pour la logique de l'agent, page-agent pour la classe complète avec panneau d'interface, et @page-agent/page-controller pour l'extraction du DOM et l'indexation des éléments.
Cette approche change la donne parce que l'agent tourne dans la session même du navigateur : il hérite automatiquement des cookies, de la session et de l'authentification de l'utilisateur, sans nécessiter de backend séparé, tout en conservant les règles de validation et de sécurité déjà présentes dans l'interface. Comme seul du texte est envoyé au modèle, un modèle de langage classique, même de taille modeste, suffit à faire fonctionner l'agent, ce qui réduit les coûts par rapport aux approches multimodales fondées sur des captures d'écran. Page Agent reste agnostique vis-à-vis du fournisseur de modèle: n'importe quel point d'accès compatible avec l'API OpenAI peut être branché. Les développeurs gardent la main sur le périmètre d'action grâce à des listes d'autorisation d'opérations, au masquage de données sensibles comme les mots de passe, et à l'injection de règles métier personnalisées. L'usage principal visé est la création de copilotes intégrés à une application ou d'assistants de remplissage de formulaires.
Cette architecture s'inscrit dans un paysage plus large d'outils d'automatisation web, où des solutions comme Selenium ou Playwright dominent pour les tests de bout en bout scriptés, browser-use pour les agents autonomes multi-sites capables de vision, et WebMCP pour l'accès natif à des outils via des appels de fonctions structurés côté serveur. Page Agent se distingue en misant sur des applications que l'on maîtrise et où l'on peut ajouter du code, plutôt que sur le scraping de sites externes ou verrouillés. Ses limites restent réelles: la sécurité s'appuie sur le niveau du prompt et son périmètre se cantonne à une seule page, ce qui impose de conserver une validation côté serveur pour toute action sensible.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




