OutilsMarkTechPost7h· 2 min de lecture

Alibaba dévoile Page Agent, un agent IA JavaScript qui contrôle les interfaces web en langage naturel via le DOM

Alibaba a mis en ligne Page Agent, une bibliothèque open source sous licence MIT qui transforme n'importe quelle application web en interface pilotable par commandes en langage naturel. Contrairement à Playwright, Puppeteer, Selenium ou browser-use, qui pilotent un navigateur depuis un processus externe en lisant des captures d'écran ou en passant par le protocole Chrome DevTools, Page Agent s'exécute directement à l'intérieur de la page, sous forme de simple code JavaScript. Le codebase est écrit en TypeScript et s'appuie sur browser-use, dont il reprend le traitement du DOM et les prompts. Sa technique centrale, baptisée « déshydratation du DOM », consiste à scanner le Document Object Model dès qu'une commande arrive, à repérer chaque élément interactif (boutons, liens, champs de saisie), puis à lui attribuer un index, un rôle et un libellé. Le résultat est un « FlatDomTree », une carte textuelle compacte de la page, débarrassée du balisage superflu, que le modèle de langage lit à la place des pixels. Le projet est structuré en plusieurs paquets : @page-agent/core pour la logique de l'agent, page-agent pour la classe complète avec panneau d'interface, et @page-agent/page-controller pour l'extraction du DOM et l'indexation des éléments.

Cette approche change la donne parce que l'agent tourne dans la session même du navigateur : il hérite automatiquement des cookies, de la session et de l'authentification de l'utilisateur, sans nécessiter de backend séparé, tout en conservant les règles de validation et de sécurité déjà présentes dans l'interface. Comme seul du texte est envoyé au modèle, un modèle de langage classique, même de taille modeste, suffit à faire fonctionner l'agent, ce qui réduit les coûts par rapport aux approches multimodales fondées sur des captures d'écran. Page Agent reste agnostique vis-à-vis du fournisseur de modèle: n'importe quel point d'accès compatible avec l'API OpenAI peut être branché. Les développeurs gardent la main sur le périmètre d'action grâce à des listes d'autorisation d'opérations, au masquage de données sensibles comme les mots de passe, et à l'injection de règles métier personnalisées. L'usage principal visé est la création de copilotes intégrés à une application ou d'assistants de remplissage de formulaires.

Cette architecture s'inscrit dans un paysage plus large d'outils d'automatisation web, où des solutions comme Selenium ou Playwright dominent pour les tests de bout en bout scriptés, browser-use pour les agents autonomes multi-sites capables de vision, et WebMCP pour l'accès natif à des outils via des appels de fonctions structurés côté serveur. Page Agent se distingue en misant sur des applications que l'on maîtrise et où l'on peut ajouter du code, plutôt que sur le scraping de sites externes ou verrouillés. Ses limites restent réelles: la sécurité s'appuie sur le niveau du prompt et son périmètre se cantonne à une seule page, ce qui impose de conserver une validation côté serveur pour toute action sensible.

Dans nos dossiers

Alibaba Microsoft OpenAI Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Pandaily

CapCut lance un assistant IA pour le montage vidéo en langage naturel

CapCut, l'application de montage vidéo développée par ByteDance, a lancé un nouvel assistant IA permettant aux utilisateurs de réaliser des tâches d'édition vidéo par commandes vocales ou textuelles en langage naturel. Baptisé AI Assistant, cet outil repose sur une interface LUI (Language User Interface) : l'utilisateur tape ou prononce une instruction comme "crée un vlog" ou "change la musique de fond", et le système prend en charge automatiquement le montage, les transitions et le traitement audio. Concrètement, l'assistant peut organiser les séquences, synchroniser le rythme des images, effectuer des modifications en lot, générer des sous-titres et rédiger des ébauches de scripts. Plutôt qu'exporter une vidéo figée, il produit un brouillon entièrement modifiable, que l'utilisateur peut affiner selon ses besoins. Pour les créateurs de contenu du quotidien, ce type d'outil représente un gain de temps substantiel : là où un workflow traditionnel de montage non-linéaire exige de naviguer manuellement entre couches, effets et pistes audio, une simple phrase suffit désormais à déclencher une séquence d'opérations complexes. Techniquement, l'assistant s'appuie sur un système d'orchestration multi-tâches qui décompose chaque instruction en sous-tâches, sélection de la bande-son, étalonnage colorimétrique, découpage, toutes exécutées au sein d'un même projet. Lorsqu'une consigne reste ambiguë, le système relance l'utilisateur pour préciser l'intention avant d'agir. Ce lancement s'inscrit dans une tendance de fond qui traverse l'ensemble de l'industrie des outils créatifs : le glissement des interfaces basées sur des outils vers des interfaces orientées tâches. Des acteurs comme Adobe, Runway ou Descript avancent dans la même direction, intégrant des couches d'IA générative dans leurs pipelines d'édition. CapCut, fort d'une base d'utilisateurs massive notamment chez les créateurs de contenus courts sur TikTok, dispose d'un terrain d'expérimentation privilégié. Les observateurs notent toutefois que la technologie reste pour l'instant adaptée aux scénarios de création grand public, et que les cas d'usage professionnels avancés nécessiteront des développements supplémentaires.

UEL'outil est accessible aux nombreux créateurs de contenu français actifs sur CapCut et TikTok, sans impact réglementaire spécifique au marché européen.

OutilsOutil

1 source

2AI News

Laserfiche lance des agents IA pour les flux de travail en langage naturel

Laserfiche, éditeur spécialisé dans la gestion de contenu d'entreprise, a lancé le 7 mai 2026 des agents d'intelligence artificielle capables d'exécuter des tâches complexes à partir de simples instructions en langage naturel. Ces agents sont accessibles via Smart Chat, une interface conversationnelle intégrée à la plateforme Laserfiche Cloud. Ils s'appuient sur des modèles de raisonnement génératifs (LLM) pour analyser des documents, identifier des informations spécifiques et déclencher des actions concrètes, comme déplacer un fichier, signaler une anomalie ou router un contrat vers le bon interlocuteur. Les capacités de chaque agent sont strictement encadrées par les permissions de l'utilisateur connecté, ce qui garantit que les données sensibles restent protégées selon les règles de conformité en vigueur dans l'organisation. L'intérêt principal de ces agents réside dans leur capacité à automatiser la zone grise entre les workflows préconçus et les tâches manuelles répétitives, sans exiger de compétences techniques de la part des utilisateurs. Dans les services juridiques, ils peuvent détecter des incohérences dans des contrats avant de les soumettre à une revue humaine. En comptabilité fournisseurs, ils repèrent les factures en retard et les transmettent aux équipes concernées. En RH, ils analysent les dossiers employés pour classer automatiquement les documents dans les bons répertoires selon le niveau d'accès de l'utilisateur. Cette polyvalence opérationnelle réduit le temps consacré à la gestion documentaire et libère les équipes pour des tâches à plus forte valeur ajoutée, quel que soit leur niveau de maîtrise technique. Laserfiche s'inscrit dans une tendance de fond qui voit les grandes plateformes de gestion de contenu intégrer des couches d'IA agentique pour transformer la relation des entreprises à leurs données. Jusqu'ici, retrouver un document impliquait de connaître son emplacement exact dans une arborescence souvent complexe. Justin Pava, chief product evangelist de l'entreprise, résume l'évolution en cours : l'endroit où un document est stocké va progressivement perdre de son importance, au profit de la capacité à agir directement sur l'information grâce aux métadonnées extraites automatiquement et à la recherche assistée par IA. Des mises à jour sont déjà prévues pour permettre aux agents de fonctionner en arrière-plan, de surveiller des conditions système de manière autonome et de s'intégrer plus profondément dans les processus métier existants. Cette annonce positionne Laserfiche en concurrence directe avec d'autres acteurs de la gestion documentaire qui cherchent eux aussi à capitaliser sur l'essor des agents IA en entreprise.

OutilsOutil

1 source

3MarkTechPost

TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel

TinyFish vient de publier BigSet, un système multi-agents open source sous licence AGPL-3.0, conçu pour automatiser la construction de jeux de données structurés à partir du web en langage naturel. Le principe est simple : l'utilisateur décrit en une phrase les données qu'il souhaite obtenir, par exemple "les entreprises YC actuellement en train de recruter des ingénieurs, avec leur stade de financement, leur localisation et le nombre de postes ouverts", et BigSet se charge d'inférer le schéma, de collecter les données sur le web, de dédupliquer les résultats et d'exporter le tout en CSV ou XLSX. Le code source complet est disponible sur GitHub. La génération d'un dataset prend entre 2 et 5 minutes, le temps que les agents effectuent de vraies recherches web. Une fonctionnalité de rafraîchissement automatique permet de maintenir les données à jour selon une cadence paramétrable : 30 minutes, 6 heures, 12 heures, quotidienne ou hebdomadaire. L'architecture repose sur un pipeline en cinq étapes clairement séparées. Claude Sonnet 4.6, accessible via OpenRouter, intervient en premier pour inférer le schéma : noms de colonnes, types de données, clés primaires et sources potentielles, avant tout accès web. Un agent orchestrateur basé sur Qwen (qwen/qwen3.7-max, via OpenRouter) identifie ensuite les entités correspondant à la description. Des sous-agents sont alors déployés en parallèle, chacun responsable d'une seule ligne du tableau final, avec un budget plafonné à 6 appels d'outils. Chaque agent utilise TinyFish Fetch pour récupérer le contenu des pages, extrait les champs pertinents, puis insère la ligne avec une attribution de source traçable. La déduplication par clé primaire est appliquée avant l'export final. La stack technique s'appuie sur Next.js 16, React 19, Fastify, TypeScript, Convex pour la base de données, et Mastra pour l'orchestration des workflows IA. BigSet s'attaque à un problème persistant dans le travail avec les données web : la fragmentation du pipeline entre identification des sources, scraping, conception du schéma, déduplication et planification des mises à jour. Ces étapes restent manuelles et chronophages, que l'on construise un dataset ou cent. En abstrayant l'ensemble de cette chaîne derrière une description en langage naturel, TinyFish cible directement les analystes, journalistes de données, équipes produit et chercheurs qui ont besoin de tableaux structurés sans vouloir maintenir une infrastructure de scraping. Le système est auto-hébergé via Docker, ce qui répond aussi aux préoccupations de confidentialité des données. TinyFish, qui développe par ailleurs ses propres outils de recherche et de fetch web, positionne BigSet comme une couche d'abstraction entre un besoin en données et une table exploitable, dans un écosystème où les agents IA commencent à remplacer les pipelines ETL traditionnels.

OutilsOutil

1 source

4MarkTechPost

Vercel Labs lance Zero, un langage système conçu pour que les agents IA puissent lire, corriger et livrer des programmes natifs

Vercel Labs, la branche recherche de la société américaine spécialisée dans le déploiement web, a publié Zero, un langage de programmation système expérimental conçu pour que les agents d'intelligence artificielle puissent lire, corriger et compiler du code natif de manière autonome. Zero se positionne dans le même espace que C ou Rust : il compile vers des exécutables natifs, offre un contrôle explicite de la mémoire et cible les environnements bas niveau. La différence fondamentale réside dans la conception du compilateur et de la chaîne d'outils, pensés dès le départ pour être consommés par des agents IA plutôt que par des ingénieurs humains. Le problème central que Zero cherche à résoudre est la manière dont les agents interagissent avec les retours du compilateur. Dans un cycle de développement classique impliquant un agent de codage, celui-ci écrit du code, le compilateur émet une erreur sous forme de texte non structuré, et l'agent doit analyser ce texte pour comprendre ce qui a mal tourné. C'est fragile : les formats de messages changent, ils sont rédigés pour des lecteurs humains, et il n'existe aucun concept natif d'action de réparation. Zero répond à ce problème en émettant par défaut des diagnostics JSON structurés. Chaque diagnostic porte un code stable (par exemple NAM003), un message lisible par l'humain, une référence de ligne et un objet repair contenant un identifiant d'action typé. Les humains lisent le message ; les agents lisent le code et le repair. La chaîne d'outils est unifiée dans un seul binaire : zero check, zero run, zero build, zero fix, zero explain ou encore zero doctor sont tous des sous-commandes d'un même CLI. Deux d'entre elles sont particulièrement utiles dans une boucle de réparation automatisée : zero explain renvoie une explication détaillée d'un code de diagnostic donné, tandis que zero fix --plan --json produit un plan de correction structuré et lisible par machine. La commande zero skills fournit quant à elle des guides d'utilisation directement depuis le CLI, synchronisés avec la version du compilateur installé, évitant aux agents de scraper une documentation externe potentiellement obsolète. Le lancement de Zero s'inscrit dans une tendance plus large : alors que les agents de codage comme GitHub Copilot, Cursor ou Devin s'imposent dans les workflows de développement, l'outillage existant n'a pas été conçu pour eux. Vercel, dont la plateforme accueille des millions de projets web, se positionne ici en amont de la chaîne de valeur, au niveau du langage lui-même. Zero introduit également un système d'effets explicites dans les signatures de fonctions : une fonction ne peut accéder au système de fichiers, au réseau ou à la sortie standard que si elle reçoit un objet de capacité (World), vérifié à la compilation et non à l'exécution. Cette approche rend le comportement du code plus prévisible pour des agents qui doivent raisonner sur ses effets de bord sans l'exécuter. Zero reste pour l'instant expérimental, mais il signale une direction claire : concevoir les langages de programmation pour un monde où les compilateurs parlent autant aux machines qu'aux humains.

💬 L'idée est simple et évidente en rétrospective : nos compilateurs crachent du texte pensé pour des yeux humains, et on s'étonne que les agents galèrent à parser les erreurs. Zero corrige ça à la source, avec des diagnostics JSON structurés, des codes stables par type d'erreur, et une commande `zero fix --plan` qui donne à l'agent un plan de réparation lisible par machine plutôt qu'un blob de prose. Reste à voir si ça passe le cap du labo, mais la direction est la bonne.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic