WebBrain : un agent de navigation IA open-source et local qui lit les pages et automatise des tâches sur Chrome et Firefox
WebBrain est un agent de navigation open source, gratuit et disponible pour Chrome et Firefox, développé par Emre Sokullu sous licence MIT, avec son code source publié sur GitHub. L'extension s'installe dans le panneau latéral du navigateur, en Manifest V3 avec l'API sidePanel sur Chrome et en Manifest V2 avec sidebar_action sur Firefox, et chaque onglet conserve son propre historique de conversation. Elle propose deux modes : le mode Ask, en lecture seule, qui analyse les pages via des scripts de contenu classiques, et le mode Act, capable de cliquer, taper, faire défiler et naviguer, en pilotant la page via le protocole Chrome DevTools et l'API chrome.debugger, ce qui permet de générer des événements reconnus comme fiables par les sites modernes et d'atteindre les iframes cross-origin et le shadow DOM. Les températures sont fixées pour plus de prévisibilité : 0,15 en mode Act, 0,3 en mode Ask et 0 pour les descriptions de captures d'écran. L'outil est disponible en anglais, espagnol, français, turc et chinois, détecte automatiquement la langue du navigateur, ne collecte aucune donnée externe et n'intègre ni télémétrie ni compte utilisateur. Point clé : en connectant WebBrain à un modèle local, aucune donnée de page ne quitte la machine de l'utilisateur, une option rare parmi les agents de navigation IA.
Cette approche locale-first change la donne pour la confidentialité des données dans un secteur où la plupart des agents IA de navigateur transitent systématiquement par des API cloud. Les utilisateurs professionnels manipulant des informations sensibles, comptes bancaires, dossiers clients ou données internes d'entreprise, peuvent ainsi automatiser des tâches répétitives comme l'extraction de données depuis des catalogues, le remplissage de formulaires ou le résumé d'articles, sans exposer ces informations à un tiers. WebBrain a aussi été pensé pour limiter les coûts en tokens sur les sessions longues : les captures d'écran sont redimensionnées et compressées en JPEG avant traitement, et l'historique de conversation est tronqué en commençant par les éléments les plus anciens lorsque la fenêtre de contexte se remplit. Il est également possible d'associer un modèle texte économique pour la planification à un modèle de vision distinct pour l'analyse des captures d'écran, une flexibilité qui réduit encore la facture pour les utilisateurs de modèles cloud.
Le développement de WebBrain répond à un problème de sécurité identifié dans les agents de navigation : les pages web peuvent dissimuler des injections de prompt destinées à détourner le comportement de l'agent. Face à ce risque, l'outil démarre toujours en mode Ask en lecture seule, demande une confirmation avant toute action jugée conséquente (ces alertes pouvant être désactivées dans les paramètres) et impose une règle stricte pour toute mutation de données : créer, envoyer, soumettre ou acheter passe obligatoirement par l'interface visible du site plutôt que par des appels directs aux API REST ou GraphQL, sauf dérogation ponctuelle via la commande /allow-api en cas d'échec de l'interface. La lecture de contenu, elle, bénéficie de règles plus souples via les outils fetchurl et researchurl puisqu'elle ne modifie rien à distance. WebBrain se positionne ainsi entre les simples extensions IA de navigateur et les frameworks d'agents complets, dans un marché où la question de la confiance et du contrôle utilisateur devient centrale à mesure que ces outils gagnent en autonomie sur des tâches concrètes comme la recherche, le remplissage de formulaires ou l'automatisation multi-étapes.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




