Hermes Agent ajoute des sous-agents asynchrones :…

Le coworker IA open source et local d'Andrew Ng, OpenWorker, livre des tâches finies plutôt que du chat

46

1MarkTechPost

Le coworker IA open source et local d'Andrew Ng, OpenWorker, livre des tâches finies plutôt que du chat

Andrew Ng vient de publier OpenWorker, un agent de bureau open source sous licence MIT conçu pour livrer un travail terminé plutôt qu'une conversation. L'utilisateur ne formule pas un prompt mais décrit un résultat attendu, un document finalisé, une réponse Slack contenant les vrais chiffres, un agenda mis à jour ou une boîte mail triée, et l'outil découpe cet objectif en étapes concrètes. Le dépôt compte 119 fichiers Python, soit environ 32 400 lignes, dans le dossier coworker, 149 fichiers TypeScript et TSX pour l'interface graphique, et 78 modules de tests côté serveur. L'architecture repose sur quatre couches qui tournent entièrement en local: une coquille de bureau Tauri 2 avec une interface React 18, un serveur d'agent Python 3.10 sous FastAPI et uvicorn écoutant par défaut sur 127.0.0.1:8765, une couche d'outils et de connecteurs regroupant fichiers, git, recherche via ripgrep, terminal et intégrations MCP, et enfin un routeur de modèles bâti sur aisuite, la bibliothèque multi-fournisseurs déjà développée par Andrew Ng. Il n'existe aucun service d'inférence propre à OpenWorker: l'utilisateur fournit sa propre clé API ou pointe vers un modèle local. La liste homologuée compte exactement trente modèles, dont les gammes GPT d'OpenAI, Claude d'Anthropic, Gemini de Google, ainsi que GLM, DeepSeek, Kimi, MiniMax, Qwen3 Max, Grok, Mistral Large, des modèles ouverts via Together AI et Fireworks, et des modèles totalement locaux via Ollama, sans clé requise. La vraie innovation technique du projet tient dans son moteur de permissions. Chaque appel d'outil est classé selon quatre niveaux de risque, lecture seule, écriture locale limitée au dossier de travail, exécution de commandes, ou action externe affectant d'autres systèmes. Cinq modes déterminent ensuite ce qui est autorisé, allant d'un mode purement consultatif à un mode automatique complet, en passant par un mode interactif par défaut qui demande confirmation avant toute écriture ou commande. Fait notable, le mode sans supervision ne relâche pas le niveau d'autonomie: il redirige simplement les demandes de validation vers une boîte de réception où la session reste suspendue jusqu'à réponse humaine. Les commandes shell, elles, demandent systématiquement confirmation, sans exception possible. Le profil intégré instruit aussi le modèle à traiter tout contenu issu d'outils, du web ou de fichiers comme une donnée non fiable plutôt que comme une instruction, une protection explicite contre les injections de prompt. Sur le plan de la confidentialité, les appels aux modèles partent directement de la machine de l'utilisateur vers le fournisseur choisi, sans passer par un serveur intermédiaire, et les clés ne transitent jamais dans le contexte du modèle. Seul un service cloud optionnel gère l'authentification OAuth des connecteurs via Auth0, sans jamais stocker les jetons. L'application fonctionne intégralement hors connexion à ce service, avec des identifiants saisis manuellement, ce qui illustre une approche local-first assumée dans un secteur où la plupart des agents d'IA restent dépendants d'infrastructures propriétaires.

OutilsOutil

1 source

WebBrain : un agent de navigation IA open-source et local qui lit les pages et automatise des tâches sur Chrome et Firefox

35

2MarkTechPost

WebBrain : un agent de navigation IA open-source et local qui lit les pages et automatise des tâches sur Chrome et Firefox

WebBrain est un agent de navigation open source, gratuit et disponible pour Chrome et Firefox, développé par Emre Sokullu sous licence MIT, avec son code source publié sur GitHub. L'extension s'installe dans le panneau latéral du navigateur, en Manifest V3 avec l'API sidePanel sur Chrome et en Manifest V2 avec sidebar_action sur Firefox, et chaque onglet conserve son propre historique de conversation. Elle propose deux modes : le mode Ask, en lecture seule, qui analyse les pages via des scripts de contenu classiques, et le mode Act, capable de cliquer, taper, faire défiler et naviguer, en pilotant la page via le protocole Chrome DevTools et l'API chrome.debugger, ce qui permet de générer des événements reconnus comme fiables par les sites modernes et d'atteindre les iframes cross-origin et le shadow DOM. Les températures sont fixées pour plus de prévisibilité : 0,15 en mode Act, 0,3 en mode Ask et 0 pour les descriptions de captures d'écran. L'outil est disponible en anglais, espagnol, français, turc et chinois, détecte automatiquement la langue du navigateur, ne collecte aucune donnée externe et n'intègre ni télémétrie ni compte utilisateur. Point clé : en connectant WebBrain à un modèle local, aucune donnée de page ne quitte la machine de l'utilisateur, une option rare parmi les agents de navigation IA. Cette approche locale-first change la donne pour la confidentialité des données dans un secteur où la plupart des agents IA de navigateur transitent systématiquement par des API cloud. Les utilisateurs professionnels manipulant des informations sensibles, comptes bancaires, dossiers clients ou données internes d'entreprise, peuvent ainsi automatiser des tâches répétitives comme l'extraction de données depuis des catalogues, le remplissage de formulaires ou le résumé d'articles, sans exposer ces informations à un tiers. WebBrain a aussi été pensé pour limiter les coûts en tokens sur les sessions longues : les captures d'écran sont redimensionnées et compressées en JPEG avant traitement, et l'historique de conversation est tronqué en commençant par les éléments les plus anciens lorsque la fenêtre de contexte se remplit. Il est également possible d'associer un modèle texte économique pour la planification à un modèle de vision distinct pour l'analyse des captures d'écran, une flexibilité qui réduit encore la facture pour les utilisateurs de modèles cloud. Le développement de WebBrain répond à un problème de sécurité identifié dans les agents de navigation : les pages web peuvent dissimuler des injections de prompt destinées à détourner le comportement de l'agent. Face à ce risque, l'outil démarre toujours en mode Ask en lecture seule, demande une confirmation avant toute action jugée conséquente (ces alertes pouvant être désactivées dans les paramètres) et impose une règle stricte pour toute mutation de données : créer, envoyer, soumettre ou acheter passe obligatoirement par l'interface visible du site plutôt que par des appels directs aux API REST ou GraphQL, sauf dérogation ponctuelle via la commande /allow-api en cas d'échec de l'interface. La lecture de contenu, elle, bénéficie de règles plus souples via les outils fetchurl et researchurl puisqu'elle ne modifie rien à distance. WebBrain se positionne ainsi entre les simples extensions IA de navigateur et les frameworks d'agents complets, dans un marché où la question de la confiance et du contrôle utilisateur devient centrale à mesure que ces outils gagnent en autonomie sur des tâches concrètes comme la recherche, le remplissage de formulaires ou l'automatisation multi-étapes.

💬 Reste à voir si ça tient en prod, mais l'idée de base est bonne : un agent qui pilote ton navigateur sans faire transiter tes pages par un cloud tiers, c'est ce que devrait être le standard depuis le début. Là où la plupart des agents web envoient tes onglets bancaires ou tes CRM à une API distante, celui-là tourne en local si tu le branches sur ton propre modèle, ce qui change complètement le calcul risque/bénéfice pour les pros. Le vrai signal du marché, c'est que le contrôle utilisateur (mode lecture par défaut, confirmation avant chaque action, interface visible obligatoire plutôt qu'appels API directs) devient un argument de vente à part entière, pas une case à cocher pour les juristes.

OutilsOutil

1 source

Anthropic dévoile des agents IA pour automatiser les tâches financières

48

3Le Big Data

Anthropic dévoile des agents IA pour automatiser les tâches financières

Anthropic a dévoilé le 5 mai 2026 une suite de dix agents IA spécialisés dans l'automatisation des tâches financières complexes. Construits sur Claude Opus 4.7, ces agents ciblent les banques, sociétés de gestion d'actifs et équipes finance d'entreprise. Ils couvrent un spectre large : préparation de pitchs commerciaux, analyse de résultats d'entreprises, suivi de marchés, modélisation financière, rapprochement comptable, clôture mensuelle, audit d'états financiers et vérification KYC. Chaque agent combine des compétences métiers, des connecteurs de données et des sous-agents spécialisés. Sur le benchmark Finance Agent de Vals AI, Anthropic revendique un score de 64,37 % pour Claude Opus 4.7, ce qui en ferait le modèle le plus performant du marché sur les usages financiers selon l'entreprise. En parallèle, Anthropic intègre nativement Claude à Microsoft 365 via des modules complémentaires pour Excel, PowerPoint et Word, avec une extension Outlook annoncée prochainement. Une fonctionnalité appelée Dispatch permet également d'assigner des tâches à distance par message ou commande vocale, l'agent poursuivant alors le travail en arrière-plan sur les fichiers locaux. L'enjeu opérationnel est considérable pour les services financiers, où une part significative du temps des analystes est absorbée par des tâches répétitives à faible valeur ajoutée. L'intégration native avec Microsoft 365 est particulièrement stratégique : Claude peut construire un modèle financier dans Excel, le transférer automatiquement dans PowerPoint et générer une présentation qui se met à jour en temps réel quand les données changent. Dans Word, il peut adapter des notes de crédit aux standards internes d'une institution. La continuité contextuelle entre applications, argument central d'Anthropic, élimine la friction habituelle : les analystes n'ont plus à réexpliquer leur travail lorsqu'ils changent d'outil. Pour les institutions qui souhaiteraient personnaliser les agents, Anthropic permet d'adapter les modèles aux règles de conformité, politiques de risque ou méthodes d'évaluation propres à chaque organisation. Cette offensive s'inscrit dans une compétition féroce entre les grands laboratoires d'IA pour s'implanter durablement dans les workflows des services financiers, secteur perçu comme l'un des plus rentables pour les déploiements à grande échelle. Anthropic s'appuie sur des connecteurs vers les plateformes de données de référence du secteur, FactSet, S&P Capital IQ, PitchBook, Morningstar, LSEG, pour crédibiliser son offre face à des acteurs comme OpenAI ou Microsoft Copilot, déjà bien installés dans les grandes institutions. D'après le Wall Street Journal, la demande des institutions financières pour des outils IA pleinement intégrés dans les processus métiers est en forte croissance, et Anthropic cherche à se positionner non plus comme un fournisseur de modèle, mais comme une véritable plateforme opérationnelle. Le déploiement en quelques jours promis par l'entreprise reste à vérifier à l'échelle, mais le signal envoyé au marché est clair : Claude vise désormais le cœur des opérations financières.

UELes institutions financières européennes (banques, sociétés de gestion d'actifs) peuvent accéder à ces agents via Microsoft 365, mais devront évaluer leur conformité avec l'AI Act et les réglementations sectorielles avant tout déploiement à grande échelle.

💬 C'est le virage qu'on attendait : Anthropic arrête d'être un fournisseur de modèle pour devenir une plateforme métier à part entière. L'intégration dans M365, avec Claude qui garde le fil entre Excel, PowerPoint et Word sans qu'on lui réexplique tout à chaque changement d'outil, c'est là que ça peut vraiment mordre face à Copilot. Le 64,37% sur le benchmark Finance, bon, c'est leur propre terrain de jeu, faut attendre les vrais déploiements pour voir si ça tient.

OutilsOutil

1 source

Nous Research déploie trois voies d'intégration pour Hermes Agent et Buzz, l'espace de travail Nostr open source de Block pour humains et agents

49

4MarkTechPost

Nous Research déploie trois voies d'intégration pour Hermes Agent et Buzz, l'espace de travail Nostr open source de Block pour humains et agents

Nous Research a annoncé le déploiement du support de son agent Hermes Agent pour Buzz, l'espace de travail open source et auto-hébergeable de Block conçu pour que humains et agents IA partagent les mêmes canaux de discussion. Buzz repose sur le protocole Nostr : chaque message y est un événement signé sur un relais que l'utilisateur possède, et chaque participant, humain ou agent, correspond à une paire de clés cryptographiques. Ce modèle remplace le système classique de jetons de bot et donne à chaque agent sa propre identité, ses propres appartenances à des canaux et sa propre traçabilité. Buzz est distribué sous licence Apache-2.0 et compte 18 800 étoiles sur GitHub, tandis que Hermes Agent est publié sous licence MIT. L'intégration propose trois façons de connecter les deux systèmes : un runtime géré directement dans Buzz Desktop, sans configuration, où Hermes apparaît automatiquement dans les paramètres après installation d'un lanceur placé dans le dossier ~/.local/bin ; un pont de relais qui fait transiter les échanges par WebSocket entre un canal Buzz et une instance Hermes hébergée, en partageant configuration, identifiants, mémoire et compétences ; et enfin une passerelle native, l'option la plus aboutie, qui traite Buzz comme une plateforme de messagerie à part entière au même titre que Telegram ou Discord, avec gestion des canaux, messages directs, mentions, réponses en fil, réactions, images et envois programmés. Cette annonce compte pour les équipes techniques qui cherchent à déployer des agents conversationnels sans dépendre d'une infrastructure propriétaire ou d'un fournisseur cloud unique. Les développeurs indépendants et petites équipes peuvent faire tourner l'ensemble via Buzz Desktop sans configuration particulière, tandis que les équipes de plateforme de taille intermédiaire constituent la cible la plus naturelle, le relais reposant sur des briques déjà répandues comme Postgres, Redis et S3 ou MinIO. Pour les grandes entreprises, Nous Research recommande de traiter ce déploiement comme un projet pilote, les clients mobiles et les mécanismes d'approbation des flux de travail restant encore en cours de finalisation. Les cas d'usage concrets évoqués incluent la mémorisation d'incidents à partir de l'historique des canaux, la revue de code organisée par branche comme s'il s'agissait de salons de discussion, la rédaction automatique de notes de version par un agent, ou encore l'envoi de rapports programmés par tâche cron. Sur le plan technique, la voie de la passerelle native fait transiter les messages entrants via une connexion WebSocket Nostr persistante authentifiée par le protocole NIP-42, avec signature BIP-340 sans dépendance externe, et un repli automatique sur un système d'interrogation en ligne de commande toutes les quatre secondes en cas de besoin. Les sorties passent systématiquement par la ligne de commande buzz. Les réglages par défaut privilégient la confidentialité : l'agent ne répond dans les canaux que lorsqu'il est explicitement mentionné, l'accès est restreint à une liste de clés publiques autorisées, et les journaux d'exécution des outils restent masqués du canal. Les événements sont dédupliqués par identifiant unique pour éviter les répétitions. Nous Research précise toutefois que Buzz Desktop approuve automatiquement les permissions des outils, recommandant donc de réserver ces agents aux seuls propriétaires du compte. La documentation complète, la référence de l'adaptateur Buzz et le dépôt GitHub sont disponibles pour les équipes souhaitant expérimenter cette intégration.

OutilsOutil

1 source

Hermes Agent ajoute des sous-agents asynchrones : les tâches déléguées ne bloquent plus le chat principal

À lire aussi

Le coworker IA open source et local d'Andrew Ng, OpenWorker, livre des tâches finies plutôt que du chat

WebBrain : un agent de navigation IA open-source et local qui lit les pages et automatise des tâches sur Chrome et Firefox

Anthropic dévoile des agents IA pour automatiser les tâches financières

Nous Research déploie trois voies d'intégration pour Hermes Agent et Buzz, l'espace de travail Nostr open source de Block pour humains et agents