Aller au contenu principal
OutilsMarkTechPost1h

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming

Résumé IASource uniqueImpact UE
Source originale ↗·

Nous Research a lancé en prévisualisation publique Hermes Desktop, une application native disponible sur macOS, Windows et Linux, qui offre pour la première fois une interface graphique à son agent IA open source Hermes. Jusqu'ici limité à une interface en ligne de commande et à des passerelles de messagerie, Hermes Agent v0.15.2 dispose désormais d'une fenêtre native avec affichage en streaming des réponses, prévisualisation en temps réel des pages web, fichiers et sorties d'outils, un navigateur de fichiers, ainsi que des entrées et sorties vocales. L'application partage entièrement son cœur avec le CLI existant : configuration, clés API, sessions, compétences et mémoire sont communs à toutes les surfaces. Une conversation démarrée dans le bureau peut reprendre dans le terminal, et inversement, sans duplication d'état. Hermes Desktop a été démontré pour la première fois lors du keynote GTC de Jensen Huang avant d'être rendu disponible le 2 juin 2026.

Ce lancement marque une étape importante dans l'accessibilité des agents IA autonomes pour le grand public. Hermes n'est pas un simple assistant de chat : c'est un agent qui planifie, exécute des actions et maintient un état persistant entre les sessions. La boucle d'apprentissage fermée le distingue des outils classiques : après une tâche complexe, l'agent génère des compétences réutilisables qui s'améliorent d'elles-mêmes lors des usages ultérieurs. La mémoire est gérée par l'agent lui-même, avec rappel inter-sessions via recherche FTS5 et résumé par LLM. En supprimant le prérequis du terminal, Nous Research ouvre Hermes à une population bien plus large d'utilisateurs non techniques, ce qui pourrait accélérer l'adoption des agents IA dans des flux de travail professionnels quotidiens.

Nous Research s'inscrit dans une compétition croissante autour des agents IA autonomes et multiplateformes, face à des acteurs comme Anthropic avec Claude Code ou OpenAI avec ses capacités agentiques. Hermes se connecte à Telegram, Discord, Slack, WhatsApp, Signal, Email et CLI depuis une seule passerelle, avec un planificateur cron intégré et une délégation à des sous-agents isolés. L'exécution est sandboxée via cinq backends : local, Docker, SSH, Singularity et Modal. L'interopérabilité avec le Model Context Protocol (MCP) permet d'intégrer des outils externes. Pour les API, Nous Portal propose quatre niveaux d'abonnement (Free, Plus, Super, Ultra) donnant accès à plus de 300 modèles et à un Tool Gateway unifié qui route la recherche web via Firecrawl, la génération d'images via FAL et la synthèse vocale via OpenAI. Les prochaines questions porteront sur la stabilité hors prévisualisation et sur la capacité de la startup à tenir face aux ressources des géants du secteur.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche
1MarkTechPost 

MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche

MiniMax, la startup chinoise d'intelligence artificielle connue pour ses modèles multimodaux, a lancé MMX-CLI, une interface en ligne de commande open source qui donne aux développeurs et aux agents IA un accès direct à l'ensemble de la plateforme MiniMax : génération de texte, d'images, de vidéos, de voix, de musique, d'analyse visuelle et de recherche web. L'outil, écrit en TypeScript avec le runtime Bun, s'organise en sept groupes de commandes, mmx text, mmx image, mmx video, mmx speech, mmx music, mmx vision et mmx search, couvrant des cas d'usage allant du chat multi-tour en streaming jusqu'à la synthèse musicale avec contrôle du tempo, du BPM, de la tonalité et des instruments. La commande mmx speech propose plus de 30 voix et accepte jusqu'à 10 000 caractères, tandis que mmx video s'appuie par défaut sur le modèle MiniMax-Hailuo-2.3 et permet de générer une vidéo à partir d'une image de départ via le flag --first-frame. L'enjeu principal est de simplifier radicalement l'intégration des capacités multimodales dans les workflows des agents IA. Aujourd'hui, des outils comme Cursor, Claude Code ou OpenCode sont puissants pour manipuler du texte et du code, mais n'ont pas de chemin natif pour générer des médias sans passer par des couches d'intégration supplémentaires, wrappers d'API, configuration serveur, gestion d'authentification séparée, ou protocoles comme le Model Context Protocol (MCP). MMX-CLI contourne tout cela : un agent peut invoquer une commande shell comme n'importe quel outil terminal, sans glue MCP. Pour les équipes qui automatisent des pipelines de création de contenu, de localisation audio ou de production vidéo, cela représente une réduction concrète du coût d'intégration et du temps de développement. Ce lancement s'inscrit dans une tendance plus large où les fournisseurs de modèles cherchent à devenir des plateformes complètes plutôt que de simples API de texte. MiniMax, qui a levé des centaines de millions de dollars et positionne son stack "omni-modal" face aux offres de Google, OpenAI et ElevenLabs, mise sur l'outillage développeur comme levier d'adoption. En exposant ses modèles via une CLI standardisée compatible avec les grands environnements de développement assistés par IA, la société cherche à s'ancrer dans les workflows quotidiens des ingénieurs avant que des concurrents ne comblent le même manque. La prochaine étape probable est une adoption croissante dans les pipelines d'automatisation, content factories, doublage automatique, génération de supports marketing, où la combinaison texte-image-vidéo-voix en une seule interface représente un avantage opérationnel réel.

💬 Pas de wrapper MCP, pas de config serveur, juste une commande shell pour avoir du texte, de la vidéo, de la voix, de la musique : sur le papier, c'est exactement le raccourci qu'il me manquait dans mes pipelines. Si tu automatises de la prod de contenu multimédia, l'intégration devient triviale du coup. La vraie question c'est la qualité des modèles MiniMax face à ElevenLabs ou Hailuo en conditions réelles.

OutilsOutil
1 source
OpenClaw vs Hermes Agent : Nous Research domine le classement mondial d'OpenRouter avec son agent auto-améliorant
2MarkTechPost 

OpenClaw vs Hermes Agent : Nous Research domine le classement mondial d'OpenRouter avec son agent auto-améliorant

Hermes Agent, développé par Nous Research sous licence MIT, a dépassé OpenClaw pour s'imposer à la première place du classement mondial des agents et applications sur OpenRouter au 10 mai 2026. L'agent génère désormais 224 milliards de tokens quotidiens sur la plateforme, contre 186 milliards pour OpenClaw, un écart significatif qui illustre une adoption massive en seulement quelques mois. Lancé en février 2026, Hermes a enchaîné les versions majeures à un rythme soutenu : la v0.9.0 a ajouté le support Android/Termux et 16 plateformes de messagerie, la v0.11.0 a livré une réécriture complète de l'interface en React/Ink ainsi que l'intégration d'AWS Bedrock, de NVIDIA NIM et de GPT-5.5. La v0.13.0 "Tenacity", publiée le 7 mai 2026, introduit un tableau Kanban multi-agents avec détection de tâches zombies, une commande /goal pour maintenir un objectif sur plusieurs tours de conversation, et Google Chat comme 20e plateforme supportée, le tout en 1 556 commits et 761 pull requests fusionnées depuis le lancement. Ce basculement de leadership révèle deux philosophies opposées sur ce que doit être un agent IA. OpenClaw mise sur la portée maximale via une passerelle WebSocket centrale connectant plus de 50 canaux (Telegram, Discord, Slack, WhatsApp, Signal, etc.). Hermes parie sur la valeur cumulée : après chaque tâche, l'agent analyse sa propre performance et génère automatiquement des fichiers de compétences réutilisables, stockés dans une base SQLite FTS5 combinée à des instantanés d'identité persistants. Plus l'agent tourne longtemps, plus il s'optimise pour les workflows spécifiques de son utilisateur. Ce modèle "do, learn, improve" semble résonner fortement avec les développeurs qui cherchent un agent capable d'évoluer plutôt qu'un simple routeur de messages. La comparaison sécuritaire entre les deux projets est également instructive. OpenClaw a accumulé neuf CVE en quatre jours en mars 2026, dont un à 9,9/10 selon le score CVSS ; un audit de Koi Security sur 2 857 compétences ClawHub a identifié 341 entrées malveillantes, et SecurityScorecard a signalé des dizaines de milliers d'instances publiquement exposées. Hermes n'est pas exempt de vulnérabilités, plusieurs CVE ont été publiés fin avril 2026, dont CVE-2026-7113, une absence d'authentification sur l'endpoint webhooks en version 0.8.0, mais la v0.13.0 a corrigé huit failles critiques, dont l'activation par défaut de la rédaction des données sensibles et des correctifs sur les flux OAuth. Le contexte plus large est celui d'une compétition ouverte qui s'intensifie : depuis le départ du fondateur d'OpenClaw chez OpenAI en février 2026 et la mise sous tutelle du projet via une fondation sponsorisée par OpenAI, Hermes bénéficie d'un momentum à la fois technique et symbolique dans l'écosystème open source.

💬 224 milliards de tokens par jour, c'est pas rien. Ce qui me frappe surtout dans cette histoire, c'est moins le chiffre que l'architecture : un agent qui génère ses propres fichiers de compétences après chaque tâche et s'optimise en continu, c'est le modèle qu'on attendait depuis un moment. Et bon, 9 CVE en quatre jours chez OpenClaw dont un à 9,9, ça aide à faire le tri.

OutilsOutil
1 source
Gemini Enterprise : Google lance sa plateforme unifiée pour orchestrer des agents IA
3Le Big Data 

Gemini Enterprise : Google lance sa plateforme unifiée pour orchestrer des agents IA

Google a présenté le 22 avril 2026, lors de Google Cloud Next 2026, Gemini Enterprise : une plateforme unifiée conçue pour orchestrer des flottes d'agents IA à l'échelle de l'entreprise. La nouveauté fusionne l'application Gemini Enterprise pour les utilisateurs finaux et la nouvelle Gemini Enterprise Agent Platform pour les développeurs, absorbant au passage Vertex AI qui disparaît en tant que plateforme indépendante. Plus de 200 modèles sont accessibles via Model Garden, dont les dernières générations Gemini mais aussi des modèles tiers d'Anthropic et autres. La marketplace intégrée permet de connecter des agents issus de partenaires comme Oracle, ServiceNow, Adobe, Salesforce ou Workday. Du côté technique, la plateforme introduit Agent Studio pour le développement low-code, un SDK basé sur des graphes pour les systèmes multi-agents, et Agent Runtime pour des agents capables de fonctionner en continu pendant des heures, voire des jours. Des outils d'optimisation complètent l'ensemble : Agent Simulation, Evaluation et Observability. Pour les directions informatiques, la gouvernance est au coeur du dispositif. Chaque agent se voit attribuer une identité cryptographique via Agent Identity, tandis qu'un registre central valide les outils et agents autorisés, et qu'Agent Gateway applique les politiques de sécurité à l'échelle de l'organisation. La couche de protection intègre Model Armor pour contrer les injections malveillantes et les fuites de données, appuyée par Security Command Center pour la détection des vulnérabilités. Du côté des équipes métier, Agent Designer permet de créer et déployer des agents sans écrire de code, depuis une interface unique avec boîte de réception centralisée, espaces projets à mémoire partagée et outil collaboratif Canvas pour produire des documents exportables vers Microsoft Office. Un agent Data Insights natif analyse données structurées et non structurées pour générer visualisations et rapports, tandis que Deep Research synthétise sources web et données internes. Ce lancement s'inscrit dans une course intense entre les grands acteurs du cloud pour capter les budgets IA des entreprises. Microsoft, avec Copilot Studio et Azure AI Foundry, Amazon avec Bedrock Agents, et Salesforce avec Agentforce occupent le même terrain. Google répond en cassant la fragmentation de son offre précédente : Vertex AI, Duet AI, Gemini for Workspace coexistaient sans cohérence claire pour les acheteurs. En absorbant tout dans une plateforme unique, Google vise à simplifier les cycles de vente et à verrouiller les grandes entreprises dans son écosystème. La compatibilité revendiquée avec Microsoft 365 et Google Workspace trahit la volonté de ne pas imposer une migration brutale, mais de s'intégrer aux environnements existants. L'enjeu des prochains mois sera la disponibilité réelle de ces fonctionnalités et leur tenue à l'échelle, deux points sur lesquels les annonces de Cloud Next ont historically précédé des déploiements progressifs.

UELes entreprises européennes utilisant Google Cloud devront évaluer la migration vers cette plateforme unifiée, dont les mécanismes de gouvernance (identité cryptographique des agents, registre central, audit de sécurité) pourraient faciliter la mise en conformité avec l'AI Act.

OutilsOutil
1 source
4MarkTechPost 

TinyFish AI lance une plateforme web complète pour agents autonomes : recherche, fetch, navigateur et agent sous une seule clé API

TinyFish AI, une startup basée à Palo Alto, a lancé ce mois-ci une plateforme d'infrastructure complète pour les agents IA opérant sur le web en temps réel. L'offre regroupe quatre produits sous une seule clé API et un système de crédits unifié : Web Agent, Web Search, Web Browser et Web Fetch. Web Search retourne des résultats structurés en JSON avec une latence médiane de 488 millisecondes, contre plus de 2 800 ms chez les concurrents. Web Browser fournit des sessions Chrome furtives via le protocole CDP avec un démarrage à froid inférieur à 250 ms, là où les alternatives prennent 5 à 10 secondes. Le module intègre 28 mécanismes anti-bot codés en C++, une approche bien plus difficile à détecter que l'injection JavaScript habituellement utilisée. Web Fetch convertit n'importe quelle URL en Markdown, HTML ou JSON propre, en éliminant les scripts, publicités et éléments de navigation superflus. Web Agent, lui, exécute des workflows autonomes en plusieurs étapes sur des sites réels, sans scripts manuels. Ce qui rend cette plateforme particulièrement pertinente pour les développeurs d'agents IA, c'est la façon dont elle résout un problème structurel : la pollution de la fenêtre de contexte. Lorsqu'un agent utilise un outil de fetch classique, il ingère la page entière, y compris des milliers de tokens de balisage inutile, avant d'atteindre le contenu utile. TinyFish affirme réduire ce coût de 87 % en mode CLI, passant d'environ 1 500 tokens par opération via MCP à seulement 100 tokens. L'architecture CLI écrit les résultats sur le système de fichiers plutôt que de les injecter directement dans le contexte, ce qui préserve la cohérence sur les tâches longues et permet la composition via les pipes Unix natifs. Sur des workflows complexes en plusieurs étapes, la société revendique un taux de complétion deux fois supérieur en mode CLI par rapport à une exécution via MCP. Jusqu'ici, les équipes qui construisaient des agents web devaient assembler plusieurs prestataires distincts pour la recherche, l'automatisation du navigateur et la récupération de contenu, ce qui introduisait de la friction et des points de défaillance multiples. TinyFish avait déjà livré un agent web standalone avant ce lancement, et s'appuie sur cette expérience pour proposer une intégration directe avec les principaux environnements de coding agents du marché, dont Claude Code, Cursor, Codex et OpenCode, via un fichier SKILL.md installable en une commande. Le CLI s'installe via npm avec npm install -g @tiny-fish/cli. Dans un secteur où les agents autonomes passent de la démonstration à la production, la capacité à interagir de façon fiable et rapide avec le web vivant devient une infrastructure critique, et TinyFish se positionne explicitement comme la couche sur laquelle ces agents doivent s'appuyer.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour