Aller au contenu principal
Agent-Infra publie AIO Sandbox : un environnement tout-en-un pour agents IA avec navigateur, shell, système de fichiers partagé et MCP
OutilsMarkTechPost12sem· 2 min de lecture

Agent-Infra publie AIO Sandbox : un environnement tout-en-un pour agents IA avec navigateur, shell, système de fichiers partagé et MCP

Source originale ↗·

Agent-Infra a publié AIO Sandbox, un environnement d'exécution open-source conçu pour les agents IA autonomes. Contrairement aux approches classiques qui nécessitent plusieurs conteneurs distincts — un pour le navigateur, un pour l'interpréteur de code, un pour le shell —, cette solution intègre dans un seul environnement Docker un navigateur Chromium pilotable via le protocole CDP (avec support Playwright), des runtimes Python et Node.js préconfigurés, un terminal Bash, un système de fichiers partagé, ainsi que des instances VSCode Server et Jupyter Notebook pour le débogage. Le projet est disponible sur GitHub et inclut des exemples de déploiement Kubernetes avec gestion des ressources CPU et mémoire.

Ce qui rend cette infrastructure concrètement utile, c'est son système de fichiers unifié : un fichier téléchargé via le navigateur est immédiatement accessible au shell et à l'interpréteur Python, sans transfert manuel ni synchronisation entre services. Pour un agent qui doit, par exemple, récupérer un CSV depuis un portail web puis lancer un script de nettoyage de données, cela élimine toute la plomberie intermédiaire. Le projet intègre aussi nativement le Model Context Protocol (MCP), standard ouvert qui normalise la communication entre les LLMs et leurs outils : quatre serveurs MCP sont préconfigurés (navigateur, fichiers, shell, et Markitdown pour convertir des documents en Markdown optimisé pour les modèles). Cette standardisation permet aux développeurs d'exposer les capacités du sandbox à n'importe quel LLM compatible MCP via une API et un SDK.

Le lancement d'AIO Sandbox illustre un glissement dans les défis du développement agentique : si les LLMs comme GPT-4o ou Claude sont désormais capables de planifier et générer du code complexe, c'est l'environnement d'exécution — isolé, fiable, outillé — qui devient le vrai goulot d'étranglement. Des acteurs comme Anthropic (avec son computer use), OpenAI (avec ses outils d'exécution de code), ou encore E2B proposent des solutions similaires, mais Agent-Infra parie sur une approche tout-en-un open-source, pensée pour le déploiement en entreprise à haute densité. La compatibilité Kubernetes et l'isolation par conteneur permettent de faire tourner de nombreux agents en parallèle sans qu'ils interfèrent avec le système hôte. Dans un écosystème où les frameworks agentiques comme LangChain, AutoGen ou CrewAI se multiplient, disposer d'une couche d'exécution standardisée et robuste devient un prérequis pour passer des prototypes aux déploiements en production.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment construire un système d'agents IA avec routage dynamique des outils, planification et injection de contexte
1MarkTechPost 

Comment construire un système d'agents IA avec routage dynamique des outils, planification et injection de contexte

Un tutoriel récemment publié détaille la construction complète d'un système d'agent IA de type MCP (Model Context Protocol) en Python, depuis la configuration jusqu'à l'exécution de tâches réelles. Le système repose sur un serveur d'outils modulaire qui expose des capacités structurées : recherche web via DuckDuckGo, récupération de documents locaux par similarité TF-IDF, chargement de jeux de données et exécution de code Python. Le tout s'appuie sur l'API OpenAI avec le modèle gpt-4.1-mini, et mobilise des bibliothèques comme Pydantic pour la validation des schémas, scikit-learn pour la recherche vectorielle, et Rich pour l'affichage console. Les paramètres globaux limitent volontairement l'agent à trois appels d'outils maximum par tâche, cinq résultats web, et trois documents récupérés, afin de maintenir des performances prévisibles. Ce que ce tutoriel apporte de concret, c'est une réponse au problème central des agents IA en production : comment éviter qu'un agent appelle n'importe quel outil dans n'importe quel contexte. Le système implémente un routeur hybride qui combine des heuristiques simples et du raisonnement LLM pour décider dynamiquement quels outils rendre visibles selon la tâche en cours. Un agent qui répond à une question factuelle simple ne voit pas les outils d'exécution de code ; un agent qui analyse des données n'a pas accès à la recherche web si elle est inutile. Cette exposition sélective réduit les coûts d'inférence, améliore la traçabilité des décisions, et limite la surface d'erreur, trois enjeux critiques pour quiconque déploie des agents dans un environnement professionnel. Le Model Context Protocol, popularisé par Anthropic en novembre 2024 comme standard ouvert pour connecter les LLM à des outils externes, cherche à résoudre un problème de fragmentation : chaque développeur réinventait sa propre façon de brancher des modèles à des APIs ou des bases de données. Ce tutoriel illustre comment les principes MCP, notamment l'injection de contexte structuré, les politiques de routage et le contrôle d'accès aux outils, peuvent être implémentés sans framework propriétaire, en Python pur. À mesure que les systèmes multi-agents se multiplient dans les entreprises, cette approche d'exposition minimale et contrôlée des capacités s'impose comme une bonne pratique d'architecture, opposée aux agents monolithiques qui ont accès à tout et dont le comportement devient difficile à auditer ou à reproduire.

💬 Le routage sélectif des outils, c'est exactement ce qui manque à 90% des démos d'agents qu'on voit tourner. Un agent qui n'expose que ce dont il a besoin pour la tâche en cours, c'est pas glamour, mais c'est ce qui fait la différence entre un prototype et quelque chose qu'on peut vraiment auditer en prod. Reste à voir si les gens implémentent ça sérieusement ou si c'est encore du "best practice" qu'on lit le dimanche et qu'on oublie le lundi.

OutilsTuto
1 source
NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes
2MarkTechPost 

NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes

NVIDIA a mis en open source OpenShell, un environnement d'exécution sécurisé conçu pour les agents IA autonomes, publié sous licence Apache 2.0. Il offre un sandboxing au niveau noyau, un moteur de politiques granulaires (contrôle par binaire, endpoint et méthode API) avec journalisation complète, ainsi qu'un routage d'inférence privé pour éviter les fuites de données. OpenShell est agnostique aux frameworks — compatible avec Claude Code, Codex, LangChain et autres — et s'intègre comme une couche de sécurité sans réécriture du code agent.

UEOpenShell peut être adopté par les développeurs et entreprises européens pour sécuriser leurs agents IA autonomes, en répondant aux exigences de traçabilité et de contrôle imposées par l'AI Act européen.

OutilsOutil
1 source
MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche
3MarkTechPost 

MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche

MiniMax, la startup chinoise d'intelligence artificielle connue pour ses modèles multimodaux, a lancé MMX-CLI, une interface en ligne de commande open source qui donne aux développeurs et aux agents IA un accès direct à l'ensemble de la plateforme MiniMax : génération de texte, d'images, de vidéos, de voix, de musique, d'analyse visuelle et de recherche web. L'outil, écrit en TypeScript avec le runtime Bun, s'organise en sept groupes de commandes, mmx text, mmx image, mmx video, mmx speech, mmx music, mmx vision et mmx search, couvrant des cas d'usage allant du chat multi-tour en streaming jusqu'à la synthèse musicale avec contrôle du tempo, du BPM, de la tonalité et des instruments. La commande mmx speech propose plus de 30 voix et accepte jusqu'à 10 000 caractères, tandis que mmx video s'appuie par défaut sur le modèle MiniMax-Hailuo-2.3 et permet de générer une vidéo à partir d'une image de départ via le flag --first-frame. L'enjeu principal est de simplifier radicalement l'intégration des capacités multimodales dans les workflows des agents IA. Aujourd'hui, des outils comme Cursor, Claude Code ou OpenCode sont puissants pour manipuler du texte et du code, mais n'ont pas de chemin natif pour générer des médias sans passer par des couches d'intégration supplémentaires, wrappers d'API, configuration serveur, gestion d'authentification séparée, ou protocoles comme le Model Context Protocol (MCP). MMX-CLI contourne tout cela : un agent peut invoquer une commande shell comme n'importe quel outil terminal, sans glue MCP. Pour les équipes qui automatisent des pipelines de création de contenu, de localisation audio ou de production vidéo, cela représente une réduction concrète du coût d'intégration et du temps de développement. Ce lancement s'inscrit dans une tendance plus large où les fournisseurs de modèles cherchent à devenir des plateformes complètes plutôt que de simples API de texte. MiniMax, qui a levé des centaines de millions de dollars et positionne son stack "omni-modal" face aux offres de Google, OpenAI et ElevenLabs, mise sur l'outillage développeur comme levier d'adoption. En exposant ses modèles via une CLI standardisée compatible avec les grands environnements de développement assistés par IA, la société cherche à s'ancrer dans les workflows quotidiens des ingénieurs avant que des concurrents ne comblent le même manque. La prochaine étape probable est une adoption croissante dans les pipelines d'automatisation, content factories, doublage automatique, génération de supports marketing, où la combinaison texte-image-vidéo-voix en une seule interface représente un avantage opérationnel réel.

💬 Pas de wrapper MCP, pas de config serveur, juste une commande shell pour avoir du texte, de la vidéo, de la voix, de la musique : sur le papier, c'est exactement le raccourci qu'il me manquait dans mes pipelines. Si tu automatises de la prod de contenu multimédia, l'intégration devient triviale du coup. La vraie question c'est la qualité des modèles MiniMax face à ElevenLabs ou Hailuo en conditions réelles.

OutilsOutil
1 source
Créer un système de traitement de documents financiers avec Pulse AI et Amazon Bedrock
4AWS ML Blog 

Créer un système de traitement de documents financiers avec Pulse AI et Amazon Bedrock

Pulse AI et Amazon Bedrock s'associent pour proposer un pipeline de traitement intelligent des documents financiers complexes, ciblant les établissements bancaires, les fonds d'investissement privés et les grandes entreprises. Contrairement aux outils OCR traditionnels qui traitent les documents comme de simples images, la solution combine les modèles de langage visuels de Pulse avec des composants de machine learning classiques spécifiquement conçus pour comprendre la structure des documents financiers : bilans comptables, comptes de résultats, dépôts SEC, rapports de recherche et documents d'audit. Le résultat le plus concret : un lot d'environ 1 000 documents financiers complexes, qui nécessitait auparavant plusieurs jours de traitement, est désormais traité en moins de trois heures, produisant des sorties structurées et auditables prêtes pour l'analyse. La solution est déjà déployée chez Samsung, Cloudera, Howard Hughes, ainsi que dans plusieurs institutions financières du classement Fortune 500. L'enjeu est critique pour le secteur financier : une erreur OCR dans un bilan ou un tableau à cellules fusionnées ne reste pas isolée, elle se propage en cascade à travers les calculs interconnectés, faussant l'ensemble de l'analyse. Le pipeline Pulse-Bedrock extrait les données de façon structurée et sémantiquement consciente, puis utilise Amazon Bedrock pour affiner les modèles Nova d'Amazon sur ces données de haute qualité. L'organisation obtient ainsi un modèle de langage personnalisé, entraîné sur ses propres conventions financières, capable de traiter les nouveaux documents avec une compréhension spécifique à l'entreprise. La révision manuelle, qui prenait des jours, se réduit à quelques heures. Ce développement s'inscrit dans une course à l'automatisation documentaire dans laquelle les institutions financières investissent massivement, sous la pression de volumes croissants de rapports réglementaires et de due diligence. Amazon Bedrock se positionne ici comme infrastructure de fine-tuning clé en main, sans gestion d'infrastructure ML ni planification de capacité, ce qui réduit la barrière d'entrée pour les équipes sans expertise MLOps. Pour Pulse AI, ce partenariat valide son approche hybride vision-langage face aux acteurs OCR historiques comme ABBYY ou aux offres cloud génériques de Google Document AI et Azure Form Recognizer. La prochaine étape logique est l'extension à d'autres verticales documentaires lourdes, comme le juridique ou le médical, où les mêmes problèmes de structure complexe et de dépendances contextuelles se posent.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic