OutilsMicrosoft Research6sem· 2 min de lecture

MagenticLite, MagenticBrain, Fara1.5 : une expérience à base d'agents optimisée pour les petits modèles

Microsoft Research AI Frontiers a publié MagenticLite, une application agentique expérimentale conçue pour fonctionner avec de petits modèles de langage. Successeur de Magentic-UI, MagenticLite opère simultanément dans le navigateur web et le système de fichiers local, au sein d'un seul workflow unifié. Elle repose sur deux modèles développés spécifiquement pour cette architecture : MagenticBrain, chargé du raisonnement, de la planification et de l'exécution de code en terminal, et Fara1.5, une famille de modèles dédiée aux tâches informatiques via le navigateur. Fara1.5 se décline en trois tailles, avec un modèle phare de 9 milliards de paramètres. Par rapport à son prédécesseur Fara-7B, il double presque les performances sur la navigation web et améliore significativement la gestion des formulaires, des sites nécessitant une authentification, et des tâches longues. Fara1.5 établit de nouveaux résultats de référence parmi les petits modèles de computer-use.

L'enjeu central de cette publication est de démontrer qu'il est possible d'atteindre des performances agentiques élevées sans recourir à des modèles massifs et coûteux. En faisant tourner l'ensemble du système directement sur la machine de l'utilisateur, MagenticLite préserve la confidentialité des données et réduit drastiquement les coûts d'inférence. Le pari de Microsoft Research est que la capacité agentique repose davantage sur l'orchestration des outils et l'enchaînement d'actions que sur la quantité de connaissances encodées dans un modèle. Cette approche ouvre la voie à des agents capables d'automatiser des tâches réelles, recherche web, gestion de fichiers, remplissage de formulaires, sans dépendre d'une infrastructure cloud onéreuse ni exposer les données à des serveurs distants.

Ce projet s'inscrit dans une course plus large que se livrent les grands acteurs de l'IA pour démocratiser les agents autonomes. Face à des systèmes comme Claude Computer Use d'Anthropic ou les agents de Google DeepMind, Microsoft Research mise sur la coconception intégrale : données d'entraînement, architecture des modèles, harnais d'exécution et interface utilisateur ont été repensés ensemble plutôt qu'en silos. Les évaluations ont été construites à partir de scénarios réels plutôt que de benchmarks standardisés seuls, ce qui reflète une volonté de mesurer l'utilité concrète plutôt que des scores abstraits. Les trois composants sont disponibles séparément mais conçus pour fonctionner ensemble, laissant entrevoir une trajectoire vers des agents compétents embarqués directement dans les appareils des utilisateurs finaux, sans connexion permanente au cloud.

Dans nos dossiers

Microsoft Agents IA Google DeepMind Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Perplexity lance Computer for Counsel, une plateforme multi-modèles à base d'agents pour les juristes

Perplexity a lancé le 24 juin 2026 "Computer for Counsel", un système d'IA agentique conçu spécifiquement pour les équipes juridiques. Disponible dès maintenant pour les abonnés Enterprise et Max, le produit est une extension de Perplexity Computer, la plateforme agentique de l'entreprise qui ne dépend d'aucun modèle unique. Concrètement, le système décompose une tâche juridique en sous-tâches, les distribue automatiquement à plus de 20 modèles frontières selon les besoins (recherche, raisonnement, rédaction contractuelle), puis assemble les résultats en mémos, résumés de dossiers ou contrats. Chaque sortie est liée à sa source d'origine, permettant à l'avocat de vérifier une citation en quelques secondes. Les connecteurs reposent sur le Model Context Protocol (MCP), un standard ouvert, et s'intègrent à plus de 400 outils dont Microsoft 365, Google Workspace, Docusign, NetDocuments ou encore Midpage pour la jurisprudence américaine fédérale et étatique. Selon une enquête de Thomson Reuters, près de 75 % des avocats citent les tâches administratives comme un défi majeur de leur quotidien. Computer for Counsel s'attaque directement à ce problème : la révision de contrats tiers, la surveillance réglementaire ou la synthèse de documents de transaction peuvent être déléguées au système, qui gère la collecte, l'analyse et la mise en forme pendant que le juriste se concentre sur le jugement stratégique. La valeur n'est pas dans le remplacement des bases de données juridiques de référence comme Westlaw ou LexisNexis, que Perplexity ne cherche pas à concurrencer, mais dans la couche d'orchestration qui raisonne simultanément sur le web ouvert, les systèmes internes du cabinet et des sources spécialisées comme Deel (conformité RH dans 150 pays), LegalZoom (modèles contractuels) ou DeepJudge (mémoire institutionnelle du cabinet). Perplexity positionne ce lancement dans un contexte où la course à l'IA juridique s'intensifie, avec des acteurs établis comme Harvey, Casetext (racheté par Thomson Reuters) ou Lexis+ AI qui se disputent les grands cabinets. La différenciation revendiquée par Perplexity repose sur l'absence de verrouillage à un seul fournisseur de modèles : le pool de 20 modèles est régulièrement réévalué, et les équipes IT peuvent déployer des connecteurs MCP personnalisés pour leurs systèmes internes. Les prochaines intégrations annoncées incluent Clio avec accès à plus d'un milliard de sources juridiques dans 100 juridictions, et Ironclad pour la gestion contractuelle. La question ouverte reste la fiabilité des vérifications de jurisprudence, qui dépendent encore entièrement de Midpage pour confirmer qu'une décision citée fait toujours autorité, ce qui maintient une dépendance critique en dehors du contrôle direct de Perplexity.

UELa plateforme cible le marché juridique américain (jurisprudence fédérale et étatique via Midpage, Westlaw, LexisNexis) sans intégration des droits nationaux européens ; l'impact pour les cabinets français ou UE reste nul à court terme.

OutilsOutil

1 source

2InfoQ AI

OpenAI étend son API Responses pour en faire une base pour les agents autonomes

OpenAI a annoncé une extension majeure de son API Responses, transformant cette interface en fondation dédiée à la création d'agents autonomes. Parmi les nouvelles fonctionnalités dévoilées figurent un outil shell intégré, une boucle d'exécution agentique native, un espace de travail conteneurisé hébergé par OpenAI, un mécanisme de compaction du contexte pour gérer les longues sessions, et un système de compétences réutilisables permettant de composer des agents modulaires. Cette mise à jour positionne explicitement l'API Responses comme le socle recommandé pour les workflows multi-étapes et les agents capables d'agir de manière prolongée sans intervention humaine. Pour les développeurs, ces ajouts réduisent considérablement la complexité de construire des agents fiables. Auparavant, gérer une boucle d'exécution, maintenir un contexte cohérent sur de longues chaînes d'actions ou orchestrer des outils système nécessitait une infrastructure personnalisée lourde. En intégrant ces mécanismes directement dans l'API, OpenAI abaisse la barrière d'entrée et permet à des équipes réduites de déployer des agents capables d'accomplir des tâches complexes — automatisation de code, analyse de données, interactions avec des systèmes externes — sans réinventer l'infrastructure sous-jacente. Cette annonce s'inscrit dans une course intense entre les grands acteurs de l'IA pour capter l'écosystème développeur autour de l'agentique. Anthropic pousse son SDK Claude Agent, Google déploie ses propres outils d'orchestration, et des frameworks comme LangChain ou AutoGen tentent de rester pertinents face à ces offres natives. En intégrant l'outillage directement dans son API, OpenAI cherche à fidéliser les développeurs dans son écosystème et à standardiser sa vision de ce que doit être un agent — une pression supplémentaire sur les concurrents pour accélérer leurs propres offres.

UELes développeurs européens peuvent adopter directement ces nouvelles capacités agentiques natives via l'API Responses d'OpenAI, réduisant la dépendance aux frameworks tiers comme LangChain ou AutoGen.

OutilsOutil

1 source

3MarkTechPost

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch

RightNow AI a publié AutoKernel, un framework open-source qui automatise l'optimisation des kernels GPU pour n'importe quel modèle PyTorch. Le principe est simple : soumettre un modèle avant de dormir et retrouver au matin des kernels Triton plus rapides, sans avoir à maîtriser la programmation GPU de bas niveau. Le système repose sur une boucle agentique autonome : un agent LLM modifie un fichier kernel.py, un banc de test vérifie la correction puis mesure le débit, et le résultat détermine si la modification est conservée ou annulée via un git reset. Chaque itération dure environ 90 secondes, ce qui permet de réaliser 300 à 400 expériences lors d'une session de 10 heures. L'agent suit un manuel d'optimisation en six niveaux encodé dans un document de 909 lignes, couvrant le réglage des tailles de blocs, les patterns d'accès mémoire, les optimisations de calcul comme TF32, les techniques avancées comme split-K, et les stratégies spécifiques aux architectures Hopper et Ampere de NVIDIA. L'enjeu est considérable pour l'industrie du machine learning. Optimiser un kernel GPU de haute performance exige de raisonner simultanément sur l'intensité arithmétique, la coalescence mémoire, la pression sur les registres, la synchronisation au niveau warp et la sélection des instructions tensor core, un ensemble de compétences qui prend des années à acquérir. Un seul kernel de multiplication matricielle performant peut représenter plus de 200 lignes de code CUDA ou Triton avec des dizaines de paramètres interdépendants. La suite de benchmarks KernelBench, qui évalue les grands modèles de langage sur 250 problèmes de kernels GPU, a montré que même les meilleurs modèles n'égalaient la baseline PyTorch que dans moins de 20 % des cas en génération directe. AutoKernel répond précisément à ce déficit en rendant cette expertise accessible sans spécialiste humain, ce qui pourrait accélérer significativement le développement et le déploiement de modèles d'IA. L'approche s'inspire directement du projet autoresearch d'Andrej Karpathy, dans lequel une boucle keep/revert appliquée à du code d'entraînement LLM avait permis de découvrir 20 optimisations en 700 expériences sur deux jours avec un seul GPU. AutoKernel transpose cette logique à l'espace des kernels, en substituant la loss de validation par un benchmark de correction et de débit comme fonction d'évaluation. La traçabilité est assurée par git, les résultats étant stockés dans un fichier TSV lisible directement par l'agent. Ce type de framework illustre une tendance plus large où les tâches d'ingénierie hautement spécialisées deviennent des cibles pour l'automatisation agentique, réduisant la dépendance aux rares experts en optimisation GPU à mesure que les architectures de modèles continuent d'évoluer.

💬 L'idée de laisser tourner une boucle agentique toute la nuit pour sortir des kernels Triton optimisés au matin, c'est exactement ce qu'on attendait depuis qu'on a vu Karpathy faire la même chose sur du code d'entraînement. La partie vraiment bien foutue, c'est le mécanisme d'évaluation : un benchmark de correction avant tout, et le git reset si ça régresse, ce qui évite de passer des heures à débugger des "optimisations" qui cassent tout. Pour les équipes sans expert CUDA dans les jambes, c'est une vraie bouffée d'air.

OutilsOutil

1 source

4VentureBeat AI

Les entreprises IA à base d'agents : concevoir pour des performances mesurables

Les agents d'intelligence artificielle semi-autonomes capables de gérer des tâches métier complexes en temps réel ne sont plus une promesse lointaine, c'est désormais une réalité opérationnelle pour certaines grandes entreprises. EdgeVerve, filiale d'Infosys spécialisée dans l'automatisation intelligente, a récemment publié un cadre de conception pour déployer ces agents à l'échelle industrielle. L'entreprise cite ses propres déploiements en production : dans un environnement financier réel piloté par un directeur financier, sept agents interconnectés ont généré en un an une amélioration de plus de 3 % des flux de trésorerie mensuels, un gain de productivité de 50 % sur les workflows concernés, un onboarding 90 % plus rapide, et un impact total de 32 millions de dollars sur la trésorerie. En maintenance immobilière, des résultats similaires ont été obtenus grâce à des agents spécialisés dans la coordination des interventions. Ces chiffres illustrent ce qui distingue un pilote réussi d'un projet abandonné : l'ancrage dans des objectifs métier mesurables dès le départ. La méthode préconisée consiste à partir des KPI organisationnels, délai de recouvrement (DSO), taux de conformité, temps moyen de résolution (MTTR), satisfaction client (NPS), pour définir les objectifs des agents, puis seulement choisir les workflows à automatiser. Les "zones grises opérationnelles", ces espaces entre les applications où subsistent encore des validations manuelles, des réconciliations et des transferts humains, représentent le prochain gisement de valeur. C'est là que les agents peuvent éliminer les frictions systémiques sans remplacer intégralement des processus formalisés. Le cadre repose sur quatre piliers : autonomie calibrée selon le niveau de risque (de la simple suggestion à l'exécution avec rollback automatique), gouvernance intégrée dès la conception avec des garde-fous stricts sur les données personnelles et réglementaires, observabilité continue via des évaluations et métriques en temps réel, et flexibilité d'intégration allant bien au-delà des seules API classiques, en incluant les flux événementiels, les connecteurs RAG pour bases documentaires, et des fallbacks RPA là où les API n'existent pas. Le risque central identifié est celui des agents "hallucinant" des actions non vérifiables par l'entreprise, d'où l'insistance sur l'idempotence, les mécanismes de retry et les schémas d'outils standardisés. Dans un contexte où de nombreuses entreprises peinent encore à sortir leurs agents du stade expérimental, ce retour d'expérience chiffré positionne EdgeVerve comme un acteur cherchant à normaliser les déploiements agentiques en environnement critique.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic