OutilsMarkTechPost · 16 juin 2026, 01:32· 2 min de lecture

Sakana AI commercialise AB-MCTS avec Sakana Marlin, un agent capable de créer des rapports de 100 pages avec diapositives

Sakana AI, la startup tokyoïte fondée par d'anciens chercheurs de Google DeepMind, a lancé cette semaine son premier produit commercial : Sakana Marlin, un agent de recherche autonome destiné aux entreprises. Contrairement à un chatbot classique qui répond en quelques secondes, Marlin fonctionne sur des sessions pouvant durer jusqu'à huit heures. L'utilisateur soumet un sujet ou une question stratégique, et l'agent planifie des hypothèses, explore des sources, vérifie ses conclusions de manière autonome, puis produit un rapport structuré de 60 à 100 pages accompagné d'un jeu de diapositives généré par IA. Chaque session mobilise des centaines, voire des milliers d'appels à des modèles de langage. La beta fermée d'avril 2026 a permis à environ 300 professionnels de tester l'outil sur des tâches réelles : formulation de stratégie, étude de marché, analyse de risques et veille concurrentielle. Sakana a également noué des partenariats avec MUFG et reçu un investissement stratégique de Citigroup.

L'impact potentiel est significatif pour les équipes stratégiques et les directions générales. Marlin se positionne comme un "Virtual CSO" (Chief Strategy Officer) virtuel, capable de compresser en quelques heures un travail d'analyse qui nécessiterait normalement plusieurs semaines à une équipe entière. Les rapports produits incluent un corps principal, des références bibliographiques et des annexes, avec 60 à 80 sources citées par session. Pour les grandes entreprises confrontées à des décisions complexes dans des délais serrés, ce type d'outil pourrait transformer la façon dont la veille stratégique est produite et consommée, en déplaçant une partie du travail analytique des consultants ou analystes internes vers des agents automatisés.

La technologie sous-jacente repose sur AB-MCTS, un algorithme de recherche arborescente adaptatif développé par Sakana à partir de travaux de recherche publiés dans une étude intitulée "Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search". À chaque étape du raisonnement, l'algorithme choisit entre deux stratégies : élargir l'exploration en générant un nouveau candidat, ou approfondir une piste prometteuse déjà identifiée. Une variante multi-modèles peut en outre router certaines étapes vers différents LLMs selon leur pertinence, une approche qui, dans les expériences d'ARC-AGI-2 menées par Sakana, a permis de résoudre 27,5 % des tâches en combinant o4-mini, Gemini 2.5 Pro et DeepSeek-R1, contre 23 % pour o4-mini seul. Marlin s'appuie également sur les travaux du projet AI Scientist de Sakana, publié dans la revue Nature, qui avait démontré la capacité d'un agent à conduire une découverte scientifique autonome de bout en bout.

Impact France/UE

Les équipes stratégiques des grandes entreprises françaises et européennes pourraient adopter ce type d'agent pour automatiser la veille concurrentielle et les analyses de marché, réduisant potentiellement la demande en analystes et consultants internes.

Dans nos dossiers

Google DeepMind DeepSeek Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI

Sakana AI lance un agent 'ultra deep research' : des rapports de plus de 100 pages en 8 heures

La startup japonaise Sakana AI, basée à Tokyo, a lancé son premier produit commercial, Sakana Marlin, un agent de recherche autonome destiné aux entreprises. Présenté comme un "directeur stratégique virtuel", Marlin ne génère pas de réponses en quelques secondes comme les chatbots classiques : il tourne en boucle de raisonnement pendant jusqu'à huit heures d'affilée pour produire des rapports stratégiques de plus de cent pages, accompagnés de diapositives exécutives, d'annexes et de références bibliographiques. Le produit est disponible immédiatement sur le site de l'entreprise, avec une tarification à l'usage, et cible exclusivement les grandes entreprises, les institutions financières et les think tanks. L'utilisateur soumet un sujet de recherche, échange brièvement avec le système pour affiner le périmètre, puis laisse Marlin travailler seul. Sakana a publié des exemples de rapports générés, portant notamment sur des scénarios de blocage du détroit d'Ormuz, la cartographie des réglementations mondiales sur l'IA, ou encore le retour des "bond vigilantes" sur les marchés obligataires. Ce lancement marque un tournant dans la manière dont les grandes organisations envisagent l'IA. Depuis deux ans, l'industrie a été dominée par la course à la vitesse : générer un texte, un résumé ou du code en quelques millisecondes. Marlin renverse cette logique en pariant sur la profondeur plutôt que la rapidité. Pour une multinationale ou un fonds d'investissement, la valeur ne réside plus dans la réactivité, mais dans la capacité à synthétiser des sources hétérogènes, à croiser des données, à formuler des hypothèses et à les tester automatiquement, le tout sans intervention humaine. C'est un glissement de paradigme : l'IA cesse d'être un assistant réactif pour devenir un analyste autonome capable de mener une investigation stratégique complète en une journée de travail. Sakana AI a été fondée par des anciens de Google Brain, dont David Ha et Llion Jones, co-auteur du papier fondateur "Attention is All You Need". L'entreprise a construit Marlin sur deux avancées internes majeures : l'Adaptive Branching Monte Carlo Tree Search (AB-MCTS), une technique de raisonnement inspirée des moteurs d'échecs qui explore des milliers de chemins possibles avant de choisir la meilleure piste, et "The AI Scientist", un projet de recherche publié dans Nature qui avait automatisé le processus de découverte scientifique de bout en bout. Marlin est la traduction commerciale de ces travaux de laboratoire. Sakana n'a pas précisé quels modèles de langage il utilise en coulisses. Dans un marché où OpenAI, Perplexity et Google proposent déjà des fonctions de "deep research", Sakana se différencie par l'échelle temporelle et la profondeur de sortie, positionnant Marlin non pas comme un concurrent des chatbots grand public, mais comme un outil de conseil stratégique automatisé à destination des décideurs.

OutilsOutil

1 source

2MarkTechPost

Créer un workflow SuperClaude avec commandes, agents, modes et mémoire de session

Un tutoriel publié récemment détaille comment construire un workflow d'IA avancé en s'appuyant sur le SuperClaude Framework, une couche structurée développée au-dessus de l'API Anthropic. Le projet, hébergé sur GitHub sous l'organisation SuperClaude-Org, s'articule autour de trois types d'assets : des commandes, des agents et des modes, tous définis sous forme de fichiers Markdown. Le tutoriel montre comment créer un pont Python qui clone le dépôt, parcourt ses fichiers, et injecte dynamiquement le contenu Markdown pertinent dans le prompt système avant chaque appel au modèle claude-sonnet-4-5. Les cas d'usage couverts sont variés : brainstorming, implémentation frontend, analyse de sécurité, stratégie business, planification de recherche approfondie, et workflows de développement enchaînés en plusieurs étapes avec sauvegarde et reprise de session. Ce type d'approche représente une avancée concrète pour les équipes de développement qui utilisent les LLM au quotidien. Plutôt que de réécrire des prompts complexes à chaque session, le framework permet de mutualiser des comportements réutilisables : un agent "sécurité" charge automatiquement les instructions de revue de code défensif, un mode "token-efficient" adapte la verbosité des réponses, un agent "frontend" embarque les bonnes pratiques React ou Vue. Le résultat est un système de prompting cohérent, sensible au rôle demandé, et adapté aux tâches longues de développement logiciel assisté par IA. La mémoire de session, qui permet de sauvegarder et recharger le contexte d'une conversation, réduit également la friction lors de projets s'étalant sur plusieurs interactions. Ce tutoriel s'inscrit dans une tendance plus large qui voit émerger des frameworks d'orchestration destinés à industrialiser l'usage des modèles de langage dans les flux de travail professionnels. Depuis l'ouverture de l'API Claude d'Anthropic, plusieurs projets communautaires cherchent à combler l'écart entre les capacités brutes du modèle et les besoins structurés des développeurs : gestion du contexte, séparation des responsabilités, standardisation des prompts. SuperClaude Framework positionne ses fichiers Markdown comme des "assets de comportement" réutilisables, une approche qui rappelle les system prompts modulaires expérimentés dans d'autres écosystèmes comme LangChain ou CrewAI. L'utilisation de claude-sonnet-4-5 comme modèle cible suggère une orientation vers un équilibre coût-performance plutôt que vers les modèles les plus puissants. La prochaine étape logique pour ce type de framework serait l'intégration de mécanismes d'évaluation automatique des sorties et de routage conditionnel entre agents, des fonctionnalités que plusieurs projets concurrents commencent déjà à proposer.

💬 C'est exactement ce que je faisais à la main depuis des mois, mais formalisé. Mutualiser des comportements de prompting sous forme de fichiers Markdown réutilisables, c'est simple et ça marche, surtout quand on enchaîne des sessions longues sans vouloir tout réexpliquer à chaque fois. Reste à voir si la couche d'injection dynamique tient quand les fichiers se multiplient.

OutilsOutil

1 source

3AWS ML Blog

Comment Guidesly a créé des rapports de sortie générés par IA pour les guides de plein air sur AWS

Guidesly, une startup américaine fondée en 2019, a développé un assistant d'intelligence artificielle baptisé Jack AI, conçu pour automatiser entièrement la production de contenu marketing des guides outdoor, pêche, chasse, plongée, randonnée. Déployé sur l'infrastructure cloud d'Amazon Web Services, Jack AI s'active automatiquement après chaque sortie et transforme photos, vidéos et données de trip en articles de blog, publications Instagram et Facebook, légendes et newsletters e-mail prêts à publier. Le système repose sur une combinaison de services AWS, Lambda, Step Functions, S3, RDS, SageMaker et Bedrock, pour ingérer les médias, les enrichir avec du contexte, appliquer de la vision par ordinateur et de l'IA générative, puis diffuser le contenu sur plusieurs canaux simultanément, sans intervention humaine. L'enjeu est concret : selon Guidesly, les guides indépendants consacrent jusqu'à huit heures par jour à mettre à jour leur site web, animer leurs réseaux sociaux et gérer leurs campagnes e-mail. Ce temps volé à l'activité principale se traduit directement par une perte de revenus et une dégradation de l'expérience client. Jack AI supprime ce goulot d'étranglement en prenant en charge l'identification automatique des espèces capturées, le balisage SEO localisé, l'adaptation du ton à la voix propre de chaque guide, et la mise en forme pour chaque plateforme. Les petits opérateurs, qui ne peuvent pas se payer une équipe marketing, retrouvent ainsi une visibilité en ligne comparable à celle de structures mieux dotées, ce qui se répercute directement sur leurs réservations. Guidesly a bâti son offre autour de Guidesly Pro, une suite SaaS verticale qui centralise réservations, paiements, gestion clients et marketing en un seul système. Jack AI représente l'étape suivante de cette stratégie : passer de l'outil de gestion à un véritable partenaire opérationnel qui travaille en arrière-plan, sans nécessiter de prompts ou de supervision constante, à la différence des assistants IA généralistes. Tournant en architecture serverless, le système monte en charge automatiquement pour absorber les pics d'activité saisonniers, caractéristiques du secteur outdoor. Cette approche illustre une tendance croissante dans les SaaS verticaux : embarquer l'IA directement dans les flux métier existants plutôt que de la proposer comme couche additionnelle, afin de créer une dépendance fonctionnelle forte et de verrouiller la valeur pour les utilisateurs professionnels de niche.

OutilsOutil

1 source

4AWS ML Blog

Amazon lance un outil pour créer des workflows d'agents spécialisés avec NVIDIA NeMo Agent Toolkit

Amazon Web Services et NVIDIA ont présenté une architecture combinant Amazon Quick et le NeMo Agent Toolkit pour permettre aux entreprises de construire des workflows d'agents spécialisés destinés aux équipes métier. L'exemple choisi concerne la gestion des risques dans la chaîne d'approvisionnement : lorsqu'un fournisseur prend du retard, un planificateur doit habituellement vérifier manuellement les bons de commande, les stocks, les engagements clients, les règles contractuelles, les options logistiques et les politiques d'approbation avant de décider d'une action. Dans cette solution, Amazon Quick sert d'interface conversationnelle unique pour les utilisateurs métier, connectée à des sources de données structurées et non structurées comme Amazon S3, Google Drive, Microsoft SharePoint ou Atlassian Confluence, ainsi qu'à plus de 100 connecteurs préconstruits vers des outils tiers tels que Microsoft Outlook, Slack, Jira et Asana. Le NeMo Agent Toolkit, bibliothèque open source et agnostique vis-à-vis des frameworks développée par NVIDIA, prend en charge la partie backend : il enregistre les outils, orchestre l'investigation de la chaîne d'approvisionnement, capture les traces d'exécution et permet d'évaluer et de profiler les workflows. Il fonctionne aux côtés de frameworks populaires comme LangChain, LlamaIndex, CrewAI, Microsoft Semantic Kernel ou Google ADK. Amazon Bedrock AgentCore fait le lien entre les deux, en fournissant la passerelle MCP (Model Context Protocol) ainsi que l'environnement d'exécution qui héberge le workflow du NeMo Agent Toolkit. Cette architecture répond à un problème très concret pour les équipes supply chain : les tableaux de bord permettent de repérer qu'un problème existe, mais rarement de transformer ce signal en une décision fiable et documentée. Avec ce système, un analyste peut poser des questions de diagnostic directement dans Amazon Quick, qui interroge alors le workflow d'agents pour obtenir un plan de mitigation classé par priorité, accompagné des preuves justifiant chaque recommandation. Pour les responsables des opérations supply chain, cela signifie passer d'un simple constat visuel à une décision actionnable sans quitter l'outil qu'ils utilisent déjà au quotidien. Pour les startups en forte croissance, l'intérêt est encore plus direct : à mesure que le volume de commandes, le nombre de fournisseurs et les engagements clients augmentent, la même architecture peut soutenir des décisions plus rapides et reproductibles sans qu'il soit nécessaire d'agrandir les équipes de planification. Sur le plan technique, l'un des apports majeurs du NeMo Agent Toolkit est l'observabilité qu'il apporte aux workflows agentiques, avec de la télémétrie, une mesure de la latence à chaque étape et des résultats d'évaluation permettant d'ajuster les outils et la logique d'orchestration. Cette dimension devient de plus en plus stratégique à mesure que les entreprises évoluent de simples assistants conversationnels vers des workflows d'agents plus complexes, capables d'enchaîner plusieurs étapes de raisonnement et d'action. L'architecture proposée illustre ainsi une tendance de fond chez les grands fournisseurs cloud : séparer clairement l'interface destinée aux utilisateurs métier, portée par des outils comme Amazon Quick, de la couche d'orchestration des agents, confiée à des frameworks spécialisés comme le NeMo Agent Toolkit, le tout relié par des protocoles standardisés comme MCP.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic