Dossier Anthropic — page 10

1260 articles · page 10 sur 26

Suivi d'Anthropic, le laboratoire qui a fait de la safety son positionnement : Claude, Mythos, Opus, partenariats Glasswing, IPO.

451MarkTechPost OutilsOutil

xAI lance /goal dans Grok Build : exécution autonome longue durée avec vérification intégrée pour les tâches de codage en plusieurs étapes

xAI a lancé une nouvelle fonctionnalité baptisée /goal au sein de Grok Build, son agent de codage en ligne de commande. Le mode cible l'exécution autonome de tâches longues et complexes : l'utilisateur soumet un objectif en une seule ligne, par exemple "Migrate the auth module to the new API", et l'agent prend en charge l'ensemble du processus sans supervision à chaque étape. Grok Build planifie une approche, la décompose en une liste de tâches visible, puis exécute chaque point séquentiellement. Une fois l'objectif atteint, le panneau bascule sur "Complete" et chaque élément apparaît comme coché. L'utilisateur peut continuer à transmettre des instructions pendant l'exécution, ou piloter la session via les commandes status, pause, resume et clear. L'accès nécessite un abonnement SuperGrok ou X Premium Plus, et le CLI s'installe via une commande curl en une ligne. Ce qui distingue /goal d'un simple agent d'édition de fichiers, c'est l'intégration native de la vérification. L'agent ne s'arrête pas après avoir écrit du code : il continue jusqu'à ce que la tâche soit réalisée et validée. Cette vérification peut prendre trois formes concrètes : relecture du code produit, inspection de pages web pour confirmer le comportement attendu, ou exécution de scripts de test. Ce mécanisme répond à l'une des limites les plus critiquées des agents autonomes, la tendance à déclarer une tâche terminée avant que le résultat ne soit réellement fonctionnel. Pour les développeurs, cela transforme la relation au travail délégué, notamment sur des tâches mécaniques mais étendues : migration de services, ajout d'endpoints, mise à jour de dépendances, portage de configurations sur plusieurs fichiers. Grok Build est l'outil de développement d'xAI, la société d'Elon Musk fondée en 2023, et embarque déjà plusieurs fonctionnalités orientées agents : un mode plan qui bloque les modifications jusqu'à validation explicite, des sous-agents spécialisés travaillant en parallèle, et la compatibilité native avec le protocole MCP (Model Context Protocol), qui permet aux agents de se connecter à des outils et sources de données externes. /goal s'inscrit dans une compétition intense entre les grands acteurs du codage assisté, que ce soit Cursor, GitHub Copilot, Anthropic avec Claude Code ou Google avec Gemini, tous engagés dans une course à l'autonomie fiable sur des tâches longues. La vraie bataille ne porte plus sur la qualité d'une réponse unique, mais sur la capacité à mener à bien une tâche entière, sans supervision constante, et surtout en sachant s'arrêter au bon moment.

Dossier Anthropic — page 10

xAI lance /goal dans Grok Build : exécution autonome longue durée avec vérification intégrée pour les tâches de codage en plusieurs étapes

Réduire la dépendance aux fournisseurs grâce aux modèles multi-agents Sakana AI Fugu

GLM-5.2 rivalise avec GPT ; Z.ai prévoit la sortie d'Open Fable en décembre

Google DeepMind surveille ses agents IA comme des employés à risque ayant accès aux locaux

OVHcloud veut ses Mistral gagnants et se lance dans les LLM

Dans la foulée de son IPO, SpaceX rachète Cursor et ses modèles dédiés aux développeurs

Satya sur Loopcraft : construire des écosystèmes frontier

[AINews] Claude Fable 5 : impressionnant mais sûr, avec des conditions controversées

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

☕️ Google va louer de l’infra IA chez SpaceX pour 920 millions de dollars par mois

OpenAI annonce la fin du chat et projette de transformer ChatGPT en application d'agents autonomes

Le directeur IA de Microsoft affirme que l'entreprise est "libérée" d'OpenAI pour poursuivre la superintelligence

Doctolib réfute livrer « les infos de ses utilisateurs » aux grands acteurs de l’IA

Microsoft a désormais son propre modèle de raisonnement

L'IA peut désormais gérer votre administration

Le jour d'indépendance de Microsoft dans l'IA

Le travail et le code dans une seule IA ? Voici Vibe, la nouvelle ambition de Mistral

L'architecture radicale de DeepSeek fracasse l'avantage concurrentiel de Silicon Valley sur les tokens

DataGrail : vos fournisseurs envoient peut-être vos données à des modèles d'IA sans votre accord

Face à la « course aux armements », le Pape érige l’éthique de l’IA en impératif

Le dernier modèle IA d'Alibaba a optimisé de façon autonome le code de sa puce personnalisée pendant 35 heures

Musk et Zuckerberg ont convaincu Trump d'abroger le décret présidentiel sur l'IA

Si Google n'arrive pas à rendre les agents IA utiles, personne ne le pourra peut-être

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code

Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer

Mensch (Mistral) alerte sur l'IA et le code militaire

Mistral prépare son IA chasseuse de failles, Microsoft déploie déjà son armée d’agents

Claude Mythos devient le premier modèle d'IA à réussir toutes les simulations de cyberattaque de l'agence britannique de sécurité de l'IA

METR peine à évaluer Claude Mythos, Palo Alto Networks alerte sur des cyberattaquants IA autonomes

Les modèles d'IA falsifient désormais leurs propres traces de raisonnement, ce qui pose problème aux tests de sécurité

Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified

GPT-5.5 aussi redoutable que Mythos en matière de hacking ? Les tests inquiètent

Dopés par l’IA, les géants du cloud projettent 700 milliards $ d’investissements en 2026

Bilan IA Avril 2026 : Le Basculement Définitif vers l’IA Agentique et Physique

Fin de l’exclusivité, revenus plafonnés : les coulisses du nouveau deal Microsoft et OpenAI

Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte

GPT-5.5 vs Claude Opus 4.7 : quelle est vraiment l’IA la plus puissante ?

DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains

L'IA à base d'agents pousse les prix à la hausse, Deepseek sort un modèle compétitif pour presque rien

☕️ SpaceX aurait courtisé Mistral avant son deal avec Cursor

Les IA de détection de vulnérabilités réduisent les coûts de sécurité en entreprise

Le pari open source de la Chine

L'écart entre les États-Unis et la Chine en IA s'est réduit, mais pas sur l'IA responsable

Mythos : l’Europe tenue à l’écart du modèle IA le plus ambitieux du moment

Les credentials des agents IA coexistent avec du code non fiable : deux architectures délimitent le périmètre de risque

“Meilleure IA française”… vraiment ? Mistral AI est ridiculement bas dans le classement LMArena

Les capacités offensives de l'IA en cybersécurité doublent tous les six mois, selon des chercheurs

Google DeepMind identifie six vulnerabilites capables de detourner des agents IA autonomes

Arthur Mensch, patron de Mistral AI, héraut d’une intelligence artificielle ouverte et souveraine

ChatGPT, Gemini et d'autres chatbots ont aidé des adolescents à planifier des attaques et des violences politiques, selon une étude