Aller au contenu principal
RechercheVentureBeat AI11sem

Le créateur de Claude Code vient de révéler son processus, et les développeurs perdent la tête

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Le concepteur de Claude Code a récemment détaillé son processus, provoquant l'enthousiasme et la fascination au sein de la communauté des développeurs. Boris Cherny, le créateur et PDG de Claude Code chez Anthropic, a partagé son organisation personnelle de terminal, qui est devenue une viralité considérée comme un tournant majeur pour le développement de logiciels. Son approche non conventionnelle consiste à gérer cinq agents AI simultanément, commandant autant qu'une petite équipe d'ingénieurs, transformant le coding en une gestion en temps réel, selon plusieurs experts du secteur. Cherny privilégie le modèle Opus 4.5, plus lent mais considéré comme le plus performant pour les tâches de codage, démontrant ainsi que l'optimisation de l'orchestration des modèles existants peut générer des gains de productivité exponentiels.

When the creator of the world's most advanced coding agent speaks, Silicon Valley doesn't just listen — it takes notes. For the past week, the engineering community has been dissecting a thread on X from Boris Cherny , the creator and head of Claude Code at Anthropic . What began as a casual sharing of his personal terminal setup has spiraled into a viral manifesto on the future of software development, with industry insiders calling it a watershed moment for the startup. "If you're not reading the Claude Code best practices straight from its creator, you're behind as a programmer," wrote Jeff Tang , a prominent voice in the developer community. Kyle McNease , another industry observer, went further, declaring that with Cherny's "game-changing updates," Anthropic is "on fire," potentially facing "their ChatGPT moment." The excitement stems from a paradox: Cherny's workflow is surprisingly simple, yet it allows a single human to operate with the output capacity of a small engineering department. As one user noted on X after implementing Cherny's setup, the experience " feels more like Starcraft " than traditional coding — a shift from typing syntax to commanding autonomous units. Here is an analysis of the workflow that is reshaping how software gets built, straight from the architect himself. How running five AI agents at once turns coding into a real-time strategy game The most striking revelation from Cherny's disclosure is that he does not code in a linear fashion. In the traditional " inner loop " of development, a programmer writes a function, tests it, and moves to the next. Cherny, however, acts as a fleet commander. "I run 5 Claudes in parallel in my terminal," Cherny wrote. "I number my tabs 1-5, and use system notifications to know when a Claude needs input." By utilizing iTerm2 system notifications, Cherny effectively manages five simultaneous work streams. While one agent runs a test suite, another refactors a legacy module, and a third drafts documentation. He also runs "5-10 Claudes on claude.ai " in his browser, using a "teleport" command to hand off sessions between the web and his local machine. This validates the " do more with less " strategy articulated by Anthropic President Daniela Amodei earlier this week. While competitors like OpenAI pursue trillion-dollar infrastructure build-outs, Anthropic is proving that superior orchestration of existing models can yield exponential productivity gains. The counterintuitive case for choosing the slowest, smartest model In a surprising move for an industry obsessed with latency, Cherny revealed that he exclusively uses Anthropic's heaviest, slowest model: Opus 4.5 . "I use Opus 4.5 with thinking for everything," Cherny explained . "It's the best coding model I've ever used, and even though it's bigger & slower than Sonnet, since you have to steer it less and it's better at tool use, it is almost always faster than using a smaller model in the end." For enterprise technology leaders, this is a critical insight. The bottleneck in modern AI development isn't the generation speed of the token; it is the human time spent correcting the AI's mistakes. Cherny's workflow suggests that paying the "compute tax" for a smarter model upfront eliminates the "correction tax" later. One shared file turns every AI mistake into a permanent lesson Cherny also detailed how his team solves the problem of AI amnesia. Standard large language models do not "remember" a company's specific coding style or architectural decisions from one session to the next. To address this, Cherny's team maintains a single file named CLAUDE.md in their git repository. "Anytime we see Claude do something incorrectly we add it to the CLAUDE.md, so Claude knows not to do it next time," he wrote. This practice transforms the codebase into a self-correcting organism. When a human developer reviews a pull request and spots an error, they don't just fix the code; they tag the AI to update its own instructions. " Every mistake becomes a rule ," noted Aakash Gupta , a product leader analyzing the thread. The longer the team works together, the smarter the agent becomes. Slash commands and subagents automate the most tedious parts of development The "vanilla" workflow one observer praised is powered by rigorous automation of repetitive tasks. Cherny uses slash commands — custom shortcuts checked into the project's repository — to handle complex operations with a single keystroke. He highlighted a command called /commit-push-pr , which he invokes dozens of times daily. Instead of manually typing git commands, writing a commit message, and opening a pull request, the agent handles the bureaucracy of version control autonomously. Cherny also deploys subagents — specialized AI personas — to handle specific phases of the development lifecycle. He uses a code-simplifier to clean up architecture after the main work is done and a verify-app agent to run end-to-end tests before anything ships. Why verifica

À lire aussi

1MarkTechPost4h

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

NVIDIA a présenté PivotRL, un nouveau cadre d'entraînement pour les grands modèles de langage (LLM) conçu pour les tâches agentiques complexes comme l'ingénierie logicielle, la navigation web ou l'utilisation d'outils. Développé par des chercheurs de NVIDIA, PivotRL réduit le nombre de tours de simulation nécessaires d'un facteur 4 tout en maintenant une précision élevée. Le système repose sur deux mécanismes clés : le « Pivot Filtering », qui identifie les étapes d'entraînement les plus instructives, et les « Functional Rewards », qui évaluent les actions par équivalence fonctionnelle plutôt que par correspondance exacte de texte. Ce framework s'attaque à un problème central dans le domaine : les méthodes de fine-tuning supervisé (SFT) sont peu coûteuses mais généralisent mal hors de leur domaine d'entraînement, tandis que l'apprentissage par renforcement de bout en bout (E2E RL) offre une meilleure généralisation mais exige des ressources de calcul considérables. PivotRL cherche à combiner le meilleur des deux approches en opérant sur des trajectoires SFT existantes, concentrant le calcul uniquement sur les états d'entraînement qui fournissent le signal d'apprentissage le plus fort. L'entraînement post-déploiement des LLM pour des agents autonomes est devenu l'un des défis majeurs de l'IA en 2025-2026, à mesure que l'industrie cherche à déployer des systèmes capables d'exécuter des tâches longues et complexes de manière fiable et économique.

RecherchePaper
1 source
2Les Numériques IA6h

Actualité : OpenAI ferme brutalement Sora, l'usine à slop la plus chère de l'histoire de l'IA

OpenAI a annoncé le 24 mars 2026 la fermeture brutale de Sora, son outil d'IA pour créer des vidéos, décrite comme l'usine à slop la plus coûteuse de l'histoire de l'IA. Aucune justification n'est donnée officiellement ; une communication ultérieure devrait préciser le calendrier et les mesures pour sauvegarder les contenus utilisateur.

UELa fermeture soudaine de Sora par OpenAI affecte potentiellement les utilisateurs et développeurs européens qui ont investi dans cet outil d'IA pour la création de vidéos.

RechercheActu
1 source
3MarkTechPost14h

L'attention paginée dans les grands modèles de langage

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

RecherchePaper
1 source
4MarkTechPost17h

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source