
L'IA s'invite dans le terminal
Stripe vient de lancer Projects.dev, une interface en ligne de commande (CLI) permettant aux agents IA de provisionner instantanément des services tiers — une seule commande suffit pour créer un compte PostHog, récupérer une clé API et configurer la facturation. Ce qui pourrait sembler anecdotique prend une toute autre dimension quand on réalise que Stripe n'a aucun lien technique avec PostHog : le géant des paiements s'impose ici comme orchestrateur d'infrastructure, parce qu'il en a la capacité. Patrick Collison cite directement le projet MenuGen d'Andrej Karpathy comme source d'inspiration, pointant la difficulté persistante pour les agents à configurer des services backend de manière autonome.
Ce lancement n'est pas un fait isolé — il révèle une tendance de fond dans l'écosystème des agents IA. En l'espace de quelques jours, Ramp, Sendblue (iMessage), Kapso (WhatsApp), ElevenLabs, Visa, Resend et même Google Workspace ont tous lancé leurs propres CLI. La prolifération est telle qu'elle semble répondre à une demande structurelle : les CLI offrent aux agents un moyen d'interagir avec les services sans passer par les contraintes des MCP (Model Context Protocol). Le mouvement avait été amorcé en septembre dernier par Cloudflare avec son Code Mode.
Sur le front des modèles, la semaine a également été dense. Google a déployé Gemini 3.1 Flash Live, son nouveau modèle temps réel pour agents vocaux et visuels, avec un contexte de 128 000 tokens, le support de 70 langues et un score de 95,9 % sur Big Bench Audio en mode raisonnement élevé (contre 70,5 % en mode minimal). Mistral AI a publié Voxtral TTS, un modèle de synthèse vocale open-weight de classe 3B/4B, affichant ~90 ms de latence au premier audio et des comparaisons favorables face à ElevenLabs. Cohere a lancé Cohere Transcribe sous licence Apache 2.0, premier modèle audio de la société, revendiquant la première place sur le leaderboard ASR de Hugging Face avec un WER de 5,42 en anglais.
OpenAI complète ce tableau avec GPT-5.4 mini et GPT-5.4 nano, deux variantes multimodales à 400 000 tokens de contexte. Le nano se démarque particulièrement en surpassant Claude Haiku 4.5 et Gemini 3.1 Flash-Lite Preview sur plusieurs benchmarks agentiques — positionnant OpenAI sur le segment ultra-économique avec une agressivité tarifaire manifeste. La convergence entre infrastructure agent-native et modèles toujours plus compétitifs dessine une architecture où la commande en terminal redevient le centre de gravité du développement IA.
Mistral (entreprise française) publie Voxtral TTS open-weight avec ~90 ms de latence, s'imposant dans l'écosystème d'infrastructure agent-native en pleine structuration mondiale.

