Aller au contenu principal

Dossier Claude Opus — page 3

107 articles · page 3 sur 3

La gamme Claude Opus d'Anthropic : sorties successives (4.6, 4.7), benchmarks, comparaisons avec GPT et Gemini, retours d'expérience développeurs.

Codex gagne du terrain
101Ben's Bites OutilsOutil

Codex gagne du terrain

OpenAI accélère le déploiement de Codex auprès du grand public en annonçant plusieurs évolutions majeures visant à rendre l'outil accessible aux utilisateurs non techniques. La plateforme permet désormais d'importer des paramètres, plugins, agents et configurations de projets depuis des outils concurrents comme Claude, facilitant la migration pour ceux qui souhaitent changer d'environnement. Des améliorations concrètes ont également été déployées pour les tâches du quotidien : création de présentations et de feuilles de calcul, interface plus intuitive, et une intégration iMessage non officielle qui permet d'interagir avec Codex directement depuis son téléphone via un fil de discussion persistant. Par ailleurs, xAI a lancé Grok 4.3 dans son API publique : le modèle supporte un contexte d'un million de tokens, accepte texte et images en entrée, intègre des capacités de raisonnement et dispose d'une base de connaissance arrêtée à décembre 2025. Son tarif, fixé à 1,25 dollar pour un million de tokens en entrée et 2,50 dollars en sortie, le positionne comme une alternative nettement moins chère que Claude Sonnet 4.6 pour des performances comparables. Ces mouvements signalent une intensification de la concurrence dans le segment des assistants de développement et de productivité alimentés par l'IA. En ciblant explicitement les non-développeurs, OpenAI cherche à élargir considérablement son marché potentiel pour Codex, qui était jusqu'ici perçu comme un outil avant tout destiné aux ingénieurs. La guerre des prix entre modèles LLM s'accentue également : la tarification agressive de Grok 4.3 par xAI force les autres acteurs à justifier leurs propres coûts, ce qui devrait bénéficier aux entreprises et développeurs cherchant à réduire leurs dépenses d'infrastructure IA. Enfin, la société Entire, fondée par l'ex-PDG de GitHub, a dévoilé deux outils complémentaires : git-sync, un utilitaire pour synchroniser des dépôts git entre sources sans clonage local, et Dispatches, une fonctionnalité générant automatiquement des notes de version à partir des commits et sessions d'agents par dépôt et plage de dates. Codex a été lancé par OpenAI comme successeur de GitHub Copilot dans une logique d'agent de développement autonome, mais la plateforme peine encore à s'imposer comme outil universel face à des concurrents comme Claude ou Cursor. L'ouverture à des profils non techniques représente un pivot stratégique notable, dans un contexte où la frontière entre outils de développement et outils de productivité généraliste s'efface progressivement. Du côté des benchmarks, un signe d'avertissement : Base44 indique dans son outil Frustration Meter qu'Opus 4.7 génère 43 % de frustration en plus qu'Opus 4.6, suggérant que la course aux capacités ne se traduit pas toujours par une meilleure expérience utilisateur. Les semaines à venir diront si Codex réussit son pari d'élargissement, et si Grok 4.3 parvient à s'imposer comme le modèle rapport qualité-prix de référence.

UELa guerre des prix entre LLM (Grok 4.3 à 1,25 $/M tokens en entrée) devrait permettre aux développeurs et entreprises européens de réduire sensiblement leurs coûts d'infrastructure IA.

1 source
Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5
102Pandaily 

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

Xiaomi a lancé la bêta publique de sa nouvelle série de modèles de langage MiMo-V2.5, avec une mise à disposition en open source de MiMo-V2.5 et MiMo-V2.5-Pro annoncée pour très prochainement. La famille MiMo-V2.5 comprend quatre modèles distincts : MiMo-V2.5, V2.5-Pro, V2.5-TTS et V2.5-ASR, chacun conçu pour améliorer le raisonnement, la gestion de contextes longs, le suivi d'instructions complexes ou ambiguës, et la compréhension multimodale. Xiaomi a également annoncé des ajustements tarifaires sur son offre Token Plan. Le fleuron de la gamme, MiMo-V2.5-Pro, est présenté comme le modèle le plus puissant jamais développé par l'entreprise. Les performances revendiquées sont ambitieuses : en tests internes, MiMo-V2.5-Pro se montre compétitif face à Claude Opus 4.6 et GPT-5.4 sur des tâches d'agent général, d'ingénierie logicielle complexe et d'exécution de tâches longues. Associé au bon environnement d'exécution, le modèle peut enchaîner de manière fiable des séquences impliquant près de 1 000 appels d'outils au cours d'une même session. Sa capacité à suivre des instructions implicites tout en maintenant une cohérence logique sur de longues interactions représente une avancée notable par rapport à la génération précédente, et le positionne comme un outil crédible pour des charges de travail professionnelles exigeantes. Cette annonce s'inscrit dans une stratégie d'accélération claire de Xiaomi dans la course mondiale aux grands modèles de langage. Longtemps perçu avant tout comme fabricant de smartphones et d'électronique grand public, le groupe chinois investit massivement dans l'IA depuis plusieurs trimestres, cherchant à s'imposer face à des acteurs comme Alibaba, Baidu ou DeepSeek sur le marché domestique, tout en visant une reconnaissance internationale grâce à l'open source. La publication prochaine des poids du modèle devrait permettre à la communauté de valider les performances annoncées et d'évaluer la place réelle de Xiaomi dans l'écosystème mondial de l'IA.

UELa mise en open source prochaine des poids du modèle pourrait intéresser les développeurs et entreprises européennes cherchant des alternatives open source compétitives, sans impact réglementaire direct sur la France ou l'UE.

LLMsActu
1 source
103AWS ML Blog 

Amazon Bedrock propose désormais une attribution détaillée des coûts

Amazon Web Services vient d'annoncer une nouvelle fonctionnalité d'attribution granulaire des coûts pour Amazon Bedrock, son service d'inférence d'IA en cloud. Désormais, Bedrock attribue automatiquement chaque dépense d'inférence à l'identité IAM (Identity and Access Management) qui a effectué l'appel, qu'il s'agisse d'un utilisateur IAM classique, d'un rôle assumé par une application Lambda, ou d'une identité fédérée via un fournisseur comme Okta ou Microsoft Entra ID. Ces données apparaissent directement dans AWS Cost and Usage Reports (CUR 2.0) sans aucune ressource supplémentaire à gérer ni modification des workflows existants. Concrètement, un rapport peut montrer qu'Alice a dépensé 0,069 dollar en tokens d'entrée et 0,214 dollar en tokens de sortie avec Claude Sonnet 4.6, pendant que Bob a consommé 1,188 dollar au total avec Claude Opus 4.6, avec une précision à l'identité près. Il est également possible d'ajouter des tags de coût sur les identités IAM pour regrouper les dépenses par équipe, projet ou centre de coût dans AWS Cost Explorer. Cette visibilité fine répond à un besoin croissant des entreprises qui voient l'inférence IA représenter une part de plus en plus significative de leur facture cloud. Sans attribution précise, il est impossible de refacturer correctement les équipes internes, d'identifier les usages inefficaces ou de planifier les budgets. Grâce à cette fonctionnalité, un DSI peut désormais savoir exactement quelle équipe produit, quel service applicatif ou quel développeur génère quels coûts LLM, sans déployer d'infrastructure de monitoring supplémentaire. Pour les organisations qui font transiter leurs appels via une passerelle LLM centralisée, AWS recommande d'utiliser AssumeRole avec des tags de session dynamiques afin de préserver la granularité par utilisateur final, même derrière un proxy unique. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs de cloud cherchent à rendre l'IA générative compatible avec les pratiques de gouvernance financière des entreprises. Amazon Bedrock, qui donne accès à des modèles de plusieurs éditeurs dont Anthropic, Mistral et Meta, doit convaincre les directions financières que la dépense IA est traçable et contrôlable. La concurrence avec Azure AI et Google Vertex AI pousse AWS à muscler ses outils de FinOps autour de l'IA. À mesure que les modèles comme Claude Opus deviennent plus coûteux à l'usage, la capacité à attribuer précisément chaque dollar dépensé devient un argument de vente central pour les déploiements en entreprise, où la responsabilisation budgétaire par équipe est souvent non négociable.

UELes entreprises européennes utilisant Amazon Bedrock peuvent désormais attribuer précisément leurs dépenses d'inférence IA par équipe ou projet, facilitant la gouvernance financière et la refacturation interne sans infrastructure supplémentaire.

InfrastructureActu
1 source
Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)
104AWS ML Blog 

Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)

Amazon Web Services vient d'ouvrir l'accès à Amazon Bedrock depuis la région Asie-Pacifique (Nouvelle-Zélande), identifiée sous le code ap-southeast-6 et basée à Auckland. Les clients néo-zélandais peuvent désormais appeler directement les modèles d'Anthropic — Claude Opus 4.5 et 4.6, Sonnet 4.5 et 4.6, et Haiku 4.5 — ainsi que les modèles Amazon Nova 2 Lite, sans passer par une région étrangère. Le mécanisme repose sur l'inférence cross-région : lorsqu'une requête est émise depuis Auckland, Amazon Bedrock la distribue dynamiquement vers une ou plusieurs régions de destination — Auckland elle-même, Sydney (ap-southeast-2) ou Melbourne (ap-southeast-4) — en fonction de la charge et de la disponibilité. Toutes les données transitent exclusivement sur le réseau privé AWS, chiffrées en transit, sans jamais passer par l'internet public. Les appels sont enregistrés dans AWS CloudTrail depuis la région source, et les logs d'invocation peuvent être dirigés vers CloudWatch ou S3 dans la même région. Cette disponibilité régionale répond à une demande concrète des entreprises néo-zélandaises soumises à des exigences de résidence des données. Le profil géographique « AU » permet désormais de garantir que les traitements d'inférence restent dans le périmètre Australie–Nouvelle-Zélande, ce qui est décisif pour des secteurs comme la santé, la finance ou les services publics, où la localisation des données est une contrainte légale ou réglementaire. En parallèle, les organisations sans contrainte de résidence peuvent opter pour le profil global, qui route vers n'importe quelle région commerciale AWS dans le monde pour maximiser le débit disponible. Ce double choix de routage offre une flexibilité opérationnelle rare sur le marché du cloud. Amazon Bedrock s'étend ainsi progressivement dans la zone Pacifique, une région stratégique pour AWS face à la concurrence de Google Cloud et Microsoft Azure, qui ont également multiplié leurs ouvertures de datacenters locaux ces dernières années. La Nouvelle-Zélande, bien que marché de taille modeste, représente un point d'ancrage important pour les entreprises multinationales opérant dans la région ANZ. L'intégration d'Auckland dans le profil cross-région AU — sans modifier les comportements existants de Sydney et Melbourne — illustre une approche incrémentale conçue pour ne pas perturber les architectures déjà en production. La prochaine étape probable sera l'élargissement du catalogue de modèles accessibles depuis cette nouvelle région source, au fur et à mesure que les capacités d'inférence locales monteront en charge.

InfrastructureActu
1 source
Anthropic lance les revues de code Claude Code pour automatiser l'audit de sécurité par raisonnement agentique multi-étapes
105MarkTechPost 

Anthropic lance les revues de code Claude Code pour automatiser l'audit de sécurité par raisonnement agentique multi-étapes

Anthropic a lancé des capacités de revue de code agentique dans Claude Code, permettant au modèle d'enchaîner en moyenne 21,2 appels d'outils indépendants — soit une hausse d'autonomie de 116 % en six mois — pour raisonner sur l'ensemble d'un dépôt plutôt que fichier par fichier. Lors d'un pilote avec Mozilla Firefox, Claude Opus 4.6 a détecté 22 vulnérabilités en deux semaines, dont 14 classées haute sévérité, un résultat comparable à ce que la communauté mondiale de sécurité produit en une année entière. L'outil s'appuie sur le Model Context Protocol (MCP) et intègre une boucle d'auto-correction pour filtrer les faux positifs, tout en proposant des correctifs directement applicables depuis le CLI.

OutilsOutil
1 source
Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts
106Le Big Data 

Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts

Sam Altman qualifie GPT-5.4 de son modèle préféré, saluant ses performances en code et sa personnalité, mais l'investisseur Matt Schumer identifie trois faiblesses notables. Le modèle génère des interfaces fonctionnelles mais visuellement médiocres comparées à Claude Opus 4.6 ou Gemini 3.1 Pro, et peine à intégrer le contexte réel (ex. : itinéraires de voyage ignorant les périodes de vacances scolaires). Ces lacunes freinent encore son adoption dans certains cas d'usage malgré ses performances techniques globalement élevées.

LLMsOpinion
1 source
Le créateur de Claude Code vient de révéler son processus, et les développeurs perdent la tête
107VentureBeat AI 

Le créateur de Claude Code vient de révéler son processus, et les développeurs perdent la tête

Le concepteur de Claude Code a récemment détaillé son processus, provoquant l'enthousiasme et la fascination au sein de la communauté des développeurs. Boris Cherny, le créateur et PDG de Claude Code chez Anthropic, a partagé son organisation personnelle de terminal, qui est devenue une viralité considérée comme un tournant majeur pour le développement de logiciels. Son approche non conventionnelle consiste à gérer cinq agents AI simultanément, commandant autant qu'une petite équipe d'ingénieurs, transformant le coding en une gestion en temps réel, selon plusieurs experts du secteur. Cherny privilégie le modèle Opus 4.5, plus lent mais considéré comme le plus performant pour les tâches de codage, démontrant ainsi que l'optimisation de l'orchestration des modèles existants peut générer des gains de productivité exponentiels.

RechercheOpinion
1 source