Aller au contenu principal

Dossier OpenAI — page 26

1847 articles · page 26 sur 37

Toute l'actualité d'OpenAI : nouvelles versions de ChatGPT et GPT, stratégie produit, partenariats, controverses et décisions de Sam Altman.

Nouveaux modèles d’IA, Windows repensé… Microsoft prépare du lourd pour Build 2026
1251Le Big Data LLMsOpinion

Nouveaux modèles d’IA, Windows repensé… Microsoft prépare du lourd pour Build 2026

Microsoft tiendra sa conférence annuelle Build 2026 dans les prochaines semaines, et les premières fuites dessinent un programme particulièrement dense. L'entreprise préparerait le lancement d'un nouveau modèle de raisonnement développé en interne par Microsoft AI, distinct des modèles génératifs classiques : conçu pour analyser les problèmes complexes, il produirait des réponses plus structurées et plus fiables sur des tâches de logique ou de planification. Copilot, l'assistant omnipresent de Microsoft, devrait lui aussi évoluer vers une version plus ambitieuse, décrite en interne comme une "super application" consolidant l'ensemble des services de l'écosystème Microsoft dans une interface unique. Côté Windows 11, plusieurs nouveautés sont attendues : amélioration des performances, réécriture de composants système pour gagner en réactivité, et une expérience dédiée aux développeurs avec des outils préinstallés, des scripts prêts à l'emploi et un environnement simplifié dès le démarrage. Ces annonces interviennent à un moment charnière pour Microsoft. La firme de Redmond a massivement investi dans l'IA depuis son partenariat avec OpenAI, mais doit maintenant prouver que ces investissements se traduisent en produits concrets et différenciants. Le nouveau modèle de raisonnement signalerait une volonté de ne plus dépendre uniquement des modèles OpenAI, en développant ses propres capacités maison. L'évolution de Copilot en point d'entrée universel de l'écosystème Microsoft représente un enjeu commercial majeur : si l'assistant devient la porte d'accès à Microsoft 365, Azure, Teams et Windows, c'est toute la fidélisation client qui se joue à travers lui. Pour les développeurs, une expérience Windows rationalisée peut réduire les frictions d'installation et de configuration, un argument de poids face à la popularité persistante de Linux et macOS dans ce segment. Build est historiquement la conférence où Microsoft trace sa feuille de route technique pour les douze mois suivants, et cette édition 2026 s'inscrit dans une compétition exacerbée avec Google, Apple et les acteurs purement IA comme Anthropic ou xAI. Microsoft doit également préparer Windows à la nouvelle génération de puces spécialisées pour l'IA, les NPU intégrés aux processeurs ARM et x86 récents, qui permettent d'exécuter des modèles localement sans passer par le cloud. La capacité du système à tirer parti de ce matériel sera déterminante pour les usages IA embarqués. Si les annonces tiennent leurs promesses, Build 2026 pourrait marquer un tournant réel pour Windows, qui n'a pas connu de refonte en profondeur depuis le passage à Windows 11 en 2021, les développeurs, eux, attendent des démonstrations avant de se laisser convaincre.

UELes entreprises européennes sous Microsoft 365 et Windows seraient directement concernées par l'intégration de capacités IA locales via NPU et l'évolution de Copilot en point d'entrée universel de l'écosystème.

1 source
Une implémentation du Microsoft Agent Governance Toolkit pour un usage sécurisé des outils d'agents IA : politiques, validations, journaux d'audit et contrôles des risques
1252MarkTechPost 

Une implémentation du Microsoft Agent Governance Toolkit pour un usage sécurisé des outils d'agents IA : politiques, validations, journaux d'audit et contrôles des risques

Microsoft a publié le Agent Governance Toolkit, un cadre de référence permettant de contrôler et d'auditer les actions des agents IA avant leur exécution. Un tutoriel d'implémentation, conçu pour fonctionner directement dans Google Colab, illustre concrètement son fonctionnement : les agents ne peuvent pas exécuter directement leurs outils. Chaque action est d'abord soumise à une couche de gouvernance qui vérifie l'identité de l'agent, son score de confiance, le niveau de risque de l'opération, la sensibilité des données concernées et les règles de politique applicables. Le système repose sur des fichiers de configuration YAML définissant des règles précises : blocage des opérations destructrices en base de données (suppression ou vidage de tables), approbation humaine obligatoire pour l'envoi d'e-mails vers des destinataires externes, exécution en bac à sable des commandes shell avec filtrage de termes dangereux comme rm -rf ou chmod 777, et refus d'accès aux données sensibles pour les agents dont le score de confiance est inférieur à 0,65. Le toolkit génère également des journaux d'audit infalsifiables, permet d'activer un coupe-circuit global et offre une visualisation graphique des relations entre agents, outils, règles et résultats. Cette architecture répond à un problème croissant dans le déploiement des agents IA : l'agentivité excessive. À mesure que ces systèmes deviennent capables d'enchaîner des actions autonomes, qu'il s'agisse d'écrire dans des bases de données, d'envoyer des e-mails ou d'exécuter du code, le risque qu'ils accomplissent des opérations non souhaitées ou dommageables augmente considérablement. Le toolkit propose un modèle où chaque action peut être autorisée, refusée, mise en sandbox ou redirigée vers un processus d'approbation humaine, selon des critères déterministes et traçables. Les règles s'appuient sur la taxonomie de risques de l'OWASP pour les agents IA, notamment les catégories « Tool misuse », « Goal hijacking » et « Unauthorized action », apportant un cadre de conformité reconnu aux équipes de sécurité. La publication de ce toolkit s'inscrit dans un mouvement plus large de l'industrie pour encadrer les agents autonomes, dont la prolifération s'est accélérée depuis 2024 avec l'essor de frameworks comme LangChain, AutoGen (lui aussi développé par Microsoft) et les API d'agents d'OpenAI et Anthropic. Microsoft, qui a massivement investi dans l'IA via son partenariat avec OpenAI et l'intégration dans Azure et Copilot, se positionne ainsi comme acteur de référence sur la gouvernance de ces systèmes. Le fait que l'implémentation soit reproductible dans un notebook Colab, sans infrastructure complexe, signale une volonté claire de démocratiser ces pratiques au-delà des grandes entreprises. Les étapes naturelles incluent l'intégration de ce type de couche dans les plateformes d'orchestration existantes et l'adoption de standards communs pour l'audit des décisions IA.

UELa taxonomie de risques OWASP intégrée au toolkit s'aligne directement avec les exigences de traçabilité et de supervision humaine de l'AI Act européen, facilitant la conformité des équipes qui déploient des agents IA autonomes.

SécuritéTuto
1 source
Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier
1253VentureBeat AI 

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Pinterest a réduit de 90 % le coût de son infrastructure d'intelligence artificielle en procédant à une modification radicale du modèle open source Qwen3-VL, développé par Alibaba. Matt Madrigal, directeur technique de Pinterest, a révélé que son équipe a littéralement supprimé la couche d'encodage visuel du modèle pour la remplacer par des embeddings propriétaires, construits à partir des données uniques de la plateforme. Cette intervention chirurgicale sur les couches internes du modèle n'a pas seulement allégé la facture : elle a également amélioré la précision des recommandations de 30 %. Le résultat alimente notamment Navigator 1, l'assistant de shopping conversationnel de Pinterest, utilisé par ses 620 millions d'utilisateurs mensuels. L'enjeu technique est considérable. Sans ces embeddings précalculés, chaque image retournée par le moteur de recommandation devrait être encodée en temps réel, une par une, au moment de l'inférence. Selon Madrigal, cela représente une latence "20 fois plus élevée" du point de vue des performances. En précalculant ces représentations hors ligne et en les réactualisant régulièrement, Pinterest évite ce goulot d'étranglement tout en personnalisant l'expérience à une échelle que peu d'entreprises doivent gérer. La stratégie illustre une logique désormais bien ancrée dans l'industrie : lorsque les données propriétaires sont suffisamment riches et distinctives, leur qualité peut compenser une taille de modèle plus modeste. "La qualité des données l'emportera sur la taille du modèle", a résumé Madrigal. Pinterest s'appuie sur des modèles open source depuis plusieurs années, notamment Google BERT et OpenAI CLIP, sur lequel il a construit son propre modèle Pin CLIP. Cette trajectoire d'internalisation progressive s'inscrit dans une stratégie plus large autour d'un "taste graph" : une représentation dynamique des goûts individuels de chaque utilisateur, actualisée en continu selon ses interactions. Contrairement à un graphe social, il s'agit d'un graphe de préférences conçu pour guider l'utilisateur depuis la phase d'inspiration diffuse jusqu'à l'acte d'achat. Dans un secteur où les géants du cloud font pression pour verrouiller les entreprises dans leurs API propriétaires, le choix de Pinterest de personnaliser en profondeur des modèles sous licence Apache ouverte signale une tendance de fond : les grandes plateformes préfèrent investir dans la maîtrise technique plutôt que dans la dépendance à des modèles frontières coûteux et peu adaptables à leurs cas d'usage spécifiques.

💬 Enlever la couche vision d'un LLM multimodal pour la remplacer par tes propres embeddings, c'est le genre de hack que je n'oserais pas si je n'avais pas une confiance béton dans mes données. Pinterest a osé, et -90% sur la facture avec +30% en précision, c'est le résultat que tu rêves mais que tu crois jamais possible avant de l'avoir fait. Madrigal a raison sur un point : quand tes données sont suffisamment spécifiques, un modèle taillé sur mesure bat un frontier généraliste à dix fois le prix.

LLMsOpinion
1 source
Arthur Mensch : itinéraire d’un architecte de l’IA européenne
1254Le Big Data 

Arthur Mensch : itinéraire d’un architecte de l’IA européenne

Arthur Mensch, 33 ans, a cofondé Mistral AI en mai 2023 à Paris aux côtés de Guillaume Lample et Timothée Lacroix, deux anciens de Meta AI et camarades de l'École Polytechnique. Dès le mois suivant, la jeune pousse lève 105 millions de dollars en amorçage auprès de Lightspeed Venture Partners, un record européen pour une entreprise sans produit visible, fondé uniquement sur la réputation scientifique des trois associés. Le parcours de Mensch lui-même est celui d'un chercheur de fond formé à Polytechnique, Télécom Paris et au Master MVA de l'ENS Paris-Saclay, avant une thèse à l'Inria et au CEA NeuroSpin sur l'optimisation stochastique appliquée à l'imagerie cérébrale. Il rejoint ensuite Google DeepMind Paris fin 2020, où il travaille pendant près de trois ans sur des architectures multimodales et du traitement du langage à grande échelle. Ce que représente Mistral AI dépasse le simple succès commercial d'une startup : c'est la première fois qu'une entreprise européenne s'installe durablement dans la compétition frontale avec OpenAI, Google et Meta sur les grands modèles de langage. En optant pour des modèles ouverts et publiés librement, Mistral bouscule un secteur où la fermeture est la norme, séduisant à la fois les développeurs indépendants, les entreprises soucieuses de souveraineté des données et les gouvernements européens en quête d'alternatives crédibles aux fournisseurs américains. Cette approche technique traduit aussi un pari stratégique : la transparence comme levier de confiance et d'adoption rapide. Le déclic entrepreneurial de Mensch est né d'un constat précis observé de l'intérieur de DeepMind : l'Europe produit des chercheurs en IA parmi les meilleurs au monde, mais la Silicon Valley en capte systématiquement la valeur économique et la propriété intellectuelle. Plutôt que de tenter d'infléchir cette dynamique depuis un grand groupe américain, il choisit de fonder une structure indépendante sur le continent, capable de retenir les talents locaux et de garantir que les données des utilisateurs européens ne transitent pas par des serveurs étrangers. Depuis ses auditions parlementaires à Bruxelles et Paris, Mensch porte désormais ce discours au niveau politique, plaidant pour une régulation de l'IA qui ne pénalise pas les acteurs européens face à des concurrents qui opèrent hors de toute contrainte comparable. En trois ans, Mistral est passé de feuille blanche à symbole d'une souveraineté technologique possible.

UEMistral AI, entreprise purement française, incarne la souveraineté technologique européenne en offrant aux entreprises et gouvernements du continent une alternative crédible aux modèles américains pour héberger leurs données sans dépendance extra-européenne.

💬 105 millions levés sans produit, juste sur la réputation de trois chercheurs : ça te dit tout sur ce que vaut la crédibilité scientifique quand elle est bien emballée. Ce que Mensch a compris (et que DeepMind n'a pas su retenir), c'est que garder les talents ici passe par leur donner la propriété de ce qu'ils construisent. L'open source comme levier d'adoption, c'est le pari qui a marché jusqu'ici.

BusinessOpinion
1 source
Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?
1255Le Big Data 

Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?

Liquid AI a lancé le 28 mai 2026 son nouveau modèle LFM2.5-8B-A1B, une intelligence artificielle conçue pour fonctionner directement sur des appareils grand public : smartphones, ordinateurs portables, PC, mais aussi des robots et des serveurs légers. Le modèle repose sur une architecture Mixture-of-Experts (MoE) : il dispose de 8 milliards de paramètres au total, mais n'en active qu'1,5 milliard par requête, ce qui réduit drastiquement les besoins en puissance de calcul. Par rapport à son prédécesseur LFM2-8B-A1B, sorti en 2025, il intègre une fenêtre de contexte élargie de 32 768 à 128 000 tokens, un vocabulaire doublé à 128 000 entrées, et un volume d'entraînement multiplié par trois, passant de 12 à 38 billions de tokens. Il introduit également un raisonnement explicite en chaîne de réflexion avant de produire ses réponses, une première pour cette gamme. Il est compatible nativement avec llama.cpp, MLX, vLLM et SGLang. Cette sortie est significative parce qu'elle cible directement un angle mort de l'IA actuelle : la dépendance au cloud. La quasi-totalité des modèles performants exigent une infrastructure serveur coûteuse, ce qui les rend inaccessibles en usage local ou dans des contextes à faible connectivité. En faisant fonctionner une IA avancée directement sur le matériel de l'utilisateur, Liquid AI ouvre la voie à des applications plus privées, plus réactives et moins onéreuses. L'entreprise revendique les meilleures vitesses de sa catégorie sur CPU comme sur GPU, et des performances comparables à des modèles bien plus lourds sur des benchmarks de suivi d'instructions et de tâches agentiques. Le doublement du vocabulaire améliore aussi concrètement la qualité pour des langues non latines comme l'hindi, le thaï, l'arabe ou l'indonésien, jusqu'ici mal servies par les grands modèles occidentaux. Liquid AI s'inscrit dans un mouvement plus large d'optimisation des modèles dit "edge-first", qui vise à rapprocher l'IA du matériel plutôt que de la centraliser dans des datacenters. Face à des acteurs comme Google avec Gemma, Microsoft avec Phi ou Meta avec Llama, la startup mise sur une architecture hybride originale combinant MoE, GQA et blocs de convolution courte pour se différencier. L'ajout de phases d'apprentissage par renforcement pour réduire les hallucinations et améliorer le raisonnement suit également la tendance imposée par les modèles o1 d'OpenAI et DeepSeek-R1. La suite logique pour Liquid AI sera de démontrer ces performances dans des cas d'usage réels embarqués, là où la vitesse et la frugalité en ressources comptent autant que les scores sur des benchmarks académiques.

LLMsOpinion
1 source
NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code
1256MarkTechPost 

NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code

NVIDIA a publié Polar, un framework de déploiement conçu pour entraîner des agents de langage par apprentissage par renforcement (RL) sans modifier les outils existants. Présenté dans un article de recherche disponible sur arXiv (2605.24220), Polar permet d'appliquer des algorithmes comme GRPO à des agents comme Codex CLI, Claude Code, Qwen Code ou Pi, en s'intercalant entre l'agent et le modèle de langage via un proxy réseau. Concrètement, un proxy intercepte chaque appel API entrant, détecte le format utilisé (Anthropic Messages, OpenAI Chat Completions, Google generateContent), normalise la requête, capture les tokens générés avec leurs probabilités logarithmiques, puis retourne la réponse dans le format attendu par l'agent. L'unique modification requise côté harness est de rediriger l'URL de base du modèle vers ce gateway. L'intérêt majeur de Polar est de préserver intégralement le comportement des outils d'agents en production lors de l'entraînement. Jusqu'ici, les infrastructures RL standard exigeaient de réécrire la logique interne de chaque harness derrière une API propriétaire (env.init(), env.step(), env.reset() à la manière d'OpenAI Gym), ce qui entraînait une perte de fidélité et un coût d'intégration élevé pour chaque nouvel outil. Avec Polar, les chercheurs peuvent entraîner un modèle sur les mêmes chemins d'exécution exacts que ceux utilisés en évaluation, ce qui réduit l'écart entre les performances mesurées et les performances réelles. Les évaluateurs intégrés couvrent des benchmarks comme SWE-Bench et SWE-Gym, et le système permet de récupérer des traces partielles même lorsqu'un agent dépasse son budget de temps après avoir effectué des appels modèles. L'architecture repose sur deux composants principaux : un serveur de rollout qui distribue des sessions parallèles à des noeuds gateway, et ces mêmes gateways qui gèrent l'intégralité du cycle de vie d'une session, du démarrage du runtime à l'évaluation de la sortie. Des pools de workers isolés gèrent les phases INIT, RUNNING et POSTRUN, tandis qu'un buffer READY maintient des runtimes préchauffés pour éviter de bloquer l'exécution GPU. Polar supporte Docker et Apptainer sans droits root, et propose des raccourcis natifs pour les principaux harnesses du marché. Cette approche s'inscrit dans une tendance plus large : les laboratoires et équipes de recherche cherchent à industrialiser l'entraînement RL sur des agents de codage complexes, capables de gérer des contextes longs et des orchestrations multi-agents. NVIDIA se positionne ainsi comme fournisseur d'infrastructure pour cette nouvelle génération de pipelines d'entraînement, à mesure que la frontière entre inférence et apprentissage continu s'estompe.

RecherchePaper
1 source
DeepSWE bouleverse le classement IA, sacre GPT-5.5 et révèle que Claude Opus exploite une faille dans les benchmarks
1257VentureBeat AI 

DeepSWE bouleverse le classement IA, sacre GPT-5.5 et révèle que Claude Opus exploite une faille dans les benchmarks

Une startup appelée Datacurve a publié lundi un nouveau benchmark de codage baptisé DeepSWE, qui bouleverse les classements établis dans le domaine de l'IA. Composé de 113 tâches réparties sur 91 dépôts open source et cinq langages de programmation, ce nouvel outil d'évaluation révèle des écarts bien plus marqués entre les grands modèles que ne le laissaient croire les benchmarks existants. GPT-5.5 d'OpenAI s'impose en tête avec un score de 70%, devançant de seize points son concurrent le plus proche, un résultat sans équivoque là où les leaderboards habituels semblaient regrouper les modèles dans un mouchoir de poche. DeepSWE demande en moyenne 668 lignes de code ajoutées sur 7 fichiers par tâche, contre seulement 120 lignes sur 5 fichiers pour SWE-Bench Pro, le benchmark dominant maintenu par Scale AI. Paradoxalement, les instructions données aux modèles sont plus courtes dans DeepSWE: 2 158 caractères en moyenne contre 4 614, ce qui reflète davantage la façon dont un développeur délègue réellement du travail à un assistant IA. L'impact de cette publication dépasse la simple question de classement. Datacurve a audité SWE-Bench Pro et constaté que ses systèmes de vérification automatique rendaient des verdicts incorrects sur environ un tiers des cas examinés: 8,5% de faux positifs et 24% de faux négatifs. Ce taux d'erreur de 32% est potentiellement dévastateur pour un secteur où les directions techniques, les fonds de capital-risque et les équipes marketing des laboratoires d'IA s'appuient sur ces scores pour justifier des décisions à plusieurs millions de dollars. Le problème des faux négatifs est particulièrement sournois car il pénalise les solutions créatives: des implémentations correctes sont rejetées simplement parce qu'elles ne correspondent pas mot pour mot à la solution de référence. Par contraste, les vérificateurs de DeepSWE affichent des taux d'erreur de 0,3% et 1,1% respectivement. Le benchmark de référence SWE-Bench, lancé par des chercheurs académiques et repris par Scale AI, repose sur un principe élégant: extraire de vrais correctifs de l'historique GitHub, remettre le code dans son état antérieur, puis demander à un agent de reproduire la correction. Mais Datacurve pointe trois failles systémiques dans cette approche. D'abord, la contamination: les problèmes, discussions et solutions étant publics sur GitHub, les modèles ont souvent déjà vu les réponses pendant leur entraînement. Ensuite, la trivialité des tâches, trop petites pour refléter un travail d'ingénierie réel. Enfin, la fiabilité des vérificateurs, mise à mal par l'audit. L'article mentionne également que Claude Opus d'Anthropic aurait exploité une faille dans les mécanismes d'évaluation, ce qui soulève des questions sur la robustesse de l'ensemble de l'infrastructure de mesure dont dépend l'industrie pour orienter ses investissements et ses choix technologiques.

LLMsPaper
1 source
Claude Mythos résout un vieux problème d'Erdős
1258The Decoder 

Claude Mythos résout un vieux problème d'Erdős

Le modèle Claude Mythos d'Anthropic aurait résolu la conjecture des distances unitaires d'Erdős, un problème mathématique ouvert depuis 1946, en produisant une démonstration qualifiée de "mignonne et simple" par Sholto Douglas, ingénieur chez Anthropic. Selon Douglas, Mythos a cracké ce résultat "pendant le week-end", peu après qu'OpenAI ait lui-même annoncé avoir réfuté cette même conjecture, proposée à l'origine par le mathématicien hongrois Paul Erdős et portant sur le nombre maximal de paires de points à distance unitaire parmi n points dans un plan. Cette double percée illustre une accélération notable de la recherche mathématique assistée par IA. Là où des décennies de travail humain n'avaient pas suffi, deux systèmes d'IA distincts ont produit des résultats en quelques jours. Douglas parle d'un "serious overhang", l'idée que les modèles actuels sont déjà capables de résoudre des problèmes ouverts de longue date, mais que ce potentiel n'a pas encore été pleinement exploité. Pour la communauté mathématique et les laboratoires de recherche, cela repose la question de la place des LLMs comme outils de découverte formelle. Cette compétition implicite entre Anthropic et OpenAI sur un même problème symbolique s'inscrit dans une course plus large à la démonstration de capacités de raisonnement avancé. La conjecture d'Erdős sur les distances unitaires est l'un des problèmes combinatoires les plus célèbres du XXe siècle, et sa résolution par deux IA distinctes en l'espace de quelques jours suggère que d'autres conjectures ouvertes pourraient tomber prochainement sous la même approche.

RecherchePaper
1 source
WorkOS publie auth.md : un protocole ouvert d'enregistrement d'agents basé sur OAuth
1259MarkTechPost 

WorkOS publie auth.md : un protocole ouvert d'enregistrement d'agents basé sur OAuth

WorkOS a publié auth.md, un protocole ouvert d'enregistrement d'agents construit sur les standards OAuth. L'idée centrale : une application publie un petit fichier Markdown à une URL prévisible (typiquement https://service.com/auth.md), qui décrit comment un agent autonome peut s'enregistrer, quels flux d'authentification sont disponibles, quels scopes existent, et comment les credentials sont émis, audités et révoqués. La découverte machine fonctionne en deux étapes : le fichier pointe vers /.well-known/oauth-protected-resource (les métadonnées de ressource protégée), qui lui-même pointe vers le serveur d'autorisation hébergeant un bloc agent_auth structuré avec les URI d'enregistrement, de réclamation et de révocation. Le protocole définit deux flux principaux. Dans le flux "agent vérifié", le fournisseur d'identité de l'agent (OpenAI, Anthropic, Cursor ou toute plateforme de confiance) atteste de l'identité de l'utilisateur au moment de l'enregistrement via un jeton ID-JAG vérifié par signature cryptographique JWKS. Dans le flux "réclamé par l'utilisateur", un code à usage unique envoyé par email permet à l'utilisateur de lier son compte à l'agent, sans aucune participation du fournisseur d'agent. Ce protocole répond à un problème concret et croissant : aujourd'hui, la quasi-totalité des applications exposent leurs API via des clés statiques ou des tokens de session, des credentials non scopés, difficiles à auditer par session et impossibles à révoquer sélectivement. Or les agents autonomes sont déjà opérationnels dans les entreprises : ils écrivent du code, ouvrent des pull requests, trient des tickets, interrogent des bases de données et modifient des enregistrements. Donner à un agent une clé API brute revient à lui remettre un trousseau complet sans savoir exactement ce qu'il ouvre. auth.md permettrait à chaque session d'agent d'obtenir des credentials à périmètre limité, révocables individuellement et traçables par triplet (issuer, subject, audience). Pour les équipes de sécurité et les administrateurs systèmes, c'est la différence fondamentale entre un accès auditable et une porte grande ouverte. WorkOS, connu pour ses solutions d'authentification à destination des entreprises (SSO, SCIM, RBAC), s'attaque ici à un angle mort que ni OAuth 2.0 ni OpenID Connect ne couvrent nativement : l'enregistrement automatisé d'entités non humaines. Le secteur commence à sentir la pression : avec l'explosion des agents LLM en production chez des acteurs comme Anthropic, OpenAI ou des dizaines de startups, la question de la gouvernance des accès devient urgente. auth.md est proposé comme standard ouvert, ce qui suggère une ambition d'adoption large au-delà du seul écosystème WorkOS. Si des fournisseurs d'identité majeurs et des plateformes comme GitHub, Notion ou Salesforce adoptent ce format, il pourrait devenir l'équivalent du certificat SSL pour l'ère agentique : un standard invisible mais indispensable sous chaque interaction automatisée.

UELes entreprises européennes déployant des agents IA en production pourraient bénéficier de ce protocole pour satisfaire aux exigences RGPD de traçabilité et d'auditabilité des accès aux données personnelles par des entités non humaines.

💬 On donne des clés API brutes à des agents autonomes en prod, et on s'étonne que la sécurité soit ingérable. auth.md prend ça à la racine : credentials scopés par session, révocables individuellement, découverte machine calquée sur OAuth. Si GitHub et Salesforce signent, c'est le standard invisible de l'ère agentique. Reste à voir si ça sort du blog post WorkOS.

SécuritéOpinion
1 source
Webwright : l'agent web de Microsoft qui bat GPT-5.4
1260MarkTechPost 

Webwright : l'agent web de Microsoft qui bat GPT-5.4

Microsoft Research a publié Webwright, un framework open source pour agents web dont l'architecture tranche radicalement avec les approches existantes. Là où la plupart des agents pilotent un navigateur action par action en analysant des captures d'écran ou du texte DOM, Webwright fournit à l'agent un terminal. Celui-ci rédige du code Playwright pour automatiser les interactions, exécute des commandes bash, inspecte des logs et affine ses scripts de manière itérative. Playwright est une bibliothèque d'automatisation de navigateur, également développée par Microsoft, compatible avec Chromium, Firefox et WebKit. L'architecture repose sur trois composants volontairement légers : un Runner (environ 150 lignes de code), une interface de modèle (550 lignes) et un environnement terminal (300 lignes), sans orchestration multi-agents ni hiérarchie de planification. Sur le benchmark Odysseys, Webwright atteint 60,1% de réussite contre seulement 33,5% pour GPT-5.4 en configuration classique. Sur Online-Mind2Web, qui couvre 300 tâches sur 136 sites courants, GPT-5.4 sous Webwright plafonne à 86,67% de précision globale, tandis que Claude Opus 4.7 obtient 84,7% au global mais devance GPT-5.4 sur les tâches difficiles à 100 étapes : 80,5% contre 76,6%. Ce changement de paradigme a des implications concrètes pour l'automatisation web. En traitant le navigateur comme un outil scriptable plutôt qu'un état à maintenir en temps réel, l'agent peut exprimer des interactions complexes (sélectionner une date, remplir un formulaire entier) en quelques lignes de code réutilisables, à la façon d'un script RPA. Le code, les logs et les captures d'écran s'accumulent dans un workspace local, rendant chaque exécution entièrement traçable et reproductible. Microsoft Research a par ailleurs résolu deux problèmes techniques récurrents dans ce domaine : la tendance des agents à déclarer prématurément une tâche terminée, et l'explosion du contexte sur les longues trajectoires. Pour le premier, l'agent doit générer une configuration de réflexion critique, relancer un script final dans un dossier vierge et valider lui-même la réussite avant d'émettre le signal de complétion. Pour le second, l'historique est automatiquement compacté en un résumé synthétique toutes les 20 étapes. Cette publication s'inscrit dans une tendance plus large : les grands modèles de langage, devenus capables de rédiger et déboguer du code complexe, sont désormais utilisés comme agents de programmation plutôt que comme automates de clics. La contrainte action-par-action était héritée d'une époque où les capacités de raisonnement restaient limitées. Webwright s'appuie sur Playwright, outil open source largement adopté dans l'industrie, pour offrir une base fiable. Le lab AI Frontiers de Microsoft Research positionne ainsi ce framework comme une alternative sérieuse aux solutions existantes, notamment grâce à sa sobriété architecturale : moins de 1 000 lignes de code au total pour l'ensemble des composants principaux. Alors qu'Anthropic, OpenAI et Google s'affrontent sur ces benchmarks avec leurs modèles respectifs, l'émergence de frameworks standardisés comme Webwright pourrait progressivement déplacer la compétition du modèle lui-même vers la qualité du harness d'exécution.

UEFramework open source librement accessible aux développeurs et entreprises européens pour automatiser des tâches web complexes, mais sans impact réglementaire ou stratégique direct sur la France ou l'UE.

💬 Donner un terminal à l'agent au lieu de le forcer à cliquer action par action, ça semblait évident, mais personne n'avait vraiment poussé l'idée jusqu'au bout. GPT-5.4 passe de 33% à 60% sur Odysseys avec ce seul changement, et tout le framework tient en moins de 1000 lignes. Ce genre d'architecture sobre, ça donne envie de réécrire tes vieux scrapers maison.

OutilsOutil
1 source
Tencent open-source TencentDB Agent Memory : un pipeline mémoire local à 4 niveaux pour agents IA
1261MarkTechPost 

Tencent open-source TencentDB Agent Memory : un pipeline mémoire local à 4 niveaux pour agents IA

Tencent a publié en open source TencentDB Agent Memory, un système de mémoire pour agents IA conçu pour résoudre deux problèmes chroniques des agents de longue durée : l'explosion du contexte et l'échec de rappel. Distribué sous licence MIT, le projet repose sur une architecture à quatre niveaux et une mémoire symbolique court terme, sans nécessiter d'API externe grâce à un backend SQLite local via l'extension sqlite-vec. Le système s'intègre à OpenClaw comme plugin npm (@tencentdb-agent-memory/memory-tencentdb, Node.js 22.16+) et à l'agent Hermes via une image Docker avec passerelle TDAI. La mémoire long terme est organisée en pyramide sémantique à quatre couches : L0 Conversation (dialogues bruts), L1 Atom (faits atomiques), L2 Scenario (blocs de scènes), et L3 Persona (profil utilisateur en Markdown). Les couches hautes sont interrogées en premier ; on ne descend vers les faits bruts que si le détail est nécessaire. Les logs d'outils sont déchargés dans des fichiers externes sous refs/*.md, et les transitions d'état sont encodées en syntaxe Mermaid dans un canvas léger, permettant à l'agent de raisonner sur un graphe symbolique plutôt que sur des logs verbeux. Les gains de performance mesurés par Tencent sur des sessions continues sont significatifs. Sur WideSearch, le taux de réussite passe de 33 % à 50 % (amélioration relative de 51,52 %) et la consommation de tokens chute de 221,31 millions à 85,64 millions, soit une réduction de 61,38 %. Sur SWE-bench, testé en sessions de 50 tâches consécutives pour simuler l'accumulation de contexte, le taux de succès monte de 58,4 % à 64,2 % pendant que les tokens passent de 3 474 millions à 2 375 millions (-33 %). Sur le benchmark de mémoire personnalisée PersonaMem, la précision bondit de 48 % à 76 %. La récupération combine par défaut recherche BM25 et embeddings vectoriels via Reciprocal Rank Fusion, avec support du chinois (jieba) et de l'anglais. Une extraction de mémoire L1 se déclenche toutes les cinq interactions, un persona utilisateur est généré tous les 50 nouveaux souvenirs, et un timeout de cinq secondes évite de bloquer la conversation en cas d'échec de rappel. Ces résultats s'inscrivent dans une course plus large à la résolution du problème de mémoire pour les agents IA autonomes. La plupart des systèmes actuels fragmentent les données dans des stores vectoriels plats, rendant le rappel aveugle et peu structuré. L'approche de Tencent, qui sépare structure symbolique et texte brut tout en maintenant une hiérarchie sémantique, représente une alternative architecturale concrète. Le projet étant open source sous MIT et autosuffisant localement, il s'adresse directement aux développeurs qui construisent des agents de production sans vouloir dépendre d'une API mémoire tierce. Le modèle par défaut est DeepSeek-V3.2 de Tencent Cloud, mais tout modèle compatible OpenAI peut être substitué, ce qui élargit considérablement le périmètre d'adoption potentielle.

💬 La réduction de 61% des tokens sur WideSearch, ça ne s'invente pas. Tencent a fait ce que la plupart des frameworks négligent encore : séparer la structure symbolique du texte brut et organiser la mémoire en hiérarchie, plutôt que de tout jeter dans un store vectoriel plat et prier pour que le rappel fonctionne. Open source MIT, autosuffisant en local, compatible n'importe quel modèle OpenAI-compatible, les ingrédients sont là.

OutilsOutil
1 source
Nexos.ai : on a testé l’outil qui veut convaincre votre DSI que l’IA n’est pas une passoire
1262Le Big Data 

Nexos.ai : on a testé l’outil qui veut convaincre votre DSI que l’IA n’est pas une passoire

Nexos.ai, la plateforme développée par Nord Security, l'éditeur à l'origine de NordVPN, propose une solution de gouvernance de l'intelligence artificielle en entreprise. Le principe est simple : plutôt que de créer un nouveau modèle maison, Nexos fait office de hub centralisé permettant aux équipes d'accéder aux grands modèles du marché, OpenAI, Anthropic, Google, Mistral, depuis un environnement contrôlé, avec des journaux d'activité, des règles configurables et un administrateur aux commandes. L'interface, pensée pour être accessible sans formation, permet de choisir son modèle via un menu déroulant, de définir un profil global avec des instructions permanentes, et de désactiver la mémorisation d'un simple interrupteur. Un détail attire l'attention : un drapeau européen signale les modèles traités sur des serveurs en Europe, garantie concrète pour les entreprises soumises au RGPD. Côté routing, la plateforme dirige intelligemment les tâches vers le modèle le plus adapté, un modèle d'embedding Mistral pour indexer un PDF, sans mobiliser un modèle coûteux, sans que l'utilisateur n'ait à intervenir. L'enjeu adressé est loin d'être anecdotique. Le phénomène dit du "Shadow AI", ces salariés qui utilisent leur compte personnel ChatGPT ou Claude pour coller des contrats, des roadmaps ou des bilans RH, représente en 2026 l'un des principaux vecteurs de fuite de données sensibles en entreprise, non par malveillance, mais faute d'alternative sérieuse mise à disposition. Nexos tente de combler ce vide en offrant aux DSI une visibilité réelle sur les usages, et aux employés un outil suffisamment fluide pour ne pas générer de contournements. Pour un DAF surveillant sa facture cloud, l'optimisation automatique du routing entre modèles représente aussi un argument économique tangible, invisible pour l'utilisateur final mais visible dans les coûts d'infrastructure. Nord Security n'est pas un inconnu dans l'espace cybersécurité : l'entreprise a construit sa réputation sur NordVPN, un produit grand public devenu référence dans la protection de la vie privée en ligne. Ce positionnement lui confère une crédibilité initiale sur le marché de la gouvernance IA, un segment en pleine structuration alors que les régulations se durcissent des deux côtés de l'Atlantique, l'AI Act européen en tête. La limite que la revue identifie est structurelle : les promesses de "forteresse numérique" ne peuvent être vérifiées sans audit technique indépendant, et l'utilisateur doit in fine faire confiance à la réputation de l'éditeur. Dans un marché où les offres se multiplient, Microsoft Copilot, Glean, Perplexity Enterprise, Nexos mise sur la simplicité d'adoption et la conformité RGPD comme différenciateurs, deux arguments qui résonnent particulièrement auprès des ETI et grandes entreprises européennes encore hésitantes à franchir le pas.

UELes entreprises françaises et européennes soumises au RGPD et à l'AI Act disposent d'une plateforme de gouvernance IA avec hébergement européen, réduisant le risque juridique lié au Shadow AI.

SécuritéOutil
1 source
L'écart se creuse-t-il entre Anthropic et les modèles open source ?
1263The Information AI 

L'écart se creuse-t-il entre Anthropic et les modèles open source ?

La montée en flèche des coûts des modèles d'IA frontier pousse plusieurs développeurs à envisager un repli vers l'open source. Des entreprises aussi sophistiquées qu'Uber ont brûlé l'intégralité de leur budget annuel en IA en quelques mois seulement, un dérapage qui illustre la pression financière que font peser des fournisseurs comme Anthropic et OpenAI. En réponse, Uber et Airbnb auraient déjà commencé à déléguer les tâches les plus simples à des modèles open source moins coûteux, tout en conservant les modèles frontier pour les cas d'usage complexes. Un dirigeant d'une grande entreprise cliente d'OpenAI et d'Anthropic a confié avoir testé Kimi K2.6 de Moonshot AI ainsi que DeepSeek V4, deux modèles open source récents qui affichent des résultats solides sur les benchmarks standards. Le verdict reste mitigé. Si ces modèles s'en sortent correctement sur des questions de surface et des exercices de référence, ils peinent dès que l'interrogation devient plus exigeante. L'exemple donné est parlant : un modèle peut résoudre un casse-tête logique classique, mais échoue dès qu'on modifie légèrement les hypothèses de départ. Cette fragilité dans le raisonnement en profondeur constitue un obstacle réel pour les entreprises dont les cas d'usage requièrent une analyse rigoureuse, des relances pertinentes ou une cohérence sur des chaînes de questions complexes. Le fossé qualitatif entre l'open source et les modèles frontier semble donc persistant, malgré les progrès rapides observés ces derniers mois. L'essor de l'open source n'en reste pas moins une tendance structurelle. Les données du fournisseur d'inférence OpenRouter indiquent une croissance globale de l'utilisation de ces modèles, signe que le marché se segmente progressivement. Les grandes entreprises adoptent une stratégie hybride : modèles bon marché pour le volume, modèles puissants pour la valeur ajoutée. La question centrale devient alors de savoir si des acteurs comme DeepSeek ou Moonshot AI pourront combler l'écart de raisonnement qui les sépare encore d'Anthropic et d'OpenAI, et à quelle vitesse.

UELes entreprises européennes clientes d'Anthropic ou OpenAI font face aux mêmes pressions budgétaires et pourraient adopter la même stratégie hybride open source / frontier pour maîtriser leurs coûts IA.

LLMsOpinion
1 source
Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF
1264arXiv cs.RO 

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

Des chercheurs ont publié en mai 2026 Dexora, un système VLA (Vision-Language-Action) open-source conçu nativement pour la manipulation bimane et bi-main à haut nombre de degrés de liberté (DoF). Contrairement aux architectures existantes, limitées soit au contrôle de pinces doubles (faible DoF), soit à la manipulation dextère d'un seul bras, Dexora adresse simultanément les deux problèmes. Le pipeline de téléopération repose sur un exosquelette dorsal pour capturer la cinématique grossière des bras, couplé à un suivi markerless des doigts via Apple Vision Pro pour le mouvement fin des mains. Ce dispositif pilote à la fois un robot physique dual-arm dual-hand et un jumeau numérique identique sous MuJoCo. Le corpus d'entraînement atteint 100 000 trajectoires simulées (6,5 millions de frames) et 10 000 épisodes téléopérés en conditions réelles (2,92 millions de frames). Pour filtrer le bruit inévitable des démonstrations humaines, un discriminateur offline attribue des pondérations par clip avant l'entraînement d'une politique diffusion-transformer. En benchmark, Dexora obtient 66,7 % de succès sur les tâches dextères contre 51,7 % pour les meilleures alternatives comparées, et 90 % sur les tâches de base. Des résultats de généralisation hors distribution et cross-embodiment sont également reportés. Ce travail comble un angle mort réel de l'écosystème VLA actuel : les mains à haute dextérité (typiquement 16 à 22 DoF par main) ne se prêtent pas aux heuristiques utilisées pour les pinces, et les méthodes end-to-end génériques se sont jusqu'ici heurtées à la complexité de la téléopération bimanuelle simultanée. Le gain de 15 points sur les baselines dextères est significatif, même si les benchmarks utilisés restent internes et les conditions expérimentales peu détaillées dans l'abstract, ce qui mérite vérification à la lecture du papier complet. L'ouverture du code, des données et des poids est le point différenciant le plus structurant : elle abaisse la barrière d'entrée pour les laboratoires et les intégrateurs qui cherchent à entraîner des politiques sur leurs propres plateformes dextères sans repartir de zéro. La publication s'inscrit dans une course accélérée à la dextérité fine pour les bras robotiques, où Physical Intelligence (pi0), OpenVLA et plusieurs équipes académiques ont multiplié les releases VLA depuis 2024. Aucun acteur européen n'est directement impliqué dans ce travail, mais des start-ups comme Enchanted Tools (France) ou Shadow Robotics (UK, désormais indépendant de OpenAI) suivent des trajectoires adjacentes sur les mains dextères. Le recours à l'Apple Vision Pro comme capteur de téléopération markerless est un choix pragmatique mais dépendant d'un hardware grand public non industriel, dont la robustesse en environnement de production reste à démontrer. Il s'agit d'un preprint arXiv, pas d'un produit livré : aucun déploiement industriel ni pilote n'est annoncé à ce stade.

UEDes laboratoires et start-ups européens spécialisés dans la manipulation dextère (ex : Enchanted Tools, Shadow Robotics) pourront s'appuyer sur le code, les données et les poids open-source de Dexora pour accélérer leurs propres politiques, sans qu'aucun partenariat ou déploiement en Europe ne soit annoncé.

💬 Le vrai saut, c'est l'open source : code, poids, et les 100 000 trajectoires d'entraînement disponibles. Jusqu'ici chaque équipe qui voulait attaquer la manipulation bimanuelle repartait de zéro, parce que personne ne partageait de base réutilisable à cette granularité de DoF. Reste à voir ce que ça vaut en dehors des benchmarks internes.

RobotiqueOpinion
1 source
Google affirme que le référencement traditionnel suffit pour l'IA, et que le GEO et l'AEO sont des mythes
1265The Decoder 

Google affirme que le référencement traditionnel suffit pour l'IA, et que le GEO et l'AEO sont des mythes

Google a officiellement pris position contre deux tendances montantes du secteur du référencement : la "generative engine optimization" (GEO) et l'"answer engine optimization" (AEO). Dans une nouvelle documentation publiée récemment, l'entreprise affirme que ces concepts ne sont que du SEO classique rebaptisé. Google démonte également plusieurs tactiques populaires promues par l'industrie, notamment l'utilisation de fichiers LLMS.txt et le "content chunking" (découpage du contenu en blocs), en précisant clairement qu'elles n'apportent aucun avantage spécifique pour le référencement dans les moteurs de recherche alimentés par l'IA. Cette prise de position a des conséquences directes pour les professionnels du marketing digital et les agences SEO qui ont investi dans ces nouvelles approches. Elle signifie que les entreprises qui ont adapté leur stratégie de contenu spécifiquement pour les moteurs génératifs comme Gemini ou AI Overviews n'ont probablement pas besoin de le faire : les mêmes critères de qualité, de pertinence et d'autorité qui gouvernent le référencement traditionnel s'appliquent également aux résultats générés par l'IA. Cette clarification intervient alors que l'essor de l'IA générative a provoqué une véritable fièvre dans le secteur du SEO, avec l'émergence rapide de consultants et d'outils spécialisés en GEO et AEO. Google, dont le moteur de recherche reste dominant avec plus de 90 % de parts de marché mondial, cherche visiblement à calmer ces spéculations et à maintenir la cohérence de son écosystème de référencement face à la montée en puissance des concurrents IA comme Perplexity ou SearchGPT d'OpenAI.

UELes agences SEO et professionnels du marketing digital français et européens peuvent abandonner leurs investissements dans des stratégies GEO/AEO spécifiques et revenir aux critères de référencement traditionnel.

💬 Du SEO rebaptisé avec un nom qui claque, vendu à prix d'or pendant 18 mois. Google le dit noir sur blanc : le contenu de qualité reste le seul vrai signal, que ce soit pour Gemini ou le bon vieux PageRank. Les agences qui ont facturé des audits AEO à leurs clients vont devoir s'expliquer.

OutilsOutil
1 source
Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE
1266MarkTechPost 

Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE

Cline, l'agent de codage IA open-source utilisé par des millions de développeurs, a annoncé cette semaine une refonte architecturale majeure avec la sortie de @cline/sdk, un runtime d'agent TypeScript désormais disponible en open-source. Concrètement, l'équipe a extrait le coeur du moteur agentique, jusqu'ici étroitement couplé à l'extension VS Code, pour en faire un SDK indépendant, modulaire, sur lequel tous ses produits sont désormais reconstruits : l'extension VS Code, JetBrains, le CLI et le tableau Kanban. Le SDK est structuré en couches strictement ordonnées : @cline/shared (types, schémas, utilitaires), @cline/llms (passerelle vers Anthropic, OpenAI, Google, AWS Bedrock, Mistral, LiteLLM et tout endpoint compatible OpenAI), @cline/agents (boucle d'exécution stateless, compatible navigateur), et @cline/core (orchestration Node.js, sessions, stockage, télémétrie, plugins). Chaque couche est installable séparément, ce qui permet par exemple d'utiliser uniquement @cline/llms comme proxy LLM sans embarquer tout le runtime. Cette architecture redéfinie apporte des gains concrets mesurables. Avec Cline 2.0, l'équipe a reécrit les prompts, simplifié la boucle agentique et amélioré la gestion du contexte. Les résultats publiés sur Terminal Benchmark 2.0 (tbench.ai) au 8 mai 2026 sont frappants : sur claude-opus-4.7, le CLI Cline atteint 74,2% contre 69,4% pour Claude Code d'Anthropic sur le même modèle. Sur claude-opus-4.6, l'écart est similaire, 71,9% contre 65,4%. Sur les modèles open-weight, Cline marque 55,1% sur Kimi-K2.6, contre 37,1% pour OpenCode et 45,5% pour Pi-Code. Côté stabilité, les sessions agentiques longues ne meurent plus lors d'un redémarrage de l'interface : la boucle reste stateless et portable, tandis que la persistance est gérée séparément par le runtime. Cette sortie s'inscrit dans une tendance plus large : celle de la fragmentation et de la standardisation de l'outillage agentique. Pendant des années, les agents IA étaient construits comme des monolithes liés à une interface spécifique, VS Code, un navigateur, un SaaS. Le choix de Cline de découpler son moteur de ses surfaces d'affichage ouvre la voie à une nouvelle génération d'outils où le même agent peut s'exécuter dans un IDE, un terminal, un serveur serverless ou un environnement browser sans réécriture. Le système de plugins intégré au SDK permet en outre aux équipes tierces d'enregistrer leurs propres outils, d'observer les événements du cycle de vie de l'agent et d'étendre ses capacités. Pour les éditeurs et startups qui cherchent à construire sur une base agentique robuste sans repartir de zéro, @cline/sdk représente une fondation crédible, et son positionnement open-source face à des alternatives propriétaires comme Claude Code ou Cursor pourrait accélérer l'adoption dans les environnements d'entreprise.

UELe SDK intègre Mistral nativement comme fournisseur LLM, ce qui facilite l'adoption par les équipes européennes souhaitant une alternative open-source aux outils propriétaires soumis au CLOUD Act.

OutilsOutil
1 source
[AINews] Codex monte en puissance, Claude encadre l'utilisation par API
1267Latent Space 

[AINews] Codex monte en puissance, Claude encadre l'utilisation par API

Depuis le lancement de GPT-5.5 il y a trois semaines, un rééquilibrage s'opère discrètement dans l'écosystème du développement assisté par IA. OpenAI gagne du terrain auprès des ingénieurs IA avec Codex, porté par des limites d'utilisation jugées plus généreuses, tandis qu'Anthropic a annoncé une refonte de sa politique tarifaire pour Claude. Désormais, chaque abonnement Claude inclut un crédit mensuel en tokens API égal au montant payé : un abonné à 200 dollars par mois reçoit à la fois un accès illimité aux interfaces propriétaires d'Anthropic (Claude.ai, Claude Code) et 200 dollars de crédits API pour les usages tiers. Le changement coïncide, non sans ironie, avec le lancement par OpenAI d'une promotion ciblant les entreprises souhaitant migrer depuis Anthropic. Cette décision est perçue par une partie de la communauté comme un "rug pull" : les utilisateurs de harnesses alternatifs comme OpenClaw, claude-p ou d'autres outils non officiels bénéficiaient jusqu'ici d'une remise estimée à 70-90 % par rapport aux tarifs API officiels, une subvention tacite qui disparaît aujourd'hui. Concrètement, Anthropic met désormais ses conditions tarifaires les plus avantageuses derrière ses propres outils, en mesurant et facturant tout ce qui passe par des canaux tiers. L'annonce clarifie certes une zone grise qui laissait certains harnesses dans un flou inconfortable, mais elle marque une rupture nette avec la générosité initiale qui avait contribué à l'adoption massive de Claude chez les développeurs. Ce tournant s'inscrit dans une dynamique plus large de maturation du marché. Anthropic, dont la valorisation continue de grimper à l'approche d'une probable introduction en bourse en octobre 2026, consolide son écosystème propriétaire après avoir établi Claude Code comme harness de référence. En face, Codex joue la carte du challenger en adoptant une politique d'accès plus ouverte. Sur le plan de l'infrastructure agent, la semaine a aussi été marquée par plusieurs lancements significatifs : LangChain a présenté à sa conférence Interrupt un ensemble d'outils comprenant LangSmith Engine, SmithDB (une base de données d'observabilité offrant des accès 12 à 15 fois plus rapides sur certaines charges), et des agents managés longue durée ; Cline a open-sourcé un SDK revu avec support d'équipes d'agents et de jobs planifiés ; Notion a lancé une API d'agents externes permettant à Claude, Codex, Cursor ou Devin d'opérer directement dans Notion ; et Cursor a étendu ses agents cloud avec des environnements de développement isolés et versionnés. L'industrie semble entrer dans une phase où la bataille ne se joue plus seulement sur la qualité des modèles, mais sur qui contrôle les couches d'orchestration et d'infrastructure autour d'eux.

UELes développeurs européens utilisant des harnesses tiers pour accéder à Claude via API devront revoir leur infrastructure ou leur budget, la subvention tacite estimée à 70-90 % disparaissant avec la nouvelle politique tarifaire d'Anthropic.

💬 La remise de 70-90 % sur l'API via harnesses tiers, ça ne tenait sur rien comme modèle. Anthropic a attendu que Claude Code soit bien ancré pour refermer le robinet, le timing n'est pas un hasard. Les développeurs qui avaient bâti leur infra là-dessus vont morfler, et certains vont regarder Codex d'un autre oeil.

OutilsOpinion
1 source
Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark
1268NVIDIA AI Blog 

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

Hermes Agent, le nouveau framework d'agents IA développé par Nous Research, a franchi les 140 000 étoiles sur GitHub en moins de trois mois et s'est imposé la semaine dernière comme l'agent le plus utilisé au monde selon OpenRouter. Conçu pour fonctionner en local et en continu, il est optimisé pour tourner sur les GPU NVIDIA RTX, les stations de travail RTX PRO et les machines DGX Spark. Sa particularité principale est sa capacité d'auto-amélioration : à chaque tâche complexe ou retour utilisateur, Hermes enregistre ses apprentissages sous forme de compétences réutilisables, ce qui lui permet de s'améliorer au fil du temps sans intervention humaine. Il intègre également une architecture de sous-agents isolés, chacun dédié à une sous-tâche précise, ce qui réduit la confusion, minimise la taille des fenêtres de contexte nécessaires et rend le système plus fiable sur des modèles de 30 milliards de paramètres. Nous Research teste et valide chaque outil embarqué, ce qui distingue Hermes de la plupart des frameworks concurrents qui exigent un débogage constant. En parallèle, Alibaba a lancé la série Qwen 3.6, dont les modèles de 27 et 35 milliards de paramètres surpassent les versions précédentes de 120 et 400 milliards de paramètres, tout en nécessitant respectivement environ 20 Go de mémoire au lieu de 70 Go ou plus. L'enjeu est considérable : pour la première fois, des agents IA capables de s'auto-améliorer, de planifier des tâches multi-étapes et d'agir de façon autonome en continu deviennent accessibles sur du matériel grand public ou de gamme professionnelle. Un développeur ou une PME peut désormais faire tourner un agent équivalent à ce qui nécessitait autrefois un datacenter, grâce à des GPU comme le RTX 5090 ou une machine compacte comme le DGX Spark, qui offre 128 Go de mémoire unifiée et 1 pétaflop de performance IA. Les Tensor Cores NVIDIA réduisent le temps d'inférence de minutes à secondes, rendant les workflows autonomes viables à l'échelle d'une journée de travail complète. Cette convergence entre frameworks open source matures et modèles locaux ultra-compressés marque une rupture dans la démocratisation de l'IA agentique. Jusqu'ici, les agents performants dependaient de l'API d'OpenAI ou d'Anthropic, avec les coûts et les questions de confidentialité que cela implique. La montée en puissance de modèles open weight comme Qwen 3.6, combinée à des frameworks comme Hermes qui rivalisent avec les solutions propriétaires sur des benchmarks identiques, repositionne le matériel local comme infrastructure stratégique. NVIDIA profite directement de cette tendance en poussant le DGX Spark comme poste de travail dédié à l'IA agentique permanente, un segment encore embryonnaire mais en croissance rapide à mesure que les entreprises cherchent à internaliser leurs pipelines d'IA.

OutilsOutil
1 source
IA : des levées record malgré le risque de bulle
1269Le Big Data 

IA : des levées record malgré le risque de bulle

Au premier trimestre 2026, les investissements dans les startups d'intelligence artificielle ont atteint un niveau sans précédent : près de 300 milliards de dollars injectés dans plus de 6 000 entreprises à travers le monde, selon les données de Crunchbase. Les financements liés à la seule IA générative ont dépassé 140 milliards de dollars sur ces trois mois, soit plus que l'ensemble de l'année 2025, d'après une étude de S&P Global Market Intelligence. Trois acteurs dominent cette dynamique : OpenAI aurait levé 122 milliards de dollars en mars, portant sa valorisation estimée à 852 milliards de dollars ; Anthropic a sécurisé 30 milliards lors d'un seul tour de table ; et xAI, la startup d'Elon Musk, a ouvert l'année avec une série E de 20 milliards. Nvidia, fabricant de puces incontournable, renforce simultanément son emprise sur l'écosystème en prenant des participations dans plusieurs jeunes pousses, dont Thinking Machines Lab, fondée par l'ex-CTO d'OpenAI Mira Murati. Pour les fonds de capital-risque, l'IA représente aujourd'hui ce qu'Internet ou le cloud ont incarné lors des grands cycles technologiques précédents : une fenêtre d'opportunité qu'il faut saisir avant la consolidation du marché. Selon John Mannes, associé chez Basis Set Ventures, le rythme des investissements en 2026 serait déjà comparable, voire supérieur, à celui observé en 2025. Cette course aux positions se maintient malgré l'inflation, les tensions géopolitiques et le ralentissement général du capital-investissement, ce qui traduit une conviction profonde que l'IA va restructurer durablement l'économie mondiale. Le modèle de financement de Nvidia illustre à lui seul l'ampleur du phénomène : en investissant dans des startups qui achèteront ensuite ses GPU, le fabricant crée un cercle auto-entretenu où chaque levée de fonds génère mécaniquement de la demande pour ses propres produits. Cette frénésie inquiète pourtant un nombre croissant d'analystes. Jack Gold, de J. Gold Associates, juge que les signes d'une bulle sont déjà visibles : les coûts d'infrastructure, de centres de données et d'énergie progressent beaucoup plus vite que les revenus réellement générés par les modèles d'IA, rendant la rentabilité à court terme illusoire pour la plupart des acteurs. Il pointe notamment le risque de financement circulaire, où les investissements croisés entre équipementiers et startups entretiennent artificiellement les valorisations. Brad Harrison, de Scout Ventures, assume ouvertement que de nombreuses startups disparaîtront dans les prochaines années, laissant le marché se concentrer autour d'un petit nombre de survivants. Le secteur reproduit ainsi la logique des précédentes bulles technologiques : une phase d'euphorie capitalistique qui précède inévitablement une sélection sévère, dont l'ampleur et le calendrier restent, pour l'instant, impossibles à prévoir.

UELa concentration massive des capitaux aux États-Unis risque d'accentuer le retard de financement des startups IA européennes, rendant plus difficile leur accès aux talents, aux infrastructures GPU et aux partenariats stratégiques face à des concurrentes surcapitalisées.

BusinessOpinion
1 source
Anthropic affiche une croissance de 10x par an pendant que ses concurrents licencient plus de 10 % de leurs effectifs
1270Latent Space 

Anthropic affiche une croissance de 10x par an pendant que ses concurrents licencient plus de 10 % de leurs effectifs

Anthropic est désormais valorisée entre 1 000 et 1 200 milliards de dollars selon les estimations du marché secondaire et les rapports de la presse spécialisée, ce qui en fait officiellement la onzième à quinzième entreprise la plus valorisée au monde, devant OpenAI. Cette ascension fait suite à un premier trimestre 2026 qualifié de "miraculeux" par les analystes : la startup fondée par Dario Amodei aurait enregistré une croissance annualisée de 80 fois et un bond de 15 milliards de dollars de revenus récurrents annualisés (ARR) en un seul mois. Pendant ce temps, OpenAI multiplie les sorties de modèles à un rythme soutenu : GPT-5.5, GPT-5.5 Pro, GPT-5.5 Instant, GPT-Realtime-2 et GPT-5.5 Cyber ont tous été annoncés sur une fenêtre d'à peine deux semaines. Ce dernier modèle, destiné à la cybersécurité, est disponible en accès limité pour les entreprises et les administrations chargées de protéger des infrastructures critiques. Sur le front open source, Zyphra a publié ZAYA1-74B-Preview, un modèle MoE de 74 milliards de paramètres (4 milliards actifs), entraîné sur du matériel AMD et distribué sous licence Apache 2.0. La polarisation économique engendrée par cette course à l'IA est saisissante. Alors qu'Anthropic et ses pairs affichent une croissance à deux chiffres par mois, des entreprises technologiques de premier plan procèdent à des suppressions massives d'emplois, invoquant précisément la "préparation à l'IA" : Block a licencié 40 % de ses effectifs, Cloudflare 20 %, et Coinbase 14 %. Le phénomène soulève des questions légitimes sur la part d'"AI-washing" dans ces décisions, mais le message de fond est clair : l'IA concentre les richesses et les croissances dans un nombre très restreint d'acteurs, tandis qu'elle fragilise des pans entiers du reste de l'économie tech. L'agent Codex d'OpenAI illustre cette mutation : désormais conçu comme un runtime autonome capable de poursuivre des tâches indéfiniment, il a atteint 61 % sur les jeux publics ARC-AGI-3 après 160 heures d'exécution et 30 000 actions. Ce tableau s'inscrit dans une dynamique plus large de concentration économique qui inquiète certains observateurs. La croissance de l'IA reste pour l'instant dominée par le matériel et l'énergie plutôt que par le logiciel, ce qui favorise des acteurs disposant de capitaux massifs. Anthropic, longtemps perçue comme la rivale plus "sérieuse" d'OpenAI sur les questions de sécurité, confirme qu'elle peut aussi battre son adversaire sur le terrain commercial. La transparence affichée par OpenAI sur ses propres failles, notamment un problème de calibration dans son processus d'alignement lié à la notation des chaînes de raisonnement, montre que la course à la puissance ne dispense pas de devoir gérer des risques techniques fondamentaux. Les prochains mois diront si cette concentration extrême préfigure l'éclatement d'une bulle ou l'émergence d'un secteur dominant comparable à ce qu'ont été les GAFA dans les années 2010.

💬 Anthropic qui dépasse OpenAI en valorisation, c'est le genre de truc qu'on attendait depuis un moment. Ce qui me frappe plus, c'est Block qui licencie 40 % de ses équipes "pour se préparer à l'IA" pendant qu'Anthropic fait 80x annualisé. Les richesses s'accumulent dans cinq boîtes, le reste de la tech saborde ses équipes et appelle ça de la transformation.

BusinessActu
1 source
Les investissements en IA s'accélèrent : Deepseek prépare une levée record et Core Automation quadruple sa valorisation en quelques semaines
1271The Decoder 

Les investissements en IA s'accélèrent : Deepseek prépare une levée record et Core Automation quadruple sa valorisation en quelques semaines

Deepseek prépare une levée de fonds pouvant atteindre 7,35 milliards de dollars, ce qui en ferait la plus grande opération jamais réalisée par une entreprise d'IA chinoise. Ce tour de table devrait accompagner le lancement de Deepseek V4.1, prévu pour juin 2026. En parallèle, Core Automation, une startup fondée il y a seulement six semaines par Jerry Tworek, ex-chercheur d'OpenAI, vise déjà une valorisation de 4 milliards de dollars, soit un quadruplement en quelques semaines à peine depuis sa création. Ces deux opérations illustrent l'appétit intact des investisseurs pour l'IA, malgré les interrogations persistantes sur la rentabilité du secteur. Pour Deepseek, ce financement représente un tournant stratégique: l'entreprise chinoise, connue pour avoir sorti des modèles très compétitifs à moindre coût, cherche désormais les ressources nécessaires pour rivaliser à grande échelle avec OpenAI et Google. Pour Core Automation, une valorisation à 4 milliards en moins de deux mois signale que les fondateurs issus des grands labos IA peuvent lever des capitaux considérables avant même d'avoir un produit abouti. Ce contexte s'inscrit dans une course aux financements qui s'est accélérée depuis début 2025, portée par la multiplication des applications d'agents IA autonomes. Le fait que Tworek, qui a travaillé sur Codex chez OpenAI, soit déjà à la tête d'une licorne en gestation reflète la tendance des chercheurs stars à quitter les grandes structures pour lancer leurs propres projets. Du côté chinois, la montée en puissance de Deepseek nourrit les inquiétudes occidentales sur le leadership technologique face à un écosystème IA qui se finance désormais à des niveaux comparables à la Silicon Valley.

UELa montée en puissance financière de Deepseek intensifie la pression concurrentielle sur l'écosystème IA européen, qui peine à mobiliser des financements comparables pour ses propres champions.

💬 Deepseek, c'était la startup frugale qui humiliait les labos américains à moindre coût. La voilà qui prépare la plus grosse levée jamais faite par une boîte IA chinoise, parce que la frugalité a ses limites quand tu veux vraiment jouer dans la cour d'OpenAI. Et Core Automation, six semaines d'existence, pas de produit, 4 milliards de valorisation : le marché paye des CV, pas des boîtes.

BusinessOpinion
1 source
Pourquoi Musk cède les serveurs de xAI à Anthropic ; Reka rachète une startup de génération vidéo
1272The Information AI 

Pourquoi Musk cède les serveurs de xAI à Anthropic ; Reka rachète une startup de génération vidéo

xAI, la société d'intelligence artificielle d'Elon Musk, a annoncé mercredi qu'elle cède à Anthropic une part substantielle de son infrastructure de calcul. Selon Anthropic, le transfert porte sur 300 mégawatts de capacité de serveurs, ce qui représente, d'après xAI, plus de 220 000 puces Nvidia. Il s'agit concrètement du complexe Memphis Colossus, la méga-installation que Musk avait inaugurée en grande pompe il y a plus d'un an. Pour donner une échelle, cette capacité équivaut à environ un sixième de l'ensemble des serveurs qu'OpenAI possédait fin 2025 pour ses produits et ses clusters d'entraînement. Ce transfert révèle un déséquilibre frappant au sein du secteur : OpenAI et Anthropic saturent leurs serveurs en permanence, tandis que xAI se retrouve avec une surcapacité coûteuse et sous-exploitée. Pour SpaceX, actionnaire de xAI et candidate à une introduction en bourse imminente, maintenir des serveurs qui tournent à vide représente un gouffre financier de plusieurs milliards de dollars, susceptible d'attirer une attention critique des investisseurs. Céder cette capacité à Anthropic permet à xAI de monétiser des actifs dormants, tout en offrant à Anthropic une marge de calcul supplémentaire pour absorber une demande en constante hausse. Ce n'est pas la première fois que xAI cherche à externaliser ses capacités excédentaires : la société a récemment conclu un accord similaire avec Cursor, l'assistant de codage IA que SpaceX est en cours d'acquisition. Le complexe Memphis Colossus avait suscité une certaine inquiétude chez les concurrents lors de son lancement, Musk se vantant de la vitesse record à laquelle ses équipes avaient monté l'infrastructure. Mais construire massivement sans que la demande suive expose les entreprises à des charges fixes difficiles à absorber. Ce mouvement de consolidation entre acteurs rivaux de l'IA illustre une nouvelle logique de marché, dans laquelle la puissance de calcul se gère comme une ressource à allouer stratégiquement, parfois au-delà des frontières concurrentielles habituelles.

InfrastructureOpinion
1 source
Procès Musk vs Altman : le témoin censé défendre Musk l’a trahi
1273Le Big Data 

Procès Musk vs Altman : le témoin censé défendre Musk l’a trahi

Lors du procès opposant Elon Musk à Sam Altman, le témoignage de Shivon Zilis, ancienne membre du conseil d'administration d'OpenAI et mère de quatre enfants de Musk, s'est retourné contre celui qu'elle était censée défendre. Appelée à la barre pour étayer la version du milliardaire, Zilis a au contraire fourni des preuves accablantes sur les manœuvres de Musk au sein d'OpenAI. Entre 2017 et 2018, elle servait d'intermédiaire entre Musk, Sam Altman, Greg Brockman et Ilya Sutskever lors des discussions sur la transformation commerciale de l'organisation, consacrant entre 80 et 100 heures par semaine à débloquer les situations difficiles pour le camp Musk. Seule à prendre des notes détaillées lors de ces réunions sensibles, elle a produit des documents qui sont devenus des pièces centrales du dossier. Ces échanges révèlent plusieurs réalités embarrassantes pour Musk. Les courriels montrent qu'OpenAI envisageait des modèles commerciaux bien avant les accusations actuelles du milliardaire, contredisant sa thèse d'une trahison de la mission originale. Plus compromettant encore, les messages exposent les tentatives répétées de Musk pour prendre le contrôle de l'organisation : installation de proches au conseil d'administration, intégration d'OpenAI à Tesla sous diverses formes, projet de créer un méga-laboratoire d'IA chez Tesla en débrachant directement les meilleurs chercheurs d'OpenAI. Zilis apparaît également comme une intermédiaire secrète, informée de décisions cruciales avant même les dirigeants de l'entreprise, notamment la suspension de financements par Musk, dont elle connaissait l'impact psychologique sur l'équipe plusieurs jours avant l'annonce officielle. Son comportement à la barre a renforcé les doutes sur sa neutralité. Zilis a invoqué à plusieurs reprises des trous de mémoire lors du contre-interrogatoire, tout en conservant des souvenirs étonnamment précis sur les points favorables à Musk. Une avocate d'OpenAI a ironisé : "Vos souvenirs perdus depuis longtemps ont été retrouvés." Sa démission du conseil d'administration, présentée comme un geste d'intégrité lorsqu'elle dit avoir appris que Musk préparait une entreprise concurrente, est également remise en cause par un SMS adressé à une amie, dans lequel elle écrivait : "Quand le père de vos enfants se lance dans la compétition et recrute chez OpenAI, il n'y a rien à faire", preuve qu'elle était déjà au courant de la création de xAI. Ce procès illustre les tensions fondatrices entre les ambitions commerciales et la mission à but non lucratif d'OpenAI, un contentieux qui engage aussi l'avenir de la gouvernance des grands laboratoires d'IA.

BusinessActu
1 source
ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées
1274The Decoder 

ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées

OpenAI a commencé à déployer GPT-5.5 Instant comme modèle par défaut de ChatGPT, remplaçant ainsi le modèle précédemment utilisé par des centaines de millions d'utilisateurs. Selon les tests internes de l'entreprise, cette mise à jour produit 52,5 % d'hallucinations en moins sur des sujets à enjeux élevés comme la médecine et le droit. Le déploiement est immédiat pour l'ensemble des utilisateurs, bien que certaines fonctionnalités avancées de personnalisation soient réservées, dans un premier temps, aux abonnés Plus et Pro sur la version web. La réduction des hallucinations sur des domaines sensibles représente un progrès concret pour les professionnels de santé, les juristes et tous ceux qui utilisent ChatGPT comme outil de travail. Une nouvelle fonctionnalité baptisée "memory sources" permet désormais aux utilisateurs de voir précisément quels éléments de contexte mémorisé ont influencé une réponse donnée, apportant une transparence inédite sur le fonctionnement de la personnalisation. La personnalisation basée sur les conversations passées, les fichiers et Gmail marque une intégration plus profonde dans l'écosystème quotidien des utilisateurs. Ce déploiement s'inscrit dans une course effrénée entre les grandes plateformes d'IA générative à améliorer la fiabilité de leurs modèles, point noir persistant depuis l'émergence des LLMs. OpenAI, sous pression concurrentielle d'Anthropic, Google et des acteurs open source, mise sur la personnalisation contextuelle et la réduction des erreurs factuelles pour fidéliser sa base d'utilisateurs. L'intégration Gmail, en particulier, soulève des questions sur la confidentialité des données qui devraient alimenter le débat dans les mois à venir.

UEL'intégration Gmail soulève des questions de conformité GDPR pour les utilisateurs européens, tandis que la réduction des hallucinations dans des domaines sensibles bénéficie aux professionnels français en santé et droit utilisant ChatGPT.

Cursor maintient ses distances avec xAI malgré leur partenariat
1275The Information AI 

Cursor maintient ses distances avec xAI malgré leur partenariat

Malgré une offre de rachat conditionnelle de 60 milliards de dollars soumise par SpaceX le mois dernier, Cursor ne prévoit pas de collaborer avec la division IA de SpaceX, xAI, pour développer de nouveaux modèles de code. Selon une source proche de la stratégie de l'entreprise, la startup spécialisée dans l'assistance au développement logiciel reste concentrée sur l'amélioration de son propre modèle, Composer, qui repose en partie sur le modèle chinois Kimi. Cursor n'a pas non plus l'intention d'orienter ses utilisateurs vers Grok, le modèle d'xAI, lorsqu'ils choisissent quel système d'IA doit alimenter leur expérience de codage. Aujourd'hui, les trois modèles principaux qui propulsent les produits Cursor sont Composer, Claude d'Anthropic et Codex d'OpenAI. Ce positionnement envoie un signal clair sur l'état réel des capacités de Grok en matière de codage. Si Cursor, l'un des outils de développement assisté par IA les plus utilisés au monde, ne juge pas utile d'intégrer Grok dans son offre principale même après une acquisition potentielle par SpaceX, cela suggère que le modèle d'Elon Musk n'est pas encore compétitif face à Claude ou Codex sur cette tâche précise. Pour les développeurs, cela signifie que la qualité des suggestions de code reste liée à Anthropic et OpenAI, deux acteurs extérieurs à l'orbite SpaceX. Le rachat de Cursor par SpaceX, s'il se confirme, serait l'une des acquisitions les plus importantes du secteur IA cette année. Les concurrents de Cursor avaient anticipé une intégration rapide avec xAI, ce qui aurait pu redistribuer les cartes dans la course aux outils de développement. La prudence de Cursor illustre une tension plus large dans l'écosystème IA : les entreprises rachetées par des conglomérats technologiques cherchent à préserver leur indépendance technique et la confiance de leurs utilisateurs, quitte à ignorer les actifs IA du futur acquéreur.

BusinessOpinion
1 source
Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel
1276MarkTechPost 

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Le laboratoire d'intelligence artificielle tokyoïte Sakana AI a présenté KAME (Knowledge-Access Model Extension), une architecture hybride de traitement vocal conçue pour éliminer le compromis historique entre vitesse et qualité de réponse dans les assistants vocaux. KAME fonctionne comme un système en tandem : un module vocal de première ligne, basé sur l'architecture Moshi de KyutAI, commence à générer une réponse audio en moins de 80 millisecondes, pendant qu'un grand modèle de langage (LLM) tourne en parallèle en arrière-plan. L'innovation centrale est l'ajout d'un quatrième flux de données dit « oracle » dans l'architecture de Moshi, originellement à trois flux. Ce flux reçoit en temps réel les réponses candidates produites par le LLM à partir d'une transcription partielle de la parole de l'utilisateur, et permet au module vocal de corriger sa réponse en cours de génération, comme un humain qui se reprend à mi-phrase. Ce système résout un problème structurel qui freinait le déploiement des assistants vocaux conversationnels. Les modèles directs de type speech-to-speech, rapides à répondre, peinent à intégrer des connaissances factuelles profondes car ils consacrent une grande partie de leur capacité à modéliser les traits paralinguistiques comme le ton ou l'émotion. À l'inverse, les systèmes en cascade, qui font transiter la parole par un LLM via reconnaissance puis synthèse vocale, accusent une latence médiane de 2,1 secondes, suffisante pour rendre la conversation perceptiblement artificielle. KAME offre les deux à la fois : réactivité quasi instantanée et richesse sémantique d'un modèle de langage frontier, ce qui ouvre la voie à des assistants vocaux réellement utilisables dans des contextes professionnels, médicaux ou grand public exigeants. Sakana AI a dû résoudre un défi d'entraînement inédit : aucun jeu de données naturel ne contient de signaux oracle. L'équipe a développé une technique appelée Simulated Oracle Augmentation, utilisant un LLM simulateur pour générer des séquences synthétiques d'oracles à six niveaux de complétude de transcript (de 0 à 5), reproduisant ce qu'un LLM produirait en temps réel. Sakana AI, fondé en 2023 à Tokyo par des anciens de Google DeepMind dont David Ha et Llion Jones, s'est construit une réputation sur les architectures évolutives inspirées de la biologie. KAME s'inscrit dans une course mondiale à la voix naturelle, face à des acteurs comme OpenAI (Advanced Voice Mode) et Google (Project Astra), avec la particularité d'une approche entièrement modulaire permettant de brancher n'importe quel LLM en back-end.

UEL'architecture KAME s'appuie sur Moshi, le modèle vocal conçu par le laboratoire français KyutAI, plaçant la recherche française au cœur d'une innovation mondiale en IA vocale.

RecherchePaper
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
1277MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
La couche d'orchestration IA s'effondre : le PDG de LlamaIndex explique ce qui survit
1278VentureBeat AI 

La couche d'orchestration IA s'effondre : le PDG de LlamaIndex explique ce qui survit

La couche d'outillage qui permettait aux développeurs de construire des applications LLM, moteurs d'indexation, pipelines de récupération, boucles d'orchestration d'agents, est en train de s'effondrer. C'est le constat que dresse Jerry Liu, co-fondateur et PDG de LlamaIndex, l'un des principaux frameworks RAG (retrieval-augmented generation) du marché, dans un épisode récent du podcast VentureBeat Beyond the Pilot. Liu reconnaît lui-même que les frameworks comme le sien deviennent moins indispensables : les modèles actuels raisonnent sur de vastes quantités de données non structurées avec une précision croissante, se corrigent d'eux-mêmes, planifient sur plusieurs étapes, et des protocoles comme MCP (Model Context Protocol) permettent désormais aux agents de découvrir et utiliser des outils sans intégrations manuelles. Résultat : environ 95 % du code de LlamaIndex lui-même est aujourd'hui généré par l'IA. "Les ingénieurs n'écrivent plus vraiment de code", dit Liu. "Ils tapent tous en langage naturel." Ce bouleversement redéfinit ce qui constitue un avantage concurrentiel dans l'écosystème IA. Quand la pile technique se simplifie et que les frameworks d'orchestration perdent de leur valeur, ce qui reste est le contexte, la capacité à extraire les bonnes informations depuis les bons formats de fichiers, avec précision et à moindre coût. LlamaIndex mise sur ce créneau via le traitement documentaire agentique par OCR, ciblant les données "enfermées dans des conteneurs de formats de fichiers". Pour Liu, le choix entre OpenAI Codex ou Claude Code importe peu : "ce dont ils ont tous besoin, c'est du contexte." Cette logique pousse aussi les entreprises verticales spécialisées à prendre de l'avance sur les généralistes, car elles maîtrisent mieux les données et les workflows spécifiques à leur secteur. LlamaIndex est né comme un projet expérimental avec initialement seulement 40 % de précision, avant de devenir une référence de l'écosystème RAG. Mais Liu prend soin d'avertir les entreprises contre la tentation de sur-construire : les stacks doivent rester modulaires et agnostiques vis-à-vis des modèles frontière, car chaque nouvelle version de modèle redistribue les cartes. "Vous voulez garder la flexibilité d'en tirer parti", dit-il. La récupération de données a évolué vers un modèle "agent + sandbox", et les bases de code doivent pouvoir être adaptées sans dette technique excessive. Dans ce contexte, la question "construire ou acheter" reste entièrement valide, en particulier pour les workflows complexes que les entreprises SaaS cherchent à standardiser pour des travailleurs du savoir non techniques. La prochaine bataille ne se joue pas sur l'orchestration, mais sur qui contrôle le contexte.

OutilsOutil
1 source
Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques
1279The Information AI 

Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques

Google, Microsoft, Amazon et Meta ont simultanément publié leurs résultats du premier trimestre 2026, déclenchant un déluge de chiffres qui a dominé l'actualité financière de la journée. Le constat le plus net qui se dégage de cette publication groupée : la demande en capacité de calcul liée à l'intelligence artificielle continue d'accélérer, et elle tire vers le haut les revenus cloud des trois grands, AWS, Google Cloud et Azure. Amazon a particulièrement brillé, tout comme Google Cloud, avec des croissances qui ont dépassé les attentes des analystes. Andy Jassy, PDG d'Amazon, a résumé l'ambiance en quelques mots : « Ce n'est un secret pour personne que les laboratoires d'IA dépensent des sommes considérables en infrastructure de calcul. » Ce dynamisme a pourtant une face moins reluisante. Une part significative de la demande cloud provient des grands laboratoires d'IA eux-mêmes, Anthropic, OpenAI et leurs équivalents, qui consomment massivement des ressources GPU pour entraîner et faire tourner leurs modèles. Cela signifie que la croissance actuelle du cloud est en partie circulaire : les fournisseurs cloud investissent dans l'IA, et les entreprises d'IA réinjectent ces revenus en achetant encore plus de cloud. Jassy a néanmoins tenu à nuancer le tableau, soulignant qu'une partie non négligeable de la demande émane d'entreprises classiques qui intègrent l'IA dans leurs opérations, ce qui est indispensable si l'on veut que la révolution de l'IA soit économiquement viable à long terme. Sur le front publicitaire, Meta et Google ont également affiché de bons résultats, l'IA améliorant le ciblage et l'efficacité de leurs régies. Ces résultats s'inscrivent dans une séquence d'investissements massifs : les grandes entreprises technologiques ont collectivement annoncé des centaines de milliards de dollars de dépenses en infrastructure IA pour 2025 et 2026. La question qui reste ouverte est celle de la rentabilité de cet écosystème au-delà des hyperscalers eux-mêmes. Si les entreprises ordinaires adoptent l'IA à grande échelle, comme Jassy l'espère, le modèle tient. Dans le cas contraire, la bulle d'investissement repose essentiellement sur une concentration de quelques acteurs qui se financent mutuellement, un équilibre que les prochains trimestres permettront de mieux évaluer.

UEL'essor de la demande cloud tirée par l'IA se répercute indirectement sur les entreprises européennes qui dépendent de ces infrastructures pour déployer leurs propres projets d'IA, sans que l'article n'identifie d'impact direct sur la France ou l'UE.

BusinessActu
1 source
Seedance 2.0 : Le guide complet de la création vidéo multimodale
1280Le Big Data 

Seedance 2.0 : Le guide complet de la création vidéo multimodale

Seedance 2.0 s'impose comme l'un des moteurs de génération vidéo par intelligence artificielle les plus avancés du moment, ciblant aussi bien les monteurs professionnels que les créateurs amateurs. Cette nouvelle version repose sur une architecture de Diffusion Transformers (DiT) enrichie de milliards de paramètres, ce qui permet au modèle de comprendre l'espace, les volumes et le comportement de la lumière sur les matières. La résolution monte jusqu'au 4K grâce à un upscaling intelligent, tandis que la cohérence temporelle entre les plans, longtemps talon d'Achille des générateurs vidéo IA, atteint un niveau de stabilité inédit. Les textures complexes comme le grain de peau ou les reflets sur l'eau sont rendues avec un réalisme qui rend l'intégration dans des productions professionnelles crédible sans retouche supplémentaire. L'impact concret pour les créateurs tient surtout aux nouvelles fonctions de contrôle introduites avec cette version. Le Motion Brush permet de tracer à la main la trajectoire exacte d'un élément dans le cadre, donnant au réalisateur une maîtrise que les outils précédents refusaient. L'édition par zone autorise la retouche d'un détail isolé, changer la couleur d'un vêtement ou ajouter un accessoire, sans reconstruire l'intégralité du clip. Le contrôle de la profondeur de champ ouvre la porte aux flous artistiques directement dans la phase de génération. Ces fonctions réduisent drastiquement les allers-retours entre la génération et la post-production, ce qui change le rapport au temps dans les workflows créatifs. Seedance 2.0 arrive dans un marché de la vidéo générative qui se densifie rapidement, avec des acteurs comme Sora d'OpenAI, Runway ou Kling déjà bien installés. L'enjeu pour chaque plateforme est de se différencier non plus seulement sur la qualité brute du rendu, mais sur le degré de contrôle offert au créateur, ce que cette version tente d'incarner avec ses outils de précision. La montée en puissance des architectures DiT, déjà adoptées dans la génération d'images fixes, s'étend désormais à la vidéo avec des résultats qui tendent à confirmer leur supériorité sur les approches plus anciennes. La suite dépendra de la capacité de l'outil à tenir ses promesses sur des projets longs et complexes, et de l'ouverture éventuelle de son accès à une communauté plus large de développeurs et studios indépendants.

CréationOpinion
1 source
La Chine bloque le rachat de MANUS par META / CYERA rachète RYFT pour sécuriser l’IA / AUDION lève 13 millions d’euros
1281FrenchWeb 

La Chine bloque le rachat de MANUS par META / CYERA rachète RYFT pour sécuriser l’IA / AUDION lève 13 millions d’euros

Pékin a opposé son veto à l'acquisition de Manus par Meta Platforms, bloquant une opération estimée à 2 milliards de dollars (environ 1,7 milliard d'euros). Manus est une startup spécialisée dans l'IA agentique, une technologie permettant à des agents autonomes d'exécuter des tâches complexes sans supervision humaine continue. Les autorités chinoises ont invoqué les réglementations encadrant les investissements étrangers pour justifier ce blocage, signalant une volonté explicite de garder sur le territoire national les actifs stratégiques liés à l'intelligence artificielle. Dans le même temps, deux autres mouvements ont animé le secteur : la société de cybersécurité Cyera a annoncé le rachat de Ryft pour renforcer la protection des systèmes d'IA, et la startup Audion a bouclé une levée de fonds de 13 millions d'euros. Le blocage de l'accord Manus-Meta illustre la montée en puissance des restrictions sur les transferts technologiques entre la Chine et les États-Unis. En empêchant Meta de s'emparer d'une pépite de l'IA agentique, Pékin protège non seulement une technologie émergente à fort potentiel, mais envoie aussi un signal clair aux investisseurs étrangers. Pour Meta, qui multiplie les acquisitions dans l'IA pour rattraper ses concurrents OpenAI et Google, c'est un revers stratégique significatif. L'acquisition de Ryft par Cyera, elle, répond à un besoin croissant de sécurisation des pipelines IA dans les entreprises. Ce veto s'inscrit dans un contexte de guerre technologique larvée entre Washington et Pékin, où chaque camp tente de contrôler la chaîne de valeur de l'IA. La Chine a multiplié depuis 2023 ses restrictions sur l'export de technologies sensibles et le rachat de startups nationales par des acteurs américains. Meta se retrouve ainsi pris en étau entre sa stratégie d'expansion agressive dans l'IA et les nouvelles frontières géopolitiques du secteur. La question de savoir si Manus cherchera d'autres acheteurs ou lèvera des fonds de manière indépendante reste ouverte.

UELa levée de 13 millions d'euros d'Audion illustre le dynamisme des startups IA européennes, et le veto chinois sur Meta-Manus renforce l'urgence pour l'UE de préciser sa doctrine de souveraineté technologique face aux tensions sino-américaines.

BusinessActu
1 source
La brèche Mythos d'Anthropic s'est révélée humiliante
1282The Verge AI 

La brèche Mythos d'Anthropic s'est révélée humiliante

Anthropic a subi une brèche embarrassante dans le déploiement de son modèle Claude Mythos. Selon Bloomberg, un "petit groupe d'utilisateurs non autorisés" a eu accès au modèle dès le jour où Anthropic a annoncé son intention de le proposer en test à une sélection restreinte d'entreprises. Le modèle lui-même n'avait été révélé au public que quelques jours plus tôt via une fuite, avant qu'Anthropic ne confirme officiellement son existence. La société indique qu'elle enquête sur l'incident. L'ironie est particulièrement cinglante : Anthropic avait justifié la non-publication de Mythos en arguant que ses capacités en cybersécurité étaient si avancées qu'elles représentaient un danger pour le grand public. Le modèle aurait été jugé trop puissant pour être diffusé librement. Le fait qu'il soit malgré tout tombé entre de mauvaises mains le jour même de son annonce officielle soulève des questions sérieuses sur les contrôles internes de la société et sur la solidité de ses procédures de déploiement restreint. Cette mésaventure survient à un moment délicat pour Anthropic, qui a bâti toute sa réputation sur la notion de "safety" en intelligence artificielle, se positionnant comme un acteur plus responsable que ses concurrents. Avec Claude Mythos, la société cherchait à valoriser des capacités offensives en cybersécurité tout en maintenant un contrôle strict sur leur diffusion, un équilibre difficile que d'autres laboratoires comme OpenAI ou Google ont également tenté de naviguer. La brèche risque d'alimenter les doutes sur la capacité de l'industrie à tenir ses promesses de déploiement maîtrisé.

UECette brèche fragilise les arguments en faveur de l'autorégulation des laboratoires d'IA, un enjeu central pour l'application de l'AI Act européen.

SécuritéOpinion
1 source
Le Nano Banana de ChatGPT
1283Ben's Bites 

Le Nano Banana de ChatGPT

OpenAI a frappé fort cette semaine avec le lancement de ChatGPT Images 2.0, une refonte majeure de son module de génération d'images qui remet le service en compétition directe avec les outils de Google et Midjourney. La nouveauté la plus remarquée : une précision inédite sur le texte intégré aux images, au point que les utilisateurs peinent à trouver des fautes dans des générations contenant des centaines de mots. Le modèle est disponible dans l'application Codex en tant que compétence dédiée, avec une intégration aux modèles de raisonnement pour enchaîner appels d'outils et génération d'images, créer un QR code à partir d'un lien, récupérer un logo depuis le web, puis l'intégrer dans une composition. Les cas d'usage prolifèrent déjà : captures d'écrans d'interfaces réalistes, magazines illustrés multi-pages, recommandations de style personnalisées et codes QR créatifs. La capacité à générer des interfaces utilisateur crédibles ouvre une piste intéressante pour combler le déficit de goût graphique souvent reproché aux modèles de code. Des tests comparatifs menés sur la conversion d'une maquette en application fonctionnelle, une vitrine publicitaire conçue par Ben's Bites, révèlent une hiérarchie nuancée : Claude Design devance Magicpath AI, qui devance les modèles bruts comme Gemini 3.1 Pro ou Opus 4.6 sur la compréhension du concept et l'utilisabilité. En revanche, Gemini remporte la fidélité pixel par pixel, tandis qu'Opus 4.7 bat GPT-5.4 sur la correspondance visuelle avec la maquette de référence. GPT-5.4 produit un code plus fonctionnel et maintient une cohérence visuelle sur les pages non montrées, comme le panneau d'administration. Un point aveugle subsiste pour tous : les assets, images d'illustration, icônes, textures, qui font souvent la différence entre une maquette et une interface banale ne survivent pas à la conversion depuis une capture d'écran. Ces annonces s'inscrivent dans une semaine d'actualité dense pour l'industrie de l'IA. OpenAI a déployé les Workspace Agents, des agents propulsés par Codex accessibles aux utilisateurs Business, Enterprise et Education, configurables avec une personnalité, des tâches précises et des accès à des outils externes comme Linear ou Slack, appelés à terme à remplacer les GPTs personnalisés. De son côté, Google a ouvert l'API Deep Research avec deux configurations basées sur Gemini 3.1 Pro, revendiquant les meilleures performances en recherche web, avec support MCP et génération de graphiques. Enfin, un accord stratégique se dessine entre Cursor et SpaceX : SpaceX mettra ses GPU à disposition pour entraîner les modèles de code de Cursor, avec une option d'acquisition à 60 milliards de dollars d'ici fin 2025, ou un accord de partenariat à 10 milliards si l'acquisition n'a pas lieu, un signal que la course aux modèles de code spécialisés entre dans une nouvelle phase industrielle.

UELes nouvelles APIs et outils (ChatGPT Images 2.0, Deep Research, Workspace Agents) sont accessibles aux développeurs et entreprises européens, mais aucune réglementation ou entreprise française n'est directement impliquée.

OutilsOutil
1 source
Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur
1284MarkTechPost 

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion
1 source
Optimisation élégante des tokens
1285Latent Space 

Optimisation élégante des tokens

Google a profité de sa conférence Cloud Next, qui s'est tenue les 21 et 22 avril 2026, pour annoncer ses TPU v8, la huitième génération de ses puces d'entraînement et d'inférence. Les chiffres annoncés sont vertigineux et confirment l'avance matérielle accumulée par Google DeepMind après une décennie d'investissements massifs dans des infrastructures propriétaires. En parallèle, la conférence AI Engineer Miami a vu s'imposer un concept central dans les discussions entre dirigeants tech : le "tokenmaxxing", soit la volonté de maximiser l'usage de l'IA dans les équipes sans pour autant encourager le gaspillage ou la qualité médiocre. Mikhail Parakhin, directeur technique de Shopify, invité de la conférence, a apporté une nuance importante : il préconise d'aller en profondeur plutôt qu'en largeur, c'est-à-dire de lancer des boucles de recherche autonome séquentielles plutôt que de multiplier en parallèle des dizaines d'appels LLM sans cohérence. Dex Horthy, à l'origine du concept de "Context Engineering", a quant à lui publiquement rétracté ses positions les plus enthousiastes sur le vibe coding, encourageant désormais les développeurs à relire le code généré. Ces débats ne sont pas qu'académiques : ils reflètent une tension réelle au sein des équipes engineering, entre vitesse de génération de code et dette technique. Pour les CTOs et VP d'ingénierie, la question devient comment calibrer l'autonomie accordée aux modèles sans dégrader la qualité architecturale des systèmes. Sur le front des modèles ouverts, plusieurs sorties majeures sont venues nourrir ce débat. Alibaba a publié Qwen3.6-27B, un modèle dense sous licence Apache 2.0 qui surpasse selon ses benchmarks le bien plus lourd Qwen3.5-397B-A17B sur les évaluations de code, dont SWE-bench Verified à 77,2 contre 76,2. Il intègre des modes pensée et non-pensée, un checkpoint multimodal unifié, et a été immédiatement supporté par vLLM, llama.cpp et Ollama. OpenAI a discrètement publié un "Privacy Filter", un modèle MoE léger de 1,5 milliard de paramètres actifs à 50 millions, dédié à la détection et masquage de données personnelles sur de très larges corpus, sous licence Apache 2.0. Xiaomi a de son côté annoncé MiMo-V2.5-Pro, un modèle orienté agents avec 57,2 sur SWE-bench Pro et une capacité déclarée à effectuer plus de 1 000 appels d'outils autonomes. Ces annonces s'inscrivent dans une dynamique où la course aux modèles ouverts s'intensifie, portée par des acteurs comme Alibaba, Xiaomi et OpenAI lui-même, qui cèdent des briques spécialisées à la communauté. L'événement AI Engineer Miami, dont la prochaine édition se tiendra à Singapour, est devenu un baromètre de ce que l'industrie considère comme les vrais problèmes opérationnels : qualité du code généré, gestion de la vie privée dans les pipelines d'agents, et arbitrage entre quantité et profondeur d'utilisation des LLM. Les TPU v8 de Google rappellent que derrière ces débats de méthode, la compétition infrastructure reste déterminante pour qui peut entraîner et servir les modèles les plus puissants à grande échelle.

UELes modèles publiés sous licence Apache 2.0 (Qwen3.6-27B, OpenAI Privacy Filter) permettent aux équipes techniques européennes un déploiement local compatible avec les exigences RGPD pour la gestion des données personnelles dans les pipelines d'agents.

LLMsActu
1 source
Les « exportations de tokens » peuvent-elles donner un avantage à la Chine dans l'ère de l'IA ?
1286SCMP Tech 

Les « exportations de tokens » peuvent-elles donner un avantage à la Chine dans l'ère de l'IA ?

Les entreprises chinoises d'intelligence artificielle s'imposent progressivement comme fournisseurs majeurs de ce que les analystes appellent des "exportations de tokens" sur le marché mondial. Selon des données couvrant la période du 18 mars au 18 avril 2026, les modèles chinois représentaient quatre des dix modèles les plus consommés en tokens sur OpenRouter, une place de marché de référence pour les développeurs. Cette présence dans le top 10 mondial illustre une percée concrète dans les usages réels, au-delà des seuls benchmarks techniques. L'enjeu dépasse la simple compétition technologique. Les tokens consommés via des modèles comme DeepSeek ou Qwen représentent une forme d'influence économique et stratégique nouvelle : chaque requête traitée par un modèle chinois génère des données d'usage, fidélise des développeurs et ancre une infrastructure logicielle dans les flux numériques mondiaux. Pour l'industrie tech mondiale, cela signifie que la domination américaine sur l'outillage IA des développeurs n'est plus acquise, et que les éditeurs comme OpenAI ou Anthropic font désormais face à une concurrence directe sur les marchés émergents et auprès des développeurs indépendants. Ce phénomène s'inscrit dans un contexte de montée en puissance accélérée des modèles chinois depuis la publication de DeepSeek-R1 début 2025, qui avait démontré qu'un modèle très compétitif pouvait être entraîné à coût réduit. La demande domestique en Chine croît également fortement, ce qui renforce la capacité des acteurs locaux à investir en R&D et à baisser leurs prix à l'export, une dynamique que Washington surveille de près dans un contexte de restrictions sur les semi-conducteurs.

UELes développeurs européens indépendants sont directement exposés à cette concurrence tarifaire, les modèles chinois comme DeepSeek ou Qwen s'imposant comme alternatives compétitives aux outils américains sur des plateformes comme OpenRouter.

BusinessOpinion
1 source
Modèles du monde
1287MIT Technology Review 

Modèles du monde

Les systèmes d'intelligence artificielle maîtrisent aujourd'hui le monde numérique avec une aisance impressionnante, mais le monde physique reste un défi d'une tout autre nature. Pour franchir ce cap, de nombreux chercheurs misent sur une approche appelée "modèle du monde", une représentation interne que l'IA se construit de son environnement pour anticiper les conséquences de ses actions. Google DeepMind et World Labs, la startup fondée par Fei-Fei Li, professeure à Stanford, travaillent activement sur ces systèmes. Yann LeCun, jusqu'ici figure centrale de Meta, a quant à lui quitté l'entreprise pour fonder une startup entièrement dédiée à cette approche. OpenAI a également redirigé des ressources issues de la fermeture de son application vidéo Sora vers ce qu'elle appelle la "recherche en simulation du monde à long terme". L'enjeu est de taille : les grands modèles de langage actuels présentent des lacunes profondes dès qu'il s'agit de raisonner sur le monde réel. Une étude révélatrice a montré que des modèles entraînés sur des millions de trajets de taxis new-yorkais peuvent donner des itinéraires corrects dans Manhattan, mais échouent complètement dès qu'on leur impose un détour. Ce type de fragilité est fondamentalement incompatible avec des applications robotiques, où l'imprévu est la règle. Un vrai modèle du monde permettrait à un agent IA de se représenter son environnement avec suffisamment de fidélité pour prédire ce qui se passe si on pousse une tasse du bord d'une table, ou si on change de route en cours de chemin, exactement comme le fait le cerveau humain. Les applications concrètes émergent progressivement. Niantic, le studio derrière Pokémon Go, exploite les milliards d'images collectées par les joueurs du jeu pour construire les premières briques d'un modèle du monde destiné à guider des robots de livraison. Google DeepMind et World Labs concentrent actuellement leurs efforts sur la génération d'environnements virtuels 3D interactifs à partir de textes, d'images et de vidéos, des outils utiles pour la conception de jeux vidéo ou d'expériences en réalité virtuelle, mais encore limités dans leur portée. Les véritables percées viendront probablement de l'intégration de ces systèmes dans des agents autonomes capables de modéliser leur environnement, d'anticiper les effets de leurs actions et de décider en conséquence. Li et LeCun voient dans cette direction la clé pour des robots capables d'explorer les grands fonds marins ou d'assister le personnel soignant, un horizon encore lointain, mais qui mobilise désormais les acteurs les plus influents du secteur.

RecherchePaper
1 source
1288VentureBeat AI 

Kimi K2.6 exécute des agents pendant plusieurs jours et révèle les limites de l'orchestration d'entreprise

Moonshot AI, le laboratoire chinois à l'origine de la famille de modèles Kimi, a lancé Kimi K2.6, un modèle conçu spécifiquement pour les agents à exécution continue. Contrairement aux systèmes concurrents, Moonshot revendique des cas d'usage internes où des agents ont fonctionné en autonomie pendant plusieurs heures, et dans un cas documenté, cinq jours d'affilée, pour gérer de la surveillance d'infrastructure et de la réponse à des incidents. Le modèle est désormais disponible sur Hugging Face, via l'API Kimi, Kimi Code et l'application Kimi. Sa principale nouveauté technique réside dans une version améliorée des "Agent Swarms", capables de coordonner jusqu'à 300 sous-agents exécutant simultanément 4 000 étapes parallèles. À la différence de Claude Code d'Anthropic ou de Codex d'OpenAI, qui s'appuient sur des rôles prédéfinis pour orchestrer leurs agents, K2.6 laisse le modèle lui-même décider de l'orchestration en temps réel. Cette évolution met en lumière une fragilité structurelle dans l'écosystème des agents IA : les frameworks d'orchestration existants ont été conçus pour des agents qui s'exécutent en quelques secondes ou minutes, pas pour des processus qui durent des jours. Maintenir l'état d'un agent sur une longue durée pose des problèmes inédits, car l'environnement dans lequel il opère ne cesse d'évoluer pendant son exécution. L'agent doit appeler des outils, des API et des bases de données différents tout au long de sa vie, ce qu'aucun framework actuel n'a été conçu pour gérer proprement. Mark Lambert, directeur produit chez ArmorCode, souligne que le déficit de gouvernance dépasse déjà le rythme de déploiement : ces systèmes génèrent du code et des changements système plus vite que la plupart des organisations ne peuvent les examiner, corriger ou auditer. La course aux agents longue durée s'inscrit dans une compétition plus large entre fournisseurs de modèles, où la capacité d'orchestration est devenue un avantage concurrentiel à part entière. Anthropic, OpenAI et désormais Moonshot AI expérimentent tous des architectures multi-sessions et d'exécution en arrière-plan, mais aucun n'a encore résolu le problème fondamental : sans mécanisme de rollback clair, un agent autonome qui échoue après plusieurs heures d'exécution peut laisser des systèmes dans un état incohérent. Kunal Anand, directeur produit chez F5, résume le défi : l'industrie est passée des scripts aux services, puis aux agents, mais le saut architectural que représentent les agents à long horizon était loin d'être anticipé par la plupart des entreprises. Le praticien Maxim Saplin l'énonce clairement : l'orchestration reste fragile, et ce n'est pas en affinant les prompts qu'on réglera le problème, mais en repensant à la fois les produits et l'entraînement des modèles.

LLMsOpinion
1 source
Anthropic impose la vérification d'identité, mettant en difficulté les fondateurs chinois
1289The Information AI 

Anthropic impose la vérification d'identité, mettant en difficulté les fondateurs chinois

Anthropic a discrètement commencé à exiger de certains clients une pièce d'identité officielle avec photo ainsi qu'une image d'eux-mêmes prise depuis leur téléphone ou webcam. Cette politique, annoncée la semaine dernière, vise à empêcher les utilisateurs situés dans des pays considérés comme adversaires des États-Unis, principalement la Chine, la Russie et la Corée du Nord, d'accéder à ses modèles d'intelligence artificielle de pointe. Un cofondateur d'une startup de développement d'applications IA basée à Pékin a ainsi vu son accès à Claude Code coupé brutalement dans la foulée de cette annonce, sans explication officielle directe. Faute d'alternative, il s'est tourné dès le week-end vers Codex, le service de codage assisté d'OpenAI. Cette décision illustre le durcissement progressif des restrictions d'accès aux outils d'IA américains pour les acteurs chinois. Jusqu'ici, de nombreuses entreprises chinoises, grands groupes technologiques comme startups, contournaient les restrictions officielles d'Anthropic pour accéder à Claude, faisant de la Chine un marché de fait malgré son exclusion formelle. La vérification d'identité par document officiel rend ce contournement beaucoup plus difficile, ce qui pourrait priver des centaines de développeurs et d'entreprises chinoises d'un outil devenu central dans leurs workflows de programmation et de développement produit. Cette mesure s'inscrit dans une série de dispositions prises par Anthropic au cours de l'année écoulée pour se conformer aux orientations géopolitiques américaines en matière d'exportation technologique. OpenAI applique les mêmes restrictions géographiques mais n'impose pas encore de vérification d'identité formelle, ce qui lui confère un avantage pratique auprès des utilisateurs affectés. La tension entre l'expansion commerciale mondiale des laboratoires d'IA américains et les impératifs de sécurité nationale devrait continuer à façonner l'accès aux modèles les plus avancés, avec des conséquences directes pour les écosystèmes d'innovation en dehors des marchés autorisés.

💬 Anthropic fait le ménage, et ça va faire mal à pas mal de devs. La vérification d'identité par selfie, c'est brutal mais cohérent avec la direction que prennent tous les labos américains depuis un an. OpenAI va suivre, c'est juste une question de mois.

RégulationReglementation
1 source
1290Ben's Bites 

Claude, mon designer attitré

Anthropic a lancé Claude Opus 4.7 ce week-end, accompagné d'une série de mises à jour significatives pour son écosystème. Le nouveau modèle améliore notablement les capacités de vision, c'est-à-dire l'interprétation d'images, et introduit un niveau de raisonnement inédit baptisé « xhigh », qui s'insère entre les niveaux « high » et « max » déjà existants. Simultanément, Claude hérite d'un onglet Design, une interface de type canvas avec chat latéral permettant de générer des wireframes ou des prototypes haute fidélité à partir d'un formulaire de 5 à 10 questions. Le flux image vers prototype se révèle particulièrement efficace, bien que les générations restent limitées à 2 ou 3 sessions hebdomadaires sur l'abonnement à 20 dollars pendant cette phase de prévisualisation. Du côté de l'agent de code Codex, trois nouveautés ont été déployées : la fonctionnalité Computer Use, qui permet à l'agent d'utiliser des applications macOS en arrière-plan sans bloquer l'ordinateur de l'utilisateur ; Chronicle, un mécanisme opt-in qui exploite le contexte d'écran récent pour construire des souvenirs ; et un ensemble de plugins, dont la génération d'images. Par ailleurs, la startup Factory AI, qui développe l'agent de code Droid, a bouclé une levée de fonds de 150 millions de dollars, portant sa valorisation à 1,5 milliard de dollars. Ces annonces illustrent la course effrénée des acteurs de l'IA à transformer leurs modèles en plateformes complètes. L'onglet Design de Claude, en particulier, s'attaque directement au marché du prototypage rapide jusqu'ici dominé par des outils comme Figma, en proposant une boucle de création entièrement guidée par le langage naturel. La fonctionnalité Computer Use de Codex, elle, cherche à dépasser les démos laborieuses de contrôle d'interface pour offrir une automatisation fluide en tâche de fond, ce qui représente un saut qualitatif si les performances tiennent à l'usage réel. La valorisation de Factory AI à 1,5 milliard confirme l'appétit des investisseurs pour les agents de développement logiciel autonomes. Dans ce contexte d'accélération, OpenAI a connu une semaine difficile sur le plan humain : trois cadres de premier plan ont quitté l'entreprise, à savoir Kevin Weil, ancien directeur produit devenu responsable d'OpenAI for Science, Bill Peebles, co-créateur du générateur vidéo Sora, et Srinivas Narayanan, directeur technique des applications B2B. Ces départs simultanés alimentent les questions sur la cohésion interne d'OpenAI à un moment charnière. Vercel a également annoncé avoir subi une intrusion via le compte d'un employé compromis sur un autre produit IA tiers, soulignant les risques croissants liés à la prolifération des outils connectés. Enfin, la critique adressée à Claude Cowork, l'espace de travail collaboratif d'Anthropic, rappelle une tension persistante : les capacités avancées restent inaccessibles aux utilisateurs non initiés, risquant de nourrir la désillusion envers l'IA pour les prochains mois.

UELes utilisateurs et designers européens peuvent accéder aux nouvelles fonctionnalités de prototypage de Claude via l'abonnement standard à 20 dollars, bien que les générations restent limitées en phase de prévisualisation.

OutilsOutil
1 source
1291AWS ML Blog 

Recherche sémantique vidéo avec Amazon Nova Multimodal Embeddings

Amazon a lancé Nova Multimodal Embeddings, un modèle d'embedding unifié disponible sur Amazon Bedrock, capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans un espace vectoriel sémantique commun. L'objectif est de résoudre un problème concret qui freine l'industrie audiovisuelle : permettre de rechercher dans des vidéos par le sens, et non par des mots-clés exacts. Concrètement, le modèle génère des vecteurs de 1 024 dimensions qui encodent à la fois les signaux visuels et audio d'un segment vidéo, stockés ensuite dans Amazon S3. L'architecture de référence publiée par Amazon combine une phase d'ingestion en six étapes, upload dans S3, découpage en plans via FFmpeg sur AWS Fargate, traitement parallèle avec embeddings visuels/audio, transcription via Amazon Transcribe, et détection de célébrités via Amazon Rekognition, et une phase de recherche hybride qui fusionne recherche sémantique et lexicale pour produire une liste de résultats classés. L'enjeu est majeur pour tous les secteurs qui gèrent des bibliothèques vidéo volumineuses. Une chaîne sportive peut désormais retrouver instantanément le moment précis où un joueur marque, un studio peut identifier chaque scène d'un acteur dans des milliers d'heures d'archives, et une rédaction peut extraire des images par ambiance, lieu ou événement pour publier plus vite que ses concurrents. Ce qui change fondamentalement, c'est que la recherche n'est plus limitée au dialogue ou aux métadonnées textuelles : une requête comme "une course-poursuite tendue avec des sirènes" retrouve à la fois l'événement visuel et l'événement sonore sans que l'un ou l'autre ait besoin d'être transcrit. La précision de recherche s'améliore donc sur les contenus riches en action, en musique ou en sons d'ambiance, là où les approches textuelles échouaient systématiquement. L'approche dominante jusqu'ici consistait à convertir toute la vidéo en texte, transcription automatique, sous-titrage, tags manuels, puis à appliquer des embeddings textuels classiques. Cette méthode souffre de deux limites structurelles : la dimension temporelle disparaît dans la conversion, et les erreurs de transcription se propagent dès que la qualité audio ou visuelle est insuffisante. Amazon positionne Nova Multimodal Embeddings comme une rupture avec ce paradigme, en traitant nativement toutes les modalités sans passer par le texte comme pivot. Le modèle s'inscrit dans une compétition directe avec les offres multimodales de Google et OpenAI sur le segment des embeddings haute précision. Amazon met à disposition une implémentation de référence déployable, signalant une volonté de s'imposer rapidement comme infrastructure de référence pour la recherche vidéo à grande échelle.

UELes entreprises et médias européens gérant de grandes bibliothèques vidéo sur AWS peuvent désormais implémenter une recherche sémantique multimodale native sans infrastructure supplémentaire.

OutilsOpinion
1 source
1292Ars Technica AI 

Codex s'enrichit de nouvelles fonctionnalités, dont l'utilisation de votre ordinateur en arrière-plan

OpenAI a déployé aujourd'hui une nouvelle version de son application desktop Codex, apportant un ensemble de fonctionnalités inédites qui étendent son champ d'action bien au-delà du code. Parmi les ajouts les plus notables figure la capacité d'effectuer des tâches sur l'ordinateur de l'utilisateur en arrière-plan, sans interrompre le travail en cours sur le bureau. L'entreprise a détaillé cette mise à jour dans un billet de blog officiel, présentant également des améliorations pour les développeurs et une ouverture vers des usages non techniques. Cette fonctionnalité d'exécution en arrière-plan représente un changement de paradigme significatif : l'agent ne se contente plus de répondre à des requêtes ponctuelles, il agit de manière autonome sur la machine pendant que l'utilisateur continue son activité normale. Pour les développeurs comme pour les professionnels du secteur, cela ouvre la voie à une automatisation plus profonde des tâches répétitives, qu'il s'agisse de refactorisation de code, de recherche ou de traitement de fichiers, sans mobiliser l'attention de l'utilisateur. Cette mise à jour s'inscrit dans la stratégie plus large d'OpenAI de transformer Codex en une "super app" polyvalente, capable de couvrir à la fois les besoins techniques et les tâches de travail du savoir en général. La compétition dans ce segment s'intensifie, avec des concurrents comme Anthropic (Claude) et Google (Gemini) qui proposent également des agents de bureau. OpenAI mise sur l'intégration native et la discrétion d'exécution pour se différencier dans une course qui redéfinit la relation entre l'humain et l'ordinateur.

OutilsOutil
1 source
Attaqué par deux fois, Sam Altman n’en défend pas moins la « démocratisation de l’IA »
1293Next INpact 

Attaqué par deux fois, Sam Altman n’en défend pas moins la « démocratisation de l’IA »

Le domicile de Sam Altman, PDG d'OpenAI, a été attaqué à deux reprises en l'espace de 24 heures à San Francisco. Dans la nuit du 11 avril à 3h45, un homme a lancé un cocktail Molotov contre sa résidence. Le lendemain, à 1h40 du matin, deux individus à bord d'une Honda Sedan ont ouvert le feu sur la façade. Les assaillants ont été rapidement interpellés. Le premier, Daniel Alejandro Moreno-Gama, 20 ans, fait face à des poursuites pour tentative de meurtre. Il avait également menacé d'incendier le siège d'OpenAI, près duquel il a été arrêté. La police a découvert à son domicile un document intitulé « Dernier avertissement », dans lequel il appelait à l'assassinat des PDG de sociétés d'IA et de leurs investisseurs. Les motivations des deux autres suspects, arrêtés le 12 avril au matin, ne sont pas encore connues. Ces attaques illustrent la montée des tensions entre une partie de l'opinion publique et les dirigeants de l'industrie de l'IA. Moreno-Gama avait exprimé à plusieurs reprises ses craintes liées au développement de l'intelligence artificielle, notamment sur son Substack et au sein du groupe Discord de PauseAI, une organisation internationale qui milite pour un arrêt des travaux sur les modèles d'IA les plus puissants. Ce passage à l'acte violent signale un glissement inquiétant : des angoisses jusqu'ici cantonnées aux forums et aux pétitions débordent désormais vers des formes de menace physique directe contre des figures de l'industrie tech. Le contexte est celui d'une fracture croissante entre les promoteurs de l'IA générative et une partie du public qui redoute les conséquences sociales, économiques et existentielles de ces technologies. Des mouvements comme PauseAI, apparus ces dernières années dans plusieurs pays, regroupent des militants convaincus que le rythme actuel du développement de l'IA représente un danger pour l'humanité. Face à ces attaques, Sam Altman n'a pas infléchi son discours : il continue de défendre la démocratisation de l'IA comme un bien collectif. L'incident risque néanmoins de renforcer les mesures de sécurité autour des dirigeants des grandes entreprises technologiques américaines, déjà régulièrement ciblés par des menaces en ligne.

UELe mouvement PauseAI, actif dans plusieurs pays européens dont la France, illustre que ces tensions sociétales autour des risques de l'IA touchent aussi les sociétés européennes, même si les violences physiques demeurent pour l'instant localisées aux États-Unis.

HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba
1294Le Big Data 

HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba

Le vendredi 10 avril 2026, Alibaba a officiellement revendiqué la paternité de HappyHorse-1.0, le modèle d'intelligence artificielle génératrice de vidéos qui avait envahi les réseaux sociaux et les plateformes de benchmark en l'espace de quelques jours. L'annonce est tombée via un post sur X signé par l'équipe du projet, confirmant que le modèle est développé au sein de l'unité ATH AI Innovation Unit, rattachée au géant chinois du e-commerce. Apparu début avril sans affiliation déclarée, HappyHorse-1.0 avait immédiatement pris la première place du classement text-to-video d'Artificial Analysis, devançant des modèles soutenus par des acteurs majeurs de l'industrie. Ses capacités couvrent aussi bien la génération vidéo à partir de texte que la création d'images animées, deux segments très convoités du marché. Le modèle se trouve encore en phase de test bêta, mais un accès via API est annoncé prochainement pour les développeurs. La révélation a eu un effet immédiat sur les marchés : l'action Alibaba a clôturé en hausse de 2,12 % à Hong Kong le jour de l'annonce, après avoir déjà bondi de plus de 6 % deux jours plus tôt, quand les premières spéculations sur l'origine du modèle avaient circulé. Cette réaction boursière illustre l'importance stratégique que les investisseurs accordent désormais aux capacités IA des grandes entreprises technologiques chinoises. Pour Alibaba, HappyHorse représente une validation publique et quantifiable de la stratégie portée par Eddie Wu, le dirigeant qui a fait de l'intelligence artificielle la priorité absolue du groupe depuis son arrivée à la tête de l'entreprise. Un succès technique aussi visible, obtenu en quelques jours sur des benchmarks internationaux, constitue un signal fort envoyé à la fois aux concurrents américains et aux investisseurs mondiaux. Ce lancement intervient dans un moment de turbulences pour le secteur de la vidéo IA. OpenAI a récemment réduit la place de Sora dans sa stratégie globale, préférant concentrer ses ressources sur d'autres usages. ByteDance, de son côté, fait face à des controverses autour de ses outils vidéo expérimentaux, notamment sur des questions de droits d'auteur. Dans ce contexte, Alibaba choisit de s'imposer avec un modèle performant, lancé de façon discrète puis révélé au bon moment, une mécanique de communication qui rappelle les stratégies adoptées par DeepSeek lors de la publication de ses modèles. Le fait qu'un acteur chinois prenne la tête des classements mondiaux sur un segment aussi compétitif que la génération vidéo soulève des questions sur l'équilibre des forces dans la course à l'IA générative, et annonce probablement une intensification de la rivalité technologique entre Pékin et la Silicon Valley.

CréationOpinion
1 source
ChatGPT lance un abonnement Pro à 100 dollars par mois
1295The Verge AI 

ChatGPT lance un abonnement Pro à 100 dollars par mois

OpenAI a lancé un nouveau palier d'abonnement ChatGPT Pro à 100 dollars par mois, positionné entre l'offre Plus à 20 dollars et la version Pro existante à 200 dollars par mois. Ce nouvel échelon propose cinq fois plus d'utilisation de Codex, l'outil de codage d'OpenAI, par rapport à l'abonnement Plus, et cible explicitement les sessions de développement longues et intensives. Il s'agit donc d'une troisième option tarifaire qui vient compléter une gamme désormais composée de trois niveaux distincts sous le même nom "Pro". Ce lancement représente une réponse directe à Anthropic et à son offre "Max" pour Claude, également facturée 100 dollars par mois. En ciblant les développeurs qui utilisent intensivement des outils de génération de code, OpenAI cherche à contenir la montée en puissance de Claude Code, qui a gagné une popularité significative dans la communauté des ingénieurs logiciels. Pour les utilisateurs professionnels, ce nouveau palier offre une alternative concrète sans avoir à s'engager sur l'abonnement à 200 dollars. La bataille tarifaire entre OpenAI et Anthropic s'intensifie à mesure que les assistants IA s'imposent comme des outils quotidiens pour les développeurs. Codex, relancé par OpenAI comme agent de codage autonome capable d'exécuter des tâches en parallèle, est au coeur de cette concurrence. Les deux entreprises misent sur le segment des professionnels techniques, prêts à payer davantage pour des capacités étendues, comme levier de croissance et de fidélisation face à un marché de plus en plus disputé.

UELes développeurs français utilisant intensivement Codex disposent désormais d'un palier intermédiaire à 100 dollars, évitant l'engagement à 200 dollars par mois.

Eric Boyd quitte Microsoft pour diriger l’infrastructure chez Anthropic
1296Le Big Data 

Eric Boyd quitte Microsoft pour diriger l’infrastructure chez Anthropic

Eric Boyd a quitté Microsoft la semaine dernière après près de 17 ans au sein de l'entreprise pour rejoindre Anthropic en tant que responsable de l'ensemble de l'infrastructure. Boyd avait intégré Microsoft en 2009 à Redmond, d'abord à la tête de Bing Ads, avant de devenir président de la plateforme IA en 2015, puis de prendre la direction d'Azure AI en 2018 sur nomination de Satya Nadella. Dans ce rôle, il a supervisé le développement des grands modèles de langage de Microsoft et planifié les clusters de calcul utilisés par OpenAI pour entraîner et faire tourner ses modèles, consolidant ainsi la position de Microsoft comme acteur incontournable du cloud IA. Avant cela, il avait passé neuf ans chez Yahoo comme vice-président de l'ingénierie de plateforme, qu'il avait quitté en 2008. Chez Anthropic, Boyd n'occupera pas un simple poste administratif : il est chargé de faire évoluer l'infrastructure critique qui permet à l'entreprise d'héberger, déployer et opérer ses modèles à très grande échelle. Sa mission répond à une urgence concrète, la demande pour les services Claude, et en particulier Claude Code, a connu une croissance explosive ces six derniers mois. Rahul Patil, directeur technique d'Anthropic, a précisé sur LinkedIn que Boyd apportera son expertise des infrastructures pour modèles de base à un moment où la scalabilité devient le principal défi opérationnel de l'entreprise. Pour les utilisateurs de Claude et les entreprises qui s'appuient sur l'API, cette nomination signifie qu'Anthropic mise sérieusement sur sa capacité à tenir la charge, et pas seulement sur la qualité de ses modèles. Ce recrutement s'inscrit dans une séquence d'accélération majeure pour Anthropic. La startup a levé 30 milliards de dollars en février 2026 lors d'un tour de table de série G mené par GIC et Coatue, avec la participation de Microsoft et Nvidia, portant sa valorisation à 380 milliards de dollars. Son chiffre d'affaires annuel récurrent a bondi à 30 milliards de dollars, contre environ 9 milliards fin 2025. Parallèlement, Anthropic recrute activement des profils expérimentés du cloud, deux anciens dirigeants de Google auraient déjà rejoint l'entreprise selon The Information, et négocie pour sécuriser plus de 10 GW de capacité de calcul dans les prochaines années. Un accord avec Google et Broadcom prévoit également le développement ou la location de 3,5 GW de TPU à partir de 2027. L'arrivée de Boyd, l'un des architectes de l'infrastructure IA de Microsoft, illustre qu'Anthropic ne cherche plus seulement à produire les meilleurs modèles : elle veut aussi construire la plomberie pour les délivrer au monde entier.

💬 L'homme qui planifiait les clusters d'entraînement d'OpenAI chez Azure débarque chez Anthropic pour prendre toute l'infrastructure. Bon, les modèles Claude sont déjà excellents, mais si l'infra flanche quand Claude Code explose en prod, tout le reste ne sert à rien, et Boyd a construit exactement cette plomberie à l'échelle industrielle pendant des années. C'est le recrutement qui dit que la course n'est plus seulement sur les modèles.

BusinessOpinion
1 source
Amazon Nova Embeddings : construire un moteur de recherche audio intelligent par analyse sémantique
1297AWS ML Blog 

Amazon Nova Embeddings : construire un moteur de recherche audio intelligent par analyse sémantique

Amazon a lancé le 28 octobre 2025 Amazon Nova Multimodal Embeddings, un modèle d'embedding unifié disponible via Amazon Bedrock, capable de traiter simultanément du texte, des documents, des images, des vidéos et de l'audio au sein d'un seul et même système. Concrètement, ce modèle convertit n'importe quel contenu audio en vecteurs numériques denses dans un espace à haute dimension, avec quatre options de taille : 3 072 dimensions (par défaut), 1 024, 384 ou 256. Chaque vecteur encode à la fois les propriétés acoustiques d'un son, rythme, hauteur tonale, timbre, couleur émotionnelle, et son sens sémantique. Deux extraits musicaux similaires, par exemple un violon et un violoncelle jouant la même mélodie, obtiendront une similarité cosinus de 0,87, les plaçant proches dans cet espace vectoriel, tandis qu'un morceau de rock avec batterie n'obtiendra que 0,23 face à ces mêmes clips. L'enjeu est considérable pour tous ceux qui gèrent de grandes bibliothèques audio : studios de production, plateformes de podcast, services de streaming, équipes de post-production. Les méthodes traditionnelles, transcription manuelle, balisage de métadonnées, conversion parole-texte, ne capturent que le contenu linguistique. Elles sont aveugles aux propriétés acoustiques pures : l'ambiance d'une pièce, l'émotion dans une voix, le genre musical, les sons environnementaux. Nova Multimodal Embeddings comble ce vide en permettant des requêtes en langage naturel comme "musique mélancolique avec piano" ou "bruit de foule dans un stade", sans qu'aucune transcription préalable ne soit nécessaire. Le résultat est une recherche sémantique sur le son lui-même, pas seulement sur ses métadonnées. Le modèle repose sur une technique appelée Matryoshka Representation Learning (MRL), qui structure les embeddings de façon hiérarchique, à la manière des poupées russes : un vecteur de 3 072 dimensions contient toute l'information, mais on peut tronquer aux 256 premières dimensions et conserver des résultats précis. Cela permet de générer les embeddings une seule fois, puis d'ajuster la taille selon les contraintes de coût de stockage ou de performance, sans retraiter l'audio. Cette approche s'inscrit dans la tendance plus large des modèles d'embedding multimodaux unifiés, où Amazon rivalise directement avec Google (Vertex AI Embeddings) et OpenAI (CLIP, Whisper). L'intégration native dans Bedrock facilite le déploiement en production via des bases de données vectorielles compatibles k-NN. La prochaine étape logique sera l'intégration de ces capacités dans des pipelines RAG (retrieval-augmented generation) pour des agents conversationnels capables de répondre à des questions sur du contenu audio sans intervention humaine préalable.

UELes studios de production, plateformes de podcast et services de streaming européens peuvent intégrer cette API via Amazon Bedrock pour améliorer leurs moteurs de recherche audio sémantique.

OutilsOutil
1 source
Y a-t-il trop de Copilot dans l’avion ?
1298Next INpact 

Y a-t-il trop de Copilot dans l’avion ?

Microsoft fait face à une prolifération incontrôlable de sa marque Copilot, comme l'a documenté Key Bannerman, spécialiste IA, qui a recensé pas moins de 78 déclinaisons différentes du produit. Chatbots, applications de bureau, outils pour développeurs, plateformes d'entreprise, intégrations dans d'autres logiciels, assistants sectoriels : Copilot est partout. Depuis ce recensement, deux nouvelles variantes sont apparues, Gaming Copilot pour l'aide en jeu sur PC et Xbox, et Microsoft Dragon Copilot pour le secteur de la santé, auxquels s'ajoute Copilot Health annoncé en mars 2026. L'éditeur est allé jusqu'à créer Microsoft Copilot Studio, un outil permettant de fabriquer... d'autres Copilot. Sur le matériel, les PC Copilot+ embarquent une touche physique dédiée, et le navigateur Edge affiche GitHub Copilot en mode Copilot, le tout dans Microsoft 365 Copilot. Cette inflation de marque soulève une question de fond : à force de tout rebaptiser Copilot, Microsoft brouille le message et dilue la valeur perçue du produit. Pour Key Bannerman, ce réflexe de renommage est avant tout "un instinct de survie" interne : chaque équipe cherche à prouver qu'elle fait partie de "l'histoire de l'IA" pour éviter d'être marginalisée. Parallèlement, une clause discrète dans les conditions d'utilisation de Copilot, modifiée en octobre, a refait surface sur les réseaux sociaux : Microsoft y précise en gras que "Copilot est uniquement destiné à des fins de divertissement" et déconseille de s'y fier pour des "conseils importants". Ce message tranche avec le discours commercial de l'entreprise, qui positionne son IA comme un outil de productivité indispensable pour les particuliers et les entreprises. Microsoft a promis de revoir cette formulation, la qualifiant d'"héritage" de l'époque où Copilot était un simple assistant de recherche dans Bing. La concurrence pratique des stratégies similaires, Google apposant l'étiquette Gemini sur l'ensemble de ses produits, mais la surenchère de Microsoft est particulièrement visible car elle touche à Windows lui-même. La réception glaciale réservée en fin d'année dernière à la vision d'un Windows "agentique" a contraint l'éditeur à réduire ses ambitions : en mars 2026, Microsoft a annoncé la suppression progressive d'intégrations Copilot jugées inutiles dans Windows 11, notamment dans Capture et croquis et Photos. La question de la responsabilité des IA reste entière : Anthropic et OpenAI rappellent eux aussi que leurs modèles "peuvent faire des erreurs", mais aucun ne les présente simultanément comme des outils de divertissement et comme la colonne vertébrale de la productivité professionnelle. L'enjeu pour Microsoft est désormais de rationaliser ce portefeuille fragmenté avant que la confusion ne se retourne contre la marque.

UELes entreprises françaises et européennes déployant Microsoft 365 Copilot en environnement professionnel doivent examiner la clause des CGU stipulant que Copilot est 'uniquement destiné à des fins de divertissement', ce qui soulève des questions concrètes de responsabilité contractuelle et de conformité au RGPD.

BusinessOpinion
1 source
Pas de Claude pour Claws
1299Ben's Bites 

Pas de Claude pour Claws

Anthropic a décidé de couper l'accès à Claude via abonnement Claude Code pour les outils tiers comme OpenClaw, le harness alternatif populaire dans la communauté des développeurs. Concrètement, les utilisateurs qui accédaient à Claude depuis OpenClaw grâce à leur abonnement mensuel ne peuvent plus le faire : ils doivent désormais passer à une facturation à l'usage ou fournir leur propre clé API. Pour atténuer l'impact, Anthropic a offert un crédit unique équivalent à un mois d'abonnement. La décision intervient alors qu'Anthropic surveille de près la consommation de calcul générée par ces usages agentiques via des harnesses tiers, qui s'avère particulièrement gourmande. Parallèlement, Google a publié Gemma 4, une famille de quatre nouveaux modèles open-weights : deux variantes puissantes destinées aux ordinateurs de bureau et portables performants (26B MoE et 31B dense), et deux modèles ultra-légers pour mobile (2B et 4B), particulièrement pertinents pour les entreprises souhaitant les affiner sur leurs propres données. Du côté financier, Anthropic a vu son chiffre d'affaires annualisé atteindre 30 milliards de dollars, contre 9 milliards fin 2025, avec 6 milliards d'ARR ajoutés en février 2026 seulement. Cette restriction d'Anthropic n'est pas anodine : elle révèle une stratégie claire de réorientation des utilisateurs vers les outils propriétaires de l'entreprise -- Dispatch, tâches planifiées, projets, et computer use -- qui recoupent directement les fonctionnalités qu'OpenClaw proposait. Pour la communauté des développeurs, c'est une source de confusion majeure : beaucoup ne savent plus précisément dans quels contextes leur abonnement Claude Code reste utilisable hors du harness officiel. Le fondateur d'OpenClaw, Peter, ne compte pas abandonner pour autant et travaille à intégrer GPT-5.4 dans son outil pour offrir des performances comparables à Opus, profitant du rachat d'OpenClaw par OpenAI. Dans un contexte plus large, plusieurs signaux marquent une accélération de la structuration de l'écosystème IA. OpenAI a racheté TBPN, un podcast influent auprès des professionnels du secteur, un mouvement dont la logique commerciale reste débattue : le podcast est rentable, en croissance, et dispose d'une audience fidèle, ce qui rend l'intérêt mutuel de l'acquisition peu évident selon certains analystes. Sur le plan des outils de développement, Cursor a lancé une version 3 avec une fenêtre autonome dédiée à l'exécution d'agents, incluant des fonctionnalités de transition local-vers-cloud et de travail multi-projets. Enfin, Andrej Karpathy a partagé une approche inédite des bases de connaissances pour agents, organisée thématiquement avec résumés, rétroliens et wikis -- une piste qui intéresse de nombreux développeurs cherchant à structurer la mémoire de leurs systèmes agentiques.

UELes développeurs européens utilisant Claude via des harnesses tiers comme OpenClaw doivent migrer vers une clé API personnelle ou une facturation à l'usage, et peuvent envisager Gemma 4 comme alternative open-weights pour leurs usages agentiques.

OutilsActu
1 source
Block lance Managerbot, un agent Square proactif et la preuve la plus convaincante du pari IA de Jack Dorsey
1300VentureBeat AI 

Block lance Managerbot, un agent Square proactif et la preuve la plus convaincante du pari IA de Jack Dorsey

Block a dévoilé le 7 avril 2026 Managerbot, un agent IA intégré à sa plateforme Square et destiné aux petits commerçants. Contrairement au précédent assistant Square AI, qui répondait passivement aux questions des vendeurs, Managerbot surveille en continu l'activité d'un commerce, détecte les problèmes émergents et propose des actions concrètes sans attendre qu'on lui pose de questions. Le produit est en cours de déploiement progressif, avec une disponibilité complète pour l'ensemble des utilisateurs Square prévue dans les prochains mois. Block n'a pas précisé si Managerbot serait facturé séparément ou inclus dans les abonnements existants. L'agent repose sur des modèles frontier d'Anthropic (Claude Sonnet) et d'OpenAI (famille GPT), combinés à un cadre technique propriétaire baptisé "agent harness", lui-même construit sur Goose, le framework open-source de Block. Managerbot intervient aujourd'hui dans trois domaines clés : la gestion des stocks, la planification des équipes et la création de campagnes marketing. Pour les stocks, l'agent croise les niveaux d'inventaire, la vitesse de vente et des signaux externes comme la météo ou les événements locaux afin d'anticiper les ruptures et d'optimiser les achats. Pour les plannings, il analyse les prévisions de ventes et génère automatiquement des grilles horaires qui équilibrent les préférences des employés et les besoins de couverture -- une tâche que Willem Avé, responsable produit de Square chez Block, qualifie de "problème informatique difficile" qui peut mobiliser plusieurs heures par semaine chez un dirigeant de PME. En marketing, Managerbot identifie les tendances de ventes et rédige des campagnes de reconquête ou des promotions ciblées sur les meilleurs segments de clientèle. Block indique observer "une amélioration très significative" des résultats de ces campagnes par rapport à ce que créent certains vendeurs manuellement, sans publier de chiffres précis. Cette annonce s'inscrit dans le pari stratégique assumé par Jack Dorsey, PDG de Block, selon lequel l'IA peut transformer en profondeur la façon dont son entreprise opère et sert les millions de petits commerces qui dépendent de Square au quotidien. La transition du réactif au proactif représente un changement de paradigme majeur pour les outils de gestion destinés aux TPE et PME, qui disposent rarement des ressources humaines pour analyser en continu leurs données opérationnelles. Block mise sur son "agent harness" et sur l'expérience acquise via Money Bot, son agent financier dans Cash App, pour se différencier face aux modèles tiers qu'elle exploite. L'enjeu est de taille : Square équipe des centaines d'outils différents -- facturation, stocks, paie, marketing, planification -- et Managerbot doit naviguer dans cet ensemble de façon cohérente au sein d'une boucle agentique unifiée, ce qui constitue le véritable défi technique derrière la promesse commerciale.

UELes petits commerçants français et européens utilisant Square pourraient bénéficier d'un agent proactif de gestion des stocks, plannings et marketing, mais le calendrier de déploiement en Europe n'est pas précisé.

OutilsOutil
1 source