Aller au contenu principal
OutilsThe Decoder2h· 1 min de lecture

L'outil open-source pxpipe cache du texte dans des PNG pour réduire jusqu'à 70% les coûts en tokens de Claude Code et Fable 5

Source originale ↗·

Steven Chong, développeur indépendant, a mis en ligne un outil open source baptisé pxpipe qui convertit de longs prompts textuels destinés à Claude Code en fichiers PNG compacts. L'astuce repose sur un détail de la tarification d'Anthropic : les images sont facturées selon leur taille en pixels, et non selon le contenu textuel qu'elles encodent. Résultat, Chong annonce des économies de 59 à 70 pour cent sur les coûts de tokens, au prix toutefois d'une perte de précision et de vitesse dans les réponses générées.

Cette découverte illustre à quel point les modèles de tarification des API d'intelligence artificielle peuvent être détournés dès qu'une faille de calcul apparaît entre différents types d'entrées, texte ou image. Pour les développeurs qui utilisent massivement des outils comme Claude Code au quotidien, la facture peut vite grimper, et une réduction de 70 pour cent des coûts représente un argument concret, surtout pour des usages intensifs ou automatisés. Mais le compromis sur la fiabilité des réponses limite l'intérêt de la méthode aux tâches où l'exactitude n'est pas critique.

Cet épisode s'inscrit dans une tendance plus large de contournement des grilles tarifaires des fournisseurs de modèles de langage, où chaque nouvelle méthode de facturation, par token, par pixel ou par requête, finit par générer ses propres optimisations créatives côté utilisateurs. Anthropic, comme ses concurrents, devra probablement ajuster sa politique de prix pour combler cette faille, un exercice d'équilibriste récurrent entre simplicité de facturation et résistance aux détournements techniques.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

MiMo Code de Xiaomi, outil de codage IA open source, surpasse Claude Code sur les tâches de plus de 200 étapes
1VentureBeat AI 

MiMo Code de Xiaomi, outil de codage IA open source, surpasse Claude Code sur les tâches de plus de 200 étapes

Xiaomi a publié le 10 juin 2026 MiMo Code V0.1.0, un assistant de programmation propulsé par IA qui fonctionne directement dans le terminal. L'équipe MiMo de la marque chinoise affirme que cet outil surpasse Claude Code d'Anthropic sur les tâches longues et complexes, notamment celles dépassant 200 étapes successives. Selon des benchmarks publiés dans leur blog technique, MiMo Code couplé au modèle MiMo-V2.5-Pro obtient 82 % sur SWE-bench Verified contre 79 % pour Claude Code avec Claude Sonnet 4.6, 62 % contre 55 % sur SWE-bench Pro, et 73 % contre 69 % sur Terminal Bench 2. L'outil est disponible sur GitHub sous licence MIT, s'installe en une seule commande sur macOS et Linux, et inclut un accès gratuit limité au modèle multimodal MiMo-V2.5, doté d'une fenêtre de contexte d'un million de tokens sans inscription requise. Le projet est un fork d'OpenCode, enrichi par Xiaomi d'une architecture mémoire propriétaire. Ce qui distingue MiMo Code de ses concurrents, c'est précisément sa réponse à un problème bien connu des développeurs utilisant des agents IA sur de longues sessions : la dégradation progressive des performances à mesure que la fenêtre de contexte se remplit. Xiaomi a conçu un système de mémoire persistante à quatre couches, alimenté par SQLite FTS5, couvrant la mémoire projet (un fichier MEMORY.md permanent), des points de contrôle de session, des notes temporaires et des journaux de progression par tâche. L'originalité du système réside dans le déploiement d'un sous-agent indépendant, le "checkpoint-writer", qui prend des notes en temps réel sans interrompre l'agent principal. Deux mécanismes complètent l'ensemble : une commande /dream qui, toutes les sept jours environ, consolide les sessions passées en mémoire long terme, et une fonction "distill" qui identifie les flux de travail répétitifs pour les automatiser. L'arrivée de MiMo Code s'inscrit dans une course mondiale au meilleur agent de programmation, où Anthropic, OpenAI et Google se disputent la première place. Xiaomi, encore peu présent dans l'écosystème des outils développeurs en Occident, tente ici une percée directe sur un segment stratégique. L'approche open source sous licence MIT et l'accès gratuit au modèle sont clairement conçus pour attirer rapidement une base d'utilisateurs et générer des retours terrain. Les chiffres avancés s'appuient toutefois sur une étude interne portant sur 576 développeurs, ce qui appelle une certaine prudence avant validation indépendante. Xiaomi n'a pas publié de comparaisons face à Codex d'OpenAI ni aux outils de Google, deux absences notables qui limitent la portée de ces résultats. La vraie question est désormais de savoir si la communauté open source s'appropriera l'outil et si les performances annoncées résisteront à des audits externes.

UELes développeurs français et européens peuvent installer et tester gratuitement cet agent de codage open source sous licence MIT, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

OutilsOutil
1 source
Voici ce que la fuite du code source de Claude Code révèle sur les plans d'Anthropic
2Ars Technica AI 

Voici ce que la fuite du code source de Claude Code révèle sur les plans d'Anthropic

La fuite inattendue du code source de Claude Code, l'outil de développement d'Anthropic, a mis en lumière les coulisses techniques de ce produit phare. Plus de 512 000 lignes de code réparties sur plus de 2 000 fichiers ont été rendues accessibles, permettant à de nombreux observateurs de les analyser en détail. Au-delà de l'architecture existante, les chercheurs ont découvert des références à des fonctionnalités désactivées, cachées ou inactives — offrant un aperçu inédit de la feuille de route potentielle d'Anthropic. La découverte la plus marquante est celle d'un système baptisé Kairos : un démon persistant conçu pour fonctionner en arrière-plan, même lorsque la fenêtre du terminal Claude Code est fermée. Ce système utiliserait des invitations périodiques appelées ` pour évaluer régulièrement si de nouvelles actions sont nécessaires, ainsi qu'un drapeau PROACTIVE destiné à "remonter proactivement quelque chose que l'utilisateur n'a pas demandé mais qu'il a besoin de voir maintenant." Kairos s'appuie sur un système de mémoire basé sur des fichiers, permettant une continuité d'opération entre les sessions utilisateur. Un prompt découvert derrière le drapeau désactivé KAIROS` précise que l'objectif est que le système "dispose d'une image complète de qui est l'utilisateur, comment il souhaite collaborer, quels comportements éviter ou reproduire, et le contexte derrière son travail." Cette fuite intervient dans un contexte de compétition intense entre les assistants de développement — GitHub Copilot, Cursor, et Windsurf se disputant le même marché. L'émergence d'un agent autonome et persistant comme Kairos marquerait un tournant majeur : on passerait d'un outil réactif à une IA proactive capable d'initiative. Cela soulève également des questions sur la vie privée et la surveillance des développeurs, puisque le système est explicitement conçu pour profiler les habitudes de travail et anticiper les besoins. Si Anthropic confirme et déploie ces fonctionnalités, Claude Code ne serait plus seulement un assistant — il deviendrait un collaborateur permanent, toujours actif en fond de session.

UELe système Kairos, conçu pour profiler en continu les habitudes de travail des développeurs, soulève des questions de conformité au RGPD pour les entreprises et développeurs européens utilisant Claude Code.

💬 Kairos, c'est exactement ce que j'attendais d'un agent de dev sérieux. Un démon persistant avec mémoire de session, des invitations périodiques, une capacité à agir sans qu'on lui demande, sur le papier c'est le rêve. Sauf qu'en Europe, "profiler les habitudes de travail en continu" sans consentement explicite va faire grincer des dents chez les DPO, et Anthropic va avoir du boulot pour que ça passe en prod dans une boîte française.

OutilsOutil
1 source
Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire
3The Decoder 

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Un nouveau modèle vocal open source baptisé Audio Interaction vient d'être publié avec ses poids, son code source et ses instructions de déploiement sur GitHub, sous licence Apache 2.0. Sa particularité technique est de prendre une décision toutes les 0,4 secondes : parler ou se taire. Contrairement à la plupart des assistants vocaux actuels, il n'attend pas la fin d'un enregistrement pour répondre, mais écoute en continu un flux audio pour transcrire, traduire, converser et détecter des sons du quotidien comme une toux. Les données d'entraînement seront publiées séparément dans un second temps. Cette approche représente un changement de paradigme pour les interfaces vocales. Les modèles comme GPT-4o ou Qwen3.5-Omni fonctionnent encore en mode tour par tour : ils attendent que l'utilisateur finisse de parler avant de traiter la demande. Audio Interaction brise cette contrainte en analysant le flux sonore en temps réel, ce qui ouvre la voie à des interactions bien plus naturelles, notamment pour les assistants embarqués, les outils d'accessibilité ou les applications de traduction simultanée. La licence Apache 2.0 le rend immédiatement utilisable par des développeurs et des entreprises sans restriction commerciale. Le modèle s'inscrit dans une course intense autour de l'audio nativement multimodal, accélérée par la présentation de GPT-4o en mai 2024. L'ouverture complète de la chaîne, des poids aux données, reste encore rare dans ce domaine dominé par des solutions propriétaires, et pourrait stimuler une vague de recherche indépendante sur les modèles vocaux en temps réel. La publication imminente des données d'entraînement permettra à la communauté de reproduire et d'affiner les résultats de manière transparente.

UELes développeurs et entreprises européens peuvent adopter librement ce modèle vocal sous licence Apache 2.0 pour intégrer des interfaces vocales temps réel dans leurs applications, sans restriction commerciale.

💬 0,4 secondes pour décider de parler ou se taire, c'est le détail qui change tout. Le mode tour par tour des assistants actuels casse l'illusion à chaque échange, et là on a enfin une alternative ouverte avec les poids, le code, et une Apache 2.0 qui ne bloque personne. Les données d'entraînement arrivent "dans un second temps", bon, j'attends de voir si c'est complet.

OutilsActu
1 source
OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex
4MarkTechPost 

OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex

OpenAI a publié en open source Euphony, un outil de visualisation fonctionnant directement dans le navigateur, conçu pour transformer des données de conversation structurées en vues interactives lisibles. L'outil prend en charge deux formats propriétaires d'OpenAI : les conversations au format Harmony et les fichiers de session Codex au format JSONL. Euphony peut ingérer ces données de trois manières : en collant du JSON directement depuis le presse-papiers, en chargeant un fichier local, ou en pointant vers une URL publique, y compris des datasets hébergés sur Hugging Face. Une fois les données chargées, l'outil détecte automatiquement le format et rend une timeline de conversation navigable, avec un panneau d'inspection des métadonnées, un mode grille pour parcourir rapidement de grands datasets, un mode édition pour modifier le contenu JSONL dans le navigateur, et un filtrage basé sur JMESPath pour interroger les structures JSON complexes. Ce problème est concret pour quiconque travaille avec des agents IA multi-étapes : un agent Codex qui lit des fichiers, appelle des API, génère du code et révise ses propres sorties peut produire des centaines de lignes de JSON brut, où tokens bruts, chaînes décodées et métadonnées structurées s'entremêlent. Sans outillage dédié, retracer ce que le modèle faisait à chaque étape revient à reconstituer un puzzle sans image de référence. Euphony répond directement à ce besoin en rendant exploitable une richesse de données qui jusqu'ici restait enfouie dans des fichiers difficilement lisibles à l'œil nu. Pour les équipes d'évaluation et de fine-tuning, la possibilité d'inspecter des champs de métadonnées par conversation, scores, sources, labels, directement dans l'interface représente un gain de productivité significatif. Le contexte technique éclaire pourquoi cet outil était nécessaire. Le format Harmony, utilisé pour entraîner la série de modèles open-weight gpt-oss d'OpenAI, est structurellement plus riche qu'un format de chat standard : il supporte des sorties multi-canaux (raisonnement, appels d'outils, réponses normales dans une même conversation), des hiérarchies d'instructions basées sur les rôles (system, developer, user, assistant) et des namespaces d'outils nommés. Cette richesse est précieuse pour l'entraînement et l'évaluation, mais elle rend l'inspection manuelle particulièrement pénible. Euphony est disponible en deux modes : un mode purement frontend sans dépendance serveur, activé via la variable d'environnement VITEEUPHONYFRONTEND_ONLY=true, et un mode assisté par un serveur FastAPI local qui gère le chargement de datasets volumineux et le rendu Harmony côté backend. L'outil est également conçu pour être intégré comme composant web dans d'autres applications, ce qui ouvre la voie à une adoption dans des pipelines d'évaluation ou des interfaces internes d'équipes IA.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic