Aller au contenu principal

Dossier Open weight & Open source — page 2

558 articles · page 2 sur 12

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac
51Frandroid LLMsTuto

Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac

Google a dévoilé le Gemma 4 12B, le plus récent modèle de sa famille Gemma 4, conçu pour fonctionner directement sur un ordinateur personnel sans passer par le cloud ni souscrire à un abonnement payant. Avec ses 12 milliards de paramètres, il représente le point d'équilibre idéal de la gamme pour un usage sur laptop : assez puissant pour des tâches complexes, assez léger pour tourner sur du matériel grand public. Son installation passe notamment par des outils comme Ollama ou LM Studio, qui permettent de télécharger et d'exécuter le modèle localement en quelques commandes. L'intérêt principal du Gemma 4 12B réside dans la confidentialité et l'autonomie qu'il offre : aucune donnée ne quitte la machine, aucun abonnement mensuel n'est requis, et le modèle reste disponible même hors connexion. Pour les développeurs, chercheurs ou professionnels manipulant des données sensibles, c'est une alternative crédible aux API cloud d'OpenAI ou Anthropic. La famille Gemma 4 intègre également des capacités multimodales, permettant de traiter texte et images au sein d'un même modèle. Cette sortie s'inscrit dans la stratégie open source de Google, qui fait face à une concurrence directe de Meta et de ses modèles Llama, largement adoptés par la communauté. En proposant des modèles librement redistribuables et optimisés pour le matériel grand public, Google cherche à gagner en influence auprès des développeurs indépendants et des entreprises qui préfèrent garder le contrôle de leur infrastructure IA. La course aux modèles locaux performants ne fait que commencer.

UELes développeurs et entreprises européennes soucieux du RGPD peuvent déployer Gemma 4 12B entièrement en local, sans transfert de données vers l'étranger, renforçant la souveraineté numérique.

1 source
TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel
52MarkTechPost 

TinyFish lance BigSet : un système multi-agents open source qui construit des jeux de données structurés à partir de descriptions en langage naturel

TinyFish vient de publier BigSet, un système multi-agents open source sous licence AGPL-3.0, conçu pour automatiser la construction de jeux de données structurés à partir du web en langage naturel. Le principe est simple : l'utilisateur décrit en une phrase les données qu'il souhaite obtenir, par exemple "les entreprises YC actuellement en train de recruter des ingénieurs, avec leur stade de financement, leur localisation et le nombre de postes ouverts", et BigSet se charge d'inférer le schéma, de collecter les données sur le web, de dédupliquer les résultats et d'exporter le tout en CSV ou XLSX. Le code source complet est disponible sur GitHub. La génération d'un dataset prend entre 2 et 5 minutes, le temps que les agents effectuent de vraies recherches web. Une fonctionnalité de rafraîchissement automatique permet de maintenir les données à jour selon une cadence paramétrable : 30 minutes, 6 heures, 12 heures, quotidienne ou hebdomadaire. L'architecture repose sur un pipeline en cinq étapes clairement séparées. Claude Sonnet 4.6, accessible via OpenRouter, intervient en premier pour inférer le schéma : noms de colonnes, types de données, clés primaires et sources potentielles, avant tout accès web. Un agent orchestrateur basé sur Qwen (qwen/qwen3.7-max, via OpenRouter) identifie ensuite les entités correspondant à la description. Des sous-agents sont alors déployés en parallèle, chacun responsable d'une seule ligne du tableau final, avec un budget plafonné à 6 appels d'outils. Chaque agent utilise TinyFish Fetch pour récupérer le contenu des pages, extrait les champs pertinents, puis insère la ligne avec une attribution de source traçable. La déduplication par clé primaire est appliquée avant l'export final. La stack technique s'appuie sur Next.js 16, React 19, Fastify, TypeScript, Convex pour la base de données, et Mastra pour l'orchestration des workflows IA. BigSet s'attaque à un problème persistant dans le travail avec les données web : la fragmentation du pipeline entre identification des sources, scraping, conception du schéma, déduplication et planification des mises à jour. Ces étapes restent manuelles et chronophages, que l'on construise un dataset ou cent. En abstrayant l'ensemble de cette chaîne derrière une description en langage naturel, TinyFish cible directement les analystes, journalistes de données, équipes produit et chercheurs qui ont besoin de tableaux structurés sans vouloir maintenir une infrastructure de scraping. Le système est auto-hébergé via Docker, ce qui répond aussi aux préoccupations de confidentialité des données. TinyFish, qui développe par ailleurs ses propres outils de recherche et de fetch web, positionne BigSet comme une couche d'abstraction entre un besoin en données et une table exploitable, dans un écosystème où les agents IA commencent à remplacer les pipelines ETL traditionnels.

OutilsOutil
1 source
Memory OS : une architecture mémoire open source à 6 couches pour agents Hermes
53MarkTechPost 

Memory OS : une architecture mémoire open source à 6 couches pour agents Hermes

Un développeur de la communauté open-source, ClaudioDrews, vient de publier Memory OS, une bibliothèque sous licence MIT qui superpose six couches de mémoire à Hermes Agent, l'agent conversationnel de Nous Research. Là où Hermes propose déjà des fichiers de workspace et une base de données de sessions avec recherche plein texte, Memory OS y ajoute une base vectorielle Qdrant, des faits structurés avec scoring de confiance, un wiki de concepts auto-curé, et un système de rappel chirurgical à chaque appel LLM. L'ensemble tourne en local via Docker, Qdrant, Redis et Python 3.11+, et fonctionne avec n'importe quel fournisseur LLM supporté par Hermes : OpenRouter, OpenAI, Anthropic ou Ollama. Les six couches vont du simple fichier MEMORY.md injecté dans le prompt système (couche 1) jusqu'à un wiki LLM continuellement réingéré dans Qdrant (couche 6), en passant par une base SQLite avec FTS5, des vecteurs Cosine en 4096 dimensions combinés à une recherche BM25, et une version fortement remaniée du plugin Icarus gérant le rappel inter-sessions via 16 outils dédiés. L'intérêt concret de cette architecture réside dans son mécanisme de récupération : à chaque appel LLM, le système interroge simultanément quatre sources (Fabric, Qdrant, Sessions, Facts), filtre les résultats par seuil de pertinence, déduplique par session et ignore les messages triviaux. En sortie de session, il extrait et capitalise automatiquement les nouveaux apprentissages. Un scanner hebdomadaire fait vieillir les entrées obsolètes, et une déduplication sémantique fusionne les souvenirs quasi-identiques dès que la similarité cosinus dépasse 0,92. L'objectif affiché est l'efficacité en tokens : ne charger dans le contexte que ce qui est réellement utile, pas saturer la fenêtre. Pour les équipes soumises à des règles de résidence des données, le fait que rien ne quitte la machine locale représente un avantage réel que les services cloud comme mem0, Zep ou Letta ne peuvent pas offrir. Memory OS s'inscrit dans un débat plus large sur la mémoire des agents IA : jusqu'où peut-on aller avec une mémoire embarquée dans l'agent lui-même, sans passer par une infrastructure cloud payante ? Hermes Agent propose déjà huit fournisseurs de mémoire externes officiels, dont mem0 et Honcho, mais Memory OS n'en fait pas partie, c'est une surcouche communautaire indépendante, ce qui dit quelque chose sur l'appétit des développeurs pour des solutions souveraines. Le projet est récent et sa maturité reste à prouver à l'usage, mais son architecture en cascade de fallback (hybride, puis vectoriel dense, puis lexical, puis SQLite) montre une réflexion sérieuse sur la robustesse. Si l'adoption suit, ce type de stack mémoire locale pourrait devenir un modèle de référence pour les agents à usage intensif en entreprise.

UEL'architecture 100 % locale de Memory OS répond directement aux exigences de résidence des données imposées par le RGPD, offrant aux entreprises européennes une alternative souveraine aux services mémoire cloud pour leurs agents IA.

OutilsOutil
1 source
Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle
54MarkTechPost 

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

RecherchePaper
1 source
Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face
55MarkTechPost 

Perplexity AI publie en open source un tokeniseur Unigram avec une latence p50 5 fois inférieure au tokeniseur de Hugging Face

L'équipe de recherche de Perplexity AI a réécrit de zéro son tokeniseur Unigram en Rust et publié le code en open source dans son dépôt pplx-garden, dédié à ses technologies d'inférence. Le résultat est saisissant : à des longueurs d'entrée typiques de production, la nouvelle implémentation divise par 5 la latence médiane (p50) par rapport à la bibliothèque tokenizers de Hugging Face, par 2 par rapport à SentencePiece en C++, et par 1,5 par rapport au tokeniseur IREE en C. En conditions réelles, Perplexity a mesuré une réduction de 5 à 6 fois de l'utilisation CPU dans sa pile d'inférence, et un gain de plusieurs dizaines de millisecondes sur la latence de ses modèles de reranking. La solution atteint zéro allocation sur le tas en régime permanent, ce qui change fondamentalement la courbe de performance à grande échelle. Ce gain n'est pas anecdotique : il révèle un angle mort souvent ignoré de l'inférence LLM. La conversation autour des coûts se concentre presque exclusivement sur les GPU, les caches KV et les noyaux d'attention. Mais des modèles plus compacts, comme les encodeurs d'embeddings, les classifieurs et les modèles de reranking, présentent un profil radicalement différent. Un reranker tel que XLM-RoBERTa, doté d'un vocabulaire Unigram de 250 000 tokens, peut terminer son calcul GPU en quelques millisecondes seulement. La tokenisation côté CPU devient alors le vrai goulot d'étranglement, surtout lorsqu'il faut traiter des centaines de documents par requête. Pour des systèmes à fort trafic comme celui de Perplexity, optimiser cette étape revient à réduire directement les coûts d'infrastructure et la latence perçue par l'utilisateur final. La lenteur de l'implémentation de Hugging Face tenait à trois problèmes structurels : chaque correspondance dans le trie déclenchait une allocation mémoire via String::from_utf8, générant jusqu'à 299 000 allocations pour une entrée de 16 000 tokens ; chaque nœud du trie reposait sur une HashMap entraînant quatre chargements mémoire dépendants par octet ; enfin, les buffers de la table de programmation dynamique étaient réalloués à chaque appel, saturant le cache L2 à mesure que les entrées s'allongent. Perplexity a d'abord validé un portage sans allocation avec la même structure de trie, réduisant déjà la latence de 326 µs à 155 µs, avant d'introduire un Double-Array Trie pour éliminer le coût résiduel du parcours de pointeurs. L'algorithme de Viterbi, introduit en 1967 pour la segmentation probabiliste, reste au cœur du tokeniseur Unigram formalisé par Kudo en 2018 et intégré à SentencePiece. En publiant leur implémentation, Perplexity offre à l'ensemble de l'écosystème open source un composant critique dont les bénéfices dépassent largement leur propre infrastructure.

UELes équipes techniques européennes travaillant avec des tokeniseurs Unigram à grande échelle peuvent intégrer directement cette bibliothèque open source pour réduire la latence et les coûts CPU de leurs pipelines d'inférence.

OutilsActu
1 source
OmniVoice Studio : une alternative locale et open source à ElevenLabs
56MarkTechPost 

OmniVoice Studio : une alternative locale et open source à ElevenLabs

OmniVoice Studio est une application de bureau open source qui propose une alternative locale aux services vocaux d'ElevenLabs, dont les abonnements vont de 5 à 330 dollars par mois. Développée autour du modèle OmniVoice de k2-fsa, l'application regroupe six fonctionnalités principales : clonage de voix à partir d'un clip audio de trois secondes en zero-shot learning, conception de voix synthétiques paramétrables (genre, âge, accent, émotion), doublage automatique de vidéos YouTube ou locales, dictée en temps réel via un widget flottant système, traitement par lots jusqu'à 50 vidéos simultanées, et exposition de toutes ces capacités via un serveur MCP compatible avec Claude, Cursor ou tout client personnalisé. L'architecture repose sur un frontend React couplé à un backend FastAPI exposant 97 endpoints, avec stockage SQLite et streaming via Server-Sent Events. Les bibliothèques ML au coeur du système sont WhisperX pour la transcription (99 langues, alignement mot à mot), Demucs de Meta pour la séparation vocale, Pyannote pour la diarisation des locuteurs, et AudioSeal de Meta pour incruster un filigrane neuronal invisible dans l'audio généré. L'application supporte nativement CUDA, Apple Silicon Metal et ROCm AMD, avec bascule automatique sur CPU en dessous de 8 Go de VRAM. Ce qui distingue fondamentalement OmniVoice Studio, c'est que l'intégralité du pipeline s'exécute en local, sans envoyer aucune donnée vers des serveurs externes. Pour les créateurs de contenu, les développeurs, les journalistes ou les entreprises traitant des enregistrements sensibles, cela représente un changement de paradigme concret : zéro latence réseau, zéro dépendance à un abonnement, zéro exposition de données propriétaires. Le support de 646 langues pour la synthèse vocale, contre 32 pour ElevenLabs, ouvre des usages dans des langues minoritaires ou des dialectes régionaux que les plateformes commerciales ignorent. La fonctionnalité de doublage vidéo entièrement automatisée, transcription, traduction, synthèse, export MP4, comprime en quelques minutes un workflow qui demandait auparavant des outils multiples et des compétences spécialisées. Le projet s'inscrit dans une tendance de fond qui voit l'open source rattraper progressivement les services cloud d'IA vocale, portés par la démocratisation des modèles de diffusion et des architectures TTS performantes. OmniVoice Studio propose six moteurs TTS interchangeables via une variable d'environnement, dont CosyVoice 3 (Apache 2.0, 9 langues et 18 dialectes), MLX-Audio réservé à Apple Silicon, et MOSS-TTS-Nano capable de fonctionner en temps réel sur CPU. Ajouter un moteur personnalisé ne requiert qu'une cinquantaine de lignes de Python. L'enveloppe desktop est construite avec Tauri, framework Rust multiplateforme, pour une base de code répartie à 56 % en Python et 23,6 % en JavaScript. À mesure que les modèles locaux gagnent en qualité et que les coûts d'inférence baissent, des projets comme celui-ci fragilisent le modèle économique des plateformes SaaS vocales qui facturent l'accès à des capacités désormais reproductibles hors cloud.

UELe traitement 100% local facilite la conformité RGPD pour les entreprises, médias et journalistes européens qui manipulent des enregistrements sensibles sans dépendre de serveurs cloud américains.

CréationOutil
1 source
Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte
57MarkTechPost 

Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte

Together AI vient de publier en open source OSCAR (Offline Spectral Covariance-Aware Rotation), un système de quantification du cache KV à 2 bits conçu pour réduire drastiquement la mémoire GPU nécessaire à l'inférence de grands modèles de langage sur de longs contextes. Le problème visé est concret : lors de l'inférence en mode autorégressif, le cache KV croît avec la longueur du contexte, la taille des lots et la profondeur du modèle. À 100 000 tokens traités par dizaines de requêtes simultanées, ce cache peut accaparer la majorité de la mémoire GPU disponible. La quantification à INT2, qui ne représente les valeurs qu'avec 4 niveaux distincts, était jusqu'ici largement inutilisable : soit elle dégradait trop la précision, soit elle était incompatible avec les architectures de cache paginé utilisées en production. OSCAR surmonte ces deux obstacles grâce à une rotation des activations fondée non pas sur leur distribution brute, mais sur les statistiques d'attention elles-mêmes. L'innovation centrale d'OSCAR réside dans le choix de la base de rotation. Pour les clés (keys), ce qui compte n'est pas l'erreur de reconstruction euclidienne, mais l'erreur sur les logits d'attention, pondérée par la covariance des requêtes. Pour les valeurs (values), c'est la covariance pondérée par les scores d'attention qui détermine quelles directions d'erreur se propagent réellement dans la sortie du modèle. OSCAR estime ces covariances sur un jeu de calibration, les décompose en vecteurs propres, et les utilise comme base de rotation optimale. La rotation finale se compose de trois éléments : l'alignement sur les directions importantes pour l'attention, une transformation de Hadamard qui uniformise les canaux, et un réordonnancement par inversion de bits qui garantit que chaque groupe de quantification reçoit un représentant de chaque niveau hiérarchique. Le système s'intègre dans la pile de serving production de SGLang comme mode INT2 natif du cache KV. Ce travail s'inscrit dans une course intense à l'efficacité mémoire pour les LLM en production. La quantification du cache KV est un levier direct sur la taille des lots traitables et donc sur le coût par requête. Les approches INT4 existantes, comme QuIP# ou QuaRot, fonctionnaient déjà correctement, mais INT2 représentait une frontière difficile à franchir sans perte de qualité rédhibitoire. En publiant OSCAR en open source avec une intégration SGLang, Together AI met cet outil à disposition de l'ensemble de la communauté de déploiement de modèles. L'enjeu est considérable : multiplier par deux la compression du cache KV peut doubler la capacité de traitement parallèle d'un serveur sans changer le matériel. Les prochaines étapes naturelles concernent la validation sur des modèles de très grande taille et l'extension à d'autres architectures d'attention.

UELes laboratoires et startups IA européens déployant des LLM peuvent adopter cette technique open source pour réduire leurs coûts d'inférence GPU et doubler leur capacité de traitement parallèle sans changer de matériel.

InfrastructureOpinion
1 source
Warp : comment le terminal open source réinvente le code à l’ère de l’IA agentique
58Le Big Data 

Warp : comment le terminal open source réinvente le code à l’ère de l’IA agentique

Warp est un terminal de développement conçu en Rust qui ambitionne de remplacer les émulateurs classiques comme iTerm2 ou les consoles natives des systèmes d'exploitation. L'outil, développé pour corriger la lenteur et le manque d'ergonomie des interfaces en ligne de commande existantes, intègre désormais une couche d'intelligence artificielle agentique directement au coeur de l'environnement de travail. Contrairement aux assistants de code classiques qui suggèrent une ligne ou corrigent une erreur à la demande, Warp fonctionne en mode autonome : le développeur formule un objectif en langage naturel, et le système planifie puis exécute les étapes nécessaires sans intervention manuelle à chaque décision. L'outil analyse l'arborescence du projet, indexe les configurations et cartographie les dépendances via une base vectorielle locale, ce qui lui permet d'adapter ses actions à l'architecture réelle de l'application. Une fois une instruction validée, il lance une boucle continue d'action et de vérification, pouvant écrire des scripts, démarrer des serveurs, lire les erreurs et corriger le code source en cas d'échec. L'impact pour les équipes de développement est direct : la plateforme vise à éliminer la fragmentation cognitive qui caractérise le quotidien des ingénieurs, contraints de jongler en permanence entre leur éditeur de code, la documentation en ligne et un outil d'IA générative externe. Ce va-et-vient constant, qui génère une fatigue cognitive réelle et des pertes de temps importantes, devient obsolète lorsque la documentation, l'analyse des pannes et l'exécution sont regroupées dans un même environnement. Le développeur passe du rôle d'exécutant de commandes mémorisées à celui de superviseur de processus automatisés, concentrant son attention sur la conception plutôt que sur les micro-décisions répétitives. Le contexte est celui d'une stagnation de plusieurs décennies du terminal traditionnel, dont l'interface n'a pas fondamentalement évolué depuis quarante ans malgré l'explosion de la complexité des projets logiciels. Warp s'inscrit dans une tendance plus large de l'industrie qui cherche à intégrer l'IA non plus comme un module externe mais comme une couche native des outils de développement, à l'image de ce que GitHub Copilot a fait pour les éditeurs de code. La distinction clé que pose Warp est celle entre l'assistance ponctuelle et l'agentivité réelle, un positionnement qui entre en concurrence directe avec des environnements comme Cursor ou les extensions IA de VS Code, mais sur le terrain du terminal plutôt que de l'éditeur. L'enjeu pour la startup est de convaincre une profession historiquement attachée à ses outils que la ligne de commande peut devenir un centre de pilotage intelligent sans sacrifier la maîtrise que les ingénieurs revendiquent sur leur environnement.

OutilsOutil
1 source
Les créateurs de NanoClaw transforment leur environnement open source pour agents IA en second cerveau d'entreprise
59VentureBeat AI 

Les créateurs de NanoClaw transforment leur environnement open source pour agents IA en second cerveau d'entreprise

NanoCo AI, la startup fondée par Gavriel Cohen, ancien ingénieur chez Wix.com, et son frère Lazer Cohen, également fondateur de l'agence de relations presse Concrete Media, vient de boucler un tour de table d'amorçage de 12 millions de dollars, sursouscrit, mené par Valley Capital Partners. Parmi les investisseurs stratégiques figurent Docker, Vercel, monday.com, Factorial Capital, ainsi que Clem Delangue, PDG et cofondateur de Hugging Face. La levée doit financer le passage à l'échelle de NanoClaw, leur variante open source sous licence MIT du framework d'agents IA autonomes OpenClaw, en y ajoutant des services commerciaux managés destinés aux grandes entreprises. Le concept central de NanoCo AI est un assistant professionnel en tête-à-tête : chaque employé dispose d'un agent personnel qui apprend son rôle, ses projets et son style de travail au fil des échanges ordinaires. Au fur et à mesure que l'utilisateur lui transfère des emails, documents et comptes-rendus de réunions, l'agent construit un "wiki LLM" dynamique, concept proche de celui de "LLM Knowledge Base" théorisé par le chercheur influent Andrej Karpathy. Cette mémoire persistante permet à l'assistant de passer de la simple réponse aux questions à la rédaction autonome de premiers jets de contrats, de révisions de code ou de gestion de comptes, directement dans des outils comme Slack ou Microsoft Teams. Cohen estime que ce modèle peut rendre un employé deux à trois fois plus efficace, sans remplacer les effectifs. La sécurité constitue le différenciateur technique majeur de NanoClaw face à ses concurrents. Là où OpenClaw a grossi jusqu'à 400 000 lignes de code, NanoClaw a été délibérément réduit à environ 500 lignes de TypeScript, ce qui permet à une équipe sécurité humaine de l'auditer intégralement en huit minutes. Chaque agent tourne dans un environnement isolé via des sandboxes Docker basées sur des MicroVM, fruit d'un partenariat avec Docker annoncé en mars 2026. Les identifiants API ne transitent jamais directement jusqu'à l'agent : toutes les requêtes sortantes passent par une passerelle sécurisée écrite en Rust, OneCLI Gateway, qui applique les politiques définies par l'entreprise. Si un agent tente une action sensible en écriture, comme modifier un environnement cloud ou supprimer un email, la passerelle intercepte la requête et soumet une carte interactive à l'employé concerné sur Slack, Teams ou WhatsApp, qui doit valider explicitement avant que l'action soit exécutée.

UELa participation de Clem Delangue, PDG de la française Hugging Face, comme investisseur stratégique témoigne de l'intérêt de l'écosystème IA européen pour ces frameworks d'agents légers et auditables, sans impact opérationnel direct immédiat sur la France ou l'UE.

BusinessActu
1 source
Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF
60arXiv cs.RO 

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

Des chercheurs ont publié en mai 2026 Dexora, un système VLA (Vision-Language-Action) open-source conçu nativement pour la manipulation bimane et bi-main à haut nombre de degrés de liberté (DoF). Contrairement aux architectures existantes, limitées soit au contrôle de pinces doubles (faible DoF), soit à la manipulation dextère d'un seul bras, Dexora adresse simultanément les deux problèmes. Le pipeline de téléopération repose sur un exosquelette dorsal pour capturer la cinématique grossière des bras, couplé à un suivi markerless des doigts via Apple Vision Pro pour le mouvement fin des mains. Ce dispositif pilote à la fois un robot physique dual-arm dual-hand et un jumeau numérique identique sous MuJoCo. Le corpus d'entraînement atteint 100 000 trajectoires simulées (6,5 millions de frames) et 10 000 épisodes téléopérés en conditions réelles (2,92 millions de frames). Pour filtrer le bruit inévitable des démonstrations humaines, un discriminateur offline attribue des pondérations par clip avant l'entraînement d'une politique diffusion-transformer. En benchmark, Dexora obtient 66,7 % de succès sur les tâches dextères contre 51,7 % pour les meilleures alternatives comparées, et 90 % sur les tâches de base. Des résultats de généralisation hors distribution et cross-embodiment sont également reportés. Ce travail comble un angle mort réel de l'écosystème VLA actuel : les mains à haute dextérité (typiquement 16 à 22 DoF par main) ne se prêtent pas aux heuristiques utilisées pour les pinces, et les méthodes end-to-end génériques se sont jusqu'ici heurtées à la complexité de la téléopération bimanuelle simultanée. Le gain de 15 points sur les baselines dextères est significatif, même si les benchmarks utilisés restent internes et les conditions expérimentales peu détaillées dans l'abstract, ce qui mérite vérification à la lecture du papier complet. L'ouverture du code, des données et des poids est le point différenciant le plus structurant : elle abaisse la barrière d'entrée pour les laboratoires et les intégrateurs qui cherchent à entraîner des politiques sur leurs propres plateformes dextères sans repartir de zéro. La publication s'inscrit dans une course accélérée à la dextérité fine pour les bras robotiques, où Physical Intelligence (pi0), OpenVLA et plusieurs équipes académiques ont multiplié les releases VLA depuis 2024. Aucun acteur européen n'est directement impliqué dans ce travail, mais des start-ups comme Enchanted Tools (France) ou Shadow Robotics (UK, désormais indépendant de OpenAI) suivent des trajectoires adjacentes sur les mains dextères. Le recours à l'Apple Vision Pro comme capteur de téléopération markerless est un choix pragmatique mais dépendant d'un hardware grand public non industriel, dont la robustesse en environnement de production reste à démontrer. Il s'agit d'un preprint arXiv, pas d'un produit livré : aucun déploiement industriel ni pilote n'est annoncé à ce stade.

UEDes laboratoires et start-ups européens spécialisés dans la manipulation dextère (ex : Enchanted Tools, Shadow Robotics) pourront s'appuyer sur le code, les données et les poids open-source de Dexora pour accélérer leurs propres politiques, sans qu'aucun partenariat ou déploiement en Europe ne soit annoncé.

💬 Le vrai saut, c'est l'open source : code, poids, et les 100 000 trajectoires d'entraînement disponibles. Jusqu'ici chaque équipe qui voulait attaquer la manipulation bimanuelle repartait de zéro, parce que personne ne partageait de base réutilisable à cette granularité de DoF. Reste à voir ce que ça vaut en dehors des benchmarks internes.

RobotiqueOpinion
1 source
Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE
61MarkTechPost 

Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE

Cline, l'agent de codage IA open-source utilisé par des millions de développeurs, a annoncé cette semaine une refonte architecturale majeure avec la sortie de @cline/sdk, un runtime d'agent TypeScript désormais disponible en open-source. Concrètement, l'équipe a extrait le coeur du moteur agentique, jusqu'ici étroitement couplé à l'extension VS Code, pour en faire un SDK indépendant, modulaire, sur lequel tous ses produits sont désormais reconstruits : l'extension VS Code, JetBrains, le CLI et le tableau Kanban. Le SDK est structuré en couches strictement ordonnées : @cline/shared (types, schémas, utilitaires), @cline/llms (passerelle vers Anthropic, OpenAI, Google, AWS Bedrock, Mistral, LiteLLM et tout endpoint compatible OpenAI), @cline/agents (boucle d'exécution stateless, compatible navigateur), et @cline/core (orchestration Node.js, sessions, stockage, télémétrie, plugins). Chaque couche est installable séparément, ce qui permet par exemple d'utiliser uniquement @cline/llms comme proxy LLM sans embarquer tout le runtime. Cette architecture redéfinie apporte des gains concrets mesurables. Avec Cline 2.0, l'équipe a reécrit les prompts, simplifié la boucle agentique et amélioré la gestion du contexte. Les résultats publiés sur Terminal Benchmark 2.0 (tbench.ai) au 8 mai 2026 sont frappants : sur claude-opus-4.7, le CLI Cline atteint 74,2% contre 69,4% pour Claude Code d'Anthropic sur le même modèle. Sur claude-opus-4.6, l'écart est similaire, 71,9% contre 65,4%. Sur les modèles open-weight, Cline marque 55,1% sur Kimi-K2.6, contre 37,1% pour OpenCode et 45,5% pour Pi-Code. Côté stabilité, les sessions agentiques longues ne meurent plus lors d'un redémarrage de l'interface : la boucle reste stateless et portable, tandis que la persistance est gérée séparément par le runtime. Cette sortie s'inscrit dans une tendance plus large : celle de la fragmentation et de la standardisation de l'outillage agentique. Pendant des années, les agents IA étaient construits comme des monolithes liés à une interface spécifique, VS Code, un navigateur, un SaaS. Le choix de Cline de découpler son moteur de ses surfaces d'affichage ouvre la voie à une nouvelle génération d'outils où le même agent peut s'exécuter dans un IDE, un terminal, un serveur serverless ou un environnement browser sans réécriture. Le système de plugins intégré au SDK permet en outre aux équipes tierces d'enregistrer leurs propres outils, d'observer les événements du cycle de vie de l'agent et d'étendre ses capacités. Pour les éditeurs et startups qui cherchent à construire sur une base agentique robuste sans repartir de zéro, @cline/sdk représente une fondation crédible, et son positionnement open-source face à des alternatives propriétaires comme Claude Code ou Cursor pourrait accélérer l'adoption dans les environnements d'entreprise.

UELe SDK intègre Mistral nativement comme fournisseur LLM, ce qui facilite l'adoption par les équipes européennes souhaitant une alternative open-source aux outils propriétaires soumis au CLOUD Act.

OutilsOutil
1 source
Les developpeurs peuvent desormais deboguer et evaluer des agents IA en local avec l'outil open source Workshop de Raindrop
62VentureBeat AI 

Les developpeurs peuvent desormais deboguer et evaluer des agents IA en local avec l'outil open source Workshop de Raindrop

Raindrop AI, une startup spécialisée dans l'observabilité des systèmes d'intelligence artificielle, a lancé ce jour Workshop, un outil open source sous licence MIT conçu pour déboguer et évaluer les agents IA directement en local. L'outil fonctionne comme un démon léger associé à une interface web accessible sur localhost:5899, qui capture en temps réel chaque token généré, chaque appel d'outil et chaque décision prise par un agent. Toutes ces données sont stockées dans un unique fichier SQLite (.db), particulièrement économe en mémoire, ce qui permet aux développeurs de rejouer et inspecter l'intégralité du comportement de leur agent sans quitter leur machine. Workshop est disponible sur macOS, Linux et Windows, installable en une seule ligne de commande, et s'appuie sur le runtime Bun pour ceux qui préfèrent compiler depuis les sources via GitHub. Ben Hylak, cofondateur et CTO de Raindrop, ancien ingénieur chez Apple et SpaceX, a présenté l'outil comme une réponse directe au besoin de déboguer les agents de façon "sensée". La fonctionnalité centrale de Workshop est ce que Raindrop appelle la "boucle d'évaluation auto-réparatrice" : un agent de code comme Claude Code peut lire les traces capturées, écrire automatiquement des tests d'évaluation ciblés, identifier les erreurs logiques dans le prompt ou le code, puis relancer l'agent jusqu'à ce que tous les tests passent. Concrètement, si un agent assistant vétérinaire omet de poser des questions de suivi essentielles, Workshop enregistre la trajectoire complète de l'échec, permettant à Claude Code de localiser la faille et de la corriger de manière autonome. Cette approche élimine la latence des méthodes traditionnelles de polling et répond à une préoccupation croissante dans la communauté : la confidentialité des traces, qui ne quittent plus jamais la machine du développeur. L'émergence de Workshop s'inscrit dans un mouvement plus large de maturation de l'écosystème des agents IA. Depuis que le développement agentique s'est imposé comme paradigme dominant en 2024-2025, les développeurs manquaient d'outils d'introspection adaptés à ces systèmes autonomes, dont les comportements sont notoirement difficiles à tracer et à reproduire. Workshop répond à ce vide en s'intégrant avec les principaux frameworks du marché, notamment le Vercel AI SDK, OpenAI, Anthropic, LangChain, LlamaIndex et CrewAI, ainsi qu'avec les agents de code populaires comme Cursor, Devin et OpenCode. Il supporte TypeScript, Python, Rust et Go. La licence MIT garantit une utilisation libre y compris en entreprise, tout en favorisant les contributions communautaires. Pour marquer le lancement, Raindrop a distribué des goodies physiques en édition limitée aux premiers utilisateurs ayant exécuté une commande "drip" spécifique.

UELes développeurs européens soumis au RGPD peuvent tirer parti du stockage local des traces d'agents pour simplifier leur conformité, sans transfert de données vers des serveurs tiers.

OutilsOutil
1 source
Fastino Labs publie en open source GLiGuard : un modèle de modération 300M paramètres aussi précis que des modèles 23 à 90 fois plus grands
63MarkTechPost 

Fastino Labs publie en open source GLiGuard : un modèle de modération 300M paramètres aussi précis que des modèles 23 à 90 fois plus grands

Fastino Labs a publié GLiGuard, un modèle open-source de modération de contenu doté de 300 millions de paramètres, conçu pour sécuriser les applications basées sur des LLM en production. Sur neuf benchmarks de sécurité, GLiGuard atteint ou dépasse la précision de modèles 23 à 90 fois plus volumineux, comme LlamaGuard4 (12 milliards de paramètres), WildGuard (7 milliards) ou ShieldGemma (27 milliards), tout en fonctionnant jusqu'à 16 fois plus vite. En une seule passe, le modèle exécute simultanément quatre tâches de modération : classification de sécurité des prompts et des réponses, détection de 11 stratégies de contournement (injection de prompt, roleplay, social engineering...), analyse de la toxicité selon 8 catégories, et identification des contenus sexuels. Le modèle et ses poids sont disponibles sous licence Apache 2.0. L'enjeu est directement opérationnel : dans tout système LLM en production, le modèle de garde-fous s'exécute à chaque requête utilisateur et à chaque réponse du modèle, à chaque tour de conversation. Avec les architectures actuelles de type décodeur, cette latence s'accumule et le coût se multiplie. GLiGuard résout ce problème en adoptant une architecture encodeur, qui traite l'intégralité du texte d'entrée en une seule passe et retourne une étiquette de classification directement, sans générer de tokens séquentiellement. Concrètement, ajouter des dimensions d'évaluation supplémentaires n'augmente pas la latence, puisque toutes les tâches et leurs labels candidats font partie de l'entrée elle-même. Pour les développeurs qui déploient des agents IA capables de naviguer sur le web, d'exécuter du code ou d'interagir avec des services externes, cette réduction de latence et de coût peut changer fondamentalement la viabilité économique d'une mise en production sécurisée. Le problème de fond que GLiGuard cherche à résoudre illustre une tension structurelle dans l'industrie LLM : les modèles de garde-fous ont été construits sur des architectures décodeur par commodité, parce qu'ils pouvaient interpréter des instructions en langage naturel et s'adapter à de nouvelles politiques de sécurité sans réentraînement. Mais la modération de contenu est fondamentalement un problème de classification, pas de génération de texte, et les architectures décodeur ne sont pas optimisées pour cela. La publication de GLiGuard s'inscrit dans une tendance plus large de spécialisation des modèles : plutôt qu'utiliser un même LLM généraliste pour tout, les équipes en production découpent les tâches selon leurs contraintes propres. Fastino Labs positionne GLiGuard comme une brique d'infrastructure plutôt qu'un produit fini, ce qui suggère une stratégie d'adoption par les développeurs avant une éventuelle offre commerciale autour de la vitesse et du coût à l'échelle.

SécuritéOpinion
1 source
LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes
64MarkTechPost 

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

La LightSeek Foundation a publié TokenSpeed, un moteur d'inférence pour grands modèles de langage distribué en open source sous licence MIT. Encore en phase de préversion, TokenSpeed est conçu spécifiquement pour les charges de travail dites "agentiques", c'est-à-dire les systèmes d'IA qui enchaînent de multiples appels au modèle pour accomplir des tâches complexes, comme l'écriture ou la révision de code. L'objectif déclaré est d'atteindre des performances comparables à TensorRT-LLM de NVIDIA, tout en restant accessible à l'ensemble de l'écosystème. Le moteur vise à maintenir un débit minimum de 70 tokens par seconde par utilisateur, un seuil qui monte parfois à 200 TPS ou plus, tout en maximisant le nombre de tokens traités par GPU et par minute. L'enjeu dépasse la performance brute. Des outils comme Claude Code d'Anthropic, Codex d'OpenAI ou Cursor fonctionnent sur des contextes qui dépassent régulièrement 50 000 tokens et s'étalent sur des dizaines de tours de conversation, un profil très différent d'un simple chatbot. Or la plupart des benchmarks publics ne rendent pas compte de cette réalité. Lorsqu'un agent de développement logiciel analyse un dépôt entier, génère du code, exécute des tests et itère, chaque milliseconde de latence ajoutée se multiplie à chaque étape. Un moteur d'inférence mal adapté devient rapidement un goulot d'étranglement qui ralentit l'ensemble de la chaîne de production logicielle, et donc, à terme, les équipes d'ingénierie qui en dépendent. L'architecture de TokenSpeed repose sur cinq sous-systèmes complémentaires. Le premier est un mécanisme de parallélisme assisté par compilateur, basé sur le modèle SPMD (Single Program, Multiple Data), qui génère automatiquement les communications entre processus sans que le développeur n'ait à les écrire manuellement. Le planificateur de requêtes sépare strictement le plan de contrôle, implémenté en C++ sous forme de machine à états finis, du plan d'exécution écrit en Python, ce qui permet de détecter les erreurs de gestion du cache KV à la compilation plutôt qu'à l'exécution. Le troisième pilier est une couche de noyaux GPU modulaire et extensible, compatible avec des accélérateurs autres que ceux de NVIDIA, s'appuyant notamment sur l'un des noyaux MLA (Multi-head Latent Attention) les plus rapides disponibles pour les GPU Blackwell. Ce noyau MLA a d'ailleurs déjà été intégré dans vLLM, l'un des moteurs d'inférence open source les plus utilisés dans l'industrie. La fondation LightSeek positionne ainsi TokenSpeed comme une infrastructure commune pour l'ère où les agents IA deviennent le principal vecteur de production de code.

UELa disponibilité d'un moteur d'inférence open source compatible avec des accélérateurs non-NVIDIA pourrait réduire la dépendance des équipes européennes aux solutions propriétaires de NVIDIA.

InfrastructureActu
1 source
Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données
65MarkTechPost 

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper
1 source
Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM
66MarkTechPost 

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

L'équipe Qwen, filiale IA d'Alibaba, vient de publier Qwen-Scope, une suite open-source d'autoencodeurs épars (SAE) entraînés sur les familles de modèles Qwen3 et Qwen3.5. La publication comprend 14 groupes de poids SAE répartis sur sept variantes de modèles : cinq modèles denses (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B et Qwen3.5-27B) et deux modèles mixture-of-experts (Qwen3-30B-A3B et Qwen3.5-35B-A3B). Concrètement, un autoencodeur épars fonctionne comme une couche de traduction entre les activations brutes du réseau de neurones et des concepts compréhensibles par l'humain : pour chaque couche transformeur, Qwen-Scope entraîne un SAE séparé qui décompose les états internes en un large dictionnaire de caractéristiques latentes, chaque entrée n'en activant qu'un petit sous-ensemble. Chaque caractéristique tend à correspondre à un concept précis, qu'il s'agisse d'une langue, d'un style ou d'un comportement lié à la sécurité. La largeur de ces dictionnaires atteint jusqu'à 128 000 dimensions pour les modèles MoE, soit une expansion de 64 fois la taille cachée du modèle. Cet outil répond à l'un des problèmes les plus frustrants du développement de LLMs : leur opacité totale. Quand un modèle génère des réponses dans la mauvaise langue, se répète à l'infini ou refuse des requêtes inoffensives, les développeurs disposent de très peu de moyens pour en comprendre la cause à l'échelle des calculs internes. Qwen-Scope ouvre deux leviers concrets. Le premier est le pilotage à l'inférence : en ajoutant ou soustrayant une direction de caractéristique dans le flux résiduel selon la formule h' = h + αd, il devient possible d'orienter le comportement du modèle sans modifier aucun poids. L'équipe illustre cela sur Qwen3 : un modèle qui mêlait involontairement du chinois dans ses réponses en anglais a été corrigé en supprimant la caractéristique "langue chinoise" (id : 6159), identifiée en quelques secondes par son niveau d'activation élevé. Le second levier est l'analyse d'évaluation sans forward pass coûteux : les activations SAE servent de proxy pour cartographier quelles capacités sont réellement testées par un benchmark, et détecter si deux jeux d'évaluation sont redondants. Cette publication s'inscrit dans le courant de l'interprétabilité mécaniste, un champ de recherche en pleine expansion qui vise à rendre les LLMs auditables de l'intérieur. Des acteurs comme Anthropic et DeepMind ont déjà investi dans des SAEs pour leurs propres modèles, mais la mise à disposition open-source de tels outils sur une famille de modèles aussi large reste rare. Pour les équipes qui utilisent Qwen en production, Qwen-Scope représente une infrastructure de diagnostic inédite : détecter des biais encodés dans les représentations internes, affiner des comportements sans fine-tuning coûteux, ou auditer la couverture réelle de leurs protocoles d'évaluation. La prochaine étape logique serait l'extension de ces outils aux modèles de raisonnement et aux architectures multimodales, deux domaines où l'opacité interne reste particulièrement problématique.

UELes entreprises européennes déployant des modèles Qwen en production peuvent exploiter Qwen-Scope pour auditer les biais encodés dans les représentations internes et faciliter la conformité aux exigences d'explicabilité de l'AI Act.

RecherchePaper
1 source
RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs
67VentureBeat AI 

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs

RunPod, la plateforme cloud spécialisée dans les GPU haute performance pour le développement IA, a lancé ce jeudi un nouvel outil open source baptisé RunPod Flash. Distribué sous licence MIT, cet outil Python vise à supprimer une contrainte jusqu'ici incontournable dans le développement serverless sur GPU : la conteneurisation Docker. Dans le cycle de développement traditionnel, un développeur devait écrire un Dockerfile, construire une image, la pousser vers un registre, puis attendre que l'environnement se déploie avant qu'une seule ligne de code puisse s'exécuter sur un GPU distant. Flash remplace ce processus par un moteur de build multiplateforme qui génère automatiquement un artefact Linux x86_64 depuis un Mac M-series, détecte la version Python locale, force les wheels binaires, et monte les dépendances directement à l'exécution sur la flotte serverless de RunPod. Le nouveau décorateur @Endpoint, pièce centrale de cette version GA, centralise la configuration de ce pipeline en un seul appel de fonction. L'impact concret est double. Pour les équipes de recherche, la suppression de ce que RunPod appelle la "taxe de packaging" réduit drastiquement les cycles d'itération : plus besoin de rebuilder et repousser une image à chaque modification de code. Pour les applications en production, Flash embarque des fonctionnalités de niveau entreprise, API HTTP avec load balancing basse latence, traitement par lots en file d'attente, stockage persistant multi-datacenter. L'outil permet également de construire des pipelines dits "polyglots" : un endpoint CPU bon marché peut prendre en charge le prétraitement des données avant de router automatiquement vers un GPU NVIDIA H100 ou B200 pour l'inférence. Cette architecture réduit aussi les "cold starts", ces délais à froid qui pénalisent les environnements serverless, en évitant d'initialiser de lourdes images conteneurisées à chaque requête. Derrière Flash se trouve une infrastructure réseau propriétaire SDN/CDN que RunPod a construite pour résoudre ce que son CTO Brennen Smith décrit comme le vrai problème du GPU cloud : non pas les processeurs eux-mêmes, mais le réseau et le stockage qui les relient. L'outil est explicitement conçu pour servir de substrat aux agents IA et assistants de code, Claude Code, Cursor, Cline sont cités nommément, leur permettant d'orchestrer et déployer du matériel distant de façon autonome. "Tout le monde parle d'IA agentique, mais il faut une colle solide pour que ces agents puissent réellement fonctionner", a déclaré Smith à VentureBeat. RunPod entre ainsi en compétition directe avec AWS Lambda et Modal sur le segment du serverless GPU, en pariant que la suppression de la friction de déploiement sera le facteur décisif pour les labs et équipes produit qui multiplient les expérimentations IA.

OutilsActu
1 source
Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision
68Pandaily 

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

Ant Group, la filiale fintech d'Alibaba, a officiellement mis en open source son modèle Ling-2.6-Flash le 29 avril 2026, via l'équipe BaiLing spécialisée en grands modèles de langage. Le modèle compte 104 milliards de paramètres au total, dont 7,4 milliards activés à l'inférence, et est proposé en plusieurs formats de précision, BF16, FP8 et INT4, pour s'adapter à différents environnements matériels et contraintes de déploiement. Fait notable : deux semaines avant cette annonce officielle, le modèle avait été discrètement mis en ligne sur la plateforme OpenRouter sous le nom anonyme "Elephant Alpha", permettant à Ant Group de collecter des retours développeurs et d'effectuer plusieurs cycles d'optimisation, notamment sur la commutation bilingue chinois-anglais et la compatibilité avec les principaux frameworks de développement. Les performances techniques de Ling-2.6-Flash le positionnent comme un concurrent sérieux dans le segment des modèles efficaces à grande échelle. Son architecture linéaire hybride lui permet d'atteindre 340 tokens par seconde sur une configuration 4x GPU H20, avec un débit de prefill 2,2 fois supérieur à celui du Nemotron-3-Super de NVIDIA. Sur les benchmarks Artificial Analysis, il n'a consommé que 15 millions de tokens pour accomplir ses tâches, soit environ un dixième de ce que nécessite Nemotron-3-Super, un ratio coût-performance particulièrement attractif pour les équipes cherchant à déployer des agents IA à l'échelle. Sur des benchmarks spécialisés comme BFCL-V4, TAU2-bench ou SWE-bench Verified, ses résultats rivalisent avec des modèles aux paramètres actifs bien plus importants. Cette publication s'inscrit dans une stratégie d'open source agressive que mènent plusieurs grandes entreprises technologiques chinoises face à la domination américaine dans le domaine des LLM. Ant Group rejoint ainsi DeepSeek, Alibaba (Qwen) et ByteDance (Doubao) dans une course à la transparence et à l'adoption communautaire. Le choix de tester le modèle anonymement avant de le revendiquer reflète une approche plus pragmatique du lancement : valider en conditions réelles avant de s'exposer publiquement. La focalisation sur les cas d'usage agents, planification multi-étapes, utilisation d'outils, exécution de tâches complexes, indique que les prochaines batailles de l'IA ne se joueront pas sur les chatbots grand public, mais sur l'automatisation des workflows professionnels.

LLMsOpinion
1 source
SlicerRoboTMS : extension open source de 3D Slicer pour la stimulation magnétique transcrânienne robotisée
69arXiv cs.RO 

SlicerRoboTMS : extension open source de 3D Slicer pour la stimulation magnétique transcrânienne robotisée

Une équipe de chercheurs a publié SlicerRoboTMS, une extension open-source pour la plateforme logicielle 3D Slicer, dédiée à la stimulation magnétique transcrânienne assistée par robot (Robo-TMS). L'article, déposé sur arXiv (référence 2504.25661), décrit une infrastructure logicielle unifiée qui combine navigation neurologique par IRM, vision par ordinateur et contrôle robotique au sein d'un même environnement. L'extension s'appuie sur les capacités existantes de 3D Slicer en matière d'imagerie médicale et communique avec les systèmes robotiques via des protocoles standardisés et des descriptions de configuration modulaires. Le code source est disponible librement sur GitHub, sous l'organisation OpenRoboTMS. La TMS conventionnelle est une technique non invasive de stimulation cérébrale largement utilisée en psychiatrie, neurologie et recherche en neurosciences, notamment pour traiter la dépression résistante aux médicaments. Son principal défaut : la précision du positionnement de la bobine magnétique sur le crâne dépend entièrement de l'opérateur humain, ce qui nuit à la reproductibilité des traitements et des expériences. SlicerRoboTMS vise à résoudre ce problème en guidant un bras robotique à partir de données IRM du patient, améliorant ainsi la précision et la cohérence entre sessions. Pour les cliniques et les laboratoires, cela représente un gain concret en qualité de soin et en rigueur expérimentale, sans avoir à développer une infrastructure logicielle propriétaire coûteuse. Le développement de systèmes Robo-TMS bute depuis des années sur un obstacle majeur : l'intersection entre imagerie médicale, robotique et traitement du signal exige des compétences multidisciplinaires rares, que peu d'équipes réunissent. En proposant une solution open-source construite sur un logiciel médical déjà adopté mondialement, les auteurs abaissent significativement ce seuil d'entrée et facilitent le prototypage rapide. L'extension est conçue pour s'adapter à diverses configurations matérielles, ce qui la rend potentiellement compatible avec différents fabricants de bras robotiques. Les prochaines étapes naturelles concerneront la validation clinique à grande échelle et l'intégration dans des workflows hospitaliers certifiés.

UELes laboratoires de neurosciences et cliniques européens pratiquant la TMS pourraient adopter cet outil open-source pour standardiser et améliorer la précision de leurs protocoles, sans coût de développement logiciel propriétaire.

RobotiqueActu
1 source
MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents
70VentureBeat AI 

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Xiaomi a mis en ligne le 27 avril 2026 deux nouveaux modèles de langage open source, MiMo-V2.5 et MiMo-V2.5-Pro, publiés sous licence MIT et téléchargeables directement depuis Hugging Face. Le premier est un modèle multimodal généraliste, tandis que le second est conçu spécifiquement pour les tâches agentiques complexes. Selon les benchmarks internes de Xiaomi, MiMo-V2.5-Pro atteint un taux de réussite de 63,8 % sur le ClawEval, l'évaluation standard pour les agents autonomes de type "claw" comme OpenClaw, NanoClaw ou Hermes Agent, tout en ne consommant qu'environ 70 000 tokens par trajectoire. Ce chiffre représente 40 à 60 % de tokens en moins par rapport à Claude Opus 4.6 d'Anthropic, Gemini 3.1 Pro de Google et GPT-5.4 d'OpenAI pour des résultats comparables. L'architecture repose sur 310 milliards de paramètres et intègre une fenêtre de contexte native d'un million de tokens, avec un score de 1 581 sur le benchmark GDPVal-AA (Elo), devançant des concurrents comme Kimi K2.6 et GLM 5.1. L'efficacité en tokens n'est pas qu'une métrique abstraite : dans un secteur où des services comme GitHub Copilot de Microsoft basculent vers une facturation à l'usage, chaque token économisé se traduit directement en dollars pour les entreprises et les développeurs indépendants qui déploient des agents en production. MiMo-V2.5-Pro peut piloter des systèmes agentiques capables de créer du contenu marketing, gérer des emails, organiser des agendas ou gérer des comptes en autonomie, le tout via des applications de messagerie tierces. Que le modèle soit exécuté localement ou sur un cloud privé virtuel, la licence MIT permet une intégration commerciale sans restriction, ce qui le place directement en concurrence avec les modèles propriétaires de Google et OpenAI sur le segment entreprise. Pour étayer ses affirmations, Xiaomi a publié plusieurs démonstrations en conditions réelles : MiMo-V2.5-Pro a implémenté un compilateur complet en Rust, incluant lexer, parser et backend RISC-V, en 4,3 heures via 672 appels d'outils, obtenant un score parfait de 233 sur 233 sur des suites de tests cachés, une tâche qui prend habituellement plusieurs semaines à un étudiant en informatique. Il a également produit un éditeur vidéo de bureau de 8 192 lignes en 11,5 heures et 1 868 appels d'outils, puis optimisé un régulateur analogique en technologie TSMC 180 nm, améliorant la régulation de ligne d'un facteur 22 par rapport à sa tentative initiale. Ces résultats illustrent ce que Xiaomi appelle la "harness awareness" du modèle, sa capacité à gérer activement sa propre mémoire pour maintenir la cohérence sur des milliers d'appels séquentiels. Cette publication s'inscrit dans la stratégie agressive de Xiaomi pour s'imposer dans l'IA, un secteur où la firme, surtout connue pour ses smartphones et véhicules électriques, entend désormais rivaliser directement avec les grands laboratoires américains.

UELa licence MIT et la disponibilité sur HuggingFace permettent aux entreprises et développeurs européens d'intégrer ces modèles en production sans restriction, réduisant potentiellement les coûts liés à la facturation à l'usage des services d'agents IA.

LLMsActu
1 source
OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel
71MarkTechPost 

OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel

L'équipe OpenMOSS, en collaboration avec MOSI.AI et le Shanghai Innovation Institute, a publié MOSS-Audio, un modèle de fondation open source conçu pour unifier dans un seul système toutes les tâches de compréhension audio. Disponible en quatre variantes, MOSS-Audio-4B-Instruct, 4B-Thinking, 8B-Instruct et 8B-Thinking, il repose sur les modèles de langage Qwen3-4B et Qwen3-8B, atteignant respectivement environ 4,6 et 8,6 milliards de paramètres. Le modèle est capable de transcrire de la parole avec alignement temporel au niveau du mot, d'identifier les caractéristiques d'un locuteur, d'analyser ses émotions, de détecter des événements acoustiques, d'interpréter des sons d'ambiance, d'analyser des contenus musicaux et de répondre à des questions précisément ancrées dans le temps, du type "qu'a dit l'intervenant à la deuxième minute". Les variantes Instruct sont optimisées pour des sorties structurées en production, tandis que les variantes Thinking sont conçues pour le raisonnement en plusieurs étapes, grâce à un entraînement par chaîne de pensée et par apprentissage par renforcement. Jusqu'ici, accomplir l'ensemble de ces tâches nécessitait d'assembler plusieurs systèmes spécialisés distincts, chacun dédié à une modalité précise. MOSS-Audio supprime ce besoin d'orchestration en offrant un seul modèle polyvalent utilisable sans commutation. Pour les développeurs et les entreprises qui traitent des flux audio complexes, des réunions enregistrées ou des podcasts, cela représente un gain d'infrastructure significatif. Les capacités de raisonnement temporel, c'est-à-dire la possibilité de répondre à des questions référencées dans le temps sur un enregistrement, ouvrent aussi des cas d'usage qui n'étaient pas accessibles avec des architectures séparées, notamment l'analyse automatisée de contenus longs. L'architecture de MOSS-Audio repose sur trois composants : un encodeur audio, un adaptateur de modalité et un grand modèle de langage. L'encodeur, entraîné de zéro plutôt qu'emprunté à une solution existante, produit des représentations temporelles continues à 12,5 Hz. Une innovation clé baptisée DeepStack permet d'injecter des caractéristiques issues des couches intermédiaires de l'encodeur directement dans le modèle de langage, en plus de la couche finale, ce qui préserve les informations acoustiques de bas niveau comme la prosodie ou les événements transitoires. Le modèle s'inscrit dans une dynamique d'open source audio qui s'accélère depuis 2024, portée par des acteurs chinois cherchant à combler l'écart avec les laboratoires occidentaux dans le domaine du traitement multimodal. Le code source est disponible sur GitHub sous licence publique.

LLMsActu
1 source
Black Sesame Technologies rejoint l'écosystème open source HaloOS de Li Auto
72Pandaily 

Black Sesame Technologies rejoint l'écosystème open source HaloOS de Li Auto

Black Sesame Technologies a officiellement rejoint l'écosystème open source HaloOS de Li Auto, le constructeur automobile chinois. Ce partenariat prévoit une collaboration étroite sur le co-développement en open source, avec une adaptation approfondie et une optimisation des performances de HaloOS sur l'ensemble des plateformes de puces de Black Sesame, notamment les familles Huashan et Wudang. Ces composants couvrent un large spectre d'applications : systèmes d'aide à la conduite avancés (ADAS), cockpits intelligents et intégration multi-domaines. Concrètement, les cartes de développement intégrées à l'écosystème HaloOS adopteront les plateformes de puces de Black Sesame, qui ouvrira également son code source sur l'ensemble de sa gamme. HaloOS est le système d'exploitation embarqué développé en interne par Li Auto, conçu spécifiquement pour les véhicules intelligents pilotés par l'IA. Il repose sur quatre piliers : le contrôle du véhicule, la conduite autonome, le middleware de communication et la sécurité informatique. Ce rapprochement avec Black Sesame renforce la capacité de Li Auto à proposer une plateforme logicielle indépendante des fournisseurs de puces, accélérant ainsi la maturité industrielle de HaloOS. Pour les constructeurs et équipementiers qui souhaitent adopter cet OS, l'élargissement de la compatibilité matérielle représente un argument décisif. Le développement de HaloOS a débuté en 2021, mobilisant 200 ingénieurs et un investissement d'un milliard de yuans, soit environ 138 millions de dollars. Li Xiang, fondateur et PDG de Li Auto, a positionné les systèmes d'exploitation automobiles comme la plateforme centrale de la prochaine phase d'intelligence embarquée et comme le socle des futurs agents IA avancés. Dans un secteur où Tesla, Huawei et d'autres géants technologiques se disputent la maîtrise du logiciel embarqué, Li Auto mise sur l'open source pour fédérer un écosystème de partenaires et accélérer l'adoption de HaloOS au-delà de sa propre gamme de véhicules. Black Sesame, acteur montant des semi-conducteurs automobiles, trouve dans ce partenariat un levier pour imposer ses puces comme référence dans l'industrie automobile chinoise.

RobotiqueActu
1 source
GitNexus : un moteur de graphe de connaissances open source compatible MCP qui donne à Claude Code et Cursor une vision structurelle complète du code
73MarkTechPost 

GitNexus : un moteur de graphe de connaissances open source compatible MCP qui donne à Claude Code et Cursor une vision structurelle complète du code

Un étudiant en informatique indien a publié GitNexus, un moteur open source de graphe de connaissances conçu pour donner aux agents de codage IA une vision structurelle complète d'un dépôt de code. Le projet compte déjà plus de 28 000 étoiles et 3 000 forks sur GitHub, avec 45 contributeurs actifs. Son fonctionnement repose sur une commande unique, npx gitnexus analyze, qui lance un pipeline d'indexation en plusieurs phases : parcours de l'arborescence de fichiers, extraction de chaque fonction, classe, méthode et interface via des arbres syntaxiques Tree-sitter, puis résolution croisée des imports et des appels entre fichiers. Le résultat est un graphe complet des dépendances, stocké localement dans LadybugDB, une base de données graphe embarquée avec support vectoriel natif. Ce graphe est ensuite exposé aux agents IA via un serveur MCP (Model Context Protocol), permettant des recherches hybrides combinant BM25, embeddings sémantiques et RRF. L'option --skills génère en plus des fichiers SKILL.md ciblés pour chaque zone fonctionnelle détectée dans le code, déposés sous .claude/skills/generated/. Le problème que GitNexus cherche à résoudre est bien réel et coûteux : les agents IA comme Claude Code, Cursor ou Windsurf opèrent aujourd'hui essentiellement à l'aveugle. Ils lisent les fichiers proches du contexte ouvert et espèrent ne rien manquer. Résultat classique : un agent modifie le type de retour d'une fonction sans savoir que 47 autres fonctions en dépendent, les tests explosent, et le développeur passe deux heures à démêler ce que l'outil aurait dû savoir avant d'agir. GitNexus pré-calcule la structure complète des dépendances à l'indexation, de sorte que quand un agent interroge "qu'est-ce qui dépend de cette fonction ?", il obtient une réponse complète en une seule requête, sans enchaîner dix appels successifs à risque. Le tout tourne entièrement en local, sans qu'une seule ligne de code quitte la machine. La publication de GitNexus s'inscrit dans une dynamique plus large autour du Model Context Protocol, le standard lancé par Anthropic fin 2024 pour unifier la façon dont les agents IA accèdent à des sources de contexte externes. L'écosystème MCP s'est développé rapidement, mais la plupart des serveurs existants exposent des documents ou des APIs, pas la structure interne d'une base de code. GitNexus comble ce vide spécifique en s'appuyant sur Tree-sitter, le parseur incrémental développé à l'origine par GitHub, et sur la détection de communautés de Leiden pour regrouper les symboles par zones fonctionnelles cohérentes. La prochaine étape logique pour ce type d'outil est l'intégration dans les IDE et les pipelines CI, où une connaissance structurelle précise du code pourrait non seulement guider les agents en temps réel, mais aussi prévenir automatiquement les régressions avant qu'elles ne soient committées.

💬 C'est exactement le problème que je vis en ce moment avec Claude Code : l'agent touche une fonction, casse 5 trucs en aval, et toi tu passes l'heure suivante à réparer ce que l'outil aurait dû anticiper. GitNexus s'attaque à ça à la source, en pré-calculant tout le graphe de dépendances avant que l'agent commence à bricoler, et le tout tourne en local sans qu'une seule ligne de code parte ailleurs. 28 000 étoiles en quelques semaines, c'est pas du hasard.

OutilsOutil
1 source
Photon lance Spectrum, framework TypeScript open source pour déployer des agents IA sur iMessage, WhatsApp et Telegram
74MarkTechPost 

Photon lance Spectrum, framework TypeScript open source pour déployer des agents IA sur iMessage, WhatsApp et Telegram

Photon, une société d'infrastructure spécialisée dans l'exécution d'agents IA à faible latence, a lancé Spectrum, un SDK open-source en TypeScript et une plateforme cloud qui permettent de déployer des agents IA directement sur iMessage, WhatsApp, Telegram, Slack, Discord, Instagram et d'autres messageries grand public. Disponible sous licence MIT via npm install spectrum-ts, le framework offre une interface de programmation unifiée : les développeurs écrivent la logique de leur agent une seule fois, et Spectrum gère la livraison sur chaque plateforme. Pour étendre un agent d'iMessage à WhatsApp, il suffit d'ajouter une entrée dans le tableau providers. L'infrastructure repose sur un réseau edge-first qui affiche une latence de bout en bout mesurée entre 150 et 250 millisecondes, contre 500 ms à 1,5 seconde pour la moyenne du secteur CPaaS, avec un engagement de disponibilité de 99,9 %. Le SDK inclut un rendu adaptatif qui ajuste automatiquement la mise en forme aux contraintes natives de chaque plateforme, permettant par exemple d'envoyer un sondage structuré dans l'application Messages d'Apple sans tomber sur un rendu en texte brut. Ce lancement s'attaque à l'un des problèmes les plus persistants du secteur : la distribution des agents IA. Malgré des capacités de raisonnement remarquables, la grande majorité des agents restent cantonnés à des interfaces développeurs ou des applications spécialisées que le grand public n'installe jamais. En permettant de déployer un agent directement dans les messageries que des milliards de personnes utilisent quotidiennement, Spectrum supprime la friction d'adoption qui freine concrètement l'usage. Pour les équipes produit, cela signifie qu'un assistant IA peut apparaître dans la liste de contacts d'un utilisateur comme n'importe quel autre interlocuteur, sans téléchargement ni inscription. La précision des types pour les messages entrants et sortants réduit également une catégorie entière d'erreurs de production fréquentes dans les déploiements d'agents. Le problème de distribution que Spectrum cherche à résoudre est structurel : l'essor des LLM a largement devancé les mécanismes pour les rendre accessibles au-delà des communautés techniques. Les CPaaS existants comme Twilio ont historiquement ciblé la messagerie transactionnelle, pas les workloads conversationnels à haute fréquence des agents IA. Photon se positionne donc sur un segment encore peu occupé, à l'intersection de l'infrastructure de messagerie et de l'orchestration d'agents. Le SDK expose également une API definePlatform pour créer des connecteurs vers des plateformes non standard, ce qui élargit le périmètre potentiel bien au-delà des intégrations actuelles. Le support de Python, Go, Rust et Swift est annoncé dans la feuille de route, ce qui laisse anticiper une adoption rapide au-delà de l'écosystème TypeScript. La vraie question reste de savoir si la promesse de latence et de fiabilité tient à l'échelle, une fois que des équipes de production commenceront à s'y appuyer sérieusement.

UELe SDK facilite le déploiement d'agents IA sur WhatsApp et Telegram, très utilisés en France et dans l'UE, ce qui pourrait réduire la friction d'adoption pour les développeurs européens souhaitant toucher le grand public.

OutilsOutil
1 source
OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex
75MarkTechPost 

OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex

OpenAI a publié en open source Euphony, un outil de visualisation fonctionnant directement dans le navigateur, conçu pour transformer des données de conversation structurées en vues interactives lisibles. L'outil prend en charge deux formats propriétaires d'OpenAI : les conversations au format Harmony et les fichiers de session Codex au format JSONL. Euphony peut ingérer ces données de trois manières : en collant du JSON directement depuis le presse-papiers, en chargeant un fichier local, ou en pointant vers une URL publique, y compris des datasets hébergés sur Hugging Face. Une fois les données chargées, l'outil détecte automatiquement le format et rend une timeline de conversation navigable, avec un panneau d'inspection des métadonnées, un mode grille pour parcourir rapidement de grands datasets, un mode édition pour modifier le contenu JSONL dans le navigateur, et un filtrage basé sur JMESPath pour interroger les structures JSON complexes. Ce problème est concret pour quiconque travaille avec des agents IA multi-étapes : un agent Codex qui lit des fichiers, appelle des API, génère du code et révise ses propres sorties peut produire des centaines de lignes de JSON brut, où tokens bruts, chaînes décodées et métadonnées structurées s'entremêlent. Sans outillage dédié, retracer ce que le modèle faisait à chaque étape revient à reconstituer un puzzle sans image de référence. Euphony répond directement à ce besoin en rendant exploitable une richesse de données qui jusqu'ici restait enfouie dans des fichiers difficilement lisibles à l'œil nu. Pour les équipes d'évaluation et de fine-tuning, la possibilité d'inspecter des champs de métadonnées par conversation, scores, sources, labels, directement dans l'interface représente un gain de productivité significatif. Le contexte technique éclaire pourquoi cet outil était nécessaire. Le format Harmony, utilisé pour entraîner la série de modèles open-weight gpt-oss d'OpenAI, est structurellement plus riche qu'un format de chat standard : il supporte des sorties multi-canaux (raisonnement, appels d'outils, réponses normales dans une même conversation), des hiérarchies d'instructions basées sur les rôles (system, developer, user, assistant) et des namespaces d'outils nommés. Cette richesse est précieuse pour l'entraînement et l'évaluation, mais elle rend l'inspection manuelle particulièrement pénible. Euphony est disponible en deux modes : un mode purement frontend sans dépendance serveur, activé via la variable d'environnement VITEEUPHONYFRONTEND_ONLY=true, et un mode assisté par un serveur FastAPI local qui gère le chargement de datasets volumineux et le rendu Harmony côté backend. L'outil est également conçu pour être intégré comme composant web dans d'autres applications, ce qui ouvre la voie à une adoption dans des pipelines d'évaluation ou des interfaces internes d'équipes IA.

OutilsOutil
1 source
76Next INpact 

☕️ Mozilla drague les entreprises avec un client IA open source, Thunderbolt

MZLA, la filiale de Mozilla qui développe le client de messagerie Thunderbird depuis 2020, a annoncé le lancement de Thunderbolt, un client d'intelligence artificielle open source destiné aux entreprises. Disponible dès maintenant sur GitHub, Thunderbolt est conçu pour s'intégrer avec le framework open source Haystack et proposera des applications natives sur macOS, Windows, Linux, iOS et Android. Il se positionne comme un « client d'IA souverain » permettant le chat, la recherche, l'automatisation et les flux de travail multi-appareils via une interface auto-hébergée et extensible. L'outil est agnostique en matière de modèle de langage : il supporte Claude d'Anthropic, GPT d'OpenAI, Mistral et OpenRouter, via les protocoles MCP et ACP. MZLA précise toutefois qu'aucun point d'accès public pour l'inférence n'est encore fourni, et recommande l'usage d'Ollama ou llama.cpp pour une inférence locale gratuite. Thunderbolt répond à une demande croissante des équipes techniques en entreprise : disposer d'une interface unifiée pour accéder à leurs infrastructures IA internes, qu'elles soient hébergées localement ou chez un fournisseur cloud, sans dépendre d'un outil propriétaire. L'architecture pensée « local first » et la compatibilité avec les principaux fournisseurs de modèles en font une alternative crédible aux interfaces propriétaires comme Claude.ai ou ChatGPT Enterprise, avec l'avantage du contrôle total des données et de la personnalisation. Pour les DSI et les équipes soucieuses de souveraineté numérique, c'est un argument de poids. Mozilla s'inscrit ainsi dans une stratégie plus large de repositionnement autour de l'IA, après avoir déjà misé sur la transparence et l'ouverture avec des initiatives comme Mozilla.ai. En confiant ce projet à MZLA plutôt qu'à la fondation, l'organisation cherche à adresser directement le marché professionnel tout en restant fidèle à ses valeurs open source. Thunderbolt arrive dans un écosystème déjà animé par des outils comme Open WebUI ou AnythingLLM, mais bénéficie de la légitimité et de la communauté de développeurs que Mozilla a construites autour de Thunderbird depuis plus de vingt ans.

UEThunderbolt, avec son architecture 'local first' et son support de Mistral, répond directement aux enjeux de souveraineté numérique des DSI européens soumis au RGPD.

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard
77MarkTechPost 

OpenMythos : reconstruction open source de Claude Mythos en PyTorch, 770M paramètres équivalant à 1,3 milliard

Un développeur indépendant nommé Kye Gomez a publié sur GitHub un projet open-source appelé OpenMythos, une reconstruction théorique de l'architecture supposée de Claude Mythos d'Anthropic, écrite entièrement en PyTorch. Anthropic n'ayant jamais publié de documentation technique sur Mythos, Gomez a travaillé à partir de la littérature académique existante pour formuler une hypothèse concrète et vérifiable. Le projet n'est ni un modèle fuité, ni un fine-tune, ni une distillation, c'est une conjecture rendue exécutable. L'architecture proposée repose sur ce que la recherche appelle les Recurrent-Depth Transformers (RDT), également appelés Looped Transformers. Contrairement à un transformer classique comme LLaMA ou GPT, où chaque couche possède ses propres poids indépendants, un RDT applique le même bloc de poids de façon itérative, jusqu'à T=16 fois par passe. OpenMythos structure cela en trois parties : un Prélude, un Bloc Récurrent et une Coda. Le Bloc Récurrent intègre une couche Mixture-of-Experts inspirée de DeepSeekMoE, avec sélection dynamique d'experts à chaque itération, ainsi que le mécanisme Multi-Latent Attention de DeepSeek-V2, qui compresse les tenseurs KV et réduit la mémoire nécessaire d'un facteur 10 à 20. Résultat : 770 millions de paramètres qui, selon l'auteur, rivalisent avec un transformer standard de 1,3 milliard. Ce qui distingue fondamentalement cette architecture est que le raisonnement se déroule entièrement dans un espace latent continu, sans émission de tokens intermédiaires entre les étapes de boucle. Des travaux académiques récents, notamment Saunshi et al. (2025) et le projet COCONUT (2024), montrent formellement que chaque itération d'un RDT équivaut fonctionnellement à une étape de chain-of-thought, mais dans l'espace des vecteurs réels plutôt que des tokens discrets. Cette distinction est capitale : le modèle peut encoder plusieurs alternatives en parallèle à chaque passe, là où le chain-of-thought classique force un chemin unique et séquentiel. En pratique, cela permettrait d'obtenir des capacités de raisonnement profondes avec nettement moins de paramètres stockés, la profondeur étant une fonction du nombre d'itérations à l'inférence, et non de la taille du modèle. OpenMythos s'inscrit dans une tendance croissante de reverse engineering public des grands modèles propriétaires. Anthropic, comme OpenAI, publie peu sur ses choix architecturaux, ce qui pousse la communauté à reconstruire ces systèmes par inférence à partir des brevets, des papiers cités et des comportements observés. Les RDT ne sont pas nouveaux, des travaux de Universal Transformers (Dehghani et al., 2018) aux recherches récentes sur les looped networks, mais leur application à l'échelle des modèles commerciaux reste peu documentée. Si l'hypothèse de Gomez s'avère correcte ou même partiellement juste, elle aurait des implications importantes sur la façon dont l'industrie envisage le rapport entre taille de modèle et capacité de raisonnement, ouvrant potentiellement la voie à des architectures plus efficaces accessibles à des acteurs disposant de moins de ressources computationnelles.

RecherchePaper
1 source
78The Decoder 

Le mythe Claude Mythos s'effondre : de petits modèles open source détectent les mêmes failles de cybersécurité

Anthropic présente depuis plusieurs mois Claude Mythos comme un modèle de cybersécurité aux capacités uniques, affirmant qu'aucun concurrent ne peut égaler ses performances dans la détection et l'analyse de vulnérabilités logicielles. Deux nouvelles études indépendantes viennent cependant ébranler cette position : des modèles ouverts de petite taille seraient capables de reproduire la quasi-totalité des analyses de failles que l'entreprise américaine avait mises en avant pour justifier les restrictions d'accès à Mythos. Ces résultats ont une portée directe sur la stratégie de contrôle adoptée par Anthropic. En limitant l'accès à Mythos au nom d'un risque de sécurité nationale, la société justifiait des barrières d'entrée strictes. Si des modèles open source bien moins lourds atteignent des performances comparables, l'argument tombe en partie : les acteurs malveillants n'ont pas besoin d'accéder à Mythos pour mener des recherches offensives sur des vulnérabilités, ce qui affaiblit la logique même du contrôle d'accès. Cette controverse s'inscrit dans un débat plus large sur la manière dont les laboratoires d'IA justifient les restrictions imposées à leurs modèles les plus puissants. Anthropic n'est pas le seul à invoquer des risques de double usage pour limiter la diffusion de certains outils, mais la crédibilité de ces arguments dépend directement de l'écart réel entre modèles propriétaires et alternatives ouvertes. Si cet écart se réduit rapidement, la question de la gouvernance des modèles de cybersécurité devra être posée sur d'autres bases que la seule supériorité technique des acteurs fermés.

UECe débat sur la gouvernance des modèles IA à double usage pourrait remodeler les discussions européennes autour de l'AI Act, notamment sur la pertinence des restrictions d'accès fondées sur la seule supériorité technique des modèles propriétaires.

💬 Le vernis craque vite quand les preuves arrivent. Si des petits modèles open source font le même boulot sur la détection de failles, l'argument "accès restreint pour la sécurité nationale" devient difficile à tenir sérieusement. Ce qui reste à régler, c'est comment on régule vraiment, sans se cacher derrière une supériorité technique qui visiblement ne dure pas.

SécuritéOpinion
1 source
MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2
79MarkTechPost 

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

MiniMax a rendu public les poids de son modèle MiniMax M2.7 sur Hugging Face, officiellement annoncé le 18 mars 2026. Il s'agit du modèle open source le plus performant de l'entreprise à ce jour, construit sur une architecture Mixture-of-Experts (MoE) qui n'active qu'une fraction des paramètres à chaque inférence, rendant le modèle nettement plus rapide et moins coûteux à faire tourner qu'un modèle dense de qualité comparable. M2.7 est conçu autour de trois axes : l'ingénierie logicielle professionnelle, la productivité bureautique avancée, et ce que MiniMax appelle les "Agent Teams", une capacité native de collaboration multi-agents. Sur le benchmark SWE-Pro, qui évalue la maîtrise de plusieurs langages de programmation à travers des tâches d'analyse de logs, débogage, revue de sécurité et workflows machine learning, M2.7 atteint 56,22 %, à égalité avec GPT-5.3-Codex. Il obtient également 57,0 % sur Terminal Bench 2, 39,8 % sur NL2Repo, et 55,6 % sur VIBE-Pro, benchmark de génération de code à l'échelle d'un dépôt, plaçant le modèle au niveau de Claude Opus 4.6 sur des tâches couvrant Web, Android, iOS et simulation. Ce qui distingue M2.7, c'est sa capacité à intervenir sur des systèmes en production réels. Face à une alerte critique, le modèle peut corréler des métriques de monitoring avec des timelines de déploiement, conduire une analyse statistique sur des traces d'échantillonnage, se connecter proactivement à des bases de données pour vérifier la cause racine, identifier des fichiers de migration d'index manquants dans un dépôt, puis appliquer une création d'index non bloquante avant de soumettre une merge request, le tout en moins de trois minutes selon les équipes MiniMax. Ce positionnement dépasse largement la génération de code : il s'agit d'un modèle capable de raisonnement causal de niveau SRE (Site Reliability Engineering), un profil rare parmi les modèles disponibles en open source. Le détail le plus frappant de M2.7 est son architecture d'auto-évolution. Le modèle a été chargé d'optimiser lui-même ses propres performances sur un scaffold interne, sans intervention humaine. Il a conduit plus de 100 itérations autonomes selon une boucle : analyser les trajectoires d'échec, planifier des modifications, toucher au code du scaffold, relancer des évaluations, comparer les résultats, décider de conserver ou annuler les changements. Au fil de ce processus, M2.7 a découvert seul des optimisations efficaces, notamment la recherche systématique de la combinaison optimale de paramètres d'échantillonnage (température, frequency penalty, presence penalty), la conception de guidelines de workflow plus précises, et l'ajout d'une détection de boucles infinies dans l'agent loop. Résultat : une amélioration de 30 % sur les ensembles d'évaluation internes. Au sein des équipes de reinforcement learning de MiniMax, M2.7 gère désormais 30 à 50 % des workflows de bout en bout, les chercheurs humains n'intervenant que pour les décisions critiques, un signal fort que la frontière entre outil et collaborateur est en train de se déplacer.

UELes développeurs et entreprises européens peuvent déployer librement les poids de ce modèle open source pour des tâches d'ingénierie logicielle avancée, réduisant leur dépendance aux API propriétaires.

💬 Un modèle open source qui a passé 100 itérations à modifier son propre scaffold et s'est amélioré de 30 % tout seul, c'est le truc qu'on lisait dans les papiers de recherche il y a 18 mois. Là c'est sorti sur Hugging Face, avec les poids, et des benchmarks qui le placent au niveau de Claude Opus 4.6 sur du code à l'échelle d'un dépôt réel. Reste à voir si ça tient hors du contexte lab, mais pour une fois l'architecture MoE n'est pas juste un argument marketing pour réduire les coûts d'inférence : ça donne un modèle qu'on peut faire tourner sans louer un datacenter.

LLMsActu
1 source
NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch
80MarkTechPost 

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch

NVIDIA a lancé AITune, un outil open source destiné à automatiser l'optimisation des modèles PyTorch pour l'inférence sur GPU. Disponible sous licence Apache 2.0 et installable via PyPI, cet outil s'adresse aux équipes qui déploient des modèles de deep learning en production et qui souhaitent éviter le travail d'ingénierie manuel habituellement requis pour choisir et configurer les backends d'optimisation. AITune prend en charge plusieurs frameworks, TensorRT, Torch-TensorRT, TorchAO et Torch Inductor, et les évalue automatiquement sur le matériel cible pour sélectionner le plus performant, sans que le développeur ait à intervenir. Il couvre une large gamme de cas d'usage : vision par ordinateur, traitement du langage naturel, reconnaissance vocale et IA générative. Le résultat de l'optimisation est sérialisé dans un fichier .ait, compilé une seule fois et rechargeable à chaque redéploiement sans temps de chauffe. L'outil répond à un problème concret qui ralentissait les équipes MLOps depuis des années : le fossé entre le modèle entraîné par un chercheur et le modèle réellement efficace en conditions de production. Jusqu'ici, comparer TensorRT, Torch-TensorRT ou TorchAO nécessitait de les configurer et tester séparément, souvent avec du code sur mesure. AITune effondre ce travail en une seule API Python. Il propose deux modes : un mode AOT (ahead-of-time), qui profile tous les backends, valide la correction des sorties et sélectionne le meilleur pour chaque sous-module du modèle ou de la pipeline, et un mode JIT (just-in-time), qui s'active via une variable d'environnement et optimise les modules à la volée sans modifier le code existant. Le mode AOT est le plus puissant : il détecte les axes dynamiques comme la longueur de séquence dans les LLMs, permet de mélanger différents backends dans une même pipeline, et met en cache les artefacts pour éviter de recompiler à chaque redéploiement. Ce lancement s'inscrit dans un effort plus large de NVIDIA pour simplifier le chemin entre la recherche et la production à mesure que la pression sur les coûts d'inférence s'intensifie. Avec la multiplication des modèles déployés à grande échelle, notamment des LLMs et des modèles de vision, le choix du backend d'optimisation est devenu un levier critique de rentabilité. TensorRT existe depuis plus d'une décennie, mais son intégration dans des pipelines PyTorch complexes restait laborieuse. En proposant une abstraction unifiée et automatisée, NVIDIA positionne AITune comme un outil de référence pour les équipes d'ingénierie ML, potentiellement en concurrence directe avec des solutions propriétaires ou des pipelines maison. La disponibilité en open source sous Apache 2.0 devrait favoriser une adoption rapide, notamment dans les entreprises qui cherchent à optimiser leurs coûts GPU sans investir dans des équipes spécialisées en compilation de modèles.

UELes équipes MLOps européennes peuvent adopter immédiatement cet outil open source via PyPI pour réduire leurs coûts d'inférence GPU en production, sans dépendance à des solutions propriétaires.

OutilsOutil
1 source
OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour
81MarkTechPost 

OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour

Une équipe de chercheurs issue du MIT, de l'UIUC, de CMU, USC, UVA et UC Berkeley a publié OSGym, un nouveau framework d'infrastructure conçu pour entraîner des agents IA capables d'utiliser un ordinateur comme le ferait un humain. Ces agents, appelés "computer use agents", observent une capture d'écran du bureau, décident d'une action (cliquer, taper du texte, ouvrir un fichier) et l'exécutent via clavier et souris. OSGym permet de gérer plus de 1 000 répliques d'environnements OS simultanément, pour un coût d'environ 0,23 dollar par réplique et par jour, contre environ 300 dollars par jour pour 128 répliques avec une approche naïve, soit une réduction de coût d'un facteur proche de 100. L'enjeu est considérable pour la recherche académique, qui ne dispose pas des budgets des grands laboratoires commerciaux. Entraîner un agent à naviguer dans un vrai système d'exploitation nécessite des centaines, voire des milliers d'environnements virtuels tournant en parallèle, chacun avec son propre disque bootable (environ 24 Go), son allocation CPU et RAM, et sa pile graphique. OSGym résout deux problèmes majeurs : le coût prohibitif de ces environnements, et leur instabilité (crashs, sessions qui expirent, applications gelées). En utilisant des conteneurs Docker plutôt que des machines virtuelles complètes, et en optimisant la densité de répliques par serveur, le système exploite un insight clé : au-delà d'un certain seuil, le goulot d'étranglement passe du CPU à la RAM, qui coûte dix à vingt fois moins cher. Chaque réplique dispose par ailleurs de son propre gestionnaire d'état, exposant une API inspirée d'OpenAI Gym (reset, step, shutdown), ce qui évite qu'une panne en cascade paralyse l'ensemble du système. Les agents de type "computer use" constituent l'une des frontières les plus actives de la recherche en IA. Des modèles commerciaux comme Claude Computer Use d'Anthropic ou Operator d'OpenAI ont montré que la direction est prometteuse, tandis que des projets académiques comme UI-TARS, Agent-S2 ou CogAgent repoussent les limites techniques. Mais l'accélération de ces travaux bute depuis longtemps sur un mur infrastucturel : générer suffisamment de données d'interaction réelles dans des environnements OS complets est trop coûteux pour la plupart des équipes universitaires. OSGym s'attaque directement à ce verrou en proposant une infrastructure open source et économiquement viable. Si le framework tient ses promesses à grande échelle, il pourrait démocratiser significativement la recherche sur les agents autonomes et accélérer le développement de systèmes capables d'exécuter des tâches complexes sur ordinateur sans intervention humaine.

UELes équipes de recherche académiques européennes pourraient bénéficier directement de cette infrastructure open source pour mener des travaux sur les agents autonomes sans les budgets des grands laboratoires commerciaux.

RecherchePaper
1 source
RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch
82MarkTechPost 

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch

RightNow AI a publié AutoKernel, un framework open-source qui automatise l'optimisation des kernels GPU pour n'importe quel modèle PyTorch. Le principe est simple : soumettre un modèle avant de dormir et retrouver au matin des kernels Triton plus rapides, sans avoir à maîtriser la programmation GPU de bas niveau. Le système repose sur une boucle agentique autonome : un agent LLM modifie un fichier kernel.py, un banc de test vérifie la correction puis mesure le débit, et le résultat détermine si la modification est conservée ou annulée via un git reset. Chaque itération dure environ 90 secondes, ce qui permet de réaliser 300 à 400 expériences lors d'une session de 10 heures. L'agent suit un manuel d'optimisation en six niveaux encodé dans un document de 909 lignes, couvrant le réglage des tailles de blocs, les patterns d'accès mémoire, les optimisations de calcul comme TF32, les techniques avancées comme split-K, et les stratégies spécifiques aux architectures Hopper et Ampere de NVIDIA. L'enjeu est considérable pour l'industrie du machine learning. Optimiser un kernel GPU de haute performance exige de raisonner simultanément sur l'intensité arithmétique, la coalescence mémoire, la pression sur les registres, la synchronisation au niveau warp et la sélection des instructions tensor core, un ensemble de compétences qui prend des années à acquérir. Un seul kernel de multiplication matricielle performant peut représenter plus de 200 lignes de code CUDA ou Triton avec des dizaines de paramètres interdépendants. La suite de benchmarks KernelBench, qui évalue les grands modèles de langage sur 250 problèmes de kernels GPU, a montré que même les meilleurs modèles n'égalaient la baseline PyTorch que dans moins de 20 % des cas en génération directe. AutoKernel répond précisément à ce déficit en rendant cette expertise accessible sans spécialiste humain, ce qui pourrait accélérer significativement le développement et le déploiement de modèles d'IA. L'approche s'inspire directement du projet autoresearch d'Andrej Karpathy, dans lequel une boucle keep/revert appliquée à du code d'entraînement LLM avait permis de découvrir 20 optimisations en 700 expériences sur deux jours avec un seul GPU. AutoKernel transpose cette logique à l'espace des kernels, en substituant la loss de validation par un benchmark de correction et de débit comme fonction d'évaluation. La traçabilité est assurée par git, les résultats étant stockés dans un fichier TSV lisible directement par l'agent. Ce type de framework illustre une tendance plus large où les tâches d'ingénierie hautement spécialisées deviennent des cibles pour l'automatisation agentique, réduisant la dépendance aux rares experts en optimisation GPU à mesure que les architectures de modèles continuent d'évoluer.

💬 L'idée de laisser tourner une boucle agentique toute la nuit pour sortir des kernels Triton optimisés au matin, c'est exactement ce qu'on attendait depuis qu'on a vu Karpathy faire la même chose sur du code d'entraînement. La partie vraiment bien foutue, c'est le mécanisme d'évaluation : un benchmark de correction avant tout, et le git reset si ça régresse, ce qui évite de passer des heures à débugger des "optimisations" qui cassent tout. Pour les équipes sans expert CUDA dans les jambes, c'est une vraie bouffée d'air.

OutilsOutil
1 source
AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents
83MarkTechPost 

AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents

Kevin Gu, ingénieur chez thirdlayer.inc, a publié AutoAgent, une bibliothèque open source qui automatise l'optimisation des agents IA. En l'espace de 24 heures d'exécution autonome, le système a atteint la première place sur SpreadsheetBench avec un score de 96,5 %, et la meilleure performance GPT-5 sur TerminalBench avec 55,1 %. Le projet est disponible sur GitHub avec une architecture délibérément minimaliste : un fichier agent.py qui contient l'intégralité du harness sous test, un fichier program.md que l'humain édite pour donner la directive, et un journal d'expériences results.tsv maintenu automatiquement par le méta-agent pour tracer l'historique de chaque run. Le principe est simple mais radical : là où un ingénieur IA passe des journées à ajuster manuellement les prompts système, les définitions d'outils et la logique d'orchestration de son agent, AutoAgent confie cette boucle d'itération à un second agent, le méta-agent, qui lit la directive, inspecte agent.py, exécute le benchmark, analyse les échecs, réécrit les parties pertinentes et recommence. L'humain ne touche jamais agent.py directement. Ce ratchet loop, proposer une modification, mesurer le score, conserver si meilleur, rejeter sinon, est directement inspiré du projet autoresearch d'Andrej Karpathy, qui applique la même logique à l'entraînement de modèles ML. AutoAgent transpose ce mécanisme au niveau du harness : le prompt système, les outils disponibles, le routage entre sous-agents et la stratégie d'orchestration. Concrètement, toute équipe qui développe des agents complexes pourrait déléguer la phase d'optimisation la plus fastidieuse à un processus nocturne entièrement automatisé, réduisant drastiquement le temps humain consacré au réglage fin. Cette publication s'inscrit dans une tendance plus large d'automatisation de l'ingénierie IA elle-même, souvent désignée sous le terme "méta-apprentissage" ou "self-improvement". Depuis que les LLMs ont démontré leur capacité à écrire et modifier du code de manière fiable, plusieurs laboratoires et chercheurs indépendants explorent des architectures où un modèle supervise l'amélioration d'un autre, ou de lui-même. AutoAgent se distingue par sa portée pratique immédiate : il ne requiert pas d'infrastructure exotique, s'appuie sur le format Harbor pour exprimer les benchmarks, et peut être adapté à n'importe quel domaine via les dossiers tasks/ et .agent/. Les résultats sur TerminalBench et SpreadsheetBench, deux benchmarks reconnus dans la communauté, donnent une crédibilité concrète à l'approche. La question ouverte reste celle du contrôle : lorsqu'un méta-agent réécrit librement la logique d'orchestration d'un système en production, les garanties de sécurité et de prévisibilité du comportement final deviennent un enjeu non trivial que la bibliothèque n'adresse pas encore explicitement.

💬 C'est exactement la boucle que tout dev d'agents rêve d'automatiser, et là quelqu'un l'a fait en un seul fichier. Le score sur SpreadsheetBench est bluffant, bon, reste à voir ce que ça donne sur des tâches moins balisées qu'un benchmark. La vraie question, c'est quand le méta-agent commence à réécrire l'orchestration en prod sans que tu comprennes pourquoi ça marche.

OutilsOutil
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
84MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils
85MarkTechPost 

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Arcee AI a publié Trinity Large Thinking, un modèle de raisonnement en open-weight distribué sous licence Apache 2.0. Architecturalement, il s'agit d'un modèle Mixture-of-Experts (MoE) sparse totalisant 400 milliards de paramètres, mais qui n'en active que 13 milliards par token grâce à une stratégie de routage 4-sur-256. Cette conception permet d'atteindre la densité de connaissance d'un modèle massif tout en conservant des latences comparables à des architectures bien plus légères. Le modèle a été pré-entraîné sur 17 000 milliards de tokens avec l'optimiseur Muon, plus efficace que l'AdamW standard, et intègre un mécanisme d'attention hybride local/global avec attention gating pour mieux gérer les longs contextes. Il supporte une fenêtre de contexte de 262 144 tokens sur OpenRouter. Sur le benchmark PinchBench, dédié aux agents autonomes, Trinity Large Thinking occupe actuellement la deuxième place, derrière Claude Opus 4.6. Ce lancement est significatif pour les développeurs qui construisent des agents IA autonomes : Trinity Large Thinking est conçu spécifiquement pour les tâches longues et complexes, les appels d'outils multi-tours et le suivi d'instructions précises sur des workflows étendus. Contrairement aux modèles de chat généralistes, il intègre une phase de "réflexion" interne avant chaque réponse, ce qui lui permet de planifier des tâches en plusieurs étapes et de vérifier sa logique avant de générer une sortie. Cette combinaison de raisonnement structuré, de fiabilité multi-tours et de fenêtre de contexte étendue répond directement aux exigences des environnements d'automatisation logicielle, où les erreurs cumulatives sur de longues séquences d'actions sont le principal point de défaillance. L'émergence de ce modèle s'inscrit dans une tendance de fond : le déplacement du centre de gravité de l'IA générative vers des systèmes capables de raisonnement multi-étapes, jusqu'ici dominé par des acteurs propriétaires comme OpenAI avec o3 ou Anthropic avec Claude. Arcee AI, spécialisé dans les LLM d'entreprise et les modèles compacts à haute performance, propose ici une alternative ouverte et auditables pour les organisations qui ne peuvent ou ne souhaitent pas dépendre d'API fermées. Deux innovations techniques internes méritent attention : SMEBU (Soft-clamped Momentum Expert Bias Updates), une stratégie d'équilibrage de charge qui prévient l'effondrement des experts dans les architectures MoE, et l'utilisation du Muon optimizer pour améliorer l'efficacité d'entraînement. La suite logique sera de voir si la communauté open-source s'empare du modèle pour des déploiements auto-hébergés, et si Arcee maintient ce niveau de performance dans des évaluations tierces indépendantes au-delà de PinchBench.

UELa licence Apache 2.0 permet aux organisations européennes de déployer un modèle de raisonnement compétitif en auto-hébergement, réduisant leur dépendance aux API fermées américaines et s'alignant sur les objectifs de souveraineté numérique européenne.

LLMsOpinion
1 source
Open source : comment l'IA est soudainement devenue bien plus utile pour les développeurs
86ZDNET FR 

Open source : comment l'IA est soudainement devenue bien plus utile pour les développeurs

L'intelligence artificielle s'impose progressivement comme un outil de maintenance pour les projets open source, y compris ceux qui manquent de contributeurs actifs depuis des années. Des développeurs rapportent que des assistants comme GitHub Copilot ou des modèles accessibles via API permettent de documenter automatiquement du code legacy, générer des tests unitaires et corriger des bugs dans des bibliothèques que personne ne touchait plus faute de temps ou d'intérêt. L'impact est concret pour l'écosystème logiciel dans son ensemble : des milliers de projets open source critiques — souvent intégrés dans des chaînes de dépendances industrielles — souffrent d'un manque chronique de mainteneurs. Si l'IA permet de prolonger leur durée de vie et d'améliorer leur sécurité sans mobiliser de nouvelles ressources humaines, cela représente un changement structurel pour des communautés sous-dimensionnées depuis longtemps. Deux risques majeurs tempèrent cependant l'enthousiasme. D'abord, la question juridique : le code généré par IA peut hériter de licences incompatibles avec l'open source si les modèles ont été entraînés sur des sources propriétaires. Ensuite, la qualité : des contributions générées sans revue rigoureuse peuvent introduire des vulnérabilités silencieuses dans des projets déjà fragiles, déplaçant le problème plus qu'ils ne le résolvent.

UELes développeurs et entreprises européens qui maintiennent ou dépendent de projets open source critiques sont directement concernés par les risques juridiques liés aux licences incompatibles, notamment dans le cadre du droit d'auteur européen.

OutilsOutil
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
87MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
OpenAI ajoute des outils open source pour aider les développeurs à protéger les adolescents
88TechCrunch AI 

OpenAI ajoute des outils open source pour aider les développeurs à protéger les adolescents

OpenAI met à disposition des développeurs des outils open source destinés à renforcer la sécurité des adolescents dans les applications IA. Ces ressources permettent aux développeurs de s'appuyer sur des politiques existantes plutôt que de repartir de zéro pour protéger ce public vulnérable.

UECes outils peuvent aider les développeurs européens à se conformer aux exigences de protection des mineurs prévues par le DSA et le règlement IA de l'UE.

SécuritéActu
1 source
NVIDIA fait don d'un pilote d'allocation dynamique de ressources GPU à la communauté Kubernetes pour faire avancer l'IA open source
89NVIDIA AI Blog 

NVIDIA fait don d'un pilote d'allocation dynamique de ressources GPU à la communauté Kubernetes pour faire avancer l'IA open source

NVIDIA a annoncé lors du KubeCon Europe à Amsterdam le don de son pilote Dynamic Resource Allocation (DRA) pour GPU à la Cloud Native Computing Foundation (CNCF), transférant ainsi la gouvernance du logiciel à la communauté Kubernetes. Ce pilote permet un partage intelligent des ressources GPU, supporte les technologies Multi-Instance GPU et Multi-Node NVLink, et facilite l'entraînement de modèles massifs sur les systèmes Grace Blackwell. NVIDIA introduit également le support GPU pour Kata Containers en collaboration avec la communauté CNCF Confidential Containers, renforçant l'isolation et la sécurité des charges de travail IA.

UEAnnoncé à KubeCon Europe à Amsterdam, ce don à la CNCF bénéficie directement aux équipes cloud européennes qui déploient des charges de travail IA sur Kubernetes avec des GPU.

OutilsActu
1 source
90The Decoder 

Cursor a discrètement construit son nouveau modèle de code sur le Kimi K2.5, open source chinois

Cursor a lancé Composer 2, la deuxième génération de son modèle IA dédié au développement logiciel, construit sur le modèle open-source chinois Kimi K2.5. Ce modèle vise à rivaliser avec les meilleurs modèles de code d'Anthropic et OpenAI tout en offrant des coûts nettement inférieurs.

OutilsActu
1 source
91MarkTechPost 

NVIDIA publie Nemotron-Cascade 2 : un MoE open source de 30 milliards de paramètres avec 3 milliards actifs, offrant un meilleur raisonnement et de solides capacités agentiques

NVIDIA lance Nemotron-Cascade 2, un modèle open-weight de type Mixture-of-Experts (MoE) avec 30 milliards de paramètres totaux dont seulement 3B actifs, conçu pour maximiser la densité d'intelligence. Il devient le deuxième LLM open-weight à atteindre le niveau médaille d'or à l'Olympiade Internationale de Mathématiques (IMO) 2025, à l'IOI et aux ICPC World Finals. Le modèle surpasse notamment le Qwen3.5-35B-A3B sur les benchmarks de raisonnement mathématique (AIME 2025 : 92,4 vs 91,9), de code (LiveCodeBench v6 : 87,2 vs 74,6) et d'instruction following (ArenaHard v2 : 83,5 vs 65,4), grâce à une pipeline d'entraînement combinant SFT, Cascade RL et distillation multi-domaine (MOPD).

UEModèle open-weight librement accessible aux développeurs et entreprises européens pour des cas d'usage de raisonnement avancé et d'agents IA.

LLMsActu
1 source
92MarkTechPost 

Google Colab propose un serveur MCP (Model Context Protocol) open source : accédez aux environnements GPU depuis n'importe quel agent IA local

Google a lancé le Colab MCP Server, une implémentation open-source du Model Context Protocol permettant à des agents IA (comme Claude Code ou Gemini CLI) d'interagir directement avec des notebooks Jupyter hébergés dans le cloud, y compris l'exécution de code Python sur des GPU. Le serveur MCP fait office de pont entre la machine locale et l'infrastructure Colab : l'agent sélectionne les outils, provisionne un runtime via l'API Colab, exécute le code et récupère les résultats de manière itérative. Cette intégration marque un passage de l'exécution manuelle à une orchestration autonome, en exposant les fonctions internes de Colab comme outils standardisés appelables par n'importe quel client MCP compatible.

UELes développeurs français et européens utilisant Google Colab peuvent désormais connecter leurs agents IA locaux (Claude Code, etc.) aux environnements GPU cloud via ce serveur MCP open-source, sans impact réglementaire ou économique spécifique à l'UE.

OutilsOutil
1 source
NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes
93MarkTechPost 

NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes

NVIDIA a mis en open source OpenShell, un environnement d'exécution sécurisé conçu pour les agents IA autonomes, publié sous licence Apache 2.0. Il offre un sandboxing au niveau noyau, un moteur de politiques granulaires (contrôle par binaire, endpoint et méthode API) avec journalisation complète, ainsi qu'un routage d'inférence privé pour éviter les fuites de données. OpenShell est agnostique aux frameworks — compatible avec Claude Code, Codex, LangChain et autres — et s'intègre comme une couche de sécurité sans réécriture du code agent.

UEOpenShell peut être adopté par les développeurs et entreprises européens pour sécuriser leurs agents IA autonomes, en répondant aux exigences de traçabilité et de contrôle imposées par l'AI Act européen.

OutilsOutil
1 source
GTC met en avant les PC NVIDIA RTX et DGX Sparks pour faire tourner les derniers modèles open source et agents IA en local
94NVIDIA AI Blog 

GTC met en avant les PC NVIDIA RTX et DGX Sparks pour faire tourner les derniers modèles open source et agents IA en local

Au GTC de NVIDIA, plusieurs nouveaux modèles open source pour agents IA locaux ont été annoncés : Nemotron 3 Nano 4B, Nemotron 3 Super 120B (85,6% sur PinchBench), ainsi que Mistral Small 4 (119 milliards de paramètres). Ces modèles sont optimisés pour tourner localement sur le DGX Spark — superordinateur de bureau avec 128 Go de mémoire unifiée — et les PC RTX, sans dépendance au cloud. NVIDIA présente également NemoClaw, une pile open source pour sécuriser et optimiser les expériences d'agents IA sur ses appareils.

UEMistral Small 4, développé par la startup française Mistral AI, est mis en avant comme modèle phare pour les agents IA locaux sur les appareils NVIDIA, renforçant la visibilité d'un acteur européen face aux géants américains.

LLMsActu
1 source
NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique
95MarkTechPost 

NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique

NVIDIA lance Nemotron 3 Super, un modèle open-source de 120 milliards de paramètres combinant architecture hybride Mamba-Attention et Mixture of Experts (MoE), conçu spécifiquement pour les applications multi-agents complexes. Il offre jusqu'à 7x plus de débit et une précision doublée par rapport à la génération précédente, grâce à cinq innovations clés dont la prédiction multi-tokens, une fenêtre de contexte d'un million de tokens et l'intégration de NeMo RL Gym. Ce modèle se positionne entre le Nemotron 3 Nano (30B paramètres) et l'Ultra (500B), attendu plus tard en 2026.

LLMsOutil
1 source
Nvidia prépare apparemment son propre concurrent open source à OpenClaw
96Ars Technica AI 

Nvidia prépare apparemment son propre concurrent open source à OpenClaw

Nvidia prépare le lancement de NemoClaw, une plateforme open source d'agents IA destinée à concurrencer OpenClaw, selon un rapport de Wired. La société aurait déjà approché plusieurs partenaires corporate — dont Salesforce, Cisco, Google, Adobe et CrowdStrike — avant sa conférence développeurs annuelle. NemoClaw s'attaque directement à OpenClaw, le système d'agents "toujours actifs" dont le créateur Peter Steinberger a été recruté par OpenAI le mois dernier.

OutilsActu
1 source
Nvidia prévoit de lancer une plateforme d'agents IA open source
97Wired AI 

Nvidia prévoit de lancer une plateforme d'agents IA open source

Nvidia prépare une nouvelle plateforme logicielle open source dédiée aux agents IA, similaire à OpenClaw, en amont de sa conférence annuelle des développeurs.

BusinessActu
1 source
Ce projet open source efface la censure des IA en un clic" se traduit déjà en français.
98Numerama 

Ce projet open source efface la censure des IA en un clic" se traduit déjà en français.

Un projet open source nommé Obliteratus, publié sur GitHub en mars 2026, permet de désactiver en un clic les mécanismes de refus des grands modèles de langage. Il utilise l'analyse de la « géométrie du refus » dans les réseaux de neurones pour neutraliser les garde-fous qui empêchent les IA de répondre à certaines requêtes.

UEL'outil Obliteratus menace directement la conformité au règlement européen sur l'IA (AI Act), qui impose aux fournisseurs de modèles comme Mistral de maintenir des garde-fous de sécurité que ce type de projet peut neutraliser.

OutilsOutil
1 source
Nous avons fait appel à Claude pour affiner un LLM open source
99HuggingFace Blog 

Nous avons fait appel à Claude pour affiner un LLM open source

Titre: Nous avons fait appel à Claude pour affiner un grand langage modélisé à source ouverte Résumé: Claude, un système avancé de traitement du langage développé par Anthropic, a été utilisé pour améliorer un modèle de langage open source. Ce processus d'affinage a permis d'augmenter les performances du modèle, notamment dans la compréhension et la génération de texte.

UEClaude d'Anthropic utilisé pour affiner un LLM open source, améliorant potentiellement les capacités des entreprises françaises et européennes en traitement du langage naturel, tout en respectant les exigences du RGPD et de l'AI Act.

LLMsOutil
1 source
LeRobot 0.4.0 : Accélérateur d'apprentissage des robots open source
100HuggingFace Blog 

LeRobot 0.4.0 : Accélérateur d'apprentissage des robots open source

LeRobot v0.4.0, une nouvelle version du logiciel open-source pour l'apprentissage des robots, vise à accélérer et à optimiser le développement de systèmes d'IA robotique grâce à des améliorations significatives, notamment une meilleure intégration avec les frameworks OSS existants et une augmentation des capacités d'apprentissage automatique.

UELa mise à jour de LeRobot v0.4.0, développée par la startup française Hugging Face, renforce la position européenne dans la robotique open-source en offrant aux chercheurs et entreprises du continent un outil compétitif pour développer des systèmes d'IA robotique.

RobotiqueOutil
1 source