Aller au contenu principal

Dossier Open weight & Open source — page 8

649 articles · page 8 sur 13

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

Les 16 meilleurs outils IA génératives pour le code en 2026 : comparatif et cas d'usage
351MarkTechPost OutilsOutil

Les 16 meilleurs outils IA génératives pour le code en 2026 : comparatif et cas d'usage

En 2026, les outils de génération de code alimentés par l'intelligence artificielle ont profondément transformé la manière dont les développeurs construisent des logiciels. Ce qui n'était, il y a quelques années, qu'un simple système d'autocomplétion ligne par ligne est devenu une infrastructure capable de générer des applications entières, des pipelines multi-agents et des interfaces en langage naturel pour des bases de code complexes. Parmi les seize outils recensés cette année, plusieurs se démarquent nettement. Atoms se positionne comme une plateforme qui transforme une description en langage naturel en application déployable complète, avec frontend, backend, base de données, authentification et paiements Stripe intégrés via Atoms Cloud. Son mode Race Mode permet de faire tourner plusieurs modèles ou équipes d'agents en parallèle sur le même prompt pour comparer les résultats. GitHub Copilot, développé par GitHub et OpenAI, reste l'assistant le plus utilisé avec ses suggestions en temps réel dans VS Code, Visual Studio et JetBrains, désormais enrichies de modes agents pour les modifications multi-fichiers. Tabnine mise sur la confidentialité en permettant aux équipes de faire tourner les modèles sur leur propre infrastructure. Replit offre un environnement de développement cloud complet avec déploiement intégré, tandis que Warp modernise le terminal en traduisant le langage naturel en commandes shell exécutables. L'impact de ces outils est concret et immédiat pour les ingénieurs logiciels, les data scientists et les développeurs indépendants. Ils réduisent drastiquement le temps de prototypage, éliminent les tâches répétitives d'infrastructure et abaissent la barrière d'entrée pour lancer des produits numériques. Des plateformes comme Atoms ou Replit permettent aujourd'hui de passer d'une idée à une application fonctionnelle en quelques heures sans configuration locale, ce qui modifie structurellement les coûts de développement et la vitesse de mise sur le marché pour les startups comme pour les grandes entreprises. Hugging Face, de son côté, reste une ressource centrale pour les équipes qui souhaitent s'appuyer sur des modèles open source pour l'autocomplétion, la refactorisation ou l'explication de code, sans dépendre de solutions propriétaires. Ce mouvement s'inscrit dans une évolution rapide du marché depuis l'émergence des grands modèles de langage entraînés sur du code, notamment GPT-4, Gemini et les modèles spécialisés comme StarCoder. La concurrence s'est intensifiée entre solutions propriétaires et open source, entre outils intégrés à l'éditeur et plateformes autonomes de génération d'applications. Les enjeux portent désormais sur la confidentialité des données, la qualité du code produit, l'intégration dans les workflows existants et la capacité à gérer des projets de grande envergure. La prochaine phase d'évolution semble pointer vers des agents capables de gérer l'intégralité du cycle de vie logiciel, de la conception à la maintenance, avec une intervention humaine réduite à la validation.

UEHugging Face, entreprise française, est identifiée comme ressource centrale pour les équipes souhaitant s'appuyer sur des modèles open source sans dépendance aux solutions propriétaires américaines.

1 source
Startup IA Baseten : une levée de 1,5 milliard de dollars en préparation
352Le Big Data 

Startup IA Baseten : une levée de 1,5 milliard de dollars en préparation

Baseten, startup américaine spécialisée dans l'inférence IA et fondée en 2019 à San Francisco par Tuhin Srivastava, Amir Haghighat et Pankaj Gupta, serait sur le point de finaliser une levée de fonds de 1,5 milliard de dollars qui valoriserait l'entreprise à 13 milliards de dollars. L'opération, révélée par le Wall Street Journal, impliquerait un consortium d'investisseurs de premier plan comprenant Spark Capital, Sands Capital, Altimeter Capital et Wellington Management. Ce qui rend cette transaction particulièrement frappante, c'est sa rapidité : en janvier 2026, Baseten bouclait déjà une série E de 300 millions de dollars à 5 milliards de valorisation, elle-même précédée d'une série D de 150 millions quelques mois plus tôt. En moins de six mois, la valorisation de la startup aurait ainsi progressé de 160 %. À noter toutefois que cette nouvelle opération reposerait sur une structure de "valorisation fractionnée" : certains investisseurs se seraient positionnés à 13 milliards, d'autres autour de 11 milliards, une pratique de plus en plus courante dans l'écosystème IA pour attirer des capitaux tout en affichant des chiffres ambitieux. Cette trajectoire fulgurante illustre un basculement structurel dans la chaîne de valeur de l'intelligence artificielle. L'entraînement des grands modèles a longtemps concentré l'essentiel des investissements et de l'attention médiatique, mais c'est désormais l'inférence, c'est-à-dire l'exécution concrète des modèles à chaque requête utilisateur, qui devient le nerf de la guerre économique. À mesure que les entreprises déploient des applications génératives à grande échelle, les coûts d'inférence deviennent un facteur déterminant de rentabilité. Baseten propose d'optimiser cet acheminement en orientant les requêtes vers les modèles les plus adaptés selon le rapport performance-coût, favorisant parfois des alternatives open source face aux modèles propriétaires dominants. Pour les entreprises dont les usages IA se généralisent, cette optimisation peut représenter des économies considérables. Baseten s'inscrit dans un segment d'infrastructure IA en pleine consolidation, aux côtés d'acteurs comme Together AI, Fireworks AI ou Modal, tous en compétition pour capter la demande croissante d'exécution de modèles à moindre coût. La startup avait su se distinguer en attirant des clients entreprises cherchant à maîtriser leurs dépenses opérationnelles liées à l'IA, un positionnement qui prend de la valeur à mesure que la phase d'expérimentation laisse place au déploiement industriel. Si cette levée se concrétise, Baseten disposerait des ressources pour accélérer son développement commercial et renforcer ses capacités techniques à un moment où la demande d'inférence optimisée ne montre aucun signe de ralentissement. La prochaine étape logique pour une startup à cette valorisation serait une introduction en bourse, mais dans un marché aussi volatile, les fondateurs pourraient préférer consolider leur position avant de franchir ce cap.

💬 160% de valorisation en six mois, ça ressemble à de la fièvre, mais le fond est solide : l'inférence est en train de dépasser l'entraînement comme centre de gravité économique de l'IA. Quand tu déploies à grande échelle, c'est là que la facture explose, et les entreprises commencent à vraiment le sentir passer. La "valorisation fractionnée" à 11 ou 13 milliards selon les investisseurs, c'est un détail qui dit beaucoup sur comment ces deals se fabriquent.

BusinessOpinion
1 source
Un concurrent d'OpenClaw fait son apparition
353The Information AI 

Un concurrent d'OpenClaw fait son apparition

Hermes, l'outil d'agent IA développé par Nous Research, vient de dépasser OpenClaw sur un indicateur clé : le nombre de nouveaux contributeurs GitHub au cours des 30 derniers jours, selon les données compilées par ClawCharts, qui suit la croissance des agents IA open source. Ce chiffre reflète l'engagement actif des développeurs autour d'un projet, et le fait qu'Hermes y surpasse OpenClaw constitue un signal notable dans un secteur en pleine ébullition. Comme OpenClaw, Hermes est un logiciel d'agent IA qui s'exécute localement sur l'appareil de l'utilisateur, capable d'automatiser des tâches courantes : rédiger du code, effectuer des recherches web, envoyer des emails ou des messages WhatsApp. Nous Research, fondée en 2023, a levé 70 millions de dollars auprès d'investisseurs tels que Paradigm, OSS Capital et Distributed Global. Ce qui distingue Hermes de ses concurrents, c'est sa capacité à s'améliorer automatiquement au fil du temps. L'agent génère lui-même des "compétences", sortes de fiches mémo décrivant comment accomplir une tâche donnée. Ces instructions sont créées automatiquement lorsqu'une tâche nécessite plus de cinq "appels d'outils" (accès au web, à Gmail, à Discord, etc.) ou lorsque l'agent trouve une solution après plusieurs tentatives infructueuses. Ce mécanisme d'apprentissage autonome pourrait représenter un avantage décisif pour les utilisateurs qui répètent régulièrement les mêmes workflows complexes, sans avoir à configurer manuellement leur agent. OpenClaw avait marqué les esprits en début d'année en s'imposant comme une référence open source dans le domaine des agents IA autonomes. Mais le projet peine encore à franchir le cap d'un outil expérimental pour devenir un logiciel fiable et stable, ce qui ouvre la porte à des alternatives sérieuses. Outre Hermes, d'autres concurrents émergent, comme NemoClaw de Nvidia ou Genspark Claw, chacun cherchant à capter une communauté de développeurs en forte croissance. La bataille pour s'imposer comme standard des agents IA locaux ne fait que commencer, et la dynamique des contributeurs GitHub suggère que la domination d'OpenClaw est loin d'être acquise.

OutilsOutil
1 source
Vercel lance Eve, un framework open-source d'agents IA où chaque agent correspond à un répertoire de fichiers
354MarkTechPost 

Vercel lance Eve, un framework open-source d'agents IA où chaque agent correspond à un répertoire de fichiers

Vercel a publié eve, un framework open source sous licence Apache-2.0, disponible en tant que package npm, destiné à la création, l'exécution et le déploiement d'agents d'intelligence artificielle en production. L'entreprise affirme faire déjà tourner plus d'une centaine d'agents sur ce même framework. Son principe central repose sur une approche dite "filesystem-first" : un agent est modélisé comme un répertoire de fichiers sur disque, chaque fichier correspondant à une capacité précise. Le plus petit agent fonctionnel ne requiert que deux fichiers, un pour définir le modèle utilisé (par exemple anthropic/claude-opus-4.8) et un fichier instructions.md servant de prompt système. Les fonctionnalités embarquées incluent l'exécution durable avec points de reprise automatiques, un environnement sandboxé pour le code généré par l'agent, un mécanisme d'approbation humaine pour les actions sensibles, et des connexions sécurisées vers des services tiers comme Slack, GitHub, Snowflake, Salesforce, Notion ou Linear. Un même agent peut être exposé simultanément sur plusieurs canaux, qu'il s'agisse de HTTP, Slack, Discord, Teams, Telegram ou Twilio, à partir d'une seule définition. Ce lancement répond à un problème récurrent dans les équipes qui développent des agents : chaque projet recrée from scratch la même infrastructure de base, gestion des sessions, sandboxing, approbations, connexions API. Eve standardise cette structure sous forme d'une convention de répertoires stricte, éliminant le code répétitif et réduisant le temps de mise en production. Les développeurs ajoutent une capacité en déposant simplement un fichier dans le bon sous-répertoire ; le framework détecte et intègre automatiquement ces ajouts lors du build, sans enregistrement manuel. La durabilité des sessions, qui survivent aux crashs et aux redéploiements en reprenant exactement là où elles s'étaient arrêtées, réduit considérablement la charge opérationnelle pour les équipes gérant des agents à grande échelle. Eve s'inscrit dans un mouvement plus large visant à industrialiser le déploiement d'agents IA, une étape que la plupart des équipes traversent encore de façon artisanale. En open-sourçant son framework interne, Vercel adopte une stratégie comparable à celle qu'il avait employée avec Next.js : proposer une couche d'abstraction susceptible de devenir un standard de facto, tout en restant étroitement liée à son infrastructure pour les déploiements en production. La concurrence est dense dans cet espace, avec LangGraph, CrewAI, AutoGen et le récent Agent Development Kit de Google ciblant tous le même besoin. L'approche "répertoire comme contrat" d'eve se distingue par sa lisibilité et sa convention forte, plus proche de la philosophie Next.js que des frameworks d'orchestration classiques. Les suites probables incluent une adoption croissante dans les équipes utilisant déjà Vercel, et une intégration plus poussée avec Vercel AI Gateway pour le routage multi-modèle.

OutilsOutil
1 source
MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres
355MarkTechPost 

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

RecherchePaper
1 source
Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation
356MarkTechPost 

Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation

L'équipe Qwen, la division IA d'Alibaba, a publié Qwen-Robot-Suite, une collection de trois modèles d'IA incarnée destinés à la robotique. Les trois modèles sont distincts et ciblent des problèmes différents : Qwen-RobotManip est un modèle Vision-Language-Action (VLA) pour la manipulation physique, construit sur le backbone Qwen3.5-4B ; Qwen-RobotWorld est un modèle de simulation vidéo du monde réel, doté de 60 couches MMDiT et d'un encodeur Qwen2.5-VL gelé ; Qwen-RobotNav, disponible en versions 2B, 4B et 8B, est dédié à la navigation mobile et s'appuie sur Qwen3-VL. RobotManip et RobotNav sont déjà accompagnés de dépôts GitHub publics. Pour alimenter RobotManip, l'équipe a constitué un corpus d'environ 38 100 heures de données de manipulation, exclusivement issues de jeux de données open source et de vidéos humaines, dont 24 808 heures générées synthétiquement à partir de démonstrations à la première personne converties en trajectoires robotiques sur 15 plateformes différentes. Cette publication s'attaque à l'un des obstacles fondamentaux de la robotique moderne : la fragmentation des données. Chaque robot utilise des formats d'observation et d'action incompatibles, ce qui rend quasi impossible le transfert d'une politique entraînée sur un bras vers un autre. RobotManip résout ce problème via un cadre d'alignement unifié reposant sur un vecteur d'état canonique de 80 dimensions avec masquage binaire par dimension, une paramétrisation des actions en delta dans le référentiel caméra, et un mécanisme d'adaptation en contexte qui lit l'historique d'exécution récent pour identifier l'embodiment sans mettre à jour les paramètres du modèle. RobotWorld, quant à lui, utilise le langage comme interface d'action unifiée pour prédire des séquences vidéo futures, tandis que RobotNav expose une interface d'observation contrôlable pour générer des trajectoires de points de passage en navigation. Ces travaux s'inscrivent dans une course mondiale à la robotique fondationnelle, portée par des acteurs comme Google DeepMind avec RT-2, Physical Intelligence avec pi0, ou encore Tesla avec Optimus. Qwen adopte ici une stratégie modulaire plutôt qu'un modèle généraliste unique, en pariant sur la spécialisation par domaine tout en partageant un même écosystème de backbones de vision-langage. L'accent mis sur des données entièrement open source et des pipelines de synthèse automatisée indique une volonté de démocratiser l'entraînement de politiques robotiques sans dépendre de coûteuses collectes propriétaires. La mise à disposition des codes sources pour deux des trois modèles suggère que Qwen cherche à fédérer une communauté de recherche autour de ces fondations, dans un domaine ou la donnée reste le principal goulot d'étranglement.

RobotiqueOpinion
1 source
Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement
357MarkTechPost 

Z.ai lance GLM-5.2 : contexte de 1 million de tokens, deux niveaux d'effort de raisonnement, sans benchmarks au lancement

Z.ai a dévoilé le 13 juin 2026 GLM-5.2, troisième sortie majeure de sa gamme GLM-5 après GLM-5 (11 février), GLM-5-Turbo (15 mars) et GLM-5.1 (7 avril), soit quatre modèles de premier plan dédiés au codage en environ quatre mois. La caractéristique phare de ce nouveau modèle est sa fenêtre de contexte de 1 000 000 de tokens, une variante que Z.ai désigne glm-5.2[1m] dans sa propre configuration, contre 200 000 tokens pour GLM-5.1, soit une multiplication par cinq. Chaque réponse peut générer jusqu'à 131 072 tokens en sortie. Le modèle introduit également deux niveaux d'effort de raisonnement, High et Max, ce dernier étant recommandé par Z.ai pour les tâches de codage complexes en plusieurs étapes. Z.ai n'a publié aucun score de référence au lancement: ni SWE-bench, ni Terminal-Bench, ni Code Arena. La licence est MIT, mais les poids du modèle ne seront diffusés que la semaine suivante. Cette fenêtre d'un million de tokens transforme concrètement le travail d'un agent de codage. L'agent peut désormais conserver un dépôt de taille moyenne entier en mémoire de travail, fichiers sources, tests, configuration et historique de conversation compris, évitant ainsi les résumés permanents qu'imposent les fenêtres plus réduites. En pratique, cela ouvre la voie à des refactorisations à l'échelle d'un dépôt complet: un agent peut charger un pipeline de données Python de quarante fichiers et suivre les dépendances entre fichiers en une seule session, sans avoir à recharger le code. Le modèle vise aussi les exécutions autonomes de longue haleine, ces boucles soutenues de planification, d'exécution, de test et de correction; à titre de comparaison, GLM-5.1 enchaînait environ 1 700 étapes d'agent en une session, avec des boucles autonomes pouvant durer jusqu'à huit heures. GLM-5.2 se présente enfin comme un remplaçant direct de Claude Code, l'utilisateur n'ayant qu'à changer l'URL de base et l'identifiant du modèle, et permet d'analyser de longs documents, spécifications, journaux ou transcriptions dépassant les 200 000 tokens. Sur le plan technique, Z.ai n'a pas détaillé l'architecture de GLM-5.2 dans ses supports de lancement, mais selon les notes de la communauté, la base GLM-5 repose sur un modèle Mixture-of-Experts de 744 milliards de paramètres, dont 40 milliards sont activés par token, une ossature que GLM-5.1 avait conservée en réorientant seulement son post-entraînement. L'absence de tout chiffre de performance au lancement détonne dans un secteur où les classements façonnent la perception des modèles, d'autant que GLM-5.1 affichait un score de 58,4 sur SWE-bench Pro; la communication de Z.ai s'est concentrée sur la disponibilité, le contexte étendu et la feuille de route open source plutôt que sur les comparaisons. Ce positionnement illustre la cadence effrénée d'un acteur chinois qui multiplie les sorties pour s'imposer comme alternative crédible aux modèles propriétaires occidentaux, en misant à la fois sur une licence MIT permissive et sur une compatibilité directe avec les outils existants. Reste à voir si les benchmarks, attendus avec la publication des poids, confirmeront que cette fenêtre d'un million de tokens s'accompagne des gains de qualité que la concurrence exigera.

LLMsOpinion
1 source
Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10
358MarkTechPost 

Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10

Zyphra a publié Zamba2-VL, une famille de modèles de vision-langage (VLM) open source déclinée en trois tailles : 1,2 milliard, 2,7 milliards et 7 milliards de paramètres. Ces modèles sont capables d'analyser conjointement des images et du texte, graphiques, documents, photos, pour répondre à des questions ou extraire des informations. Contrairement à la quasi-totalité des VLM ouverts actuels, qui reposent sur un Transformer dense comme moteur de langage, Zamba2-VL intègre une architecture hybride combinant des couches Mamba2 (de type SSM, state-space model) et des blocs Transformer partagés. Le modèle utilise le tokeniseur de Mistral v0.1 et a été entraîné sur 100 milliards de tokens de données visuelles et textuelles issues du web ouvert. Pour l'encodage visuel, Zyphra a retenu le Vision Transformer de Qwen2.5-VL, choisi pour sa gestion native des résolutions dynamiques et ses embeddings positionnels 2D rotatifs. L'avantage principal de cette architecture se mesure à l'inférence : là où l'attention des Transformers classiques évolue de façon quadratique avec la longueur des séquences, les couches Mamba2 opèrent en temps quasi-linéaire avec un état récurrent de taille fixe. Sur un préfixe de 32 000 tokens, Zamba2-VL affiche un temps avant premier token (TTFT) inférieur d'environ un ordre de grandeur à celui de ses concurrents Transformer, tout en maintenant des scores comparables. C'est un avantage décisif pour des usages embarqués ou en périphérie (edge), où mémoire et latence sont contraintes. Sur 14 benchmarks couvrant la compréhension de documents, le comptage visuel et la perception générale, le modèle 2,7B atteint 90,9 sur DocVQA et 82,5 sur PixMoCount, surpassant largement InternVL3.5-2B (32,8) et Qwen3-VL-2B (55,7) sur ce dernier test. Il reste en revanche en retrait sur les benchmarks de raisonnement intensif comme MMMU (37,7 contre 49,9 pour InternVL3.5-2B) et MathVista. Cette publication s'inscrit dans une dynamique plus large qui voit les architectures SSM et hybrides progressivement s'imposer comme alternatives sérieuses aux Transformers purs, notamment pour les contraintes d'inférence à bas coût. Zyphra, qui développe la famille Zamba2 depuis plusieurs mois, cible explicitement les gammes 1,2B et 2,7B pour des déploiements sur appareils et en périphérie de réseau, un segment en forte croissance avec la multiplication des assistants locaux et des applications industrielles d'analyse documentaire. Les modèles sont publiés en open source, ce qui devrait accélérer l'adoption et permettre à la communauté d'évaluer indépendamment les compromis entre efficacité d'inférence et performance sur les tâches de raisonnement complexe, domaine où les hybrides SSM-Transformer restent encore challengés par les architectures full-attention à plus grande échelle.

LLMsActu
1 source
NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés
359MarkTechPost 

NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés

NVIDIA a publié un tutoriel complet sur garak, son framework open source dédié au red-teaming défensif des grands modèles de langage (LLM). L'outil, installable via pip, propose une architecture modulaire articulée autour de quatre types de composants : les probes (sondes d'attaque), les détecteurs, les générateurs et les buffs. Le tutoriel couvre l'ensemble du cycle de test, depuis la découverte des plugins jusqu'à l'export des résultats vers l'AVID (AI Vulnerability Database), en passant par la création de sondes et de détecteurs personnalisés. Concrètement, garak permet de soumettre un modèle à des attaques connues, comme le jailbreak DAN 11.0, l'injection via encodage Base64, ou la génération de contenu haineux (SlurUsage), et de mesurer automatiquement son taux de résistance via des scores de sécurité calculés par probe. L'enjeu est direct pour toute organisation qui déploie des LLM en production : identifier les failles avant qu'elles ne soient exploitées. Garak automatise ce processus de test offensif en mode défensif, générant des rapports JSONL analysables avec des outils comme pandas ou numpy. Il est possible de lancer des scans sur des modèles Hugging Face (comme GPT-2), des API externes, ou des générateurs de test internes, avec parallélisation des tentatives jusqu'à 16 threads simultanés. Les résultats sont agrégés en scores de sécurité par probe, ce qui permet à une équipe de sécurité ML de prioriser les vulnérabilités et de documenter la surface d'attaque d'un modèle de façon systématique et reproductible. Garak s'inscrit dans un mouvement plus large de professionnalisation de la sécurité des systèmes IA. Alors que les LLM sont de plus en plus intégrés dans des produits critiques, les attaques par prompt injection, jailbreak et contournement de garde-fous se multiplient. NVIDIA, qui positionne garak comme un outil de red-teaming défensif, rejoint ainsi un écosystème naissant comprenant des initiatives comme le projet AVID ou les travaux de l'OWASP sur les LLM Top 10. La capacité de garak à accepter des probes et détecteurs personnalisés en ouvre l'usage au-delà des scénarios préconfigurés, permettant à des équipes spécialisées de modéliser leurs propres vecteurs de menace. Les prochaines étapes naturelles de cet écosystème pointent vers l'intégration dans les pipelines CI/CD, afin que chaque mise à jour d'un modèle soit automatiquement auditée avant déploiement.

UELes organisations européennes soumises à l'AI Act peuvent utiliser garak pour documenter systématiquement la surface d'attaque de leurs LLM et répondre aux exigences de red-teaming imposées aux systèmes IA à haut risque.

💬 C'est exactement le genre d'outil qui manquait. Tout le monde parle de sécuriser ses LLM en production, mais tester de façon systématique et documentée, c'était encore du bricolage maison il y a six mois. Reste à voir si les équipes vont vraiment l'intégrer dans leurs pipelines CI/CD, ou si ça finira sur l'étagère des outils qu'on lance une fois avant la mise en prod et qu'on oublie.

SécuritéTuto
1 source
Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming
360MarkTechPost 

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming

Nous Research a lancé en prévisualisation publique Hermes Desktop, une application native disponible sur macOS, Windows et Linux, qui offre pour la première fois une interface graphique à son agent IA open source Hermes. Jusqu'ici limité à une interface en ligne de commande et à des passerelles de messagerie, Hermes Agent v0.15.2 dispose désormais d'une fenêtre native avec affichage en streaming des réponses, prévisualisation en temps réel des pages web, fichiers et sorties d'outils, un navigateur de fichiers, ainsi que des entrées et sorties vocales. L'application partage entièrement son cœur avec le CLI existant : configuration, clés API, sessions, compétences et mémoire sont communs à toutes les surfaces. Une conversation démarrée dans le bureau peut reprendre dans le terminal, et inversement, sans duplication d'état. Hermes Desktop a été démontré pour la première fois lors du keynote GTC de Jensen Huang avant d'être rendu disponible le 2 juin 2026. Ce lancement marque une étape importante dans l'accessibilité des agents IA autonomes pour le grand public. Hermes n'est pas un simple assistant de chat : c'est un agent qui planifie, exécute des actions et maintient un état persistant entre les sessions. La boucle d'apprentissage fermée le distingue des outils classiques : après une tâche complexe, l'agent génère des compétences réutilisables qui s'améliorent d'elles-mêmes lors des usages ultérieurs. La mémoire est gérée par l'agent lui-même, avec rappel inter-sessions via recherche FTS5 et résumé par LLM. En supprimant le prérequis du terminal, Nous Research ouvre Hermes à une population bien plus large d'utilisateurs non techniques, ce qui pourrait accélérer l'adoption des agents IA dans des flux de travail professionnels quotidiens. Nous Research s'inscrit dans une compétition croissante autour des agents IA autonomes et multiplateformes, face à des acteurs comme Anthropic avec Claude Code ou OpenAI avec ses capacités agentiques. Hermes se connecte à Telegram, Discord, Slack, WhatsApp, Signal, Email et CLI depuis une seule passerelle, avec un planificateur cron intégré et une délégation à des sous-agents isolés. L'exécution est sandboxée via cinq backends : local, Docker, SSH, Singularity et Modal. L'interopérabilité avec le Model Context Protocol (MCP) permet d'intégrer des outils externes. Pour les API, Nous Portal propose quatre niveaux d'abonnement (Free, Plus, Super, Ultra) donnant accès à plus de 300 modèles et à un Tool Gateway unifié qui route la recherche web via Firecrawl, la génération d'images via FAL et la synthèse vocale via OpenAI. Les prochaines questions porteront sur la stabilité hors prévisualisation et sur la capacité de la startup à tenir face aux ressources des géants du secteur.

OutilsOutil
1 source
Baseten, fournisseur d'inférence IA, en discussion pour lever 1 milliard de dollars à une valorisation de 11 milliards
361The Information AI 

Baseten, fournisseur d'inférence IA, en discussion pour lever 1 milliard de dollars à une valorisation de 11 milliards

Baseten, une startup américaine spécialisée dans l'inférence IA, serait en négociations avancées pour lever 1 milliard de dollars auprès d'investisseurs, selon une source proche du dossier. La transaction valoriserait l'entreprise à 11 milliards de dollars, soit plus du double de sa valorisation précédente de 5 milliards de dollars, annoncée il y a seulement trois mois. Cette accélération s'appuie sur une croissance rapide des revenus de la startup, qui loue des serveurs Nvidia équipés de GPU aux développeurs d'applications et les accompagne dans l'entraînement, la personnalisation et le déploiement de modèles d'IA principalement open source. Une telle levée placerait Baseten parmi les startups d'infrastructure IA les mieux financées au monde. Son positionnement sur la couche d'inférence, c'est-à-dire l'étape où les modèles répondent aux requêtes en production, répond à une demande explosive des entreprises qui souhaitent déployer leurs propres modèles sans gérer eux-mêmes la complexité matérielle et logicielle. Le recours croissant aux modèles open source comme LLaMA ou Mistral renforce cette dynamique, car ces modèles nécessitent une infrastructure dédiée que peu d'équipes peuvent construire en interne. Baseten s'inscrit dans une vague plus large de consolidation autour des fournisseurs d'inférence, un segment qui attire des capitaux massifs alors que la course au déploiement IA s'intensifie. Des concurrents comme Together AI, Fireworks AI ou Modal se disputent le même marché. La capacité de Baseten à doubler sa valorisation en un trimestre témoigne de l'appétit des investisseurs pour les acteurs qui contrôlent la plomberie des systèmes IA en production, indépendamment des laboratoires de recherche.

UEImpact indirect : les entreprises françaises et européennes qui déploient des modèles open source comme Mistral dépendent de fournisseurs d'inférence dont la consolidation peut influencer les prix et l'offre de services, mais aucun impact direct sur la France ou l'UE.

BusinessActu
1 source
Trump annule en urgence une cérémonie de signature après le refus des PDG de grandes entreprises d'IA
362Ars Technica AI 

Trump annule en urgence une cérémonie de signature après le refus des PDG de grandes entreprises d'IA

Donald Trump a annulé jeudi, quelques heures seulement avant la cérémonie prévue, la signature d'un décret présidentiel qui aurait accordé au gouvernement fédéral le pouvoir de tester les modèles d'IA dits "de frontière" avant leur mise sur le marché public. La raison invoquée : plusieurs PDG des grandes entreprises d'intelligence artificielle avaient décliné l'invitation. Trump, qui n'avait prévenu les participants que 24 heures à l'avance, a jugé l'absence inacceptable et a décidé d'annuler. Certains dirigeants qui avaient réorganisé leur agenda en urgence pour se rendre à la Maison Blanche étaient déjà dans les airs lorsqu'ils ont appris que l'événement n'aurait pas lieu. Derrière cette annulation chaotique se dessine une bataille d'influence au sommet de l'industrie tech américaine. Selon Semafor, OpenAI soutenait la signature du décret, mais deux poids lourds auraient activement oeuvré à le faire capoter : Elon Musk, fondateur de xAI, et Mark Zuckerberg, PDG de Meta. Les deux hommes auraient directement conseillé à Trump de renoncer à signer. David Sacks, ancien conseiller IA de Trump dont le statut de conseiller gouvernemental spécial avait expiré en mars, se serait lui aussi joint aux pressions pour retarder la signature. Cette séquence révèle les tensions profondes qui traversent la Silicon Valley sur la question de la régulation de l'IA. Un mécanisme d'évaluation gouvernementale des modèles avant leur déploiement représenterait un changement significatif dans la relation entre l'État et les grands laboratoires d'IA, qui ont jusqu'ici opéré avec une liberté quasi totale. L'opposition de Musk, dont xAI développe le modèle Grok, et de Zuckerberg, dont Meta mise sur une stratégie open source, suggère que les intérêts commerciaux ont pesé lourd dans la décision. Le sort de ce décret reste incertain, mais l'épisode illustre à quel point la gouvernance de l'IA demeure un terrain de jeu politique et industriel hautement conflictuel aux États-Unis.

💬 Des PDG déjà dans l'avion qui apprennent l'annulation en vol, ça donne le ton. Musk et Zuckerberg auraient directement convaincu Trump de lâcher l'affaire, quand OpenAI voulait signer, ce qui dit beaucoup sur où chacun se positionne commercialement en ce moment. La gouvernance de l'IA aux États-Unis, c'est ça : un coup de fil suffit.

RégulationReglementation
1 source
VLANeXt : recettes pour construire des modèles VLA performants
363arXiv cs.RO 

VLANeXt : recettes pour construire des modèles VLA performants

Une équipe de chercheurs a publié VLANeXt, un modèle Vision-Language-Action (VLA) qui surpasse l'état de l'art sur les benchmarks LIBERO et LIBERO-plus, deux références standards pour l'évaluation de politiques robotiques généralisables. Le papier (arXiv 2602.18532v2), loin de se limiter à une nouvelle architecture, repose sur une étude systématique de l'espace de conception des VLA, structurée en trois axes: les composants fondamentaux, les éléments de perception, et la modélisation des actions. Partant d'une baseline inspirée de RT-2, les auteurs identifient 12 résultats clés formant une recette reproductible pour construire des modèles VLA performants. Le code est publié en open source sur GitHub pour permettre à d'autres équipes de reproduire les expériences et d'itérer sur cette base commune. L'apport principal de ce travail n'est pas le modèle lui-même, mais la méthode. Le domaine des VLA souffre d'un problème structurel: chaque groupe publie son propre modèle avec des protocoles d'entraînement et des setups d'évaluation incompatibles, rendant toute comparaison rigoureuse impossible. VLANeXt impose un cadre unifié qui permet enfin d'isoler quelles décisions de conception ont un effet mesurable sur les performances. Pour les équipes R&D travaillant sur des politiques robotiques généralisables, les 12 findings donnent des règles pratiques sur le choix du backbone VLM, le traitement des entrées visuelles et la tête de prédiction d'actions. La validation en conditions réelles renforce la crédibilité des résultats, même si les détails des expériences physiques restent parcellaires dans l'abstract. Les VLA émergent de la convergence entre grands modèles multimodaux et robotique incarnée. RT-2 (Google DeepMind, 2023) a été le précurseur, montrant qu'un VLM pré-entraîné pouvait piloter un robot réel après fine-tuning. Une vague de travaux a suivi: pi-0 (Physical Intelligence), OpenVLA, Octo, RoboFlamingo. Face à cette prolifération, VLANeXt propose un point de stabilisation méthodologique plutôt qu'une course aux performances brutes. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un travail académique dont la valeur tient à la rigueur comparative. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus exigeants comme BridgeV2 ou DROID, et une adoption par des équipes travaillant sur des plateformes physiques commerciales.

RechercheOpinion
1 source
Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM
364AWS ML Blog 

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Depuis novembre 2025, Amazon SageMaker AI propose un mode de streaming bidirectionnel pour l'inférence en temps réel, permettant aux développeurs de faire circuler des données en continu dans les deux sens entre leurs applications et les conteneurs de modèles. Mistral AI en est l'un des premiers bénéficiaires concrets : le modèle Voxtral-Mini-4B-Realtime-2602, conçu spécifiquement pour la transcription vocale en temps réel, peut désormais être déployé sur un endpoint SageMaker via un conteneur vLLM. Le framework open source vLLM, de son côté, expose une API dite Realtime accessible via WebSocket à l'adresse /v1/realtime, qui traite l'audio de façon incrémentale et renvoie les tokens de transcription au fur et à mesure que le son arrive, sans attendre la fin de l'enregistrement. SageMaker gère la traduction de protocole entre HTTP/2 côté client et WebSocket côté conteneur sur le port 8443, de façon transparente et sans configuration supplémentaire. L'enjeu est direct pour toute une classe d'applications professionnelles qui se heurtaient jusqu'ici à la latence inhérente aux architectures requête-réponse classiques : agents vocaux, sous-titrage en direct, analytique de centres d'appels, outils d'accessibilité. Dans ces contextes, attendre que l'intégralité d'un enregistrement soit reçue avant de lancer la transcription brise l'expérience temps réel. La nouvelle architecture permet une connexion full-duplex persistante : l'audio entre en continu, la transcription sort en continu. vLLM applique par ailleurs une exécution par graphe CUDA en morceaux pour réduire la latence par token lors du streaming, tandis que SageMaker assure le monitoring via Amazon CloudWatch, les keepalives WebSocket et la résilience de connexion sans instrumentation personnalisée. Cette évolution s'inscrit dans une tendance plus large de convergence entre infrastructure cloud managée et serving open source haute performance. Amazon a progressivement enrichi SageMaker pour couvrir des cas d'usage au-delà de l'inférence batch classique, et le support du streaming bidirectionnel représente une réponse directe à la montée des LLM multimodaux et des applications temps réel. Mistral AI, avec sa gamme Voxtral, positionne ses modèles compacts sur le segment de la voix embarquée et managée, en concurrence avec des solutions propriétaires comme Whisper d'OpenAI ou les API de Google Cloud Speech. Le fait que vLLM soit open source garantit aux équipes une maîtrise totale sur la configuration, la quantisation et la compilation des modèles, sans dépendance à un fournisseur de serving. Un dépôt GitHub accompagne le tutoriel pour reproduire le déploiement complet.

UEMistral AI, entreprise française, voit ses modèles Voxtral intégrés nativement sur AWS SageMaker, renforçant la visibilité et l'adoption commerciale de ses solutions vocales sur le marché cloud mondial.

OutilsTuto
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
365Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

RobotiqueOpinion
1 source
La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées
366InfoQ AI 

La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées

Face à la multiplication des modèles d'IA dans les entreprises, les équipes d'ingénierie se retrouvent confrontées à ce que Meryem Arik appelle le "chaos d'inférence" : chaque équipe choisit ses propres modèles, ses propres fournisseurs, sans coordination ni visibilité globale. Pour y remédier, une nouvelle catégorie d'infrastructure émerge : les passerelles de modèles d'IA (AI model gateways), une couche de contrôle centralisée qui s'intercale entre les équipes et les fournisseurs de LLM comme OpenAI, Anthropic ou Mistral. L'enjeu est concret : sans ce type de couche intermédiaire, les DSI et responsables techniques perdent le contrôle des coûts, de la sécurité et de la conformité. Une passerelle bien configurée permet de gérer les droits d'accès par équipe (RBAC), de suivre la consommation par projet, d'imposer des règles de routage selon les besoins, et d'éviter que des données sensibles partent vers des API externes sans supervision. Pour les grandes organisations qui déploient l'IA à l'échelle, c'est une brique devenue aussi critique qu'un API gateway classique. Deux solutions open source se distinguent dans ce segment : LiteLLM, qui offre une interface unifiée vers des dizaines de fournisseurs LLM, et Doubleword, plus récent, positionné sur le contrôle d'entreprise. Ce marché reste jeune mais s'accélère à mesure que les équipes tech passent du prototype à la production à grande échelle. Les éditeurs de plateformes MLOps comme Weights & Biases ou Databricks surveillent ce segment de près, et des acquisitions ou intégrations sont probables dans les prochains mois.

UELes entreprises européennes déployant des LLMs à grande échelle ont un intérêt direct à adopter ce type de passerelle pour satisfaire aux exigences du RGPD et de l'AI Act, en garantissant que les données sensibles restent sous contrôle avant d'être transmises à des API externes.

InfrastructureOpinion
1 source
AWS s'associe à fal, startup IA générative pour la création de contenu média, et devient son fournisseur cloud privilégié
367VentureBeat AI 

AWS s'associe à fal, startup IA générative pour la création de contenu média, et devient son fournisseur cloud privilégié

fal, une startup californienne spécialisée dans la création de médias par intelligence artificielle générative, a annoncé avoir sélectionné Amazon Web Services (AWS) comme partenaire cloud privilégié. L'entreprise, valorisée à 4,5 milliards de dollars après une levée de fonds de 300 millions de dollars en Série D menée par Sequoia Capital, propose une plateforme unifiée donnant accès à plus de 1 000 modèles d'IA en production, des modèles propriétaires comme ChatGPT-Images-2.0 d'OpenAI ou Nano Banana Pro 2 de Google, jusqu'aux alternatives open source. Sa base d'utilisateurs dépasse les 2,5 millions de développeurs dans le monde, et ses clients entreprises incluent Canva, Adobe et Amazon MGM Studios. Les termes financiers de l'accord avec AWS n'ont pas été divulgués. Ce partenariat marque une étape importante dans la maturité du secteur de l'IA générative : l'enjeu n'est plus seulement de construire des modèles fondamentaux, mais de les déployer à grande échelle pour un usage commercial massif. fal joue un rôle comparable à celui de Stripe dans le paiement en ligne, abstraire toute la complexité d'infrastructure pour permettre aux développeurs de se concentrer uniquement sur l'expérience utilisateur. Grâce à AWS, la plateforme vise une disponibilité garantie à 99,99 %, avec la capacité d'absorber des millions d'appels API quotidiens. Pour les entreprises créatives et les équipes de développement, cela signifie un accès fiable et élastique à des capacités de génération d'images, vidéos, audio et contenu 3D, sans avoir à gérer soi-même des clusters GPU fragmentés. La montée en puissance de fal s'inscrit dans une transformation plus large de l'écosystème IA : à mesure que les modèles génératifs quittent le stade expérimental pour entrer en production, les infrastructures capables de tenir la charge deviennent un avantage concurrentiel déterminant. Avant ce partenariat, fal opérait sur plusieurs clouds simultanément, le fournisseur de stockage Tigris mentionnait une "flotte mondiale de GPU répartie sur de nombreux clouds", et la startup était également disponible sur le Google Cloud Marketplace depuis septembre 2025, sans que Google Cloud n'alimente pour autant son infrastructure GPU. En choisissant AWS comme couche de fiabilité et de distribution principale, fal se positionne pour capter la demande enterprise croissante en matière de génération de médias à l'échelle mondiale, dans un secteur où la course à l'infrastructure est désormais aussi stratégique que la course aux modèles.

UELes équipes techniques et créatives européennes bénéficient d'un accès simplifié à plus de 1 000 modèles de génération de médias à grande échelle, sans avoir à gérer elles-mêmes des clusters GPU fragmentés.

BusinessOpinion
1 source
NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA
368NVIDIA AI Blog 

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

À l'occasion de Google I/O 2026, NVIDIA et Google Cloud ont annoncé une série de nouvelles ressources pour leur communauté de développeurs commune, qui regroupe désormais plus de 100 000 membres. Lancée lors de Google I/O l'année précédente, cette communauté réunit développeurs, data scientists et ingénieurs en machine learning autour de l'écosystème NVIDIA sur Google Cloud. Parmi les nouveautés dévoilées cette année : un parcours d'apprentissage dédié à la bibliothèque JAX sur GPU NVIDIA, un codelab centré sur NVIDIA Dynamo pour l'optimisation de l'inférence, ainsi que des livestreams mensuels. Les développeurs peuvent désormais déployer des applications multi-agents en combinant les modèles ouverts Gemma 4 de Google DeepMind, les modèles NVIDIA Nemotron et le Google Agent Development Kit, sur des machines virtuelles G4 de Google Cloud équipées de GPU NVIDIA RTX PRO 6000 Blackwell, via Google Cloud Run ou des instances spot. Le nouveau parcours JAX et le codelab NVIDIA Dynamo sur GKE seront disponibles le mois prochain pour les membres de la communauté. Ces annonces ont un impact direct pour les équipes techniques qui cherchent à passer du prototype à la production rapidement. En combinant des modèles ouverts, des bibliothèques accélérées comme cuDF dans Google Colab Enterprise ou Dataproc, et une infrastructure GPU de dernière génération, les développeurs disposent d'un pipeline complet pour construire des applications d'IA prêtes pour la production : des systèmes RAG (retrieval-augmented generation) sur GKE aux pipelines de données d'entreprise en passant par l'analyse sportive. La collaboration sur JAX, framework de calcul numérique utilisé notamment par Google DeepMind pour l'entraînement de grands modèles, étend ces optimisations jusqu'à la plateforme Google Cloud AI Hypercomputer et au framework MaxText, permettant de passer d'expériences sur un seul GPU à des déploiements multi-rack avec une expérience cohérente. L'un des volets les plus significatifs du partenariat concerne l'IA responsable : NVIDIA est le premier partenaire industriel à avoir collaboré avec Google DeepMind sur SynthID, une technologie de tatouage numérique qui intègre des filigranes robustes directement dans les contenus générés par l'IA. Cette technologie est appliquée aux modèles Cosmos de NVIDIA, des modèles de fondation dédiés à la perception 3D et à la simulation pour robots et systèmes autonomes, disponibles sur build.nvidia.com. Dans un contexte où les agents IA combinent de plus en plus modèles propriétaires et open source pour raisonner et agir de manière autonome, cette couche de transparence devient un enjeu central pour la confiance des organisations qui déploient ces systèmes à grande échelle.

UELa technologie SynthID de filigrane numérique, développée avec Google DeepMind et intégrée aux modèles NVIDIA, répond directement aux obligations de transparence de l'AI Act européen sur les contenus générés par IA (Article 50).

OutilsOutil
1 source
Pour 1,3 million de dollars par mois, le fondateur de OpenClaw fait tourner 100 agents IA qui codent, relisent les PR et détectent les bugs
369The Decoder 

Pour 1,3 million de dollars par mois, le fondateur de OpenClaw fait tourner 100 agents IA qui codent, relisent les PR et détectent les bugs

Peter Steinberger, fondateur du projet open source OpenClaw, dépense 1,3 million de dollars par mois en appels à l'API d'OpenAI pour faire tourner en continu une centaine d'instances du modèle Codex. Son équipe ne compte que trois personnes, mais elle pilote ces agents de manière quasi permanente : ils rédigent du code, examinent des pull requests et traquent des bugs à une cadence qu'aucune équipe humaine ne pourrait tenir seule. La facture mensuelle dépasse celle de la plupart des startups financées par du capital-risque. Ce qui rend l'initiative notable, c'est son ambition explicitement expérimentale. Steinberger ne cherche pas à optimiser les coûts ni à remplacer des développeurs : il veut observer ce que devient le développement logiciel lorsque la contrainte financière des tokens disparaît. Cette approche transforme OpenClaw en laboratoire grandeur nature pour comprendre les limites réelles des agents de codage actuels, au-delà des démos soigneusement scénarisées que les éditeurs publient. Ce type d'expérimentation à grande échelle illustre une tendance plus large dans l'industrie : des équipes réduites utilisent des agents IA pour opérer à des cadences autrefois réservées aux grandes organisations. OpenAI, de son côté, a commercialisé Codex comme outil d'automatisation du développement logiciel, et les résultats d'OpenClaw alimenteront probablement les débats sur la viabilité économique de ces architectures multi-agents. La question centrale reste entière : quand le coût des tokens baissera suffisamment, cette approche deviendra-t-elle la norme ou révèlera-t-elle des plafonds qualitatifs que l'argent seul ne peut franchir ?

💬 1,3 million par mois pour trois personnes, c'est soit du génie soit de la folie, et là je penche pour les deux. Ce qui m'intéresse vraiment c'est pas la facture, c'est la question qu'il pose : qu'est-ce qui se passe quand le coût des tokens n'est plus une contrainte de décision ? Reste à voir si les plafonds qu'il va toucher seront qualitatifs ou juste... différents de ce qu'on imaginait.

OutilsOutil
1 source
Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable
370arXiv cs.RO 

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Des chercheurs ont publié en mai 2026 (arXiv:2605.11817) un module baptisé GridS (Differentiable Grid Sampler), conçu pour accélérer les modèles Vision-Language-Action (VLA) sans sacrifier leur précision en manipulation robotique. Le problème ciblé est concret : les VLA actuels, qui fusionnent perception visuelle, compréhension linguistique et planification d'action, sont trop coûteux en calcul pour un déploiement temps réel sur des plateformes embarquées. GridS s'insère dans l'encodeur visuel d'un VLA existant comme un module plug-and-play. Il prédit dynamiquement un ensemble minimal de coordonnées saillantes, puis ré-échantillonne les tokens visuels par interpolation différentiable, permettant de retenir moins de 10 % des tokens originaux. Sur le benchmark LIBERO et une plateforme robotique réelle non précisée dans l'article, les auteurs rapportent une réduction de 76 % des FLOPs sans dégradation du taux de succès, et revendiquent le nombre de tokens visuels actifs le plus bas jamais documenté dans la littérature VLA. Ce résultat, s'il se confirme hors simulation, adresse un verrou pratique majeur : la tension entre richesse de la représentation visuelle et vitesse d'inférence. Les méthodes de pruning par seuillage d'attention suppriment souvent des informations géométriques critiques comme les points de contact ou les bords d'objet, dégradant la précision des saisies. GridS opère différemment via un ré-échantillonnage continu orienté par la tâche, censé préserver la géométrie essentielle même à fort taux de compression. Pour un intégrateur industriel, une réduction de 76 % des FLOPs peut permettre de basculer d'un GPU haut de gamme vers un compute embarqué standard, ou d'augmenter significativement la fréquence de commande d'un bras manipulateur. Réserve importante : les tests portent sur LIBERO, un benchmark de manipulation tabletop majoritairement en simulation, et sur un robot non identifié, ce qui laisse ouverte la question du gap sim-to-real en environnement industriel réel. La recherche s'inscrit dans une course à l'efficacité des VLA où Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) se heurtent au même goulot d'étranglement computationnel lors du passage à l'échelle. GridS se distingue des approches de pruning classiques par sa continuité différentiable, argument clé pour préserver la géométrie fine lors de saisies précises. Le code est publié en open source sur GitHub (Fediory/Grid-Sampler), ce qui facilite l'intégration dans des pipelines VLA existants. La prochaine validation attendue par la communauté concerne des benchmarks plus exigeants, notamment la manipulation d'objets déformables et les environnements encombrés, ainsi que des mesures de latence réelle sur hardware embarqué pour confirmer que la réduction de FLOPs se traduit bien par un gain de vitesse exploitable en production.

RechercheOpinion
1 source
Auto-cohérence guidée par la géométrie pour l'IA physique
371arXiv cs.RO 

Auto-cohérence guidée par la géométrie pour l'IA physique

KeyStone est une méthode de cohérence automatique à l'inférence pour les modèles d'IA physique basés sur la diffusion, présentée dans un preprint arXiv (arXiv:2605.08638) publié en mai 2026. Le principe opérationnel : au lieu de retenir une seule trajectoire d'action par round d'inférence, KeyStone génère K trajectoires candidates en parallèle depuis un contexte de modèle partagé, les regroupe par clustering dans l'espace d'action continu, puis retourne le médoïde du cluster le plus dense. Aucun modèle additionnel n'est requis. Les auteurs rapportent une amélioration du taux de succès allant jusqu'à 13,3 % par rapport à l'échantillonnage sur trajectoire unique, avec une latence additionnelle négligeable. La méthode a été validée sur plusieurs classes d'architectures : vision-language-action models (VLAs) et world-action models (WAMs). Le code est publié en open source sur GitHub. L'enjeu central est la fragilité intrinsèque des politiques diffusion-based : chaque inférence est stochastique, et retenir une mauvaise trajectoire compromet l'ensemble de l'épisode suivant, défaut qui se cumule sur des séquences longues. KeyStone exploite une propriété géométrique spécifique aux systèmes robotiques : la distance euclidienne entre chunks d'action reflète directement la similarité physique entre trajectoires, contrairement aux espaces token ou pixel où cette métrique est sémantiquement vide et nécessite un modèle de scoring appris. La sélection est donc principled et judge-free, sans coût d'entraînement. Pour un intégrateur ou un ingénieur robotique, l'argument est concret : gain de performance sans pipeline additionnel, sans latence notable. Ce dernier point repose sur le fait que l'inférence par diffusion est memory-bandwidth bound, laissant de la capacité de calcul disponible pour exécuter K chaînes en parallèle dans le même budget temporel. KeyStone s'inscrit dans l'écosystème des politiques de contrôle apprises pour la manipulation et la navigation physique, dont les représentants actifs sont pi0 de Physical Intelligence, OpenVLA (UC Berkeley), Octo et Diffusion Policy. Ces architectures génèrent des séquences d'action par diffusion ou flow matching, une approche en forte expansion mais exposée précisément à la variabilité stochastique que KeyStone cible. La méthode se positionne comme une amélioration orthogonale, applicable sans réentraînement à tout modèle de cette famille. Le preprint ne mentionne ni déploiement terrain, ni partenaire industriel, ni timeline commerciale : il s'agit d'une contribution de recherche académique, pas d'un produit. La mise en open source immédiate du code accélérera néanmoins l'évaluation par les équipes qui testent des pipelines VLA dans des environnements semi-structurés ou industriels.

RechercheOpinion
1 source
AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)
372arXiv cs.RO 

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié AsyncVLA (arXiv:2511.14148), un cadre pour modèles Vision-Language-Action (VLA) qui remplace le flow matching synchrone (SFM) conventionnel par un mécanisme asynchrone (AFM) à calendrier temporel non uniforme. Là où le SFM applique un pas de temps identique à tous les tokens d'action, AsyncVLA ajuste ce calendrier en fonction du contexte actionnel en cours, et intègre un module "confidence rater" qui évalue la fiabilité de chaque token généré pour déclencher une auto-correction sélective avant exécution. La procédure d'entraînement est unifiée: un seul modèle peut opérer en mode SFM ou AFM, avec une meilleure utilisation du cache KV. Sur les benchmarks de manipulation robotique en simulation et en conditions réelles, AsyncVLA surpasse les méthodes existantes avec une efficacité accrue en données d'entraînement. Le code est publié en open source sur GitHub. L'instabilité des VLA sur les tâches longue durée (long-horizon) est l'un des principaux freins à leur déploiement industriel: en SFM, une erreur d'action se propage en cascade jusqu'à l'échec complet de la séquence. La capacité d'auto-correction d'AsyncVLA adresse directement ce point, ce qui intéresse les intégrateurs et les équipes robotiques confrontées à des cycles opératoires de plusieurs minutes. L'efficacité en données est un argument complémentaire: entraîner des VLA compétitifs nécessite aujourd'hui des datasets massifs et coûteux, et une méthode qui atteint de meilleures performances avec moins de données réduit la barrière d'entrée. Il faut toutefois nuancer: le papier se limite à des benchmarks de manipulation sans publier de chiffres de déploiement à l'échelle, de temps de cycle réels, ni de résultats sur une flotte opérationnelle. Les VLA à base de flow matching ont été popularisés par Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2024, établissant un standard de génération d'actions continues pour la robotique généraliste. AsyncVLA s'inscrit dans une tendance de raffinement algorithmique de ces architectures, aux côtés d'approches comme OpenVLA, la distillation de politique diffusion, ou les modèles hybrides VLA et planificateur symbolique. Son avantage comparatif est la compatibilité directe avec les pipelines SFM existants, sans rupture architecturale majeure, ce qui facilite l'adoption par les équipes déjà engagées sur ces bases. Les prochaines étapes crédibles seraient une validation sur des robots humanoïdes (Figure, 1X, Unitree) ou des bras industriels en production réelle, là où la robustesse long-horizon reste le goulot d'étranglement dominant.

💬 Le problème de propagation d'erreur en cascade dans les VLA, c'est exactement ce qui bloque le déploiement industriel depuis des mois. AsyncVLA l'attaque frontalement avec un mécanisme de correction sélective avant exécution, et la compatibilité directe avec les pipelines SFM existants (Pi-0, GR00T) rend l'adoption crédible sans tout casser. Reste à voir ce que ça donne sur des cycles de 10 minutes en prod réelle, pas juste en simulation.

RechercheOpinion
1 source
ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées
373The Decoder 

ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées

OpenAI a commencé à déployer GPT-5.5 Instant comme modèle par défaut de ChatGPT, remplaçant ainsi le modèle précédemment utilisé par des centaines de millions d'utilisateurs. Selon les tests internes de l'entreprise, cette mise à jour produit 52,5 % d'hallucinations en moins sur des sujets à enjeux élevés comme la médecine et le droit. Le déploiement est immédiat pour l'ensemble des utilisateurs, bien que certaines fonctionnalités avancées de personnalisation soient réservées, dans un premier temps, aux abonnés Plus et Pro sur la version web. La réduction des hallucinations sur des domaines sensibles représente un progrès concret pour les professionnels de santé, les juristes et tous ceux qui utilisent ChatGPT comme outil de travail. Une nouvelle fonctionnalité baptisée "memory sources" permet désormais aux utilisateurs de voir précisément quels éléments de contexte mémorisé ont influencé une réponse donnée, apportant une transparence inédite sur le fonctionnement de la personnalisation. La personnalisation basée sur les conversations passées, les fichiers et Gmail marque une intégration plus profonde dans l'écosystème quotidien des utilisateurs. Ce déploiement s'inscrit dans une course effrénée entre les grandes plateformes d'IA générative à améliorer la fiabilité de leurs modèles, point noir persistant depuis l'émergence des LLMs. OpenAI, sous pression concurrentielle d'Anthropic, Google et des acteurs open source, mise sur la personnalisation contextuelle et la réduction des erreurs factuelles pour fidéliser sa base d'utilisateurs. L'intégration Gmail, en particulier, soulève des questions sur la confidentialité des données qui devraient alimenter le débat dans les mois à venir.

UEL'intégration Gmail soulève des questions de conformité GDPR pour les utilisateurs européens, tandis que la réduction des hallucinations dans des domaines sensibles bénéficie aux professionnels français en santé et droit utilisant ChatGPT.

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
374MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide
375MarkTechPost 

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

IBM a mis en ligne deux nouveaux modèles de reconnaissance vocale open source, Granite Speech 4.1 2B et Granite Speech 4.1 2B-NAR, disponibles sur Hugging Face sous licence Apache 2.0. Ces modèles compacts d'environ 2 milliards de paramètres visent à résoudre un problème classique des équipes IA en entreprise : les systèmes de transcription automatique performants exigent généralement des ressources de calcul importantes, tandis que les solutions légères sacrifient la précision. Les deux modèles partagent une architecture en trois composants, un encodeur audio, un adaptateur de modalité et un modèle de langage, mais divergent sur le mécanisme de décodage. Le modèle standard prend en charge la transcription multilingue et la traduction bidirectionnelle en anglais, français, allemand, espagnol, portugais et japonais. La variante NAR (non-autorégressif) se concentre uniquement sur la transcription, sans le japonais ni la traduction, mais avec des temps de réponse nettement plus rapides. IBM a également lancé discrètement une troisième variante, Granite Speech 4.1 2B-Plus, qui ajoute l'attribution par locuteur et des horodatages au niveau du mot. Sur le leaderboard Open ASR d'avril 2026, le modèle principal affiche un taux d'erreur sur les mots (WER) moyen de 5,33%, avec 1,33% sur le benchmark LibriSpeech clean, des résultats compétitifs pour un modèle de cette taille. L'intérêt concret de ces modèles réside dans leur efficacité à l'inférence. La version NAR utilise un modèle de langage bidirectionnel de 1 milliard de paramètres qui corrige la transcription en une seule passe, sans générer les tokens un à un comme le font les architectures autorégressives classiques. Cela réduit considérablement la latence, ce qui en fait une option sérieuse pour les applications temps réel, centres d'appels, sous-titrage en direct, assistants vocaux embarqués. Pour les équipes qui ont besoin de traduction ou de transcription en japonais, le modèle autorégressif standard reste nécessaire, mais la version NAR offre un avantage décisif dès que la vitesse prime sur la polyvalence. IBM s'inscrit ici dans une tendance de fond : la course aux modèles de reconnaissance vocale ouverts et compétitifs s'est intensifiée depuis qu'OpenAI a publié Whisper en 2022. Plusieurs acteurs, dont Meta et Nvidia, ont depuis proposé leurs propres alternatives, chacun cherchant à optimiser le rapport précision/coût computationnel. La famille Granite, déjà connue pour ses modèles de langage orientés entreprise, s'étend désormais à l'audio avec une approche modulaire et documentée, ce qui facilite l'intégration dans des pipelines existants. La publication sous licence Apache 2.0 permet un usage commercial sans restriction, ce qui devrait accélérer l'adoption dans des secteurs comme la santé, la finance ou les médias, où la transcription précise et souveraine est un enjeu stratégique.

UELes entreprises européennes des secteurs santé, finance et médias peuvent déployer ces modèles en souveraineté complète grâce à la licence Apache 2.0, avec un support natif du français pour la transcription et la traduction.

OutilsOpinion
1 source
SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération
376Pandaily 

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

SenseTime a officiellement lancé et mis en open source le 29 avril 2026 sa série SenseNova U1, un modèle unifié natif combinant compréhension et génération multimodale. Développé sur l'architecture maison NEO-unify présentée en mars 2026, ce modèle intègre dans un cadre unique la compréhension, le raisonnement et la génération visuelle et textuelle. La série se décline en deux variantes légères : SenseNova-U1-8B-MoT, basé sur une architecture dense, et SenseNova-U1-A3B-MoT, reposant sur un mélange d'experts (MoE). Ce qui distingue fondamentalement SenseNova U1 des approches dominantes, c'est l'abandon des encodeurs visuels séparés (VE) et des autoencodeurs variationnels (VAE) traditionnellement empilés dans les modèles multimodaux. NEO-unify reconstruit à la place un espace de représentation unifié profondément intégré à chaque couche de calcul, traitant le langage et les entrées visuelles comme un ensemble composite cohérent. Ce choix architectural permet d'améliorer simultanément les capacités de compréhension et de génération, en préservant à la fois la richesse sémantique et la fidélité visuelle au niveau pixel. Le modèle affiche également de bonnes performances en raisonnement logique et en intelligence spatiale, notamment pour interpréter des environnements physiques complexes. SenseTime, géant chinois de la vision par ordinateur et de l'intelligence artificielle, positionne SenseNova U1 comme une brique fondatrice pour la robotique incarnée : l'objectif est qu'un seul modèle gère en boucle fermée la perception, le raisonnement et l'exécution de tâches physiques. Ce lancement s'inscrit dans une course mondiale à l'unification des modalités, où des acteurs comme Google DeepMind, Meta ou des startups chinoises cherchent à dépasser les architectures hybrides au profit de modèles natifs plus cohérents. La mise en open source de la version légère signal une stratégie d'adoption communautaire, tout en réservant probablement les versions plus puissantes à un usage commercial ou propriétaire.

UELa mise en open source de SenseNova U1 offre aux chercheurs et développeurs européens un accès à cette architecture unifiée novatrice, mais l'impact direct sur la France ou l'UE reste limité à court terme, SenseTime étant un acteur chinois sans ancrage réglementaire ou commercial européen significatif.

LLMsOpinion
1 source
BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome
377arXiv cs.RO 

BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome

Une équipe de chercheurs a publié BEVal, une étude comparative sur les modèles de segmentation en vue aérienne (Bird's Eye View, ou BEV) appliqués à la conduite autonome. Contrairement aux travaux habituels, qui entraînent et évaluent les modèles sur un seul jeu de données, généralement nuScenes, les auteurs ont testé les performances de plusieurs modèles de l'état de l'art sur des combinaisons croisées de jeux de données : entraînement sur l'un, évaluation sur un autre. L'étude examine également l'influence du type de capteur utilisé, caméras ou LiDAR, sur la capacité des modèles à s'adapter à des environnements variés et à des catégories sémantiques différentes. Le code de l'étude est disponible en open source sur GitHub. Les résultats mettent en évidence un problème structurel dans la recherche actuelle : les modèles de segmentation BEV, très performants sur leurs données d'entraînement, chutent significativement lorsqu'ils sont confrontés à un nouvel environnement ou à une configuration de capteurs différente, un phénomène connu sous le nom de décalage de domaine. Pour les constructeurs automobiles et les entreprises de conduite autonome, cela signifie que des modèles optimisés en laboratoire peuvent se révéler peu fiables dans des conditions réelles variées. Les expériences d'entraînement sur plusieurs jeux de données menées en parallèle ont toutefois montré des améliorations notables des performances par rapport à l'entraînement sur un seul jeu, ouvrant la voie à des approches plus robustes. La segmentation BEV est une technologie clé pour la conduite autonome : elle permet aux véhicules de construire une représentation plane de leur environnement immédiat à partir de capteurs embarqués, facilitant la détection de routes, véhicules, piétons et obstacles. Le standard quasi universel de la recherche repose aujourd'hui sur nuScenes, un jeu de données développé par Motional, ce qui crée un biais de spécialisation problématique à l'échelle du secteur entier. En exposant cette fragilité et en proposant une méthodologie d'évaluation croisée rigoureuse, BEVal pousse la communauté scientifique vers des pratiques plus exigeantes, une condition indispensable avant tout déploiement massif de véhicules autonomes sur des routes réelles.

UELes constructeurs automobiles européens (Stellantis, Volkswagen, Renault) et les acteurs de la conduite autonome opérant en Europe sont concernés par cette fragilité structurelle des modèles BEV, qui remet en question la fiabilité des systèmes avant tout déploiement sur routes européennes aux conditions variées.

RecherchePaper
1 source
Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes
378arXiv cs.RO 

Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes

AgibotTech a publié Genie Sim 3.0, une plateforme de simulation unifiée destinée à l'apprentissage de la manipulation robotique. Son composant central, le Genie Sim Generator, utilise un grand modèle de langage (LLM) pour construire automatiquement des environnements 3D haute fidélité à partir de simples instructions en langage naturel. La plateforme intègre également le premier benchmark de robotique dont l'évaluation est entièrement automatisée par LLM : il génère en masse des scénarios de test, puis s'appuie sur un modèle vision-langage (VLM) pour noter les performances des robots sans intervention humaine. AgibotTech publie simultanément un jeu de données open source de plus de 10 000 heures de données synthétiques couvrant plus de 200 tâches distinctes, accessible sur GitHub. L'enjeu central est le fossé entre simulation et monde réel, le fameux problème du "sim-to-real transfer", qui freine depuis des années le déploiement à grande échelle des robots apprenants. Collecter des données dans le monde physique coûte extrêmement cher et se heurte à des contraintes de passage à l'échelle quasi insurmontables. Genie Sim 3.0 démontre expérimentalement que ses données synthétiques permettent un transfert "zéro-shot" vers le monde réel, c'est-à-dire que des politiques de contrôle entraînées uniquement en simulation fonctionnent directement sur des robots physiques, sans phase d'adaptation supplémentaire. Pour les laboratoires de robotique et les startups du secteur, cela ouvre la possibilité de produire des volumes de données d'entraînement plusieurs ordres de grandeur supérieurs à ce qu'autorise la réalité physique, à une fraction du coût. Cette publication s'inscrit dans une course mondiale à la robotique humanoïde impliquant des acteurs comme Figure AI, Physical Intelligence, Boston Dynamics ou encore Tesla avec Optimus. L'un des goulots d'étranglement communs à tous est précisément la rareté des données d'entraînement de qualité et la fragmentation des benchmarks, chaque laboratoire travaillant dans son propre silo de simulation. En proposant une plateforme ouverte, un dataset massif et une procédure d'évaluation standardisée et automatisée, AgibotTech tente de poser une infrastructure commune au champ. La prochaine étape sera de vérifier si ce transfert zéro-shot tient dans des conditions moins contrôlées, avec des objets, des éclairages et des configurations inédits.

UELes laboratoires de robotique et startups européens peuvent accéder librement aux 10 000 heures de données synthétiques sur GitHub pour accélérer leurs recherches sur le transfert sim-to-réel, sans avoir à produire ces données coûteusement en conditions réelles.

💬 Le fossé sim-to-real, c'est le mur sur lequel tous les labos de robotique se cognent depuis des années. Que des données purement synthétiques suffisent à piloter du vrai métal sans phase d'adaptation, c'est la promesse qu'on attendait vraiment. Reste à voir si ça tient avec des objets imprévus, un mauvais éclairage, le vrai bazar du monde réel.

RobotiqueActu
1 source
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
379arXiv cs.RO 

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes. L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés. La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

RecherchePaper
1 source
Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire
380arXiv cs.RO 

Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire

Des chercheurs ont publié sur arXiv un nouveau solveur mathématique baptisé Marble, conçu pour résoudre une classe de problèmes d'optimisation particulièrement délicats en robotique : les programmes quadratiques avec contraintes de complémentarité linéaire, ou LCQPs. Le code est disponible en open source, implémenté en C++ avec des interfaces pour Julia et Python. L'article, référencé arXiv:2604.11991v2, propose une approche fondée sur la théorie des groupes de Lie pour contourner les limitations des solveurs existants sur ce type de problèmes. Les LCQPs interviennent au coeur de nombreux défis en robotique : modéliser le contact entre un bras manipulateur et un objet, ou gérer les phases d'appui et de décollage dans la locomotion. Ces problèmes sont non convexes et mélangent dynamique continue et événements discrets, ce qui les rend très difficiles à résoudre. Très peu de solveurs permettent aujourd'hui d'en calculer de bonnes solutions locales utilisables dans des pipelines de planification. Marble démontre sur une suite de benchmarks standardisés qu'il est compétitif face aux meilleures méthodes actuelles, et qu'il parvient à converger sur plusieurs problèmes robotiques concrets où les approches existantes échouent. L'intuition mathématique centrale du travail est que les contraintes de complémentarité forment un groupe de Lie sous relaxation infinitésimale, une structure géométrique qui permet d'effectuer l'optimisation directement sur la variété correspondante. Les auteurs introduisent une carte de rétraction numériquement stable, ce qui leur permet de paramétrer les contraintes de façon à ce qu'elles soient satisfaites par construction, éliminant les instabilités numériques classiques associées à ce type de contraintes. Cette avancée s'inscrit dans un effort plus large de la communauté robotique pour doter les systèmes autonomes de méthodes de planification capables de gérer des scénarios complexes impliquant contacts et transitions dynamiques, un verrou technique majeur pour les robots manipulateurs et les plateformes de locomotion avancées.

RobotiqueOpinion
1 source
CARLA-Air: infrastructure unifiée pour drones et agents autonomes aériens et terrestres dans CARLA
381arXiv cs.RO 

CARLA-Air: infrastructure unifiée pour drones et agents autonomes aériens et terrestres dans CARLA

Des chercheurs ont publié CARLA-Air, une plateforme de simulation open source qui permet, pour la première fois, de faire voler des drones multirotor directement dans l'environnement urbain de CARLA, le simulateur de référence pour la conduite autonome, développé initialement par Waymo et maintenu par la communauté. La plateforme tourne au sein d'un unique processus Unreal Engine, garantissant une cohérence spatiale et temporelle stricte entre les agents au sol et les drones, tout en capturant simultanément jusqu'à 18 modalités de capteurs à chaque pas de simulation. Elle préserve les API Python natives de CARLA et d'AirSim, ainsi que les interfaces ROS 2, ce qui permet de réutiliser du code existant sans aucune modification. L'enjeu est considérable pour les équipes qui travaillent sur les systèmes robotiques mixtes air-sol, un domaine en pleine expansion avec le développement des économies à basse altitude, livraisons par drone, inspection d'infrastructures, mobilité urbaine aérienne. Jusqu'ici, les simulateurs de conduite manquaient de dynamique aérienne réaliste, tandis que les simulateurs de drones proposaient des environnements urbains trop simplifiés. Les solutions de co-simulation par pont introduisaient des décalages temporels incompatibles avec l'entraînement de politiques de navigation ou de perception multi-modale. CARLA-Air supprime ces compromis en offrant un seul environnement avec trafic conforme aux règles de circulation, piétons à comportement social, et dynamique aérodynamique cohérente. Le projet répond aussi à une urgence pratique : Microsoft a archivé le développement d'AirSim, le simulateur de drones le plus utilisé dans la recherche académique, laissant orphelines de nombreuses équipes. CARLA-Air reprend cet héritage et l'intègre dans une infrastructure moderne et activement maintenue. La plateforme est déjà conçue pour accueillir des charges de travail avancées : coopération air-sol, navigation incarnée, actions guidées par le langage, construction de jeux de données et entraînement par renforcement. Le code source complet et des binaires précompilés sont disponibles sur GitHub, ce qui devrait faciliter son adoption rapide dans la communauté robotique et autonome.

UELes équipes de recherche européennes en robotique et mobilité urbaine aérienne disposent d'une alternative open source maintenue à AirSim pour développer et entraîner des systèmes autonomes mixtes air-sol.

RobotiqueOpinion
1 source
OpenClaw peine à confirmer après son succès fulgurant
382The Information AI 

OpenClaw peine à confirmer après son succès fulgurant

OpenClaw, un logiciel d'agents IA devenu en quelques mois l'un des projets open source à la croissance la plus rapide de l'histoire de la tech, se retrouve à un carrefour délicat. Porté par une communauté de volontaires, ce projet a explosé du jour au lendemain sans que ses mainteneurs n'aient eu le temps d'anticiper une telle adoption. Aujourd'hui, ses responsables doivent décider s'ils transforment OpenClaw en outil fiable pour les entreprises, ou s'ils préservent l'ADN expérimental qui a fait son succès. La question n'est pas anodine : les entreprises qui intègrent des agents IA dans leurs processus métier ont besoin de stabilité, de documentation, de support et de garanties de pérennité que des équipes bénévoles peinent structurellement à offrir. Si OpenClaw ne franchit pas ce cap, il risque de rester un outil de laboratoire réservé aux développeurs avertis, laissant le terrain aux solutions commerciales concurrentes capables d'absorber les exigences des grands comptes. Le phénomène OpenClaw illustre une tension bien connue dans l'open source : les projets qui percent brutalement se retrouvent écrasés par leur propre succès, sans les ressources pour absorber la charge. Dans un secteur des agents IA en pleine ébullition, où des dizaines de frameworks se disputent l'adhésion des développeurs, la fenêtre pour s'imposer comme standard de référence est courte. Les mainteneurs devront probablement choisir entre chercher des financements externes, créer une fondation ou une entité commerciale, ou risquer que la communauté se fragmente autour de forks mieux gouvernés.

OutilsOutil
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
383arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

AutreOpinion
1 source
Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo
384Le Big Data 

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo

Physical Intelligence, startup basée à San Francisco, a présenté π0.7, un modèle d'IA robotique capable d'exécuter des tâches pour lesquelles il n'a reçu presque aucun entraînement spécifique. La démonstration phare : un robot utilisant une friteuse à air chaud pour cuire une patate douce, alors que ses données d'apprentissage ne contenaient que deux séquences vaguement pertinentes, un robot fermant une friteuse, et un autre manipulant une bouteille en plastique issue d'un dataset open source. Sans assistance verbale, le taux de réussite du robot était d'environ 5 %. Après une demi-heure d'instructions orales en temps réel, ce taux a bondi à 95 %, sans réentraînement ni collecte massive de nouvelles données. Sergey Levine, cofondateur de Physical Intelligence, décrit cette capacité comme une recomposition inédite de connaissances acquises dans des contextes disparates, notamment issues du web. Ce qui distingue π0.7 de la majorité des systèmes robotiques actuels, c'est précisément ce qu'il n'a pas besoin : des millions d'heures de vidéos pour chaque nouvelle tâche. La robotique industrielle et domestique bute depuis des années sur ce mur : chaque situation légèrement différente exige un nouvel entraînement coûteux. Si π0.7 tient ses promesses, il ouvre la voie à des robots capables de s'adapter à des environnements inconnus simplement en recevant des consignes verbales, un changement de paradigme potentiellement majeur pour les secteurs de la logistique, de l'aide à domicile ou de la restauration automatisée. La chercheuse Shi, doctorante à Stanford impliquée dans les travaux, note toutefois qu'il reste difficile d'identifier précisément d'où le modèle tire les connaissances qu'il mobilise, ce qui soulève des questions sur la prédictibilité et la fiabilité du système. Physical Intelligence s'inscrit dans une vague de startups qui parient sur des modèles de fondation pour la robotique, à l'image de ce que GPT-4 a représenté pour le texte. L'entreprise a levé des fonds significatifs ces dernières années et concurrence directement des laboratoires comme Google DeepMind ou Figure AI sur le terrain des robots généralistes. Le vrai enjeu n'est plus de construire des bras articulés précis, mais de créer des systèmes capables de raisonner sur le monde physique avec un minimum d'exemples. π0.7 représente une étape crédible dans cette direction, même si les tests restent pour l'instant en conditions contrôlées. Les prochains mois diront si cette capacité d'adaptation tient face à la complexité désordonnée du monde réel.

RobotiqueActu
1 source
385Ben's Bites 

Big lab leaks

Anthropic a discrètement laissé filtrer ses prochaines ambitions : selon des informations issues d'une fuite récente, la société travaille à l'intégration de fonctionnalités de développement d'applications full-stack directement dans Claude, comparables à ce que propose Lovable. Une fuite similaire aurait également concerné Codex d'OpenAI avant d'être supprimée. Pendant ce temps, Anthropic officialise plusieurs annonces concrètes : Claude Cowork, sorti de sa préversion après douze semaines et des millions d'utilisateurs, est désormais disponible en accès général. Claude for Word entre en bêta, permettant de rédiger, modifier et réviser des documents depuis le volet latéral de Word, avec les modifications affichées sous forme de suivi des changements, réservé aux plans Team et Enterprise. Côté Claude Code, une nouvelle commande /ultraplan permet de construire et d'éditer un plan depuis le web pour l'exécuter ensuite dans le terminal. Un outil Monitor permet désormais à Claude de surveiller des événements en arrière-plan plutôt que de vérifier en boucle, réduisant significativement la consommation de tokens. OpenAI, de son côté, a lancé un plan à 100 dollars par mois offrant cinq fois la puissance de calcul du plan standard à 20 dollars, avec un bonus temporaire doublant ce ratio jusqu'au 31 mai. Ces annonces illustrent une accélération brutale de la course à l'agent autonome. L'intégration de capacités full-stack dans Claude signifierait qu'Anthropic cherche à court-circuiter les outils tiers comme Lovable ou Cursor pour capturer la chaîne complète du développement logiciel. La notion de "headless SaaS" commence à circuler dans l'industrie pour désigner les produits conçus pour être utilisés par des agents plutôt que par des humains. Le PDG de Box a résumé la pression naissante : les entreprises évinceront les fournisseurs qui ne facilitent pas l'accès économique de leurs produits aux agents. La concurrence pousse aussi OpenAI à remodeler sa grille tarifaire autour de la puissance de calcul brute, un signal clair que la performance des modèles dépend désormais autant des ressources allouées que des paramètres entraînés. Cette évolution s'inscrit dans un contexte où l'écosystème agentic se structure rapidement. Vercel publie un template open source pour construire des agents de code, Cursor permet désormais à ses agents cloud d'annexer des captures d'écran à leurs pull requests sur GitHub, et Cloudflare rend ses environnements sandbox disponibles en accès général avec terminal, interpréteur et aperçu en direct. La conférence AI Engineer a vu des prises de position radicalement opposées, de "le code est un passif" à des appels à ralentir le rythme d'adoption. L'industrie n'a pas encore tranché, mais les grands labos, eux, ont visiblement choisi leur camp.

UELes développeurs et entreprises français utilisant Claude peuvent tester dès maintenant Claude Cowork (accès général) et Claude for Word (bêta Team/Enterprise), tandis que la montée du 'headless SaaS' agentic pourrait contraindre les éditeurs logiciels européens à adapter leurs produits pour un accès par agents.

OutilsOutil
1 source
386MarkTechPost 

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

Des chercheurs de NVIDIA et de l'Université du Maryland ont publié Audio Flamingo Next (AF-Next), le modèle le plus puissant de la série Audio Flamingo et l'un des grands modèles audio-langage (LALM) open source les plus avancés à ce jour. AF-Next est disponible en trois variantes spécialisées : AF-Next-Instruct pour les questions-réponses générales, AF-Next-Think pour le raisonnement multi-étapes complexe, et AF-Next-Captioner pour la description détaillée de contenus audio. L'architecture repose sur quatre composants : un encodeur audio AF-Whisper (basé sur Whisper, pré-entraîné sur un corpus plus large incluant de la parole multilingue), un adaptateur MLP à deux couches, un backbone LLM Qwen-2.5-7B à 7 milliards de paramètres avec une fenêtre de contexte étendue à 128 000 tokens, et un module de synthèse vocale en streaming. Une innovation clé est l'introduction des Rotary Time Embeddings (RoTE), qui ancrent chaque token audio à son horodatage réel plutôt qu'à sa position dans la séquence, ce qui améliore significativement le raisonnement temporel sur de longs enregistrements. L'entraînement a mobilisé plus d'un million d'heures de données audio. AF-Next représente une avancée concrète pour toutes les applications nécessitant une compréhension fine de l'audio : transcription de réunions longues, analyse de podcasts, surveillance sonore, ou encore assistants vocaux capables de raisonner sur le contexte temporel d'une conversation. La technique dite de Temporal Audio Chain-of-Thought oblige le modèle à ancrer chaque étape de raisonnement à un timestamp précis avant de produire une réponse, ce qui réduit les hallucinations et améliore la fiabilité sur des enregistrements longs. Pour entraîner cette capacité, les chercheurs ont constitué AF-Think-Time, un jeu de données d'environ 43 000 exemples issus de bandes-annonces, résumés de films, histoires à suspense et conversations multi-participants, avec une moyenne de 446 mots par chaîne de raisonnement. L'audio a toujours été le parent pauvre du multimodal : là où les modèles vision-langage comme GPT-4V ou LLaVA ont rapidement mûri, les équivalents audio peinaient à traiter simultanément parole, sons environnementaux et musique, surtout sur de longues durées. AF-Next s'attaque directement à cette lacune en proposant une architecture unifiée et entièrement ouverte, à l'heure où les grands laboratoires comme OpenAI et Google gardent leurs modèles audio les plus puissants propriétaires. En publiant les poids du modèle et le dataset AF-Think-Time, NVIDIA et l'Université du Maryland offrent à la communauté de recherche une base solide pour faire progresser l'audio compréhension ouverte, un domaine stratégique pour les prochaines générations d'interfaces vocales et d'agents autonomes capables d'agir sur des flux audio en temps réel.

💬 L'audio était vraiment le grand oublié du multimodal, et là c'est NVIDIA qui comble le trou avec une architecture ouverte. Les Rotary Time Embeddings pour ancrer les tokens à leur timestamp réel, c'est le genre de détail qui change tout quand tu travailles sur des enregistrements longs. Reste à voir si les 128k tokens de contexte tiennent vraiment en pratique, mais les poids sont là, le dataset aussi, bonne base.

LLMsOpinion
1 source
Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés
387Siècle Digital 

Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés

Project Glasswing, une initiative de cybersécurité soutenue par douze géants technologiques dont Apple, Google, Microsoft, AWS, Cisco, NVIDIA et JPMorgan Chase, a été lancée pour détecter automatiquement des failles dans les logiciels les plus critiques au monde. Le projet s'appuie sur un système d'intelligence artificielle baptisé Mythos, capable d'analyser en profondeur des bases de code massives pour y repérer des vulnérabilités jusqu'alors inconnues. Plus de quarante organisations gérant des infrastructures logicielles mondiales participent également à l'initiative, coordonnée sous l'égide de la Linux Foundation. Aucun accès public, abonnement commercial ou lancement grand public n'est prévu : le projet fonctionne exclusivement en consortium fermé. L'enjeu est considérable. Les logiciels open source constituent la colonne vertébrale de l'infrastructure numérique mondiale, des serveurs bancaires aux systèmes industriels en passant par les plateformes cloud. Des failles non détectées dans ces composants peuvent exposer des millions d'organisations simultanément, comme l'avait illustré la vulnérabilité Log4Shell en 2021. En automatisant la détection à grande échelle, Mythos promet de réduire drastiquement la fenêtre d'exposition entre l'introduction d'une faille et sa correction, un délai qui se compte aujourd'hui souvent en mois, voire en années. Ce projet s'inscrit dans une tendance de fond : après des années à construire des IA génératives grand public, les grandes entreprises technologiques réorientent une partie de leurs investissements vers des usages à fort impact systémique. La sécurité logicielle, longtemps sous-financée malgré sa criticité, attire désormais des coalitions inédites. Project Glasswing illustre aussi une réponse collective aux pressions réglementaires croissantes en Europe et aux États-Unis, qui imposent aux éditeurs une responsabilité accrue sur la sécurité de leurs chaînes d'approvisionnement logicielles.

UELes pressions réglementaires européennes sur la sécurité des chaînes d'approvisionnement logicielles (Cyber Resilience Act) sont citées comme moteur explicite du projet, qui vise à réduire les risques systémiques pesant sur les infrastructures numériques utilisées en Europe.

SécuritéOpinion
1 source
L'IA transforme les décisions de production des petits vendeurs en ligne
388MIT Technology Review 

L'IA transforme les décisions de production des petits vendeurs en ligne

Mike McClary, entrepreneur de 51 ans basé dans le salon de sa maison en Illinois, a relancé en 2025 une lampe torche qu'il commercialisait sous la marque Guardian LTE, un produit robuste qu'il avait arrêté de vendre en 2017 mais pour lequel les clients continuaient de le solliciter par e-mail. Plutôt que de parcourir des catalogues fournisseurs pendant des semaines, il a ouvert Accio, un outil d'approvisionnement alimenté par l'IA intégré à Alibaba.com. Il a décrit à l'outil le design original, le coût de fabrication et la marge de la lampe. Accio a alors proposé plusieurs modifications, réduire la taille, baisser légèrement la luminosité, passer aux piles, et a identifié un fabricant à Ningbo, en Chine, capable de ramener le coût unitaire de 17 dollars à environ 2,50 dollars. En moins d'un mois, la nouvelle version du Guardian était en vente sur Amazon et sur le site de sa marque. Accio, lancé en 2024, a dépassé les 10 millions d'utilisateurs actifs mensuels en mars 2026, soit environ un utilisateur d'Alibaba sur cinq. Pour les petits vendeurs en ligne américains, trouver quoi vendre et où le faire fabriquer était jusqu'ici un processus lent et laborieux, pouvant s'étendre sur plusieurs mois : parcourir des annonces, comparer les capacités des fournisseurs, demander des échantillons, négocier les délais et les quantités minimales de commande. Des outils comme Accio compressent cette phase en quelques heures. L'interface ressemble à celle de ChatGPT ou Claude, une zone de texte, des modes "rapide" et "réflexion", mais les réponses intègrent des graphiques, des liens vers des fournisseurs et des questions de clarification pour affiner le besoin. L'outil ne remplace pas entièrement la négociation humaine : les vendeurs doivent toujours contacter les fournisseurs eux-mêmes, mais ils arrivent à cette étape avec une sélection déjà qualifiée. Pour des tâches comme l'analyse de sourcing, l'outil "écrase" les assistants généralistes comme ChatGPT, selon Richard Kostick, PDG de la marque beauté 10to1. Alibaba.com, le site historique du groupe listant les usines chinoises ouvertes aux commandes en gros, a bâti Accio sur plusieurs modèles frontière dont sa propre série Qwen, une famille de modèles open source populaire, et l'a entraîné sur 26 ans de données transactionnelles propriétaires et des millions de profils fournisseurs, selon Zhang Kuo, président d'Alibaba.com. Cette initiative s'inscrit dans une concurrence plus large pour capter les PME occidentales cherchant à diversifier leurs chaînes d'approvisionnement, notamment depuis la montée des tensions commerciales entre les États-Unis et la Chine. En automatisant la phase de recherche produit et de sourcing, Alibaba positionne l'IA comme infrastructure centrale du commerce transfrontalier de détail, réduisant la barrière d'entrée pour des entrepreneurs individuels qui n'avaient jusqu'ici ni le temps ni les ressources pour accéder efficacement à la manufacture asiatique.

UELes vendeurs en ligne et PME françaises qui s'approvisionnent via Alibaba.com peuvent potentiellement utiliser Accio, mais l'article ne documente aucune adoption européenne.

OutilsOutil
1 source
Onyx : une alternative à Claude, plus puissante, open-source et locale ?
389Le Big Data 

Onyx : une alternative à Claude, plus puissante, open-source et locale ?

Onyx est une plateforme d'intelligence artificielle open source qui a franchi le cap des 20 000 étoiles sur GitHub début avril 2026, attirant l'attention des équipes techniques à la recherche d'alternatives aux solutions propriétaires comme Claude d'Anthropic. Conçue pour s'installer en self-hosting via Docker, elle fonctionne comme une couche d'orchestration complète : elle se connecte à plus de 40 sources de données d'entreprise (stockage, messagerie, gestion de projet), indexe les contenus en continu et dialogue avec n'importe quel LLM, qu'il s'agisse de modèles cloud, d'API externes ou de modèles tournant entièrement en local. Sur les benchmarks de recherche approfondie, Onyx affiche des scores supérieurs à plusieurs solutions propriétaires, en combinant recherche sémantique, indexation permanente et exploration web intégrée pour produire des réponses contextualisées et traçables. L'enjeu concret est la souveraineté technologique des organisations. En permettant de choisir librement le modèle sous-jacent selon chaque usage et d'optimiser les coûts sans dépendre d'un fournisseur unique, Onyx élimine le risque de verrouillage propriétaire qui préoccupe de nombreux DSI et responsables de la sécurité informatique. Les réponses ne reposent plus sur des données d'entraînement génériques, mais sur les documents internes réels de l'entreprise, synchronisés en temps réel. Dans des environnements professionnels où chaque réponse doit être justifiable et auditable, cette traçabilité représente un avantage opérationnel direct. L'outil "Craft" intégré pousse la logique plus loin : il permet de générer non seulement des documents, mais aussi des tableaux de bord, des applications web et des visualisations à partir des données internes, dans des environnements isolés garantissant la confidentialité. Le lancement d'Onyx s'inscrit dans une dynamique plus large de professionnalisation de l'IA open source, portée par des projets comme LangChain, Ollama ou LlamaIndex, qui ont progressivement rendu accessibles des capacités jusqu'alors réservées aux grandes plateformes cloud. Face à la montée en puissance de Claude, GPT-4o et Gemini, une partie de l'écosystème technique cherche à construire des infrastructures IA qui restent sous contrôle de l'organisation. Onyx mise sur la dimension collaborative pour se différencier davantage : la plateforme gère des rôles, des accès granulaires et des agents automatisés configurables avec des règles précises, la rapprochant d'un système applicatif complet plutôt que d'un simple assistant conversationnel. La prochaine étape pour le projet sera de démontrer sa robustesse à l'échelle dans des environnements de production critiques, un terrain où les solutions propriétaires conservent encore une avance significative en matière de support et de garanties contractuelles.

UELes organisations européennes soucieuses de souveraineté numérique et de conformité RGPD peuvent déployer Onyx en self-hosting pour garder leurs données internes hors des clouds américains.

OutilsOutil
1 source
Le code source de Claude a été divulgué par erreur, que s’est-il passé ?
39001net 

Le code source de Claude a été divulgué par erreur, que s’est-il passé ?

Anthropic a involontairement exposé des éléments sensibles de son assistant Claude en publiant une mise à jour de Claude Code contenant un fichier permettant de reconstituer l'intégralité du code source de l'IA. L'incident a été découvert peu après le déploiement de la mise à jour, forçant la start-up californienne à réagir en urgence pour retirer le fichier incriminé. Cette fuite représente un incident majeur pour Anthropic, dont la valeur repose en grande partie sur la propriété intellectuelle de ses modèles. Le code source d'un grand modèle de langage constitue un actif stratégique de premier ordre : il révèle les choix d'architecture, les techniques d'entraînement et les optimisations qui différencient un modèle de ses concurrents. Une telle divulgation pourrait bénéficier directement à des rivaux comme OpenAI, Google DeepMind ou des acteurs open source cherchant à combler leur retard. Anthropic traverse une période de croissance intense, avec une valorisation dépassant les 60 milliards de dollars et des investissements massifs d'Amazon et Google. La sécurité opérationnelle est un enjeu critique pour les labos d'IA de pointe, qui font face à des menaces de fuites industrielles et d'espionnage. Cet incident rappelle que même les entreprises les plus avancées techniquement restent vulnérables aux erreurs humaines dans leurs processus de déploiement.

SécuritéOpinion
1 source
Ollama accélère les modèles locaux sur Mac grâce au support MLX
391Ars Technica AI 

Ollama accélère les modèles locaux sur Mac grâce au support MLX

Ollama, le système d'exécution qui permet de faire tourner des grands modèles de langage en local, vient d'annoncer la prise en charge du framework open source MLX d'Apple, conçu spécifiquement pour le machine learning sur les puces Apple Silicon. En parallèle, la plateforme a amélioré ses performances de mise en cache et ajoute la prise en charge du format NVFP4 de Nvidia, une technique de compression de modèles qui réduit significativement l'empreinte mémoire. Ces trois avancées conjuguées se traduisent par des gains de vitesse substantiels pour les utilisateurs de Mac équipés de puces M1 ou plus récentes. L'impact est concret pour les développeurs et professionnels qui souhaitent exécuter des modèles IA sans dépendre du cloud : les temps d'inférence diminuent, la consommation mémoire baisse, et des modèles autrefois trop lourds pour tourner confortablement sur un MacBook deviennent utilisables au quotidien. La compression NVFP4 est particulièrement significative car elle permet de faire tenir des modèles plus puissants dans la mémoire unifiée des Mac, sans perte de qualité notable — un verrou technique majeur qui saute. Ces annonces s'inscrivent dans un moment charnière pour l'IA locale. L'engouement autour d'OpenClaw — un projet qui a dépassé les 300 000 étoiles sur GitHub en un temps record, généré des expériences virales comme Moltbook, et suscité une véritable obsession en Chine — a propulsé l'exécution de modèles en local bien au-delà des cercles de chercheurs et de passionnés. Ce qui était niche il y a six mois touche désormais un public bien plus large de développeurs et d'entreprises soucieux de confidentialité, de coûts et d'autonomie vis-à-vis des fournisseurs cloud. Ollama se positionne ainsi comme infrastructure clé de cet écosystème en pleine explosion.

UELes développeurs et entreprises européennes utilisant des Mac Apple Silicon peuvent exécuter des modèles IA en local plus rapidement, renforçant leur autonomie vis-à-vis des fournisseurs cloud et facilitant la conformité RGPD.

OutilsOutil
1 source
Les 4 derniers métiers qui résisteront à l'IA dans la tech
392Latent Space 

Les 4 derniers métiers qui résisteront à l'IA dans la tech

L'intelligence artificielle est en train de remodeler en profondeur les organigrammes des entreprises technologiques. Yoni Rechtman, dans sa newsletter 99D, propose un cadre conceptuel pour penser les nouveaux rôles post-IA dans le travail en col blanc, que Karri Saarinen, PDG de Linear, a popularisé en l'analogisant aux rôles de jeu d'équipe apparus dans World of Warcraft. Cette semaine a aussi été marquée par plusieurs avancées majeures côté outils : Anthropic a intégré l'utilisation de l'ordinateur (computer use) directement dans Claude Code, permettant à l'agent d'ouvrir des applications, de cliquer dans des interfaces et de tester ce qu'il vient de construire depuis la ligne de commande — une fonctionnalité en préversion pour les abonnés Pro et Max. Parallèlement, OpenAI a publié un plugin Codex pour Claude Code, capable de déclencher des revues de code, des contre-analyses adversariales et des flux de "sauvetage" depuis l'outillage d'Anthropic, en utilisant un abonnement ChatGPT. OpenAI a également révélé que les tâches Codex lancées vers 23h ont 60 % de chances de durer plus de trois heures, confirmant la tendance à déléguer refactorisations et planifications à des agents en arrière-plan. Ces évolutions ont des conséquences très concrètes sur la façon dont les équipes de développement travaillent. L'intégration de computer use dans Claude Code ferme la boucle entre l'écriture du code, son exécution et la vérification visuelle de l'interface — ce que plusieurs ingénieurs décrivent comme la pièce manquante pour une itération fiable sur les applications. Le fait qu'OpenAI et Anthropic rendent leurs outils interopérables via un plugin standard signale que les stacks de développement évoluent vers des architectures composables plutôt que des produits monolithiques. Par ailleurs, Theo a démontré qu'Opus obtient environ 20 % de meilleures performances dans Cursor que dans Claude Code, soulignant que la qualité du harness — l'environnement d'exécution et d'orchestration — est désormais une variable de premier ordre, parfois plus déterminante que les capacités intrinsèques du modèle lui-même. Dans l'écosystème open source, Nous Research a publié une mise à jour majeure de Hermes Agent qui a provoqué une vague de migrations depuis des configurations concurrentes. Les nouveaux profils multi-agents permettent à chaque bot de disposer de sa propre mémoire, de ses compétences et de son historique, transformant Hermes d'un assistant personnel en une abstraction de système d'exploitation pour agents. Autour de ce noyau se construit un écosystème : opentraces.ai propose un flux CLI pour publier des traces d'agents sur Hugging Face à des fins d'évaluation et de fine-tuning ; d'autres projets permettent aux agents de journaliser leurs décisions, de se fine-tuner sur leur propre historique et de basculer vers des modèles moins coûteux. La bataille entre infrastructure d'agents ouverte et propriétaire s'intensifie, avec des acteurs comme Clément Delangue d'Hugging Face qui prennent position publiquement dans ce débat structurant pour l'avenir du secteur.

UEClément Delangue d'Hugging Face (entreprise française) s'implique publiquement dans le débat structurant sur l'infrastructure d'agents ouverte vs propriétaire, un enjeu direct pour la souveraineté numérique européenne.

OutilsOutil
1 source
Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x
393MarkTechPost 

Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x

Salesforce AI Research a publié VoiceAgentRAG, une architecture open source à double agent conçue pour résoudre l'un des problèmes les plus critiques des assistants vocaux : la latence de récupération des données. Dans un système RAG (Retrieval-Augmented Generation) classique, chaque requête vers une base vectorielle distante introduit entre 50 et 300 millisecondes de délai réseau — un délai qui, pour la voix, consume la totalité du budget disponible avant même que le modèle de langage commence à générer une réponse. VoiceAgentRAG réduit ce délai de récupération de 316 fois, passant de 110 ms à 0,35 ms, grâce à un cache sémantique local. Sur 200 requêtes testées avec Qdrant Cloud comme base vectorielle distante, le système atteint un taux de cache hit global de 75 % (79 % sur les tours de conversation où le cache est déjà chaud), économisant 16,5 secondes de temps de récupération au total. Ce gain de performance change fondamentalement ce qui est possible dans les interfaces vocales alimentées par l'IA. Maintenir une conversation naturelle exige une réponse en moins de 200 millisecondes — contrainte que les systèmes RAG standards ne peuvent pas respecter en production. En découplant la récupération des documents de la génération de réponse, VoiceAgentRAG permet aux agents vocaux d'accéder à une base de connaissances étendue sans sacrifier la fluidité conversationnelle. L'architecture est compatible avec les principaux fournisseurs LLM (OpenAI, Anthropic, Gemini, Ollama) et les systèmes d'embedding courants, ce qui facilite son intégration dans des stacks existants. Les scénarios de conversation thématiquement cohérents, comme la comparaison de fonctionnalités, atteignent jusqu'à 95 % de cache hit ; les scénarios plus volatils descendent à 45-55 %. L'architecture repose sur deux agents parallèles coordonnés par un bus d'événements asynchrone. Le « Fast Talker » gère le chemin critique : il interroge d'abord un cache FAISS en mémoire, et ne fait appel à la base distante qu'en cas d'échec, avant de mettre le résultat en cache pour les tours suivants. Le « Slow Thinker » opère en arrière-plan : il analyse une fenêtre glissante des six derniers tours de conversation pour anticiper trois à cinq sujets probables et pré-charger les documents correspondants avant que l'utilisateur ne pose sa prochaine question. Une subtilité technique notable : le Slow Thinker génère des descriptions stylistiquement proches des documents sources plutôt que des questions, alignant ainsi les embeddings de prédiction sur ceux des textes réels dans la base. Le cache utilise un seuil de similarité cosinus de 0,40 pour les correspondances et une politique d'éviction LRU avec une durée de vie de 300 secondes. Publié en open source sur arXiv (2603.02206), VoiceAgentRAG marque une étape concrète vers des agents vocaux capables de raisonner sur des bases documentaires larges en temps réel.

RecherchePaper
1 source
Les prix des H100 s'envolent
394Latent Space 

Les prix des H100 s'envolent

Depuis décembre 2025, les prix de location des GPU H100 de Nvidia repartent fortement à la hausse, effaçant la correction observée début 2025 après le choc DeepSeek R1. Selon le commentateur Dylan sur le podcast Dwarkesh, les H100 valent aujourd'hui davantage qu'il y a trois ans, au moment de leur lancement. Cette inversion de tendance intervient alors que la plupart des acteurs du secteur tablaient sur une dépréciation progressive sur quatre à sept ans. Les raisons avancées sont multiples : une pénurie générale de puces haut de gamme, l'émergence des modèles de raisonnement de décembre 2025, et l'amélioration spectaculaire des logiciels d'inférence, qui rendent une puce de quatre ans beaucoup plus efficace qu'elle ne l'était à sa sortie. Ce retournement a des implications directes sur la rentabilité des centres de données spécialisés en IA. Les modèles économiques construits sur l'hypothèse d'une dépréciation rapide du matériel se trouvent bousculés : un H100 loué plus cher que prévu change profondément les équations de coût par token pour les opérateurs cloud et les startups qui ne possèdent pas leur propre infrastructure. En parallèle, Anthropic serait sur le point de bénéficier d'un financement de Google pour la construction d'un centre de données — selon le Financial Times — ce qui illustre que la compétition frontier est désormais autant une question de capacité électrique et de capital que d'algorithmes. Ce contexte tendu se double d'une semaine chargée pour Anthropic : une fuite interne sur un système baptisé « Claude Mythos » a révélé l'existence d'un nouveau niveau d'abonnement nommé Capybara, décrit comme supérieur à Claude Opus 4.6, plus grand et plus intelligent, avec des scores nettement améliorés en programmation, raisonnement académique et cybersécurité. Le déploiement serait freiné par des contraintes de coût et de sécurité, et la spéculation va bon train autour d'un modèle de classe 10 000 milliards de paramètres évoqué par le PDG Dario Amodei. Pendant ce temps, côté open source, Zhipu a ouvert l'accès à GLM-5.1 à tous les utilisateurs de son offre coding, et la communauté constate que l'écart entre modèles fermés et ouverts n'a jamais été aussi réduit. Des utilisateurs rapportent avoir remplacé des abonnements TTS payants par des modèles locaux comme Qwen 3.5 14B, ou avoir fait tourner Qwen3.5-35B dans 24 Go de VRAM avec seulement 1 % de perte de performance grâce à la quantification — signe que l'économie de l'inférence locale devient viable pour un nombre croissant de cas d'usage professionnels.

UELa hausse des prix des H100 alourdit les coûts d'exploitation des opérateurs cloud et startups européens sans infrastructure propre, fragilisant les modèles économiques construits sur une dépréciation rapide du matériel.

InfrastructureActu
1 source
L'avenir de l'IA entre ouverture et propriétaire
395NVIDIA AI Blog 

L'avenir de l'IA entre ouverture et propriétaire

L'intelligence artificielle s'impose comme l'infrastructure technologique centrale de notre époque, portée par un écosystème diversifié de modèles — grands et petits, ouverts et propriétaires, généralistes et spécialisés. Lors d'une session spéciale consacrée aux modèles ouverts à la conférence NVIDIA GTC, Jensen Huang, fondateur et PDG de NVIDIA, a résumé la situation en une phrase : « Propriétaire versus open source n'est pas un débat. C'est propriétaire et open source. » Pour illustrer cet engagement, NVIDIA a annoncé la création de la Nemotron Coalition, une collaboration mondiale inédite regroupant des laboratoires d'IA et des développeurs de modèles pour faire avancer les modèles fondamentaux ouverts. Le premier projet issu de cette coalition sera un modèle de base codéveloppé par Mistral AI et NVIDIA, dont les membres apporteront données, évaluations et expertise sectorielle. Les modèles Nemotron ont déjà été téléchargés plus de 45 millions de fois sur Hugging Face, plateforme sur laquelle NVIDIA est désormais la plus grande organisation avec près de 4 000 membres d'équipe. Plusieurs panels réunissant des figures majeures du secteur — dont Mira Murati (Thinking Machines Lab), Aravind Srinivas (Perplexity), Michael Truell (Cursor) et Arthur Mensch (Mistral) — ont dégagé des tendances clés. Les agents IA s'apprêtent à devenir de véritables collègues capables de mener des tâches complexes sur plusieurs jours. L'IA n'est plus un modèle unique mais un système orchestré : « ce que vous voulez, c'est une orchestra multimodale, multi-modèles et multi-cloud », a déclaré Srinivas. L'ouverture des modèles est présentée comme un moteur d'innovation indispensable, aussi bien pour les grandes entreprises que pour la recherche académique. Murati a insisté sur ce point : « il y a beaucoup d'études à mener qui ne peuvent pas être réalisées uniquement dans les grands laboratoires — c'est là que l'ouverture est précieuse, elle fait avancer la science de l'intelligence. » Cette dynamique s'inscrit dans un tournant structurel où chaque secteur — santé, finance, industrie — a besoin d'une IA adaptée à ses données et workflows spécifiques, rendant la coexistence de modèles ouverts et propriétaires non seulement inévitable, mais souhaitable pour accélérer l'innovation à tous les niveaux.

UEMistral AI, acteur français majeur, est cofondateur de la Nemotron Coalition aux côtés de NVIDIA, ce qui renforce son rôle stratégique dans l'écosystème mondial des modèles ouverts.

LLMsActu
1 source
Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1
396AWS ML Blog 

Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1

Amazon Web Services et Pipecat ont publié un guide détaillé sur le déploiement d'agents vocaux intelligents en production, s'appuyant sur la nouvelle infrastructure Amazon Bedrock AgentCore Runtime. La solution combine Pipecat, un framework open source spécialisé dans les pipelines audio temps réel, avec l'environnement serverless d'AWS pour permettre des conversations vocales naturelles sur le web, le mobile et la téléphonie. L'architecture prend en charge trois protocoles de transport réseau : WebSockets, WebRTC et l'intégration téléphonique classique. Chaque session de conversation tourne dans des microVMs isolées, avec une capacité de session continue allant jusqu'à 8 heures, et une mise à l'échelle automatique face aux pics de trafic. Le runtime impose l'usage de conteneurs ARM64 (Graviton), ce qui nécessite que les images Docker soient compilées spécifiquement pour l'architecture linux/arm64. Ce que change cette combinaison est significatif pour les équipes qui déploient des agents en production : elle élimine plusieurs problèmes récurrents liés aux architectures vocales temps réel, notamment la gigue audio, les contraintes de montée en charge, et les coûts liés au sur-provisionnement. La facturation à l'usage actif — et non à la capacité réservée — réduit directement les coûts d'infrastructure inactive. Sur le plan technique, la latence reste le défi central : une conversation naturelle exige une réponse inférieure à une seconde de bout en bout. Pour y parvenir, le système mise sur le streaming bidirectionnel à deux niveaux — entre le client et l'agent d'une part, et entre l'agent et les modèles de langage d'autre part. Le choix du modèle est déterminant : AWS recommande Amazon Nova Sonic pour les pipelines speech-to-speech, ou Nova Lite dans une approche en cascade (STT → LLM → TTS), tous deux optimisés pour minimiser le Time-to-First-Token. La plateforme intègre également de l'observabilité native pour tracer le raisonnement de l'agent et ses appels d'outils. Ce premier volet d'une série de publications s'adresse aux développeurs déjà familiers des architectures vocales en cascade et speech-to-speech. Il fait suite à un article précédent d'AWS comparant Amazon Nova Sonic aux approches en cascade, et pose les bases techniques pour les déploiements Pipecat sur AgentCore Runtime.

OutilsTuto
1 source
OpenAI s’empare d’Astral, le fabricant Python pour défier Anthropic
397Le Big Data 

OpenAI s’empare d’Astral, le fabricant Python pour défier Anthropic

OpenAI a annoncé le rachat d'Astral, startup fondée par Charlie Marsh il y a trois ans, connue pour ses outils open source Python — notamment uv (126M téléchargements/mois), Ruff (179M/mois) et ty (19M/mois). L'objectif est d'intégrer l'équipe Astral à Codex pour accélérer le développement de l'assistant de programmation d'OpenAI et étendre les capacités de l'IA sur l'ensemble du cycle de développement logiciel. Charlie Marsh a confirmé que les outils resteront open source après l'acquisition.

UELes développeurs français utilisant uv et Ruff devront surveiller l'évolution de ces outils open source désormais sous contrôle d'OpenAI.

OutilsActu
1 source
Après Perplexity, Meta lance sa propre alternative à OpenClaw
39801net 

Après Perplexity, Meta lance sa propre alternative à OpenClaw

Meta a enrichi Manus, l'agent IA récemment racheté, avec une nouvelle fonction permettant à l'IA de s'exécuter localement sur PC plutôt que dans le cloud. Cette mise à jour positionne Manus comme une alternative grand public à OpenClaw, l'agent open source populaire chez les développeurs. Meta entre ainsi en concurrence directe avec Perplexity et son offre Personal Computer.

UELes développeurs et utilisateurs européens disposent d'une nouvelle option d'agent IA local sur PC, réduisant la dépendance au cloud américain.

OutilsOutil
1 source
La version OpenClaw de Nvidia pourrait résoudre son plus grand problème : la sécurité
399TechCrunch AI 

La version OpenClaw de Nvidia pourrait résoudre son plus grand problème : la sécurité

Nvidia a annoncé NemoClaw, une plateforme enterprise open source pour agents IA, basée sur OpenClaw. Cette initiative vise à résoudre le principal défi de Nvidia dans ce domaine : la sécurité des systèmes d'IA agentiques.

UELes entreprises européennes déployant des agents IA pourront s'appuyer sur NemoClaw pour renforcer la sécurité de leurs systèmes, en lien avec les exigences de l'AI Act.

OutilsActu
1 source
Le « Personal Computer » de Perplexity amène ses agents IA sur le… PC
400Ars Technica AI 

Le « Personal Computer » de Perplexity amène ses agents IA sur le… PC

Perplexity lance "Personal Computer", un agent IA en accès anticipé (sur invitation) qui s'exécute localement sur Mac Mini et donne aux agents un accès direct aux fichiers et applications de l'utilisateur. Contrairement à son homologue cloud "Computer", il permet de compléter des tâches complexes (créer des guides interactifs, produire des podcasts) en manipulant directement l'environnement local, tout en restant accessible à distance depuis n'importe quel appareil. Le concept rappelle l'outil open source OpenClaw, mais dans une version plus soignée avec une interface dockable permettant de suivre plusieurs tâches simultanément.

OutilsOutil
1 source