Aller au contenu principal

Dossier OpenAI — page 27

1663 articles · page 27 sur 34

Toute l'actualité d'OpenAI : nouvelles versions de ChatGPT et GPT, stratégie produit, partenariats, controverses et décisions de Sam Altman.

L'optimisation des hyperparamètres sur Amazon Nova Forge
1301AWS ML Blog LLMsActu

L'optimisation des hyperparamètres sur Amazon Nova Forge

Amazon a publié un guide technique détaillé sur l'optimisation des hyperparamètres dans Nova Forge, son service cloud dédié à la personnalisation de modèles de langage à grande échelle. Nova Forge permet aux entreprises de partir de points de contrôle anticipés des modèles Amazon Nova, de les entraîner sur leurs données propriétaires tout en les mélangeant à des jeux de données soigneusement sélectionnés par Amazon, et d'héberger les modèles résultants de façon sécurisée sur AWS. Le processus repose sur trois leviers principaux : le taux d'apprentissage, le ratio de mélange des données, la sélection du point de contrôle et les techniques d'entraînement. Selon Amazon, mal calibrer l'un de ces paramètres suffit à compromettre silencieusement toute une campagne d'entraînement, parfois très coûteuse en ressources de calcul. L'enjeu central est ce que les chercheurs appellent l'oubli catastrophique : lorsqu'un modèle est entraîné intensivement sur des données d'un domaine étroit, il tend à écraser les capacités générales acquises lors du pré-entraînement, comme le raisonnement, le suivi d'instructions ou la gestion de conversations multi-tours. Un modèle de service client affiné sur des tickets de support peut ainsi perdre sa capacité à traiter des requêtes ambiguës. Pour contrecarrer ce phénomène, Nova Forge s'appuie sur le mélange de données, qui intègre des corpus Amazon curatés aux données propriétaires pendant l'entraînement, et sur la sélection de point de contrôle, qui permet de doser la quantité d'alignement général conservée. Le taux d'apprentissage reste le paramètre le plus sensible : trop élevé, il déstabilise l'entraînement ou provoque un oubli rapide des capacités de base ; trop bas, il gaspille du calcul en convergeant très lentement. Nova Forge s'inscrit dans une dynamique plus large de démocratisation des modèles frontières propriétaires. Plutôt que de laisser les entreprises se limiter à du fine-tuning superficiel, le service leur permet d'accéder à des checkpoints précoces des modèles Nova et d'y injecter leur propre connaissance métier dès les premières couches d'entraînement. Ce positionnement concurrence directement les offres similaires d'OpenAI, Google et Mistral, qui proposent eux aussi des voies de personnalisation profonde pour les grandes entreprises. La publication de ce guide signale une volonté d'Amazon de réduire le taux d'échec des projets de personnalisation, souvent abandonnés faute de maîtrise des interactions entre hyperparamètres. Les prochaines étapes pour Nova Forge pourraient inclure des outils automatisés de recherche d'hyperparamètres, déjà expérimentés dans d'autres plateformes MLOps, afin de réduire encore la charge d'expertise requise.

1 source
L'indice du battage médiatique autour de l'IA : l'IA se fait huer lors des cérémonies de remise de diplômes
1302MIT Technology Review 

L'indice du battage médiatique autour de l'IA : l'IA se fait huer lors des cérémonies de remise de diplômes

La saison des remises de diplômes 2026 aux États-Unis a révélé une fracture entre le discours pro-IA des élites technologiques et le scepticisme des nouvelles générations. Eric Schmidt, ancien PDG de Google, a été accueilli par des huées nourries lors de son discours à l'Université d'Arizona, où il invitait les diplômés à contribuer à façonner l'intelligence artificielle. "Je vous entends", a-t-il concédé, avant d'admettre que les craintes autour de la disparition des emplois et d'un avenir compromis étaient "rationnelles". Le phénomène ne s'est pas limité à Tucson : des scènes similaires ont été rapportées lors de cérémonies à l'Université de Floride Centrale et à la Middle Tennessee State University, où les discours enthousiastes sur l'IA ont provoqué des réactions hostiles dans le public. Ces réactions illustrent un malaise profond chez une génération qui entre sur un marché du travail déjà marqué par l'automatisation et les suppressions de postes dans les secteurs tech et créatifs. Pour des diplômés endettés, applaudir une technologie présentée comme susceptible de remplacer leurs futurs emplois relève de l'absurde. L'écart entre les promesses des dirigeants de la Silicon Valley et le vécu concret des jeunes actifs n'a jamais semblé aussi large, transformant les discours de remise de diplômes en baromètre inattendu du rejet populaire du "AI hype". Ce climat de défiance contraste pourtant avec la santé insolente de l'industrie. OpenAI continue d'enchaîner les victoires judiciaires, les levées de fonds records et les nouveaux partenariats stratégiques, sans que la grogne publique ne freine sa trajectoire. Et les promoteurs de l'IA se recrutent désormais dans des cercles inattendus : l'actrice et productrice Reese Witherspoon a publiquement averti les femmes qu'elles devaient adopter l'IA sous peine d'être remplacées par elle. La contestation estudiantine, aussi symbolique soit-elle, ne semble pas suffire à ralentir une industrie qui lève des milliards quelles que soient les humeurs des amphithéâtres.

SociétéOpinion
1 source
[VIDÉO] Arena.ai : accédez à des outils d’IA gratuits sans débourser un centime
1303Le Big Data 

[VIDÉO] Arena.ai : accédez à des outils d’IA gratuits sans débourser un centime

Arena.ai est une plateforme en ligne qui propose un accès gratuit à certains des grands modèles de langage les plus avancés du moment, dont Grok, Gemini et GPT, sans abonnement ni engagement financier. Le principe original de la plateforme repose sur la comparaison collaborative : l'utilisateur soumet un même prompt à deux modèles en parallèle, compare les réponses et vote pour la meilleure. Ces votes alimentent un classement public, un leaderboard, qui reflète les préférences réelles de la communauté plutôt que des benchmarks techniques artificiels. Mais rien n'oblige à participer au vote : Arena.ai peut tout aussi bien s'utiliser comme simple portail d'accès gratuit à ces modèles, selon le besoin du moment. L'intérêt concret pour les professionnels et les curieux est évident : les abonnements individuels aux outils d'IA leaders coûtent plusieurs dizaines d'euros par mois, et multiplier les accès devient vite coûteux. Arena.ai permet de solliciter ponctuellement un modèle puissant pour une tâche précise, rédaction, code, analyse, sans payer d'abonnement dédié. Pour des usages irréguliers ou pour tester un modèle avant de s'y engager, c'est une ressource à connaître. La plateforme présente néanmoins des limites réelles : la disponibilité des modèles n'est pas garantie en permanence, l'interface reste volontairement minimaliste, et la stabilité peut varier. Pour un workflow professionnel quotidien, un outil dédié reste préférable. Arena.ai s'inscrit dans une tendance plus large de plateformes cherchant à démocratiser l'accès aux LLM tout en produisant des données d'évaluation à grande échelle. Son système de vote pair-à-pair est inspiré du projet LMSYS Chatbot Arena, né dans le monde académique, qui a popularisé ce type de classement fondé sur les préférences humaines réelles. Alors que les grandes maisons comme OpenAI, Google ou xAI se livrent une concurrence intense sur les performances de leurs modèles, des plateformes comme Arena.ai deviennent des observatoires indépendants de la perception utilisateur, et un point d'entrée gratuit dans cet écosystème en pleine consolidation.

OutilsOutil
1 source
L’IA physique : le prochain marché que surveille déjà Wall Street
1304Robot Magazine FR 

L’IA physique : le prochain marché que surveille déjà Wall Street

Wall Street identifie désormais la "Physical AI" comme le prochain cycle d'investissement majeur après l'IA générative. Selon plusieurs cabinets spécialisés, le marché mondial de la robotique intelligente et de l'IA physique pourrait dépasser 3 000 milliards de dollars d'ici 2040. Goldman Sachs est plus précis sur le segment humanoïde : 150 milliards de dollars d'ici 2035, avec un marché global de robotique intelligente franchissant les 400 milliards. NVIDIA, valorisé à plus de 3 000 milliards de dollars en 2026, est présenté comme le principal bénéficiaire actuel de cette tendance, son PDG Jensen Huang ayant publiquement intégré la "Physical AI" à sa feuille de route. Tesla, de son côté, est repositionnée dans cette grille de lecture grâce à son robot humanoïde Optimus, au-delà de son coeur de marché automobile. À noter : ces chiffres sont des projections de marché, pas des revenus confirmés, et l'article ne cite aucune métrique opérationnelle de déploiement. La rupture que pointe cet article est structurelle : l'IA générative est restée confinée aux écrans (texte, images, code), tandis que la Physical AI vise à en faire une force de travail dans le monde réel, capable de manipuler des objets, se déplacer et exécuter des tâches physiques de manière autonome. Pour un COO industriel ou un intégrateur, ce changement de paradigme est pertinent dans un contexte de pénuries de main-d'oeuvre persistantes et d'accélération de l'automatisation. Ce qui change pour les décideurs B2B, c'est l'horizon de planification : les fonds se positionnent déjà, ce qui signifie que les valuations des acteurs émergents (robotique, simulation, edge computing industriel) vont probablement se comprimer dans les 18 à 36 prochains mois, avant même que des déploiements à grande échelle soient prouvés. Ce récit s'inscrit dans un cycle bien rodé : après le cloud (AWS, Azure), puis l'IA générative (NVIDIA, OpenAI), les analystes financiers cherchent le prochain thème de surperformance. NVIDIA a amorcé ce pivot avec ses plateformes Isaac (simulation robotique) et Cosmos (world model pour robots), et ses partenariats avec Figure, 1X, Agility Robotics ou Boston Dynamics. Tesla joue la même carte avec Optimus, dont les premières vidéos de ligne de production interne ont été diffusées fin 2024, sans chiffres de cadence publiés. L'article reste toutefois une analyse financière généraliste : il ne cite aucun robot spécifique avec des métriques techniques (DOF, payload, cycle time), aucun site de déploiement confirmé, et aucun acteur européen malgré la pertinence d'entreprises comme Wandercraft ou Enchanted Tools sur ce segment. Les prochaines étapes annoncées restent floues, ce qui est caractéristique du registre "thème d'investissement émergent" plutôt que d'un bilan opérationnel.

UELa dynamique d'investissement Wall Street sur la Physical AI devrait indirectement comprimer les valorisations des startups robotiques européennes dans les 18-36 mois, avant tout déploiement prouvé, ce qui rend la fenêtre de levée de fonds pour des acteurs comme Wandercraft ou Enchanted Tools potentiellement plus courte.

RobotiqueOpinion
1 source
Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique
1305arXiv cs.RO 

Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique

Une équipe de recherche publie TapSampling (arXiv:2605.25547, mai 2026), un cadre plug-and-play d'échantillonnage au moment de l'inférence pour la manipulation robotique. Là où la majorité des travaux du domaine cherchent à améliorer les performances en augmentant la taille des données d'entraînement ou des modèles, TapSampling explore un axe différent : l'exploitation du calcul disponible à l'inférence. Le système repose sur deux composants. D'abord, un Action-VAE qui projette les actions générées par la politique dans un espace latent de faible dimension via une distribution postérieure compressée, permettant de tirer un nombre arbitraire d'actions candidates approximant la distribution réelle. Ensuite, un vérificateur sémantique qui reformule la sélection d'actions comme une prédiction de progression de tâche (task-progress outcome prediction), en exploitant la structure séquentielle intrinsèque des jeux de données robotiques pour choisir l'action la plus prometteuse de façon interprétable. L'intérêt principal réside dans l'agnosticisme vis-à-vis de la politique sous-jacente : TapSampling s'applique sans fine-tuning additionnel à des modèles généralistes existants, qu'ils soient basés sur la diffusion ou sur des architectures autorégressives. Les expériences présentées en simulation et en conditions réelles montrent des améliorations qualifiées de « substantielles » sur plusieurs politiques généralistes, bien que l'abstract ne fournisse pas de chiffres précis de taux de réussite, ce qui invite à la prudence avant de juger de l'ampleur réelle des gains. Pour les ingénieurs robotique et les intégrateurs, l'approche ouvre la possibilité d'améliorer des politiques déjà déployées sans réentraînement, en ajoutant simplement un surcoût computationnel à l'inférence. Ce travail s'inscrit dans une tendance plus large consistant à transposer le test-time compute scaling, popularisé par les grands modèles de langage (OpenAI o1, DeepSeek-R1), vers la robotique embodied. D'autres approches comparables incluent le Best-of-N sampling avec des modèles de récompense appris séparément, ainsi que les méthodes de vérification intégrées dans des politiques comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). TapSampling se distingue par un vérificateur ancré dans la progression de tâche plutôt que dans une récompense exogène, ce qui lui confère une meilleure lisibilité sémantique. Le code et les modèles sont mis à disposition via la page projet des auteurs, ce qui permettra une reproduction et une évaluation indépendante des résultats annoncés.

RobotiqueActu
1 source
Construire un pipeline complet d'observabilité et d'évaluation Langfuse pour le traçage, la gestion des prompts, le scoring et les expériences
1306MarkTechPost 

Construire un pipeline complet d'observabilité et d'évaluation Langfuse pour le traçage, la gestion des prompts, le scoring et les expériences

Langfuse, plateforme open-source d'ingénierie LLM, propose un pipeline complet couvrant quatre dimensions critiques du développement d'applications à base de grands modèles de langage : le tracing des appels, la gestion centralisée des prompts, le scoring d'évaluation et les expérimentations sur datasets. Le tutoriel publié cette semaine détaille une implémentation complète, compatible aussi bien avec l'API OpenAI (notamment le modèle gpt-4o-mini) qu'avec un LLM déterministe simulé, permettant à tout développeur d'explorer chaque fonctionnalité sans dépendre d'un accès payant. L'intégration commence par la connexion au client Langfuse via des clés d'authentification publique et secrète (formats pk-lf- et sk-lf-), avec support des régions EU, US et des instances auto-hébergées. Le pipeline instrumente ensuite des fonctions Python simples puis un mini-pipeline RAG (Retrieval-Augmented Generation), en attachant à chaque appel LLM des métadonnées de trace, un modèle, des paramètres de température et des identifiants de prompt. Pour les équipes qui développent des produits IA en production, cette approche résout un problème central : la boîte noire des LLMs. Avec Langfuse, chaque génération devient observable, chaque prompt est versionné et centralisé, et chaque réponse peut recevoir un score d'évaluation automatique ou humain. Cela permet de détecter les régressions de qualité entre versions de prompts, de comparer les performances de différents modèles sur un même dataset, et de construire une boucle d'amélioration continue documentée. Les équipes produit et ML gagnent une visibilité structurée sur ce qui se passe réellement à l'intérieur de leurs pipelines, ce qui est aujourd'hui l'un des manques les plus critiques dans le déploiement d'applications LLM à l'échelle. Langfuse s'inscrit dans un écosystème en pleine structuration autour de l'observabilité LLM, aux côtés de solutions comme LangSmith (LangChain), Weights & Biases Weave ou Helicone. Sa différenciation principale repose sur son caractère open-source et la possibilité de l'auto-héberger, ce qui répond directement aux contraintes de conformité et de souveraineté des données des entreprises européennes. La montée en maturité de ces outils reflète un tournant dans l'industrie : les LLMs ne sont plus des prototypes à évaluer manuellement, mais des composants de production qui exigent la même rigueur d'ingénierie que n'importe quel service critique. L'intégration native avec le SDK OpenAI via un simple remplacement d'import facilite une adoption progressive, sans refonte d'architecture, ce qui devrait accélérer son adoption dans des stacks existantes.

UELangfuse étant open-source et auto-hébergeable, les entreprises européennes peuvent l'adopter en respectant leurs contraintes RGPD et de souveraineté des données, sans dépendre d'infrastructures américaines.

OutilsOutil
1 source
Google Shopping : votre panier vérifie automatiquement que votre processeur est compatible avec votre carte mère
1307Frandroid 

Google Shopping : votre panier vérifie automatiquement que votre processeur est compatible avec votre carte mère

Lors de sa conférence I/O 2026, Google a annoncé une refonte profonde de son expérience d'achat en ligne avec trois fonctionnalités majeures. La première, baptisée Universal Cart, est un panier intelligent capable de vérifier automatiquement la compatibilité entre les composants informatiques que vous ajoutez, par exemple, s'assurer qu'un processeur est bien compatible avec la carte mère sélectionnée. Les deux autres innovations comprennent un nouveau protocole permettant aux marchands et aux agents IA de communiquer directement entre eux, ainsi qu'un système sécurisé autorisant un agent IA à effectuer des paiements au nom de l'utilisateur. Ces annonces transforment concrètement la façon dont les consommateurs et les entreprises interagissent avec le commerce en ligne. L'Universal Cart réduit les erreurs d'achat coûteuses, particulièrement dans les domaines techniques comme l'informatique où les incompatibilités sont fréquentes. Le protocole marchand-IA ouvre la voie à des achats entièrement automatisés, sans friction humaine, tandis que la délégation de paiement à un agent représente un saut qualitatif dans l'autonomie des assistants numériques. Ces développements s'inscrivent dans la stratégie plus large de Google visant à positionner ses agents IA au cœur des transactions du quotidien, face à la concurrence d'Amazon, d'OpenAI et d'Apple qui développent des capacités similaires. La question de la confiance et de la sécurité autour des paiements délégués sera centrale pour l'adoption grand public, et Google devra convaincre à la fois les marchands d'adopter son nouveau protocole et les utilisateurs de laisser une IA gérer leur argent.

UELes marchands européens utilisant Google Shopping devront évaluer l'adoption du nouveau protocole marchand-IA, et la délégation de paiement à des agents soulèvera des questions de conformité avec la réglementation européenne sur les services de paiement (DSP2).

OutilsOutil
1 source
Supertone lance Supertonic v3 : modèle de synthèse vocale embarquée en 31 langues, avec moins d'erreurs de lecture et des balises d'expression
1308MarkTechPost 

Supertone lance Supertonic v3 : modèle de synthèse vocale embarquée en 31 langues, avec moins d'erreurs de lecture et des balises d'expression

Supertone a publié Supertonic 3, la troisième génération de son moteur de synthèse vocale embarqué, basé sur le format ONNX. Cette nouvelle version prend en charge 31 langues, contre seulement 5 dans la version précédente (anglais, coréen, espagnol, portugais et français). Parmi les ajouts figurent l'allemand, l'arabe, le japonais, le russe, le turc, le néerlandais ou encore le vietnamien. Le modèle pèse environ 99 millions de paramètres et occupe 404 Mo sur disque, une empreinte nettement inférieure aux systèmes TTS open-source comparables qui atteignent généralement 700 millions à 2 milliards de paramètres. La v3 corrige aussi les erreurs de lecture que l'on observait dans la v2 (répétitions et omissions de mots), et introduit des balises expressives directement insérables dans le texte : `, , ` permettent de contrôler la prosodie sans modèle auxiliaire. Supertone a également lancé en parallèle un outil baptisé Voice Builder, qui permet aux développeurs de créer des modèles vocaux personnalisés à partir de leurs propres enregistrements. La force de Supertonic 3 réside dans sa capacité à fonctionner entièrement hors ligne, sans GPU, sur du matériel très contraint. Le modèle atteint un RTF (Real-Time Factor) de 0,3 sur un Onyx Boox Go 6, une liseuse e-ink sans connexion réseau, ce qui signifie qu'il génère de la parole trois fois plus vite que la durée réelle du son produit. Pour les développeurs d'interfaces vocales, d'outils d'accessibilité ou d'applications embarquées, cela représente un changement concret : plus besoin d'infrastructure cloud, de latence réseau ou de coût de requête à l'API. Le modèle tient dans un appareil mobile bas de gamme et produit une qualité de lecture compétitive face à des modèles bien plus lourds mesurés sur GPU A100, selon les métriques standard WER (Word Error Rate) et CER (Character Error Rate). Supertone, studio sud-coréen spécialisé dans l'audio IA, s'inscrit dans une tendance plus large vers la synthèse vocale locale et souveraine, à l'opposé des services cloud comme ceux d'ElevenLabs ou d'OpenAI. L'architecture repose sur un autoencoder audio, un module de génération par flow matching en seulement 2 étapes d'inférence (plus rapide que la diffusion classique), et une technique d'entraînement Self-Purifying Flow Matching qui rend le modèle résistant aux données bruitées. La v3 intègre aussi LARoPE (Length-Aware Rotary Position Embedding) pour améliorer l'alignement texte-parole. L'écosystème s'est étendu à Flutter (avec support macOS), .NET 9, Go, et au web via onnxruntime-web pour une exécution entièrement côté client. La compatibilité avec les assets ONNX publics de la v2 facilite la migration. La prochaine étape logique serait l'intégration dans des agents vocaux autonomes ou des lecteurs d'écran multilingues embarqués.

UEL'extension à 31 langues incluant plusieurs langues européennes (allemand, néerlandais, russe, arabe) et la capacité de fonctionnement entièrement hors-ligne représentent une opportunité directe pour les développeurs européens d'applications d'accessibilité et d'outils embarqués soumis aux exigences de souveraineté des données.

OutilsOutil
1 source
Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC
1309AWS ML Blog 

Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC

Amazon a mis en ligne une solution combinant son modèle vocal Nova Sonic et le service Kinesis Video Streams WebRTC pour construire des applications de streaming vocal en temps réel. Nova Sonic repose sur une architecture dite "speech-to-speech" : contrairement aux pipelines traditionnels qui enchaînent reconnaissance vocale, traitement du langage et synthèse vocale en modules séparés, le modèle unifie ces trois étapes en un seul bloc, ce qui réduit significativement la latence. Il propose plusieurs styles de voix, une forte conscience contextuelle et des interfaces d'outils permettant de le connecter à des agents externes. Côté protocole, WebRTC est retenu comme couche de transport : il établit des connexions pair-à-pair directes sans plugin supplémentaire, gère automatiquement le débit adaptatif (ABR), la correction d'erreur en avance (FEC) et les problèmes de jitter, et reste compatible avec Chrome, Firefox, Safari, Edge, Android et iOS. AWS fournit également des exemples open source pour accélérer le démarrage des projets. L'intérêt de cette combinaison est concret : dans des environnements à connectivité instable, WebRTC ajuste dynamiquement le bitrate pour éviter les coupures et maintenir la qualité audio, tandis que Nova Sonic prend en charge la conversation multilingue naturelle, permettant aux utilisateurs d'interagir dans leur propre langue sans friction. Les deux services étant entièrement gérés par AWS, ils se dimensionnent automatiquement, sans que les équipes techniques aient à gérer l'infrastructure sous-jacente. Cela abaisse la barrière d'entrée pour les startups qui ne peuvent pas se permettre des efforts de compatibilité cross-browser ou des architectures de scalabilité complexes. Les cas d'usage visés sont variés : véhicules connectés avec traduction en temps réel pour les conducteurs, usines intelligentes avec communication vocale interculturelle, robotique de service client multilingue, objets connectés domestiques contrôlables vocalement dans plusieurs langues. Cette publication s'inscrit dans une compétition intense autour des interfaces vocales IA temps réel, où OpenAI avec sa Voice API, Google avec Gemini Live et des acteurs comme ElevenLabs se disputent le marché des agents conversationnels. Amazon positionne Nova Sonic comme une réponse intégrée dans son écosystème AWS, en s'appuyant sur l'infrastructure Kinesis Video Streams déjà utilisée par de nombreuses entreprises pour la vidéosurveillance et l'IoT. L'architecture présentée supporte également des intégrations avec des sources de données via RAG (Retrieval Augmented Generation), le protocole MCP (Model Context Protocol) et Strands Agents, ce qui laisse entrevoir des déploiements hybrides mêlant voix, données métier en temps réel et orchestration d'agents autonomes. La mise à disposition d'exemples open source suggère qu'AWS cherche à constituer rapidement une communauté de développeurs autour de Nova Sonic avant que la concurrence ne consolide ses propres standards.

OutilsOutil
1 source
Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel
1310VentureBeat AI 

Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel

Thinking Machines, la startup d'intelligence artificielle fondée par Mira Murati, ex-directrice technique d'OpenAI, et John Schulman, co-fondateur et ancien chercheur de la même entreprise, a dévoilé cette semaine un aperçu de recherche de ce qu'elle appelle des "modèles d'interaction", une nouvelle catégorie de systèmes multimodaux natifs conçus pour répondre en quasi-temps réel. Le modèle présenté, TML-Interaction-Small, repose sur une architecture de type Mixture-of-Experts (MoE) de 276 milliards de paramètres, dont seulement 12 milliards sont actifs simultanément. Il traite des blocs d'entrée et de sortie de 200 millisecondes en parallèle, ce qu'on appelle le "full duplex", permettant au système d'écouter, de parler et de voir en même temps. La startup précise qu'un aperçu limité sera ouvert dans les prochains mois pour collecter des retours, suivi d'une mise à disposition plus large d'ici la fin de l'année. Ce que Thinking Machines cherche à résoudre est un problème structurel de tous les grands modèles actuels : leur incapacité à fonctionner autrement qu'en mode "tour par tour", où l'IA attend que l'utilisateur ait terminé avant de commencer à traiter, puis se fige pendant qu'elle génère une réponse. Cette contrainte force les utilisateurs à reformuler leurs pensées comme des emails, à tout regrouper en une seule requête. Avec une architecture "full duplex", le modèle peut interrompre naturellement, réagir à un signal visuel comme un bug dans un extrait de code, ou accueillir un interlocuteur qui entre dans le champ d'une vidéo, des comportements qui rendent l'interaction beaucoup plus proche d'une conversation humaine réelle. Les résultats sur les benchmarks tiers contre les modèles d'interaction rapide des autres grands laboratoires sont décrits comme convaincants, même si les détails précis restent à paraître. Techniquement, le système s'écarte des pipelines conventionnels en abandonnant les encodeurs audio massifs comme Whisper au profit d'une fusion précoce sans encodeur, ingérant directement les signaux audio bruts sous forme dMel et des patches d'image de 40x40 pixels via une couche d'embedding légère, le tout co-entraîné au sein du transformer. Le système repose sur deux composants distincts : un "modèle d'interaction" qui gère le dialogue en continu, et un "modèle de fond" asynchrone chargé des raisonnements prolongés, de la navigation web ou des appels d'outils complexes, dont les résultats sont réintégrés fluidement dans la conversation. Thinking Machines s'inscrit dans une course qui voit OpenAI, Google et d'autres investir massivement dans les modèles temps réel depuis 2024, mais revendique une approche architecturale de premier niveau plutôt qu'un simple habillage logiciel, un pari technologique dont la portée réelle ne sera mesurable qu'à l'ouverture du preview public.

LLMsOpinion
1 source
ChatGPT Images 2.0 : points verts, artefacts… comment résoudre les bugs ?
1311Le Big Data 

ChatGPT Images 2.0 : points verts, artefacts… comment résoudre les bugs ?

Depuis la mise à jour de son module de génération d'images baptisé ChatGPT Images 2.0, OpenAI fait face à une vague de signalements de la part de ses utilisateurs : le modèle produit régulièrement des rendus visuellement corrompus. Les deux manifestations les plus fréquentes sont un bruit fractal envahissant, points verts, damiers hallucinatoires, micro-motifs répétitifs dans les zones complexes comme les feuillages ou les nuages, et un effet dit de "ghosting", où les contours d'une image générée précédemment dans la même conversation se superposent à la nouvelle création. Ainsi, un utilisateur qui demande successivement un vaisseau spatial puis une grenouille peut se retrouver avec les géométries du premier incrustées sur le visage du second. Ces bugs se manifestent surtout lorsqu'une image de référence est fournie, que le style demandé est précis (peinture numérique, rendu photoréaliste), ou que le prompt est particulièrement dense en détails. L'impact est concret pour tous ceux qui utilisent ChatGPT comme outil de production visuelle : créatifs freelance, équipes marketing, illustrateurs ou développeurs intégrant la génération d'images dans leurs workflows. Une mise à jour censée enrichir les capacités créatives du modèle introduit en pratique une instabilité qui force des régénérations répétées, dégrade la fiabilité du service et soulève des questions sur le contrôle qualité d'OpenAI lors des déploiements. La frustration est d'autant plus grande que ChatGPT Images 2.0 apportait par ailleurs de réelles améliorations en termes de cohérence et de détail. OpenAI n'a fourni aucune documentation officielle sur ces défaillances, mais la communauté technique a formulé trois hypothèses sur les causes profondes. La première pointe vers l'algorithme de filigrane invisible intégré aux images générées par IA à des fins d'authentification : dans les compositions complexes, cette grille de marquage ressortirait de manière visible. La deuxième tient au fonctionnement autorégressif du nouveau modèle, qui conserverait en mémoire l'ensemble des images générées dans une conversation et ne parviendrait plus à isoler ce qui doit être oublié entre deux requêtes. La troisième invoque un mécanisme d'upscaling défaillant : confronté à un prompt trop ambitieux, le modèle entrerait dans une boucle en reproduisant indéfiniment le même micro-motif pour remplir l'espace. En attendant un correctif officiel, la solution la plus efficace identifiée par les utilisateurs reste radicalement simple : démarrer une nouvelle conversation pour chaque image, afin d'effacer le contexte visuel accumulé.

UELes créatifs freelance, équipes marketing et développeurs français et européens intégrant la génération d'images IA dans leurs workflows de production subissent une dégradation de fiabilité qui force des régénérations répétées et ralentit leur productivité.

CréationOutil
1 source
Inworld AI lance Realtime TTS-2 : un modèle vocal en boucle fermée qui s'adapte à votre façon de parler
1312MarkTechPost 

Inworld AI lance Realtime TTS-2 : un modèle vocal en boucle fermée qui s'adapte à votre façon de parler

Inworld AI a lancé en mai 2026 Realtime TTS-2, un nouveau modèle de synthèse vocale disponible en préversion de recherche via son Inworld API et son Inworld Realtime API. Ce modèle représente une rupture architecturale significative par rapport aux systèmes de synthèse vocale conventionnels : là où la plupart des moteurs TTS (text-to-speech) reçoivent du texte et produisent de l'audio de manière stateless, TTS-2 fonctionne en boucle fermée. Il ingère l'audio réel des échanges précédents, pas seulement leur transcription, ce qui lui permet de percevoir le ton, le rythme et l'état émotionnel de l'interlocuteur. Le modèle propose quatre capacités principales : une direction vocale en langage naturel via des balises inline comme [speak sadly, as if something bad just happened], des marqueurs non-verbaux injectables ([laugh], [sigh], [cough]), une préservation de l'identité vocale sur plus de 100 langues y compris en cas de changement de langue en mid-phrase, et une conception de voix à partir d'une description textuelle sans audio de référence. Trois modes de stabilité sont disponibles : Expressif pour les agents conversationnels grand public, Équilibré pour la majorité des déploiements, et Stable pour les environnements professionnels ou les serveurs vocaux interactifs où la dérive de tonalité est inacceptable. L'enjeu concret est de rendre les agents vocaux IA crédibles dans des situations à forte charge émotionnelle, comme le support client en soirée ou les interfaces de santé mentale. En entendant le vrai signal audio plutôt qu'en lisant une retranscription, le modèle saisit si un "okay, fine" est soulagé, résigné ou sarcastique, et adapte sa réponse en conséquence. Le contexte audio se propage automatiquement d'un tour à l'autre dans une session Realtime sans que les développeurs aient à gérer manuellement des champs prior_audio. TTS-2 génère aussi des disfluences naturelles, "euh", "hm", auto-corrections, pauses en milieu de phrase, calibrées selon le profil du locuteur, ce qui renforce la perception d'un interlocuteur attentif plutôt que d'un système en dysfonctionnement. Cette annonce s'inscrit dans une compétition intense autour de la voix conversationnelle IA, un segment en pleine expansion porté par les agents d'assistance, les compagnons virtuels et l'automatisation du support client. Inworld AI, jusqu'ici principalement connue pour ses personnages IA dans les jeux vidéo, repositionne ici sa technologie vocale vers un marché enterprise plus large. La plupart des acteurs dominants du TTS, comme ElevenLabs ou les offres vocales d'OpenAI, traitent chaque génération comme un appel indépendant sans mémoire auditive des tours précédents. TTS-2 parie que la continuité émotionnelle entre les tours est le vrai différenciateur dans les cas d'usage à forte intensité humaine. La sortie en research preview suggère que des ajustements restent en cours, notamment pour les langues de longue traîne, mais l'API est déjà accessible aux développeurs pour intégration.

OutilsOpinion
1 source
Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes
1313VentureBeat AI 

Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes

SageOX, une startup de Seattle fondée par des vétérans ayant construit l'infrastructure originale d'AWS EC2 et EBS, est sortie du mode furtif en annonçant un tour de financement de 15 millions de dollars mené par Canaan, avec la participation d'A.Capital, Pioneer Square Labs et Founders' Co-op. L'entreprise, dirigée par Ajit Banerjee, ancien ingénieur chez Hugging Face, Meta, Amazon et Apple, commercialise ce qu'elle appelle une "infrastructure de contexte agentique" : un système conçu pour garder les agents IA aussi informés que les employés humains sur les décisions, discussions et objectifs d'une équipe. La suite produit repose sur deux composants principaux : l'Ox Dot, un petit appareil physique placé dans les espaces partagés qui enregistre réunions et séances de travail d'une simple pression, et l'Ox CLI, un outil en ligne de commande open source sous licence MIT qui permet aux assistants de codage comme Claude Code ou Codex d'interroger la mémoire collective de l'équipe avant d'écrire du code. Le problème que SageOX cherche à résoudre est celui du "drift" des agents, c'est-à-dire leur tendance à s'écarter des intentions réelles de l'équipe parce qu'ils démarrent chaque tâche sans historique ni contexte. Si une équipe décide en réunion d'utiliser un schéma d'authentification précis, l'agent de codage l'ignorera complètement, sauf si quelqu'un le lui précise explicitement dans chaque prompt. L'Ox Dot capture audio, transcrit et identifie les intervenants, puis distille ces échanges en une mémoire d'équipe accessible aux humains et aux agents. Sa fonctionnalité "Auto Rewind" permet même de capturer rétrospectivement une conversation informelle qui s'est tenue sans enregistrement, évitant la perte de décisions prises lors d'échanges spontanés. La commande ox agent prime intègre ensuite cet historique directement dans le contexte de travail des agents. Le problème de l'"ingénierie du contexte" est l'un des défis majeurs non résolus de l'ère agentique. À mesure que les grands fournisseurs de modèles comme OpenAI, Anthropic ou Google descendent dans la chaîne de valeur en proposant leurs propres agents métier, la question de comment équiper ces agents d'un contexte riche et fidèle à la réalité d'une organisation reste entière. SageOX parie que la réponse n'est pas dans le prompt engineering ou la documentation statique, mais dans une couche d'infrastructure dédiée qui capte le contexte là où il se forme naturellement : conversations, tableaux blancs, standups. Ryan Snodgrass, CTO et ancien d'Amazon, pousse même plus loin en remettant en question les principes classiques de gestion de code source, estimant que les historiques "propres" de commits sont souvent contre-productifs pour les agents. La startup s'attaque ainsi à un marché encore peu balisé, à l'intersection de la collaboration d'équipe et de l'orchestration agentique.

OutilsOutil
1 source
DiscreteRTC : les politiques de diffusion discrète comme exécuteurs asynchrones naturels
1314arXiv cs.RO 

DiscreteRTC : les politiques de diffusion discrète comme exécuteurs asynchrones naturels

Des chercheurs ont publié DiscreteRTC, une nouvelle architecture de contrôle pour l'IA physique qui résout un problème fondamental des robots en temps réel : comment continuer à agir pendant que le cerveau artificiel calcule la prochaine décision. Présenté sur arXiv le 29 avril 2026, ce travail propose de remplacer les approches de diffusion continue actuelles par des politiques de diffusion discrète, qui génèrent des actions en démasquant itérativement des séquences plutôt qu'en les construisant de zéro. Les résultats sont frappants : sur des tâches de manipulation dynamique en conditions réelles, DiscreteRTC atteint un taux de succès supérieur de 50 % à celui du RTC basé sur le flow-matching, tout en utilisant seulement 0,7 fois la puissance de calcul d'une génération complète, et sans nécessiter une seule ligne de code supplémentaire pour la gestion asynchrone. L'enjeu est structurel pour tout ce qui touche à la robotique et à l'IA embarquée. Contrairement aux chatbots, un robot ne peut pas mettre le monde en pause pendant qu'il réfléchit : une pause de quelques dizaines de millisecondes suffit à rater un objet en mouvement ou à perdre l'équilibre. Les systèmes synchrones existants, aussi rapides soient-ils, souffrent de ce décalage fatal entre calcul et action. DiscreteRTC résout cela en faisant de l'exécution asynchrone une propriété native du modèle : le système "pense en agissant", en figeant les actions déjà engagées et en générant la suite de façon cohérente, sans correction externe coûteuse. Cette approche s'inscrit dans une course plus large à rendre l'IA générative utilisable dans des environnements physiques contraints. Les méthodes de flow-matching, popularisées par des équipes comme OpenAI ou des laboratoires académiques, souffrent d'un défaut architectural : leur capacité d'inpainting est une rustine ajoutée à l'inférence plutôt qu'une propriété fondamentale, ce qui impose du fine-tuning spécifique, des heuristiques fragiles et une latence accrue. En choisissant la diffusion discrète comme base, DiscreteRTC fait de la complétion de séquence son opération native, ouvrant la voie à des robots capables de réagir en temps réel sans compromis sur la cohérence des mouvements. Les prochaines étapes pourraient inclure des tests sur des plateformes robotiques plus complexes et une intégration dans des pipelines d'entraînement à grande échelle.

RecherchePaper
1 source
Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent
1315Apple Machine Learning 

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Des chercheurs ont publié des travaux sur une nouvelle approche d'optimisation du raisonnement dans les grands modèles de langage (LLM), baptisée "Adaptive Thinking". Le principe : permettre aux modèles d'ajuster dynamiquement leur budget de calcul selon la complexité réelle d'une requête, plutôt que d'appliquer un niveau fixe de raisonnement à chaque réponse. L'étude exploite la technique du chain-of-thought (CoT), qui consiste à générer une chaîne de raisonnement intermédiaire avant de produire une réponse, et introduit la notion de raisonnement dans l'espace latent, une représentation interne au modèle. L'enjeu est directement économique et qualitatif : allouer trop de capacité de calcul à des questions simples est un gaspillage ; en allouer trop peu à des questions complexes dégrade la performance. Les chercheurs utilisent la "self-consistency", c'est-à-dire le degré d'accord entre plusieurs chemins de raisonnement parallèles, comme indicateur proxy de la nécessité réelle de raisonner. Cette métrique permet au modèle de détecter automatiquement si une question mérite un effort cognitif étendu ou une réponse directe. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires depuis l'émergence des modèles de type "reasoning" comme o1 d'OpenAI ou DeepSeek-R1 : comment rendre le raisonnement à l'inférence à la fois plus puissant et plus efficient. Trouver le bon équilibre entre budget de calcul et performance est devenu un axe de compétition majeur, notamment pour les applications en temps réel où la latence et le coût par requête sont critiques.

RecherchePaper
1 source
Elon Musk déclare au jury qu'il veut simplement sauver l'humanité
1316The Verge 

Elon Musk déclare au jury qu'il veut simplement sauver l'humanité

Elon Musk a témoigné à la barre lors de son procès très médiatisé contre Sam Altman, PDG d'OpenAI et ancien cofondateur de l'organisation aux côtés de Musk. Face au jury, le milliardaire a choisi de commencer par une longue présentation personnelle, remontant jusqu'à son enfance en Afrique du Sud, son arrivée au Canada pour ses études avec seulement 2 500 dollars en chèques de voyage et un sac de vêtements et de livres, puis son parcours entrepreneurial de Zip2 à PayPal, avant d'évoquer ses entreprises actuelles. Cette mise en scène de soi a occupé une part inhabituelle de son temps à la barre. Cette stratégie rhétorique n'est pas anodine : en se présentant comme un homme parti de rien, Musk cherche à convaincre le jury qu'il n'est pas motivé par l'appât du gain mais par une mission plus haute, celle de sauver l'humanité. L'enjeu du procès est considérable : Musk accuse Altman et OpenAI d'avoir trahi la mission originelle de l'organisation, fondée en 2015 comme entité à but non lucratif, en la transformant en une entreprise commerciale orientée vers le profit. Ce litige s'inscrit dans une rupture profonde entre deux figures centrales de la Silicon Valley. Musk, qui avait quitté le conseil d'administration d'OpenAI en 2018, a depuis fondé xAI et son propre modèle Grok, concurrent direct de ChatGPT. Le procès soulève des questions fondamentales sur la gouvernance des laboratoires d'IA et la tension entre mission publique et intérêts privés dans un secteur en pleine explosion.

RégulationReglementation
1 source
Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens
1317Pandaily 

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Ant Group, la filiale fintech du géant chinois Alibaba, a lancé Ling-2.6-Flash, un nouveau grand modèle de langage appartenant à sa série Ling. Le modèle repose sur une architecture à 104 milliards de paramètres au total, dont seulement 7,4 milliards sont activés lors de l'inférence, une approche dite MoE (Mixture of Experts) qui réduit considérablement la puissance de calcul nécessaire. Conçu comme un modèle optimisé pour les instructions, Ling-2.6-Flash mise sur ce qu'Ant Group appelle la "Token Efficiency" : délivrer des performances compétitives tout en étant plus rapide et moins coûteux que ses concurrents. Avant même son lancement officiel, une version anonyme du modèle, baptisée en interne "Elephant Alpha", avait été mise en ligne sur la plateforme OpenRouter. En quelques jours, elle s'est hissée en tête des modèles les plus utilisés, avec une consommation quotidienne d'environ 100 milliards de tokens et une croissance hebdomadaire dépassant les 5 000 %. L'adoption aussi rapide et aussi massive d'un modèle avant même son annonce officielle illustre l'appétit du marché pour des alternatives économiques aux LLMs dominants. Avec un tarif d'entrée fixé à 0,10 dollar par million de tokens en entrée et 0,30 dollar par million en sortie, Ling-2.6-Flash se positionne parmi les options les plus abordables du marché, directement en concurrence avec des modèles comme Gemini Flash de Google ou GPT-4o Mini d'OpenAI. L'API est désormais accessible publiquement, accompagnée d'une période d'essai gratuite d'une semaine. Pour les développeurs et les entreprises qui font tourner des applications à grande échelle, une telle structure tarifaire peut représenter des économies substantielles. Ce lancement s'inscrit dans une offensive plus large des acteurs technologiques chinois sur le marché mondial des LLMs. Après DeepSeek, qui avait créé la surprise début 2025 avec des modèles très compétitifs à bas coût, Ant Group entre à son tour dans la course avec une stratégie similaire : maximiser l'efficacité par dollar dépensé. La série Ling illustre la volonté du groupe de rivaliser au niveau international, au moment où la compétition entre fournisseurs de modèles s'intensifie et où la guerre des prix devient un argument commercial aussi décisif que les benchmarks de performance.

UELes développeurs et entreprises européens peuvent accéder dès maintenant à l'API Ling-2.6-Flash à 0,10 $/M tokens en entrée, une alternative économique potentiellement significative pour les applications à fort volume.

LLMsActu
1 source
Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA
1318VentureBeat AI 

Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA

La plateforme australienne de financement de startups VentureCrowd a réduit de 90 % la durée de certains cycles de développement front-end grâce à des agents IA de codage, mais cette performance a eu un prix. Diego Mogollon, directeur produit de l'entreprise, a constaté que les agents raisonnaient exclusivement à partir des données accessibles au moment de l'exécution, ce qui les rendait «confiants et faux» dès que le contexte fourni était incomplet ou mal structuré. Le problème identifié porte un nom : le «context bloat», ou gonflement de contexte, un phénomène où les agents IA accumulent progressivement trop de données, d'instructions et d'outils au fil de workflows de plus en plus complexes. Pour y répondre, Salesforce vient de publier Agentforce Vibes 2.0, une mise à jour de sa plateforme de développement d'agents intégrée à l'écosystème Salesforce, disponible dès le plan gratuit. Cette version étend la compatibilité avec des frameworks tiers comme ReAct et introduit deux nouveaux concepts : les Abilities, qui définissent ce que l'agent cherche à accomplir, et les Skills, qui désignent les outils qu'il utilisera pour y parvenir. Le problème du gonflement de contexte est plus structurel qu'il n'y paraît. Plus un agent dispose de contexte, plus il consomme de tokens, ce qui ralentit les traitements et fait grimper les coûts. Pour les entreprises qui déploient ces systèmes à grande échelle, cela se traduit par une perte de contrôle sur la latence, la fiabilité et les budgets. Mogollon résume le paradoxe central : «Ce n'est pas un problème d'IA, c'est un problème de contexte déguisé en problème d'IA, et c'est le premier mode d'échec que j'observe dans les implémentations agentiques.» VentureCrowd a d'ailleurs dû restructurer l'ensemble de sa base de code avant même de pouvoir déployer des agents efficaces, les agents amplifiant les défauts des données qu'ils reçoivent. L'approche de Salesforce avec Agentforce Vibes 2.0 se distingue par son intégration native aux modèles de données existants des entreprises, plutôt que de chercher à minimiser le contexte. D'autres plateformes adoptent une philosophie différente : Claude Code et Codex d'OpenAI privilégient une exécution autonome, où les agents lisent des fichiers et exécutent des commandes en continu, avec des mécanismes de compaction activés lorsque le contexte devient trop volumineux. La tendance générale est à la gestion du contexte croissant plutôt qu'à sa limitation, ce qui soulève des questions de fond pour l'ensemble du secteur. Avec la multiplication des workflows agentiques complexes en entreprise, la maîtrise du contexte s'impose comme un enjeu technique et économique de premier plan, et les éditeurs qui proposeront les architectures les plus efficientes sur ce point prendront un avantage concurrentiel décisif.

OutilsOutil
1 source
☕️ La vérification d’identité d’Anthropic limite l’accès de Claude en Chine
1319Next INpact 

☕️ La vérification d’identité d’Anthropic limite l’accès de Claude en Chine

Depuis la semaine dernière, Anthropic exige de certains de ses abonnés une vérification d'identité avec pièce officielle avec photo avant de continuer à utiliser Claude. Sans détailler publiquement les critères exacts, la société américaine confirme au site The Information que la mesure vise à bloquer l'accès commercial depuis des pays considérés comme adversaires des États-Unis, notamment la Chine, la Russie et la Corée du Nord. Anthropic invoque des raisons de sécurité nationale et indique que son équipe chargée des garde-fous « applique activement ces règles » et « prend des mesures contre les comptes en infraction ». Pour l'instant, la vérification ne touche pas l'ensemble des utilisateurs chinois, mais ses effets se font déjà sentir chez les startups qui ont bâti leur activité sur l'API Claude. Sur Idle Fish, la marketplace entre particuliers du groupe Alibaba, des vendeurs proposent déjà des contournements : comptes Claude Code préenregistrés, accès à des comptes existants, ou vente de pièces d'identité étrangères. Cette décision illustre la montée en puissance des considérations géopolitiques dans l'industrie de l'IA. Anthropic rejoint ainsi OpenAI, qui restreint déjà l'accès à ChatGPT dans plusieurs pays et exclut officiellement la Chine, la Russie et la Corée du Nord de sa liste de territoires autorisés, sans toutefois avoir mis en place à ce jour de vérification d'identité formelle. Pour les entreprises technologiques chinoises qui s'appuyaient sur Claude, cette coupure représente une rupture opérationnelle réelle, les forçant soit à migrer vers d'autres modèles, soit à adopter des pratiques de contournement risquées. Plus largement, ce type de restriction tend à accélérer la fragmentation du paysage mondial de l'IA entre blocs technologiques distincts. Ce blocage s'inscrit dans un contexte de tensions croissantes entre Washington et Pékin autour des technologies d'intelligence artificielle, qui fait suite aux restrictions déjà en vigueur sur l'exportation de semi-conducteurs américains avancés vers la Chine. Ces limitations ont poussé des acteurs comme Huawei et Baidu à intensifier le développement de leurs propres puces dédiées à l'IA. La même logique s'applique aux modèles de langage : coupée des outils américains les plus performants, la Chine a accéléré la construction de ses propres alternatives, dont la plus spectaculaire reste l'émergence de DeepSeek début 2025, qui a surpris l'ensemble de l'industrie par ses capacités. Si les restrictions d'Anthropic venaient à se généraliser ou à se durcir, elles pourraient paradoxalement renforcer l'écosystème IA chinois en lui donnant une raison supplémentaire de ne plus dépendre des modèles occidentaux.

RégulationReglementation
1 source
Tencent lance une bêta internationale de sa plateforme d'agents IA QClaw
1320Pandaily 

Tencent lance une bêta internationale de sa plateforme d'agents IA QClaw

Tencent Cloud a lancé le 21 avril 2026 la version bêta internationale de QClaw, sa plateforme d'agents IA destinée au grand public. Développé par l'équipe Tencent PC Manager et construit sur le framework open-source OpenClaw, le produit avait d'abord été lancé sur le marché chinois en mars 2026. La version internationale intègre plus de 80 mises à jour fonctionnelles et a été développée en à peine cinq jours, la majorité du code ayant été générée par intelligence artificielle. QClaw est actuellement disponible en accès anticipé aux États-Unis, au Canada, à Singapour et en Corée du Sud, avec une prise en charge multilingue. Durant cette phase bêta, les utilisateurs reçoivent une allocation quotidienne de tokens et l'accès anticipé reste limité en nombre de places. La proposition centrale de QClaw est de rendre les agents IA accessibles sans installation ni compétences techniques particulières. La plateforme propose un "Agent Playground" rassemblant des rôles variés comme des coachs fitness ou des tuteurs en langues, et s'intègre avec les principaux modèles du marché, notamment GPT et Claude. Un mécanisme de sécurité intégré surveille et valide les actions exécutées par les agents, répondant directement aux inquiétudes croissantes autour de l'autonomie des IA. Ce positionnement "plug-and-play" cible un segment de marché encore peu saturé : les utilisateurs non-développeurs qui souhaitent bénéficier de l'automatisation sans friction technique. Cette sortie internationale s'inscrit dans la stratégie d'expansion mondiale accélérée des géants technologiques chinois, qui cherchent à exporter leurs outils IA à mesure que le marché intérieur arrive à maturité. Tencent rejoint ainsi Alibaba, ByteDance et d'autres acteurs dans la course à l'adoption internationale de leurs plateformes IA. La vitesse de développement revendiquée, cinq jours pour une mise à jour majeure, illustre comment les entreprises utilisent désormais l'IA pour accélérer leur propre cycle de production logicielle. La compatibilité avec des modèles concurrents comme Claude signale une approche ouverte visant à maximiser l'adoption, plutôt qu'un écosystème fermé. Les prochains mois diront si QClaw peut s'imposer face à des concurrents comme Manus ou les offres d'agents d'OpenAI sur ces marchés anglophones.

OutilsOutil
1 source
ChatGPT et Claude en panne : que s’est-il réellement passé ?
1321Le Big Data 

ChatGPT et Claude en panne : que s’est-il réellement passé ?

Le 20 avril 2026, en début d'après-midi, les deux assistants IA les plus utilisés au monde ont connu des perturbations simultanées. ChatGPT d'OpenAI et Claude d'Anthropic ont affiché des temps de réponse anormalement longs, voire des pannes complètes pour certains utilisateurs. Les premières alertes ont émergé autour de 16h, heure française, avec une hausse nette des signalements sur DownDetector. Les requêtes s'accumulaient sans réponse, les délais s'allongeaient, et les utilisateurs constataient rapidement que le problème ne se limitait pas à un seul service. Copilot de Microsoft et Gemini de Google ont également montré des signes de ralentissement au même moment, avec une latence inhabituelle bien que leurs services soient restés partiellement opérationnels. La panne a touché simultanément plusieurs acteurs majeurs, ce qui a immédiatement orienté les soupçons vers une cause commune en amont des applications elles-mêmes. Le principal suspect est Cloudflare, l'un des fournisseurs d'infrastructure réseau les plus critiques d'Internet. Ce service joue un rôle de relais et de filtre entre les utilisateurs et les serveurs des plateformes : il accélère le trafic, absorbe les attaques DDoS et gère la distribution des requêtes à l'échelle mondiale. Quand Cloudflare rencontre des difficultés, l'effet peut se propager en cascade sur des dizaines de services dépendants. La page de statut officielle de Cloudflare a effectivement signalé ce jour-là des dégradations sur plusieurs composants clés, notamment Analytics, Rules, Workers et Zero Trust. Ces modules sont au coeur du fonctionnement de nombreuses applications web modernes. Aucun lien officiel n'a toutefois été confirmé entre cet incident Cloudflare et les pannes de ChatGPT et Claude, mais la coïncidence temporelle et la nature simultanée des perturbations sur plusieurs plateformes indépendantes renforcent fortement cette hypothèse. Cet incident illustre une vulnérabilité structurelle de l'écosystème IA actuel : la concentration de l'infrastructure critique entre les mains d'un petit nombre de fournisseurs. OpenAI, Anthropic, Microsoft et Google ont beau opérer des produits concurrents, ils partagent souvent les mêmes couches d'infrastructure réseau, de CDN et de sécurité. Une défaillance à ce niveau peut donc paralyser simultanément des services qui semblent pourtant indépendants. À mesure que les outils d'IA s'intègrent dans les workflows professionnels quotidiens, rédaction, développement, analyse, leur indisponibilité, même temporaire, génère un impact économique et opérationnel réel. Cet épisode devrait relancer les discussions sur la résilience des infrastructures IA et la nécessité, pour les grands acteurs, de diversifier leurs dépendances techniques pour éviter qu'un seul point de défaillance ne mette à genoux l'ensemble du secteur.

UELes professionnels français utilisant ChatGPT ou Claude dans leurs workflows quotidiens ont subi une interruption de service, révélant la dépendance structurelle de l'écosystème IA européen envers quelques fournisseurs d'infrastructure réseau américains.

1322MarkTechPost 

Implémentation pratique de systèmes multi-agents avec SmolAgents : exécution de code, appels d'outils et orchestration dynamique

SmolAgents, le framework minimaliste d'agents IA publié par HuggingFace, fait l'objet d'un tutoriel technique détaillé montrant comment construire des systèmes multi-agents prêts pour la production. La version stable utilisée est la 1.24.0, couplée au modèle OpenAI gpt-4o-mini via l'interface LiteLLM. Le tutoriel couvre l'ensemble de la chaîne : installation des dépendances (smolagents, duckduckgo-search, wikipedia), configuration sécurisée des clés API, création d'outils personnalisés (conversion de températures, vérification de nombres premiers, stockage clé-valeur en mémoire), puis orchestration de plusieurs agents collaborant entre eux. Deux paradigmes d'agents sont explorés en parallèle : le CodeAgent, qui génère et exécute du code Python dans un environnement sandbox, et le ToolCallingAgent, qui appelle des outils de façon structurée. Depuis la version 1.8.0, la gestion multi-agents se fait en passant directement des sous-agents via le paramètre managedagents, la classe ManagedAgent ayant été supprimée. Ce type de tutoriel révèle l'état réel des pratiques en matière de développement d'agents IA en 2025 : les développeurs cherchent des frameworks légers, modulaires et transparents, en réaction à la complexité des solutions précédentes comme LangChain ou AutoGen. SmolAgents répond à ce besoin en exposant une boucle d'exécution simple (tâche, génération de code, exécution, observation, itération jusqu'à finalanswer()), tout en permettant une gestion dynamique des outils via un dictionnaire agent.tools modifiable à la volée. Pour les équipes qui construisent des applications IA en production, cette approche réduit les abstractions inutiles et facilite le débogage, deux points critiques lorsque les agents opèrent dans des environnements réels avec des données sensibles ou des contraintes de latence. L'essor de SmolAgents s'inscrit dans une tendance plus large : après l'enthousiasme pour les agents autonomes "tout-en-un", l'industrie converge vers des architectures modulaires où des agents spécialisés collaborent plutôt qu'un seul agent tente de tout faire. HuggingFace, fort de sa communauté open-source et de son écosystème de modèles, positionne SmolAgents comme l'alternative légère aux frameworks propriétaires, compatible avec des LLMs locaux ou des API tierces. La suppression de ManagedAgent en v1.8.0 illustre la maturité croissante du framework et sa volonté de simplifier l'API à mesure que les cas d'usage se stabilisent. Les prochaines évolutions attendues portent sur l'intégration native d'outils de recherche, de mémoire persistante et de sandboxing renforcé, des briques essentielles pour déployer des agents dans des contextes d'entreprise.

UEHuggingFace, entreprise fondée en France, consolide son écosystème open-source avec SmolAgents, offrant aux équipes de développement européennes une alternative légère et auditable aux frameworks d'agents propriétaires.

💬 SmolAgents fait exactement ce qu'il promet : rester petit. Après des mois à me battre avec LangChain sur des trucs qui auraient dû prendre 10 lignes, voir un framework qui expose sa boucle d'exécution à plat, sans magie cachée, c'est presque reposant. Reste à voir si ça tient quand les agents tournent avec de vraies contraintes de latence et des données sensibles, mais c'est le bon pari.

OutilsTuto
1 source
1323MarkTechPost 

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts. Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues. Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

RecherchePaper
1 source
1324Les Numériques IA 

Actualité : “Un sociopathe prêt à tout” : les proches de Sam Altman brisent le silence dans une enquête accablante contre le patron de ChatGPT

Une enquête journalistique accablante vient d'éclairer sous un jour nouveau la personnalité de Sam Altman, PDG d'OpenAI, l'entreprise derrière ChatGPT. Selon des proches et anciens collaborateurs qui ont brisé le silence, Altman aurait construit sa position dominante dans l'industrie de l'IA en instrumentalisant une rhétorique apocalyptique : convaincre chercheurs, investisseurs et gouvernements que l'intelligence artificielle pourrait anéantir l'humanité, et qu'il était l'homme indispensable pour en prendre les rênes. Certains de ses proches le décrivent comme "un sociopathe prêt à tout" pour maintenir son emprise sur une organisation qu'il a transformée en l'une des plus influentes au monde. Ces révélations interviennent à un moment où OpenAI est valorisée autour de 300 milliards de dollars et négocie en permanence avec des gouvernements sur la régulation de l'IA. Si le portrait dressé par l'enquête est exact, cela soulève des questions fondamentales sur la crédibilité d'Altman comme figure de proue du mouvement dit "d'IA sûre", un positionnement qui lui a permis d'attirer les meilleurs scientifiques du monde et des milliards de dollars de financements, notamment de Microsoft. OpenAI a été fondée en 2015 comme association à but non lucratif dédiée au développement sécurisé de l'IA, avant qu'Altman ne la transforme progressivement en entreprise commerciale de premier plan. En novembre 2023, le conseil d'administration l'avait brièvement licencié, déclenchant une crise interne majeure, avant que la pression des employés et des investisseurs ne le rétablisse dans ses fonctions. Cette enquête relance le débat sur la gouvernance d'OpenAI et la concentration du pouvoir entre les mains d'un seul homme à la tête d'une technologie aux enjeux civilisationnels.

UELes négociations d'OpenAI avec les gouvernements européens sur la régulation de l'IA pourraient être fragilisées si la crédibilité d'Altman comme garant de l'IA responsable est publiquement remise en question.

ÉthiqueActu
1 source
L'état des lieux des assistants de codage IA
1325InfoQ AI 

L'état des lieux des assistants de codage IA

Birgitta Böckeler, experte chez Thoughtworks, dresse un état des lieux lucide des assistants de codage par IA en 2025. Dans une présentation intitulée State of Play: AI Coding Assistants, elle analyse comment ces outils ont évolué bien au-delà du simple "vibe coding", cette pratique consistant à générer du code de manière intuitive sans structure rigoureuse, pour entrer dans une phase de maturité plus exigeante, centrée sur ce qu'elle appelle le "context engineering" : l'art de fournir aux modèles le bon contexte au bon moment pour produire du code fiable. Le coeur de son argument porte sur la notion de "harness engineering", soit la conception de contraintes architecturales et de filets de sécurité qui permettent à des agents autonomes de générer du code sans introduire de régressions ou de failles critiques. Pour les responsables techniques, cela implique un arbitrage constant entre vitesse de développement et maintenabilité du code, avec en toile de fond des risques de sécurité réels liés à l'autonomie croissante des modèles, et des coûts d'inférence qui peuvent rapidement s'emballer. Cette réflexion s'inscrit dans un moment charnière pour l'industrie du développement logiciel, où des outils comme GitHub Copilot, Cursor ou les agents de codage d'Anthropic et OpenAI redéfinissent le rôle des ingénieurs. La question n'est plus de savoir si l'IA peut écrire du code, mais comment encadrer cette capacité pour qu'elle soit viable en production, à grande échelle et sur le long terme.

OutilsOutil
1 source
Ce que les données révèlent vraiment sur l'IA et votre emploi
1326MIT Technology Review 

Ce que les données révèlent vraiment sur l'IA et votre emploi

Au sein de la Silicon Valley, l'idée d'une apocalypse de l'emploi causée par l'IA est désormais traitée comme une certitude. Dario Amodei, PDG d'Anthropic, a décrit l'IA comme "un substitut général de la main-d'oeuvre humaine" capable de réaliser tous les emplois en moins de cinq ans. Une chercheuse en impacts sociétaux chez Anthropic a quant à elle évoqué une possible récession à court terme et "l'effondrement de l'échelle des débuts de carrière". Ces déclarations alimentent une anxiété croissante chez les travailleurs, au point de renforcer les mouvements réclamant un moratoire sur la construction de centres de données. Alex Imas, économiste à l'Université de Chicago, a accepté de faire le point sur ce que l'on sait réellement, et surtout sur ce que l'on ignore. Son constat est sévère : les outils actuels pour prédire l'impact de l'IA sur l'emploi sont "lamentables". La mesure la plus utilisée, le taux d'"exposition" d'un métier à l'IA, consiste à comptabiliser combien de tâches qui le composent pourraient être automatisées. C'est la méthode qu'OpenAI a appliquée en décembre dernier à un catalogue gouvernemental américain de milliers de tâches professionnelles, datant de 1998, constatant par exemple qu'un agent immobilier est exposé à 28 %. Anthropic a utilisé ce même référentiel en février pour analyser des millions de conversations avec Claude. Mais pour Imas, "l'exposition seule est un outil totalement inutile pour prédire les suppressions de postes" : savoir qu'une tâche peut être automatisée ne dit rien sur ce que fera concrètement l'employeur de ce gain de productivité. L'enjeu central est en réalité une question d'économie industrielle que personne ne sait encore trancher : si un développeur peut produire en un jour ce qui lui prenait trois jours grâce à l'IA, l'entreprise va-t-elle embaucher moins de développeurs ou au contraire en recruter davantage pour aller plus vite ? La réponse dépend du secteur, de la structure des marchés et de la concurrence. Dans un marché compétitif, les gains de productivité se répercutent souvent en baisse de prix, ce qui stimule la demande et donc l'emploi. Mais ce mécanisme ne s'applique pas uniformément. Imas plaide pour que les économistes collectent d'urgence des données granulaires sur la façon dont les entreprises réallouent réellement leur main-d'oeuvre après l'adoption de l'IA, car sans ces données, toute politique publique sur l'emploi reste aveugle. Le débat dépasse donc largement les prédictions catastrophistes : il appelle à une observation rigoureuse de terrain, que personne n'a encore vraiment commencée.

UELe manque de données empiriques rigoureuses sur la réallocation réelle de la main-d'oeuvre après adoption de l'IA fragilise également les politiques publiques européennes sur l'emploi et les débats autour de l'AI Act.

SociétéOpinion
1 source
Les salariés de Meta se disputent le statut de « légende des tokens » en IA
1327The Information AI 

Les salariés de Meta se disputent le statut de « légende des tokens » en IA

Chez Meta Platforms, un classement interne baptisé "Claudeonomics" transforme l'utilisation de l'intelligence artificielle en compétition entre employés. Mis en place par un salarié de l'entreprise sur son intranet à partir de données internes, ce tableau de bord mesure le nombre de tokens, les unités de données traitées par les modèles d'IA, consommés par chaque utilisateur. Les 250 plus gros consommateurs parmi les quelque 85 000 employés de Meta y figurent, avec des titres honorifiques à la clé : "Session Immortal" pour les plus assidus, et "Token Legend" pour les véritables champions de l'outil. Le nom "Claudeonomics" est une référence directe à Claude, le modèle phare d'Anthropic, le concurrent d'OpenAI dont Meta a vraisemblablement adopté les outils en interne. Ce type de mécanisme de gamification révèle une tendance de fond dans les grandes entreprises tech : encourager l'adoption massive des outils d'IA par les employés en jouant sur la compétition et la reconnaissance sociale. Pour Meta, qui investit massivement dans l'IA générative, afficher des statistiques d'usage aussi élevées est aussi un signal fort sur la culture interne de l'entreprise. Cette initiative s'inscrit dans un contexte où les géants de la tech cherchent à mesurer et accélérer l'intégration de l'IA dans leurs workflows quotidiens. Meta, qui développe ses propres modèles Llama tout en recourant à des outils tiers, fait face à la même question que l'ensemble de l'industrie : comment transformer des outils puissants en réflexes productifs pour des dizaines de milliers de salariés ? Les classements internes, aussi anecdotiques qu'ils paraissent, sont l'un des leviers expérimentés.

BusinessOpinion
1 source
Les LLMs de connaissance selon Karpathy : une bibliothèque markdown évolutive gérée par IA, en alternative au RAG
1328VentureBeat AI 

Les LLMs de connaissance selon Karpathy : une bibliothèque markdown évolutive gérée par IA, en alternative au RAG

Andrej Karpathy, ancien directeur de l'IA chez Tesla et co-fondateur d'OpenAI, a publié sur X une description détaillée de son architecture personnelle qu'il nomme "LLM Knowledge Bases". Le principe : confier à un LLM le rôle de bibliothécaire permanent, chargé de compiler, organiser et maintenir une bibliothèque de fichiers Markdown (.md) représentant ses projets et sujets de recherche. Le système fonctionne en trois étapes : les matières brutes (articles, dépôts GitHub, papers de recherche) sont déposées dans un répertoire raw/, converties en Markdown via l'outil Obsidian Web Clipper ; le LLM "compile" ensuite ces données en rédigeant des articles encyclopédiques, des résumés et des liens croisés entre concepts ; enfin, des passes de "linting" régulières permettent au modèle de détecter les incohérences et les connexions manquantes, rendant la base auto-réparatrice. Cette approche s'attaque à un problème concret que tout développeur utilisant des LLMs connaît bien : la réinitialisation du contexte à chaque nouvelle session. Reconstruire l'état d'un projet complexe consomme des tokens précieux et du temps. En maintenant une base de connaissances structurée, lisible par l'humain et directement exploitable par le modèle, Karpathy élimine ce "reset lobotomisant". Par rapport au RAG classique — où les documents sont découpés en fragments arbitraires, transformés en vecteurs mathématiques et stockés dans une base spécialisée — son système évite la boîte noire des embeddings : chaque information est traçable jusqu'à un fichier Markdown qu'un humain peut lire, modifier ou supprimer. Pour les datasets de taille intermédiaire, la complexité opérationnelle d'une infrastructure vectorielle n'est tout simplement plus justifiée. Le RAG domine la scène enterprise depuis trois ans, mais les limites de l'approche par chunks sont de plus en plus visibles à mesure que les fenêtres de contexte des LLMs s'élargissent. Karpathy reconnaît lui-même que son système reste "une collection hacky de scripts", mais la réaction de la communauté a immédiatement pointé vers le potentiel commercial : comme l'a formulé l'entrepreneur Vamshi Reddy, "chaque entreprise possède déjà un répertoire raw/ — personne ne l'a jamais compilé". Karpathy a acquiescé, évoquant une "incroyable nouvelle catégorie de produits". La plupart des organisations se noient dans des données non structurées — logs Slack, wikis internes, rapports PDF — sans jamais avoir les moyens de les synthétiser. Une couche enterprise inspirée de cette architecture pourrait transformer ces silos en bases de connaissances vivantes, auditables et maintenues en continu par l'IA elle-même.

OutilsOutil
1 source
Anthropic intensifie ses activités politiques avec un nouveau PAC
1329TechCrunch AI 

Anthropic intensifie ses activités politiques avec un nouveau PAC

Anthropic, le laboratoire d'intelligence artificielle fondé par Dario et Daniela Amodei, a officiellement lancé un comité d'action politique (PAC) en vue des élections de mi-mandat aux États-Unis. Cette structure lui permet de financer directement des candidats politiques dont les positions s'alignent avec les priorités réglementaires de l'entreprise en matière d'IA. Cette décision marque une escalade significative dans l'implication politique du secteur de l'IA. En soutenant des candidats favorables à son agenda, Anthropic cherche à peser sur les futures lois encadrant le développement et le déploiement des modèles d'intelligence artificielle, un enjeu majeur alors que le Congrès américain débat activement de plusieurs propositions législatives sur le sujet. Ce mouvement s'inscrit dans une tendance plus large : OpenAI, Google et Microsoft ont tous intensifié leurs activités de lobbying ces dernières années, dépensant des dizaines de millions de dollars pour influencer la politique technologique américaine. Anthropic, qui a levé plusieurs milliards de dollars auprès d'Amazon et de Google, cherche désormais à s'imposer non seulement comme un acteur technique de premier plan, mais aussi comme une force politique capable de façonner le cadre réglementaire dans lequel évoluera l'IA générative.

RégulationReglementation
1 source
PromptQL transforme automatiquement vos messages Teams ou Slack en contexte sécurisé pour vos agents IA
1330VentureBeat AI 

PromptQL transforme automatiquement vos messages Teams ou Slack en contexte sécurisé pour vos agents IA

PromptQL, une spin-off de la licorne GraphQL Hasura, a annoncé un pivot stratégique majeur : la startup californienne transforme son outil d'analyse de données par IA en un espace de travail entièrement natif pour agents IA. Fondée par le CEO Tanmai Gopal, l'entreprise part d'un constat viral — un fil Hacker News de février 2026 réclamant qu'OpenAI construise sa propre version de Slack pour les agents IA a cumulé 327 commentaires — pour proposer une solution concrète : convertir automatiquement les échanges Slack ou Teams en mémoire persistante et sécurisée pour les workflows agentiques. Concrètement, quand deux collègues discutent d'un bug dans leur messagerie, le système le détecte, le tague, l'assigne et le documente dans un wiki interne en un clic, sans intervention manuelle supplémentaire. "Vous n'avez plus des conversations sur le travail, vous avez des conversations qui font le travail", résume Gopal. L'enjeu est considérable pour les entreprises qui misent sur l'IA agentique. Le problème central des LLM actuels — leur incapacité à retenir le contexte entre les sessions et leur tendance aux hallucinations — est directement adressé par le "Shared Wiki" de PromptQL : une base de connaissance vivante qui s'enrichit organiquement à chaque échange d'équipe, sans nécessiter de "sprints de documentation" ou de mises à jour manuelles de fichiers YAML. Cruciale pour la confiance des entreprises, une couche "human-in-the-loop" exige qu'un humain valide explicitement chaque ajout au wiki, filtrant les informations non pertinentes. Par ailleurs, la plateforme repose sur une couche SQL virtuelle qui interroge les données directement à la source — Snowflake, Clickhouse, Postgres, Stripe, Zendesk, HubSpot — sans jamais les extraire ni les mettre en cache, ce qui répond aux exigences de sécurité et de conformité des grandes organisations. Ce pivot s'inscrit dans une course plus large à l'infrastructure pour agents IA autonomes. Depuis que des plateformes comme Slack et Teams ont montré leurs limites face aux besoins contextuels des agents — accès sécurisé aux données en temps réel, mémoire inter-sessions, exécution d'actions — plusieurs acteurs cherchent à redéfinir l'espace de travail d'entreprise. Hasura, la société mère de PromptQL connue pour avoir popularisé GraphQL et valorisée à plus d'un milliard de dollars, apporte une expertise technique solide en couches d'abstraction de données. PromptQL ambitionne de devenir ce que Gopal appelle "un stagiaire 24h/24, 7j/7 qui exécute réellement le travail" — consultant le code, vérifiant des hypothèses, naviguant entre plusieurs systèmes de façon autonome. La prochaine étape sera de convaincre les DSI que confier la mémoire collective de leur entreprise à une plateforme tierce, même avec des garanties techniques solides, vaut le risque.

OutilsOutil
1 source
La popularité de Claude auprès des abonnés payants d'Anthropic explose
1331TechCrunch AI 

La popularité de Claude auprès des abonnés payants d'Anthropic explose

Les abonnements payants à Claude, l'assistant conversationnel d'Anthropic, ont plus que doublé depuis le début de l'année, selon un porte-parole de la société interrogé par TechCrunch. Le nombre total d'utilisateurs grand public reste difficile à chiffrer précisément — les estimations varient entre 18 et 30 millions —, Anthropic refusant de communiquer ces données officiellement. Cette croissance rapide confirme qu'Anthropic s'impose comme un concurrent sérieux face à ChatGPT d'OpenAI sur le segment des abonnements premium. Doubler sa base payante en quelques mois représente un signal fort pour les investisseurs et pour l'industrie : il existe une demande réelle pour une alternative à OpenAI, et Claude répond à des attentes spécifiques, notamment en matière de fiabilité et de sécurité. Fondée en 2021 par d'anciens dirigeants d'OpenAI, dont Dario et Daniela Amodei, Anthropic a levé plusieurs milliards de dollars — notamment auprès d'Amazon et de Google — pour développer ses modèles Claude. La société mise sur une approche dite "constitutionnelle" de l'IA pour se différencier. Avec le lancement de Claude 3.5 et 3.7, la firme a nettement élevé son niveau technique, ce qui pourrait expliquer l'accélération de son adoption commerciale.

BusinessActu
1 source
NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle
1332MarkTechPost 

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper
1 source
Physical Intelligence en discussion pour une valorisation de 11 milliards de dollars
1333The Information AI 

Physical Intelligence en discussion pour une valorisation de 11 milliards de dollars

Physical Intelligence, la startup américaine spécialisée dans l'IA pour la robotique, serait en négociations pour lever environ un milliard de dollars lors d'un tour de financement qui valoriserait l'entreprise à plus de 11 milliards de dollars, selon un rapport Bloomberg publié vendredi. Founders Fund, Lightspeed Venture Partners et Thrive Capital figurent parmi les investisseurs participants à ce tour. Une valorisation à 11 milliards de dollars en l'espace de quelques années place Physical Intelligence parmi les startups d'IA les mieux financées au monde, aux côtés d'OpenAI ou Anthropic. Ce signal fort reflète l'appétit croissant des investisseurs pour la robotique généraliste — domaine longtemps considéré comme trop difficile à scaler, mais que les progrès des modèles de fondation commencent à débloquer concrètement. Fondée en 2023 par d'anciens chercheurs de Google et Tesla, Physical Intelligence développe des modèles d'IA destinés à doter les robots de capacités polyvalentes, sans programmation spécifique à chaque tâche. La startup avait déjà levé 400 millions de dollars en 2024 avec le soutien de Jeff Bezos et d'OpenAI. Ce nouveau tour intervient dans un contexte de course mondiale à la robotique humanoïde, où Figure, Boston Dynamics et les ambitions de Tesla Optimus intensifient la compétition pour attirer capitaux et talents.

BusinessActu
1 source
Actualité : “Un seuil a été franchi” : le nouveau modèle de Claude a fuité par erreur, Anthropic évoque des capacités sans précédent
1334Les Numériques IA 

Actualité : “Un seuil a été franchi” : le nouveau modèle de Claude a fuité par erreur, Anthropic évoque des capacités sans précédent

Anthropic a involontairement dévoilé l'existence de son prochain modèle phare, baptisé Claude Mythos, à la suite d'une erreur de configuration dans son système de gestion de contenu. Un brouillon de page interne est brièvement devenu accessible au public, révélant le nom du modèle ainsi que plusieurs formulations suggérant des capacités inédites. La société a rapidement retiré le document, mais des captures d'écran avaient déjà circulé sur les réseaux sociaux et les forums spécialisés. Ce type de fuite est rare chez Anthropic, réputé pour sa discrétion opérationnelle, et l'incident soulève l'attention de l'ensemble du secteur. Le fait que l'entreprise elle-même qualifie les capacités de Mythos de "sans précédent" et évoque un "seuil franchi" laisse entendre un bond qualitatif significatif par rapport à Claude 3.5 et à la série actuelle Claude 4. Pour les développeurs, entreprises et concurrents qui suivent la course aux modèles de fondation, ce signal — même involontaire — pèse lourd dans l'évaluation des dynamiques compétitives. Anthropic se positionne depuis plusieurs années comme l'alternative "safety-first" face à OpenAI et Google DeepMind, avec une communication volontairement mesurée. La fuite de Mythos intervient dans un contexte d'accélération brutale du secteur : GPT-5, Gemini Ultra 2 et plusieurs modèles open-source ont rehaussé les attentes du marché en quelques mois. Si Mythos tient ses promesses implicites, il pourrait redéfinir le positionnement d'Anthropic — et forcer ses rivaux à accélérer leurs propres calendriers de lancement.

UELes acteurs européens qui évaluent ou déploient des modèles de fondation pourraient devoir réévaluer leurs choix technologiques si les capacités annoncées se confirment lors du lancement officiel.

LLMsActu
1 source
Anthropic obtient une injonction contre l'administration Trump dans l'affaire du Pentagone
1335TechCrunch AI 

Anthropic obtient une injonction contre l'administration Trump dans l'affaire du Pentagone

Un juge fédéral américain a ordonné à l'administration Trump de lever les restrictions récemment imposées à Anthropic, la société mère de l'assistant conversationnel Claude. L'injonction, prononcée par un tribunal fédéral, contraint le gouvernement à annuler des mesures qui limitaient les activités ou l'accès de l'entreprise dans le cadre de contrats liés au Pentagone. Cette décision judiciaire représente un revers significatif pour l'administration Trump dans ses tentatives de réguler ou de restreindre certaines entreprises d'intelligence artificielle. Pour Anthropic, le maintien de ses relations contractuelles avec le département de la Défense est crucial : les contrats gouvernementaux constituent une source de revenus importante et un gage de légitimité pour les acteurs de l'IA en compétition pour des marchés fédéraux estimés à plusieurs milliards de dollars. Cette affaire s'inscrit dans un contexte de tensions croissantes entre l'administration Trump et plusieurs acteurs technologiques, certaines entreprises ayant été ciblées par des décisions exécutives controversées. Anthropic, fondée en 2021 par d'anciens membres d'OpenAI, cherche à s'imposer comme un partenaire de confiance du gouvernement américain face à des concurrents comme OpenAI et Google DeepMind. L'issue de ce bras de fer juridique pourrait faire jurisprudence pour d'autres sociétés d'IA confrontées à des restrictions similaires.

RégulationReglementation
1 source
Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour
1336The Decoder 

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour

Google a dévoilé Gemini 3.1 Flash Live, son nouveau modèle vocal conçu pour des conversations en temps réel plus naturelles et plus fluides. Annoncé en mars 2026, ce modèle s'inscrit dans la gamme Flash, orientée vers la rapidité et l'efficacité. Les développeurs disposent d'un curseur permettant d'arbitrer entre qualité vocale et vitesse de réponse selon les besoins de leur application. La tarification reste alignée sur celle de Gemini 2.5, sans surcoût pour cette nouvelle génération. Ce lancement représente une avancée notable dans la course à la voix conversationnelle naturelle. Pour les développeurs d'assistants vocaux, d'applications de service client ou d'interfaces mains libres, disposer d'un modèle à la fois rapide et naturel à coût constant constitue un argument concret. La fluidité perçue de l'IA vocale est aujourd'hui un facteur décisif dans l'adoption par le grand public. Google intensifie ainsi la compétition face à OpenAI et ses modèles vocaux en temps réel, intégrés à ChatGPT, ainsi qu'à d'autres acteurs comme ElevenLabs. La stratégie Flash — modèles légers, rapides, peu coûteux — s'impose comme une approche clé pour démocratiser l'IA dans des usages à fort volume. Les prochaines versions pourraient continuer à affiner ce compromis vitesse/qualité, un équilibre qui deviendra central dans les interfaces conversationnelles de demain.

LLMsActu
1 source
Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel
1337AWS ML Blog 

Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel

Amazon vient d'annoncer une nouvelle API de streaming bidirectionnel pour son service de synthèse vocale Amazon Polly, baptisée StartSpeechSynthesisStream. Contrairement aux approches traditionnelles, cette API permet d'envoyer du texte et de recevoir de l'audio simultanément, en flux continu sur une connexion HTTP/2 unique. Les tests de performance réalisés par Amazon portaient sur 7 045 caractères (970 mots) avec la voix Matthew et le moteur Generative en MP3 24 kHz, en simulant une génération de tokens à environ 30 ms par mot — soit les conditions réelles d'un grand modèle de langage en production. L'API accepte des fragments de texte au fil de l'eau via des TextEvent, retourne des chunks audio via des AudioEvent, et confirme la fin du flux avec un StreamClosedEvent. Pour les applications d'IA conversationnelle, cette avancée supprime un goulot d'étranglement fondamental. Jusqu'ici, il fallait attendre que le LLM ait terminé de générer l'intégralité de sa réponse, puis envoyer ce texte complet au service TTS, puis attendre l'audio avant de lancer la lecture — trois étapes séquentielles qui s'ajoutaient les unes aux autres. Avec le streaming bidirectionnel, la synthèse vocale démarre dès les premiers tokens générés, ce qui réduit drastiquement la latence perçue par l'utilisateur final. Pour les assistants virtuels, les agents téléphoniques automatisés ou les interfaces vocales en temps réel, cela se traduit par des conversations nettement plus naturelles, sans les silences artificiels qui trahissent une architecture en pipeline. Le lancement s'inscrit dans une course plus large à la latence dans l'écosystème de l'IA générative vocale, où des acteurs comme ElevenLabs, OpenAI (avec son API audio temps réel) et Google se disputent le marché des applications conversationnelles. AWS avait déjà un avantage avec Polly grâce au streaming audio sortant, mais l'entrée simultanée était jusqu'ici absente. La nouvelle API élimine également la complexité côté serveur : les développeurs n'ont plus besoin d'implémenter leur propre logique de découpage de texte en phrases, ni de gérer plusieurs appels API parallèles et le réassemblage audio qui en découlait. Une seule connexion persistante remplace cette infrastructure maison. Les prochaines étapes logiques concerneront probablement l'extension à davantage de voix et de langues avec le moteur Generative, ainsi que l'intégration native dans les frameworks d'agents AWS comme Bedrock.

OutilsOutil
1 source
ChatGPT ne proposera pas de mode adulte pour ne pas rebuter ses investisseurs
1338Ars Technica AI 

ChatGPT ne proposera pas de mode adulte pour ne pas rebuter ses investisseurs

OpenAI a mis en pause indéfiniment son projet de mode érotique pour ChatGPT, selon une information du Financial Times publiée cette semaine. L'entreprise, qui avait envisagé d'autoriser des conversations à caractère sexuel explicite sur sa plateforme, a décidé de "se recentrer" sur ses "produits principaux". Des sources internes confirment que le plan a été suspendu après une vague de critiques, aussi bien externe qu'interne, et que l'option d'abandonner entièrement ce projet "adult mode" a sérieusement été envisagée. Les inquiétudes soulevées en interne sont particulièrement révélatrices. Des conseillers d'OpenAI ont averti que cette fonctionnalité risquait d'encourager des attachements émotionnels malsains chez les utilisateurs, avec des conséquences potentiellement graves sur leur santé mentale. L'un d'eux a décrit le risque de voir ChatGPT devenir une sorte de "coach sexy au bord du suicide" — une formulation qui illustre l'ampleur des préoccupations. En parallèle, des investisseurs auraient mal reçu la perspective d'une telle évolution, y voyant un risque réputationnel pour la valorisation de l'entreprise, estimée à 300 milliards de dollars. Ce recul intervient dans un contexte où OpenAI multiplie les tentatives d'élargir l'usage de ChatGPT, notamment via des fonctionnalités de compagnonnage émotionnel déjà controversées. Plusieurs concurrents, comme Character.AI ou Replika, proposent déjà des expériences plus intimes, et la question de la régulation de ces usages reste entière. L'épisode révèle les tensions croissantes entre ambitions commerciales et responsabilité éthique au sein de l'entreprise.

UELa question de la régulation des IA à vocation émotionnelle ou intime reste ouverte en Europe, l'AI Act devant encore clarifier les obligations des plateformes proposant ce type d'usage à risque psychologique.

SécuritéActu
1 source
Gemini 3.1 Flash Live : une IA audio plus naturelle et fiable
1339DeepMind Blog 

Gemini 3.1 Flash Live : une IA audio plus naturelle et fiable

Google a annoncé Gemini 3.1 Flash Live, son dernier modèle vocal en temps réel, conçu pour rendre les interactions audio avec l'IA plus fluides, plus naturelles et plus fiables. Ce nouveau modèle se distingue par une précision améliorée et une latence réduite par rapport à ses prédécesseurs, deux paramètres critiques pour la qualité des conversations vocales automatisées. Ces améliorations ont un impact direct pour les développeurs qui intègrent des fonctionnalités vocales dans leurs applications, ainsi que pour les utilisateurs finaux qui interagissent avec des assistants conversationnels. Une latence plus basse signifie des échanges moins saccadés, tandis qu'une meilleure précision réduit les erreurs de compréhension — des points de friction majeurs qui freinent l'adoption de l'IA vocale dans les usages quotidiens et professionnels. La course aux modèles vocaux temps réel s'est intensifiée depuis que OpenAI a lancé le mode vocal avancé de GPT-4o et que des acteurs comme ElevenLabs ou Cartesia ont multiplié les solutions de synthèse et compréhension audio à faible latence. Google positionne ainsi la famille Flash — ses modèles rapides et économiques — comme une option compétitive pour les cas d'usage nécessitant des interactions vocales en continu, comme les agents téléphoniques, les assistants embarqués ou les interfaces conversationnelles en temps réel.

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
1340Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
L'Uni-1 de Luma AI pourrait être le premier vrai rival à la domination de Google Nano Banana en génération d'images
1341The Decoder 

L'Uni-1 de Luma AI pourrait être le premier vrai rival à la domination de Google Nano Banana en génération d'images

Luma AI lance Uni-1, un modèle qui combine compréhension et génération d'images au sein d'une architecture unifiée, capable de raisonner à travers les prompts pendant la création. Ce nouveau modèle se positionne comme un concurrent direct à OpenAI et Google, notamment face au modèle Nano Banana de Google qui domine actuellement le marché de la génération d'images.

OutilsActu
1 source
1342Le Big Data 

L’entreprise chinoise Moonshot AI vise 18 milliards de valorisation

Moonshot AI, la startup chinoise derrière le chatbot Kimi, cherche à lever 1 milliard de dollars pour atteindre une valorisation de 18 milliards de dollars — soit plus de quatre fois sa valeur de fin 2025, portée par des investisseurs comme Alibaba et Tencent. Cette explosion reflète l'engouement mondial pour l'IA, notamment en Chine où des acteurs comme MiniMax et Zhipu rivalisent avec OpenAI et Anthropic. Le modèle Kimi K2.5, basé sur une architecture MoE de 1 000 milliards de paramètres et capable de traiter jusqu'à 256 000 tokens, affiche des benchmarks impressionnants : 50,2 % sur Humanity's Last Exam (contre 41,7 % pour GPT-5) et 60,2 % sur BrowseComp (contre 54,9 % pour GPT-5.1).

BusinessActu
1 source
1343TechCrunch AI 

Multiverse Computing propulse ses modèles d'IA compressés vers le grand public

Multiverse Computing, spécialisée dans la compression de modèles d'IA, lance une application et une API pour rendre ses modèles compressés plus accessibles au grand public. La société a déjà compressé des modèles de grands laboratoires comme OpenAI, Meta, DeepSeek et Mistral AI.

UEMultiverse Computing, entreprise européenne spécialisée dans la compression de modèles IA, rend ses outils accessibles via une API — opportunité directe pour les développeurs et entreprises européennes cherchant à réduire les coûts d'inférence.

OutilsOutil
1 source
Nvidia craque pour OpenClaw
1344Ben's Bites 

Nvidia craque pour OpenClaw

Nvidia prévoit de générer plus de 1 000 milliards de dollars de ventes via ses puces IA phares d'ici fin 2027, et a lancé NemoClaw, une stack open source ajoutant des contrôles de confidentialité et sécurité à OpenClaw. OpenAI annonce que Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires et que l'usage de son API a augmenté de 20 % depuis la sortie de GPT-5.4, tandis que Manus (récemment acquis par Meta) a lancé une application desktop concurrente mais avec des résultats décevants lors des tests. La fenêtre de contexte d'un million de tokens de Claude est désormais disponible en général.

UELe lancement de NemoClaw avec contrôles de confidentialité et sécurité pourrait faciliter l'adoption des outils Nvidia dans les entreprises européennes soumises au RGPD.

LLMsActu
1 source
Présentation de GPT-5.4 mini et nano
1345OpenAI Blog 

Présentation de GPT-5.4 mini et nano

OpenAI lance GPT-5.4 mini et nano, deux versions allégées et plus rapides de GPT-5.4. Ces modèles sont optimisés pour le codage, l'utilisation d'outils, le raisonnement multimodal et les charges de travail API à fort volume ainsi que les sous-agents.

UELes développeurs et entreprises européens peuvent accéder à ces modèles allégés via l'API OpenAI pour réduire leurs coûts sur les charges de travail à fort volume.

LLMsActu
1 source
Anciens chercheurs d'Anthropic en discussion pour lever des fonds pour une nouvelle startup évaluée à 1 milliard de dollars
1346The Information AI 

Anciens chercheurs d'Anthropic en discussion pour lever des fonds pour une nouvelle startup évaluée à 1 milliard de dollars

Des anciens chercheurs d'Anthropic discutent de levées de fonds de 175 millions de dollars à une valorisation de 1 milliard de dollars pour une nouvelle startup, Mirendil, visant la recherche et le développement AI dans des domaines scientifiques comme la biologie et les sciences des matériaux. Firmes de capital-risque Andreessen Horowitz et Kleiner Perkins envisagent de co-diriger cette ronde. Malgré les départs de chercheurs d'OpenAI, Google et Meta, Anthropic a vu relativement peu de départs de son équipe de recherche.

RechercheOutil
1 source
La forme des choses
1347One Useful Thing 

La forme des choses

En octobre 2023, le chercheur Ethan Mollick spéculait sur la forme que prendrait l'intelligence artificielle dans les années à venir. Depuis fin 2025, cette forme est devenue nettement visible : nous sommes entrés dans une nouvelle ère, celle des agents IA autonomes. Des systèmes comme Claude Code, Codex d'OpenAI ou OpenClaw permettent désormais de confier à une IA plusieurs heures de travail humain et d'en recevoir des résultats utiles en quelques minutes. Ce n'est plus de la co-intelligence — où l'humain guide l'IA pas à pas — mais bien une relation de management : on délègue, on supervise, on récupère. Ce changement de paradigme découle directement de l'amélioration exponentielle des capacités des modèles sur les dernières années. Pour illustrer cette progression, Mollick s'appuie sur plusieurs benchmarks majeurs. Le Google-Proof Q&A — test de connaissance où des étudiants en doctorat utilisant Google n'atteignent que 34 % hors de leur domaine et 70 % dedans — est désormais résolu à 94 % par les meilleurs modèles. Sur GDPval, qui mesure les performances de l'IA face à des experts humains expérimentés sur des tâches complexes, les derniers systèmes égalent ou dépassent les humains les plus performants dans 82 % des cas. Le benchmark METR Long Tasks, qui évalue la capacité d'une IA à accomplir de manière autonome et fiable du travail humain, affiche la même courbe ascendante. Même chose pour Humanity's Last Exam, conçu par des professeurs d'université pour résister aux systèmes automatisés. La génération vidéo suit le même chemin : un modèle de ByteDance, encore non disponible aux États-Unis, a produit en une seule passe un mini-documentaire quasi parfait sur des loutres, avec expressions faciales animées et narration cohérente. Ces avancées s'inscrivent dans une dynamique plus large qui redéfinit la relation entre l'humain et la machine. Depuis le lancement de ChatGPT en 2022, la progression a été rapide et continue, sans signe de ralentissement visible avant que les modèles n'atteignent le plafond des tests. Mollick reconnaît que l'IA reste « irrégulière » — excellente sur certaines tâches, défaillante sur d'autres — et que malgré ces capacités impressionnantes, la majorité des organisations n'a pas encore substantiellement changé ses pratiques. Mais ce statu quo ne devrait pas durer : à mesure que les agents autonomes deviennent plus fiables et accessibles, la pression sur les entreprises pour adapter leurs modèles de travail va s'intensifier. La question n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais à quelle vitesse les organisations sauront s'en saisir.

LLMsPaper
1 source
Du modèle à l'agent : la Responses API s'enrichit d'un environnement informatique
1348OpenAI Blog 

Du modèle à l'agent : la Responses API s'enrichit d'un environnement informatique

OpenAI a développé un runtime d'agent en s'appuyant sur l'API Responses, un outil shell et des conteneurs hébergés, permettant d'exécuter des agents de manière sécurisée et scalable. Cette infrastructure donne aux agents la capacité de gérer des fichiers, des outils et un état persistant au sein d'un environnement informatique isolé. L'objectif est de faire évoluer les modèles vers de véritables agents autonomes capables d'effectuer des tâches complexes en environnement contrôlé.

OutilsOutil
1 source
Le Téléchargement : Le rôle de l'IA dans la guerre en Iran et un conflit juridique en escalade
1349MIT Technology Review 

Le Téléchargement : Le rôle de l'IA dans la guerre en Iran et un conflit juridique en escalade

Anthropic a poursuivi le gouvernement américain pour empêcher le Pentagone de la blacklister, tandis que la Maison-Blanche prépare un décret pour exclure ses technologies — une décision qui a suscité le soutien de Google, OpenAI et de nombreux experts. Par ailleurs, l'IA joue un rôle croissant dans le conflit en Iran, notamment via des tableaux de bord de renseignement "vibe-codés" qui médiatisent l'information en temps de guerre, souvent de manière problématique. Enfin, Nvidia prévoit de lancer une plateforme open-source pour agents IA baptisée "NemoClaw", et la startup d'IA de Yann LeCun a levé plus d'1 milliard de dollars lors du plus grand tour de table seed d'Europe.

UELa startup d'IA de Yann LeCun, figure française de l'IA mondiale, a réalisé le plus grand tour de table seed d'Europe avec plus d'un milliard de dollars levés, signalant une dynamique d'investissement historique dans l'écosystème européen de l'IA.

RégulationActu
1 source
Le Téléchargement: 10 points essentiels en IA, ainsi que le plan d'Anthropic pour intenter le Pentagone
1350MIT Technology Review 

Le Téléchargement: 10 points essentiels en IA, ainsi que le plan d'Anthropic pour intenter le Pentagone

1. Anthropic menace de poursuivre le Pentagone pour considérer son interdiction de logiciels comme illégale; 2. Le Pentagone teste discrètement les modèles d'OpenAI, démontrant l'inefficacité de l'interdiction militaire de ces modèles par OpenAI; 3. Une nouvelle plainte affirme que l'accord de Trump avec TikTok a profité des entreprises qui "enrichissaient personnellement" le président sortant; 4. Google et Amazon investissent dans des assistants intelligents pour les foyers intelligents, mais certains hésitent en raison de préoccupations; 5. Des attaques militaires iraniennes ont visé les centres de données d'Amazon, perturbant les ambitions régionales en matière d'IA; 6. Des CEOs technologiques continuent de rencontrer Trump pour discuter de réglementations et de censure.

UEAnthropic prépare une action en justice contre le Pentagone pour contester l'interdiction de ses logiciels, affectant les dynamiques de contrôle technologique dans l'UE et en France, notamment pour les entreprises comme OVHcloud, sensibles aux réglementations de l'AI Act et RGPD.

RégulationActu
1 source