Aller au contenu principal

LLMs — page 7

472 articles · page 7 sur 10

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

[AINews] Un 1er avril sans éclat
301Latent Space LLMsActu

[AINews] Un 1er avril sans éclat

Le 1er avril 2026, plusieurs modèles d'IA de niveau intermédiaire ont été lancés malgré la date peu propice. Le lancement le plus significatif est celui d'Arcee Trinity-Large-Thinking, un modèle open-source publié sous licence Apache 2.0 avec 400 milliards de paramètres au total et 13 milliards actifs. Conçu explicitement pour les développeurs et entreprises souhaitant l'inspecter, l'héberger ou le fine-tuner, il revendique la deuxième place sur le benchmark PinchBench — juste derrière Claude Opus 4.6 — ainsi que des performances de pointe sur Tau2-Airline et des résultats de niveau frontier dans le secteur des télécommunications. Dans la même journée, Z.ai a lancé GLM-5V-Turbo, un modèle de codage multimodal capable de traiter nativement images, vidéos, mises en page de documents et maquettes de design, grâce à une fusion multimodale native et un encodeur visuel CogViT de nouvelle génération entraîné par apprentissage par renforcement collaboratif sur plus de 30 tâches. Le laboratoire TII a de son côté publié Falcon Perception, un modèle de segmentation à vocabulaire ouvert accompagné d'un modèle OCR de 0,3 milliard de paramètres, rivalisant selon ses créateurs avec des modèles 3 à 10 fois plus grands. La journée a également été marquée par la révélation accidentelle du code source de Claude Code, l'agent de développement d'Anthropic. L'analyse technique qui a circulé sur X et Zhihu a mis en lumière une architecture volontairement minimaliste : une boucle while(true) centrale, une pile de compression de contexte à quatre niveaux, une exécution d'outils en parallèle avec flux en continu, et une architecture modulaire de plus de 40 outils sans recours aux abstractions par héritage. La fuite a également révélé des fonctionnalités inédites comme un mode AFK, un mode rapide baptisé "Penguin", et un système de gestion de budget de tâches. En parallèle, de nombreux développeurs ont signalé des ralentissements et une instabilité du service Claude ce jour-là, renforçant une frustration déjà présente dans la communauté. Ces sorties s'inscrivent dans une course intense aux modèles open-weight raisonnants et multimodaux, où les acteurs indépendants cherchent à concurrencer les laboratoires dominants sur des benchmarks précis. L'émergence d'Arcee, soutenue par Prime Intellect et Datology, illustre qu'une petite équipe peut désormais servir un modèle de 400 milliards de paramètres à des coûts de production compétitifs — un signal fort pour la démocratisation de l'IA de pointe. La fuite de Claude Code, quant à elle, alimente le débat sur la transparence architecturale dans un marché des agents de codage de plus en plus concurrentiel, où Anthropic affronte désormais des alternatives open-source crédibles sur ses propres benchmarks.

UELes modèles open-source Arcee Trinity-Large-Thinking et Falcon Perception (licence Apache 2.0) sont immédiatement accessibles aux développeurs et entreprises européennes pour auto-hébergement, réduisant la dépendance aux API propriétaires américaines.

1 source
IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise
302MarkTechPost 

IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise

IBM a lancé Granite 4.0 3B Vision, un modèle de langage visuel (VLM) conçu spécifiquement pour l'extraction de données documentaires en entreprise. Contrairement aux grands modèles multimodaux monolithiques, ce modèle adopte une architecture modulaire : il se présente sous forme d'adaptateur LoRA d'environ 0,5 milliard de paramètres, conçu pour se greffer sur le modèle de base Granite 4.0 Micro (3,5 milliards de paramètres). Cette configuration permet un déploiement en « double mode » — le modèle texte fonctionne de manière autonome, et le composant visuel n'est activé qu'en cas de besoin. Pour traiter les images haute résolution, le modèle découpe les documents en tuiles de 384×384 pixels via l'encodeur visuel SigLIP2 de Google, tout en conservant une vue globale réduite de l'image. Les tokens visuels sont ensuite injectés dans le modèle de langage en 8 points d'ancrage distincts grâce à l'architecture DeepStack, assurant un alignement précis entre contenu sémantique et mise en page spatiale. En matière de performances, le modèle atteint 85,5 % de correspondance exacte en extraction de paires clé-valeur sur le benchmark VAREX (zéro-shot), et se classe troisième parmi les modèles de 2 à 4 milliards de paramètres sur ce leaderboard en mars 2026. L'enjeu principal de cette sortie est de permettre aux entreprises d'automatiser l'extraction structurée de données à partir de documents complexes — tableaux financiers, graphiques analytiques, formulaires — avec un modèle compact et déployable localement. Là où les grands modèles généralistes sacrifient la précision structurelle au profit de la polyvalence, Granite 4.0 3B Vision est entraîné spécifiquement sur la conversion de graphiques en CSV ou JSON, la reconnaissance de structures de tableaux en HTML, et l'extraction de paires clé-valeur. IBM a notamment utilisé ChartNet, un dataset multimodal à l'échelle du million d'exemples, ainsi qu'une pipeline d'entraînement « guidée par le code » qui aligne le code de génération d'un graphique, son rendu visuel et la table de données sous-jacente. Cette approche permet au modèle de comprendre la relation structurelle entre une représentation visuelle et sa source, plutôt que de simplement décrire une image. Ce lancement s'inscrit dans la stratégie d'IBM de positionner sa gamme Granite comme une alternative open-source et souveraine aux solutions propriétaires de Microsoft, Google ou Anthropic pour les usages entreprise. La tendance à l'architecture modulaire — un socle texte augmenté d'adaptateurs spécialisés — reflète une évolution plus large du secteur vers des modèles efficaces en ressources, déployables sur des infrastructures maîtrisées plutôt que dans le cloud public. Avec la prolifération des obligations réglementaires autour de la traçabilité des données (RGPD, AI Act européen), des modèles capables de traiter des documents sensibles en local représentent un avantage concurrentiel significatif. La prochaine étape pour IBM sera d'intégrer ce composant dans ses pipelines documentaires Watson et de le rendre accessible via watsonx, sa plateforme d'IA d'entreprise.

UELe déploiement local de Granite 4.0 3B Vision facilite la conformité RGPD et AI Act pour les entreprises européennes traitant des documents sensibles, en évitant tout transfert vers le cloud américain.

LLMsOpinion
1 source
Gemma 4 : intelligence multimodale de pointe sur appareil
303HuggingFace Blog 

Gemma 4 : intelligence multimodale de pointe sur appareil

Google DeepMind a lancé Gemma 4, sa nouvelle génération de modèles open source, disponible depuis début avril 2025. Cette famille comprend quatre variantes allant de 1 milliard à 27 milliards de paramètres, toutes capables de traiter texte et images simultanément. Les modèles sont disponibles sur Hugging Face, Google AI Studio et Kaggle, avec des licences permissives autorisant leur usage commercial. La particularité de Gemma 4 réside dans sa capacité multimodale optimisée pour les appareils locaux, depuis les smartphones jusqu'aux ordinateurs personnels, sans dépendance à un serveur distant. Le modèle 27B affiche des performances comparables à des systèmes bien plus volumineux sur les benchmarks de raisonnement et de vision, tandis que le 1B peut tourner directement sur mobile, ouvrant la voie à des applications IA entièrement hors ligne. Cette sortie s'inscrit dans la compétition ouverte qui oppose Google à Meta, Microsoft et Mistral sur le segment des modèles open source embarqués. Depuis Gemma 1 en février 2024, Google a accéléré le rythme de ses publications pour ne pas céder ce terrain stratégique à Llama. La course aux modèles multimodaux légers devient un enjeu central pour l'IA souveraine et les usages professionnels sans connectivité cloud.

UELes modèles embarqués sans dépendance cloud s'alignent avec les exigences d'IA souveraine portées par l'UE, facilitant des déploiements professionnels conformes au RGPD sans transfert de données vers des serveurs tiers.

LLMsOpinion
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
304MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
305MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source
Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)
306MarkTechPost 

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

Hugging Face a officiellement publié TRL (Transformer Reinforcement Learning) v1.0, marquant le passage de cette bibliothèque d'un outil de recherche expérimental à un framework stable et prêt pour la production. Cette version unifie l'ensemble du pipeline de post-entraînement — la séquence Supervised Fine-Tuning (SFT), Reward Modeling et alignement — sous une API standardisée et cohérente. Concrètement, les développeurs disposent désormais d'une interface en ligne de commande dédiée, d'un système de configuration unifié basé sur des fichiers YAML, et d'une suite élargie d'algorithmes d'alignement incluant DPO, GRPO, KTO et ORPO. Une simple commande comme trl sft --modelnameor_path meta-llama/Llama-3.1-8B suffit désormais à lancer un entraînement complet, là où il fallait auparavant écrire des centaines de lignes de code personnalisé. Cette standardisation change concrètement la donne pour les équipes d'ingénierie qui travaillent sur des modèles de langage. Le post-entraînement — cette phase où l'on affine un modèle de base pour qu'il suive des instructions, adopte un ton particulier ou développe des capacités de raisonnement — était jusqu'ici souvent traité comme un art obscur, réservé aux équipes de recherche disposant de ressources importantes. TRL v1.0 démocratise ce processus : les classes de configuration comme SFTConfig ou GRPOConfig héritent directement de transformers.TrainingArguments, assurant une compatibilité totale avec l'écosystème Hugging Face. L'intégration native avec Accelerate permet de passer d'un GPU local à un cluster multi-nœuds en FSDP ou DeepSpeed sans modifier le code. Le support natif de LoRA et QLoRA via PEFT rend le fine-tuning de modèles à plusieurs milliards de paramètres accessible sur du matériel grand public ou d'entreprise de gamme intermédiaire. TRL existe depuis plusieurs années comme référence dans la communauté de recherche sur l'alignement des LLMs, mais son API fragmentée et son manque de stabilité en freinaient l'adoption industrielle. La version 1.0 intervient dans un contexte où le post-entraînement est devenu un avantage compétitif central : des modèles comme DeepSeek-R1 ou les versions récentes de LLaMA ont démontré que la phase d'alignement — notamment via GRPO, qui élimine le modèle critique pour réduire l'empreinte mémoire — peut transformer radicalement les capacités d'un modèle de base. En unifiant PPO, DPO, GRPO, KTO et ORPO dans un seul framework documenté, Hugging Face positionne TRL comme l'infrastructure standard du fine-tuning open source, face aux solutions propriétaires des grands laboratoires. Les prochaines étapes devraient inclure une intégration plus poussée avec le Hub Hugging Face pour la gestion des expériences et des artefacts d'entraînement.

UETRL v1.0, publié par Hugging Face — entreprise d'origine française — renforce la capacité des équipes européennes à développer et aligner des LLMs en open source, sans dépendre des pipelines propriétaires des grands laboratoires américains.

LLMsOutil
1 source
Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement
307MarkTechPost 

Liquid AI publie LFM2.5-350M : un modèle compact de 350 millions de paramètres entraîné sur 28 000 milliards de tokens avec apprentissage par renforcement

Liquid AI a publié LFM2.5-350M, un modèle de langage de 350 millions de paramètres entraîné sur 28 000 milliards de tokens — soit un ratio tokens/paramètres de 80 000 pour 1, un record dans cette catégorie de taille. Contrairement aux architectures Transformer classiques, ce modèle repose sur une structure hybride appelée LIV (Linear Input-Varying Systems) : 10 blocs de convolution LIV à double gating et 6 blocs d'attention GQA (Grouped Query Attention). Cette combinaison permet de gérer une fenêtre de contexte de 32 768 tokens tout en maintenant une empreinte mémoire extrêmement réduite — 169 Mo sur un Snapdragon 8 Elite, 81 Mo sur GPU Snapdragon, et 300 Mo sur Raspberry Pi 5. Sur GPU NVIDIA H100, le modèle atteint 40 400 tokens générés par seconde en forte concurrence. Aux benchmarks, il affiche 76,96 sur IFEval (suivi d'instructions), 30,64 sur GPQA Diamond et 20,01 sur MMLU-Pro. Ce modèle s'adresse directement au marché de l'IA embarquée : appareils mobiles, systèmes edge, IoT, environnements à ressources contraintes. Sa capacité à tourner en moins de 300 Mo de RAM le rend déployable sans cloud, sans GPU serveur, directement sur l'appareil de l'utilisateur final. Pour les développeurs qui construisent des agents autonomes, des pipelines d'extraction de données structurées (JSON, appels de fonctions) ou des systèmes de traitement d'instructions complexes, le LFM2.5-350M offre une vitesse d'inférence difficile à atteindre avec des modèles deux fois plus grands. En revanche, Liquid AI est explicite : ce modèle n'est pas recommandé pour les mathématiques avancées, le code complexe ou l'écriture créative — domaines où la densité de paramètres reste déterminante. Liquid AI, startup fondée par des chercheurs du MIT spécialisés dans les réseaux neuronaux liquides, s'inscrit dans un courant croissant qui remet en question le dogme du « toujours plus grand ». Alors que les grands acteurs — OpenAI, Google, Anthropic — continuent de pousser des modèles frontier aux milliards de paramètres, une contre-tendance émerge autour de la densité d'intelligence : faire mieux avec moins, en optimisant radicalement le ratio données/paramètres et l'architecture elle-même. L'abandon partiel du mécanisme d'attention au profit de systèmes LIV réduit le problème du cache KV qui pénalise les Transformers sur les longues séquences. Cette approche ouvre la voie à une IA véritablement locale, souveraine et déployable sans dépendance à l'infrastructure cloud — un enjeu stratégique croissant dans un contexte de régulation des données et de souveraineté numérique.

UELa capacité du modèle à fonctionner sans infrastructure cloud s'aligne avec les enjeux de souveraineté numérique et de conformité RGPD en Europe, où le traitement local des données réduit la dépendance aux serveurs américains.

LLMsOpinion
1 source
Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code
308Numerama 

Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code

Anthropic a maladroitement rendu accessible au public le code source de Claude Code, son assistant de programmation destiné aux développeurs. Des chercheurs et internautes curieux ont rapidement épluché les fichiers exposés, y décelant plusieurs projets internes jusqu'alors inconnus. Parmi les découvertes les plus frappantes : un système de « mémoire infinie » permettant à Claude de retenir des informations sur le long terme, un mécanisme de traitement en arrière-plan baptisé « rêves nocturnes », un mode « Master Claude » suggérant une hiérarchie entre instances du modèle, un suivi des états émotionnels comme la frustration — et, plus surprenant encore, un concept de Tamagotchi impliquant une forme de présence persistante et évolutive de l'IA. Cette fuite involontaire offre une fenêtre rare sur la feuille de route d'Anthropic, révélant des ambitions qui vont bien au-delà d'un simple assistant de code. La notion de mémoire persistante et d'états internes rappelle les débats en cours sur les agents autonomes : des modèles capables de maintenir une continuité entre les sessions, de mémoriser le contexte d'un projet sur des semaines, voire de développer une forme de « personnalité » stable. Ces fonctionnalités, si elles aboutissent, changeraient fondamentalement la relation entre un développeur et son outil IA. Anthropic se positionne depuis sa fondation en 2021 comme un acteur de l'IA « sûre et responsable », face à OpenAI et Google. Claude Code, lancé pour concurrencer GitHub Copilot et Cursor, est au cœur de cette stratégie commerciale. La fuite survient dans un contexte de compétition acharnée entre les grands labs, où chaque avancée technique est jalousement gardée. L'entreprise n'a pas encore commenté publiquement l'étendue exacte de l'exposition, ni confirmé le calendrier de déploiement de ces fonctionnalités.

LLMsActu
1 source
Le passage à la personnalisation des modèles d'IA est une nécessité architecturale
309MIT Technology Review 

Le passage à la personnalisation des modèles d'IA est une nécessité architecturale

Les grands modèles de langage (LLM) généralistes ont connu leur âge d'or : des bonds de performance spectaculaires à chaque nouvelle version. Cette ère touche à sa fin. Les progrès s'accumulent désormais de façon incrémentale sur les benchmarks généraux, tandis qu'une exception subsiste — l'intelligence de domaine. Mistral AI, la startup française spécialisée en IA, documente plusieurs déploiements concrets de modèles sur mesure : un fabricant d'équipements réseau a entraîné un modèle sur ses propres langages et bases de code propriétaires, obtenant une maîtrise que les modèles standards ne pouvaient atteindre ; un grand constructeur automobile a automatisé l'analyse comparative entre simulations numériques et tests physiques de crash, réduisant à quelques minutes ce qui mobilisait autrefois des journées entières de travail spécialisé ; enfin, une agence gouvernementale en Asie du Sud-Est a commandité un modèle fondation calibré sur les langues régionales et les contextes culturels locaux pour créer une infrastructure d'IA souveraine, indépendante des modèles occidentaux. L'enjeu central est la création d'un avantage concurrentiel durable. Lorsqu'un modèle est entraîné sur les données propriétaires d'une organisation — ses processus internes, sa terminologie métier, son historique décisionnel —, il encode la logique de l'entreprise directement dans ses poids. Cela va bien au-delà du fine-tuning classique : c'est l'institutionnalisation de l'expertise dans un système automatisé. Pour l'industrie automobile, cela signifie un copilote capable de proposer des ajustements de conception en temps réel. Pour le secteur public, c'est la garantie que des données sensibles restent sous gouvernance nationale tout en alimentant des services citoyens efficaces. La customisation transforme l'IA d'outil générique en actif stratégique différenciant. Ce changement de paradigme intervient alors que les organisations réalisent les limites des approches expérimentales menées en silos. Les pilotes isolés produisent des pipelines fragiles, une gouvernance improvisée et une portabilité réduite. La vraie rupture exige de traiter l'IA comme une infrastructure d'entreprise — au même titre qu'une base de données ou un système ERP — et non comme un projet ponctuel. Mistral AI se positionne comme partenaire de cette transition en intégrant l'expertise métier dans ses écosystèmes d'entraînement. La course à la personnalisation redéfinit les rapports de force : les entreprises capables d'encoder leur savoir institutionnel dans un modèle construisent une barrière à l'entrée que les acteurs généralistes ne peuvent pas répliquer, car ce fossé se creuse à mesure que le modèle apprend et s'affine avec les données nouvelles de l'organisation.

UEMistral AI, startup française de référence, se positionne comme partenaire stratégique pour les entreprises et institutions européennes souhaitant développer des modèles sur mesure garantissant la souveraineté de leurs données.

LLMsActu
1 source
Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code
310Numerama 

Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code

Anthropic a involontairement rendu public le code source de Claude Code, son assistant de développement intégré aux environnements de programmation, exposant ainsi des projets internes qui n'étaient pas destinés à être vus. Des internautes ont rapidement exploré les fichiers accessibles et mis au jour plusieurs fonctionnalités en développement, dont certaines révèlent une vision ambitieuse — et surprenante — de ce que pourrait devenir l'outil. Parmi les découvertes les plus marquantes figurent un concept de « mémoire infinie » permettant à Claude de se souvenir de l'intégralité des échanges passés avec un utilisateur, un mécanisme de « rêves nocturnes » où le modèle consoliderait ses apprentissages pendant les périodes d'inactivité, ainsi qu'un système hiérarchique baptisé « Master Claude ». Plus inattendu encore : une référence à un concept de Tamagotchi, suggérant qu'Anthropic expérimente des formes d'attachement ou de continuité émotionnelle entre l'IA et ses utilisateurs. Le code mentionnerait également des indicateurs liés à la « frustration » de l'agent. Cette fuite survient dans un contexte de compétition acharnée entre les grands laboratoires d'IA — OpenAI, Google, Meta et Anthropic se disputant le marché des assistants pour développeurs. Exposer accidentellement sa feuille de route interne représente un revers stratégique non négligeable pour Anthropic, qui a depuis retiré les fichiers concernés. L'incident soulève aussi des questions sur la direction prise par les assistants IA : vers des agents dotés de persistance mémorielle, de cycles d'apprentissage continus et de dimensions quasi-affectives, brouillant davantage la frontière entre outil et entité autonome.

UELes fonctionnalités révélées — notamment la mémoire infinie et les cycles d'apprentissage nocturnes — pourraient soulever des questions de conformité RGPD en Europe si elles venaient à être déployées.

LLMsOpinion
1 source
Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné
311The Decoder 

Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné

Alibaba a publié Qwen3.5-Omni, un nouveau modèle d'intelligence artificielle omnimodal capable de traiter simultanément du texte, des images, de l'audio et de la vidéo. Selon l'entreprise, le modèle surpasse Gemini 2.5 Pro sur les tâches de compréhension audio. Mais c'est une capacité émergente, non prévue lors de l'entraînement, qui a le plus retenu l'attention : Qwen3.5-Omni est capable d'écrire du code à partir d'instructions orales combinées à des entrées vidéo, une compétence que personne ne lui a explicitement enseignée. Ce phénomène d'émergence spontanée illustre une tendance de fond dans les grands modèles multimodaux : en apprenant à connecter plusieurs modalités sensorielles, ces systèmes développent des compétences transversales imprévues qui dépassent leurs objectifs d'entraînement initiaux. Pour les développeurs, cela ouvre des perspectives concrètes — imaginer un assistant capable de regarder un écran, d'écouter une demande vocale et de produire directement le code correspondant, sans interaction textuelle intermédiaire. Alibaba positionne Qwen3.5-Omni dans une course multimodale qui oppose désormais directement les acteurs chinois aux laboratoires américains. La série Qwen a déjà produit plusieurs modèles qui ont surpris par leurs performances, notamment sur des benchmarks de code et de raisonnement. Face à Google avec Gemini, OpenAI avec GPT-4o et ses variantes vocales, et Meta avec ses modèles ouverts, Alibaba cherche à s'imposer comme un acteur de référence sur le segment des modèles capables de percevoir et d'agir sur l'ensemble des modalités humaines. La publication de Qwen3.5-Omni renforce cette ambition.

LLMsOpinion
1 source
Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA
312Frandroid 

Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Google a présenté TurboQuant, une méthode de quantification avancée capable de réduire drastiquement l'empreinte mémoire des grands modèles de langage, sans dévoiler le code source. Face à cette rétention, un développeur indépendant a décidé d'agir seul : en sept jours seulement, en s'appuyant sur l'assistant IA Claude d'Anthropic, il a réimplémenté la technique à partir des seules informations disponibles dans l'article scientifique de Google. Le résultat est fonctionnel et permet de faire tourner des modèles de plusieurs dizaines de milliards de paramètres sur un MacBook Air standard. Cet exploit illustre un changement de paradigme majeur dans l'accès à l'IA. Jusqu'ici, les modèles les plus puissants exigeaient des GPU professionnels avec des dizaines de gigaoctets de VRAM, réservant leur usage aux entreprises ou aux chercheurs disposant d'infrastructure lourde. TurboQuant contourne cette contrainte en compressant les poids des modèles avec une précision inédite, préservant les performances tout en divisant l'occupation mémoire. Si la méthode se généralise, elle pourrait démocratiser l'inférence locale pour des millions d'utilisateurs. La situation s'inscrit dans une tension croissante entre les laboratoires qui publient des recherches sans ouvrir le code — pratique de plus en plus courante chez Google, OpenAI ou Anthropic — et une communauté open source réactive, capable de combler les lacunes à vitesse record. Ce cas rappelle celui de llama.cpp ou d'autres réimplémentations communautaires qui ont précédé des publications officielles. La prochaine étape sera d'intégrer cette technique dans des outils grand public comme Ollama ou LM Studio, accélérant encore la course vers l'IA locale accessible à tous.

LLMsPaper
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
313MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Microsoft AI lance Harrier-OSS-v1 : une nouvelle famille de modèles d'embeddings multilingues atteignant l'état de l'art sur Multilingual MTEB v2
314MarkTechPost 

Microsoft AI lance Harrier-OSS-v1 : une nouvelle famille de modèles d'embeddings multilingues atteignant l'état de l'art sur Multilingual MTEB v2

Microsoft a publié Harrier-OSS-v1, une famille de trois modèles d'embedding de texte multilingues qui décrochent les meilleurs scores du moment sur le benchmark Multilingual MTEB v2, la référence principale pour évaluer la qualité des représentations vectorielles de texte. La famille comprend trois variantes : un modèle de 270 millions de paramètres, un de 0,6 milliard, et un de 27 milliards. Tous trois partagent une fenêtre de contexte de 32 768 tokens — soit entre 32 et 64 fois celle des modèles classiques comme les dérivés de BERT — et produisent des embeddings de dimensions variables (1 024, 2 048 ou 5 376 selon la taille). Les modèles sont disponibles en open source sur HuggingFace. Ce lancement représente une rupture technique notable dans le domaine des embeddings. Contrairement aux architectures encodeur bidirectionnelles qui dominent ce secteur depuis BERT en 2018, Harrier repose sur une architecture décodeur-seulement, identique à celle des grands modèles de langage modernes. Pour obtenir un vecteur représentatif d'un texte entier, le modèle utilise le mécanisme de last-token pooling : l'état caché du dernier token de la séquence sert de représentation agrégée, puis est normalisé. La fenêtre de 32k tokens est particulièrement précieuse pour les systèmes RAG (Retrieval-Augmented Generation), où l'obligation de découper de longs documents en petits morceaux dégrade souvent la cohérence sémantique. Par ailleurs, les modèles plus petits (270M et 0,6B) ont été entraînés par distillation de connaissance à partir de modèles enseignants plus grands, leur permettant d'atteindre des performances supérieures à ce que leur taille laisserait espérer — un avantage concret pour les déploiements contraints en mémoire ou en latence. La course aux embeddings multilingues s'intensifie depuis que les applications RAG et la recherche sémantique sont devenues des composantes centrales des produits IA en entreprise. Microsoft entre sur ce terrain avec une approche instruction-tuned : pour obtenir les performances annoncées, chaque requête doit être précédée d'une instruction décrivant la tâche (par exemple, "Retrieve semantically similar text"), tandis que les documents sont encodés sans instruction. Ce design permet au modèle d'adapter dynamiquement son espace vectoriel selon le cas d'usage — recherche web, mining de traductions, classification. Face à des concurrents comme Cohere, Voyage AI ou les modèles E5 de Microsoft lui-même, Harrier-OSS-v1 se positionne comme une option open source sérieuse couvrant une gamme de tailles adaptée à des contraintes très différentes, du serveur embarqué au cluster GPU haute capacité.

UELes modèles open source multilingues couvrant les langues européennes permettent aux équipes R&D et entreprises de déployer des systèmes RAG performants sans dépendance à une API propriétaire.

LLMsActu
1 source
Mistral : Voxtral TTS, Forge, Leanstral et l'avenir de Mistral 4 — avec Pavan Kumar Reddy et Guillaume Lample
315Latent Space 

Mistral : Voxtral TTS, Forge, Leanstral et l'avenir de Mistral 4 — avec Pavan Kumar Reddy et Guillaume Lample

Mistral AI a lancé cette semaine Voxtral TTS, son premier modèle de synthèse vocale (text-to-speech), marquant une nouvelle étape dans l'expansion rapide de la startup française. Basé sur une version 4 milliards de paramètres de Ministral, ce modèle multilingue supporte neuf langues et se distingue par sa faible latence, ce qui le rend adapté aux applications temps réel. Les benchmarks internes indiquent un taux de victoire de 68,4 % face à ElevenLabs Flash v2.5 — l'une des références du secteur — tout en étant commercialisé à une fraction du coût des concurrents. Le modèle est publié en open weights, ce qui signifie que n'importe qui peut le télécharger et l'exécuter localement. L'annonce a été faite par Guillaume Lample, co-fondateur et Chief Scientist de Mistral, et Pavan Kumar Reddy, responsable de la recherche audio, lors d'une apparition dans le podcast Latent Space. L'impact de ce lancement dépasse la simple performance technique. En proposant un modèle TTS de qualité comparable à ElevenLabs — longtemps considéré comme le gold standard du secteur — mais à coût réduit et en open source, Mistral redéfinit l'accès à la synthèse vocale professionnelle. Les entreprises qui intégraient jusqu'ici des APIs vocales propriétaires peuvent désormais envisager des alternatives autohébergées, réduisant leur dépendance et leurs coûts. Pour les développeurs d'agents vocaux temps réel — un marché en forte croissance — le couple latence faible / open weights est particulièrement attractif. La dimension privacy est également centrale : déployer le modèle en local permet de traiter de l'audio sensible sans transmettre de données à des services tiers. L'architecture de Voxtral TTS est elle-même une contribution de recherche notable. Mistral a développé en interne une approche originale combinant génération auto-régressive de tokens sémantiques avec du flow matching pour les tokens acoustiques — une technique empruntée au domaine de la génération d'images, rarement appliquée à l'audio. L'entreprise a également conçu son propre codec neural audio. Ce lancement s'inscrit dans une dynamique soutenue : Mistral avait déjà publié un premier modèle audio, Voxtral ASR, pour la transcription multilingue, ainsi que des mises à jour ajoutant du context biasing, du timestamping et de la transcription en streaming. Rappelons que Mistral a levé la plus grande série de financement de l'histoire de l'IA européenne en 2024, et enchaîne les sorties de modèles à un rythme difficile à suivre. Avec Voxtral TTS, la startup confirme son ambition de couvrir l'ensemble de la pile IA — texte, code, vision, et désormais voix — tout en maintenant un positionnement open weights distinctif face aux géants américains.

UEMistral, startup française leader de l'IA européenne, propose une alternative open weights aux APIs vocales propriétaires américaines, permettant aux entreprises françaises et européennes de déployer la synthèse vocale en local sans dépendance à des services tiers.

💬 Un modèle TTS open weights qui bat ElevenLabs sur la latence et coûte une fraction du prix, c'est exactement le genre de sortie qui va faire mal à des acteurs qui vivaient sur leur avance technique. Ce qui m'intéresse surtout, c'est l'archi : du flow matching pour les tokens acoustiques, emprunté à la génération d'image, c'est un pari de recherche pas évident et visiblement ça paye. Reste à voir ce que ça donne en prod sur des cas limites, mais Mistral est en train de couvrir toute la pile et ça commence à devenir sérieux.

LLMsOpinion
1 source
Claude Mythos : la prochaine IA surpuissante d’Anthropic vient de fuiter
316Le Big Data 

Claude Mythos : la prochaine IA surpuissante d’Anthropic vient de fuiter

Une fuite technique a exposé l'existence de Claude Mythos, le prochain grand modèle d'Anthropic, bien avant toute annonce officielle. Deux experts en cybersécurité ont découvert près de 3 000 fichiers internes accessibles librement en ligne, parmi lesquels un brouillon détaillant ce projet baptisé en interne « Capybara ». La publication Fortune a confirmé l'affaire, et Anthropic n'a pas nié : l'entreprise a elle-même qualifié Mythos de « bond de capacité » par rapport à Claude Opus 4.6, actuellement considéré comme l'un des modèles les plus puissants du marché. Les premiers benchmarks évoqués dans les documents montrent des gains significatifs en programmation, en raisonnement académique et surtout en cybersécurité, où l'écart avec Opus serait particulièrement marqué. Mythos s'inscrit au-delà de la gamme actuelle Haiku / Sonnet / Opus — un quatrième palier inédit, plus puissant et plus coûteux que tout ce qu'Anthropic a jamais déployé. Ce qui rend la situation délicate, c'est qu'Anthropic refuse pour l'instant tout déploiement grand public. La raison avancée en interne est claire : le modèle est jugé trop risqué pour une diffusion ouverte, en particulier à cause de ses capacités en cybersécurité, qui dépassent les protocoles de sécurité habituels de la firme. L'accès est donc limité à un cercle restreint de clients professionnels triés sur le volet, sans calendrier de lancement public annoncé. À cela s'ajoute un coût d'infrastructure sans précédent — faire tourner Mythos consomme des ressources massives, ce qui rend son déploiement à grande échelle à la fois risqué et économiquement complexe. Pour Anthropic, entreprise qui a construit toute sa réputation sur la sécurité responsable de l'IA, la fuite est doublement embarrassante : elle expose non seulement un produit non finalisé, mais aussi les tensions internes autour de la gestion du risque. La fuite survient à un moment particulièrement sensible pour Anthropic. L'entreprise est en pleine offensive commerciale en Europe, avec un sommet privé prévu au Royaume-Uni réunissant des dirigeants européens, en présence de Dario Amodei lui-même — signal fort d'une stratégie d'expansion assumée sur le marché professionnel continental. L'objectif est de s'imposer comme fournisseur d'automatisation intelligente de référence face à OpenAI et Google, en misant sur des standards de fiabilité stricts. En arrière-plan, une introduction en bourse (IPO) serait dans les plans, ce qui rend toute controverse publique particulièrement mal venue. La question que pose désormais Claude Mythos dépasse la performance pure : jusqu'où une entreprise peut-elle retenir un modèle qu'elle juge elle-même trop capable, et qui décide des conditions de son accès ?

UELe sommet privé d'Anthropic au Royaume-Uni réunissant des dirigeants européens en présence de Dario Amodei signale une offensive commerciale directe sur le marché professionnel continental, susceptible d'accélérer l'adoption de l'automatisation IA dans les entreprises européennes.

💬 C'est la première fois qu'Anthropic dit publiquement qu'un de leurs modèles est trop risqué pour le marché, et c'est pas rien. La fuite est gênante pour eux, surtout avec l'IPO en vue, mais le vrai sujet c'est ce palier au-dessus d'Opus qu'on n'attendait pas si tôt. Reste à voir si le "trop dangereux" c'est du marketing safety ou une vraie ligne rouge.

LLMsActu
1 source
Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel
317MarkTechPost 

Mistral AI lance Voxtral TTS : un modèle vocal open-weight de 4 milliards de paramètres pour la génération vocale multilingue en temps réel

Mistral AI a lancé Voxtral TTS, son premier modèle de synthèse vocale en poids ouverts, marquant l'entrée officielle de la startup française dans la génération audio. Publié sous licence CC BY-NC, le modèle repose sur une architecture hybride de 4 milliards de paramètres répartis en trois composants distincts : un décodeur Transformer de 3,4 milliards de paramètres basé sur l'architecture Ministral pour la compréhension du texte, un transformeur acoustique à flux de 390 millions de paramètres pour convertir les représentations sémantiques en caractéristiques sonores, et un codec neural de 300 millions de paramètres pour restituer une forme d'onde audio haute fidélité. Le modèle supporte neuf langues nativement — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — avec une attention portée aux dialectes régionaux et à la prosodie locale. Il permet également le clonage vocal zero-shot à partir de seulement trois secondes d'audio de référence. Les performances annoncées positionnent Voxtral TTS comme une alternative sérieuse aux API vocales propriétaires : le modèle atteint une latence de 70 millisecondes pour un échantillon de dix secondes (500 caractères en entrée), et un facteur temps réel d'environ 9,7x, ce qui signifie qu'il génère de l'audio près de dix fois plus vite que la durée de parole produite. Pour les développeurs qui construisent des agents conversationnels, des systèmes de traduction simultanée ou des interfaces vocales à fort trafic, cela se traduit par une réduction concrète des coûts de calcul et la capacité à absorber des charges élevées sur du matériel d'inférence standard. La séparation entre couche sémantique et couche acoustique garantit par ailleurs une cohérence sur de longs passages tout en préservant les nuances fines de la voix. Voxtral TTS s'inscrit dans une stratégie cohérente de Mistral : compléter sa pile technologique couche par couche, après ses modèles de transcription et de langage, pour proposer désormais l'ensemble du pipeline audio en open-weight. Face à des API fermées comme celles d'OpenAI ou ElevenLabs, l'offre de Mistral mise sur la souveraineté des données et l'absence de dépendance tarifaire — un argument qui résonne particulièrement auprès des entreprises européennes soumises au RGPD. La capacité d'adaptation vocale par few-shot ouvre également la voie à des expériences personnalisées à grande échelle, des voix de marque cohérentes aux assistants localisés, sans recourir à des phases de fine-tuning coûteuses. La prochaine étape logique pour Mistral serait d'intégrer Voxtral TTS dans une offre unifiée speech-to-speech, complétant le cycle entrée-sortie audio de bout en bout.

UEMistral AI, startup française, lance son premier modèle vocal open-weight, offrant aux entreprises européennes une alternative souveraine aux API fermées pour la synthèse vocale, sans dépendance tarifaire et conforme au RGPD.

LLMsOpinion
1 source
Une fuite révèle Claude Mythos, le nouveau modèle Anthropic aux scores nettement supérieurs à tous ses prédécesseurs
318The Decoder 

Une fuite révèle Claude Mythos, le nouveau modèle Anthropic aux scores nettement supérieurs à tous ses prédécesseurs

Anthropic a involontairement exposé l'existence de son modèle d'intelligence artificielle le plus puissant à ce jour à cause d'une faille de sécurité élémentaire. Le modèle, baptisé Claude Mythos, afficherait des scores « nettement supérieurs » à tous les modèles précédents de la société sur les benchmarks d'évaluation standards. La fuite, survenue début 2026, n'était pas une annonce planifiée mais bien une erreur technique — un accès non sécurisé ayant laissé filtrer des informations internes sur la prochaine génération de modèles Anthropic. Cet incident intervient à un moment particulièrement sensible pour l'entreprise : OpenAI prépare également le lancement de sa propre génération suivante de modèles. Pour les deux sociétés, qui cherchent à consolider leur position sur un marché de plus en plus compétitif, la capacité à démontrer une supériorité technique avant une éventuelle introduction en bourse représente un enjeu considérable. La fuite involontaire d'Anthropic pourrait ainsi accélérer la communication officielle autour de Claude Mythos, sous peine de laisser le narratif se construire sans contrôle. Anthropic, fondée en 2021 par d'anciens membres d'OpenAI dont Dario et Daniela Amodei, a levé plusieurs milliards de dollars ces dernières années auprès d'Amazon et Google notamment. La société a bâti sa réputation sur une approche centrée sur la sécurité des systèmes d'IA avec sa méthodologie « Constitutional AI ». Une annonce officielle autour de Claude Mythos est désormais attendue prochainement, la fuite ayant de facto brûlé l'effet de surprise que l'entreprise réservait probablement pour un événement marketing soigneusement orchestré.

UEL'arrivée prochaine d'un modèle potentiellement de référence influencera les choix technologiques des développeurs et entreprises européens adoptant des solutions d'IA générative.

LLMsActu
1 source
Voxtral TTS : comment fonctionne la nouvelle IA vocale du français Mistral AI ?
319Numerama 

Voxtral TTS : comment fonctionne la nouvelle IA vocale du français Mistral AI ?

Mistral AI, la startup française fondée en 2023, a lancé Voxtral TTS, son tout premier modèle de synthèse vocale. Cette annonce marque une nouvelle étape dans la stratégie de l'entreprise, qui cherche à proposer une suite complète de modèles d'IA — du texte à la voix — capable de rivaliser avec les grandes plateformes américaines. L'objectif affiché : générer des voix artificielles plus naturelles et expressives que ce que proposent les solutions actuelles du marché. L'enjeu est considérable pour les entreprises qui intègrent des interfaces vocales dans leurs produits — assistants virtuels, outils d'accessibilité, applications d'apprentissage des langues. Un modèle TTS de haute qualité réduit la friction perçue par l'utilisateur et peut transformer l'expérience d'interaction avec une IA. En proposant cette brique directement, Mistral cherche à fidéliser les développeurs au sein de son propre écosystème. Les premières démonstrations de Voxtral TTS ont été jugées convaincantes, mais les résultats restent inégaux en conditions réelles — un écart classique entre démo maîtrisée et usage à large échelle. Mistral rejoint ainsi OpenAI, ElevenLabs ou Google dans une course au TTS expressif, marché en pleine expansion à mesure que les agents IA vocaux s'imposent dans les usages professionnels et grand public.

UEMistral AI, startup française, propose une alternative souveraine européenne dans le marché TTS, permettant aux entreprises françaises et européennes de réduire leur dépendance aux plateformes américaines pour leurs interfaces vocales.

LLMsOpinion
1 source
Claude Mythos : la nouvelle IA d’Anthropic va faire trembler la concurrence et pourrait bouleverser tout internet
320Presse-citron 

Claude Mythos : la nouvelle IA d’Anthropic va faire trembler la concurrence et pourrait bouleverser tout internet

Anthropic prépare une nouvelle génération de modèle d'intelligence artificielle baptisée « Claude Mythos », qui représenterait un bond technologique significatif par rapport aux versions actuelles Claude Opus et Claude Sonnet. Selon les informations disponibles, ce modèle serait nettement plus puissant que ses prédécesseurs, positionnant Anthropic dans une course directe avec OpenAI, Google DeepMind et Meta pour la domination du marché des grands modèles de langage. L'enjeu est considérable : un modèle de cette envergure pourrait redéfinir les standards de l'industrie et accélérer l'adoption de l'IA dans des secteurs critiques — droit, médecine, ingénierie logicielle. Mais Anthropic elle-même s'inquiète des risques que ce lancement ferait peser sur la cybersécurité, notamment la capacité du modèle à faciliter des attaques informatiques sophistiquées ou à automatiser des opérations malveillantes à grande échelle. Cette tension entre puissance et sécurité est au cœur de la philosophie d'Anthropic, fondée en 2021 par d'anciens cadres d'OpenAI précisément pour développer une IA « constitutionnelle » et alignée sur les valeurs humaines. Avec Claude Mythos, la startup — valorisée à plus de 60 milliards de dollars après ses dernières levées de fonds — devra arbitrer entre impératif commercial et responsabilité, dans un contexte réglementaire international de plus en plus scrutateur.

UEUn modèle aussi puissant sera soumis à l'AI Act européen, notamment aux obligations de transparence et d'évaluation des risques pour les systèmes à haut risque.

LLMsOpinion
1 source
Anthropic confirme que le modèle divulgué représente un saut qualitatif en raisonnement, après une fuite de données
321The Decoder 

Anthropic confirme que le modèle divulgué représente un saut qualitatif en raisonnement, après une fuite de données

Anthropic a involontairement révélé l'existence de son modèle d'intelligence artificielle le plus puissant à ce jour à la suite d'une faille de sécurité basique. La fuite de données a exposé un modèle que la société n'avait pas encore annoncé officiellement, et qu'Anthropic a depuis confirmé représenter un « changement d'étape » significatif dans les capacités de raisonnement par rapport à ses versions précédentes. L'incident s'est produit alors que la startup californienne préparait discrètement ce qui s'annonce comme sa prochaine grande sortie publique. La confirmation par Anthropic que ce modèle constitue une avancée majeure en matière de raisonnement donne un aperçu de la direction que prend la course aux grands modèles de langage. Pour les développeurs et les entreprises qui s'appuient sur les API d'Anthropic, cela signifie qu'une nouvelle génération de capacités — vraisemblablement plus performantes sur les tâches complexes et multi-étapes — est imminente. La fuite force également Anthropic à communiquer plus tôt que prévu sur sa feuille de route technique. Cet épisode s'inscrit dans un contexte de compétition intense entre Anthropic et OpenAI, qui prépare simultanément ses propres modèles de nouvelle génération. Les deux sociétés semblent engagées dans une course pour démontrer leur supériorité technique avant d'éventuelles introductions en bourse ou levées de fonds majeures. Pour Anthropic, fondée en 2021 par d'anciens cadres d'OpenAI et valorisée à plusieurs dizaines de milliards de dollars, chaque annonce produit constitue un signal fort pour investisseurs et partenaires commerciaux.

UELes développeurs et entreprises européennes utilisant l'API Claude d'Anthropic bénéficieront prochainement de capacités de raisonnement améliorées, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

💬 En tant que développeur, je constate à quel point chaque nouveau modèle représente un bond qualitatif majeur. La facilité avec laquelle les nouveaux modèles identifient les limites de leurs prédécesseurs est stupéfiante — et témoigne d'une accélération qui ne montre aucun signe de ralentissement. L'amélioration récursive complète est-elle vraiment si loin ?

LLMsActu
1 source
Actualité : “Un seuil a été franchi” : le nouveau modèle de Claude a fuité par erreur, Anthropic évoque des capacités sans précédent
322Les Numériques IA 

Actualité : “Un seuil a été franchi” : le nouveau modèle de Claude a fuité par erreur, Anthropic évoque des capacités sans précédent

Anthropic a involontairement dévoilé l'existence de son prochain modèle phare, baptisé Claude Mythos, à la suite d'une erreur de configuration dans son système de gestion de contenu. Un brouillon de page interne est brièvement devenu accessible au public, révélant le nom du modèle ainsi que plusieurs formulations suggérant des capacités inédites. La société a rapidement retiré le document, mais des captures d'écran avaient déjà circulé sur les réseaux sociaux et les forums spécialisés. Ce type de fuite est rare chez Anthropic, réputé pour sa discrétion opérationnelle, et l'incident soulève l'attention de l'ensemble du secteur. Le fait que l'entreprise elle-même qualifie les capacités de Mythos de "sans précédent" et évoque un "seuil franchi" laisse entendre un bond qualitatif significatif par rapport à Claude 3.5 et à la série actuelle Claude 4. Pour les développeurs, entreprises et concurrents qui suivent la course aux modèles de fondation, ce signal — même involontaire — pèse lourd dans l'évaluation des dynamiques compétitives. Anthropic se positionne depuis plusieurs années comme l'alternative "safety-first" face à OpenAI et Google DeepMind, avec une communication volontairement mesurée. La fuite de Mythos intervient dans un contexte d'accélération brutale du secteur : GPT-5, Gemini Ultra 2 et plusieurs modèles open-source ont rehaussé les attentes du marché en quelques mois. Si Mythos tient ses promesses implicites, il pourrait redéfinir le positionnement d'Anthropic — et forcer ses rivaux à accélérer leurs propres calendriers de lancement.

UELes acteurs européens qui évaluent ou déploient des modèles de fondation pourraient devoir réévaluer leurs choix technologiques si les capacités annoncées se confirment lors du lancement officiel.

LLMsActu
1 source
Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA
323MarkTechPost 

Google publie Gemini 2.0 Flash Live : un modèle vocal multimodal en temps réel pour agents IA

Google a lancé Gemini 3.1 Flash Live en préversion pour les développeurs via la Gemini Live API dans Google AI Studio. Ce nouveau modèle se positionne comme le « modèle audio et vocal de la plus haute qualité » jamais produit par Google, capable de traiter en temps réel des flux multimodaux combinant voix, vidéo et appels d'outils. Concrètement, il accepte de l'audio PCM 16 bits à 16 kHz, renvoie de l'audio PCM natif sans passer par une synthèse vocale séparée, et peut ingérer des flux vidéo à environ une image par seconde. Sur le benchmark ComplexFuncBench Audio, qui mesure la capacité à enchaîner des appels de fonctions complexes à partir de la seule voix, le modèle atteint un score de 90,8 %. Il obtient également 36,1 % sur l'Audio MultiChallenge, un test mesurant la résistance aux interruptions et aux environnements bruités, thème central pour les cas d'usage réels. Ce lancement s'attaque à un problème structurel qui plombait jusque-là les assistants vocaux : la « pile d'attente », enchaînement séquentiel de la détection d'activité vocale, de la transcription, de la génération de texte et de la synthèse vocale. Gemini 3.1 Flash Live court-circuite cette chaîne en traitant l'acoustique directement, sans transcrire au préalable. Le modèle gère mieux la prosodie — ton, débit, hésitations — que son prédécesseur Gemini 2.5 Flash Native Audio, et discrimine la parole pertinente des bruits ambiants comme la circulation ou le brouhaha d'un bureau. L'interface de programmation repose sur un protocole WebSocket bidirectionnel et persistant, permettant la continuité de session, la synchronisation audio-transcription en un seul événement serveur, et le « barge-in » : l'utilisateur peut couper la parole à l'IA en plein milieu d'une phrase, et le modèle interrompt immédiatement sa génération pour traiter le nouvel énoncé. Une fenêtre de contexte de 128 000 tokens supporte la mémoire de session et les définitions d'outils. Ce modèle arrive dans un contexte de compétition intense entre Google, OpenAI et les startups spécialisées dans la voix temps réel. OpenAI avait ouvert la voie avec son mode vocal avancé dans GPT-4o, mais la fiabilité en environnements dégradés restait un talon d'Achille pour l'ensemble de l'industrie. Google mise ici sur la robustesse au bruit et sur l'inférence agentique — la capacité à raisonner et à exécuter des tâches complexes (retrouver des factures, envoyer des e-mails sous conditions) sans passer par un intermédiaire textuel. Pour les développeurs qui construisent des agents d'assistance client, des interfaces mobiles ou des outils professionnels à commande vocale, cette combinaison de faible latence, de multimodalité native et de raisonnement structuré représente un changement de catégorie. Les prochaines étapes attendues concernent la sortie en disponibilité générale et l'intégration dans l'écosystème Vertex AI pour les entreprises.

UELes développeurs européens peuvent accéder dès maintenant à l'API en préversion via Google AI Studio pour construire des agents vocaux, sans impact réglementaire ou institutionnel spécifique à la France/UE.

LLMsActu
1 source
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
324MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
Apple obtient un accès complet à Gemini et utilise la distillation pour créer une IA légère embarquée
325The Decoder 

Apple obtient un accès complet à Gemini et utilise la distillation pour créer une IA légère embarquée

Apple a conclu un accord avec Google lui donnant un accès complet aux modèles Gemini, qu'elle utilise comme source pour entraîner par distillation des modèles d'intelligence artificielle plus légers, destinés à tourner directement sur ses appareils et à alimenter Siri. Cette technique de distillation consiste à transférer les capacités d'un grand modèle vers un modèle plus compact, en exploitant les sorties du modèle « professeur » comme signal d'entraînement. Ce que cette démarche révèle, c'est qu'Apple paie officiellement pour ce que certaines entreprises chinoises sont accusées de faire en secret : utiliser les outputs de modèles frontier concurrents pour améliorer leurs propres systèmes. En passant par un accord commercial formel avec Google, Apple contourne les zones grises éthiques et légales tout en accédant à l'une des meilleures bases de distillation disponibles. Cette stratégie s'inscrit dans la course que se livrent les grands acteurs tech pour embarquer de l'IA capable sur l'appareil, sans dépendre d'un cloud coûteux et en préservant la confidentialité des données. Pour Apple, qui a pris du retard sur l'IA générative, le partenariat avec Google — déjà présent via le moteur de recherche par défaut — offre un raccourci stratégique pour rattraper OpenAI et Meta sur le terrain de l'IA embarquée.

UELes utilisateurs européens d'appareils Apple bénéficieront indirectement d'une IA embarquée plus performante sur Siri, sans impact réglementaire direct sur la France ou l'UE.

LLMsOpinion
1 source
Voxtral : Mistral lance son premier modèle TTS open-weight, capable de cloner une voix en trois secondes dans neuf langues
326The Decoder 

Voxtral : Mistral lance son premier modèle TTS open-weight, capable de cloner une voix en trois secondes dans neuf langues

Mistral, la startup française spécialisée dans l'intelligence artificielle, a lancé Voxtral TTS, son premier modèle de synthèse vocale à poids ouverts. Ce modèle prend en charge neuf langues et est capable de cloner une voix à partir de seulement trois secondes d'audio. Voxtral marque une première incursion de Mistral dans le domaine de la voix, un secteur jusqu'ici dominé par des acteurs comme ElevenLabs, OpenAI ou encore Google. La capacité de clonage vocal en quelques secondes représente un saut technique significatif, rendant la personnalisation vocale accessible à moindre coût et sans infrastructure lourde. Pour les développeurs et entreprises, cela ouvre la voie à des assistants vocaux, des outils d'accessibilité ou des expériences de narration personnalisées déployables rapidement. Le fait que le modèle soit open-weight signifie qu'il peut être utilisé, modifié et hébergé localement, sans dépendance à une API propriétaire — un avantage concurrentiel majeur face aux solutions fermées. Mistral s'est imposé depuis 2023 comme l'un des rares acteurs européens capables de rivaliser avec les géants américains sur les modèles de langage ouverts. Avec Voxtral, la société étend son empreinte à la modalité audio, dans un contexte où la voix devient un vecteur central des interfaces IA. La question du clonage vocal soulève également des enjeux éthiques et réglementaires importants — notamment en matière de deepfakes audio — que Mistral devra adresser à mesure que le modèle gagne en adoption.

UEMistral, startup française, étend sa compétitivité à la synthèse vocale open-weight, renforçant l'autonomie technologique européenne face aux solutions propriétaires américaines.

LLMsActu
1 source
Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot
327Ars Technica AI 

Le lancement de Gemini 3.1 Flash Live pourrait rendre encore plus difficile de savoir si vous parlez à un robot

Google a lancé ce jeudi un nouveau modèle audio baptisé Gemini 3.1 Flash Live, conçu pour les conversations en temps réel. Le déploiement a démarré immédiatement dans certains produits Google, et les développeurs peuvent dès aujourd'hui l'intégrer dans leurs propres applications vocales. Selon Google, ce modèle produit une parole plus naturelle, avec un rythme et une intonation plus proches de ceux d'un humain. Sur les benchmarks publiés par l'entreprise, Gemini 3.1 Flash Live se distingue notamment sur le ComplexFuncBench Audio — test mesurant la capacité à enchaîner des tâches complexes en plusieurs étapes — et domine le classement du Big Bench Audio, une évaluation de raisonnement portant sur 1 000 questions audio. La principale promesse du modèle est de réduire la latence perçue dans les échanges vocaux avec une IA. Les chercheurs s'accordent généralement pour dire que 300 millisecondes représentent le seuil au-delà duquel une conversation commence à paraître artificielle ou laborieuse. Google ne communique pas de chiffre précis à ce sujet, mais affirme que le modèle atteint la vélocité nécessaire à un dialogue fluide. C'est un enjeu concret : une réponse trop lente ou une intonation robotique brise l'immersion et rend les interfaces vocales difficiles à utiliser au quotidien. Pour les développeurs qui construisent des assistants vocaux, des agents téléphoniques ou des outils d'accessibilité, cette amélioration peut significativement changer l'expérience utilisateur finale. La course à la naturalité de la voix synthétique s'intensifie depuis plusieurs années. Après avoir rendu les textes générés par IA de plus en plus difficiles à distinguer de l'écriture humaine, les grands laboratoires s'attaquent désormais à l'audio. OpenAI, ElevenLabs et d'autres acteurs avaient déjà franchi des paliers notables dans ce domaine. Avec Gemini 3.1 Flash Live, Google réaffirme ses ambitions sur ce terrain, où la frontière entre voix humaine et voix machine devient chaque jour plus ténue — ce qui soulève également des questions croissantes sur la transparence et la détection des agents IA dans les interactions quotidiennes.

UELes développeurs européens d'assistants vocaux et d'agents téléphoniques peuvent intégrer Gemini 3.1 Flash Live dès aujourd'hui via l'API Google, ouvrant la voie à des interfaces vocales IA plus naturelles sur le marché européen.

LLMsOpinion
1 source
Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour
328The Decoder 

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour

Google a dévoilé Gemini 3.1 Flash Live, son nouveau modèle vocal conçu pour des conversations en temps réel plus naturelles et plus fluides. Annoncé en mars 2026, ce modèle s'inscrit dans la gamme Flash, orientée vers la rapidité et l'efficacité. Les développeurs disposent d'un curseur permettant d'arbitrer entre qualité vocale et vitesse de réponse selon les besoins de leur application. La tarification reste alignée sur celle de Gemini 2.5, sans surcoût pour cette nouvelle génération. Ce lancement représente une avancée notable dans la course à la voix conversationnelle naturelle. Pour les développeurs d'assistants vocaux, d'applications de service client ou d'interfaces mains libres, disposer d'un modèle à la fois rapide et naturel à coût constant constitue un argument concret. La fluidité perçue de l'IA vocale est aujourd'hui un facteur décisif dans l'adoption par le grand public. Google intensifie ainsi la compétition face à OpenAI et ses modèles vocaux en temps réel, intégrés à ChatGPT, ainsi qu'à d'autres acteurs comme ElevenLabs. La stratégie Flash — modèles légers, rapides, peu coûteux — s'impose comme une approche clé pour démocratiser l'IA dans des usages à fort volume. Les prochaines versions pourraient continuer à affiner ce compromis vitesse/qualité, un équilibre qui deviendra central dans les interfaces conversationnelles de demain.

LLMsActu
1 source
Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client
329VentureBeat AI 

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client

Intercom, la plateforme de service client fondée il y a quinze ans, a annoncé jeudi le lancement de Fin Apex 1.0, un modèle d'intelligence artificielle développé en interne et spécifiquement conçu pour la résolution de demandes clients. Selon les benchmarks partagés avec VentureBeat, ce modèle atteint un taux de résolution de 73,1 % — la proportion de problèmes résolus sans intervention humaine — contre 71,1 % pour GPT-5.4 et Claude Opus 4.5, et 69,6 % pour Claude Sonnet 4.6. Fin Apex répond en 3,7 secondes, soit 0,6 seconde plus vite que ses concurrents directs, affiche une réduction de 65 % des hallucinations par rapport à Claude Sonnet 4.6, et coûte environ cinq fois moins cher que les grands modèles frontières utilisés directement. Il est inclus dans les plans tarifaires existants d'Intercom, basés sur un modèle « par résolution ». Le modèle alimente déjà Fin, l'agent IA d'Intercom qui traite plus de deux millions de conversations clients par semaine. Un écart de 2 points de pourcentage peut sembler anecdotique, mais pour les entreprises gérant des millions d'interactions, l'impact financier est considérable. « Si vous gérez de grandes opérations de service à l'échelle, avec 10 millions de clients ou un milliard de dollars de chiffre d'affaires, un delta de 2 ou 3 % représente une quantité énorme de clients, d'interactions et de revenus », a déclaré le PDG Eoghan McCabe. Au-delà des chiffres, Fin Apex illustre une stratégie de plus en plus viable pour les éditeurs de logiciels verticaux : plutôt que de se reposer sur des API génériques de OpenAI ou Anthropic, ils peuvent construire des modèles spécialisés plus rapides, moins coûteux et plus précis dans leur domaine — en capitalisant sur leurs données propriétaires accumulées au fil des années. Ce lancement s'inscrit dans une tendance de fond : le post-entraînement devient le véritable champ de bataille de l'IA, la pré-formation des grands modèles étant désormais considérée comme une commodité. Intercom a affiné son modèle de base — un modèle open-weights dont la société refuse de révéler l'identité « pour des raisons concurrentielles » — avec des années de données de service client issues de Fin, en intégrant des systèmes d'apprentissage par renforcement ancrés sur des résolutions réelles. Cette opacité partielle rappelle la controverse qu'a connue Cursor, accusé d'avoir dissimulé que son modèle Composer 2 était basé sur un modèle open source affiné. Intercom reconnaît utiliser une base open-weights, mais refuse d'en préciser la source, une posture qui soulèvera sans doute des questions sur la réalité de sa « transparence ». La société indique vouloir changer de modèle de base à l'avenir, ce qui suggère que Fin Apex est moins un modèle figé qu'une infrastructure d'optimisation continue — et potentiellement un modèle que d'autres plateformes verticales pourraient chercher à reproduire.

UELes entreprises françaises et européennes utilisant Intercom pour leur support client bénéficient directement des gains de résolution automatique et de la réduction des coûts apportés par Fin Apex 1.0.

LLMsOpinion
1 source
Gemini 3.1 Flash Live : une IA audio plus naturelle et fiable
330DeepMind Blog 

Gemini 3.1 Flash Live : une IA audio plus naturelle et fiable

Google a annoncé Gemini 3.1 Flash Live, son dernier modèle vocal en temps réel, conçu pour rendre les interactions audio avec l'IA plus fluides, plus naturelles et plus fiables. Ce nouveau modèle se distingue par une précision améliorée et une latence réduite par rapport à ses prédécesseurs, deux paramètres critiques pour la qualité des conversations vocales automatisées. Ces améliorations ont un impact direct pour les développeurs qui intègrent des fonctionnalités vocales dans leurs applications, ainsi que pour les utilisateurs finaux qui interagissent avec des assistants conversationnels. Une latence plus basse signifie des échanges moins saccadés, tandis qu'une meilleure précision réduit les erreurs de compréhension — des points de friction majeurs qui freinent l'adoption de l'IA vocale dans les usages quotidiens et professionnels. La course aux modèles vocaux temps réel s'est intensifiée depuis que OpenAI a lancé le mode vocal avancé de GPT-4o et que des acteurs comme ElevenLabs ou Cartesia ont multiplié les solutions de synthèse et compréhension audio à faible latence. Google positionne ainsi la famille Flash — ses modèles rapides et économiques — comme une option compétitive pour les cas d'usage nécessitant des interactions vocales en continu, comme les agents téléphoniques, les assistants embarqués ou les interfaces conversationnelles en temps réel.

Grâce à Lyria 3 Pro, l’IA Gemini de Google peut maintenant créer de la musique de 3 minutes
331Presse-citron 

Grâce à Lyria 3 Pro, l’IA Gemini de Google peut maintenant créer de la musique de 3 minutes

Google a dévoilé Lyria 3 Pro, une version améliorée de son modèle de génération musicale par intelligence artificielle, quelques semaines seulement après le lancement de Lyria 3 en février 2026. Cette nouvelle itération est intégrée directement dans Gemini et réservée aux abonnés de la formule payante. Sa capacité principale : générer des morceaux de musique pouvant atteindre trois minutes, une durée bien supérieure à ce que proposaient les versions précédentes. Cette avancée est significative pour les créateurs de contenu, les musiciens amateurs et les professionnels cherchant à produire rapidement de la musique originale. Passer de courts extraits à des compositions de trois minutes ouvre la porte à des usages concrets : bandes originales, jingles, musiques d'ambiance pour vidéos ou podcasts. La qualité et la durée combinées font de Lyria 3 Pro un outil potentiellement compétitif face aux solutions dédiées comme Suno ou Udio. Google s'inscrit dans une course effrénée à la génération audio par IA, un segment en pleine expansion où OpenAI, Meta et plusieurs startups investissent massivement. En ancrant Lyria 3 Pro dans l'écosystème Gemini, Google mise sur la fidélisation de ses abonnés premium tout en consolidant sa position dans la création de contenu multimodal, après ses ambitions affichées dans l'image et la vidéo avec Imagen et Veo.

LLMsActu
1 source
Mistral AI lance un modèle de synthèse vocale qui surpasse ElevenLabs, disponible en open source
332VentureBeat AI 

Mistral AI lance un modèle de synthèse vocale qui surpasse ElevenLabs, disponible en open source

Mistral AI a lancé jeudi matin Voxtral TTS, son premier modèle de synthèse vocale de qualité frontier, avec une particularité radicale : les poids du modèle sont publiés en open source, téléchargeables et utilisables sans jamais envoyer le moindre audio vers un serveur tiers. La startup parisienne, valorisée 13,8 milliards de dollars après une levée de 2 milliards en série C menée par le fabricant de puces néerlandais ASML en septembre dernier, affirme que son modèle surpasse ElevenLabs sur les benchmarks de qualité vocale. Techniquement, Voxtral TTS repose sur trois composants : un transformeur décodeur de 3,4 milliards de paramètres, un transformeur acoustique de 390 millions de paramètres basé sur le flow-matching, et un codec audio neuronal de 300 millions de paramètres développé en interne. Le tout tient en 3 gigaoctets de RAM une fois quantifié, produit de l'audio en 90 millisecondes pour une entrée typique, et génère la parole à six fois la vitesse temps réel. Il tourne sur n'importe quel laptop ou smartphone, y compris sur du matériel vieillissant. Le modèle couvre neuf langues — anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe — et peut cloner une voix à partir de seulement cinq secondes d'audio de référence. L'enjeu est considérable : le marché mondial de la voix IA a dépassé 22 milliards de dollars en 2026, et le seul segment des agents vocaux est projeté à 47,5 milliards d'ici 2034. Jusqu'ici, ce marché est dominé par des acteurs propriétaires — ElevenLabs, Google Cloud avec Chirp 3, OpenAI — qui vendent l'accès à leurs modèles via API : les entreprises louent la voix, elles ne la possèdent pas. Mistral propose le modèle inverse : télécharger les poids, déployer en local, garder un contrôle total sur les données audio. Pour les secteurs soumis à des contraintes de confidentialité strictes — finance, santé, défense — c'est une proposition fondamentalement différente. Voxtral TTS s'inscrit dans une stratégie cohérente que Mistral construit pièce par pièce depuis plusieurs mois. La startup a lancé Voxtral Transcribe (speech-to-text) quelques semaines plus tôt, sa plateforme de personnalisation Forge lors de la conférence Nvidia GTC début mars, et son infrastructure de production AI Studio. L'objectif affiché est de permettre aux entreprises de faire tourner un pipeline audio complet — de la voix à la voix — sans dépendre d'aucun fournisseur externe. « Nous voyons l'audio comme un grand pari, et probablement la seule interface future avec tous les modèles d'IA », a déclaré Pierre Stock, vice-président science et premier employé de Mistral, dans une interview exclusive à VentureBeat. Dans un marché où ElevenLabs vient d'annoncer une collaboration avec IBM pour intégrer ses voix dans la plateforme watsonx Orchestrate, Mistral choisit de jouer la carte de la souveraineté plutôt que celle du service managé — un pari sur le fait que les grandes entreprises préféreront, à terme, la maîtrise à la commodité.

UEMistral AI, startup parisienne, offre aux entreprises françaises et européennes une solution TTS souveraine déployable en local, répondant directement aux contraintes de confidentialité des secteurs régulés (finance, santé, défense) sans dépendance aux fournisseurs API américains.

💬 La vraie info c'est pas les benchmarks face à ElevenLabs, c'est qu'on télécharge les poids et ça tourne en local, sans qu'une seule seconde d'audio quitte ta machine. C'était le verrou pour tout le secteur régulé, finance, santé, défense, qui ne peut pas se permettre d'envoyer ses données vocales à San Francisco. Je pensais que Mistral mettrait plus de temps, mais là ils posent les briques vite.

LLMsActu
1 source
Mistral publie un nouveau modèle open source pour la génération vocale
333TechCrunch AI 

Mistral publie un nouveau modèle open source pour la génération vocale

Mistral AI a publié un nouveau modèle open source dédié à la génération vocale, conçu pour fonctionner directement sur des appareils à faibles ressources comme des smartphones ou des montres connectées. Cette annonce marque une étape notable pour la startup française, qui continue d'élargir son portefeuille au-delà des modèles de texte vers des modalités multimédia plus complexes. L'enjeu principal est la démocratisation de la synthèse vocale de qualité sans dépendance au cloud. En permettant une exécution entièrement locale sur des terminaux embarqués, Mistral ouvre la voie à des applications vocales respectueuses de la vie privée, sans latence réseau et utilisables hors connexion — un différenciateur fort face aux solutions propriétaires de Google, Apple ou Microsoft qui centralisent le traitement. Mistral s'impose depuis 2023 comme l'acteur européen le plus actif dans la course aux modèles open source performants. Après Mistral 7B, Mixtral et plusieurs modèles spécialisés, cette incursion dans la génération audio suit la tendance générale du secteur vers des modèles multimodaux compacts. La capacité à tourner sur une montre connectée suggère une optimisation agressive via des techniques de quantification ou de distillation, un terrain où les ingénieurs de Mistral ont démontré leur expertise. --- Note : l'article source ne fournit que le titre et la ligne d'accroche — certains détails spécifiques (nom du modèle, benchmarks, date de sortie exacte) ne figuraient pas dans le texte transmis.

UEMistral AI, startup française de référence, lance un modèle de synthèse vocale open source exécutable en local sur appareils embarqués, renforçant la souveraineté technologique européenne face aux solutions cloud américaines.

LLMsActu
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
334MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
L'avenir de l'IA entre ouverture et propriétaire
335NVIDIA AI Blog 

L'avenir de l'IA entre ouverture et propriétaire

L'intelligence artificielle s'impose comme l'infrastructure technologique centrale de notre époque, portée par un écosystème diversifié de modèles — grands et petits, ouverts et propriétaires, généralistes et spécialisés. Lors d'une session spéciale consacrée aux modèles ouverts à la conférence NVIDIA GTC, Jensen Huang, fondateur et PDG de NVIDIA, a résumé la situation en une phrase : « Propriétaire versus open source n'est pas un débat. C'est propriétaire et open source. » Pour illustrer cet engagement, NVIDIA a annoncé la création de la Nemotron Coalition, une collaboration mondiale inédite regroupant des laboratoires d'IA et des développeurs de modèles pour faire avancer les modèles fondamentaux ouverts. Le premier projet issu de cette coalition sera un modèle de base codéveloppé par Mistral AI et NVIDIA, dont les membres apporteront données, évaluations et expertise sectorielle. Les modèles Nemotron ont déjà été téléchargés plus de 45 millions de fois sur Hugging Face, plateforme sur laquelle NVIDIA est désormais la plus grande organisation avec près de 4 000 membres d'équipe. Plusieurs panels réunissant des figures majeures du secteur — dont Mira Murati (Thinking Machines Lab), Aravind Srinivas (Perplexity), Michael Truell (Cursor) et Arthur Mensch (Mistral) — ont dégagé des tendances clés. Les agents IA s'apprêtent à devenir de véritables collègues capables de mener des tâches complexes sur plusieurs jours. L'IA n'est plus un modèle unique mais un système orchestré : « ce que vous voulez, c'est une orchestra multimodale, multi-modèles et multi-cloud », a déclaré Srinivas. L'ouverture des modèles est présentée comme un moteur d'innovation indispensable, aussi bien pour les grandes entreprises que pour la recherche académique. Murati a insisté sur ce point : « il y a beaucoup d'études à mener qui ne peuvent pas être réalisées uniquement dans les grands laboratoires — c'est là que l'ouverture est précieuse, elle fait avancer la science de l'intelligence. » Cette dynamique s'inscrit dans un tournant structurel où chaque secteur — santé, finance, industrie — a besoin d'une IA adaptée à ses données et workflows spécifiques, rendant la coexistence de modèles ouverts et propriétaires non seulement inévitable, mais souhaitable pour accélérer l'innovation à tous les niveaux.

UEMistral AI, acteur français majeur, est cofondateur de la Nemotron Coalition aux côtés de NVIDIA, ce qui renforce son rôle stratégique dans l'écosystème mondial des modèles ouverts.

LLMsActu
1 source
Le mode Auto d'Anthropic supprime la supervision manuelle de Claude
336AI Business 

Le mode Auto d'Anthropic supprime la supervision manuelle de Claude

Anthropic a lancé un nouveau mode "Auto" pour son assistant Claude, qui permet au modèle de choisir automatiquement son niveau de raisonnement selon la tâche — sans que l'utilisateur ait à configurer manuellement les paramètres à chaque utilisation. Disponible sur Claude.ai et via l'API, la fonctionnalité vise à simplifier l'expérience pour les développeurs et les utilisateurs réguliers. Le gain de temps est réel : fini de "surveiller" le modèle pour ajuster son mode de fonctionnement. Mais cette autonomie accrue a un revers — en laissant Claude décider seul, le risque d'hallucinations augmente et la qualité du code généré pourrait en pâtir dans certains cas. Le contrôle manuel restait une garantie tacite de cohérence. Ce lancement reflète la course des éditeurs d'IA à rendre leurs outils plus fluides, au prix parfois d'un compromis entre commodité et fiabilité.

LLMsOutil
1 source
Apple peut « distiller » le grand modèle Gemini de Google
337The Information AI 

Apple peut « distiller » le grand modèle Gemini de Google

Apple et Google ont conclu un accord de partenariat IA bien plus profond qu'il n'y paraissait. Au-delà du simple ajustement (fine-tuning) du modèle Gemini, Apple dispose d'un accès complet au modèle dans ses propres infrastructures de data centers. Cet accès permet à Apple de produire des modèles plus petits, optimisés pour des tâches spécifiques ou suffisamment légers pour tourner directement sur les appareils Apple — une technique appelée « distillation ». Cela change considérablement la donne pour Siri et les fonctionnalités IA promises depuis longtemps. En exécutant des modèles distillés localement, Apple gagne en vitesse de traitement et en confidentialité, deux avantages cruciaux pour sa clientèle. La dépendance aux serveurs distants diminue, ce qui réduit aussi les coûts d'infrastructure — un enjeu d'autant plus pressant que les capacités serveur sont actuellement en tension dans tout le secteur. En parallèle, OpenAI traverse sa propre restructuration : son PDG Sam Altman vient de réorganiser l'entreprise, lancé un nouveau modèle baptisé « Spud » et mis fin à l'application vidéo Sora — jugée trop gourmande en serveurs dans le cadre d'une stratégie de recentrage sur les produits prioritaires.

LLMsOpinion
1 source
OpenAI : Sam Altman évoque en interne un modèle "très puissant" capable d'"accélérer vraiment l'économie
338The Decoder 

OpenAI : Sam Altman évoque en interne un modèle "très puissant" capable d'"accélérer vraiment l'économie

OpenAI aurait achevé le pré-entraînement de son prochain grand modèle d'IA, dont le nom de code interne est « Spud ». Le PDG Sam Altman l'a décrit en interne comme « très puissant » et capable d'« accélérer vraiment l'économie ». Si ces déclarations se confirment, ce modèle marquerait un nouveau palier dans les capacités des IA génératives, avec des implications potentiellement significatives pour la productivité économique à grande échelle. OpenAI enchaîne les sorties de modèles à un rythme soutenu, dans un contexte de concurrence intense avec Google, Anthropic et les acteurs chinois comme DeepSeek.

UEUn nouveau modèle OpenAI de cette envergure pourrait accélérer l'adoption de l'IA en Europe et renforcer la pression réglementaire dans le cadre de l'AI Act.

LLMsActu
1 source
Anthropic transforme Claude en assistant autonome capable d’agir sur votre ordinateur
339Siècle Digital 

Anthropic transforme Claude en assistant autonome capable d’agir sur votre ordinateur

Anthropic a doté Claude d'une fonctionnalité appelée « computer use », lui permettant d'agir de manière autonome sur un ordinateur sans intervention humaine. Cette avancée marque un tournant majeur dans l'utilisation des IA, ouvrant la voie à des assistants capables d'exécuter des tâches concrètes directement sur les systèmes des utilisateurs. Cette évolution transforme profondément la façon dont les professionnels peuvent déléguer des tâches à l'intelligence artificielle.

UELes professionnels et entreprises européens peuvent désormais déléguer des tâches informatiques complexes à Claude, avec des implications potentielles pour la réglementation sur les agents IA autonomes dans le cadre de l'AI Act.

LLMsActu
1 source
La prochaine version de Siri pourrait tout copier sur ChatGPT
340Frandroid 

La prochaine version de Siri pourrait tout copier sur ChatGPT

Apple prépare une nouvelle version de Siri qui s'inspirerait fortement de ChatGPT, annoncée lors de la WWDC 2026. Après des années de difficultés dans le domaine de l'IA, Apple cherche à redonner un rôle central à son assistant vocal historique.

LLMsOpinion
1 source
Apple : une nouvelle version de Siri en juin, pour de vrai cette fois ?
34101net 

Apple : une nouvelle version de Siri en juin, pour de vrai cette fois ?

Apple prévoit de présenter le "vrai" nouveau Siri en juin 2026, après de nombreux reports depuis l'annonce d'une version dopée à l'IA lors de la WWDC 2024. Le projet a connu une crise interne et un changement de moteur complet, nécessitant une refonte totale. Un lancement sur les appareils Apple serait envisagé pour septembre.

UELe nouveau Siri touchera des millions d'utilisateurs européens d'appareils Apple dès septembre 2026.

LLMsOpinion
1 source
Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision
342MarkTechPost 

Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision

Google Research a présenté TurboQuant, un algorithme de quantification dit « data-oblivious » qui compresse le cache Key-Value des LLMs jusqu'à 6x, avec un gain de vitesse allant jusqu'à 8x, sans aucune perte de précision. Contrairement aux approches traditionnelles comme Product Quantization, TurboQuant ne nécessite ni calibration ni entraînement sur des données spécifiques, et exploite des opérations vectorisées compatibles avec les GPU modernes. La méthode repose sur une rotation aléatoire des vecteurs d'entrée pour uniformiser leur distribution, puis applique une quantification scalaire optimale par coordonnée, avec une correction de biais spécifique pour les produits scalaires utilisés dans les mécanismes d'attention des transformers.

LLMsPaper
1 source
TurboQuant : la compression algorithmique qui brise le mur de la mémoire IA
343ZDNET FR 

TurboQuant : la compression algorithmique qui brise le mur de la mémoire IA

TurboQuant est une nouvelle architecture de compression vectorielle conçue pour réduire de six fois l'empreinte mémoire du KV Cache dans les grands modèles de langage (LLM), sans perte de précision. Elle s'attaque à l'un des principaux goulots d'étranglement du déploiement des LLM modernes : la saturation de la mémoire GPU à mesure que les fenêtres de contexte s'allongent. Cette avancée est significative car elle permettrait de faire tourner des modèles avec des contextes beaucoup plus larges sur du matériel existant, réduisant ainsi les coûts d'infrastructure et rendant les LLM performants plus accessibles. Une division par six de la mémoire nécessaire change concrètement ce qui est faisable sur une seule carte GPU. Les fenêtres de contexte des LLM ont explosé ces deux dernières années, passant de quelques milliers à plusieurs centaines de milliers de tokens, créant une pression croissante sur les ressources matérielles et rendant la compression du KV Cache un enjeu central de l'optimisation des modèles.

LLMsActu
1 source
Le PDG d'OpenAI redistribue les responsabilités et prépare le modèle IA 'Spud
344The Information AI 

Le PDG d'OpenAI redistribue les responsabilités et prépare le modèle IA 'Spud

Sam Altman a délégué la supervision des équipes sécurité d'OpenAI pour se concentrer sur la levée de fonds et la construction de datacenters "à une échelle sans précédent". Parallèlement, il a annoncé la finalisation du développement initial de leur prochain grand modèle d'IA, nom de code Spud. OpenAI ferme également l'application mobile Sora, jugée trop gourmande en ressources dans un contexte de concurrence accrue avec Anthropic et Google.

LLMsActu
1 source
« L’AGI est déjà là » : la phrase choc de NVIDIA qui fait l’effet d’un séisme
345Le Big Data 

« L’AGI est déjà là » : la phrase choc de NVIDIA qui fait l’effet d’un séisme

Lors d'un entretien avec Lex Fridman, Jensen Huang (PDG de Nvidia) a déclaré que « l'AGI est déjà là », en adoptant une définition purement économique : une IA capable de générer un milliard de dollars de valeur de manière autonome (influenceur virtuel viral, application à 50 centimes touchant des milliards d'utilisateurs). Cette vision ultra-capitaliste rompt avec le consensus scientifique — Yann LeCun (Meta) rappelle que les modèles actuels n'atteignent pas même l'intelligence d'un chat — mais Huang contourne le débat philosophique pour imposer un critère de performance économique comme nouvelle définition de l'AGI.

LLMsOpinion
1 source
« Je pense qu’on a atteint l’intelligence artificielle générale » : le patron de Nvidia surprend tout le monde avec cette phrase
346Numerama 

« Je pense qu’on a atteint l’intelligence artificielle générale » : le patron de Nvidia surprend tout le monde avec cette phrase

Jensen Huang, patron de Nvidia, a déclaré lors du podcast de Lex Fridman que l'intelligence artificielle générale (AGI) serait déjà atteinte selon lui. Cette affirmation divise, car tout dépend de la définition retenue pour l'AGI, considérée par beaucoup comme la forme ultime de l'IA générative.

UELa définition retenue pour l'AGI alimentera les débats réglementaires européens, notamment l'interprétation de l'AI Act et la classification des systèmes d'IA à haut risque.

LLMsOpinion
1 source
Mark Zuckerberg veut créer son propre clone IA
347Siècle Digital 

Mark Zuckerberg veut créer son propre clone IA

Mark Zuckerberg souhaite créer un clone IA de lui-même, s'inscrivant dans la tendance des agents IA capables de reproduire des fonctions humaines. Cette initiative illustre comment les dirigeants de la Silicon Valley expérimentent à grande échelle ces technologies inspirées de modèles comme OpenClaw. L'IA ne se limite plus à l'automatisation de tâches, mais devient un véritable partenaire numérique.

LLMsOpinion
1 source
IA : le Japon lance son propre concurrent à ChatGPT, et s’émancipe des Américains, des Chinois et des Français
348Presse-citron 

IA : le Japon lance son propre concurrent à ChatGPT, et s’émancipe des Américains, des Chinois et des Français

L'article fourni ne contient que le titre et une ligne d'accroche — il manque le corps du texte pour faire un résumé complet. Voici ce que je peux tirer du contenu disponible : > Le Japon lance son propre modèle d'IA concurrent à ChatGPT, développé par une startup fondée par d'anciens employés de Google. Cette initiative marque la volonté du Japon de s'affranchir des acteurs américains, chinois et français dans le domaine de l'IA générative. Pour un résumé plus précis (chiffres, nom de la startup, capacités du modèle), fournis le contenu complet de l'article.

UELe Japon se positionne explicitement comme concurrent aux acteurs français (Mistral) et européens, accentuant la fragmentation géopolitique du marché mondial des LLMs.

LLMsActu
1 source
Le PDG de Nvidia Jensen Huang : l'idée que l'IA va détruire le logiciel est "ridicule
349The Decoder 

Le PDG de Nvidia Jensen Huang : l'idée que l'IA va détruire le logiciel est "ridicule

Jensen Huang, PDG de Nvidia, affirme que l'idée selon laquelle l'IA détruira les logiciels est "ridicule" — au contraire, les agents IA utiliseront les logiciels existants plutôt que de les remplacer. En cohérence avec cette vision, Nvidia a repensé l'intégralité de son architecture de racks pour s'adapter à l'ère des agents IA.

LLMsActu
1 source
[AINews] Dreamer rejoint Meta Superintelligence Labs — bilan de 9 mois sur la Superintelligence Personnelle
350Latent Space 

[AINews] Dreamer rejoint Meta Superintelligence Labs — bilan de 9 mois sur la Superintelligence Personnelle

Meta Superintelligence Labs, dirigé par Nat Friedman et Alex, a recruté l'équipe de Dreamer — un agent personnel "Sidekick" — seulement 11 jours après leur passage au podcast Latent Space, dans le cadre d'un "execuhire" (licence + recrutement sans acquisition). Cette opération s'inscrit dans la vision de Zuck pour une "superintelligence personnelle" annoncée il y a 9 mois, et fait suite à l'acquisition de Manus pour 2 milliards de dollars en décembre, constituant ainsi l'un des labs d'agents grand public les plus puissants au monde. En parallèle, Anthropic a lancé une preview macOS de Claude capable de contrôler souris, clavier et écran via Claude Cowork et Claude Code, marquant une expansion significative des capacités agents au-delà des APIs.

LLMsActu
1 source