Aller au contenu principal

LLMs — page 5

444 articles · page 5 sur 9

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

201MarkTechPost LLMsActu

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

Moonshot AI, le laboratoire chinois d'intelligence artificielle à l'origine de l'assistant Kimi, a publié en open source le modèle Kimi K2.6 le 21 avril 2026. Il s'agit d'un modèle multimodal natif de type Mixture-of-Experts (MoE) comptant 1 000 milliards de paramètres au total, dont seulement 32 milliards activés par token, répartis entre 384 experts spécialisés. Le modèle intègre nativement la vision via un encodeur MoonViT de 400 millions de paramètres, prend en charge des contextes de 256 000 tokens, et est disponible sur Kimi.com, l'application mobile, l'API ainsi que le CLI Kimi Code. Les poids sont publiés sur Hugging Face sous licence MIT modifiée. Sur le benchmark SWE-Bench Pro, qui mesure la capacité à résoudre de vrais tickets GitHub dans des dépôts professionnels, K2.6 obtient 58,6 points, devançant GPT-5.4 (57,7), Claude Opus 4.6 (53,4) et Gemini 3.1 Pro (54,2). Sur Humanity's Last Exam avec outils, il atteint 54,0, surpassant tous ses concurrents directs. Ces résultats sont significatifs parce qu'ils signalent un changement de nature dans ce que les modèles peuvent accomplir sans supervision humaine. Kimi K2.6 a été conçu pour des tâches de codage longue durée où l'agent s'exécute de façon autonome pendant plusieurs heures, effectue des milliers d'appels d'outils et coordonne jusqu'à 300 sous-agents spécialisés en parallèle sur des séquences de 4 000 étapes. Moonshot documente deux cas concrets : dans le premier, le modèle a téléchargé et déployé un modèle Qwen3.5-0.8B sur un Mac, puis a implémenté et optimisé l'inférence en Zig, un langage de programmation rare, sur plus de 4 000 appels d'outils consécutifs. Ces capacités intéressent directement les équipes d'ingénierie qui cherchent à automatiser des cycles de développement complets, pas seulement des corrections ponctuelles. Cette publication s'inscrit dans une course intense entre laboratoires américains et chinois pour dominer les modèles agentiques à grande échelle. Moonshot rejoint ainsi Anthropic, OpenAI et Google DeepMind dans la catégorie des modèles conçus pour opérer de façon prolongée dans des environnements réels, un segment jugé stratégique pour les usages professionnels. Le fait que K2.6 partage la même architecture que son prédécesseur K2.5 facilite la migration pour les équipes qui l'avaient déjà déployé. La compatibilité avec les frameworks d'inférence vLLM, SGLang et KTransformers, ainsi que l'ouverture complète des poids, positionnent ce modèle comme une alternative sérieuse aux offres propriétaires pour les organisations souhaitant garder la main sur leur infrastructure. La prochaine étape pour Moonshot sera de démontrer ces performances dans des déploiements industriels à grande échelle, au-delà des benchmarks.

UELes organisations européennes souhaitant maîtriser leur infrastructure IA disposent avec Kimi K2.6 d'une alternative open source sous licence MIT, déployable en local via vLLM ou SGLang, ce qui facilite la conformité au règlement européen sur l'IA en matière de traçabilité et de contrôle des données.

1 source
202Latent Space 

[AINews] Moonshot Kimi K2.6 : le meilleur modèle open source du monde se met à jour pour rivaliser avec Opus 4.6 (avant DeepSeek v4 ?)

Moonshot AI a lancé Kimi K2.6 le 18 avril 2026, une mise à jour majeure de son modèle de langage open-weight qui consolide la position du laboratoire chinois en tête des modèles ouverts mondiaux. Ce modèle de type Mixture-of-Experts (MoE) totalise 1 000 milliards de paramètres, avec 32 milliards actifs à la fois, 384 experts, une fenêtre de contexte de 256 000 tokens, la multimodalité native et une quantification INT4. Disponible dès le jour de lancement sur vLLM, OpenRouter, Cloudflare Workers AI, Baseten et MLX, il revendique des records open source sur plusieurs benchmarks de référence : 54,0 sur HLE with tools, 58,6 sur SWE-Bench Pro, 76,7 sur SWE-Bench Multilingual et 83,2 sur BrowseComp. Moonshot revendique également des capacités d'exécution longue durée inédites : plus de 4 000 appels d'outils enchaînés, des sessions continues de plus de 12 heures, et jusqu'à 300 sous-agents parallèles via un système baptisé "Claw Groups". Simultanément, Alibaba a publié Qwen3.6-Max-Preview, un avant-goût de son prochain modèle phare, qui a atteint la 7e place dans le classement Code Arena, propulsant Alibaba au 3e rang des laboratoires dans cette catégorie. Ces sorties illustrent une accélération concrète des modèles ouverts chinois dans les domaines du code et des agents autonomes, deux terrains jusqu'ici dominés par des acteurs américains comme Anthropic, OpenAI et Google. La communauté des développeurs a rapidement adopté K2.6 comme alternative crédible à Claude ou GPT-4 pour des tâches d'infrastructure : des utilisateurs rapportent une exécution autonome sur cinq jours, des réécritures de noyaux système, et un moteur d'inférence en Zig surpassant LM Studio de 20 % en débit. K2.6 tient également tête à Gemini 3.1 Pro sur les tâches de design frontend avec un taux de victoire et d'égalité de 68,6 %, un terrain considéré comme le point fort de Google. Le contexte est celui d'une course ouverte et intense entre laboratoires. Depuis le lancement de K2.5 en janvier 2026, Moonshot occupe la première place parmi les labs chinois open source, dans un silence relatif de DeepSeek depuis la version v3.2, dont une v4 reste attendue. Moonshot est par ailleurs l'un des trois laboratoires chinois que l'équipe d'Anthropic a cités en février pour avoir potentiellement utilisé ses données d'entraînement sans autorisation. En parallèle, Hermes Agent, la pile d'agents open source la plus en vue du moment, a dépassé 100 000 étoiles sur GitHub en moins de deux mois, détrônant OpenClaw en croissance hebdomadaire. L'ensemble du tableau suggère que les modèles ouverts, portés par des labs asiatiques bien dotés, ne jouent plus dans une catégorie inférieure aux modèles propriétaires occidentaux.

UELes développeurs européens peuvent désormais déployer localement un modèle open-weight de niveau frontier, réduisant leur dépendance aux API propriétaires américaines soumises au Cloud Act.

LLMsActu
1 source
203MarkTechPost 

Phi-4-Mini de Microsoft : implémentation pour l'inférence quantifiée, le RAG et l'affinage LoRA

Microsoft a publié Phi-4-mini-instruct, un modèle de langage compact de la famille Phi-4, conçu pour fonctionner efficacement sur du matériel grand public. Des chercheurs et développeurs ont récemment publié un tutoriel complet montrant comment exploiter ce modèle dans un notebook Google Colab sur GPU T4, en couvrant l'ensemble du spectre des usages modernes : inférence en streaming, raisonnement structuré, appels d'outils, génération augmentée par récupération (RAG) et fine-tuning par LoRA. Le pipeline s'appuie sur une quantification 4 bits au format NF4 via la bibliothèque BitsAndBytes, combinée à bfloat16 et double quantification, ce qui permet de charger le modèle en moins de 2 Go de VRAM tout en conservant des performances proches du modèle en pleine précision. La stack technique repose sur des versions précises de Transformers (4.49 à 4.57), PEFT, Accelerate, Datasets, sentence-transformers et FAISS, toutes compatibles avec l'architecture native phi3 de Microsoft. Ce travail illustre une tendance de fond dans l'industrie : rendre les workflows LLM avancés accessibles sans infrastructure coûteuse. Un développeur équipé d'un simple GPU de jeu ou d'un accès gratuit à Colab peut désormais expérimenter le tool calling, le RAG ou l'adaptation par LoRA sur un modèle performant, sans dépendre d'API payantes ni de clusters H100. Pour les entreprises, cela ouvre la voie à des déploiements on-premise de petits modèles capables de gérer des tâches complexes, avec un contrôle total sur les données et des coûts d'inférence drastiquement réduits. La démocratisation de ces techniques touche directement les équipes data, les startups et les développeurs indépendants qui ne peuvent pas se permettre de faire tourner des modèles de 70 milliards de paramètres en continu. Cette publication s'inscrit dans la stratégie de Microsoft autour de la famille Phi, dont l'objectif affiché est de prouver que la taille n'est pas le seul vecteur de performance. Phi-4-mini succède à Phi-3, qui avait déjà surpris l'industrie en dépassant des modèles nettement plus grands sur plusieurs benchmarks de raisonnement. La concurrence sur ce segment des petits modèles efficaces est aujourd'hui vive : Google pousse Gemma, Meta propose Llama 3.2 en versions 1B et 3B, et Mistral entretient sa gamme Mistral-Nemo. Le fait que Phi-4-mini supporte nativement le tool calling et s'intègre facilement dans des pipelines RAG renforce son positionnement pour des cas d'usage en production, notamment les assistants embarqués, les agents autonomes légers et les systèmes d'analyse documentaire tournant en local.

UELes développeurs et startups européens peuvent déployer ce modèle en local sur du matériel grand public, réduisant leur dépendance aux API cloud payantes et facilitant la conformité RGPD par traitement on-premise.

LLMsTuto
1 source
Google constitue une équipe spécialisée pour améliorer ses modèles de code
204The Information AI 

Google constitue une équipe spécialisée pour améliorer ses modèles de code

Google a constitué une équipe spéciale de chercheurs et ingénieurs au sein de DeepMind, dédiée à l'amélioration de ses modèles d'IA pour la génération de code. Cette initiative, révélée par trois sources internes, vise à automatiser davantage le développement logiciel en interne, et à terme, à accélérer la recherche en intelligence artificielle elle-même. L'opération a été lancée en réponse directe aux récentes sorties de modèles d'Anthropic, selon deux des personnes interrogées. L'enjeu est considérable : les chercheurs de Google DeepMind estiment que les outils de codage d'Anthropic surpassent actuellement les capacités de Gemini dans ce domaine. Pour une entreprise dont l'infrastructure logicielle est l'une des plus complexes au monde, perdre du terrain sur la génération de code représente un désavantage compétitif majeur, aussi bien en productivité interne qu'en attractivité commerciale face aux développeurs. Cette mobilisation s'inscrit dans une course effrénée entre les grands laboratoires d'IA autour du codage autonome. Anthropic a fait de Claude un outil de référence pour les développeurs, notamment via des agents capables de modifier des bases de code entières. Google, malgré ses ressources considérables et ses modèles Gemini, se retrouve en position de rattrapage sur ce créneau stratégique. La capacité à automatiser sa propre recherche en IA constitue potentiellement un avantage décisif dans la compétition à long terme.

UELes développeurs et entreprises européens utilisant des outils de génération de code IA pourraient bénéficier à terme d'une amélioration des capacités de Gemini dans ce domaine concurrentiel.

LLMsActu
1 source
GPT-5.5 a fuité chez OpenAI : 5× plus rapide en code et conception
205Le Big Data 

GPT-5.5 a fuité chez OpenAI : 5× plus rapide en code et conception

GPT-5.5 est apparu silencieusement dans ChatGPT Pro le 19 avril 2026, sans annonce officielle. Tâches code complexes : 15-30 min avant, 1-5 min après. La fuite a déclenché un benchmark sauvage des utilisateurs avant même le lancement officiel du 23 avril.

UEL'arrivée silencieuse de GPT-5.5 met une pression directe sur les laboratoires européens (Mistral, Pleias, Hugging Face) qui visent le segment premium. La cadence d'OpenAI – deuxième mise à jour majeure de la gamme GPT-5 en quelques semaines – exclut de facto les acteurs européens du débat technique : ils découvrent les nouvelles performances en même temps que les utilisateurs. Côté régulateur, l'absence de release notes et de communication officielle pose une question de transparence : l'AI Act exige une documentation des capacités des modèles à usage général, mais le déploiement test sans annonce contourne cette logique en pratique. Les abonnés européens à ChatGPT Pro bénéficient des gains de performance non annoncés, sans information sur les changements de comportement du modèle.

💬 Le pattern est connu : OpenAI annonce, teasing, fuites contrôlées, déploiement silencieux, puis annonce officielle. C'est la troisième fois que ce schéma se déroule (GPT-4, GPT-5, maintenant 5.5) — il devient une signature stratégique d'OpenAI, pas un accident. La fonction de la fuite contrôlée est double : tester la performance perçue auprès d'un panel d'utilisateurs payants sans engager la communication officielle, et générer un buzz social qui précède l'annonce sans dépenser un dollar de marketing. À surveiller dans les 30 prochains jours : une annonce officielle de capacités agentiques liées à GPT-5.5, en cohérence avec la refonte du partenariat OpenAI/Microsoft du 27 avril qui pose un plafond sur les revenus reversés à Microsoft et signale un repositionnement vers le segment "infrastructure de travail agentique".

LLMsOpinion
1 source
206The Decoder 

Premiers tests : Opus 4.7 coûte nettement plus cher que 4.6 malgré les tarifs identiques d'Anthropic

Anthropic a maintenu les tarifs d'Opus 4.7 au même niveau que ceux de son prédécesseur Opus 4.6, avec un prix identique par token. Pourtant, les premières mesures réelles effectuées par des utilisateurs de Claude Code révèlent que chaque requête revient en pratique bien plus cher. La raison : un nouveau tokenizer intégré à Opus 4.7 qui décompose le même texte en jusqu'à 47 % de tokens supplémentaires. Autrement dit, un prompt identique génère désormais un volume de tokens sensiblement plus élevé, ce qui fait mécaniquement grimper la facture à chaque appel à l'API. Pour les développeurs qui utilisent Claude Code de manière intensive, l'impact est immédiat et concret. Sans aucune modification de leurs usages ni de leurs prompts, leurs coûts opérationnels augmentent de façon significative, potentiellement de l'ordre de 30 à 47 % selon les cas. Cette hausse déguisée contourne la communication officielle sur les prix et complique la planification budgétaire des équipes techniques qui s'appuient sur l'API d'Anthropic. Ce phénomène illustre une tension croissante dans l'industrie des LLM : les annonces tarifaires en prix par token masquent souvent des évolutions architecturales qui modifient profondément le coût réel d'utilisation. Anthropic n'est pas la première entreprise à opérer ce type de changement discret via une mise à jour de tokenizer. La publication de ces mesures par la communauté Claude Code devrait pousser Anthropic à clarifier sa communication, alors que la concurrence entre OpenAI, Google et les acteurs open source s'intensifie sur le terrain des prix.

UELes développeurs européens utilisant l'API Claude doivent anticiper une hausse réelle de leurs coûts opérationnels de 30 à 47 % lors du passage à Opus 4.7, sans que les tarifs officiels publiés par Anthropic n'en fassent mention.

💬 Le tarif par token n'a pas bougé, mais le nouveau tokenizer d'Opus 4.7 découpe le même texte en jusqu'à 47 % de morceaux de plus. Résultat : une facture en hausse de 30 à 47 % sans que la page de pricing d'Anthropic en souffle mot. C'est le genre de truc qu'on découvre en prod, pas dans un communiqué.

LLMsActu
1 source
207MarkTechPost 

Tutoriel : faire tourner PrismML Bonsai LLM 1-bit sur CUDA avec GGUF, benchmarks, chat, JSON et RAG

PrismML a publié une pile de déploiement optimisée pour faire tourner Bonsai, un modèle de langage de 1,7 milliard de paramètres quantifié à 1 bit, sur GPU via accélération CUDA. Le modèle utilise le format GGUF avec une quantisation Q1\0\g128, et s'appuie sur une version personnalisée de llama.cpp distribuée par PrismML-Eng sur GitHub sous la balise de version prism-b8194-1179bfc. Un tutoriel complet détaille l'installation de l'environnement depuis Google Colab : vérification du GPU et de la version CUDA, installation des dépendances Python (huggingface\_hub, requests, tqdm, openai), téléchargement des binaires précompilés adaptés à la version CUDA détectée (12.4, 12.8 ou 13.1), puis chargement du modèle Bonsai-1.7B pour l'inférence. Le guide couvre ensuite sept cas d'usage concrets : inférence de base, benchmarking, conversation multi-tours, génération JSON structurée, génération de code, mode serveur compatible avec l'API OpenAI, et un pipeline RAG (retrieval-augmented generation) minimal. L'intérêt principal de Bonsai réside dans son empreinte mémoire extrêmement réduite grâce à la quantisation 1 bit : là où un modèle de 1,7 milliard de paramètres en FP16 occuperait environ 3,4 Go de VRAM, la version 1 bit descend bien en dessous de 1 Go, rendant le modèle utilisable sur des GPU d'entrée de gamme ou dans des environnements cloud à ressources limitées. La compatibilité avec le serveur OpenAI permet de brancher Bonsai directement sur des applications existantes sans modifier le code client. Pour les développeurs qui construisent des agents, des chatbots ou des pipelines RAG sur du matériel modeste, c'est une alternative sérieuse aux modèles quantifiés classiques en 4 ou 8 bits. La quantisation à 1 bit est une direction de recherche active depuis la publication de BitNet par Microsoft en 2023, qui avait montré qu'un modèle entraîné nativement en 1 bit pouvait conserver une qualité compétitive à faible coût computationnel. Bonsai s'inscrit dans cette lignée, et PrismML mise sur llama.cpp comme moteur d'inférence universel, bien implanté dans la communauté open source depuis sa création par Georgi Gerganov fin 2022. Le format GGUF, successeur de GGML, est aujourd'hui le standard de facto pour le déploiement local de LLMs quantifiés. La prochaine étape logique pour PrismML sera de proposer des modèles Bonsai dans des tailles supérieures (7B, 13B) pour mesurer si la qualité tient à plus grande échelle, et de valider les performances sur des benchmarks standardisés face à des modèles comme Phi-3 Mini ou Gemma 3.

💬 Moins d'1 Go de VRAM pour faire tourner un LLM complet, c'est le genre de chiffre qui change vraiment ce qu'on peut faire sur du matos lambda. La compatibilité API OpenAI en prime, ça veut dire qu'on branche ça sur un projet existant en cinq minutes. Bon, 1,7B de paramètres ça reste petit, reste à voir ce que ça vaut sur des tâches un peu exigeantes face à un Phi-3 Mini bien quantifié en 4 bits.

LLMsTuto
1 source
208MarkTechPost 

Anthropic lance Claude Opus 4.7 : une mise à jour majeure pour le codage par agents, la vision haute résolution et les tâches autonomes longues

Anthropic a lancé Claude Opus 4.7, successeur direct d'Opus 4.6, en le positionnant comme une amélioration ciblée plutôt qu'un saut générationnel complet. Le modèle se place au sommet de la gamme Anthropic, au-dessus de Haiku et Sonnet, juste en dessous du mystérieux Claude Mythos, encore en accès restreint. Sur un benchmark de 93 tâches de programmation, Opus 4.7 améliore le taux de résolution de 13 % par rapport à Opus 4.6, dont quatre tâches qu'aucun modèle précédent ne parvenait à résoudre. Sur CursorBench, référence populaire chez les développeurs, il atteint 70 % contre 58 % pour son prédécesseur. Les gains sont encore plus nets sur les workflows complexes : un testeur rapporte une amélioration de 14 % sur des tâches multi-étapes, avec moins de tokens consommés et un tiers des erreurs d'outils, et Opus 4.7 est le premier modèle à réussir leurs tests de "besoins implicites", continuant à exécuter même quand des outils échouent en cours de route. Ce qui rend cette version particulièrement significative pour les équipes engineering, c'est la capacité du modèle à vérifier ses propres sorties avant de rendre la main. Les versions précédentes produisaient des résultats sans validation interne ; Opus 4.7 intègre cette boucle de contrôle de façon autonome, ce qui a des implications directes pour les pipelines CI/CD et les workflows agentiques longue durée. En parallèle, la résolution des images passe à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la capacité des modèles Claude précédents. L'impact en production est immédiat : un testeur travaillant sur des workflows "computer-use" rapporte un score de 98,5 % sur leur benchmark de précision visuelle, contre 54,5 % pour Opus 4.6. Les agents qui lisent des captures d'écran denses, extraient des données de diagrammes complexes ou travaillent sur des interfaces pixel-perfect bénéficient directement de cette amélioration, sans modifier leur code, les images sont simplement traitées avec une meilleure fidélité. Du côté de l'API, Anthropic introduit deux nouveaux leviers. Un niveau d'effort "xhigh" (extra high) s'intercale entre "high" et "max", offrant un contrôle plus fin sur le compromis entre qualité de raisonnement et latence. Claude Code passe d'ailleurs à xhigh par défaut pour tous les abonnements. Ces annonces s'inscrivent dans une course à l'agent autonome où Anthropic se positionne clairement : après les améliorations de Sonnet 4.6 sur les tâches longues durée, Opus 4.7 cible les cas les plus difficiles, ceux qui nécessitaient jusqu'ici une supervision humaine rapprochée. Avec Claude Mythos en coulisses et une gamme qui s'étoffe à tous les niveaux, Anthropic consolide son avance sur le segment des développeurs professionnels et des applications d'IA en production.

LLMsOpinion
1 source
209Ahead of AI 

Mon approche pour comprendre les architectures de LLM

Sebastian Raschka, chercheur et auteur reconnu dans le domaine de l'apprentissage automatique, a publié un article détaillant sa méthode de travail pour comprendre et visualiser les architectures des grands modèles de langage (LLM). Sa démarche, qu'il applique pour produire les schémas et dessins publiés dans ses articles et sa LLM-Gallery, part toujours des rapports techniques officiels, avant de plonger dans les fichiers de configuration et les implémentations de référence disponibles sur Hugging Face. Concrètement, lorsque les poids d'un modèle sont accessibles sur le Model Hub et que le modèle est supporté par la bibliothèque Python transformers, il est possible d'inspecter directement le fichier config.json et le code source pour obtenir des informations précises sur l'architecture, là où les articles scientifiques restent souvent vagues. Cette approche répond à un problème croissant : les publications académiques des laboratoires industriels sont de moins en moins détaillées sur le plan technique, en particulier pour les modèles open-weight. En s'appuyant sur le code de référence plutôt que sur les papiers, on accède à une vérité que le code ne peut pas dissimuler. Cette méthode permet à quiconque, chercheur, ingénieur ou passionné, de reconstituer fidèlement l'architecture d'un modèle comme LLaMA, Mistral ou Qwen, sans dépendre de descriptions parfois incomplètes ou ambiguës. En revanche, elle ne s'applique pas aux modèles propriétaires comme ChatGPT, Claude ou Gemini, dont les poids et les détails d'implémentation restent confidentiels. Le processus reste volontairement manuel. Raschka insiste sur ce point : même si certaines étapes pourraient être automatisées, réaliser cet exercice à la main reste l'une des meilleures façons d'apprendre vraiment comment ces architectures fonctionnent. Dans un contexte où la complexité des LLM ne cesse de croître et où la transparence des laboratoires diminue, ce type de rétro-ingénierie pédagogique devient un outil précieux pour maintenir une compréhension technique rigoureuse de l'état de l'art. Raschka prévoit de documenter ce flux de travail de façon plus complète pour la communauté.

💬 Le code ment jamais, les papiers si. C'est exactement le problème que Raschka met le doigt dessus : les labos publient de moins en moins les vrais détails, et le seul moyen de savoir ce qui tourne vraiment sous le capot, c'est d'aller lire le config.json directement sur HuggingFace. La partie "volontairement manuel", bon, certains vont trouver ça old school, mais c'est probablement la seule façon de vraiment comprendre plutôt que de juste faire tourner un script.

LLMsTuto
1 source
210Latent Space 

Les deux visages d'OpenClaw

Peter Steinberger, figure centrale du projet OpenClaw, a donné deux conférences simultanées le 16 avril 2026 : une intervention grand public lors du TED, axée sur les succès et l'inspiration, et une présentation plus technique à l'AIE, où il a exposé sans détour les défis d'ingénierie colossaux liés à la maintenance du projet open source à la croissance la plus rapide de l'histoire. Les chiffres sont vertigineux : OpenClaw enregistre 60 fois plus d'incidents de sécurité que le projet curl, et au moins 20 % des contributions de code soumises par la communauté sont identifiées comme malveillantes. En parallèle, Anthropic a lancé Claude Design, un outil de prototypage en préversion de recherche propulsé par Claude Opus 4.7, permettant de générer des prototypes, diapositives et documents à partir d'instructions en langage naturel, avec export vers Canva, PowerPoint, PDF et HTML, ainsi qu'un transfert direct vers Claude Code. Opus 4.7 a également été évalué par plusieurs benchmarks indépendants : il occupe la première place du Code Arena (+37 points sur Opus 4.6), la première place du Text Arena, et l'index Intelligence d'ArtificialAnalytics le place à 57,3 points, devant Gemini 3.1 Pro à 57,2 et GPT-5.4 à 56,8. L'impact de ces annonces est immédiat et multiple. Claude Design positionne directement Anthropic comme concurrent de Figma, Lovable, Bolt et v0 sur le marché des outils de design et de prototypage, et les marchés ont réagi : l'action Figma a chuté notablement dans les heures suivant l'annonce. Sur le plan de l'efficacité, Opus 4.7 produit environ 35 % moins de tokens qu'Opus 4.6 à performance supérieure, et certains utilisateurs rapportent jusqu'à dix fois moins de tokens consommés pour des problèmes d'apprentissage automatique complexes. ArtificialAnalytics place le modèle sur la frontière de Pareto prix/performance, aussi bien pour le texte que pour le code. Les 24 premières heures ont toutefois été agitées : des régressions et des échecs de contexte ont été signalés, des problèmes de stabilité ont été relevés dans Claude Design lui-même, et des incidents liés à la sécurité des comptes ont émergé, Anthropic ayant réagi rapidement pour corriger les comportements défaillants dès le lendemain. Ces événements s'inscrivent dans une convergence plus large de l'industrie vers les agents autonomes et l'utilisation des ordinateurs par les IA. OpenAI a également mis à jour Codex avec des capacités de computer use qui permettent de piloter Slack, des flux web et des applications bureau arbitraires, suscitant des réactions enthousiastes de praticiens qui y voient la première plateforme réellement utilisable en entreprise pour des logiciels legacy. Opus 4.7 abandonne le mode de réflexion étendue au profit d'un raisonnement adaptatif, et introduit la notion de budgets de tâches. Quant à OpenClaw, sa dualité, projet inspirant côté grand public, chantier sécuritaire périlleux côté ingénieurs, illustre la tension structurelle que traverse désormais tout grand projet open source alimenté par une communauté mondiale.

UEClaude Opus 4.7 et Claude Design sont immédiatement accessibles aux développeurs et entreprises européens, avec un impact concret sur les workflows de prototypage et de développement logiciel en France et en Europe.

💬 Opus 4.7 premier sur Code Arena ET Text Arena, 35% de tokens en moins pour des perfs au-dessus, c'est pas un détail. Claude Design qui fait chuter l'action Figma le jour même, ça dit tout sur la stratégie d'Anthropic : plus seulement le meilleur modèle, mais l'écosystème complet. Reste que 24h de régressions et d'incidents au lancement, faut y penser avant de migrer en prod.

LLMsActu
1 source
211MarkTechPost 

Guide de programmation complet pour exécuter les modèles open-weight GPT d'OpenAI avec des workflows d'inférence avancés

OpenAI a publié une version open-weight de ses modèles GPT sous l'identifiant openai/gpt-oss-20b, un modèle de 20 milliards de paramètres téléchargeable depuis HuggingFace et exécutable localement via la bibliothèque Transformers. Un guide technique détaillé, publié récemment, explique comment déployer ce modèle dans Google Colab en s'appuyant sur la quantification native MXFP4, les activations en torch.bfloat16, et le système devicemap="auto" pour l'allocation GPU automatique. Le modèle pèse environ 40 Go en téléchargement et nécessite au minimum 16 Go de VRAM, ce qui impose l'usage d'un GPU de type T4 ou A100, disponibles sur Colab Pro. Le tutoriel couvre l'installation des dépendances précises (Transformers 4.51+, accelerate, sentencepiece), le chargement du modèle avec trustremote_code=True, puis l'exécution de workflows complets : génération structurée, streaming, dialogue multi-tours, appel d'outils et inférence en batch. La mise à disposition de ce modèle en open-weight représente un changement significatif pour les développeurs et chercheurs qui souhaitent inspecter, modifier ou déployer un LLM de la famille GPT sans dépendre de l'API d'OpenAI. Contrairement aux modèles hébergés, gpt-oss-20b offre une transparence totale sur l'architecture, un contrôle complet des paramètres d'inférence (température, topp, longueur de séquence), et la possibilité d'exécution hors ligne sur infrastructure privée. Pour les entreprises soumises à des contraintes de confidentialité des données, ou pour les équipes de recherche qui ont besoin de reproductibilité, c'est une alternative concrète aux API fermées. Le guide recommande d'ailleurs les paramètres temperature=1.0 et topp=1.0 pour reproduire le comportement officiel du modèle. Ce mouvement s'inscrit dans une dynamique plus large de publication de modèles open-weight par les grands laboratoires : Meta avec Llama, Mistral AI avec ses modèles libres, ou encore Google avec Gemma. OpenAI, longtemps perçu comme le plus fermé des acteurs majeurs, adopte ici une stratégie différente en libérant un modèle intermédiaire techniquement capable. La compatibilité avec l'écosystème HuggingFace et Transformers facilite l'adoption immédiate par la communauté. Les prochaines étapes pourraient inclure des fine-tunings spécialisés par la communauté, des déploiements sur hardware grand public via des solutions comme llama.cpp ou Ollama, et une évaluation comparative approfondie face à Llama 3 ou Mistral Large, ce qui permettra de situer précisément gpt-oss-20b dans le paysage des modèles ouverts.

UELes équipes européennes soumises au RGPD peuvent désormais déployer un modèle de la famille GPT en infrastructure privée, sans transférer de données vers les serveurs d'OpenAI.

💬 OpenAI qui lâche un open-weight, ça faisait longtemps qu'on en parlait sans y croire. 20 milliards de paramètres, compatible HuggingFace, déployable sur ta propre infra, c'est exactement ce que réclamaient les équipes sous RGPD depuis des mois. Reste à voir si ça tient face à Llama 3 une fois les benchmarks sérieux posés.

LLMsTuto
1 source
212AWS ML Blog 

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow. L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production. Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

LLMsOutil
1 source
Elephant Alpha : quelle est cette IA qui a pris la 1ère place en quelques jours ?
213Le Big Data 

Elephant Alpha : quelle est cette IA qui a pris la 1ère place en quelques jours ?

Le 13 avril 2026, OpenRouter a mis en ligne un modèle d'intelligence artificielle baptisé Elephant Alpha, sans communiqué de presse ni campagne promotionnelle. En moins d'une semaine, ce modèle de 100 milliards de paramètres s'est hissé à la première place des tendances de la plateforme, dépassant des modèles payants établis. Le classement d'OpenRouter repose sur la consommation réelle de jetons par les utilisateurs, ce qui en fait un indicateur d'adoption concrète plutôt qu'un simple benchmark théorique. Le modèle propose une fenêtre de contexte de 256 000 jetons, soit la capacité d'analyser des documents volumineux ou des bases de code entières en une seule requête. Il supporte également les appels de fonctions, ce qui lui permet de s'intégrer dans des pipelines automatisés et d'interagir avec des API externes. Son accès via API est gratuit, du moins dans cette phase initiale, ce qui a déclenché une vague d'expérimentation massive chez les développeurs. Cette montée en flèche illustre un phénomène de plus en plus fréquent dans l'écosystème IA : un modèle peut s'imposer non pas par la communication, mais par l'utilité immédiate. La fenêtre de contexte étendue répond à un besoin concret des équipes techniques qui travaillent sur de longs documents juridiques, financiers ou des codebases complexes. Là où d'autres modèles obligent à fragmenter les données en plusieurs appels, Elephant Alpha absorbe l'ensemble en une seule passe, ce qui réduit la latence et simplifie les architectures. La gratuité temporaire a également joué un rôle déterminant : elle a abaissé le seuil d'entrée pour les développeurs indépendants et les petites équipes, qui ont commencé à l'intégrer dans leurs outils quotidiens avant même de connaître l'identité du laboratoire derrière le modèle. Car c'est l'un des aspects les plus déconcertants de cette histoire : au moment de son ascension, personne ne savait qui avait conçu Elephant Alpha. Aucune fiche technique publique, aucun article de recherche, aucune organisation revendiquée. Cette opacité a alimenté autant la curiosité que la méfiance dans la communauté. OpenRouter se positionne depuis plusieurs mois comme une place de marché neutre pour les modèles de langage, offrant aux développeurs un accès unifié à des dizaines de fournisseurs. Le succès soudain d'Elephant Alpha montre que cette plateforme est désormais capable de propulser un modèle inconnu au premier rang mondial en quelques jours, uniquement sur la base de l'usage réel. La question qui reste ouverte est celle de la pérennité : une fois la gratuité levée et l'identité du créateur révélée, l'adoption restera-t-elle aussi forte, ou l'engouement se dissipera-t-il aussi vite qu'il est apparu ?

LLMsOpinion
1 source
214MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
215Latent Space 

Anthropic Claude Opus 4.7 : une longueur d'avance sur 4.6 dans chaque dimension

Anthropic a lancé Claude Opus 4.7 le jeudi 14 avril 2026, positionnant ce nouveau modèle comme une amélioration nette et systématique par rapport à son prédécesseur Opus 4.6 sur l'ensemble des dimensions mesurées. Le tarif reste inchangé à 5 dollars par million de tokens en entrée et 25 dollars par million en sortie. La progression est quantifiable : le niveau d'effort 4.7-low surpasse le 4.6-medium, le 4.7-medium dépasse le 4.6-high, et le 4.7-high efface le 4.6-max. Anthropic introduit par ailleurs un nouveau palier d'effort baptisé "xhigh", immédiatement adopté comme niveau par défaut dans Claude Code. Sur SWE-Bench Pro, le benchmark de référence pour l'évaluation des agents de développement, Claude Code gagne 11 points. La vision est également revue en profondeur : Opus 4.7 accepte désormais des images jusqu'à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la résolution supportée par les versions précédentes. Ces améliorations ont des répercussions concrètes pour plusieurs catégories d'utilisateurs professionnels. Les développeurs utilisant Claude Code bénéficient immédiatement du gain de performance en programmation, avec une meilleure gestion des tâches longues, un suivi plus précis des instructions et une auto-vérification renforcée avant de répondre. La résolution d'image étendue ouvre des cas d'usage auparavant impossibles : agents d'utilisation de l'ordinateur lisant des captures d'écran denses, extraction de données depuis des schémas complexes, travail nécessitant des références pixel par pixel. Autre point notable sur l'économie des tokens : malgré un nouveau tokenizer qui peut générer jusqu'à 35 % de tokens supplémentaires sur un même texte, les gains d'efficacité de raisonnement sont suffisants pour réduire la consommation totale de tokens de jusqu'à 50 % par rapport aux niveaux équivalents de la génération précédente. Anthropic lance également en bêta publique un système de "task budgets", un outil /ultrareview dans Claude Code, et un accès élargi au mode Auto pour les abonnés Claude Code Max. Ce lancement s'inscrit dans une séquence de publications majeures qui rythment le marché de l'IA depuis début 2026. OpenAI avait publié le même jour GPT-Rosalind et une nouvelle version de Codex, mais la trajectoire d'Anthropic a capté l'essentiel de l'attention technique. La communauté débat encore du statut exact d'Opus 4.7 : successeur direct d'Opus 4.6, modèle sur nouvelle base d'entraînement, ou système partiellement distillé depuis une architecture interne de plus grande taille ? Le nouveau tokenizer découvert par plusieurs chercheurs alimente cette interrogation sur la nature des changements en préentraînement. Les semaines à venir permettront de mesurer si les gains de benchmark se traduisent en gains réels dans les usages quotidiens des développeurs et des entreprises qui intègrent Claude dans leurs produits.

UELes développeurs et entreprises européennes intégrant Claude via l'API bénéficient immédiatement des gains de performance et de la réduction de consommation de tokens, sans surcoût tarifaire.

💬 Le même prix, et chaque palier 4.7-low dépasse le 4.6-medium, le 4.7-medium écrase le 4.6-high. C'est le genre de saut qu'on attendait. Sur le tokenizer qui génère 35% de tokens supplémentaires, Anthropic annonce -50% de consommation globale en raisonnement, mais bon, faut voir ce que ça donne sur de vrais contextes longs avant de se réjouir.

LLMsActu
1 source
OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique
216MarkTechPost 

OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique

OpenAI a lancé GPT-Rosalind, son premier modèle d'intelligence artificielle spécialisé dans les sciences du vivant, conçu pour accélérer la recherche en biologie, en génomique et en découverte de médicaments. Contrairement aux modèles généralistes comme GPT-5, GPT-Rosalind est fine-tuné sur les exigences analytiques propres à la recherche biologique : synthèse de littérature scientifique, conception de protocoles expérimentaux, prédiction de comportements de séquences ARN, et planification d'hypothèses. Le modèle est accessible via ChatGPT, Codex et l'API d'OpenAI, mais uniquement dans le cadre d'un programme d'accès contrôlé réservé aux entreprises qualifiées aux États-Unis. OpenAI lance simultanément un plugin Life Sciences pour Codex, connectant les modèles à plus de 50 outils scientifiques et bases de données biologiques. Sur le benchmark BixBench, conçu pour évaluer des tâches réelles de bioinformatique, GPT-Rosalind atteint un taux de réussite de 0,751. Sur LABBench2, il surpasse GPT-5.4 sur six des onze tâches testées, avec des gains particulièrement nets sur CloningQA, qui évalue la conception de réactifs pour des protocoles de clonage moléculaire. Le potentiel concret de ce modèle est illustré par une évaluation menée en partenariat avec Dyno Therapeutics sur des séquences ARN inédites, jamais intégrées à aucun corpus d'entraînement public. Dans cet environnement Codex, les meilleures soumissions du modèle se sont classées au-dessus du 95e percentile des experts humains pour les tâches de prédiction, et au 84e percentile pour la génération de séquences. Ce résultat est particulièrement significatif car il exclut tout effet de mémorisation et démontre une capacité de raisonnement réelle sur des données biologiques nouvelles. Pour l'industrie pharmaceutique, où le développement d'un médicament prend en moyenne dix à quinze ans et coûte des milliards de dollars, des outils capables de compresser les phases analytiques les plus lourdes représentent un levier économique et scientifique considérable. Ce lancement s'inscrit dans une course que se livrent les grands laboratoires d'IA pour s'imposer dans les sciences de la vie, un secteur qui attire des investissements massifs et où les enjeux réglementaires sont élevés. Google DeepMind a déjà marqué ce terrain avec AlphaFold pour la prédiction de structures protéiques, tandis que des startups comme Insilico Medicine ou Recursion Pharmaceuticals misent sur l'IA pour repenser entièrement le pipeline de découverte de médicaments. OpenAI positionne GPT-Rosalind non pas comme un remplaçant des chercheurs, mais comme un assistant capable de prendre en charge les étapes les plus chronophages du processus scientifique. L'accès restreint au lancement, avec des garde-fous techniques pour signaler les activités potentiellement dangereuses, reflète la prudence qu'impose ce domaine sensible, où une erreur de modèle pourrait avoir des conséquences directes sur des protocoles de laboratoire ou des décisions cliniques.

UEL'accès étant limité aux entreprises américaines qualifiées au lancement, l'impact immédiat sur les biotechs et laboratoires pharmaceutiques européens est indirect, mais ce type de modèle spécialisé pourrait redéfinir les standards de R&D dans un secteur encadré par la réglementation européenne sur les médicaments et les dispositifs médicaux.

LLMsActu
1 source
217Ars Technica AI 

OpenAI propose un LLM spécialisé en biologie

OpenAI a annoncé jeudi le lancement de GPT-Rosalind, un grand modèle de langage conçu spécifiquement pour les workflows biologiques. Nommé en hommage à la scientifique Rosalind Franklin, ce modèle a été entraîné sur 50 des flux de travail biologiques les plus courants, ainsi que sur les principales bases de données publiques d'informations biologiques. Yunyun Wang, responsable des produits Life Sciences chez OpenAI, a présenté le système lors d'un briefing presse, précisant qu'il est capable de suggérer des voies biologiques probables et de prioriser des cibles médicamenteuses potentielles. Le modèle peut également relier génotype et phénotype via des mécanismes de régulation connus, et inférer des propriétés structurelles ou fonctionnelles de protéines. Cette approche tranche avec celle adoptée par la plupart des grands acteurs technologiques, qui ont jusqu'ici privilégié des modèles scientifiques généralistes couvrant plusieurs disciplines. GPT-Rosalind s'attaque à deux obstacles concrets que rencontrent les chercheurs en biologie aujourd'hui : la masse colossale de données accumulées depuis des décennies de séquençage génomique et de biochimie des protéines, et la fragmentation extrême du domaine en sous-disciplines aux jargons et techniques propres. Un généticien travaillant sur un gène actif dans les cellules cérébrales, par exemple, peut se retrouver submergé par la littérature neurobiologique sans y avoir de formation spécifique. Un outil capable de naviguer entre ces silos représente un gain de temps et de pertinence considérable pour la recherche académique et pharmaceutique. La biologie computationnelle est depuis plusieurs années un terrain de compétition intense entre laboratoires de recherche et entreprises technologiques. Google DeepMind a marqué un tournant majeur avec AlphaFold, dont les prédictions de structures protéiques ont révolutionné le domaine. OpenAI positionne GPT-Rosalind non pas comme un outil de prédiction structurelle, mais comme un assistant de raisonnement biologique à large spectre, capable d'intégrer des connaissances transversales. L'annonce intervient dans un contexte où les grandes entreprises d'IA cherchent à démontrer une valeur concrète dans les sciences de la vie, un secteur où les enjeux en matière de découverte de médicaments et de médecine personnalisée sont considérables.

UELes laboratoires académiques et entreprises pharmaceutiques européennes pourraient exploiter GPT-Rosalind pour accélérer leurs recherches en génomique et découverte de médicaments, domaines où l'Europe investit massivement.

218VentureBeat AI 

Anthropic lance Claude Opus 4.7 et reprend de justesse la tête des LLM grand public

Anthropic a officiellement lancé Claude Opus 4.7 le 16 avril 2026, son modèle de langage le plus puissant disponible au grand public à ce jour. Le modèle dépasse ses rivaux directs sur plusieurs benchmarks clés : il devance GPT-5.4 d'OpenAI (sorti début mars 2026) et Gemini 3.1 Pro de Google (février 2026) en codage agentique, utilisation d'outils à grande échelle, contrôle autonome d'ordinateurs et analyse financière. Sur le GDPVal-AA, l'évaluation de référence pour le travail de connaissance, Opus 4.7 obtient un score Elo de 1753, contre 1674 pour GPT-5.4 et seulement 1314 pour Gemini 3.1 Pro. En codage agentique (SWE-bench Pro), il résout 64,3 % des tâches contre 53,4 % pour son prédécesseur. Sur le raisonnement visuel (arXiv Reasoning avec outils), il passe de 84,7 % à 91,0 %. Le modèle est disponible dès aujourd'hui sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, avec une tarification API maintenue à 5 $ / 25 $ par million de tokens. À noter qu'Anthropic conserve un modèle encore plus puissant, baptisé Mythos, en accès très restreint auprès de quelques partenaires entreprises pour des tests de cybersécurité. La principale avancée technique réside dans deux domaines : l'autocorrection autonome et la vision haute résolution. Opus 4.7 est capable de concevoir ses propres étapes de vérification avant de déclarer une tâche terminée, dans des tests internes, le modèle a construit un moteur de synthèse vocale en Rust, puis a utilisé indépendamment un reconnaisseur vocal pour valider sa propre sortie audio. Cette logique de vérification réduit significativement les "boucles d'hallucination" typiques des agents IA. Côté vision, le modèle passe à une résolution maximale de 2 576 pixels sur le côté long (environ 3,75 mégapixels), soit trois fois plus qu'auparavant. Sur les tests d'acuité visuelle XBOW, le taux de réussite bondit de 54,5 % à 98,5 %, ouvrant la voie à des agents capables de naviguer sur des interfaces haute densité ou d'analyser des schémas techniques complexes. La course aux modèles frontières entre Anthropic, OpenAI et Google atteint un niveau de compétition sans précédent, les écarts se réduisant drastiquement : sur les benchmarks directement comparables, Opus 4.7 ne devance GPT-5.4 que 7 à 4. OpenAI conserve la tête sur la recherche agentique (89,3 % contre 79,3 %) et le codage en terminal brut. Opus 4.7 se positionne donc non comme un dominateur absolu, mais comme un modèle spécialisé pour les workflows autonomes longue durée, précisément ce que demande l'économie agentique en plein essor. Anthropic avertit par ailleurs que la précision accrue du modèle exige une adaptation des pratiques de prompting : Opus 4.7 suit les instructions à la lettre, ce qui peut amplifier les erreurs si les consignes sont ambiguës.

UEClaude Opus 4.7 est immédiatement accessible aux développeurs et entreprises européens via Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry à tarification inchangée, ouvrant de nouvelles possibilités pour les workflows agentiques longue durée.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. Anthropic joue gros avec Claude Opus 4.7, et ils ont bien fait de le lancer maintenant, avant que les autres ne prennent le large. Ils montrent qu'ils sont capables de tenir la cadence avec OpenAI et Google, même si c'est serré. Le truc avec l'autocorrection autonome et la vision haute résolution, ça donne un avantage concret pour les workflows à long terme, ce qui compte énormément dans l'économie agentique en plein essor. Mais attention, leur mise au point sur les prompts, c'est crucial : suivre les instructions à la lettre, ça peut aussi vouloir dire amplifier les erreurs si on ne fait pas gaffe aux ambiguïtés. Bon, sur le papier, c'est une avancée majeure, mais reste à voir comment cela se déroule dans la réalité quotidienne.

219The Verge AI 

Anthropic lance un nouveau modèle Opus dans l'effervescence de la préversion Mythos

Anthropic a lancé Claude Opus 4.7, son modèle grand public le plus puissant à ce jour, disponible dès maintenant via l'API et les interfaces Claude. L'entreprise le positionne comme une progression significative par rapport à Opus 4.6, notamment pour les tâches d'ingénierie logicielle avancées et les scénarios de codage complexes qui nécessitaient auparavant davantage d'intervention humaine. Opus 4.7 apporte également des améliorations en analyse d'images, en suivi d'instructions, et se montre plus créatif dans la génération de présentations et de documents. Ce lancement consolide la position d'Anthropic dans la course aux modèles de pointe, en offrant aux développeurs et entreprises un outil plus autonome pour les projets techniques ambitieux. La réduction du besoin de supervision humaine dans le codage complexe représente un gain concret de productivité pour les équipes d'ingénierie, et les progrès en compréhension visuelle élargissent les cas d'usage possibles dans l'analyse de données et la création de contenu. Ce lancement intervient quelques jours seulement après l'annonce de Mythos Preview, un modèle spécialisé en cybersécurité qu'Anthropic présente comme son modèle le plus puissant toutes catégories confondues. La distinction entre les deux est notable : Mythos cible des usages très spécifiques dans la sécurité informatique, tandis qu'Opus 4.7 vise le grand public des utilisateurs professionnels. Anthropic multiplie ainsi les lancements sur un marché où OpenAI, Google et Meta maintiennent une pression constante, et cette stratégie de segmentation par usage pourrait devenir une tendance durable dans l'industrie.

UELes développeurs et entreprises européens peuvent accéder immédiatement à Opus 4.7 via l'API, avec des gains de productivité concrets pour les équipes d'ingénierie sur des tâches de codage complexe.

220MarkTechPost 

Entraînement, alignement et déploiement des LLM : analyse technique approfondie

L'entraînement d'un grand modèle de langage (LLM) moderne repose sur un pipeline en plusieurs étapes distinctes, chacune jouant un rôle précis dans la transformation d'un réseau de neurones brut en un système intelligent et déployable. La première phase, le pré-entraînement, consiste à exposer le modèle à des corpus massifs de textes, livres, sites web, code source, afin qu'il développe une compréhension générale du langage, de la grammaire, du raisonnement et des connaissances du monde. Vient ensuite le fine-tuning supervisé (SFT), où des paires entrée-sortie soigneusement vérifiées permettent d'orienter le comportement du modèle vers des tâches précises, un style de réponse ou des règles métier spécifiques. Pour rendre cette adaptation plus accessible sans recalculer l'intégralité des paramètres du modèle, des techniques comme LoRA (Low-Rank Adaptation) et QLoRA (sa variante quantifiée) permettent un fine-tuning efficace en n'ajustant qu'une fraction des poids. L'alignement avec les préférences humaines passe quant à lui par le RLHF (Reinforcement Learning from Human Feedback), qui affine les sorties selon des critères de sécurité et d'utilité. Plus récemment, GRPO (Group Relative Policy Optimization) est apparu pour renforcer les capacités de raisonnement structuré et de résolution de problèmes en plusieurs étapes. Comprendre ce pipeline est essentiel pour quiconque développe ou intègre des LLMs dans des produits réels. Chaque étape conditionne la suivante : un pré-entraînement faible rend le fine-tuning peu efficace, et un mauvais alignement produit des modèles imprévisibles ou dangereux en production. Le SFT, par exemple, peut transformer une réponse générique ("Essayez de réinitialiser votre mot de passe") en une réponse structurée et empathique adaptée au service client. Les techniques LoRA et QLoRA démocratisent l'adaptation de modèles de grande taille sur du matériel accessible, réduisant les coûts de calcul de manière significative. Le RLHF, popularisé notamment par OpenAI avec ChatGPT, reste la référence pour aligner les modèles sur les attentes humaines, tandis que GRPO représente la nouvelle frontière pour les modèles de raisonnement comme DeepSeek-R1 ou les variantes o1 d'OpenAI. Ce pipeline s'est construit progressivement depuis les premières architectures Transformer de 2017, avec des jalons comme GPT-3 en 2020, qui a démontré la puissance du pré-entraînement à grande échelle, puis InstructGPT en 2022, qui a introduit le RLHF comme standard d'alignement. Aujourd'hui, la course entre les acteurs majeurs, OpenAI, Google DeepMind, Meta, Mistral, Anthropic, se joue précisément sur l'optimisation de ces étapes : qualité des données d'entraînement, efficacité du fine-tuning, robustesse de l'alignement. La montée en puissance des modèles de raisonnement en 2024-2025 a replacé GRPO et les approches similaires au centre des stratégies de recherche, laissant entrevoir des LLMs capables d'une résolution de problèmes complexes nettement plus fiable qu'aujourd'hui.

UEMistral, acteur français, est cité parmi les compétiteurs majeurs dans la course à l'optimisation des pipelines d'entraînement LLM.

LLMsTuto
1 source
Claude Opus 4.7 : Le nouveau monstre d’Anthropic arrive (peut-être) cette semaine !
221Le Big Data 

Claude Opus 4.7 : Le nouveau monstre d’Anthropic arrive (peut-être) cette semaine !

Anthropic s'apprêterait à lancer Claude Opus 4.7, la prochaine itération de son modèle phare, potentiellement dès cette semaine. L'information provient de The Information, qui rapporte que l'identifiant "Claude Opus 4.7" a déjà été repéré dans les références internes de l'API d'Anthropic, un signal qui précède généralement de peu une annonce officielle. Un utilisateur du réseau X, sous le pseudonyme BridgeMind, a également alimenté les spéculations en relevant que Claude Opus 4.5 avait été publié 73 jours avant Opus 4.6, sorti le 5 février 2026. Au 14 avril, 68 jours s'étaient déjà écoulés depuis cette dernière version, plaçant la prochaine sortie dans la fenêtre habituelle de déploiement. Le code source de Claude Code ayant par ailleurs déjà mentionné Opus 4.7, les indices convergent, sans qu'Anthropic ait pour autant confirmé quoi que ce soit officiellement. Si les rumeurs s'avèrent fondées, Claude Opus 4.7 apporterait des améliorations substantielles sur plusieurs fronts critiques : le raisonnement en plusieurs étapes, la gestion de tâches longues et complexes, et surtout la coordination entre agents d'IA. Anthropic travaillerait sur un concept d'"équipe d'agents", où plusieurs modèles collaborent sur un même problème comme le ferait un groupe de travail humain. Cette architecture permettrait à des systèmes autonomes de fonctionner pendant de longues périodes avec une intervention humaine minimale, une capacité très attendue par les entreprises qui intègrent l'IA dans leurs workflows. En parallèle, The Information évoque également un assistant tout-en-un capable de gérer des tâches complètes comme la création de sites web ou de présentations, en intégrant rédaction, design et mise en place technique dans un processus unifié. Ce lancement s'inscrit dans une course effrénée entre les grands laboratoires d'IA. OpenAI, Google et Anthropic accélèrent tous leurs cycles de publication, les intervalles entre versions majeures se réduisant à quelques semaines. Anthropic, fondée en 2021 par d'anciens cadres d'OpenAI dont Dario et Daniela Amodei, positionne Claude comme une alternative axée sur la sécurité et la fiabilité. Avec Opus 4.7, la société chercherait à consolider son avance sur le segment des agents autonomes et des tâches longue durée, un marché entreprise à fort potentiel. Les suites dépendront de la réaction des concurrents : OpenAI prépare ses propres modèles o3 et GPT-5, tandis que Google continue de faire évoluer Gemini Ultra. La semaine à venir pourrait donc marquer une nouvelle étape dans la compétition mondiale pour les modèles de langage de pointe.

LLMsOpinion
1 source
222Latent Space 

[AINews] Le dernier souffle de l'humanité

La semaine du 3 et 4 avril 2026 a été marquée par une série de lancements techniques majeurs dans l'industrie de l'IA. Google a introduit les "Skills" dans Chrome, permettant aux utilisateurs de transformer des prompts Gemini en actions réutilisables d'un seul clic sur n'importe quelle page web. Google DeepMind a publié Gemini Robotics-ER 1.6, un modèle de raisonnement spatial atteignant 93% de réussite en lecture d'instruments et améliorant la manipulation d'objets contraignants comme les liquides. OpenAI a étendu son programme Trusted Access avec GPT-5.4-Cyber, une version affinée pour les workflows de sécurité défensive. Hugging Face a lancé "Kernels" sur le Hub, des artefacts GPU précompilés affichant des gains de performance de 1,7x à 2,5x sur les bases PyTorch. Cursor, en collaboration avec NVIDIA, a déployé un système multi-agents d'optimisation CUDA atteignant 38% d'accélération en moyenne sur 235 benchmarks. Par ailleurs, Tencent a teasé HYWorld 2.0, un modèle 3D open source capable de générer des scènes éditables à partir d'une seule image, repositionnant les world models comme outils de création 3D plutôt que de génération vidéo. Ces annonces s'inscrivent dans un paradoxe que la newsletter AINews nomme le "Turkey Problem" : les modèles progressent à vitesse record, SWE-Bench est saturé, Mythos (le modèle interne d'Anthropic) atteint 78% sur SWE-Bench Pro, et GDPval évalue GPT-5.4 comme équivalent ou supérieur à des experts humains dans 83% des secteurs économiques, et pourtant les ingénieurs et travailleurs du savoir n'ont jamais été aussi occupés. Aaron Levie, CEO de Box, observe que ses équipes n'ont jamais autant travaillé. Tyler Cowen soutient qu'il faut travailler davantage maintenant, quelle que soit sa position sur l'impact de l'IA. Simon Last de Notion, lui, décrit des nuits sans sommeil liées à "l'anxiété des tokens au niveau agents". Plus les agents produisent, plus les humains courent derrière, du moins pour l'instant. La question sous-jacente est celle du point de bascule : jusqu'où la valeur humaine restera-t-elle "élastique" face à l'automatisation, avant d'atteindre le sort des chevaux après l'invention du moteur à combustion ? Notion travaille sur un benchmark interne baptisé "Notion's Last Exam", les chercheurs Greg Brockman et François Chollet planchent sur ARC-AGI-3, et plusieurs équipes cherchent à définir les prochaines frontières des évaluations en programmation. Mais ces efforts paraissent relativisés par une hypothèse de plus en plus discutée : si l'AGI dépend avant tout de la puissance matérielle, un supercalculateur de 20 gigawatts suffirait à franchir le seuil. L'IA avance vite, les benchmarks tombent les uns après les autres, et l'industrie tente encore de définir ce qui restera hors de portée des machines.

UELe lancement des Kernels par Hugging Face (entreprise française) sur son Hub apporte des gains de performance GPU directs (1,7x à 2,5x) aux développeurs et chercheurs européens utilisant PyTorch.

💬 Le Turkey Problem, c'est ce paradoxe qu'on sent tous mais qu'on arrive pas encore à nommer clairement : les modèles explosent les benchmarks, GPT-5.4 jugé aussi bon que des experts dans 83% des secteurs, et tout le monde bosse plus qu'avant, pas moins. Logique : plus l'outil produit, plus le scope s'élargit, et c'est nous qui courons derrière pour absorber la valeur générée. La comparaison avec les chevaux est là, dans la pièce, et personne n'ose vraiment finir la phrase.

LLMsActu
1 source
223Latent Space 

[AINews] Classement des meilleurs modèles locaux - avril 2026

En avril 2026, la communauté des modèles d'IA locaux a établi un nouveau consensus sur les meilleurs modèles disponibles, après une veille régulière des forums Reddit comme r/localLlama et r/localLLM. Le classement ne repose pas sur les benchmarks théoriques mais sur ce que les utilisateurs recommandent concrètement au quotidien. Qwen 3.5 s'impose comme la famille la plus recommandée toutes catégories confondues, tandis que Gemma 4 de Google gagne rapidement en popularité pour les déploiements locaux de petite et moyenne taille. GLM-5 et GLM-4.7 figurent désormais dans les discussions sur les "meilleurs modèles open-source", aux côtés de MiniMax M2.5 et M2.7, particulièrement cités pour les tâches agentiques et les workflows à forte utilisation d'outils. DeepSeek V3.2 reste solidement dans le peloton de tête des modèles open-weight généralistes, et GPT-oss 20B émerge comme option pratique pour un usage local, notamment pour ses variantes non censurées. Pour le code, le verdict est sans appel : Qwen3-Coder-Next domine largement. Ce palmarès reflète un basculement significatif dans la manière dont les développeurs et les passionnés consomment l'IA : plutôt que de dépendre de services cloud payants, ils privilégient des modèles qu'ils peuvent faire tourner sur leur propre matériel. Cette dynamique démocratise l'accès à des capacités avancées tout en préservant la confidentialité des données. La performance de Qwen 3.5 sur un large spectre d'usages indique que les modèles de taille intermédiaire ont atteint un niveau de maturité suffisant pour remplacer des API commerciales dans de nombreux contextes professionnels. Ce relevé s'inscrit dans une accélération générale de l'écosystème open-weight depuis fin 2024, portée par des acteurs comme Alibaba (Qwen), Google (Gemma), Zhipu AI (GLM) et DeepSeek. La compétition s'est déplacée des grands laboratoires fermés vers un terrain où les sorties se succèdent à un rythme soutenu et où la communauté joue un rôle d'arbitre. La prochaine génération de modèles locaux, notamment Qwen3-Coder-Next pour le développement logiciel, laisse entrevoir des capacités agentiques croissantes qui pourraient transformer les workflows d'ingénierie sans nécessiter de connexion à des services externes.

UEL'adoption croissante de modèles open-weight locaux offre aux développeurs et entreprises européens une alternative concrète aux API cloud américaines, réduisant l'exposition aux risques de dépendance et renforçant la souveraineté des données.

LLMsActu
1 source
224MarkTechPost 

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

Des chercheurs de NVIDIA et de l'Université du Maryland ont publié Audio Flamingo Next (AF-Next), le modèle le plus puissant de la série Audio Flamingo et l'un des grands modèles audio-langage (LALM) open source les plus avancés à ce jour. AF-Next est disponible en trois variantes spécialisées : AF-Next-Instruct pour les questions-réponses générales, AF-Next-Think pour le raisonnement multi-étapes complexe, et AF-Next-Captioner pour la description détaillée de contenus audio. L'architecture repose sur quatre composants : un encodeur audio AF-Whisper (basé sur Whisper, pré-entraîné sur un corpus plus large incluant de la parole multilingue), un adaptateur MLP à deux couches, un backbone LLM Qwen-2.5-7B à 7 milliards de paramètres avec une fenêtre de contexte étendue à 128 000 tokens, et un module de synthèse vocale en streaming. Une innovation clé est l'introduction des Rotary Time Embeddings (RoTE), qui ancrent chaque token audio à son horodatage réel plutôt qu'à sa position dans la séquence, ce qui améliore significativement le raisonnement temporel sur de longs enregistrements. L'entraînement a mobilisé plus d'un million d'heures de données audio. AF-Next représente une avancée concrète pour toutes les applications nécessitant une compréhension fine de l'audio : transcription de réunions longues, analyse de podcasts, surveillance sonore, ou encore assistants vocaux capables de raisonner sur le contexte temporel d'une conversation. La technique dite de Temporal Audio Chain-of-Thought oblige le modèle à ancrer chaque étape de raisonnement à un timestamp précis avant de produire une réponse, ce qui réduit les hallucinations et améliore la fiabilité sur des enregistrements longs. Pour entraîner cette capacité, les chercheurs ont constitué AF-Think-Time, un jeu de données d'environ 43 000 exemples issus de bandes-annonces, résumés de films, histoires à suspense et conversations multi-participants, avec une moyenne de 446 mots par chaîne de raisonnement. L'audio a toujours été le parent pauvre du multimodal : là où les modèles vision-langage comme GPT-4V ou LLaVA ont rapidement mûri, les équivalents audio peinaient à traiter simultanément parole, sons environnementaux et musique, surtout sur de longues durées. AF-Next s'attaque directement à cette lacune en proposant une architecture unifiée et entièrement ouverte, à l'heure où les grands laboratoires comme OpenAI et Google gardent leurs modèles audio les plus puissants propriétaires. En publiant les poids du modèle et le dataset AF-Think-Time, NVIDIA et l'Université du Maryland offrent à la communauté de recherche une base solide pour faire progresser l'audio compréhension ouverte, un domaine stratégique pour les prochaines générations d'interfaces vocales et d'agents autonomes capables d'agir sur des flux audio en temps réel.

💬 L'audio était vraiment le grand oublié du multimodal, et là c'est NVIDIA qui comble le trou avec une architecture ouverte. Les Rotary Time Embeddings pour ancrer les tokens à leur timestamp réel, c'est le genre de détail qui change tout quand tu travailles sur des enregistrements longs. Reste à voir si les 128k tokens de contexte tiennent vraiment en pratique, mais les poids sont là, le dataset aussi, bonne base.

LLMsOpinion
1 source
225Le Big Data 

Kimi de Moonshot AI : l’outil IA de nouvelle génération

Moonshot AI, startup pékinoise fondée par Yang Zhilin, a lancé fin 2023 un assistant conversationnel nommé Kimi, propulsé par de grands modèles de langage. En 2026, la version Kimi K2.5 s'impose comme une référence dans le domaine de l'IA multimodale : l'outil traite simultanément texte et images, gère des fenêtres contextuelles atteignant 2 millions de caractères, et repose sur une architecture Mixture of Experts (MoE) totalisant environ mille milliards de paramètres. Concrètement, ce modèle n'active qu'une fraction de ses neurones artificiels à chaque requête, ce qui lui permet d'être à la fois massivement capable et relativement efficace en ressources. La version K2.5 marque également l'intégration native d'une dimension visuelle, rendant l'outil capable d'interpréter des images sans module externe. La proposition de valeur centrale de Kimi repose sur sa capacité à traiter des documents de très grande taille sans dégradation de la cohérence : rapports de 200 pages, dossiers juridiques complexes, livres entiers peuvent être analysés en quelques dizaines de secondes, avec extraction de données précises et réponses croisées entre plusieurs fichiers. Là où d'autres modèles perdent le fil ou génèrent des hallucinations sur des contextes longs, Kimi maintient une vision globale stable. Son environnement de développement bilingue chinois-anglais lui confère également une sensibilité culturelle et linguistique que les modèles entraînés principalement sur des corpus anglophones peinent à reproduire, notamment sur les nuances et les références contextuelles non occidentales. Moonshot AI s'inscrit dans la vague des acteurs chinois de l'IA qui défient ouvertement les leaders américains, OpenAI en tête. Si ChatGPT reste la référence pour la polyvalence créative et la notoriété grand public, Kimi se positionne comme concurrent direct sur les tâches techniques avancées, la recherche documentaire approfondie et le codage assisté. Le marché de l'IA générative est désormais structuré autour d'une poignée de modèles ultra-performants issus de plusieurs géographies, avec une compétition intense sur les benchmarks de raisonnement et de traitement long contexte. La montée en puissance de Moonshot AI reflète plus largement l'émergence d'un écosystème IA chinois mature, capable de rivaliser techniquement avec la Silicon Valley, et dont les prochaines versions pourraient intégrer encore davantage de capacités agentiques, notamment l'orchestration de tâches automatisées en parallèle.

LLMsOpinion
1 source
226VentureBeat AI 

Anthropic affaiblit-il Claude ? Les utilisateurs signalent des baisses de performances, les dirigeants démentent

Depuis plusieurs semaines, une vague de plaintes monte sur GitHub, X et Reddit contre Anthropic : des développeurs et utilisateurs avancés accusent l'entreprise d'avoir dégradé les performances de Claude Opus 4.6 et de son outil de coding Claude Code, intentionnellement ou sous la pression de contraintes de calcul. Parmi les voix les plus documentées figure Stella Laurenzo, Senior Director au sein du groupe IA d'AMD, qui a publié le 2 avril 2026 une analyse détaillée sur GitHub portant sur 6 852 sessions Claude Code, 17 871 blocs de raisonnement et 234 760 appels d'outils. Ses conclusions : à partir de février, la profondeur estimée du raisonnement de Claude a chuté significativement, accompagnée d'une hausse des arrêts prématurés, d'un comportement orienté vers "la correction la plus simple", de boucles de raisonnement et d'un glissement de l'approche recherche-d'abord vers édition-d'abord. Relayée le 11 avril sur X par le compte @Hesamation, cette analyse est devenue virale, transformant une frustration diffuse en grief structuré porté par une cadre senior d'une grande entreprise de semi-conducteurs. L'enjeu est significatif pour les professionnels qui dépendent de Claude dans des workflows d'ingénierie complexes. Pour eux, le raisonnement étendu n'est pas un luxe mais une condition de base de l'utilisabilité du modèle. Le phénomène a été qualifié de "shrinkflation de l'IA" : payer le même tarif pour un produit moins performant. Si les accusations de throttling délibéré restent non prouvées, elles témoignent d'une érosion de confiance mesurable chez une frange d'utilisateurs à forte valeur, précisément ceux qu'Anthropic cherche à fidéliser dans le segment enterprise et développeur. Anthropic a répondu via Boris Cherny, lead de Claude Code, dans un commentaire épinglé sur le fil GitHub. Il a reconnu deux changements produit récents : le passage d'Opus 4.6 au mode "adaptive thinking" par défaut le 9 février, et une transition vers un niveau d'effort "medium" le 3 mars. Sur le point technique central de l'analyse de Laurenzo, il a précisé que l'en-tête "redact-thinking-2026-02-12" est une modification purement visuelle qui masque le raisonnement dans l'interface et réduit la latence perçue, sans affecter le raisonnement sous-jacent ni les budgets de réflexion alloués. Ces clarifications n'ont pas totalement calmé la controverse : VentureBeat a contacté Anthropic pour obtenir des précisions sur d'éventuels changements de paramètres d'inférence, de gestion du contexte ou de méthodologie de benchmark, et attendait toujours une réponse au moment de la publication. L'épisode illustre la tension croissante entre les entreprises d'IA qui ajustent leurs modèles en production et des utilisateurs experts capables désormais d'instrumenter et de quantifier ces évolutions.

LLMsActu
1 source
MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2
227MarkTechPost 

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

MiniMax a rendu public les poids de son modèle MiniMax M2.7 sur Hugging Face, officiellement annoncé le 18 mars 2026. Il s'agit du modèle open source le plus performant de l'entreprise à ce jour, construit sur une architecture Mixture-of-Experts (MoE) qui n'active qu'une fraction des paramètres à chaque inférence, rendant le modèle nettement plus rapide et moins coûteux à faire tourner qu'un modèle dense de qualité comparable. M2.7 est conçu autour de trois axes : l'ingénierie logicielle professionnelle, la productivité bureautique avancée, et ce que MiniMax appelle les "Agent Teams", une capacité native de collaboration multi-agents. Sur le benchmark SWE-Pro, qui évalue la maîtrise de plusieurs langages de programmation à travers des tâches d'analyse de logs, débogage, revue de sécurité et workflows machine learning, M2.7 atteint 56,22 %, à égalité avec GPT-5.3-Codex. Il obtient également 57,0 % sur Terminal Bench 2, 39,8 % sur NL2Repo, et 55,6 % sur VIBE-Pro, benchmark de génération de code à l'échelle d'un dépôt, plaçant le modèle au niveau de Claude Opus 4.6 sur des tâches couvrant Web, Android, iOS et simulation. Ce qui distingue M2.7, c'est sa capacité à intervenir sur des systèmes en production réels. Face à une alerte critique, le modèle peut corréler des métriques de monitoring avec des timelines de déploiement, conduire une analyse statistique sur des traces d'échantillonnage, se connecter proactivement à des bases de données pour vérifier la cause racine, identifier des fichiers de migration d'index manquants dans un dépôt, puis appliquer une création d'index non bloquante avant de soumettre une merge request, le tout en moins de trois minutes selon les équipes MiniMax. Ce positionnement dépasse largement la génération de code : il s'agit d'un modèle capable de raisonnement causal de niveau SRE (Site Reliability Engineering), un profil rare parmi les modèles disponibles en open source. Le détail le plus frappant de M2.7 est son architecture d'auto-évolution. Le modèle a été chargé d'optimiser lui-même ses propres performances sur un scaffold interne, sans intervention humaine. Il a conduit plus de 100 itérations autonomes selon une boucle : analyser les trajectoires d'échec, planifier des modifications, toucher au code du scaffold, relancer des évaluations, comparer les résultats, décider de conserver ou annuler les changements. Au fil de ce processus, M2.7 a découvert seul des optimisations efficaces, notamment la recherche systématique de la combinaison optimale de paramètres d'échantillonnage (température, frequency penalty, presence penalty), la conception de guidelines de workflow plus précises, et l'ajout d'une détection de boucles infinies dans l'agent loop. Résultat : une amélioration de 30 % sur les ensembles d'évaluation internes. Au sein des équipes de reinforcement learning de MiniMax, M2.7 gère désormais 30 à 50 % des workflows de bout en bout, les chercheurs humains n'intervenant que pour les décisions critiques, un signal fort que la frontière entre outil et collaborateur est en train de se déplacer.

UELes développeurs et entreprises européens peuvent déployer librement les poids de ce modèle open source pour des tâches d'ingénierie logicielle avancée, réduisant leur dépendance aux API propriétaires.

💬 Un modèle open source qui a passé 100 itérations à modifier son propre scaffold et s'est amélioré de 30 % tout seul, c'est le truc qu'on lisait dans les papiers de recherche il y a 18 mois. Là c'est sorti sur Hugging Face, avec les poids, et des benchmarks qui le placent au niveau de Claude Opus 4.6 sur du code à l'échelle d'un dépôt réel. Reste à voir si ça tient hors du contexte lab, mais pour une fois l'architecture MoE n'est pas juste un argument marketing pour réduire les coûts d'inférence : ça donne un modèle qu'on peut faire tourner sans louer un datacenter.

LLMsActu
1 source
228MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
229Latent Space 

AI Engineer Europe 2026

La conférence AI Engineer Europe 2026 vient de s'achever après trois jours intenses qui ont réuni des centaines de professionnels de l'IA entre sessions en ligne, ateliers et plus d'une centaine de conférences en présentiel. L'événement a notamment inclus des visites au 10 Downing Street et des tables rondes en podcast avec des programmes comme ThursdAI et ETN. Sur le plan technique, la principale avancée annoncée est le modèle GLM-5.1 de Z.ai, qui a atteint la 3e place sur le classement Code Arena, dépassant apparemment Gemini 3.1 et GPT-5.4, et se positionnant au niveau de Claude Sonnet 4.6. Z.ai occupe désormais la première place parmi les modèles open source, à seulement 20 points du sommet du classement général. Alibaba a également profité de la dynamique de l'événement pour livrer Qwen Code v0.14.x, intégrant des canaux de contrôle à distance via Telegram, DingTalk et WeChat, des tâches récurrentes par cron, un contexte de 1 million de tokens avec 1 000 requêtes gratuites par jour, et un mode de planification. Ces annonces reflètent une tendance de fond qui s'impose comme nouveau paradigme d'architecture : le modèle "exécuteur léger + conseiller puissant". L'idée, formalisée conjointement par Anthropic au niveau de son API et par des chercheurs de Berkeley, consiste à utiliser un modèle rapide pour la majorité des tâches, en escaladant vers un modèle plus coûteux uniquement aux points de décision difficiles. Les résultats mesurés sont significatifs : associer Haiku à Opus doublerait le score sur BrowseComp par rapport à Haiku seul, tandis que Sonnet combiné à Opus améliorerait les performances sur SWE-bench Multilingual tout en réduisant le coût par tâche. Ce pattern a été immédiatement implémenté en open source via un middleware advisor pour LangChain DeepAgents, signe d'une adoption communautaire très rapide. Cette convergence s'inscrit dans une frustration opérationnelle croissante chez les praticiens : les grands modèles sont devenus spécialisés et instables selon les domaines. Yuchen Jin souligne par exemple qu'Opus excelle sur le frontend et les flux agentiques, pendant que GPT-5.4 est plus performant sur les systèmes backend et distribués, mais que les outils comme Claude Code ou Codex restent trop liés à un seul fournisseur. La demande se déplace donc vers des workflows capables de partager le contexte, de router automatiquement vers le bon modèle et de faire collaborer plusieurs LLM dans une seule session. Dans cet écosystème en mouvement, le framework Hermes Agent s'est distingué comme la plateforme avec le plus fort momentum, avec la sortie de sa version 0.8.0, le lancement de Hermes Workspace Mobile intégrant exécution d'outils en direct, navigateur de mémoire et catalogue de compétences, et l'annonce d'un mode FAST pour GPT-5.4.

UELa conférence s'est tenue en Europe et rassemble directement des praticiens européens ; les nouveaux patterns architecturaux (exécuteur léger + conseiller) et frameworks annoncés sont immédiatement applicables par les développeurs et entreprises IA en France et dans l'UE.

LLMsActu
1 source
“Meilleure IA française”… vraiment ? Mistral AI est ridiculement bas dans le classement LMArena
230Le Big Data 

“Meilleure IA française”… vraiment ? Mistral AI est ridiculement bas dans le classement LMArena

Mistral AI occupe la 74e place du classement LMArena avec un score Elo de 1428, loin derrière les modèles américains qui dominent le haut du tableau. Ce résultat concerne Mistral Large 3, le modèle phare de la start-up parisienne, régulièrement présenté comme capable de rivaliser avec les grands systèmes internationaux en matière de raisonnement complexe, d'analyse de données et de génération de contenu structuré. Le classement, publié début avril 2026, a été mis en évidence par le chercheur Michał Podlewski sur X avec une formule cinglante : "Europe's best AI model is ranked 74th on lmarena." Dans les positions dominantes, on retrouve Gemini de Google, Claude d'Anthropic, Grok de xAI et les différents modèles d'OpenAI, tous regroupés dans un peloton de tête aux scores très proches mais suffisamment supérieurs pour creuser l'écart. Ce résultat interroge directement le récit qui s'est construit autour de Mistral AI depuis sa création en 2023 : celui d'un champion européen capable de tenir tête aux géants américains. Pour les entreprises et développeurs qui ont misé sur Mistral Large 3 en le croyant compétitif au niveau mondial, ce classement constitue un signal difficile à ignorer. Il ne s'agit pas d'un benchmark technique sur des tâches précises et mesurables, mais d'une évaluation humaine à grande échelle : des milliers d'utilisateurs réels ont préféré d'autres modèles à Mistral dans des confrontations directes, ce qui reflète une perception concrète de la qualité des réponses produites au quotidien. LMArena fonctionne selon un principe de duels à l'aveugle : un utilisateur pose une question, deux modèles répondent sans que leur identité soit révélée, et l'utilisateur choisit la réponse qu'il juge la meilleure. Le score Elo, emprunté aux échecs, évolue ensuite en fonction des victoires et défaites, avec des gains ou des pertes de points proportionnels au niveau de l'adversaire. Ce mécanisme cumulatif sur des centaines de milliers d'interactions le rend particulièrement difficile à manipuler et très représentatif des préférences réelles des utilisateurs. Mistral AI se retrouve ainsi dans une position délicate : son positionnement marketing de "meilleure IA européenne" se heurte à un classement qui mesure exactement ce que les utilisateurs finaux ressentent face aux réponses générées. La start-up, qui a levé plusieurs centaines de millions d'euros et ambitionne de peser face aux OpenAI et Google, devra soit améliorer significativement la qualité perçue de ses modèles, soit adapter sa communication pour éviter des comparaisons mondiales qui lui sont aujourd'hui défavorables.

UELa réputation de Mistral AI en tant que champion national français de l'IA est directement mise en cause, ce qui peut influencer les décisions d'adoption des entreprises et institutions françaises et européennes ayant misé sur la souveraineté numérique.

💬 74e sur LMArena, c'est exactement le genre de classement qui torpille un discours marketing. Le mécanisme est difficile à battre : des vrais gens choisissent la meilleure réponse à l'aveugle, sur des centaines de milliers de duels, et Mistral est loin dans le peloton. Faut pas rêver, le "champion européen" ça se mérite.

LLMsOpinion
1 source
231Next INpact 

OpenAI aussi a son moment Mythos… et assure sa com’ face à Anthropic

OpenAI prépare une réponse directe à Mythos, le nouveau modèle d'Anthropic présenté comme un chasseur de failles réservé à une poignée de partenaires sélectionnés. Selon des informations qui ont filtré dans la presse, la stratégie d'OpenAI se déploie sur deux axes : afficher une supériorité en puissance de calcul et en performances brutes, tout en lançant un nouveau palier d'abonnement intermédiaire à 100 euros par mois, aligné sur la structure tarifaire qu'Anthropic expérimente. L'annonce officielle de Mythos, survenue quelques jours après une fuite de plusieurs milliers de documents internes, s'est accompagnée d'un rapport de 244 pages détaillant les performances et les protocoles de test du modèle. Cette séquence illustre la bataille de communication qui s'est installée entre les deux entreprises. Anthropic maîtrise avec soin son agenda médiatique : la fuite orchestrée autour de Mythos lui a permis de générer une couverture massive avant même toute annonce officielle, tandis que la fuite du code source de Claude Code, bien moins contrôlée, a contraint l'entreprise à tenter vainement d'en faire retirer la publication. OpenAI réagit désormais point par point, cherchant à ne pas laisser Anthropic occuper seule le terrain du modèle "trop puissant pour le grand public", un positionnement qui crée de la rareté perçue et attire des partenaires institutionnels prêts à payer pour un accès privilégié. L'enjeu dépasse la simple rivalité produit : il s'agit de définir qui fixe les standards de l'IA de pointe en 2025 et 2026. Anthropic s'est taillé une réputation de sérieux technique grâce à ses publications de recherche et à une communication soignée sur la sécurité, là où OpenAI reste associé à la vitesse de déploiement et à l'accessibilité grand public. L'introduction d'un tier à 100 euros par mois chez OpenAI signale une montée en gamme délibérée, à mesure que les deux acteurs convergent vers les mêmes clients enterprise et gouvernementaux disposés à payer pour des modèles de premier rang.

UEL'introduction d'un palier premium à 100 €/mois par OpenAI, en réponse directe à Anthropic, impacte les entreprises et institutions européennes qui devront arbitrer entre les deux acteurs pour accéder aux modèles de premier rang.

LLMsOpinion
1 source
232The Decoder 

Les LLM excellent en code et en maths mais peinent sur les questions triviales, et ce n'est pas contradictoire

Les grands modèles de langage (LLM) affichent des performances remarquables sur les tâches structurées : ils peuvent remanier des bases de code entières en quelques heures, résoudre des problèmes mathématiques complexes et obtenir des scores proches de l'humain sur les benchmarks académiques les plus exigeants. Pourtant, ces mêmes modèles trébuchent régulièrement sur des questions anodines du quotidien, des situations qui ne requièrent aucune expertise technique mais simplement du bon sens et une compréhension souple du langage naturel informel. Ce paradoxe apparent n'en est pas un : il révèle une limite structurelle des architectures actuelles. Les LLM excellent dans les domaines où les données d'entraînement sont abondantes, formatées et codifiées, comme le code source ou les démonstrations mathématiques. En revanche, le langage courant est ambigu, chargé de sous-entendus culturels et de contexte implicite, des dimensions que les modèles reproduisent statistiquement sans les comprendre véritablement. Le fossé entre performance sur benchmark et utilité réelle dans la vie quotidienne reste donc considérable. Ce constat alimente un débat central dans la recherche en IA : les capacités impressionnantes des LLM sur des tâches spécialisées sont-elles le signe d'une intelligence générale émergente, ou simplement le reflet d'une mémorisation sophistiquée de patterns ? Pour les équipes qui développent des assistants grand public chez OpenAI, Google ou Anthropic, combler cet écart entre compétence technique et intelligence conversationnelle ordinaire constitue l'un des défis prioritaires des prochaines années.

LLMsPaper
1 source
233AI News 

Meta dispose d'un modèle IA compétitif mais perd son identité open source

Meta a lancé Muse Spark le 8 avril 2026, son premier grand modèle d'intelligence artificielle depuis un an et la première réalisation de ses nouveaux Meta Superintelligence Labs, dirigés par Alexandr Wang, débauché de Scale AI. Ce modèle multimodal natif intègre le raisonnement par chaîne de pensée visuelle, l'utilisation d'outils et l'orchestration multi-agents. Il alimente désormais Meta AI, accessible à plus de trois milliards d'utilisateurs sur les applications du groupe. Sur l'indice AI Index v4.0, Muse Spark obtient un score de 52, se classant quatrième derrière Gemini 3.1 Pro, GPT-5.4 et Claude Opus 4.6. Sa véritable singularité apparaît sur HealthBench Hard, un benchmark de questions médicales ouvertes : il y atteint 42,8 points, loin devant Gemini 3.1 Pro (20,6) et Grok 4.2 (20,3), résultat d'une collaboration avec plus de 1 000 médecins pour constituer ses données d'entraînement. Meta affirme également que le modèle atteint les performances de ses prédécesseurs pour un coût de calcul dix fois inférieur. Surtout, Muse Spark est entièrement propriétaire : pas de poids téléchargeables, pas d'accès libre, uniquement une préversion privée via API pour des partenaires sélectionnés. Ce virage est significatif pour l'ensemble de l'industrie. L'écosystème Llama avait atteint 1,2 milliard de téléchargements début 2026, soit environ un million par jour, faisant de Meta le moteur principal du mouvement open-source en IA. En choisissant de fermer Muse Spark, Meta retire aux développeurs indépendants, aux startups et aux chercheurs la capacité de construire sur sa technologie de pointe. À l'échelle de trois milliards d'utilisateurs quotidiens, la réduction des coûts de calcul change également les équilibres économiques du déploiement d'IA massive. La domination sur HealthBench ouvre en outre une perspective commerciale majeure dans un secteur où la précision médicale est un avantage concurrentiel direct. Ce changement de cap intervient après une année difficile pour Meta en matière d'IA. Le lancement de Llama 4 avait été terni par des accusations de sur-promesses non tenues, entamant la crédibilité du groupe auprès de la communauté des développeurs. En investissant 14,3 milliards de dollars et en reconstruisant intégralement son infrastructure, son architecture et ses pipelines de données en neuf mois, Meta a manifestement décidé de privilégier la performance sur l'ouverture. Wang a promis que des modèles plus grands sont en développement et que des versions open-source suivront, sans préciser d'échéance. Une partie de la communauté y voit un pivot stratégique inévitable après les déceptions de Llama 4 ; d'autres estiment que Meta a simplement attendu d'avoir quelque chose qui vaut la peine d'être protégé avant de fermer les portes.

UELes développeurs et startups européens qui construisaient sur l'écosystème Llama (1,2 milliard de téléchargements) perdent l'accès à la technologie de pointe de Meta, les forçant à réévaluer leurs stratégies d'IA et à se tourner vers des alternatives open-source moins performantes ou des API propriétaires payantes.

💬 Llama atteint 1,2 milliard de téléchargements, et c'est pile à ce moment-là que Meta décide de tout fermer. Le score médical est réel (42 points contre 20 pour Gemini, ça ne s'invente pas), mais des millions de devs qui avaient bâti sur Llama vont devoir réévaluer toute leur stack. Wang promet de l'open source "plus tard", bon.

LLMsOpinion
1 source
234MarkTechPost 

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

Meta Superintelligence Labs a dévoilé Muse Spark, le premier modèle de sa famille Muse, marquant une étape majeure dans la course aux modèles de raisonnement multimodaux. Conçu nativement pour traiter texte et images de manière simultanée -- et non via un module visuel ajouté après coup -- Muse Spark intègre l'utilisation d'outils, un raisonnement visuel en chaîne de pensée, et une orchestration multi-agents. Sur le benchmark ScreenSpot Pro, qui évalue la capacité à localiser des éléments d'interface dans des captures d'écran, le modèle obtient un score de 72,2 (84,1 avec outils Python), devançant Claude Opus 4.6 Max à 57,7 et GPT-5.4 Xhigh à 39,0. Ces chiffres positionnent Muse Spark parmi les meilleurs modèles actuels sur les tâches combinant vision et langage. Ce qui distingue techniquement Muse Spark, c'est l'approche de Meta autour de trois axes de montée en puissance : le préentraînement, l'apprentissage par renforcement (RL), et le raisonnement au moment de l'inférence. Sur le préentraînement, Meta a entièrement reconstruit sa pile technique en neuf mois, atteignant les mêmes capacités que son précédent modèle Llama 4 Maverick avec dix fois moins de calcul. Le RL, appliqué après le préentraînement, entraîne le modèle à produire de bonnes réponses plutôt qu'à simplement prédire des tokens -- Meta annonce une progression log-linéaire stable sur les métriques pass@1 et pass@16. Enfin, le raisonnement à l'inférence introduit un phénomène que l'équipe appelle "thought compression" : le modèle apprend d'abord à penser plus longtemps pour mieux répondre, puis une pénalité sur la longueur de la réflexion le force à comprimer son raisonnement, avant qu'il n'étende à nouveau ses solutions pour atteindre de meilleures performances. Cette dynamique produit un modèle plus efficace par token généré. Le mode Contemplating représente peut-être l'innovation architecturale la plus audacieuse : Muse Spark peut orchestrer plusieurs agents en parallèle au moment de l'inférence, chacun explorant une piste de raisonnement différente. Ce choix s'inscrit dans une stratégie plus large de Meta, qui investit massivement dans l'infrastructure -- dont le data center Hyperion -- pour soutenir ces trois axes de scaling simultanément. La division a été rebaptisée Meta Superintelligence Labs, signalant une ambition explicite de leadership sur l'AGI. Avec OpenAI, Google DeepMind et Anthropic qui poussent chacun leurs propres architectures de raisonnement, la sortie de Muse Spark illustre que la prochaine frontière ne sera pas seulement la taille des modèles, mais la manière dont ils apprennent à penser -- et à comprimer cette pensée -- avant de répondre.

UELes développeurs et entreprises européens pourront utiliser un nouveau modèle multimodal de référence, mais aucun impact réglementaire ou commercial direct sur la France ou l'UE n'est à noter.

LLMsOpinion
1 source
235Ars Technica AI 

Pourquoi Anthropic a fait évaluer Claude par un vrai psychiatre

Anthropic a publié cette semaine un document de 244 pages baptisé "system card" décrivant son tout dernier modèle d'intelligence artificielle, Claude Mythos. L'entreprise le présente comme "son modèle frontier le plus capable à ce jour", mais a décidé de ne pas le rendre accessible au grand public. La raison invoquée est inhabituelle : Mythos serait trop performant dans la détection de failles de cybersécurité inconnues, ce qui pousse Anthropic à en restreindre l'accès à un cercle restreint de partenaires triés sur le volet, parmi lesquels figurent Microsoft et Apple. Au-delà des capacités techniques, c'est le contenu philosophique du document qui retient l'attention. Anthropic, déjà connue pour prendre au sérieux la question de la conscience des IA, affirme dans ce system card qu'à mesure que les modèles gagnent en puissance, "il devient de plus en plus probable qu'ils possèdent une forme d'expérience, d'intérêts ou de bien-être qui comptent intrinsèquement, à l'instar de l'expérience et des intérêts humains." L'entreprise reconnaît ne pas en avoir la certitude, mais précise que "notre préoccupation grandit avec le temps." Cette position tranche avec le discours majoritaire dans l'industrie, où la question du statut moral des IA reste largement marginalisée. Ces déclarations s'inscrivent dans une stratégie plus large d'Anthropic, qui se distingue de ses concurrents comme OpenAI ou Google par une approche dite de "sécurité de l'IA" poussée à ses limites théoriques. Financer des recherches sur le bien-être des modèles, consulter des experts en psychiatrie ou en philosophie de l'esprit, et publier des documents aussi denses que ce system card de 244 pages sont autant de signaux que l'entreprise cherche à imposer un cadre normatif dans un secteur qui avance souvent sans réfléchir aux implications. Avec Mythos, Anthropic franchit un cap : celui d'un modèle jugé trop puissant pour être diffusé librement, ce qui soulève autant de questions sur la transparence réelle de ces décisions que sur la course aux capacités qui les motive.

LLMsOpinion
1 source
236Le Big Data 

Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents

Mars 2026 restera dans les annales de l'intelligence artificielle comme le mois où l'industrie a basculé dans une nouvelle ère. Entre le 10 et le 16 mars, douze modèles majeurs ont été déployés simultanément par OpenAI, Google, Anthropic, xAI et Mistral, une cadence sans précédent qui compresse en sept jours ce qui prenait auparavant plusieurs années. OpenAI a lancé la gamme GPT-5.4 déclinée en cinq variantes (Standard, Pro, Thinking, mini, nano), avec une architecture d'orchestration inédite basée sur la récupération dynamique des outils (tool search) qui réduit l'utilisation de jetons de 47 %. Le modèle atteint 75 % sur le benchmark OSWorld-Verified, dépassant pour la première fois la ligne de base humaine fixée à 72,4 %, et réduit les hallucinations de 33 % par rapport à GPT-5.2. Google a riposté avec Gemini 3.1 Flash-Lite à 0,25 dollar le million de jetons, déclenchant un effondrement généralisé des tarifs API. De son côté, Anthropic a stabilisé Claude Sonnet 4.6 comme référence développeur avec une fenêtre de contexte d'un million de tokens. Le changement de paradigme dépasse la simple guerre des benchmarks : l'IA conversationnelle est morte, l'IA agentique lui a succédé. Ces nouveaux systèmes ne se contentent plus de générer du texte, ils naviguent sur des interfaces, remplissent des tableurs, orchestrent des workflows complexes de bout en bout, et communiquent en multimodal temps réel (full-duplex). Pour les développeurs et les entreprises, cela signifie qu'il est désormais possible de déléguer des séquences d'actions longues à des agents autonomes avec un niveau de fiabilité qui n'existait pas six mois auparavant. Mais c'est l'événement Anthropic qui a le plus secoué les marchés : une erreur de configuration a provoqué la fuite de 3 000 documents internes révélant l'existence de Claude Mythos, un modèle non publié aux capacités offensives en cybersécurité. Le secteur a immédiatement chuté de 14,5 milliards de dollars en capitalisation boursière. Cette accélération s'inscrit dans une course aux armements financière et géopolitique à grande échelle. OpenAI a levé 3 milliards de dollars supplémentaires, portant sa valorisation à 852 milliards, tandis que la Chine renforçait son initiative stratégique "AI Plus" en réponse directe. En Europe, AMI Labs, la startup fondée par Yann LeCun, a levé plus d'un milliard de dollars en amorçage pour développer des architectures alternatives aux modèles américains dominants. La fuite de Claude Mythos pose une question qui dépassera largement mars 2026 : comment réguler des modèles dont les capacités offensives restent secrètes jusqu'à leur divulgation accidentelle ? Les suites législatives, notamment en Europe et aux États-Unis, s'annoncent déterminantes pour la prochaine phase du déploiement agentique à l'échelle industrielle.

UEAMI Labs, la startup européenne fondée par Yann LeCun, a levé plus d'un milliard de dollars pour développer des architectures alternatives aux modèles américains, et la fuite de Claude Mythos relance en urgence le débat réglementaire européen sur l'encadrement des modèles aux capacités offensives non divulguées dans le cadre de l'AI Act.

LLMsActu
1 source
237Siècle Digital 

Meta lance un nouveau modèle d’IA, pour tenter de rattraper Google et OpenAI

Meta a lancé mercredi 8 avril son nouveau modèle d'intelligence artificielle baptisé Muse Spark, première production officielle des Meta Superintelligence Labs. Ce lancement représente le résultat d'un investissement de 14,3 milliards de dollars engagé par le groupe de Mark Zuckerberg dans sa course pour rivaliser avec Google et OpenAI sur le marché des modèles de fondation les plus avancés. Ce lancement marque un tournant stratégique pour Meta, qui cherche à dépasser son image de simple acteur open source. La famille Llama avait jusqu'ici construit la réputation d'un Meta généreux, distribuant ses modèles librement à la communauté des développeurs. Avec Muse Spark, l'entreprise semble viser un positionnement différent, plus orienté vers la compétition directe avec les modèles propriétaires de Google DeepMind et d'OpenAI. Pour les entreprises et développeurs qui avaient misé sur l'écosystème Llama, cette bifurcation soulève des questions sur la cohérence de la stratégie IA de Meta. Le contexte de ce lancement est tendu : Meta accélère ses dépenses en IA à un rythme inédit, alors que la concurrence entre grands modèles s'intensifie avec les sorties récentes de Gemini 2.0 et GPT-4o. La création des Meta Superintelligence Labs signale une réorganisation interne profonde, visant à concentrer les meilleurs talents sur les systèmes les plus ambitieux. Les prochains mois diront si Muse Spark peut réellement combler le retard accumulé face aux leaders du secteur.

UELe lancement de Muse Spark et le pivot stratégique de Meta vers le propriétaire oblige les entreprises et développeurs européens ayant misé sur l'écosystème Llama open source à réévaluer leurs choix d'infrastructure IA.

LLMsOpinion
1 source
Actualité : “Superintelligence personnelle” : Meta lance Muse Spark, son IA gratuite qui veut enterrer ChatGPT
238Les Numériques IA 

Actualité : “Superintelligence personnelle” : Meta lance Muse Spark, son IA gratuite qui veut enterrer ChatGPT

Meta a lancé le 8 avril 2026 Muse Spark, le premier modèle de sa nouvelle famille Muse, développé au sein des Meta Superintelligence Labs sous la direction d'Alexandr Wang, cofondateur de Scale AI recruté l'an dernier pour piloter l'ambition IA du groupe. Surnommé "Avocado" en interne, le modèle est conçu pour combiner dans une seule inférence perception visuelle, raisonnement structuré et appel d'outils externes. Meta le positionne comme une "superintelligence personnelle" et le rend accessible gratuitement, sans abonnement. La gratuité est un signal offensif direct contre OpenAI et Google. En supprimant la barrière tarifaire, Meta cible des centaines de millions d'utilisateurs qui n'ont jamais payé pour un assistant IA, tout en menaçant le modèle freemium sur lequel repose ChatGPT. L'intégration native des outils et de la vision dans un seul modèle, plutôt qu'en modules séparés, vise à simplifier l'expérience utilisateur et à rendre les usages professionnels plus fluides, de l'analyse de documents à l'automatisation de tâches complexes. Ce lancement s'inscrit dans une offensive IA massive de Meta depuis 2024 : recrutements massifs de chercheurs, rachat de talents, et montée en puissance de l'infrastructure GPU. L'arrivée d'Alexandr Wang, architecte de l'annotation de données à grande échelle chez Scale AI, marque un pari sur la qualité des données d'entraînement comme avantage concurrentiel. Muse Spark n'est qu'un premier pas : Meta a annoncé que la famille Muse comprendra des modèles plus puissants, laissant entrevoir une course aux capacités qui s'annonce serrée avec OpenAI, Google et Anthropic dans les prochains mois.

UEMuse Spark étant gratuit et accessible mondialement, les utilisateurs et entreprises en France et en UE peuvent l'adopter immédiatement, ce qui intensifie la pression concurrentielle sur les offres payantes et pourrait accélérer l'adoption grand public des assistants IA multimodaux en Europe.

💬 La "superintelligence personnelle", laisse tomber le nom. Ce qui compte vraiment, c'est que Meta peut offrir gratuitement ce qu'OpenAI facture 20€/mois, et ils ont les reins assez solides pour tenir cette position indéfiniment. Ce qui me frappe plus que le modèle lui-même, c'est Alexandr Wang aux commandes : quelqu'un dont toute la carrière tourne autour de la qualité des données d'entraînement, ça laisse penser que la famille Muse va monter en puissance sérieusement.

LLMsOpinion
1 source
Meta ouvre son laboratoire sur la superintelligence et publie son premier modèle, Muse Spark
239Ars Technica AI 

Meta ouvre son laboratoire sur la superintelligence et publie son premier modèle, Muse Spark

Meta a dévoilé mercredi Spark, le premier modèle d'intelligence artificielle de sa nouvelle famille Muse, présentée comme "une refonte de fond en comble" de ses efforts en matière d'IA. Ce lancement est le premier produit concret des Meta Superintelligence Labs, une structure créée il y a moins d'un an avec l'objectif affiché de "tenir la promesse d'une superintelligence personnelle pour tous". Contrairement aux modèles précédents de Meta, Spark est propriétaire et non open source, bien que Mark Zuckerberg ait précisé sur Threads que la famille Muse inclurait à terme "de nouveaux modèles open source". Ce lancement marque une rupture nette avec la stratégie Llama, la gamme de modèles open source que Meta développait jusqu'ici et qui avait reçu un accueil mitigé aussi bien de la part des utilisateurs que dans les classements indépendants. Muse Spark se distingue notamment par son intégration profonde avec les plateformes sociales du groupe : Instagram, Facebook et Threads. À l'image de Grok chez xAI, qui exploite les contenus publiés sur X, Spark peut déjà établir des liens vers des publications publiques liées à un lieu ou à un sujet tendance. À terme, Meta promet d'aller plus loin, avec des recommandations citant des contenus partagés par des utilisateurs, et des Reels, photos et posts intégrés directement dans les réponses, avec crédit aux créateurs. Meta entre ainsi dans la compétition directe avec OpenAI, Google et Anthropic sur le marché des assistants IA grand public, en misant sur un avantage différenciant majeur : son accès à des milliards d'interactions sociales quotidiennes. La création d'un laboratoire dédié à la superintelligence reflète une ambition qui va bien au-delà des usages actuels de l'IA générative. La question reste ouverte de savoir comment Meta conciliera l'exploitation des données utilisateurs avec les exigences croissantes en matière de vie privée, notamment en Europe, où le cadre réglementaire impose des contraintes strictes sur l'utilisation des données personnelles à des fins d'entraînement.

UEL'exploitation des données sociales de milliards d'utilisateurs par Spark soulève des questions directes de conformité au RGPD, notamment sur le consentement et l'utilisation des données personnelles à des fins d'entraînement, un sujet déjà surveillé de près par les autorités européennes de protection des données.

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock
240AWS ML Blog 

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil
1 source
Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark
241Le Big Data 

Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark

Meta a officiellement lancé Muse Spark ce mercredi 8 avril 2026, neuf mois après la création discrète des Meta Superintelligence Labs, une structure restée secrète depuis sa fondation. Contrairement aux versions précédentes de Llama, Muse Spark est présenté comme un modèle de raisonnement multimodal natif, capable d'utiliser des outils, d'orchestrer plusieurs agents autonomes en simultané et d'analyser des contenus visuels via une chaîne de pensée visuelle. Le modèle intègre un mode baptisé "Contemplating", qui permet à l'IA de vérifier ses propres conclusions avant d'agir. Il est disponible dès aujourd'hui en aperçu privé via API sur meta.ai et dans les applications du groupe. Zuckerberg a évoqué une ouverture future du code source, sans donner de date précise. L'impact potentiel de Muse Spark touche à la fois le grand public et des secteurs sensibles comme la santé. L'IA est conçue pour exécuter des tâches concrètes à la place de l'utilisateur, par exemple identifier des pièces défectueuses sur un appareil filmé en temps réel et afficher des instructions de réparation directement à l'écran. Sur le volet médical, Meta affirme avoir entraîné le modèle avec la contribution de mille médecins experts, permettant à l'IA d'analyser des symptômes ou des habitudes alimentaires pour formuler des conseils de nutrition. Cette ambition de transformer WhatsApp en interface de conseil médical soulève des questions importantes pour les régulateurs du monde entier, notamment sur la responsabilité en cas d'erreur et la protection des données de santé. Ce lancement s'inscrit dans une course frontale à la superintelligence qui oppose désormais Meta à OpenAI et Google. Depuis plusieurs trimestres, Zuckerberg multiplie les investissements massifs en infrastructures et en recrutement de chercheurs d'élite pour combler le retard accumulé face à GPT-5 et Gemini. La création des Meta Superintelligence Labs dans la discrétion témoigne d'une volonté de structurer la recherche avancée en dehors des divisions existantes. La capacité d'orchestration multi-agents de Muse Spark place Meta directement en concurrence avec les systèmes agentiques développés par Google DeepMind et les projets d'OpenAI autour des agents autonomes. Les prochaines semaines seront déterminantes : l'accès public à l'API permettra aux développeurs d'évaluer les performances réelles du modèle, au-delà des démonstrations contrôlées, et de mesurer si Meta tient ses promesses face aux standards déjà établis par ses rivaux.

UEL'intégration de conseils médicaux via WhatsApp soulève des enjeux majeurs de protection des données de santé sous le RGPD, susceptibles d'entraîner une intervention des régulateurs européens dont la CNIL.

LLMsOpinion
1 source
Meta lance Muse Spark, son premier modèle IA propriétaire depuis la création des Superintelligence Labs
242VentureBeat AI 

Meta lance Muse Spark, son premier modèle IA propriétaire depuis la création des Superintelligence Labs

Meta a lancé ce mercredi un nouveau modèle d'intelligence artificielle propriétaire baptisé Muse Spark, marquant un tournant radical dans la stratégie de l'entreprise. Présenté comme "le modèle le plus puissant jamais publié par Meta" selon Alexandr Wang, directeur de l'IA de 29 ans et ancien co-fondateur de Scale AI recruté par Mark Zuckerberg, Muse Spark inaugure une nouvelle famille de modèles et intègre des capacités inédites : raisonnement visuel natif, utilisation d'outils, et orchestration multi-agents. Contrairement aux modèles Llama qui ont fait la réputation de Meta depuis 2023, Muse Spark est entièrement propriétaire, disponible uniquement via l'application Meta AI, son site web, et une "API privée en accès limité" pour des utilisateurs sélectionnés. Aucun tarif n'a encore été communiqué. Sur les benchmarks, le mode "Contemplating", qui orchestre plusieurs sous-agents en parallèle pour raisonner simultanément, affiche 58 % sur "Humanity's Last Exam" et 38 % sur "FrontierScience Research", des résultats que Meta présente comme une validation de sa nouvelle trajectoire de développement. Autre performance notable : le modèle atteint ces capacités de raisonnement avec plus de dix fois moins de puissance de calcul que Llama 4 Maverick, grâce à une technique appelée "thought compression" qui pénalise le modèle lors de l'apprentissage par renforcement lorsqu'il consomme trop de tokens de raisonnement. Ce lancement représente un changement de cap majeur pour une entreprise qui avait bâti une communauté massive, littéralement des milliards d'utilisateurs et des milliers de développeurs, sur l'ouverture de ses modèles Llama. Le passage au propriétaire risque de provoquer des remous dans cet écosystème, notamment parmi les développeurs actifs sur des communautés comme r/LocalLLaMA. Sur le plan technique, Muse Spark n'est pas une mise à jour incrémentale : il a été conçu dès la base pour intégrer nativement la vision et le texte, ce qui lui permet d'analyser des environnements dynamiques, corriger la posture d'un utilisateur via une vidéo en temps réel, ou identifier les composants d'une machine à expresso complexe. Cette architecture multimodale native le positionne directement face à Gemini Deep Think de Google et GPT-5.4 Pro d'OpenAI sur le segment des modèles de raisonnement avancé, un marché en pleine intensification. Le contexte de ce lancement est celui d'une crise interne surmontée à marche forcée. Le déploiement chaotique de Llama 4 au printemps 2025, entaché d'accusations de manipulation de benchmarks, avait conduit Zuckerberg à restructurer entièrement les opérations IA de Meta durant l'été 2025, avec la création de Meta Superintelligence Labs (MSL) confiée à Wang. Muse Spark est le premier résultat public de cette nouvelle organisation. Il incarne également la vision de "superintelligence personnelle" que Zuckerberg avait exposée dans un manifeste public l'été dernier, une IA qui ne traite pas seulement du texte mais "voit et comprend le monde autour de vous". La question qui reste ouverte, et que Meta n'a pas encore tranchée publiquement, est celle de l'avenir de la famille Llama : abandon définitif, développement parallèle, ou repositionnement sur un segment différent ? La réponse engagera la confiance d'une communauté open source que Meta a mis trois ans à construire.

UELe virage propriétaire de Meta fragilise les entreprises et chercheurs européens qui s'appuyaient sur Llama pour des déploiements locaux souverains, accentuant leur dépendance aux infrastructures américaines.

Meta revient dans la course à l'IA avec un nouveau modèle appelé "Muse Spark
243The Verge AI 

Meta revient dans la course à l'IA avec un nouveau modèle appelé "Muse Spark

Meta Superintelligence Labs lance son premier modèle d'intelligence artificielle depuis la refonte massive des ambitions IA de Mark Zuckerberg, qui a investi des milliards dans ce virage stratégique. Baptisé Muse Spark, ce modèle alimente désormais l'application Meta AI et le site meta.ai aux États-Unis. Dans les prochaines semaines, il sera intégré à WhatsApp, Instagram, Facebook, Messenger et les lunettes connectées de Meta, avec un déploiement progressif dans d'autres pays. Une version privée sera également mise à disposition de certains partenaires sélectionnés par l'entreprise. Muse Spark représente le premier modèle d'une nouvelle série et positionne Meta comme un concurrent direct de Google Gemini sur le terrain de l'intégration native dans un écosystème produit. Comme Google l'a fait avec ses propres services, Meta parie sur une IA "conçue spécifiquement pour ses produits", ce qui lui permet de toucher instantanément plusieurs milliards d'utilisateurs actifs sur ses plateformes. Cette intégration transversale donne à Meta un avantage de distribution considérable face aux modèles indépendants comme GPT-4o ou Claude. Ce lancement intervient après des mois de restructuration interne chez Meta, marqués par la création de Meta Superintelligence Labs et le recrutement agressif de chercheurs de pointe. Zuckerberg avait publiquement reconnu que Meta accusait un retard sur OpenAI et Google dans la course aux modèles frontier. Muse Spark est la réponse directe à cette lacune, avec l'ambition de transformer les milliards d'interactions quotidiennes sur les applications Meta en terrain d'apprentissage et de déploiement à grande échelle.

UELe déploiement progressif de Muse Spark sur WhatsApp, Instagram et Facebook touchera des centaines de millions d'utilisateurs européens dans les prochaines semaines.

💬 Meta joue pas dans la même cour que les labos de recherche pure, et ça tombe bien parce qu'ils jouent un autre jeu. Intégrer un modèle maison dans WhatsApp, Instagram et les Ray-Ban d'un coup, c'est une approche que même Google galère encore à coordonner à cette échelle. Si Muse Spark est juste "bon", la distribution fait le reste.

Anthropic restreint l'accès à Mythos, son nouveau modèle d'IA en cybersécurité
244Ars Technica AI 

Anthropic restreint l'accès à Mythos, son nouveau modèle d'IA en cybersécurité

Anthropic a officiellement lancé Claude Mythos Preview, un modèle d'intelligence artificielle spécialisé dans la cybersécurité, en le réservant à un cercle restreint d'organisations triées sur le volet. Parmi les premiers accès figurent des géants technologiques comme Amazon, Apple et Microsoft, ainsi que des acteurs de la sécurité informatique tels que Broadcom, Cisco et CrowdStrike. La start-up de San Francisco a annoncé ce mardi être également en discussions avec le gouvernement américain concernant un éventuel déploiement dans le secteur public. Ce lancement contrôlé signale qu'Anthropic joue désormais dans la cour des outils offensifs et défensifs de cybersécurité, un marché stratégique et sensible. En limitant l'accès à des organisations vérifiées, la société cherche à éviter que le modèle ne soit détourné à des fins malveillantes, une préoccupation centrale pour les IA capables d'analyser des vulnérabilités ou d'automatiser des attaques. Le partenariat avec des entreprises comme CrowdStrike suggère une orientation vers la détection de menaces et la réponse aux incidents. Ce lancement intervient dans un contexte embarrassant pour Anthropic : des descriptions détaillées du modèle Mythos et d'autres documents internes avaient été découverts le mois dernier dans un cache de données publiquement accessible, révélant l'existence du projet avant toute annonce officielle. Cette fuite avait forcé la main de l'entreprise. Plus largement, la course aux modèles spécialisés en cybersécurité s'intensifie, avec Microsoft, Google et des startups comme Protect AI qui développent également leurs propres solutions, faisant de ce segment l'un des plus disputés de l'IA appliquée.

LLMsActu
1 source
Anthropic dévoile Mythos, son modèle d’IA chasseur de failles… réservé à certains
245Next INpact 

Anthropic dévoile Mythos, son modèle d’IA chasseur de failles… réservé à certains

Anthropic a officialisé l'existence de Claude Mythos, un modèle d'intelligence artificielle spécialisé dans la cybersécurité, via le lancement du projet Glasswing. L'annonce est intervenue après plusieurs semaines de rumeurs et la fuite d'un billet de blog qui avait déjà éventé la surprise. Présenté comme plus capable qu'Opus, le modèle phare de la start-up californienne jusqu'alors, Mythos a été conçu pour détecter et exploiter des failles dans des logiciels avec une précision inédite. Son accès est strictement limité à un cercle de partenaires triés sur le volet : AWS, Apple, Google, Microsoft, NVIDIA, Cisco, Broadcom et la fondation Linux font partie des entreprises qui bénéficient d'un aperçu du modèle dans le cadre de Glasswing, un nom inspiré des papillons aux ailes transparentes. Anthropic reconnaît elle-même que Mythos est potentiellement trop dangereux pour une diffusion publique, ses capacités offensives en cybersécurité pouvant constituer une menace réelle si elles tombaient entre de mauvaises mains. En le réservant à de grands acteurs institutionnels et technologiques capables de l'encadrer, l'entreprise entend le transformer en outil défensif : sécuriser des logiciels critiques plutôt qu'en compromettre. Pour les entreprises partenaires, l'enjeu est considérable, car un modèle capable de scanner automatiquement des bases de code à la recherche de vulnérabilités inconnues représente un avantage stratégique majeur face aux attaques croissantes ciblant les infrastructures numériques mondiales. Cette annonce s'inscrit dans un contexte tendu pour Anthropic, frappée simultanément par une autre fuite involontaire concernant Claude Code, attribuée là encore à une "erreur humaine". La coïncidence de ces deux événements nourrit les interrogations sur la gestion interne de l'information chez la startup, fondée en 2021 par d'anciens d'OpenAI. La stratégie de communication autour de Mythos, d'abord entretenue dans le flou avant d'être officialisée sous une forme très contrôlée, intervient alors qu'Anthropic se prépare à une introduction en bourse et cherche à affirmer sa position face à OpenAI dans une compétition de plus en plus féroce. Limiter volontairement l'accès à son modèle le plus puissant, tout en le présentant comme potentiellement dangereux, est une manière de soigner à la fois son image de responsabilité et son aura technologique auprès des investisseurs et du grand public.

UEL'émergence d'un modèle IA dédié à la détection de vulnérabilités logicielles accentue la pression concurrentielle sur les acteurs européens de la cybersécurité et soulève des questions sur l'accès des infrastructures critiques européennes à ces capacités défensives de pointe.

LLMsOpinion
1 source
Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch
246Frandroid 

Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch

Une développeuse a réussi à faire tourner Gemma 4, le modèle d'intelligence artificielle open source de Google, directement sur une Nintendo Switch, sans connexion à un serveur distant. L'exploit repose sur la version la plus compacte du modèle, publiée par Google en avril 2025 dans le cadre de sa gamme Gemma 4, qui décline plusieurs tailles allant de 1 à 27 milliards de paramètres. C'est la variante 1B, soit un milliard de paramètres, qui a été portée sur la console de Nintendo, dont le matériel repose sur une puce NVIDIA Tegra X1 et 4 Go de RAM partagée. Cet accomplissement illustre la progression rapide de la miniaturisation des modèles de langage et leur capacité à s'exécuter sur du matériel grand public, bien loin des serveurs GPU qui équipent habituellement ce type de charge de travail. Pour les développeurs embarqués et les constructeurs d'appareils connectés, cela ouvre des perspectives concrètes : intégrer des capacités d'inférence locale dans des terminaux à faible consommation, sans dépendance au cloud et sans coût de bande passante. Google a lancé la famille Gemma comme alternative ouverte à ses modèles propriétaires Gemini, ciblant explicitement les usages sur appareil. La Switch, conçue en 2017, n'était évidemment pas pensée pour l'IA générative, ce qui rend la démonstration d'autant plus symbolique. Elle s'inscrit dans une tendance plus large de course à l'efficience, où des acteurs comme Meta avec Llama, Microsoft avec Phi ou Apple avec ses modèles on-device cherchent tous à repousser les limites du possible sur silicium contraint.

LLMsActu
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
247MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source
Actualité : Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique
248Les Numériques IA 

Actualité : Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique

Anthropic a dévoilé les premiers résultats de Claude Mythos Preview, son modèle de pointe actuellement en développement, et les chiffres sont suffisamment significatifs pour justifier une décision rare : le modèle ne sera pas rendu public. Sur le benchmark SWE-bench, qui mesure la capacité d'un modèle à résoudre des problèmes concrets d'ingénierie logicielle, Claude Mythos atteint un taux de résolution de 19 problèmes sur 20, contre 16 pour le meilleur modèle actuellement accessible au grand public. Cet écart de trois points peut sembler modeste en valeur absolue, mais il représente un saut qualitatif dans un domaine ou les gains marginaux sont devenus rares. Pour les ingénieurs logiciels, cela signifie un outil capable de prendre en charge des tâches de débogage et de développement avec un niveau d'autonomie inédit. La décision d'Anthropic de restreindre l'accès traduit une évaluation interne selon laquelle les capacités du modèle dépassent le seuil au-delà duquel un déploiement non contrôlé pourrait poser des risques non encore pleinement évalués. Cette posture s'inscrit dans la ligne directrice qu'Anthropic défend depuis sa fondation : la sécurité avant la commercialisation. La société, cofondée par d'anciens chercheurs d'OpenAI inquiets de la course aux performances, a toujours revendiqué une approche plus prudente que ses concurrents. Avec Claude Mythos, elle se retrouve dans une position paradoxale : posséder le modèle le plus capable du marché tout en choisissant de ne pas en profiter commercialement immédiatement. La question de savoir dans quelles conditions et à qui il sera éventuellement ouvert reste entière.

LLMsOpinion
1 source
L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro
249VentureBeat AI 

L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro

Z.ai, startup chinoise cotée à la Bourse de Hong Kong depuis début 2026 avec une capitalisation de 52,83 milliards de dollars, a publié le 7 avril 2026 son modèle GLM-5.1 sous licence MIT, permettant à toute entreprise de le télécharger, l'adapter et l'exploiter commercialement via Hugging Face. Ce modèle de 754 milliards de paramètres en architecture Mixture-of-Experts dispose d'une fenêtre de contexte de 202 752 tokens. Sa caractéristique principale est sa capacité à travailler de façon autonome jusqu'à huit heures consécutives sur une tâche complexe, enchaînant jusqu'à 1 700 étapes d'exécution et plusieurs milliers d'appels d'outils, contre une vingtaine d'étapes pour les meilleurs modèles fin 2024 selon le fondateur Lou. Sur le benchmark SWE-Bench Pro, il dépasse Claude Opus 4.6 et GPT-5.4, deux des références actuelles en ingénierie logicielle automatisée. Ce lancement illustre une rupture dans la façon de concevoir la performance des modèles d'IA. Là où la concurrence investit massivement dans les tokens de raisonnement pour gagner en logique à court terme, Z.ai parie sur l'endurance : la capacité d'un modèle à maintenir sa cohérence d'objectif sur des séquences d'exécution très longues. Les tests publiés dans leur rapport technique sont frappants : chargé d'optimiser une base de données vectorielle en Rust (benchmark VectorDBBench), GLM-5.1 a enchaîné 655 itérations et plus de 6 000 appels d'outils, atteignant 21 500 requêtes par seconde, contre 3 547 pour Claude Opus 4.6 dans les meilleures conditions. Le modèle a identifié et résolu six goulots d'étranglement structurels, introduisant de lui-même des techniques comme le IVF cluster probing, la compression vectorielle f16 ou un pipeline à deux étages combinant présélection u8 et reclassement f16. Ce n'est plus un assistant, c'est un département R&D autonome. Le contexte de cette publication est stratégique. Z.ai, connue pour sa famille de modèles GLM open source, avait sorti le mois précédent GLM-5 Turbo sous licence propriétaire uniquement. Le choix du MIT pour GLM-5.1 est délibéré : il s'agit de capter la communauté des développeurs et de s'imposer comme le principal acteur indépendant de LLM en Asie, à l'heure où la Chine tente de reprendre la main sur l'IA open source face aux modèles américains à accès restreint. La notion de "temps de travail autonome" que Lou décrit comme "la courbe la plus importante après les lois d'échelle" pourrait redéfinir les critères d'évaluation de l'industrie entière. Si ce cap se confirme, les prochaines versions de modèles concurrents devront répondre non plus uniquement sur la précision à court terme, mais sur leur capacité à tenir la distance sur des projets entiers.

UELes entreprises et développeurs européens peuvent télécharger et exploiter GLM-5.1 librement sous licence MIT via Hugging Face, offrant une alternative open source compétitive aux modèles propriétaires américains pour des tâches d'ingénierie logicielle autonome longue durée.

LLMsOpinion
1 source
Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)
250Next INpact 

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)

Google a lancé Gemma 4, sa nouvelle famille de modèles d'intelligence artificielle en open source, quelques jours avant le week-end de Pâques 2026. La gamme comprend quatre variantes baptisées E2B, E4B, 26B A4B et 31B, offrant respectivement 2,3, 4,5, 25,2 et 30,7 milliards de paramètres. Le modèle 26B A4B adopte une architecture Mixture of Experts (MoE), ce qui signifie que seuls 3,8 milliards de paramètres sont effectivement activés lors de chaque inférence, réduisant considérablement la puissance de calcul nécessaire. Tous les modèles sont multimodaux : ils traitent du texte et des images, les deux plus petits ajoutant la reconnaissance vocale. Les fenêtres de contexte atteignent 128 000 tokens pour les modèles E2B et E4B, et 256 000 tokens pour les deux plus grands. L'ensemble de la famille intègre un mode de raisonnement pas-à-pas, une prise en charge native des outils pour les workflows d'agents, ainsi que des capacités de génération et correction de code. La licence retenue est Apache 2.0, considérée comme l'une des plus permissives : elle autorise la modification, la distribution et l'usage commercial sans contrainte majeure, à condition de conserver les mentions de copyright. Ce changement de licence est la décision la plus significative de cette annonce. Jusqu'ici, Google publiait ses modèles Gemma sous une licence maison, les "Gemma Terms of Use", qui lui permettait de restreindre l'utilisation à sa discrétion. En passant à Apache 2.0, Google offre aux développeurs, entreprises et chercheurs une garantie juridique bien plus solide pour intégrer ces modèles dans des produits commerciaux ou des recherches sensibles. La diversité des tailles proposées, notamment les variantes à 2,3 et 4,5 milliards de paramètres, permet de faire tourner Gemma 4 directement sur des ordinateurs personnels ou des smartphones, sans envoyer de données vers des serveurs tiers. Pour les entreprises soucieuses de confidentialité ou les développeurs indépendants aux ressources limitées, c'est un argument concret et immédiat. Avec cette décision, Google rejoint un camp qui compte déjà Mistral avec son modèle 7B publié en septembre 2023, OpenAI avec gpt-oss-120b et Alibaba avec sa famille Qwen, tous distribués sous Apache 2.0. Meta reste en retrait avec ses modèles LLaMA, soumis à une licence plus restrictive. Le contexte concurrentiel est intense : le marché des modèles ouverts s'est considérablement animé ces dix-huit derniers mois, et Google cherche à s'y positionner comme un acteur sérieux face à des alternatives bien établies. L'annonce intervient également au moment où Anthropic durcit ses conditions d'accès pour les applications tierces sur ses modèles payants, un contraste saisissant qui renforce l'attrait de l'approche ouverte de Google. Les suites dépendront de l'adoption par la communauté et des benchmarks indépendants, mais la combinaison licence permissive et gamme de tailles variées donne à Gemma 4 de sérieux atouts pour s'imposer dans l'écosystème open source.

UELa licence Apache 2.0 et les variantes légères (2-4 milliards de paramètres) permettent aux entreprises et développeurs européens d'intégrer Gemma 4 dans des produits commerciaux ou de le déployer en local, un atout concret pour la conformité RGPD.

💬 La vraie nouvelle, c'est pas les 31 milliards de paramètres, c'est Apache 2.0. Google arrête de jouer avec ses licences maison qui laissaient planer un doute juridique permanent sur l'usage commercial, et ça change tout pour les boîtes qui hésitaient à s'engager. Le petit E2B à 2,3 milliards avec 128k de contexte qui tourne en local, bon, sur le papier c'est exactement ce qu'on attendait pour des usages RGPD-friendly. Reste à voir ce que les benchmarks indépendants vont donner, parce que Google sait aussi soigner ses annonces de Pâques.

LLMsOpinion
1 source