Aller au contenu principal
[AINews] Rien de notable aujourd'hui
LLMsLatent Space6sem· 2 min de lecture

[AINews] Rien de notable aujourd'hui

Source originale ↗·

La journée du 27-28 avril 2026 n'a pas produit de séisme dans l'industrie de l'IA, mais plusieurs sorties de modèles méritent attention. NVIDIA a lancé Nemotron 3 Nano Omni, un modèle multimodal open-source de 30 milliards de paramètres actifs (3B actifs, architecture MoE) capable de traiter texte, images, vidéo, audio et documents, avec une fenêtre de contexte de 256 000 tokens orientée vers les usages agentiques. Sa distribution a été immédiate : OpenRouter, LM Studio, Ollama, Fireworks, Together et une dizaine d'autres plateformes ont annoncé sa disponibilité le jour même. Le modèle intègre un encodeur audio Parakeet, fonctionne pour l'instant uniquement en anglais, et affiche un taux d'erreur de 5,95 % sur le benchmark Open ASR, avec un débit annoncé neuf fois supérieur à des modèles omni comparables. Du côté de Poolside, la startup a publié son premier modèle public, Laguna XS.2, un modèle de code MoE de 33 milliards de paramètres totaux (3B actifs) entraîné intégralement en interne, distribué sous licence Apache 2.0, et conçu pour tourner sur un seul GPU. Microsoft, de son côté, a sorti TRELLIS.2, un modèle open-source de 4 milliards de paramètres pour la génération de scènes 3D texturées à partir d'images, avec une résolution allant jusqu'à 1536 cubes et une compression spatiale 16x.

Ces sorties illustrent une tendance de fond : la compétition sur l'efficacité d'inférence s'intensifie, et les acteurs cherchent à démocratiser des capacités avancées sur du matériel accessible. Que Poolside publie un modèle de code haute performance tournant sur un seul GPU, ou que NVIDIA intègre audio et vidéo dans un modèle ouvert, le message est clair : les capacités multimodales et agentiques descendent rapidement vers des configurations matérielles grand public. Pour les développeurs et les entreprises, cela signifie des coûts d'infrastructure moindres pour déployer des agents capables de comprendre des documents complexes ou de générer des assets 3D.

En parallèle, l'infrastructure d'inférence connaît sa propre effervescence. La version 0.20.0 de vLLM, framework open-source de référence pour servir les grands modèles, embarque un cache KV 2 bits (TurboQuant) offrant quatre fois plus de capacité, ainsi qu'une amélioration de latence de 2,1 % grâce à une fusion d'opérations. Les benchmarks publiés par SemiAnalysis sur les puces B300 de NVIDIA indiquent un débit jusqu'à huit fois supérieur à celui des H200 pour des charges DeepSeek V4 Pro. Dans ce contexte, des voix techniques soulignent que DeepSeek s'éloigne progressivement de la dépendance exclusive à CUDA via ses TileKernels, ouvrant la voie à des déploiements sur accélérateurs hétérogènes, y compris des puces non-NVIDIA. Les prochaines semaines devraient confirmer si GPT-6, dont le buzz commence à monter, reconfigurera à nouveau les priorités de l'écosystème.

Impact France/UE

Les modèles open-source publiés ce jour (Nemotron 3 Nano Omni, Laguna XS.2, TRELLIS.2) sont immédiatement accessibles aux développeurs et entreprises européennes via Ollama, Hugging Face et autres plateformes, réduisant les coûts d'infrastructure pour déployer des agents multimodaux sur du matériel grand public.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Latent Space 

[AINews] Le dernier souffle de l'humanité

La semaine du 3 et 4 avril 2026 a été marquée par une série de lancements techniques majeurs dans l'industrie de l'IA. Google a introduit les "Skills" dans Chrome, permettant aux utilisateurs de transformer des prompts Gemini en actions réutilisables d'un seul clic sur n'importe quelle page web. Google DeepMind a publié Gemini Robotics-ER 1.6, un modèle de raisonnement spatial atteignant 93% de réussite en lecture d'instruments et améliorant la manipulation d'objets contraignants comme les liquides. OpenAI a étendu son programme Trusted Access avec GPT-5.4-Cyber, une version affinée pour les workflows de sécurité défensive. Hugging Face a lancé "Kernels" sur le Hub, des artefacts GPU précompilés affichant des gains de performance de 1,7x à 2,5x sur les bases PyTorch. Cursor, en collaboration avec NVIDIA, a déployé un système multi-agents d'optimisation CUDA atteignant 38% d'accélération en moyenne sur 235 benchmarks. Par ailleurs, Tencent a teasé HYWorld 2.0, un modèle 3D open source capable de générer des scènes éditables à partir d'une seule image, repositionnant les world models comme outils de création 3D plutôt que de génération vidéo. Ces annonces s'inscrivent dans un paradoxe que la newsletter AINews nomme le "Turkey Problem" : les modèles progressent à vitesse record, SWE-Bench est saturé, Mythos (le modèle interne d'Anthropic) atteint 78% sur SWE-Bench Pro, et GDPval évalue GPT-5.4 comme équivalent ou supérieur à des experts humains dans 83% des secteurs économiques, et pourtant les ingénieurs et travailleurs du savoir n'ont jamais été aussi occupés. Aaron Levie, CEO de Box, observe que ses équipes n'ont jamais autant travaillé. Tyler Cowen soutient qu'il faut travailler davantage maintenant, quelle que soit sa position sur l'impact de l'IA. Simon Last de Notion, lui, décrit des nuits sans sommeil liées à "l'anxiété des tokens au niveau agents". Plus les agents produisent, plus les humains courent derrière, du moins pour l'instant. La question sous-jacente est celle du point de bascule : jusqu'où la valeur humaine restera-t-elle "élastique" face à l'automatisation, avant d'atteindre le sort des chevaux après l'invention du moteur à combustion ? Notion travaille sur un benchmark interne baptisé "Notion's Last Exam", les chercheurs Greg Brockman et François Chollet planchent sur ARC-AGI-3, et plusieurs équipes cherchent à définir les prochaines frontières des évaluations en programmation. Mais ces efforts paraissent relativisés par une hypothèse de plus en plus discutée : si l'AGI dépend avant tout de la puissance matérielle, un supercalculateur de 20 gigawatts suffirait à franchir le seuil. L'IA avance vite, les benchmarks tombent les uns après les autres, et l'industrie tente encore de définir ce qui restera hors de portée des machines.

UELe lancement des Kernels par Hugging Face (entreprise française) sur son Hub apporte des gains de performance GPU directs (1,7x à 2,5x) aux développeurs et chercheurs européens utilisant PyTorch.

💬 Le Turkey Problem, c'est ce paradoxe qu'on sent tous mais qu'on arrive pas encore à nommer clairement : les modèles explosent les benchmarks, GPT-5.4 jugé aussi bon que des experts dans 83% des secteurs, et tout le monde bosse plus qu'avant, pas moins. Logique : plus l'outil produit, plus le scope s'élargit, et c'est nous qui courons derrière pour absorber la valeur générée. La comparaison avec les chevaux est là, dans la pièce, et personne n'ose vraiment finir la phrase.

LLMsActu
1 source
Pas grand-chose à signaler aujourd'hui
2Latent Space 

Pas grand-chose à signaler aujourd'hui

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu
1 source
[AINews] Vendredi Saint
3Latent Space 

[AINews] Vendredi Saint

Google a lancé Gemma 4 le 3 avril 2026, sous licence Apache 2.0, marquant un tournant dans sa stratégie open source. La famille de modèles comprend plusieurs variantes, dont le 26B A4B (une architecture MoE, mixture of experts) et le modèle 31B, conçus pour le raisonnement, les workflows agentiques, la multimodalité et l'usage sur appareil local. Dès le premier jour, l'écosystème était prêt : vLLM, llama.cpp, Ollama, Intel (Xeon, Xe GPU, Core Ultra), Unsloth et Hugging Face Inference Endpoints ont tous annoncé une compatibilité immédiate. François Chollet a qualifié Gemma 4 de modèle open source le plus solide jamais produit par Google, recommandant le backend JAX via KerasHub, tandis que Demis Hassabis a mis en avant l'efficacité du modèle, qui surpasserait des modèles dix fois plus grands selon les benchmarks internes. Les premiers tests sur matériel grand public confirment des performances remarquables : 162 tokens par seconde sur une RTX 4090 à 19,5 Go de VRAM, 34 tokens par seconde sur un Mac mini M4 avec 16 Go de RAM, et même un portage fonctionnel sur iPhone via Swift MLX. L'importance de cette sortie tient autant à la licence qu'aux performances. En optant pour Apache 2.0, Google lève les restrictions habituelles sur l'usage commercial et la redistribution, ce qui ouvre la voie à une intégration dans des produits tiers sans friction juridique. Clément Delangue (Hugging Face) et plusieurs autres acteurs du secteur ont salué ce choix comme une vraie libération des poids, contrairement aux licences restrictives qui avaient accompagné des releases précédentes. Sur le plan technique, la compression TurboQuant réduit le cache KV de 13,3 Go à 4,9 Go pour le modèle 31B à 128 000 tokens de contexte, ce qui rend ce niveau de performance accessible sur du matériel abordable. Le modèle E4B est même présenté comme capable de tourner directement sur smartphones et ordinateurs portables. En parallèle de Gemma 4, le framework agentique open source Hermes Agent, développé par Nous Research, s'impose comme la surprise de la journée. De nombreux développeurs ont signalé avoir migré depuis OpenClaw vers Hermes, citant une meilleure stabilité sur les tâches longues. L'équipe de Nous a livré une infrastructure concrète : un système de mémoire modulaire compatible avec plusieurs backends (Honcho, mem0, Hindsight, RetainDB), une création autonome de compétences et une mémoire procédurale réutilisable. La thèse émergente dans la communauté est que l'avantage compétitif ne réside plus seulement dans le modèle lui-même, mais dans le harness, c'est-à-dire le système d'orchestration qui l'entoure. Cette double actualité, un modèle de base puissant et libre d'un côté, un framework agentique mature de l'autre, dessine les contours d'un écosystème open source qui se rapproche sérieusement des capacités propriétaires.

UEHugging Face (entreprise française) a intégré Gemma 4 en priorité dans ses Inference Endpoints sous licence Apache 2.0, offrant aux développeurs et entreprises européennes un accès immédiat à un modèle open source exploitable commercialement sans restriction juridique.

LLMsActu
1 source
Anthropic lance Mythos aujourd'hui, Apple vise des objectifs modestes pour la refonte de Siri
4The Information AI 

Anthropic lance Mythos aujourd'hui, Apple vise des objectifs modestes pour la refonte de Siri

Anthropic s'apprête à lancer dans les prochaines heures Claude Fable, une version accessible de son modèle Mythos, selon une source proche du dossier. Ce nouveau modèle sera proposé à un tarif environ deux fois supérieur à celui des actuels Claude Opus, les modèles les plus avancés de la gamme. Une hausse significative qui tranche néanmoins avec les premières estimations : lors de sa présentation initiale en avril, Anthropic avait évoqué un prix cinq fois supérieur à Opus pour Mythos dans son billet de lancement officiel. Le lancement de Claude Fable répond à une demande croissante d'accès aux capacités de Mythos tout en encadrant ses usages les plus risqués. La version dévoilée aujourd'hui intègre des garde-fous conçus pour prévenir les détournements dans des domaines critiques : cyberattaques et conception d'armes biologiques notamment. Pour les développeurs et entreprises qui souhaitent bénéficier d'une puissance de traitement inédite, le modèle reste onéreux dans un contexte où les coûts de l'IA sont déjà perçus comme un frein majeur à l'adoption. Mais le positionnement tarifaire final, plus raisonnable qu'anticipé, devrait élargir le cercle des clients potentiels. Mythos avait été présenté pour la première fois par Anthropic en avril comme un modèle d'une puissance exceptionnelle, capable d'identifier des centaines de nouvelles failles de sécurité dans des logiciels vieux de plusieurs décennies. Sa présentation avait suscité un tel mélange d'enthousiasme et d'inquiétude dans le secteur que l'administration Trump elle-même avait reconsidéré son approche jusqu'alors souple en matière de régulation de l'IA. Ce contexte géopolitique et industriel tendu explique le choix d'Anthropic de filtrer les capacités offensives du modèle avant toute mise sur le marché. Claude Fable s'inscrit ainsi dans une stratégie de commercialisation progressive, cherchant à maximiser l'adoption tout en devançant les critiques sur la sécurité des systèmes d'IA de frontier.

UELe lancement de Claude Fable, version commerciale de Mythos avec garde-fous de sécurité intégrés, ouvre l'accès à des capacités de frontier susceptibles d'accélérer l'adoption en Europe, dans un contexte où l'AI Act impose des obligations strictes sur les modèles à usage à haut risque.

💬 Cinq fois le prix d'Opus en avril, deux fois aujourd'hui, quelqu'un a fait le tour des clients potentiels entre-temps. La décision de brider les capacités offensives n'est pas de la com' : quand ta démo de hack logiciel fait flipper l'administration Trump, tu apprends vite que la prudence a une valeur marchande. Reste à voir ce que les développeurs arrivent à faire avec la version bridée.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic