LLMs — page 5

495 articles · page 5 sur 10

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

Recherche Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

201Latent Space LLMsActu

[AINews] Rien de notable aujourd'hui

La journée du 27-28 avril 2026 n'a pas produit de séisme dans l'industrie de l'IA, mais plusieurs sorties de modèles méritent attention. NVIDIA a lancé Nemotron 3 Nano Omni, un modèle multimodal open-source de 30 milliards de paramètres actifs (3B actifs, architecture MoE) capable de traiter texte, images, vidéo, audio et documents, avec une fenêtre de contexte de 256 000 tokens orientée vers les usages agentiques. Sa distribution a été immédiate : OpenRouter, LM Studio, Ollama, Fireworks, Together et une dizaine d'autres plateformes ont annoncé sa disponibilité le jour même. Le modèle intègre un encodeur audio Parakeet, fonctionne pour l'instant uniquement en anglais, et affiche un taux d'erreur de 5,95 % sur le benchmark Open ASR, avec un débit annoncé neuf fois supérieur à des modèles omni comparables. Du côté de Poolside, la startup a publié son premier modèle public, Laguna XS.2, un modèle de code MoE de 33 milliards de paramètres totaux (3B actifs) entraîné intégralement en interne, distribué sous licence Apache 2.0, et conçu pour tourner sur un seul GPU. Microsoft, de son côté, a sorti TRELLIS.2, un modèle open-source de 4 milliards de paramètres pour la génération de scènes 3D texturées à partir d'images, avec une résolution allant jusqu'à 1536 cubes et une compression spatiale 16x. Ces sorties illustrent une tendance de fond : la compétition sur l'efficacité d'inférence s'intensifie, et les acteurs cherchent à démocratiser des capacités avancées sur du matériel accessible. Que Poolside publie un modèle de code haute performance tournant sur un seul GPU, ou que NVIDIA intègre audio et vidéo dans un modèle ouvert, le message est clair : les capacités multimodales et agentiques descendent rapidement vers des configurations matérielles grand public. Pour les développeurs et les entreprises, cela signifie des coûts d'infrastructure moindres pour déployer des agents capables de comprendre des documents complexes ou de générer des assets 3D. En parallèle, l'infrastructure d'inférence connaît sa propre effervescence. La version 0.20.0 de vLLM, framework open-source de référence pour servir les grands modèles, embarque un cache KV 2 bits (TurboQuant) offrant quatre fois plus de capacité, ainsi qu'une amélioration de latence de 2,1 % grâce à une fusion d'opérations. Les benchmarks publiés par SemiAnalysis sur les puces B300 de NVIDIA indiquent un débit jusqu'à huit fois supérieur à celui des H200 pour des charges DeepSeek V4 Pro. Dans ce contexte, des voix techniques soulignent que DeepSeek s'éloigne progressivement de la dépendance exclusive à CUDA via ses TileKernels, ouvrant la voie à des déploiements sur accélérateurs hétérogènes, y compris des puces non-NVIDIA. Les prochaines semaines devraient confirmer si GPT-6, dont le buzz commence à monter, reconfigurera à nouveau les priorités de l'écosystème.

UELes modèles open-source publiés ce jour (Nemotron 3 Nano Omni, Laguna XS.2, TRELLIS.2) sont immédiatement accessibles aux développeurs et entreprises européennes via Ollama, Hugging Face et autres plateformes, réduisant les coûts d'infrastructure pour déployer des agents multimodaux sur du matériel grand public.

LLMs — page 5

[AINews] Rien de notable aujourd'hui

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

Comprendre la fenêtre de contexte : limites et solutions techniques des LLM

NVIDIA Nemotron 3 Nano Omni est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA Nemotron 3 Nano Omni intègre le raisonnement d'agents multimodaux dans un modèle ouvert et efficace

L'évolution des encodeurs : des modèles simples à l'IA multimodale

Bilan IA Avril 2026 : Le Basculement Définitif vers l’IA Agentique et Physique

Classements Arena AI : GPT-5.5 explose les scores avec +50 points en code

De la recherche au déploiement : où en est réellement l’algorithme TurboQuant de Google ?

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

OpenMOSS publie MOSS-Audio, un modèle open source pour la parole, le son, la musique et le raisonnement audio temporel

DeepSeek : dernière avancée en IA et la course aux modèles du monde

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

DeepSeek réduit ses prix d'API et établit un nouveau plancher pour les grands modèles

90 % moins cher : DeepSeek V4 déclare la guerre totale à OpenAI

L'hypothèse de LoRA qui ne tient pas en production

500 banquiers d'investissement ont évalué les résultats de l'IA : aucun n'est prêt pour les clients

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime

DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B), Base et Instruct, compatibles avec les puces Huawei Ascend

Le nouveau modèle V4 de DeepSeek : trois raisons pour lesquelles il compte

GPT-5.5 vs DeepSeek V4 : quelle IA va dominer la prochaine révolution tech ?

DeepSeek publie DeepSeek-V4 : deux mécanismes d'attention compressée permettent des contextes d'un million de tokens

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

GPT-5.5 vs Claude Opus 4.7 : quelle est vraiment l’IA la plus puissante ?

DeepSeek dévoile un nouveau modèle d'IA, un an après avoir secoué ses rivaux américains

7 fois moins cher que Claude Opus 4.7 : la Chine dégaine DeepSeek-V4, un modèle open source conçu pour vous détourner des États-Unis

L'IA à base d'agents pousse les prix à la hausse, Deepseek sort un modèle compétitif pour presque rien

Oubliez GPT-5.5 : DeepSeek-V4 est là et il est terrifiant

GPT-5.5, Privacy Filter, ChatGPT Images 2.0 : OpenAI fait feu de tout bois

GPT-5.5 pulvérise les benchmarks : une vraie boucherie pour la concurrence !

GPT-5.5 et la super-application OpenAI Codex

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude

GPT-5.5, un signal pour l'avenir

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

OpenAI annonce que GPT-5.5 est plus efficace et plus performant en programmation

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Optimisation élégante des tokens

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute

Le pari open source de la Chine

LLMs+

Kimi K2.6 exécute des agents pendant plusieurs jours et révèle les limites de l'orchestration d'entreprise

Moonshot AI publie son modèle phare en open source