Aller au contenu principal

LLMs — page 8

444 articles · page 8 sur 9

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

OpenAI lance GPT-5.4 mini et nano, plus rapides et plus performants mais jusqu'à 4 fois plus chers
352The Decoder 

OpenAI lance GPT-5.4 mini et nano, plus rapides et plus performants mais jusqu'à 4 fois plus chers

OpenAI a lancé deux nouveaux modèles compacts — GPT-5.4 mini et nano — conçus pour les assistants de code, les sous-agents et le contrôle informatique. GPT-5.4 mini atteint des performances proches du modèle complet, tandis que le nano cible les tâches légères. Ces deux modèles affichent cependant un prix jusqu'à 4 fois supérieur à leurs prédécesseurs.

UELes développeurs européens utilisant l'API OpenAI devront réévaluer leurs coûts d'infrastructure face à une hausse tarifaire pouvant atteindre 4x.

LLMsActu
1 source
Nvidia craque pour OpenClaw
353Ben's Bites 

Nvidia craque pour OpenClaw

Nvidia prévoit de générer plus de 1 000 milliards de dollars de ventes via ses puces IA phares d'ici fin 2027, et a lancé NemoClaw, une stack open source ajoutant des contrôles de confidentialité et sécurité à OpenClaw. OpenAI annonce que Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires et que l'usage de son API a augmenté de 20 % depuis la sortie de GPT-5.4, tandis que Manus (récemment acquis par Meta) a lancé une application desktop concurrente mais avec des résultats décevants lors des tests. La fenêtre de contexte d'un million de tokens de Claude est désormais disponible en général.

UELe lancement de NemoClaw avec contrôles de confidentialité et sécurité pourrait faciliter l'adoption des outils Nvidia dans les entreprises européennes soumises au RGPD.

LLMsActu
1 source
Nvidia avait finalement besoin de Groq
354The Information AI 

Nvidia avait finalement besoin de Groq

Nvidia a annoncé lors de sa conférence annuelle GTC à San Jose l'intégration de la technologie de la startup Groq dans ses systèmes de puces GPU, notamment pour les tâches d'inférence IA spécialisées comme le codage. C'est une admission implicite mais majeure que les GPU Nvidia seuls ne suffisent pas pour certaines des tâches de calcul IA les plus importantes aujourd'hui. Un revirement notable, étant donné que le PDG Jensen Huang avait tenu des propos plutôt dismissifs sur Groq en janvier dernier.

LLMsOpinion
1 source
GTC met en avant les PC NVIDIA RTX et DGX Sparks pour faire tourner les derniers modèles open source et agents IA en local
355NVIDIA AI Blog 

GTC met en avant les PC NVIDIA RTX et DGX Sparks pour faire tourner les derniers modèles open source et agents IA en local

Au GTC de NVIDIA, plusieurs nouveaux modèles open source pour agents IA locaux ont été annoncés : Nemotron 3 Nano 4B, Nemotron 3 Super 120B (85,6% sur PinchBench), ainsi que Mistral Small 4 (119 milliards de paramètres). Ces modèles sont optimisés pour tourner localement sur le DGX Spark — superordinateur de bureau avec 128 Go de mémoire unifiée — et les PC RTX, sans dépendance au cloud. NVIDIA présente également NemoClaw, une pile open source pour sécuriser et optimiser les expériences d'agents IA sur ses appareils.

UEMistral Small 4, développé par la startup française Mistral AI, est mis en avant comme modèle phare pour les agents IA locaux sur les appareils NVIDIA, renforçant la visibilité d'un acteur européen face aux géants américains.

LLMsActu
1 source
Présentation de GPT-5.4 mini et nano
356OpenAI Blog 

Présentation de GPT-5.4 mini et nano

OpenAI lance GPT-5.4 mini et nano, deux versions allégées et plus rapides de GPT-5.4. Ces modèles sont optimisés pour le codage, l'utilisation d'outils, le raisonnement multimodal et les charges de travail API à fort volume ainsi que les sous-agents.

UELes développeurs et entreprises européens peuvent accéder à ces modèles allégés via l'API OpenAI pour réduire leurs coûts sur les charges de travail à fort volume.

LLMsActu
1 source
Le nouveau modèle Small 4 de Mistral dépasse sa catégorie avec 128 modules experts
357The Decoder 

Le nouveau modèle Small 4 de Mistral dépasse sa catégorie avec 128 modules experts

Mistral AI a lancé Mistral Small 4, un modèle combinant réponses textuelles rapides, raisonnement logique et traitement d'images au sein d'une seule architecture. Sa particularité réside dans ses 128 modules experts (mixture of experts), lui permettant des performances supérieures à sa taille. Ce modèle positionne Mistral comme un concurrent sérieux sur le segment des modèles compacts mais puissants.

UEMistral AI, entreprise française, renforce sa position concurrentielle sur le marché des LLMs compacts face aux acteurs américains et chinois.

LLMsActu
1 source
[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027
358Latent Space 

[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027

Au GTC de NVIDIA, Jensen Huang a présenté les architectures Blackwell et Rubin en forte croissance, dévoilé le CPU Vera, et annoncé un carnet de commandes estimé à 1 000 milliards de dollars pour 2027, tout en lançant NemoClaw comme réponse aux failles de sécurité d'OpenClaw. En parallèle, Moonshot (Kimi) a publié un papier sur les "Attention Residuals" promettant un avantage de calcul de 1,25x avec moins de 2 % de surcoût à l'inférence, validé sur le modèle Kimi Linear 48B, bien que la nouveauté de l'approche soit débattue. Du côté d'OpenAI, Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires (+4x depuis janvier), tandis que GPT-5.4 a atteint 5 000 milliards de tokens par jour et un milliard de dollars de revenus annualisés en une semaine.

UELes laboratoires et entreprises européens déployant des infrastructures IA devront intégrer les nouvelles architectures NVIDIA (Vera CPU, Rubin) dans leur feuille de route hardware, avec des implications budgétaires majeures sur les prochains cycles d'investissement.

LLMsActu
1 source
Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales
359MarkTechPost 

Mistral AI lance Mistral Small 4 : un modèle MoE de 119 milliards de paramètres qui unifie instruction, raisonnement et tâches multimodales

Mistral AI lance Mistral Small 4, un modèle MoE de 119 milliards de paramètres (6B actifs par token) qui unifie pour la première fois les capacités d'instruction, de raisonnement, de vision et de codage agentique en un seul modèle. Il supporte une fenêtre de contexte de 256k tokens et introduit un paramètre reasoning_effort configurable à l'inférence, permettant de choisir entre réponse rapide et raisonnement approfondi sans changer de modèle. Par rapport à Mistral Small 3, il affiche une réduction de 40% du temps de complétion et un débit 3x supérieur en configuration optimisée.

UEMistral AI, entreprise française, élargit son offre avec un modèle multimodal unifié performant, renforçant la compétitivité européenne dans la course aux LLMs face aux acteurs américains et asiatiques.

LLMsActu
1 source
Le mode adulte d'OpenAI serait grivois, pas pornographique
360The Verge AI 

Le mode adulte d'OpenAI serait grivois, pas pornographique

OpenAI s'apprête à lancer un "mode adulte" pour ChatGPT permettant des conversations textuelles à contenu érotique, mais sans génération d'images, de voix ou de vidéos à son lancement. Annoncée initialement en octobre par le PDG Sam Altman, cette fonctionnalité a été retardée le temps que l'entreprise atténue les risques liés à la santé mentale associés à ce type de contenu. OpenAI précise qu'il s'agit de "smut" (contenu suggestif) plutôt que de pornographie au sens strict.

UELe lancement d'un mode adulte par OpenAI pourrait interpeller les régulateurs européens au regard de l'AI Act et des obligations de protection des utilisateurs vulnérables.

LLMsActu
1 source
Des entreprises d'IA ciblent les acteurs d'improvisation pour entraîner leurs modèles aux émotions humaines
361The Verge AI 

Des entreprises d'IA ciblent les acteurs d'improvisation pour entraîner leurs modèles aux émotions humaines

Des entreprises d'IA recrutent des acteurs d'improvisation pour collecter des données d'entraînement sur les émotions humaines et l'authenticité du jeu de rôle. Handshake AI, fournisseur de données pour OpenAI et d'autres laboratoires, propose ce type de poste pour capturer des compétences créatives très spécifiques. Cette tendance reflète la course des labos à acquérir des données de plus en plus nichées pour affiner leurs modèles.

LLMsActu
1 source
ChatGPT : comment cette IA va changer le monde ?
362Le Big Data 

ChatGPT : comment cette IA va changer le monde ?

ChatGPT est un chatbot d'IA basé sur GPT d'OpenAI, capable de comprendre le langage naturel et générer des textes détaillés. Il a été amélioré avec plus de données multimodales pour des interactions fluides et précises dans divers domaines comme le support client ou la création de contenu. Développé par OpenAI, fondée en 2015 par Elon Musk et Sam Altman, l'IA utilise des modèles GPT-5 entraînés avec des techniques d'apprentissage renforcé pour réduire les biais et améliorer la sécurité de ses réponses. Les versions récentes intègrent une navigation en temps réel, permettant de vérifier des données et d'interagir avec diverses sources en ligne pour offrir des réponses fiables.

LLMsOpinion
1 source
Meta repousse son modèle d'IA Avocado, distancé par Google et OpenAI lors de tests internes
363The Decoder 

Meta repousse son modèle d'IA Avocado, distancé par Google et OpenAI lors de tests internes

Meta remet le lancement de son prochain modèle AI "Avocado" en raison de ses performances inférieures à celles de Google, OpenAI et Anthropic lors de tests internes.

UEMeta reporte le lancement de son prochain modèle AI "Avocado", mettant en évidence les défis de la concurrence avec des entités européennes comme Anthropic, montrant les efforts continus pour rivaliser avec les leaders mondiaux en matière d'IA.

LLMsActu
1 source
Grok 4.20 loin derrière Gemini et GPT-5.4, mais établit un record d'absence d'hallucinations
364The Decoder 

Grok 4.20 loin derrière Gemini et GPT-5.4, mais établit un record d'absence d'hallucinations

Le Grok 4.20 de xAI se distingue comme le modèle le moins sujet aux hallucinations parmi tous les modèles testés, tout en étant rapide et économique. Cependant, il accuse un retard significatif face aux modèles de pointe comme Gemini et GPT-5.4 sur les benchmarks standards.

LLMsActu
1 source
Claude d'Anthropic peut désormais répondre avec des graphiques, diagrammes et autres visuels
365The Verge AI 

Claude d'Anthropic peut désormais répondre avec des graphiques, diagrammes et autres visuels

Anthropic a mis à jour Claude pour lui permettre de générer automatiquement des graphiques, diagrammes et autres visualisations directement dans la conversation. Ces visuels s'affichent en ligne (et non dans un panneau latéral) quand Claude juge qu'une image serait utile au contexte. Par exemple, une question sur le tableau périodique peut déclencher une visualisation interactive, ou une question sur la structure d'un bâtiment peut produire un schéma des charges.

LLMsActu
1 source
La forme des choses
366One Useful Thing 

La forme des choses

En octobre 2023, le chercheur Ethan Mollick spéculait sur la forme que prendrait l'intelligence artificielle dans les années à venir. Depuis fin 2025, cette forme est devenue nettement visible : nous sommes entrés dans une nouvelle ère, celle des agents IA autonomes. Des systèmes comme Claude Code, Codex d'OpenAI ou OpenClaw permettent désormais de confier à une IA plusieurs heures de travail humain et d'en recevoir des résultats utiles en quelques minutes. Ce n'est plus de la co-intelligence — où l'humain guide l'IA pas à pas — mais bien une relation de management : on délègue, on supervise, on récupère. Ce changement de paradigme découle directement de l'amélioration exponentielle des capacités des modèles sur les dernières années. Pour illustrer cette progression, Mollick s'appuie sur plusieurs benchmarks majeurs. Le Google-Proof Q&A — test de connaissance où des étudiants en doctorat utilisant Google n'atteignent que 34 % hors de leur domaine et 70 % dedans — est désormais résolu à 94 % par les meilleurs modèles. Sur GDPval, qui mesure les performances de l'IA face à des experts humains expérimentés sur des tâches complexes, les derniers systèmes égalent ou dépassent les humains les plus performants dans 82 % des cas. Le benchmark METR Long Tasks, qui évalue la capacité d'une IA à accomplir de manière autonome et fiable du travail humain, affiche la même courbe ascendante. Même chose pour Humanity's Last Exam, conçu par des professeurs d'université pour résister aux systèmes automatisés. La génération vidéo suit le même chemin : un modèle de ByteDance, encore non disponible aux États-Unis, a produit en une seule passe un mini-documentaire quasi parfait sur des loutres, avec expressions faciales animées et narration cohérente. Ces avancées s'inscrivent dans une dynamique plus large qui redéfinit la relation entre l'humain et la machine. Depuis le lancement de ChatGPT en 2022, la progression a été rapide et continue, sans signe de ralentissement visible avant que les modèles n'atteignent le plafond des tests. Mollick reconnaît que l'IA reste « irrégulière » — excellente sur certaines tâches, défaillante sur d'autres — et que malgré ces capacités impressionnantes, la majorité des organisations n'a pas encore substantiellement changé ses pratiques. Mais ce statu quo ne devrait pas durer : à mesure que les agents autonomes deviennent plus fiables et accessibles, la pression sur les entreprises pour adapter leurs modèles de travail va s'intensifier. La question n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais à quelle vitesse les organisations sauront s'en saisir.

LLMsPaper
1 source
Tout savoir sur NemoClaw, le futur concurrent d’OpenClaw signé Nvidia
367Frandroid 

Tout savoir sur NemoClaw, le futur concurrent d’OpenClaw signé Nvidia

Nvidia lance NemoClaw, son propre clone d'OpenClaw, après que Jensen Huang avait qualifié OpenClaw de logiciel « le plus important de l'histoire ». Le PDG de Nvidia confirme ainsi l'entrée directe de la firme en concurrence frontale avec OpenClaw. Aucun détail technique supplémentaire n'est disponible dans l'article.

LLMsActu
1 source
NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique
368MarkTechPost 

NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique

NVIDIA lance Nemotron 3 Super, un modèle open-source de 120 milliards de paramètres combinant architecture hybride Mamba-Attention et Mixture of Experts (MoE), conçu spécifiquement pour les applications multi-agents complexes. Il offre jusqu'à 7x plus de débit et une précision doublée par rapport à la génération précédente, grâce à cinq innovations clés dont la prédiction multi-tokens, une fenêtre de contexte d'un million de tokens et l'intégration de NeMo RL Gym. Ce modèle se positionne entre le Nemotron 3 Nano (30B paramètres) et l'Ultra (500B), attendu plus tard en 2026.

LLMsOutil
1 source
Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles
369MarkTechPost 

Google IA présente Gemini Embedding 2 : un modèle de plongement multimodal pour convertir texte, images, vidéos, audio et documents en représentations vectorielles

Google a lancé Gemini Embedding 2, un modèle d'intégration multimodal de deuxième génération capable de convertir texte, images, vidéos, audio et PDF en un espace vectoriel unifié — sans pipelines séparés. Il supporte des entrées combinées (jusqu'à 8 192 tokens, 6 images, 120 secondes de vidéo, 80 secondes d'audio) et utilise le Matryoshka Representation Learning (MRL) pour compresser intelligemment les vecteurs en 768, 1 536 ou 3 072 dimensions selon les besoins de performance. Cette architecture permet aux systèmes RAG de faire une première recherche rapide sur des vecteurs courts, puis un reclassement précis sur les vecteurs complets.

LLMsOutil
1 source
TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?
370Towards AI 

TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?

OpenAI a lancé GPT-5.4 le 5 mars, son modèle frontier le plus orienté productivité à ce jour, avec une fenêtre contextuelle d'1M tokens, l'utilisation native d'ordinateur et un tarif de 2,50$/15$ par million de tokens. Dans les benchmarks, aucun modèle ne domine clairement : GPT-5.4 mène sur ProofBench et le codage, tandis que Gemini 3.1 Pro excelle sur LegalBench et GPQA, et Claude Opus 4.6 sur SWE-bench. Parallèlement, l'expérience "autoresearch" d'Andrej Karpathy démontre que des agents IA peuvent identifier de façon autonome des améliorations réelles à l'entraînement des réseaux de neurones — signalant potentiellement l'émergence d'une IA capable de s'améliorer elle-même en boucle fermée.

LLMsOpinion
1 source
Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts
371Le Big Data 

Sam Altman adore GPT-5.4… pourtant, cette IA a 3 gros défauts

Sam Altman qualifie GPT-5.4 de son modèle préféré, saluant ses performances en code et sa personnalité, mais l'investisseur Matt Schumer identifie trois faiblesses notables. Le modèle génère des interfaces fonctionnelles mais visuellement médiocres comparées à Claude Opus 4.6 ou Gemini 3.1 Pro, et peine à intégrer le contexte réel (ex. : itinéraires de voyage ignorant les périodes de vacances scolaires). Ces lacunes freinent encore son adoption dans certains cas d'usage malgré ses performances techniques globalement élevées.

LLMsOpinion
1 source
Les employés d'OpenAI suggèrent un nouveau modèle omnibus
372The Decoder 

Les employés d'OpenAI suggèrent un nouveau modèle omnibus

Des publications d'employés d'OpenAI et un projet audio filtré appelé "BiDi" suggèrent que la société travaille sur un nouveau modèle omni multimodal. Ce prochain modèle représenterait une mise à niveau majeure des capacités multimodales d'OpenAI.

LLMsActu
1 source
Le nouveau modèle d'image Uni-1 de Luma AI surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique
373The Decoder 

Le nouveau modèle d'image Uni-1 de Luma AI surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique

Luma AI lance Uni-1, un nouveau modèle qui unifie compréhension et génération d'images dans une seule architecture, capable de raisonner pendant la création. Il surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique, positionnant directement Luma AI face à OpenAI et Google.

LLMsActu
1 source
Comment Descript facilite le doublage de vidéos multilingues à grande échelle
374OpenAI Blog 

Comment Descript facilite le doublage de vidéos multilingues à grande échelle

Descript utilise les modèles d'OpenAI pour élargir le dublage vidéo multilingue, optimisant les traductions en termes de sens et de synchronisation afin que le dublage sonne naturel dans différentes langues. Cette approche permet de produire des contenus multilingues à grande échelle tout en maintenant la qualité et la fluidité du discours.

LLMsOutil
1 source
ChatGPT 5.4 : vrai saut produit, ou benchmark packaging ?
375FrenchWeb 

ChatGPT 5.4 : vrai saut produit, ou benchmark packaging ?

OpenAI a lancé GPT-5.4, présenté comme son modèle frontier le plus performant pour le travail professionnel. Cette nouvelle architecture regroupe les avancées récentes en raisonnement, programmation et agents logiciels capables d'interagir avec des outils. La question centrale reste de savoir si ce lancement représente un véritable bond technologique ou un simple repackaging de benchmarks existants.

LLMsOpinion
1 source
Deux jours après GPT-5.3, OpenAI lance GPT-5.4
376Numerama 

Deux jours après GPT-5.3, OpenAI lance GPT-5.4

Deux jours après l'annonce de GPT-5.3 Instant, OpenAI lance GPT-5.4 Thinking et GPT-5.4 Pro, visant à rattraper Google et Anthropic. Ces nouvelles versions s'inscrivent dans une course accélérée pour améliorer les performances des modèles.

LLMsActu
1 source
Fiche système de GPT-5.4 Thinking
377OpenAI Blog 

Fiche système de GPT-5.4 Thinking

Le GPT-5.4 Thinking System Card est un outil de pensée basé sur l'IA, conçu pour aider les utilisateurs à structurer et améliorer leurs processus de réflexion. Il utilise l'architecture GPT-5.4, une version avancée du modèle de langage, pour générer des idées, des arguments et des solutions innovantes. Ce card offre une interface conviviale pour explorer des concepts complexes et stimuler la créativité.

LLMsPaper
1 source
Présentation de GPT-5.4
378OpenAI Blog 

Présentation de GPT-5.4

OpenAI a présenté GPT-5.4, un modèle de pointe optimisé pour le travail professionnel, doté de capacités avancées en programmation, utilisation des ordinateurs, recherche d'outils et un contexte de 1 million de tokens. Ce modèle combine efficacité et performance pour des tâches complexes.

LLMsOutil
1 source
Gemini 3.1 Flash-Lite : Conçu pour l'intelligence à grande échelle
379Google AI Blog 

Gemini 3.1 Flash-Lite : Conçu pour l'intelligence à grande échelle

Gemini 3.1 Flash-Lite est le modèle le plus rapide et le plus économique de la série Gemini 3. Il a été conçu pour optimiser l'intelligence à grande échelle.

LLMsOutil
1 source
Fiche système de GPT-5.3 Instant
380OpenAI Blog 

Fiche système de GPT-5.3 Instant

GPT-5.3 Instant System Card présente une nouvelle carte système instantanée, offrant des capacités avancées pour les applications IA. Cette carte, conçue pour une intégration rapide, promet une efficacité améliorée et une utilisation simplifiée des modèles d'IA complexes.

LLMsOutil
1 source
Interaction en Temps Réel : Des Conversations Quotidiennes Plus Fluides et Plus Utiles
381OpenAI Blog 

Interaction en Temps Réel : Des Conversations Quotidiennes Plus Fluides et Plus Utiles

GPT-5.3 Instant améliore les conversations quotidiennes, offrant des interactions plus fluides et plus utiles, avec une meilleure compréhension et réponse adaptée aux contextes.

LLMsOutil
1 source
Anthropic dévoile Claude Sonnet 4.5, toujours meilleur en programmation
382ActuIA 

Anthropic dévoile Claude Sonnet 4.5, toujours meilleur en programmation

Anthropic a dévoilé Claude Sonnet 4.5, une nouvelle version de son modèle d'IA conçue pour améliorer les capacités de programmation. Cette mise à jour fait partie de la série Claude et vise à optimiser les performances dans les tâches de codage.

LLMsOutil
1 source
Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)
383Ahead of AI 

Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)

Entre janvier et février 2026, une vague exceptionnelle de modèles de langage open-weight a déferlé sur la communauté IA, avec dix architectures majeures publiées en l'espace de trois semaines. Parmi les sorties les plus remarquées : Trinity Large d'Arcee AI (27 janvier), Kimi K2.5 de Moonshot AI (27 janvier), Step 3.5 Flash de StepFun (1er février), Qwen3-Coder-Next (3 février), GLM-5 de z.AI et MiniMax M2.5 (12 février), Nanbeige 4.1 3B (13 février), Qwen 3.5 (15 février), les modèles Ling 2.5 et Ring 2.5 à 1 000 milliards de paramètres d'Ant Group (16 février), et enfin Tiny Aya de Cohere (17 février). Le modèle phare de cette période reste Trinity Large d'Arcee AI : un Mixture-of-Experts de 400 milliards de paramètres, dont seulement 13 milliards sont activés à chaque inférence, accompagné de deux variantes plus légères — Trinity Mini (26B/3B actifs) et Trinity Nano (6B/1B actifs). Arcee AI a publié les poids du modèle ainsi qu'un rapport technique détaillé, d'abord sur GitHub puis sur arXiv à partir du 18 février. Cette effervescence illustre une démocratisation accélérée des modèles de grande taille : des entreprises jusqu'ici discrètes, comme Arcee AI, publient désormais des architectures compétitives avec les géants comme z.AI et son GLM-4.5 (355 milliards de paramètres). Sur le plan technique, Trinity Large rivalise avec GLM-4.5 en performances sur les modèles de base — une parité remarquable pour une start-up américaine encore peu connue. Ces modèles open-weight permettent à des équipes de recherche, des entreprises et des développeurs indépendants de déployer des LLMs puissants sans dépendre des API commerciales fermées, ce qui réduit les coûts et augmente la souveraineté technologique. Sur le plan architectural, cette génération de modèles converge vers plusieurs innovations communes. L'attention à fenêtre glissante (sliding window attention, SWA) — qui réduit le coût computationnel de O(n²) à O(n·t) en limitant chaque token à une fenêtre locale fixe — est adoptée par Trinity, Gemma 3, OLMo 3 ou encore Xiaomi MiMo. Trinity opte pour un ratio local:global de 3:1 avec une fenêtre de 4 096 tokens. L'architecture intègre également le QK-Norm (normalisation des clés et requêtes pour stabiliser l'entraînement), l'absence d'encodage positionnel dans les couches d'attention globale (NoPE), et un mécanisme de gating sur l'attention qui réduit les "attention sinks" et améliore la généralisation sur les longues séquences. Ces choix architecturaux convergents signalent une forme de consensus émergeant dans la communauté open-weight sur les meilleures pratiques pour les modèles à très long contexte — une tendance qui devrait s'accentuer avec les prochaines sorties, dont DeepSeek V4, attendu prochainement.

UELes équipes de recherche et entreprises européennes peuvent déployer ces modèles open-weight puissants sans dépendre des API commerciales fermées, réduisant les coûts et renforçant leur souveraineté technologique.

LLMsActu
1 source
Une nouvelle façon d'exprimer son identité : Gemini peut désormais créer de la musique
384Google AI Blog 

Une nouvelle façon d'exprimer son identité : Gemini peut désormais créer de la musique

Lyria 3 est désormais disponible dans l'application Gemini, permettant aux utilisateurs de créer des pistes musicales personnalisées de haute qualité de 30 secondes à partir de textes et d'images. Cette fonctionnalité offre une nouvelle manière d'exprimer la créativité via la génération d'œuvres audio à partir de contenus multimédias.

LLMsOutil
1 source
Présentation de la Mode Lockdown et des étiquettes de Risque Élevé dans ChatGPT
385OpenAI Blog 

Présentation de la Mode Lockdown et des étiquettes de Risque Élevé dans ChatGPT

OpenAI présente le mode Lockdown et les étiquettes « Risque élevé » dans ChatGPT pour renforcer la défense contre les injections de prompts et l'exfiltration de données via l'IA. Ces fonctionnalités visent à aider les organisations à mieux identifier et atténuer les menaces liées à l'utilisation malveillante du modèle.

LLMsOutil
1 source
Présentation de GPT-5.3-Codex-Spark
386OpenAI Blog 

Présentation de GPT-5.3-Codex-Spark

Le GPT-5.3-Codex-Spark, premier modèle de codage en temps réel, offre une génération 15 fois plus rapide et un contexte de 128 000 tokens. Disponible en version de recherche préliminaire, il s'adresse aux utilisateurs de ChatGPT Pro.

LLMsOutil
1 source
Carte du Système GPT-5.3-Codex : Règles Critiques
387OpenAI Blog 

Carte du Système GPT-5.3-Codex : Règles Critiques

GPT-5.3-Codex est le modèle de codage agentic le plus performant à ce jour, intégrant les capacités de codage avancées de GPT-5.2-Codex et les compétences en raisonnement et en connaissances professionnelles de GPT-5.2.

LLMsPaper
1 source
Présentation de GPT-5.3-Codex
388OpenAI Blog 

Présentation de GPT-5.3-Codex

Le GPT-5.3-Codex est un agent natif Codex qui combine une performance de codage de pointe avec une raison générale pour soutenir des travaux techniques à long terme dans le monde réel. Ce modèle vise à intégrer des capacités avancées de programmation avec des compétences de raisonnement pour des applications complexes.

LLMsOutil
1 source
Nous avons fait venir Claude pour créer des noyaux CUDA et enseigner les modèles ouverts !
389HuggingFace Blog 

Nous avons fait venir Claude pour créer des noyaux CUDA et enseigner les modèles ouverts !

Claude a été recruté pour développer des noyaux CUDA et enseigner les modèles ouverts. Son expertise contribuera à la création et à la diffusion de connaissances sur l'utilisation de ces modèles avancés.

LLMsTuto
1 source
Garder vos données en sécurité lorsqu'un agent AI clique sur un lien
390OpenAI Blog 

Garder vos données en sécurité lorsqu'un agent AI clique sur un lien

OpenAI a mis en place des mesures de sécurité intégrées pour protéger les données des utilisateurs lorsqu'un agent IA clique sur un lien, empêchant ainsi l'exfiltration de données via les URLs et l'injection de prompts. Ces protocoles limitent les risques de fuites d'informations sensibles et de manipulation des systèmes par des attaques ciblées.

LLMsActu
1 source
Vers une évaluation solide des capacités du dialecte émirati dans les grammaires linguistiques arabes (LLMs)
391HuggingFace Blog 

Vers une évaluation solide des capacités du dialecte émirati dans les grammaires linguistiques arabes (LLMs)

"L'étude d'Alyah examine la capacité des grands modèles de langage arabes (LLMs) à comprendre et générer le dialecte émirati, mettant en évidence la nécessité d'une évaluation robuste pour améliorer la précision dans la reconnaissance de variétés dialectales arabes." Clés: - Alyah étudie les LLMs arabes (grands modèles de langage). - Focus sur la compréhension et la génération du dialecte émirati. - Importance de l'évaluation robuste pour améliorer la précision.

UEL'étude d'Alyah souligne l'importance d'une évaluation rigoureuse des capacités des grands modèles de langage arabes pour le dialecte émirati, posant des défis pour des entreprises comme Microsoft et Google, qui développent des LLMs, et potentiellement influençant les futures directives de conformité du RGPD pour garantir une reconnaissance précise des variétés dialectales arabes dans l'Union Européenne.

LLMsPaper
1 source
Critiques de règles : Une approche conversationnelle pour l'apprentissage des langues par Praktika
392OpenAI Blog 

Critiques de règles : Une approche conversationnelle pour l'apprentissage des langues par Praktika

Praktika emploie GPT-4.1 et GPT-5.2 pour créer des tuteurs d'IA adaptatifs qui personnalisent les leçons, suivent les progrès et aident les apprenants à acquérir une fluidité linguistique réelle dans des situations du monde réel.

UEPraktika, exploitant GPT-4.1 et GPT-5.2, propose des tuteurs d'IA adaptatifs pour l'apprentissage des langues, susceptibles d'impact direct sur le secteur de l'éducation en France et dans l'UE, en personnalisant les leçons et en aidant les apprenants à acquérir une maîtrise linguistique réelle, en respectant potentiellement le RGPD sur les données personnelles.

LLMsOutil
1 source
Nos méthodes de prédiction de l'âge
393OpenAI Blog 

Nos méthodes de prédiction de l'âge

ChatGPT développe une prédiction d'âge pour estimer si les comptes appartiennent à des mineurs ou des majeurs, en mettant en place des mesures de protection pour les adolescents et en améliorant la précision au fil du temps.

UECette fonctionnalité de prédiction d'âge répond directement aux exigences du Règlement sur les Services Numériques (DSA) et du RGPD européens, qui imposent aux plateformes des protections renforcées pour les mineurs sous peine de lourdes amendes.

LLMsOutil
1 source
Présentation de ChatGPT Go, désormais disponible dans le monde entier
394OpenAI Blog 

Présentation de ChatGPT Go, désormais disponible dans le monde entier

ChatGPT Go est désormais disponible à l'échelle mondiale, offrant un accès élargi à GPT-5.2 Instant, des limites d'utilisation accrues et une mémoire étendue. Cette mise à disposition rend l'intelligence artificielle avancée plus abordable à l'échelle mondiale.

LLMsOutil
1 source
Comment Tolan développe une IA de premier-plan avec GPT-5.1
395OpenAI Blog 

Comment Tolan développe une IA de premier-plan avec GPT-5.1

Tolan a développé un assistant vocal basé sur l'IA en utilisant GPT-5.1, intégrant des réponses à faible latence, une reconstruction en temps réel du contexte et des personnalités guidées par la mémoire pour des conversations naturelles.

LLMsActu
1 source
Continuer à renforcer ChatGPT Atlas contre les injections de prompts
396OpenAI Blog 

Continuer à renforcer ChatGPT Atlas contre les injections de prompts

OpenAI renforce continuellement ChatGPT Atlas contre les attaques d’injection de prompts en utilisant une équipe rouge automatisée entraînée par l’apprentissage par renforcement. Cette approche proactive permet d’identifier tôt de nouveaux exploits et de renforcer les défenses de l’agent de navigateur, notamment à mesure que l’IA devient plus autonome.

LLMsActu
1 source
Présentation de GPT-5.2-Codex
397OpenAI Blog 

Présentation de GPT-5.2-Codex

GPT-5.2-Codex, le modèle de codage le plus avancé d'OpenAI, intègre un raisonnement à long terme, des transformations de code à grande échelle et des capacités de cybersécurité renforcées. Il marque une avancée significative dans le domaine de l'intelligence artificielle appliquée au développement logiciel.

LLMsOutil
1 source
Présentation de GPT-5.2-Codex
398OpenAI Blog 

Présentation de GPT-5.2-Codex

OpenAI a présenté GPT-5.2-Codex, son modèle de codage le plus avancé, capable de raisonnement à long terme, de transformations de code à grande échelle et de capacités renforcées en cybersécurité.

LLMsOutil
1 source
ChatGPT Images est arrivé
399OpenAI Blog 

ChatGPT Images est arrivé

La nouvelle fonctionnalité d'images de ChatGPT, alimentée par le modèle principal de génération d'images, permet des éditions plus précises, des détails cohérents et une génération d'images jusqu'à 4 fois plus rapide. Elle est désormais disponible pour tous les utilisateurs de ChatGPT et accessible via l'API sous le nom GPT-Image-1.5.

LLMsOutil
1 source
Progresser dans les sciences et les mathématiques avec GPT-5.2
400OpenAI Blog 

Progresser dans les sciences et les mathématiques avec GPT-5.2

GPT-5.2, le modèle le plus performant d'OpenAI pour les mathématiques et les sciences, établit de nouveaux records sur des benchmarks comme GPQA Diamond et FrontierMath. Il a permis de résoudre un problème théorique ouvert et de générer des preuves mathématiques fiables, illustrant des avancées concrètes dans la recherche.

LLMsPaper
1 source