LLMs — page 4

495 articles · page 4 sur 10

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

Recherche Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

151MarkTechPost LLMsOpinion

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA

Le Thinking Machines Lab, le laboratoire de recherche fondé par Mira Murati, ancienne directrice technique d'OpenAI, a présenté une préversion publique de ce qu'il appelle des "modèles d'interaction" (interaction models). Cette architecture repose sur deux composants fonctionnant en parallèle : un modèle d'interaction actif en permanence, qui traite en continu flux audio, vidéo et texte par tranches de 200 millisecondes, et un modèle de raisonnement en arrière-plan qui prend en charge les tâches plus complexes comme la recherche web, l'utilisation d'outils ou la planification à long terme. Les deux modèles partagent le même contexte conversationnel à tout moment, et les résultats produits en arrière-plan sont réintégrés dans la conversation de façon fluide, au moment jugé opportun par le modèle principal. Cette approche rompt avec la logique tour par tour qui structure aujourd'hui la quasi-totalité des systèmes d'IA conversationnelle. Dans ce paradigme classique, le modèle reste aveugle pendant que l'utilisateur parle ou tape, puis gèle toute perception pendant sa propre génération. Pour contourner cette limitation, les systèmes temps réel actuels s'appuient sur des composants auxiliaires assemblés en façade, comme la détection d'activité vocale (VAD), qui sont intrinsèquement moins intelligents que le modèle lui-même. Thinking Machines Lab soutient que cette architecture en patchwork est un plafond structurel : tant que l'interactivité reste une surcouche externe, elle ne bénéficie pas des gains en intelligence apportés par l'augmentation des paramètres. En intégrant la réactivité directement dans l'architecture du modèle, la collaboration humain-IA peut, selon eux, s'améliorer proportionnellement à la montée en puissance du modèle. Mira Murati a quitté OpenAI en septembre 2024, après y avoir supervisé le lancement de GPT-4 et d'autres produits phares. Son nouveau laboratoire positionne explicitement cette recherche comme une réponse à la "bitter lesson" de l'apprentissage automatique : les systèmes conçus à la main finissent toujours par être dépassés par ceux qui généralisent à plus grande échelle. L'architecture sans encodeur (encoder-free early fusion) constitue le choix technique central permettant au modèle de traiter audio et vidéo sans passer par des modules préentraînés séparés, ce qui est la condition pour maintenir une cadence de 200 ms. La préversion présentée démontre des capacités concrètes : parler et écouter simultanément, réagir à des indices visuels sans sollicitation verbale, traiter plusieurs flux de parole en parallèle. Le laboratoire n'a pas encore annoncé de calendrier de déploiement ni de partenariats commerciaux, mais la publication intervient dans un contexte de course intense entre laboratoires pour définir ce que sera la prochaine génération d'interfaces IA.

LLMs — page 4

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA

La fin du finetuning

AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

Thinking Machines Lab lance son premier modèle et juge qu'OpenAI rate la voix faute d'interactivité

Thinking Machines : TML-Interaction-Small 276B-A12B fait progresser la voix en temps réel et supplante la VAD standard

Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel

Les techniques de distillation des LLM expliquées

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Dans l’IA, la Chine bouscule son monde avec sa stratégie open source

NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres

Un médaillé Fields : ChatGPT 5.5 Pro a produit une recherche niveau doctorat en moins de deux heures sans aide humaine

OpenAI intègre le raisonnement GPT-5 dans la voix en temps réel et transforme ce que les agents vocaux peuvent orchestrer

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe

OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper

Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro

GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle

ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI

La nouvelle fonctionnalité "Dreaming" de Claude permet aux agents IA d'apprendre de leurs erreurs

Sam Altman troublé par son IA : GPT-5.5 commence à demander des faveurs

Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité

OpenAI déploie GPT-5.5 Instant : moins d’erreurs, plus de puissance

La physique au feeling : Alex Lupsasca, OpenAI

ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées

Gemini 3.2 Flash dévoilé par erreur par Google ?

Pourquoi les gobelins et les gremlins ont envahi ChatGPT

L'Autre face à l'Utilitaire

Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé

Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures

Qu'est-ce que la dérive de tokenisation et comment y remédier ?

Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

xAI lance Grok 4.3 à prix cassé et une nouvelle suite de clonage vocal rapide et puissante

#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6

Affinage par renforcement avec un LLM comme évaluateur

GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins

L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified