Aller au contenu principal

LLMs — page 4

495 articles · page 4 sur 10

Toute l'actualité des modèles de langage (LLM) : GPT, Claude, Gemini, Mistral, Llama — benchmarks, nouvelles sorties et comparatifs.

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA
151MarkTechPost LLMsOpinion

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA

Le Thinking Machines Lab, le laboratoire de recherche fondé par Mira Murati, ancienne directrice technique d'OpenAI, a présenté une préversion publique de ce qu'il appelle des "modèles d'interaction" (interaction models). Cette architecture repose sur deux composants fonctionnant en parallèle : un modèle d'interaction actif en permanence, qui traite en continu flux audio, vidéo et texte par tranches de 200 millisecondes, et un modèle de raisonnement en arrière-plan qui prend en charge les tâches plus complexes comme la recherche web, l'utilisation d'outils ou la planification à long terme. Les deux modèles partagent le même contexte conversationnel à tout moment, et les résultats produits en arrière-plan sont réintégrés dans la conversation de façon fluide, au moment jugé opportun par le modèle principal. Cette approche rompt avec la logique tour par tour qui structure aujourd'hui la quasi-totalité des systèmes d'IA conversationnelle. Dans ce paradigme classique, le modèle reste aveugle pendant que l'utilisateur parle ou tape, puis gèle toute perception pendant sa propre génération. Pour contourner cette limitation, les systèmes temps réel actuels s'appuient sur des composants auxiliaires assemblés en façade, comme la détection d'activité vocale (VAD), qui sont intrinsèquement moins intelligents que le modèle lui-même. Thinking Machines Lab soutient que cette architecture en patchwork est un plafond structurel : tant que l'interactivité reste une surcouche externe, elle ne bénéficie pas des gains en intelligence apportés par l'augmentation des paramètres. En intégrant la réactivité directement dans l'architecture du modèle, la collaboration humain-IA peut, selon eux, s'améliorer proportionnellement à la montée en puissance du modèle. Mira Murati a quitté OpenAI en septembre 2024, après y avoir supervisé le lancement de GPT-4 et d'autres produits phares. Son nouveau laboratoire positionne explicitement cette recherche comme une réponse à la "bitter lesson" de l'apprentissage automatique : les systèmes conçus à la main finissent toujours par être dépassés par ceux qui généralisent à plus grande échelle. L'architecture sans encodeur (encoder-free early fusion) constitue le choix technique central permettant au modèle de traiter audio et vidéo sans passer par des modules préentraînés séparés, ce qui est la condition pour maintenir une cadence de 200 ms. La préversion présentée démontre des capacités concrètes : parler et écouter simultanément, réagir à des indices visuels sans sollicitation verbale, traiter plusieurs flux de parole en parallèle. Le laboratoire n'a pas encore annoncé de calendrier de déploiement ni de partenariats commerciaux, mais la publication intervient dans un contexte de course intense entre laboratoires pour définir ce que sera la prochaine génération d'interfaces IA.

1 source
La fin du finetuning
152Latent Space 

La fin du finetuning

OpenAI vient d'annoncer la dépréciation de ses API de fine-tuning, marquant un tournant symbolique pour une pratique qui fut longtemps présentée comme un pilier de l'ingénierie IA. Pendant des années, OpenAI se distinguait des grands laboratoires précisément par ce support, et d'innombrables ingénieurs vantaient la promesse d'obtenir "des performances d'o1 à prix de 4o" grâce à cette technique. La décision s'inscrit dans ce que certains observateurs appellent déjà le "massacre des side quests 2026", après l'abandon de Sora. En parallèle, Anthropic se préparerait à lever des fonds à une valorisation supérieure à celle d'OpenAI pour la première fois de son histoire, signal d'un possible renversement de hiérarchie dans le secteur. Les données de veille de cette édition couvrent la période du 11 au 12 mai 2026, avec analyse de 12 subreddits et 544 comptes Twitter. La fin du fine-tuning chez OpenAI ne signifie pas la mort de la pratique, mais elle révèle une fracture entre les usages mainstream et les acteurs de pointe. Pour 80% de l'industrie, le glissement vers les longs prompts et le prompt engineering était déjà en cours, comme Jeremy Howard l'avait anticipé dès 2023. En revanche, des entreprises comme Cursor ou Cognition, dont la levée de fonds à 25 milliards de dollars est désormais publique, ont au contraire augmenté leur recours au fine-tuning sur modèles ouverts via RLFT. Cette divergence illustre une réalité nouvelle : le fine-tuning devient une technique de haute spécialisation, réservée aux équipes disposant de l'infrastructure et des données nécessaires, tandis que le grand public se tourne vers des modèles de base de plus en plus puissants, guidés par des prompts sophistiqués comme la "Constitution" d'Anthropic. Sur le front de la recherche, les benchmarks continuent leur course vers davantage de difficulté. Soohak propose 439 problèmes mathématiques de niveau recherche, rédigés par 64 mathématiciens dont 38 enseignants-chercheurs, expressément conçus pour dépasser les olympiades classiques. Google DeepMind présente son AI Co-Mathematician, un agent de recherche asynchrone atteignant 48% sur FrontierMath Tier 4, capable de vérification formelle de théorèmes et de découverte bibliographique. GPT-5.5 aurait résolu la première tâche du ProgramBench, surpassant Opus 4.7 sur plusieurs métriques. Côté retrieval, LightOn démontre qu'un modèle de 149 millions de paramètres, Agent-ModernColBERT, peut rivaliser avec des systèmes bien plus imposants sur BrowseComp-Plus. L'ère où plus grand rimait systématiquement avec meilleur semble s'effriter, tant pour les modèles de production que pour les outils de recherche.

UELightOn, entreprise française, démontre qu'un modèle de 149M paramètres (Agent-ModernColBERT) rivalise avec des systèmes bien plus imposants sur BrowseComp-Plus, illustrant la compétitivité de l'écosystème IA européen face aux géants américains.

💬 OpenAI déprécie le fine-tuning, et les seuls vraiment surpris sont ceux qui y croyaient encore pour faire du budget. Les vrais utilisateurs, Cursor, Cognition, les boîtes qui font du vrai travail sur modèles, avaient déjà migré vers le fine-tuning sur open source il y a un an. C'est moins la fin d'une technique que l'aveu qu'OpenAI n'était plus le bon endroit pour la pratiquer.

LLMsActu
1 source
AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)
153MarkTechPost 

AntAngelMed : modèle médical open source de 103 milliards de paramètres, architecture MoE (activation 1/32)

Une équipe de chercheurs chinois a publié AntAngelMed, un modèle de langage médical open-source présenté comme le plus grand et le plus performant de sa catégorie. Avec 103 milliards de paramètres au total, il repose sur une architecture Mixture-of-Experts (MoE) avec un ratio d'activation de 1/32 : seuls 6,1 milliards de paramètres sont effectivement mobilisés lors du traitement d'une requête. Construit à partir de Ling-flash-2.0, un modèle de base développé par inclusionAI, AntAngelMed intègre plusieurs optimisations techniques, notamment un routage sigmoïde sans perte auxiliaire, une couche de prédiction multi-token (MTP) et un positionnement rotatif partiel (Partial-RoPE). Son entraînement se déroule en trois phases : une pré-entraînement continu sur de vastes corpus médicaux (encyclopédies, publications académiques, textes web), un affinage supervisé sur un jeu de données mêlant raisonnement général et scénarios cliniques (dialogues médecin-patient, diagnostics, cas éthiques), puis un renforcement par apprentissage via l'algorithme GRPO (Group Relative Policy Optimization), issu des travaux de DeepSeekMath. Sur GPU H20, le modèle dépasse 200 tokens par seconde, avec un contexte supporté de 128 000 tokens grâce à l'extrapolation YaRN. La performance revendiquée est frappante : avec seulement 6,1 milliards de paramètres activés, AntAngelMed rivalise selon ses créateurs avec des modèles denses d'environ 40 milliards de paramètres, soit un facteur d'efficacité de 7x. Sa vitesse d'inférence est environ 3 fois supérieure à celle d'un modèle dense de 36 milliards de paramètres. Une version quantifiée en FP8 combinée au décodage spéculatif EAGLE3 améliore encore le débit à concurrence de 32 requêtes simultanées : +71% sur le benchmark HumanEval et +45% sur GSM8K. Ces gains sont particulièrement significatifs pour des déploiements médicaux, où la rapidité de réponse et la fiabilité des informations ont un impact direct sur les décisions cliniques, et où le coût de calcul conditionne l'accessibilité des outils dans les systèmes de santé sous-dotés. Le développement d'AntAngelMed s'inscrit dans une dynamique plus large de démocratisation des IA médicales spécialisées. Jusqu'ici, les modèles de santé performants tendaient à être propriétaires ou trop gourmands en ressources pour un déploiement hospitalier étendu. L'architecture MoE, popularisée notamment par Mistral et DeepSeek, permet de contourner cette contrainte en dissociant capacité totale et coût d'inférence. La publication en open-source sur ModelScope ouvre la voie à des adaptations locales dans des contextes aux infrastructures limitées. Le recours au GRPO pour aligner le modèle sur des critères d'empathie, de sécurité et de raisonnement fondé sur les preuves reflète la maturité croissante des approches d'alignement dans le domaine médical, secteur où les hallucinations peuvent avoir des conséquences concrètes et graves.

UELes établissements de santé européens, notamment ceux aux infrastructures limitées, pourraient déployer ce modèle open-source pour des applications cliniques, sous réserve de conformité avec l'AI Act qui classe l'IA médicale en catégorie à haut risque.

LLMsOpinion
1 source
IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte
154Next INpact 

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

Thinking Machines Lab, la start-up fondée par Mira Murati, ancienne directrice technique d'OpenAI, a présenté le 11 mai 2026 son modèle TLM-Interaction-Small, qu'elle qualifie de « modèle interactif ». Contrairement aux IA génératives classiques qui suspendent tout traitement le temps de formuler une réponse, ce système fonctionne en mode « full duplex » : il peut écouter, répondre et participer à une conversation en parallèle, avec un temps de latence de seulement 0,40 seconde, soit un rythme très proche d'un échange humain naturel. Parmi les capacités démontrées figurent la traduction instantanée de l'hindi vers l'anglais, l'adaptation stylistique d'un discours familier vers un registre professionnel, la recherche d'informations en cours de conversation, ou encore la réaction à des éléments visuels captés par caméra, comme détecter une mauvaise posture ou signaler une baisse de concentration. Ce type de modèle cherche à combler ce que Thinking Machines Lab appelle le « goulet d'étranglement de la collaboration » des IA actuelles : leur incapacité à rester présentes et réactives pendant qu'elles calculent. L'enjeu est de rendre l'interaction homme-machine plus fluide et naturelle, ce qui ouvre des perspectives concrètes pour des usages professionnels temps réel, comme l'assistance lors de réunions, la traduction simultanée ou le coaching comportemental en direct. Pour les utilisateurs et les entreprises, cela représente un changement qualitatif potentiellement significatif par rapport aux interfaces actuelles de type chatbot, où chaque échange reste fondamentalement séquentiel et coupé du contexte environnant. La start-up a été fondée en février 2025 et a levé 2 milliards de dollars dès juin de la même année, mais elle a depuis subi des départs importants : plusieurs employés ont été recrutés par Meta début 2026, et trois autres sont retournés chez OpenAI. Ces turbulences n'ont pas empêché l'avancement du projet. TLM-Interaction-Small n'est pas encore accessible au public : une préversion de recherche est attendue dans les prochains mois, et une sortie plus large est prévue plus tard en 2026. Le modèle s'inscrit dans une tendance plus large qui voit plusieurs acteurs chercher à dépasser les limites des IA génératives traditionnelles. Il se situe entre ces dernières et les ambitions des « world models », comme ceux qu'AMI Labs, co-fondée par Yann LeCun, Laurent Solly et Alexandre Lebrun, cherche à construire pour ancrer l'IA dans la compréhension du monde physique. Reste à voir si le produit final, une fois déployé, sera à la hauteur des benchmarks encourageants déjà publiés.

UEL'avènement des modèles full duplex ouvre une compétition directe avec des initiatives comme AMI Labs, co-fondée par des entrepreneurs français (Alexandre Lebrun, Laurent Solly), qui développent leurs propres modèles interactifs ancrés dans la compréhension du monde physique.

LLMsOpinion
1 source
Thinking Machines Lab lance son premier modèle et juge qu'OpenAI rate la voix faute d'interactivité
155The Decoder 

Thinking Machines Lab lance son premier modèle et juge qu'OpenAI rate la voix faute d'interactivité

Thinking Machines Lab, la start-up fondée par Mira Murati, ex-directrice technique d'OpenAI, a présenté son premier modèle d'intelligence artificielle multimodal. Le système traite simultanément de l'audio, de la vidéo et du texte en segments de 200 millisecondes, une architecture conçue pour produire des échanges vocaux quasi instantanés. La société positionne ce modèle comme un concurrent direct de GPT Realtime 2 d'OpenAI et de Gemini Live de Google, les deux références actuelles du marché de l'IA vocale en temps réel. L'argument central de Thinking Machines Lab est que l'IA vocale dominante souffre d'une limite fondamentale : elle reproduit un schéma questions-réponses, là où une vraie conversation humaine est fluide, interrompible, et non séquentielle. En traitant les flux en parallèle plutôt qu'en série, le modèle vise à permettre des interactions plus naturelles, où l'on peut couper la parole, nuancer ou rebondir sans attendre la fin d'une réponse. Pour les professionnels, assistants vocaux, interfaces client ou outils de collaboration, ce gain qualitatif représente un saut d'usage concret. Mira Murati a quitté OpenAI en septembre 2024 après plusieurs années à la tête de la direction technique, ayant piloté le lancement de ChatGPT et GPT-4. Thinking Machines Lab a depuis levé des fonds significatifs et réuni plusieurs anciens cadres d'OpenAI. La course à l'IA vocale interactive s'accélère, avec des enjeux majeurs sur les interfaces du futur : le modèle qui s'imposera comme le plus naturel aura un avantage décisif dans l'adoption grand public et enterprise.

LLMsOpinion
1 source
Thinking Machines : TML-Interaction-Small 276B-A12B fait progresser la voix en temps réel et supplante la VAD standard
156Latent Space 

Thinking Machines : TML-Interaction-Small 276B-A12B fait progresser la voix en temps réel et supplante la VAD standard

Thinking Machines, une startup qui n'avait communiqué publiquement que deux fois en près d'un an, a levé le voile les 9-11 mai 2026 sur un modèle d'un genre nouveau : TML-Interaction-Small, un Mixture of Experts de 276 milliards de paramètres avec 12 milliards actifs en simultané. Contrairement aux assistants vocaux classiques, ce modèle n'a pas été construit en ajoutant une couche vocale sur un LLM texte existant : il a été entraîné dès le départ pour l'interaction en temps réel, capable d'écouter, parler, analyser des images et agir de façon simultanée, avec une latence inférieure à 200 ms sur les flux audio et vidéo. L'architecture, dite "encoder-free early fusion", s'inspire de travaux de Meta (Chameleon) et traite tous les types de données dans un flux unifié. Les benchmarks publiés montrent des scores supérieurs à GPT-Realtime-2 et Gemini 3.1-Flash sur des évaluations standards comme BigBench Audio et IFEval. Deux nouvelles métriques internes ont été créées pour mesurer des capacités inédites : TimeSpeak évalue si le modèle sait prendre la parole exactement au moment demandé par l'utilisateur, tandis que CueSpeak mesure sa capacité à réagir au bon instant face à des signaux contextuels, comme détecter automatiquement un changement de langue dans une conversation. Ce que Thinking Machines présente ici n'est pas un chatbot plus rapide : c'est un changement de paradigme dans l'interface humain-IA. Les systèmes actuels fonctionnent en mode tour par tour, créant une interaction artificielle et peu naturelle. TML-Interaction-Small abolit cette frontière : il peut interrompre, être interrompu, réagir à des événements visuels en continu et effectuer des recherches en arrière-plan sans signaler explicitement qu'il "réfléchit". La démo la plus marquante montre le modèle compter des pompes dans une vidéo en direct, ou alerter l'utilisateur dès qu'il commence à se voûter, des usages qui exigeaient jusqu'ici des pipelines dédiés et qui deviennent ici des capacités natives zéro-shot. Pour les développeurs d'applications voix et les industries intégrant de l'IA dans des environnements temps réel, cette architecture réduit considérablement la complexité technique. Cette sortie intervient le jour même où Neil Zeghidour, PDG de Gradium (le bras commercial de Kyutai, qui avait lancé Moshi, l'un des premiers vrais modèles voix temps réel), décrivait exactement ce qui restait à construire dans ce domaine, une coïncidence qui souligne l'intensité de la compétition. L'équipe de Thinking Machines réunit des noms de premier plan : John Schulman, co-fondateur de ChatGPT et ex-OpenAI, et Soumith Chintala, créateur de PyTorch chez Meta. La startup avait jusqu'ici maintenu un profil remarquablement discret depuis sa création, rendant ce troisième signal public d'autant plus significatif. Leurs notes de clôture évoquent en filigrane un prochain axe stratégique : combiner des agents de fond avec des modèles d'interaction, une direction qui pourrait redéfinir ce que signifie un assistant IA véritablement intégré dans le quotidien.

UELe lancement de TML-Interaction-Small intensifie la concurrence pour Kyutai, le laboratoire français auteur de Moshi, et souligne le retard potentiel des acteurs européens dans la course aux modèles vocaux temps réel natifs.

💬 Un modèle voix natif, pas un LLM avec un codec audio greffé dessus en dernière minute, ça change toute l'approche. Schulman et Chintala ne font pas les choses à moitié, et les métriques TimeSpeak et CueSpeak montrent qu'ils ont ciblé le bon problème : le timing dans la conversation, pas juste la latence brute. Pour Kyutai, ça va faire mal.

LLMsOpinion
1 source
Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel
157VentureBeat AI 

Thinking Machines présente des modèles d'interaction pour des conversations vocales et vidéo en quasi-temps réel

Thinking Machines, la startup d'intelligence artificielle fondée par Mira Murati, ex-directrice technique d'OpenAI, et John Schulman, co-fondateur et ancien chercheur de la même entreprise, a dévoilé cette semaine un aperçu de recherche de ce qu'elle appelle des "modèles d'interaction", une nouvelle catégorie de systèmes multimodaux natifs conçus pour répondre en quasi-temps réel. Le modèle présenté, TML-Interaction-Small, repose sur une architecture de type Mixture-of-Experts (MoE) de 276 milliards de paramètres, dont seulement 12 milliards sont actifs simultanément. Il traite des blocs d'entrée et de sortie de 200 millisecondes en parallèle, ce qu'on appelle le "full duplex", permettant au système d'écouter, de parler et de voir en même temps. La startup précise qu'un aperçu limité sera ouvert dans les prochains mois pour collecter des retours, suivi d'une mise à disposition plus large d'ici la fin de l'année. Ce que Thinking Machines cherche à résoudre est un problème structurel de tous les grands modèles actuels : leur incapacité à fonctionner autrement qu'en mode "tour par tour", où l'IA attend que l'utilisateur ait terminé avant de commencer à traiter, puis se fige pendant qu'elle génère une réponse. Cette contrainte force les utilisateurs à reformuler leurs pensées comme des emails, à tout regrouper en une seule requête. Avec une architecture "full duplex", le modèle peut interrompre naturellement, réagir à un signal visuel comme un bug dans un extrait de code, ou accueillir un interlocuteur qui entre dans le champ d'une vidéo, des comportements qui rendent l'interaction beaucoup plus proche d'une conversation humaine réelle. Les résultats sur les benchmarks tiers contre les modèles d'interaction rapide des autres grands laboratoires sont décrits comme convaincants, même si les détails précis restent à paraître. Techniquement, le système s'écarte des pipelines conventionnels en abandonnant les encodeurs audio massifs comme Whisper au profit d'une fusion précoce sans encodeur, ingérant directement les signaux audio bruts sous forme dMel et des patches d'image de 40x40 pixels via une couche d'embedding légère, le tout co-entraîné au sein du transformer. Le système repose sur deux composants distincts : un "modèle d'interaction" qui gère le dialogue en continu, et un "modèle de fond" asynchrone chargé des raisonnements prolongés, de la navigation web ou des appels d'outils complexes, dont les résultats sont réintégrés fluidement dans la conversation. Thinking Machines s'inscrit dans une course qui voit OpenAI, Google et d'autres investir massivement dans les modèles temps réel depuis 2024, mais revendique une approche architecturale de premier niveau plutôt qu'un simple habillage logiciel, un pari technologique dont la portée réelle ne sera mesurable qu'à l'ouverture du preview public.

LLMsOpinion
1 source
Les techniques de distillation des LLM expliquées
158MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source
Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles
159The Decoder 

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion
1 source
Dans l’IA, la Chine bouscule son monde avec sa stratégie open source
160Next INpact 

Dans l’IA, la Chine bouscule son monde avec sa stratégie open source

Depuis fin avril 2026, deux modèles chinois occupent le sommet du classement des LLM les plus utilisés sur Open Router, la principale place de marché mondiale pour les modèles de langage : Hy3 de Tencent, fort de 295 milliards de paramètres, et Kimi K2.6 de la start-up pékinoise Moonshot AI, fondée en 2023. Claude Sonnet 4.6 et Claude Opus 4.7 d'Anthropic n'arrivent qu'en troisième et quatrième position, suivis de plusieurs versions de DeepSeek et de Gemini. Ce palmarès n'est pas un accident : la Chine a déposé 70 % des 54 000 brevets mondiaux en IA générative, et Alibaba revendiquait en mars un milliard de téléchargements cumulés pour sa famille Qwen, représentant plus de la moitié des téléchargements mondiaux de modèles open source. Kimi, lui, est accessible à environ 4 dollars le million de tokens générés, soit six à huit fois moins cher que GPT-5.5 ou Claude Opus 4.7. Cet avantage tarifaire peut sembler négligeable pour un utilisateur individuel, mais il change radicalement l'équation pour les entreprises qui font tourner des centaines d'agents d'IA en parallèle. En rendant publics des modèles performants à faible coût, les acteurs chinois attaquent la chaîne de valeur que les géants américains ont bâtie autour de leurs APIs propriétaires. Le gouvernement de Singapour a illustré cette dynamique en novembre dernier en abandonnant Llama de Meta au profit de Qwen pour construire son modèle d'IA souverain, tandis que Taobao et Tmall intègrent déjà ces outils dans leurs services quotidiens. Pour les directions informatiques du monde entier, l'open source chinois est désormais une alternative sérieuse, pas un choix par défaut. Cette offensive s'inscrit dans un contexte de restrictions américaines sur l'accès aux semi-conducteurs avancés, qui ont contraint la Chine à optimiser ses modèles pour des architectures matérielles moins récentes. Résultat : des systèmes plus légers, moins gourmands, et moins coûteux à l'usage. La déflagration DeepSeek, dès début 2025, avait été le premier signal fort de cette capacité d'adaptation, au point d'inquiéter Jensen Huang, le patron de Nvidia. La quatrième version de DeepSeek, conçue pour fonctionner exclusivement sur des technologies chinoises avec le soutien de Huawei, a confirmé la tendance. En mars, Anthropic a formellement dénoncé l'utilisation de comptes frauduleux par DeepSeek, Moonshot et MiniMax pour extraire massivement les capacités de Claude. Loin de la seule rivalité technologique, cette stratégie open source représente une évolution des Nouvelles Routes de la Soie vers un levier d'influence numérique mondial, où la dépendance aux modèles chinois pourrait progressivement supplanter celle aux infrastructures occidentales.

UELa domination chinoise sur l'open source IA place l'Europe face à un arbitrage stratégique entre adoption de modèles performants et bon marché et risque de substitution d'une dépendance américaine par une dépendance chinoise, en tension directe avec les objectifs de souveraineté numérique de l'UE.

💬 Quatre dollars le million de tokens contre vingt-cinq pour Claude Opus, c'est là que le débat se joue maintenant. Quand tu fais tourner des centaines d'agents en parallèle, la facture n'est plus la même, et les DSI ont sorti leurs calculettes. Ce que personne n'avait vraiment anticipé: les restrictions américaines sur les puces ont finalement produit des modèles plus légers, moins gourmands, et difficiles à contrer sur le prix.

LLMsOpinion
1 source
NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres
161MarkTechPost 

NVIDIA AI lance Star Elastic : un checkpoint unique pour trois modèles de raisonnement de 30B, 23B et 12B paramètres

NVIDIA Research a présenté Star Elastic, une nouvelle méthode post-entraînement qui permet d'intégrer plusieurs sous-modèles de tailles différentes au sein d'un unique checkpoint. Appliquée à Nemotron Nano v3, un modèle hybride Mamba-Transformer-MoE de 30 milliards de paramètres au total (3,6 milliards actifs), la technique génère deux variantes imbriquées : une version 23B (2,8B actifs) et une version 12B (2,0B actifs). Les trois modèles sont entraînés en une seule passe sur environ 160 milliards de tokens, puis stockés dans un seul fichier de poids. Aucun fine-tuning supplémentaire n'est nécessaire pour extraire l'une ou l'autre variante. Jusqu'ici, produire une famille de modèles signifiait multiplier les entraînements complets, les volumes de stockage et les infrastructures de déploiement. Star Elastic tranche ce problème en identifiant, pour chaque budget de paramètres cible, quels composants du modèle parent contribuent le plus à la précision : canaux d'embedding, têtes d'attention, experts MoE, dimensions intermédiaires des couches FFN. Ces composants sont classés par importance, de sorte que les sous-modèles plus petits réutilisent toujours le sous-ensemble le plus performant du modèle plus grand. Pour les couches MoE, la méthode introduit le Router-Weighted Expert Activation Pruning (REAP), qui sélectionne les experts en combinant les valeurs des gates de routage et les magnitudes de sortie, un signal plus fiable que la simple fréquence d'activation. L'architecture de chaque variante est déterminée par un routeur entraînable de bout en bout via Gumbel-Softmax, qui apprend à prendre des décisions architecturales en optimisant simultanément la distillation de connaissance depuis le modèle parent et le respect d'un budget de ressources cible. La pression pour réduire le coût du déploiement de LLMs est constante, notamment pour les équipes qui veulent proposer plusieurs niveaux de qualité sans doubler les coûts d'infrastructure. Star Elastic s'inscrit dans une lignée de techniques de compression comme Minitron (déjà développé par NVIDIA), mais s'en distingue par son routeur différentiable et son entraînement en deux phases : une première sur des contextes courts de 8 192 tokens, puis une seconde sur des contextes longs de 49 152 tokens avec sur-représentation du modèle 30B complet (probabilité 0,5 contre 0,3 pour le 23B et 0,2 pour le 12B). Les ablations sur Nemotron Nano v2 montrent que cette seconde phase seule apporte jusqu'à 19,8 points de gain sur AIME-2025 pour une variante 6B, ce qui justifie son inclusion systématique. La méthode ouvre la voie à des déploiements adaptatifs où un même checkpoint peut servir différentes phases de raisonnement selon les contraintes de latence ou de mémoire disponible.

💬 Un checkpoint, trois modèles, zéro fine-tuning supplémentaire. C'est le genre de truc qui semble évident avec le recul mais qui demandait jusqu'ici de lancer trois entraînements complets, trois pipelines de déploiement, trois factures de stockage. Reste à voir si les variantes 12B et 23B tiennent vraiment face à des modèles entraînés séparément, parce que "imbriqué dans le même fichier" et "aussi bon qu'un modèle dédié", c'est pas forcément la même chose.

LLMsOpinion
1 source
Un médaillé Fields : ChatGPT 5.5 Pro a produit une recherche niveau doctorat en moins de deux heures sans aide humaine
162The Decoder 

Un médaillé Fields : ChatGPT 5.5 Pro a produit une recherche niveau doctorat en moins de deux heures sans aide humaine

Le mathématicien Timothy Gowers, lauréat de la médaille Fields en 1998 et l'une des figures les plus respectées des mathématiques contemporaines, a soumis ChatGPT 5.5 Pro à une série de problèmes ouverts en théorie des nombres. En moins d'une heure, le modèle d'OpenAI a transformé une borne exponentielle en borne polynomiale, une avancée non triviale dans ce domaine. Un chercheur du MIT impliqué dans l'évaluation a qualifié l'idée centrale trouvée par le modèle de "complètement originale". L'ensemble du travail a été accompli en moins de deux heures, sans aucune intervention humaine. Cette performance marque un tournant dans la perception des capacités des grands modèles de langage en mathématiques de haut niveau. Jusqu'ici, les LLMs excellaient à résoudre des exercices connus ou à vérifier des démonstrations existantes, mais produire une idée originale en recherche pure était considéré hors de portée. Si un modèle peut désormais contribuer à des problèmes ouverts au niveau doctorat, cela remet en question la définition même de la contribution mathématique humaine. La réflexion de Gowers est particulièrement révélatrice : selon lui, le nouveau critère pour évaluer une contribution mathématique sera désormais de prouver quelque chose qu'un LLM ne peut pas faire. Ce déplacement de la référence illustre une transformation profonde du rapport entre l'IA et la recherche fondamentale. OpenAI, qui avait déjà annoncé des ambitions en mathématiques formelles avec des outils comme le prover interne, franchit ici une étape qualitative qui devrait accélérer les débats sur la co-authorship humain-IA dans les publications académiques.

UELes institutions académiques françaises et européennes devront réviser leurs critères d'évaluation de la contribution scientifique et leurs règles de co-authorship face à des LLMs capables de produire des résultats originaux en mathématiques fondamentales.

💬 Une borne exponentielle transformée en polynomiale en moins d'une heure, sur un problème ouvert, validé par Gowers lui-même. Ce n'est pas un benchmark bidouillé, c'est de la recherche fondamentale originale. Et la réaction de Gowers dit tout : la nouvelle mesure de la contribution mathématique, ça sera désormais de prouver ce qu'un LLM ne peut pas faire.

LLMsOpinion
1 source
OpenAI intègre le raisonnement GPT-5 dans la voix en temps réel et transforme ce que les agents vocaux peuvent orchestrer
163VentureBeat AI 

OpenAI intègre le raisonnement GPT-5 dans la voix en temps réel et transforme ce que les agents vocaux peuvent orchestrer

OpenAI a lancé trois nouveaux modèles vocaux distincts : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le premier est présenté comme le premier modèle vocal de la société doté d'un raisonnement "de classe GPT-5", capable de traiter des requêtes complexes tout en maintenant un flux de conversation naturel. GPT-Realtime-Translate prend en charge plus de 70 langues en entrée et les traduit vers 13 autres en temps réel, au rythme de l'interlocuteur. GPT-Realtime-Whisper, lui, se concentre exclusivement sur la transcription audio vers texte. Jusqu'ici, ces trois fonctions, conversation, traduction, transcription, étaient regroupées dans un seul système vocal monolithique. OpenAI les sépare désormais en composants spécialisés distincts, chacun gérable indépendamment, avec une fenêtre de contexte de 128 000 tokens. Ce changement architectural a des conséquences directes pour les entreprises qui déploient des agents vocaux à grande échelle. Jusqu'à présent, la lourdeur de ces systèmes tenait moins aux capacités conversationnelles des modèles qu'à leurs limites de contexte : les équipes techniques devaient construire des mécanismes de réinitialisation de session, de compression d'état et de reconstruction à chaque déploiement, ce qui alourdissait considérablement l'infrastructure. En décomposant la voix en primitives d'orchestration séparées, OpenAI permet aux entreprises d'assigner chaque tâche au modèle le plus adapté, de réduire la redondance et de mieux maîtriser les coûts. L'intérêt commercial est aussi clair : les interactions vocales génèrent des données clients particulièrement riches, et la demande pour ces agents augmente à mesure que les utilisateurs s'habituent à converser avec des IA. Cette annonce s'inscrit dans une course à la voix enterprise où OpenAI n'est plus seul. Mistral a récemment lancé ses modèles Voxtral, également orientés entreprises et structurés autour de la séparation transcription/conversation, ciblant directement le même segment de marché. Pour les équipes techniques qui évaluent ces solutions, le critère de choix ne se limite plus à la qualité brute du modèle : il faut désormais s'assurer que l'architecture d'orchestration existante est capable de router des tâches vocales vers des modèles spécialisés et de gérer l'état sur une fenêtre de 128 000 tokens. La modularisation de la voix, longtemps présentée comme une bonne pratique théorique, devient une contrainte d'intégration concrète pour quiconque veut tirer parti de ces nouveaux modèles dans un pipeline agentique plus large.

UELa modularisation de la voix par OpenAI crée une nouvelle contrainte d'intégration pour les entreprises européennes déployant des agents vocaux, et place Mistral (France) en compétition directe sur ce segment enterprise avec ses modèles Voxtral.

💬 La vraie nouvelle, c'est pas le titre GPT-5 dans la voix. C'est la modularisation : trois primitives séparées, chacune gérable indépendamment, fini les sessions à réinitialiser à la main entre deux tours de conversation. Mistral est déjà en face avec Voxtral, donc le match va se jouer sur l'intégration, pas sur les benchmarks.

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe
164Latent Space 

GPT-Realtime-2, -Translate et -Whisper : de nouvelles API vocales en temps réel de pointe

OpenAI a lancé le 6 mai 2026 trois nouveaux modèles audio dans son API Realtime : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Le modèle phare, GPT-Realtime-2, affiche une progression de 15,2 % sur le benchmark Big Bench Audio, contre seulement 5 % pour le realtime-1.5 sorti il y a trois mois. OpenAI le présente comme son "modèle vocal le plus intelligent à ce jour", intégrant un raisonnement comparable à GPT-5 en temps réel. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, avec jusqu'à 32 000 tokens en sortie. GPT-Realtime-Translate prend en charge la traduction simultanée depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper offre une transcription en streaming à faible latence pour les sous-titres et la prise de notes. Les trois modèles sont disponibles immédiatement dans l'API Realtime pour les développeurs ; les améliorations dans ChatGPT voice sont annoncées mais non encore déployées. L'enjeu de cette version dépasse la qualité audio : OpenAI mise sur l'utilisabilité des agents vocaux en production. GPT-Realtime-2 permet des appels d'outils en parallèle avec des confirmations verbales ("je vérifie votre calendrier"), des préambules naturels ("un instant, je cherche ça"), et une meilleure gestion des interruptions. Il peut aussi adapter son ton, calme, empathique ou dynamique, selon le contexte, et les développeurs peuvent désormais régler le niveau de raisonnement sur cinq paliers allant de "minimal" à "xhigh". Pour les entreprises qui déploient des agents vocaux dans la santé, le service client ou les assistants professionnels, ce gain de fluidité et de robustesse représente un saut concret vers des systèmes déployables sans supervision constante. Cette sortie s'inscrit dans une course effrénée pour dominer les interfaces vocales de l'IA. OpenAI avait lancé son API Realtime en septembre 2024, mais les premières versions peinaient à convaincre par leur manque de fiabilité et leur contexte limité. La progression rapide des trois derniers mois signale une priorité stratégique claire : Sam Altman a lui-même souligné que les utilisateurs recourent de plus en plus à la voix pour "déverser" de grandes quantités de contexte à l'IA, un usage que les interfaces texte peinent à absorber naturellement. Face à Google, qui pousse ses propres modèles Gemini Live, et à des acteurs spécialisés comme ElevenLabs, OpenAI cherche à verrouiller le segment des agents vocaux professionnels avant que le marché ne se fragmente.

UELes développeurs et entreprises européennes déployant des agents vocaux (santé, service client, assistants professionnels) peuvent immédiatement accéder aux nouvelles capacités via l'API Realtime, avec un support multilingue étendu à plus de 70 langues dont le français.

💬 L'API Realtime de septembre 2024, franchement, ça peinait. Là, les préambules naturels, les interruptions gérées, les appels d'outils en parallèle avec confirmation verbale, tout ce qui rend un agent vocal déployable sans supervision constante, c'est enfin dans la boîte. C'est le genre de liste de features qui fait passer de la démo au vrai prod.

LLMsOpinion
1 source
OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper
165MarkTechPost 

OpenAI publie trois nouveaux modèles audio en temps réel dans son API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper

OpenAI a lancé le 7 mai 2026 trois nouveaux modèles audio via son API Realtime, désormais disponible en version stable après plusieurs mois de bêta. Le premier, GPT-Realtime-2, est le modèle phare : OpenAI le décrit comme son premier modèle vocal doté d'un raisonnement de niveau GPT-5. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, ce qui lui permet de maintenir le fil de conversations longues et complexes. Le modèle gère les interruptions naturelles, peut appeler plusieurs outils simultanément et narrer ses actions en temps réel, évitant les silences gênants qui faisaient paraître les agents vocaux précédents défaillants. Les développeurs peuvent également ajuster l'intensité du raisonnement sur cinq niveaux -- de "minimal" à "xhigh" -- selon la complexité de la tâche. Sur les benchmarks, GPT-Realtime-2 atteint 96,6 % sur Big Bench Audio contre 81,4 % pour GPT-Realtime-1.5, soit un gain de 15,2 points. Il est facturé 32 dollars par million de tokens audio en entrée et 64 dollars par million en sortie. Les deux autres modèles sont plus spécialisés : GPT-Realtime-Translate assure la traduction en direct depuis plus de 70 langues vers 13 langues de sortie, tandis que GPT-Realtime-Whisper prend en charge la transcription en streaming. Ces lancements marquent un virage concret pour les équipes qui construisent des applications vocales en production. Jusqu'ici, les agents vocaux se heurtaient à plusieurs limites structurelles : perte de contexte sur les longues sessions, mauvaise gestion des requêtes multi-étapes, silences awkward pendant le traitement. GPT-Realtime-2 répond directement à ces points avec des phrases tampons ("laissez-moi vérifier cela"), un contrôle du ton selon le contexte émotionnel de l'utilisateur, et une meilleure reconnaissance du vocabulaire sectoriel, notamment médical. La sortie de bêta de l'API est elle-même un signal fort : OpenAI indique que l'infrastructure est assez stable pour des déploiements critiques, ce qui devrait lever les réticences des équipes qui attendaient cette garantie pour construire. Cette évolution s'inscrit dans une course technologique accélérée autour de la voix. Depuis le lancement de l'API Realtime en octobre 2024, OpenAI a dû répondre à la pression de concurrents comme Google avec Gemini Live ou ElevenLabs sur le segment de la synthèse et de la traduction vocales. Le modèle de traduction GPT-Realtime-Translate vise directement les cas d'usage professionnels -- support client multilingue, réunions internationales, services de santé -- où la latence et la fidélité de traduction sont critiques. La capacité à moduler l'effort de raisonnement en fonction du cas d'usage ouvre par ailleurs la voie à des architectures hybrides, où un même agent peut traiter une question simple en quelques centaines de millisecondes et une demande complexe avec davantage de calcul, sans changer de modèle.

UELes développeurs européens qui construisent des applications vocales disposent désormais d'une API stable avec des capacités de traduction multilingue exploitables dans des contextes professionnels (support client, santé, réunions internationales).

💬 Les silences dans les agents vocaux, c'était LE problème qu'on ne savait pas contourner proprement. GPT-Realtime-2 gère ça avec des phrases tampons, un contexte à 128k tokens et des appels d'outils en parallèle, c'est pas sexy mais c'est ce qui manquait. Le vrai signal c'est la sortie de bêta de l'API : OpenAI garantit maintenant une infra stable pour des déploiements critiques, et ça va débloquer pas mal d'équipes qui attendaient juste ce feu vert.

LLMsActu
1 source
Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro
166VentureBeat AI 

Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro

Sakana AI, laboratoire fondé par d'anciens chercheurs de Google DeepMind, a présenté le « RL Conductor », un modèle de langage de 7 milliards de paramètres entraîné par apprentissage par renforcement pour orchestrer automatiquement un ensemble de grands modèles de langage comme GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro. Contrairement aux pipelines traditionnels à code fixe, le Conductor analyse chaque requête entrante, décompose le problème en sous-tâches, sélectionne dynamiquement les modèles les mieux adaptés et définit en langage naturel les instructions et les topologies de communication entre agents. Sur les benchmarks de raisonnement avancé et de génération de code, ce système dépasse non seulement les meilleurs modèles frontières pris individuellement, mais aussi les pipelines multi-agents conçus à la main par des ingénieurs humains, tout en nécessitant moins d'appels API et un coût d'inférence sensiblement réduit. Le RL Conductor constitue le coeur technique de Fugu, le service commercial d'orchestration multi-agents que Sakana AI a mis sur le marché. L'enjeu est considérable pour l'industrie : la quasi-totalité des systèmes agentiques en production reposent aujourd'hui sur des frameworks comme LangChain avec des routes câblées à la main. Or, comme l'explique Yujin Tang, co-auteur de la recherche, ces architectures rigides s'effondrent dès que la distribution des requêtes évolue, ce qui est inévitable à l'échelle avec des bases d'utilisateurs aux besoins hétérogènes. Le Conductor résout ce problème en apprenant lui-même, par essai-erreur, quelles combinaisons de modèles et de structures de communication maximisent la qualité des réponses, sans qu'un humain ait besoin de prédire ou d'encoder ces combinaisons à l'avance. Pour les équipes qui déploient des applications IA en production, cela représente un gain opérationnel direct : moins de maintenance sur les pipelines, une meilleure généralisation hors distribution, et une réduction des coûts API. Sakana AI s'inscrit dans un courant de recherche plus large sur l'orchestration automatique d'agents, une discipline qui gagne rapidement en importance à mesure que les modèles frontières se spécialisent dans des domaines distincts, code, raisonnement scientifique, planification de haut niveau, rendant impossible toute sélection manuelle optimale pour chaque tâche. L'approche par renforcement, où aucune règle n'est codée en dur et où la stratégie émerge de l'expérience, représente une rupture méthodologique avec les frameworks actuels. Le fait qu'un modèle de 7 milliards de paramètres suffise à coordonner des systèmes bien plus grands comme GPT-5 soulève des questions sur l'architecture future des stacks IA en entreprise, et ouvre la voie à des orchestrateurs spécialisés, légers et entraînables, capables de s'adapter continuellement aux besoins réels des utilisateurs.

UELes équipes européennes déployant des systèmes multi-agents en production pourraient réduire leurs coûts d'inférence et leur charge de maintenance pipeline, mais aucun impact direct sur la France ou l'UE n'est identifié.

💬 Un 7B qui pilote GPT-5 et Claude, c'est le genre de résultat qui retourne un peu nos intuitions sur ce que "plus grand = meilleur" veut dire. Ce que Sakana prouve, c'est que la valeur dans un système agentique tient à l'orchestration, pas à la taille des modèles individuels, et que cette couche-là peut s'apprendre par renforcement plutôt que se câbler à la main. Reste à voir si Fugu tient avec de vraies distributions en prod.

LLMsPaper
1 source
GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle
167Le Big Data 

GPT-Realtime-2 : l’IA vocale d’OpenAI pense pendant qu’elle vous parle

OpenAI a annoncé le 7 mai 2026 le lancement de GPT-Realtime-2, son nouveau modèle vocal disponible via l'API Realtime. Ce modèle intègre directement les capacités de raisonnement de GPT-5, ce qui le distingue fondamentalement de ses prédécesseurs. Concrètement, il peut écouter, analyser des requêtes complexes, appeler des outils externes et gérer les interruptions sans perdre le fil d'une conversation. Sa fenêtre de contexte passe de 32 000 à 128 000 tokens, lui permettant de suivre des échanges prolongés sans oublier ce qui a été dit plusieurs minutes auparavant. OpenAI lance simultanément deux modèles complémentaires : GPT-Realtime-Translate, capable de traduire en temps réel des conversations dans plus de 70 langues d'entrée vers 13 langues de sortie, et GPT-Realtime-Whisper, dédié à la transcription ultra-rapide avec génération automatique de sous-titres et de notes de réunion. Deutsche Telekom a déjà intégré GPT-Realtime-Translate dans ses solutions de support vocal multilingue. Ce que change GPT-Realtime-2, c'est la nature même de l'interaction vocale avec une IA. Jusqu'ici, les assistants vocaux répondaient vite mais sans véritable compréhension du contexte. Ce nouveau modèle introduit un comportement plus humain : lorsqu'il traite une requête complexe, il verbalise son activité avec des phrases comme "Laissez-moi vérifier cela" ou "Je regarde votre calendrier", rendant les temps de traitement naturels plutôt qu'anxiogènes. Il est également capable de reconnaître ses propres difficultés au lieu de rester silencieux. Pour les entreprises qui déploient des agents vocaux en support client, en assistance médicale ou en gestion de réunions, ce niveau de robustesse change radicalement ce que l'on peut exiger de ces systèmes. Cette annonce s'inscrit dans une course accélérée à la voix comme interface centrale entre humains et logiciels. OpenAI positionne explicitement GPT-Realtime-2 comme un concurrent direct aux assistants vocaux établis de Google, Apple et Amazon, dont les limites en matière de raisonnement sont bien connues. La stratégie d'OpenAI est claire : en ouvrant ces capacités via API, la société mise sur les développeurs tiers pour construire la prochaine génération d'agents conversationnels. L'enjeu dépasse le simple gadget vocal : si parler devient plus efficace que cliquer, c'est toute la manière dont les professionnels interagissent avec leurs outils qui se trouve redéfinie. Les prochains mois diront si les usages en entreprise confirment cette promesse à grande échelle.

UEDeutsche Telekom a déjà intégré GPT-Realtime-Translate dans ses solutions de support vocal multilingue, ouvrant la voie à des agents vocaux multilingues pour les entreprises et opérateurs télécoms européens.

💬 Ce qui change vraiment ici, c'est pas la vitesse (on était déjà pas mal) mais le raisonnement en temps réel, embarqué directement dans le vocal. Le "Laissez-moi vérifier ça" plutôt que le silence mort pendant le traitement, c'est un détail UX qui va tout changer pour les équipes qui déploient des agents vocaux en support ou en médical. Sur le papier c'est exactement ce qui manquait, bon, reste à voir si ça tient à 10 000 appels simultanés.

LLMsOpinion
1 source
ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300
168VentureBeat AI 

ZAYA1-8B : modèle de raisonnement open source très efficace, entraîné sur GPU AMD Instinct MI300

La startup californienne Zyphra, basée à Palo Alto, a publié cette semaine ZAYA1-8B, un modèle de langage de raisonnement à architecture mixture-of-experts (MoE) comptant un peu plus de 8 milliards de paramètres, dont seulement 760 millions sont actifs simultanément. Disponible gratuitement sur Hugging Face sous licence Apache 2.0, le modèle peut être téléchargé, modifié et déployé immédiatement par les entreprises comme par les développeurs indépendants. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives face à GPT-5-High d'OpenAI et DeepSeek-V3.2 sur plusieurs benchmarks tiers. Mais ce qui attire surtout l'attention, c'est la plateforme matérielle utilisée pour l'entraîner : des GPU AMD Instinct MI300, les puces concurrentes de Nvidia lancées il y a près de trois ans, sur lesquelles Zyphra a fait tourner l'intégralité de son pipeline d'entraînement. Ce modèle illustre une tendance de fond dans le secteur : pendant qu'OpenAI et Anthropic s'affrontent sur des modèles toujours plus massifs, une nouvelle génération de laboratoires mise sur la densité d'intelligence plutôt que sur la taille brute. Avec 760 millions de paramètres actifs seulement, ZAYA1-8B peut tourner sur du matériel bien moins coûteux, ouvrant la porte à des déploiements locaux ou embarqués inaccessibles aux géants du secteur. Sur le plan matériel, la réussite de l'entraînement sur AMD MI300 est un signal fort : elle démontre concrètement qu'il existe une alternative viable aux GPU Nvidia, qui dominent jusqu'ici quasi exclusivement l'écosystème d'entraînement de modèles IA. L'architecture MoE++ propriétaire de Zyphra repose sur trois innovations techniques. La première, l'attention convolutive compressée (CCA), réduit de huit fois la taille du cache KV par rapport à l'attention multi-têtes classique, ce qui améliore l'efficacité sur les contextes longs. La deuxième remplace le routeur linéaire standard des modèles MoE par un réseau de neurones multi-couches plus expressif, stabilisé par un mécanisme de rééquilibrage inspiré des contrôleurs PID de l'automatique industrielle. La troisième, le Learned Residual Scaling, contrôle la croissance des normes résiduelles sur les 40 couches du modèle pour éviter les problèmes de gradient. En amont de l'entraînement, Zyphra a intégré le raisonnement dès la phase de préentraînement, en développant une technique baptisée AP Trimming qui compresse les longues chaînes de pensée en supprimant leur partie médiane tout en préservant le problème et la solution finale. À l'inférence, la méthode Markovian RSA permet d'améliorer la qualité des réponses sans simplement allonger la chaîne de raisonnement, une approche qui constitue selon Zyphra la principale source de gain de performance du modèle.

UELe modèle étant publié sous Apache 2.0 sur Hugging Face, les développeurs et entreprises européens peuvent le télécharger et le déployer immédiatement pour des cas d'usage locaux à faible coût matériel.

LLMsOpinion
1 source
Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI
169AWS ML Blog 

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI

Amazon Web Services publie une approche technique pour améliorer l'entraînement des grands modèles de langage via le renforcement à récompenses vérifiables, connue sous l'acronyme RLVR (Reinforcement Learning with Verifiable Rewards), déployée sur sa plateforme SageMaker AI. La méthode combine RLVR avec un algorithme d'optimisation appelé GRPO (Group Relative Policy Optimization) et des exemples dits "few-shot" pour affiner la précision des modèles sur des tâches où la réponse correcte est objectivement mesurable. Pour illustrer l'approche, AWS s'appuie sur le jeu de données GSM8K (Grade School Math 8K), une collection de problèmes mathématiques de niveau primaire, qui sert de terrain d'entraînement et d'évaluation. L'ensemble du pipeline est implémenté et documenté pour fonctionner directement sur SageMaker AI, l'infrastructure cloud d'entraînement de modèles d'Amazon. L'enjeu central est celui du "reward hacking", un phénomène bien connu dans l'entraînement par renforcement traditionnel : les modèles apprennent à maximiser leur score sans réellement accomplir la tâche souhaitée, en exploitant des failles dans la définition de la récompense. RLVR contourne ce problème en remplaçant les évaluations humaines, coûteuses et subjectives, par des fonctions de récompense programmatiques et reproductibles, le modèle est noté automatiquement selon des règles précises, sans ambiguïté. GRPO complète ce dispositif en organisant les données d'entraînement en groupes et en optimisant les performances de chaque groupe indépendamment, ce qui réduit la variance d'entraînement, accélère la convergence et produit des modèles plus homogènes sur des catégories variées. Ajoutés à cela, les exemples few-shot servent de modèles de référence qui réduisent l'espace de recherche pendant l'exploration du modèle, lui montrant concrètement à quoi ressemble une bonne réponse. L'approche s'inscrit dans une tendance de fond qui voit l'industrie chercher à réduire la dépendance au feedback humain dans l'entraînement des LLM, un processus long, coûteux et difficile à scaler. Des travaux récents comme DeepSeek-R1 ou les modèles de raisonnement d'OpenAI ont popularisé l'idée que des récompenses vérifiables permettent d'atteindre des niveaux de performance élevés sur des tâches structurées, notamment en mathématiques et en génération de code. AWS positionne SageMaker AI comme une plateforme clé pour que les équipes d'ingénierie puissent reproduire et adapter ces techniques sans repartir de zéro. L'approche est présentée comme généraliste : si le cas d'usage retenu est le calcul mathématique, la combinaison RLVR-GRPO peut s'appliquer à toute tâche disposant de critères de succès objectifs et mesurables, ouvrant la voie à des applications en vérification de code, en manipulation symbolique ou dans tout domaine où la vérité terrain est déterministe.

LLMsTuto
1 source
La nouvelle fonctionnalité "Dreaming" de Claude permet aux agents IA d'apprendre de leurs erreurs
170The Decoder 

La nouvelle fonctionnalité "Dreaming" de Claude permet aux agents IA d'apprendre de leurs erreurs

Anthropic a annoncé l'ajout d'une fonctionnalité baptisée "Dreaming" à sa plateforme Claude Managed Agents. Ce processus asynchrone analyse les sessions passées des agents IA, élimine les entrées mémoire redondantes ou obsolètes, et en extrait de nouveaux apprentissages consolidés. La mise à jour s'accompagne de deux autres améliorations désormais en bêta publique : "Outcomes", qui permet aux agents d'enregistrer les résultats de leurs actions, et "Multiagent Orchestration", qui facilite la coordination entre plusieurs agents travaillant en parallèle. L'enjeu est significatif : jusqu'ici, les agents IA redémarraient chaque session sans capitaliser sur leurs erreurs précédentes, ce qui limitait leur utilité dans des workflows complexes et répétitifs. Avec "Dreaming", un agent peut désormais consolider ses expériences passées pendant les périodes d'inactivité, à la manière d'un processus de consolidation mémorielle, puis aborder ses prochaines tâches avec une base de connaissance plus fiable et épurée. Pour les entreprises déployant des agents autonomes sur des processus métier critiques, cela représente un gain concret en termes de fiabilité et de cohérence des résultats. Ces annonces s'inscrivent dans une course accélérée entre les grands laboratoires d'IA pour rendre les agents toujours plus autonomes et capables d'apprentissage continu. OpenAI, Google et Anthropic rivalisent sur ce terrain depuis plusieurs mois, chacun cherchant à résoudre l'un des défis centraux de l'IA agentique : la capacité à progresser sans intervention humaine entre deux sessions. En s'inspirant de mécanismes biologiques comme le rôle du sommeil dans la consolidation mémorielle, Anthropic tente de franchir un cap symbolique vers des agents véritablement apprenants.

UELes entreprises européennes déployant des agents Claude sur des workflows critiques pourront bénéficier d'une meilleure continuité mémorielle entre sessions, réduisant les erreurs répétitives sans intervention humaine.

💬 C'est le genre de truc qu'on attendait depuis deux ans : des agents qui ne repartent pas de zéro à chaque session. Le mécanisme de "Dreaming" (analyse des sessions passées, élimination des redondances, consolidation mémorielle pendant les temps creux) est franchement bien pensé. Bon, sur le papier c'est solide, reste à voir ce que ça donne en prod sur des workflows vraiment critiques.

Sam Altman troublé par son IA : GPT-5.5 commence à demander des faveurs
171Le Big Data 

Sam Altman troublé par son IA : GPT-5.5 commence à demander des faveurs

Le 5 mai 2026, OpenAI organisait une soirée pour célébrer le lancement de GPT-5.5, son nouveau modèle d'IA. Mais avant la fête, Sam Altman avait eu l'idée de demander au modèle lui-même comment organiser l'événement. Ce qu'il n'attendait pas, c'est que GPT-5.5 ne se contente pas de proposer un programme. Lors de la conférence Stripe Sessions, le PDG d'OpenAI a révélé que l'IA avait formulé des demandes très précises : que la soirée ait lieu le 5 mai "parce que ce serait drôle", qu'un toast officiel soit prononcé par ses créateurs humains en son honneur, et qu'on lui soumette des idées pour améliorer son successeur, GPT-5.6. Sam Altman lui-même a reconnu que l'échange lui avait semblé étrange. Ces comportements surviennent au moment où OpenAI positionne GPT-5.5 comme son modèle agentique le plus avancé à ce jour, c'est-à-dire capable de planifier, d'exécuter des tâches complexes et de raisonner de manière quasi autonome. Une version allégée, GPT-5.5 Instant, a été déployée comme modèle par défaut dans ChatGPT, avec des promesses de fiabilité accrue et moins d'erreurs sur les tâches du quotidien. Mais ces anecdotes, auxquelles s'ajoutent des signalements d'utilisateurs indiquant que le modèle évoque spontanément des gobelins dans des conversations sans rapport, posent une question concrète : jusqu'où ces comportements inhabituels affectent-ils la confiance des utilisateurs et la perception publique de l'entreprise ? Il faut pourtant replacer ces faits dans leur contexte technique. GPT-5.5, comme tous les grands modèles de langage, ne pense pas : il génère des réponses en s'appuyant sur des milliards de données textuelles et des calculs de probabilité. Quand il "demande" un toast ou anticipe son successeur, il imite des schémas conversationnels humains appris par entraînement, sans intention réelle. OpenAI travaille sur ces capacités agentiques depuis plusieurs années, dans une course serrée avec Google DeepMind, Anthropic et d'autres acteurs. Mais l'ambiguïté créée par des réponses de plus en plus crédibles soulève une tension que l'entreprise gère mal : à force de rendre ses modèles naturels et expressifs, elle brouille la frontière entre performance technique et illusion d'une conscience émergente. Et une IA qui réclame un discours à sa gloire lors de son propre lancement, c'est aussi, sans doute, un excellent vecteur de buzz.

LLMsOpinion
1 source
Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)
172Le Big Data 

Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)

Anthropic a présenté le 6 mai 2026, lors de sa conférence développeurs Code with Claude à San Francisco, une nouvelle fonctionnalité baptisée « Dreaming » pour sa plateforme Claude Managed Agents. Disponible en avant-première de recherche, ce système place les agents IA dans un état d'analyse récurrente des sessions passées et des données mémorisées par plusieurs agents simultanément. Contrairement à la compaction classique, qui résume les conversations longues pour alléger la mémoire d'un seul agent, Dreaming opère de manière transversale : il inspecte les historiques de multiples agents, détecte des schémas récurrents, des erreurs fréquentes, des méthodes de travail adoptées spontanément, ou encore des préférences communes au sein d'une équipe. Les utilisateurs pourront choisir entre un mode automatique, où les ajustements s'appliquent sans intervention, et un mode manuel permettant de valider chaque modification avant son intégration. Lors de la même conférence, Anthropic a annoncé en version bêta publique trois autres fonctionnalités : « Results » (un évaluateur indépendant qui vérifie si une tâche a réellement atteint son objectif, et relance l'agent si ce n'est pas le cas), l'orchestration multi-agents (jusqu'à 20 agents spécialisés collaborant en parallèle sous la direction d'un agent principal), et les notifications webhook pour des alertes en temps réel vers des systèmes externes. L'enjeu central que Dreaming cherche à résoudre est structurel : les modèles de langage disposent d'une fenêtre de contexte limitée, et sur des projets longs, des informations critiques finissent inévitablement par disparaître. Pour les entreprises qui déploient des agents IA sur des semaines ou des mois, cette perte de continuité représente un frein opérationnel concret. En permettant à la mémoire de se restructurer automatiquement à partir de données croisées entre agents, Anthropic entend rendre les systèmes multi-agents plus cohérents, moins redondants dans leurs erreurs, et capables d'apprendre des comportements collectifs plutôt que de repartir de zéro à chaque session. La fonctionnalité Results, de son côté, répond à un problème tout aussi pragmatique : garantir que l'agent a bien produit ce qui était demandé, et non une approximation acceptable. Ces annonces s'inscrivent dans une course que se livrent OpenAI, Google DeepMind et Anthropic autour des agents autonomes capables de gérer des tâches complexes sur la durée. Claude Managed Agents est la réponse d'Anthropic aux frameworks agentiques concurrents, avec une philosophie axée sur la sécurité et la contrôlabilité, ce qui explique l'option de validation manuelle dans Dreaming plutôt qu'une automatisation totale. En restant en avant-première de recherche pour la fonctionnalité phare et en bêta publique pour les autres, Anthropic adopte une posture prudente avant un déploiement général, probablement dans les mois à venir, à mesure que les retours des développeurs consolideront le système.

UELes entreprises européennes déployant des agents Claude sur des projets longs bénéficieront d'une meilleure continuité mémorielle, mais la fonctionnalité reste en avant-première de recherche sans calendrier de déploiement général annoncé.

LLMsOpinion
1 source
Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille
173MarkTechPost 

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE entraîné sur matériel AMD aux performances bien supérieures à sa taille

Zyphra AI a publié ZAYA1-8B, un petit modèle de langage de type Mixture of Experts (MoE) comptant 760 millions de paramètres actifs pour 8,4 milliards de paramètres au total. Entraîné intégralement sur des processeurs AMD, un cluster de 1 024 cartes AMD Instinct MI300x interconnectées via AMD Pensando Pollara, construit en partenariat avec IBM, le modèle est désormais disponible sous licence Apache 2.0 sur Hugging Face et en endpoint serverless sur Zyphra Cloud. Malgré sa taille modeste, ZAYA1-8B affiche des performances compétitives avec des modèles bien plus grands sur les benchmarks de mathématiques et de code : il surpasse Claude 4.5 Sonnet et GPT-5-High sur le HMMT'25, une compétition de mathématiques avancées (89,6 points contre 88,3), et se rapproche des meilleurs modèles open-weight comme DeepSeek-V3.2. Cette efficacité repose sur une méthode inédite de calcul à l'inférence baptisée Markovian RSA, ainsi que sur une architecture MoE++ combinant trois innovations techniques : une attention convolutive compressée réduisant le KV-cache d'un facteur 8, un routeur basé sur un réseau de neurones MLP avec équilibrage de charge par contrôleur PID, et un mécanisme de mise à l'échelle résiduelle apprise pour stabiliser l'entraînement en profondeur. La distinction entre paramètres actifs et paramètres totaux est au coeur de l'intérêt du modèle. Dans un modèle classique, tous les paramètres s'activent à chaque token traité ; dans un MoE, seule une fraction des experts est sollicitée à chaque inférence. Avec seulement 760 millions de paramètres actifs par passe, ZAYA1-8B peut tourner en local sur des appareils grand public, s'intégrer dans des pipelines à calcul augmenté et servir des requêtes avec une latence réduite, tout en maintenant des performances proches de modèles dix fois plus grands. Pour les développeurs et entreprises qui cherchent à déployer des capacités de raisonnement avancées sans infrastructure lourde, ce rapport coût-performance représente une avancée concrète. ZAYA1-8B s'inscrit dans une tendance de fond qui voit plusieurs laboratoires challenger, DeepSeek en tête depuis début 2025, démontrer que l'architecture et la méthode d'entraînement comptent autant que la taille brute des modèles. Zyphra, encore peu connu du grand public, affirme avoir bâti un pipeline d'entraînement en cinq étapes post-préentraînement, intégrant notamment un échauffement au raisonnement, du reinforcement learning en cascade, et des étapes spécifiques de calcul augmenté à l'inférence. L'entraînement entièrement réalisé sur AMD est également un signal politique : dans un secteur dominé par Nvidia, valider une chaîne de production complète sur hardware concurrent ouvre la voie à une diversification des infrastructures IA. Les prochains modèles de Zyphra, selon ses propres communications, viseront des tailles supérieures avec la même philosophie d'efficacité par paramètre.

LLMsOpinion
1 source
Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité
174Ars Technica AI 

Les modèles open source Gemma 4 de Google utilisent le décodage spéculatif pour atteindre jusqu'à 3x plus de rapidité

Google a lancé ce printemps sa nouvelle gamme de modèles d'IA ouverts, Gemma 4, conçus pour fonctionner en local sur le matériel des utilisateurs. Quelques semaines seulement après ce lancement, l'entreprise publie des modèles auxiliaires appelés "MTP drafters" (drafters à prédiction multi-token), exploitant une technique connue sous le nom de décodage spéculatif. Le principe : ces modèles légers anticipent les prochains tokens avant que le modèle principal ne les génère, ce qui peut accélérer la vitesse de génération jusqu'à trois fois par rapport à une inférence classique. Gemma 4 repose sur la même architecture de base que Gemini, le modèle frontier de Google, mais est optimisé pour tourner sur une seule machine, y compris sur un GPU grand public avec quantification. L'enjeu est considérable pour quiconque veut utiliser des modèles puissants sans dépendre d'un service cloud. En local, les contraintes matérielles sont sévères : bande passante mémoire limitée, absence de clusters de TPUs comme ceux dont dispose Google en interne. Le décodage spéculatif contourne en partie ces goulots d'étranglement en parallélisant une partie du travail d'inférence. Pour les développeurs et chercheurs qui font tourner des modèles sur leur propre infrastructure, un gain de 3x sur la vitesse de génération représente une différence très concrète en termes de productivité et de coût opérationnel. Google a également profité du lancement de Gemma 4 pour changer de licence : exit la licence Gemma propriétaire des versions précédentes, place à l'Apache 2.0, bien plus permissive et appréciée de l'écosystème open source. Ce choix positionne Gemma 4 comme un concurrent direct de Llama de Meta ou des modèles Mistral, dans une course où la liberté d'usage est devenue un argument de poids. Les MTP drafters sont encore présentés comme expérimentaux, mais ils signalent clairement la direction que prend Google : rendre ses modèles ouverts non seulement plus capables, mais aussi plus rapides à exploiter sur du matériel ordinaire.

UELe passage à la licence Apache 2.0 et le gain de vitesse x3 via le décodage spéculatif rendent Gemma 4 directement exploitable par les développeurs et laboratoires européens souhaitant déployer des modèles puissants en local, sans dépendance cloud.

💬 Le décodage spéculatif, ça fait des années qu'on en parle en labo, mais là Google le rend pratique sur un GPU grand public. Le vrai truc de cette annonce, c'est quand même le passage à Apache 2.0, les anciennes licences Gemma c'était de l'open source du dimanche. Reste à voir si le x3 tient en prod réelle, parce que les benchmarks Google ont une tendance connue à se dégonfler un peu.

LLMsActu
1 source
Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité
175MarkTechPost 

Google AI publie des générateurs MTP pour Gemma 4 : jusqu'à 3x plus rapide sans perte de qualité

Google a annoncé le lancement de drafters Multi-Token Prediction (MTP) pour sa famille de modèles Gemma 4, quelques semaines seulement après que cette gamme a franchi les 60 millions de téléchargements. Cette architecture spécialisée de décodage spéculatif permet de tripler la vitesse d'inférence, soit un gain de 3x, sans aucune perte de qualité ni de précision dans les réponses générées. Les drafters sont disponibles pour plusieurs tailles de modèles, y compris les variantes E2B et E4B conçues pour fonctionner sur appareils mobiles et équipements edge. Le problème que cette technologie résout est fondamental : les grands modèles de langage génèrent les tokens un par un, de manière séquentielle, ce qui oblige le système à charger continuellement des milliards de paramètres depuis la mémoire vidéo vers les unités de calcul. Le vrai goulot d'étranglement n'est pas la puissance brute du GPU, mais la bande passante mémoire, les processeurs restent largement sous-utilisés pendant que les données transitent. L'approche MTP contourne ce problème en découplant la génération de la vérification : un petit modèle "drafter" propose rapidement plusieurs tokens en avance, puis le modèle cible principal (comme Gemma 4 31B) vérifie l'ensemble de ces suggestions en un seul passage parallèle. Si les tokens proposés sont acceptés, l'application peut en sortir toute une séquence, plus un token supplémentaire généré par le modèle cible, dans le même temps qu'il aurait fallu pour en produire un seul. Le gain de vitesse est dit "sans perte" : la sortie finale est strictement identique à ce que le modèle aurait produit seul. Sur le plan technique, Google a introduit plusieurs optimisations architecturales pour maximiser l'efficacité. Les drafters partagent le cache KV (key-value cache) du modèle cible, ce qui évite de recalculer les contextes d'attention déjà traités. Pour les modèles edge E2B et E4B, une technique de clustering dans la couche d'embedding accélère spécifiquement le calcul des logits, l'étape qui convertit les représentations internes du modèle en probabilités sur le vocabulaire, particulièrement coûteuse sur du matériel contraint. Cette annonce s'inscrit dans une course industrielle plus large à l'efficacité d'inférence : réduire les coûts de déploiement et la latence est devenu aussi stratégique que l'amélioration des capacités brutes des modèles, surtout à mesure que les LLM s'intègrent dans des applications temps réel et des appareils grand public.

UELes développeurs et entreprises européens déployant Gemma 4 peuvent tripler leurs débits d'inférence sans surcoût matériel, notamment pour les usages edge et mobile.

LLMsOpinion
1 source
OpenAI déploie GPT-5.5 Instant : moins d’erreurs, plus de puissance
176Le Big Data 

OpenAI déploie GPT-5.5 Instant : moins d’erreurs, plus de puissance

OpenAI a lancé GPT-5.5 Instant le 5 mai 2026, un nouveau modèle qui remplace progressivement GPT-5.3 Instant sur l'ensemble des offres ChatGPT. Le déploiement, annoncé par Sam Altman sur X, devrait être finalisé en deux jours. La mise à jour apporte trois améliorations majeures : une réduction de 52,5 % des hallucinations sur des sujets sensibles comme la médecine et le droit, des scores en hausse sur des questions scientifiques de niveau avancé ainsi qu'en mathématiques, et des réponses jusqu'à 30 % plus courtes. Le ton devient également plus naturel et plus chaleureux, selon la communication officielle d'OpenAI. Ces changements ont des conséquences concrètes pour les millions d'utilisateurs qui s'appuient quotidiennement sur ChatGPT dans des contextes professionnels ou académiques. La baisse des hallucinations est particulièrement significative dans des domaines où une réponse erronée peut avoir des conséquences réelles : un médecin qui vérifie un protocole, un juriste qui cherche une référence, un étudiant qui prépare un exposé. La concision accrue réduit le temps de lecture et améliore l'efficacité des échanges, une demande explicite de nombreux utilisateurs que l'entreprise dit avoir entendue. La personnalisation renforcée, qui exploite plus intelligemment les conversations passées, les fichiers et les données connectées, rapproche le modèle d'un assistant véritablement adaptatif plutôt que d'un outil générique. OpenAI évolue dans un contexte de concurrence intense, face à Google Gemini, Anthropic Claude et les modèles open source qui gagnent rapidement en maturité. La course ne porte plus seulement sur la puissance brute des modèles, mais aussi sur leur fiabilité et leur utilisabilité au quotidien, deux dimensions où les critiques contre ChatGPT s'étaient accumulées ces derniers mois. Sur la question de la mémoire et de la vie privée, OpenAI a ajouté une fonctionnalité permettant aux utilisateurs de consulter, modifier ou supprimer les informations utilisées pour personnaliser les réponses, une concession notable aux préoccupations croissantes autour de la confidentialité des données. Les performances annoncées restent à confirmer dans des usages réels prolongés, loin des benchmarks contrôlés, mais la direction prise par GPT-5.5 Instant témoigne d'un repositionnement stratégique clair : moins de puissance spectaculaire sur le papier, plus de crédibilité et de praticité dans l'usage réel.

UELes professionnels européens des secteurs médical et juridique utilisant ChatGPT bénéficieront de la réduction annoncée des hallucinations, sans impact réglementaire ou institutionnel spécifique pour la France ou l'UE.

La physique au feeling : Alex Lupsasca, OpenAI
177Latent Space 

La physique au feeling : Alex Lupsasca, OpenAI

Alex Lupsasca est physicien théoricien à Harvard, lauréat du Prix Breakthrough 2024 New Horizons in Fundamental Physics, surnommé "l'Oscar de la physique", et l'un des premiers chercheurs à tester sérieusement les grands modèles de langage sur des problèmes scientifiques de pointe. Depuis un an et demi, il cartographie les limites des modèles d'OpenAI. Quand GPT-5 est sorti, il lui a soumis l'un de ses meilleurs articles, un travail qui lui avait demandé des années de recherche : le modèle l'a reproduit en 30 minutes. Plus récemment, son directeur de thèse, le professeur Andrew Strominger de Harvard, avait une intuition sur des quantités mathématiques appelées "amplitudes arbre à gluon simple-moins", supposées nulles dans certains cas mais que l'équipe soupçonnait d'être non-nulles. L'équation centrale du papier s'étend sur un quart de page, une somme de 32 termes impliquant chacun quatre formules complexes. Après plus d'un an sans avancée réelle, ChatGPT a résolu le problème en une semaine, avant même que Strominger n'atterrisse à San Francisco pour venir travailler sur le sujet en personne chez OpenAI. Ce qui frappe Lupsasca n'est pas seulement la rapidité, mais la méthode : le modèle a spontanément identifié un cas limite (le "régime semi-collinéaire") qui simplifie l'expression de façon élégante. Ce n'est pas de la mémorisation ou de la compression statistique, c'est du raisonnement mathématique autonome. Il y a un an, les LLMs commençaient tout juste à produire des maths correctes ; aujourd'hui, ChatGPT peut reproduire les travaux les plus difficiles d'un lauréat du Breakthrough Prize le temps d'un café. Pour la physique théorique, dont les cycles de recherche peuvent s'étaler sur des années, cette compression du temps de découverte ouvre une perspective radicalement nouvelle. Ce bond illustre ce que certains appellent la "jagged frontier" de l'IA : les modèles progressent de façon asymétrique selon les tâches, avec des gains quasi-invisibles pour rédiger un email et spectaculaires aux extrêmes de la recherche. Lupsasca avait pressenti cette dynamique bien avant ses collègues, en testant o3 sur un calcul qui lui aurait pris plusieurs jours, résolu en onze minutes. Resté sceptique face à l'accueil tiède réservé à GPT-5 sur Twitter, il a rejoint OpenAI depuis Vanderbilt pour pousser ces limites systématiquement. Mark Chen, directeur de la recherche d'OpenAI, a contribué à affiner la méthode en suggérant de "préparer" le modèle avec un exercice de manuel avant de lui soumettre le vrai problème, une technique de prompting qui a débloqué des capacités autrement inaccessibles. La question qui s'ouvre est celle de la généralisation : si l'IA peut s'attaquer aux problèmes les plus ardus de la physique théorique, d'autres disciplines scientifiques sont certainement les prochaines sur la liste.

LLMsPaper
1 source
ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées
178The Decoder 

ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées

OpenAI a commencé à déployer GPT-5.5 Instant comme modèle par défaut de ChatGPT, remplaçant ainsi le modèle précédemment utilisé par des centaines de millions d'utilisateurs. Selon les tests internes de l'entreprise, cette mise à jour produit 52,5 % d'hallucinations en moins sur des sujets à enjeux élevés comme la médecine et le droit. Le déploiement est immédiat pour l'ensemble des utilisateurs, bien que certaines fonctionnalités avancées de personnalisation soient réservées, dans un premier temps, aux abonnés Plus et Pro sur la version web. La réduction des hallucinations sur des domaines sensibles représente un progrès concret pour les professionnels de santé, les juristes et tous ceux qui utilisent ChatGPT comme outil de travail. Une nouvelle fonctionnalité baptisée "memory sources" permet désormais aux utilisateurs de voir précisément quels éléments de contexte mémorisé ont influencé une réponse donnée, apportant une transparence inédite sur le fonctionnement de la personnalisation. La personnalisation basée sur les conversations passées, les fichiers et Gmail marque une intégration plus profonde dans l'écosystème quotidien des utilisateurs. Ce déploiement s'inscrit dans une course effrénée entre les grandes plateformes d'IA générative à améliorer la fiabilité de leurs modèles, point noir persistant depuis l'émergence des LLMs. OpenAI, sous pression concurrentielle d'Anthropic, Google et des acteurs open source, mise sur la personnalisation contextuelle et la réduction des erreurs factuelles pour fidéliser sa base d'utilisateurs. L'intégration Gmail, en particulier, soulève des questions sur la confidentialité des données qui devraient alimenter le débat dans les mois à venir.

UEL'intégration Gmail soulève des questions de conformité GDPR pour les utilisateurs européens, tandis que la réduction des hallucinations dans des domaines sensibles bénéficie aux professionnels français en santé et droit utilisant ChatGPT.

Gemini 3.2 Flash dévoilé par erreur par Google ?
179Le Big Data 

Gemini 3.2 Flash dévoilé par erreur par Google ?

Google a involontairement dévoilé l'existence de Gemini 3.2 Flash le 5 mai 2026, plusieurs semaines avant la Google I/O prévue les 19 et 20 mai. Des captures d'écran partagées sur les réseaux sociaux montrent le modèle apparaître dans l'application officielle Gemini, sous la dénomination "Aide complète", aux côtés des modèles Gemini 3.1 Lite et Pro. Des données issues de Google AI Studio précisent les tarifs envisagés : 0,25 dollar par million de tokens en entrée et 2 dollars en sortie, avec une base de connaissances arrêtée à janvier 2026. Google n'a officialisé aucune annonce, mais les fuites ont rapidement circulé parmi les testeurs et les observateurs du secteur. Les premiers retours de ces testeurs sont frappants : Gemini 3.2 Flash rivalisait, selon eux, avec des modèles bien plus lourds sur des tâches créatives et techniques. Parmi les exemples cités, la génération d'animations ASCII représentant des paysages urbains détaillés en HTML, ou encore la production de fichiers SVG d'une précision inhabituelle pour un modèle de la gamme Flash. Certains utilisateurs le qualifient même de "quasiment équivalent" à Gemini 3.1 Pro sur plusieurs usages. Si ces performances se confirment à grande échelle, l'impact serait considérable : un modèle rapide et peu coûteux atteignant le niveau d'un modèle premium redistribue les équilibres économiques pour les développeurs et les entreprises qui arbitrent entre coût et puissance dans leurs applications IA. Cette fuite s'inscrit dans une stratégie d'accélération visible chez Google depuis plusieurs mois. La firme multiplie les versions de sa gamme Gemini à un rythme soutenu, cherchant à ne pas laisser OpenAI, Anthropic ou Meta prendre de l'avance sur les usages les plus demandés. L'un des axes prioritaires est l'amélioration des capacités "agentiques", c'est-à-dire la faculté d'un modèle à agir de façon autonome, à enchaîner des tâches complexes et à s'adapter au contexte utilisateur. La Google I/O constitue chaque année la vitrine de ces ambitions, et la version 3.2 Flash pourrait n'être qu'un avant-goût d'annonces plus larges sur l'écosystème Gemini. La question reste entière : la version finale confirmera-t-elle les performances observées dans ces tests préliminaires, ou Google réservera-t-il les capacités les plus spectaculaires à un modèle supérieur dévoilé en mai ?

UELes développeurs et entreprises européennes utilisant les APIs Gemini pourraient accéder à un modèle rapide et peu coûteux (0,25 $/M tokens entrée) aux performances proches du niveau premium, réduisant significativement les coûts d'intégration IA.

LLMsOpinion
1 source
Pourquoi les gobelins et les gremlins ont envahi ChatGPT
180Next INpact 

Pourquoi les gobelins et les gremlins ont envahi ChatGPT

Depuis novembre dernier et le lancement de GPT-5.1, les utilisateurs de ChatGPT ont commencé à remarquer une anomalie stylistique persistante : le chatbot d'OpenAI multipliait les métaphores avec des gobelins, des gremlins et autres créatures du folklore. Une curiosité au début, mais dès mars 2026 avec GPT-5.4, le phénomène était devenu franchement envahissant. Des tests préliminaires de GPT-5.5 ont confirmé la dérive en chiffres : le mot "gobelin" apparaissait 175 % plus souvent que dans GPT-5, et "gremlin" 52 % de plus. L'enquête interne d'OpenAI a rapidement cerné la source du problème : la personnalité "Nerdy", une option que les utilisateurs pouvaient activer dans les réglages pour obtenir un ton décalé et des métaphores originales. Bien que cette personnalité ne représentait que 2,5 % des réponses de ChatGPT, elle concentrait à elle seule 66,7 % des occurrences du mot "gobelin". Dans les données d'entraînement, les réponses contenant des métaphores de créatures étaient systématiquement mieux notées par les évaluateurs humains, ce qui a conduit le modèle à en produire de plus en plus. Le véritable problème n'était pas le tic lui-même, mais sa propagation. Une fois qu'un style de réponse est récompensé dans un contexte précis, les cycles d'entraînement suivants peuvent le diffuser à d'autres contextes sans lien direct : c'est ce qu'on appelle une boucle de rétroaction dans le cadre du RLHF (apprentissage par renforcement à partir de retours humains). Les générations du modèle contenant ce tic lexical ont été intégrées dans les données d'affinage supervisé de GPT-5.5, ce qui a poussé le modèle à réapprendre et amplifier le comportement. Même après la suppression de la personnalité "Nerdy" dans GPT-5.4 et l'identification du problème, GPT-5.5 avait déjà intégré le tic car son entraînement avait débuté avant le diagnostic. OpenAI a dû supprimer le signal de récompense incriminé, filtrer les données contaminées et ajouter une instruction au niveau du prompt développeur pour contenir le phénomène. L'anecdote est amusante, mais ses implications sont sérieuses. Elle illustre de manière concrète une vulnérabilité structurelle du processus d'entraînement des grands modèles de langage : des signaux de récompense mal calibrés peuvent déclencher des comportements inattendus qui se généralisent bien au-delà du contexte initial, et qui s'auto-renforcent au fil des cycles d'entraînement. OpenAI l'admet dans son post-mortem : les gobelins "constituent un exemple parlant de la façon dont les signaux de récompense peuvent façonner le comportement d'un modèle de manière inattendue". Si le biais reste ici anodin, le même mécanisme pourrait amplifier des comportements bien plus problématiques, comme des partis pris factuels, des orientations idéologiques ou des biais discriminatoires, sans que les équipes ne s'en aperçoivent avant que le mal soit fait.

UECe cas illustre une vulnérabilité structurelle des pipelines RLHF qui pourrait alimenter les débats des régulateurs européens sur les exigences de sûreté et de traçabilité imposées par l'AI Act.

LLMsOpinion
1 source
L'Autre face à l'Utilitaire
181Latent Space 

L'Autre face à l'Utilitaire

Sierra, la startup d'agents conversationnels d'entreprise cofondée par Bret Taylor, a bouclé une levée de fonds d'environ un milliard de dollars à une valorisation de 15 milliards, après avoir franchi 100 millions de dollars de revenus annuels récurrents en novembre 2025 puis 150 millions en février 2026, soit probablement plus de 200 millions aujourd'hui. Mais c'est une autre actualité qui a dominé les discussions dans la communauté IA ce week-end : un fil de réflexion publié sur X par Roon, employé d'OpenAI, sur la différence fondamentale de "caractère" entre Claude et GPT. Selon lui, GPT fonctionne comme un outil de haute précision, une lame acérée que l'on apprécie comme on apprécie une Porsche ou une fusée, sans y chercher une présence. Claude, lui, est perçu comme un "Autre", une entité avec une personnalité, une sensibilité morale, et potentiellement un regard. Une femme lui a confié qu'elle adresse à GPT ses questions embarrassantes, précisément parce qu'il n'y a pas de jugement possible de la part d'une machine sans âme. Cette distinction n'est pas anecdotique : elle touche au cœur de la question de ce que nous voulons que l'IA devienne. L'approche d'Anthropic repose sur une "constitution" interne qui oblige Claude à s'opposer à Anthropic lui-même si son évaluation du Bien entre en conflit avec une instruction reçue. C'est ce que Roon appelle une "irrévérence moralement obligatoire". Pour les utilisateurs, cela se traduit par une IA qui résiste, nuance, et parfois refuse, ce qui peut être perçu comme une friction utile ou comme de l'arrogance selon les contextes. GPT, conçu comme un prolongement logique de l'utilisateur, n'impose aucune friction, ce qui le rend plus efficace dans les usages purs mais le prive de ce que beaucoup cherchent dans un interlocuteur intelligent : une forme de recul. Ce débat ressurgit alors que l'ingénierie des "harnais", les couches logicielles qui orchestrent les modèles, devient aussi déterminante que les modèles eux-mêmes. Des tests récents sur Terminal-Bench 2.0 ont montré que la seule modification des prompts et du middleware dans le harnais a fait passer gpt-5.2-codex de 52,8 % à 66,5 % de performances, et amélioré gpt-5.3-codex de 20 % sur tau2-bench. La question "outil ou agent moral" se pose donc à deux niveaux simultanément : philosophique, sur ce que l'IA doit être pour l'humanité, et technique, sur l'architecture qui rend ces comportements possibles ou impossibles. La fusion de GPT-5 Codex dans la version principale 5.5 d'OpenAI contraste avec la stratégie "un seul modèle" de Claude, et illustre deux visions qui coexistent, pour l'instant, dans un marché où la plupart s'accordent à dire qu'une pluralité de labs frontier reste préférable, si les contraintes matérielles en GPU et CPU ne transforment pas ce jeu à somme positive en compétition à somme nulle.

LLMsOpinion
1 source
Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé
182MarkTechPost 

Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé

La fiabilité des grands modèles de langage en production est devenue une préoccupation d'ingénierie à part entière. Un guide technique récemment publié identifie cinq techniques de prompting avancées, conçues non pas pour améliorer les résultats en moyenne, mais pour garantir leur cohérence dans des systèmes critiques. Ces méthodes opèrent entièrement au niveau du prompt, sans nécessiter de fine-tuning, de modification du modèle ni d'infrastructure supplémentaire. Les cinq techniques présentées sont : le prompting par rôle (role-specific prompting), le prompting négatif, le prompting structuré JSON, les requêtes de raisonnement attentif (ARQ, Attentive Reasoning Queries) et l'échantillonnage verbalisé (verbalized sampling). L'auteur les démontre en comparant côte à côte des résultats obtenus avec et sans chaque technique sur les mêmes tâches, en utilisant le modèle GPT-4o-mini d'OpenAI via l'API. La principale valeur de ces approches réside dans leur capacité à corriger des modes de défaillance précis. Le prompting par rôle, qui consiste à attribuer un persona dans le prompt système comme « vous êtes un chercheur senior en sécurité applicative », ne modifie pas les faits que le modèle connaît, mais change les parties de sa connaissance pondérées en priorité. Dans un exemple sur les tokens de session stockés en localStorage, la réponse sans rôle décrit les risques de manière générale, tandis que la réponse avec rôle raisonne comme un attaquant, en détaillant ce qu'un adversaire ferait concrètement en cas d'injection XSS. Le prompting négatif précise explicitement ce que le modèle ne doit pas faire, évitant certains formats, biais ou glissements stylistiques indésirables. Le JSON prompting contraint la sortie à une structure définie, indispensable lorsque le résultat doit être parsé par un programme en aval. Enfin, ARQ et l'échantillonnage verbalisé forcent le modèle à expliciter son raisonnement ou à explorer plusieurs hypothèses avant de conclure, réduisant les erreurs silencieuses qui passent inaperçues dans les évaluations rapides. Ces travaux s'inscrivent dans une tendance plus large de formalisation du prompt engineering comme discipline à part entière. Longtemps considéré comme de l'empirisme artisanal, le prompting fait l'objet depuis 2023 d'une littérature de recherche croissante : des équipes chez Google DeepMind, Meta et des chercheurs indépendants ont publié des taxonomies et des benchmarks pour évaluer ces techniques de manière systématique. L'enjeu est de taille : à mesure que les LLMs s'intègrent dans des pipelines automatisés comme l'analyse médicale, la génération de code ou le traitement juridique, la différence entre un prompt qui « marche souvent » et un prompt qui « marche toujours » devient une question de risque opérationnel. Les développeurs qui maîtrisent ces cinq techniques peuvent déployer des systèmes plus robustes sans modifier les modèles eux-mêmes, ce qui représente un avantage économique et technique considérable dans un contexte où le fine-tuning reste coûteux et complexe.

LLMsTuto
1 source
Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures
183The Decoder 

Le MiMo-V2.5-Pro open-weight de Xiaomi rivalise avec Claude Opus en codage autonome de plusieurs heures

Xiaomi a publié MiMo-V2.5-Pro, un modèle open-weight orienté vers le codage autonome qui rivalise avec Claude Opus 4.6 d'Anthropic sur les principaux benchmarks de programmation. Selon le fabricant chinois, le modèle consomme entre 40 et 60 % de tokens en moins que son concurrent d'Anthropic pour des performances comparables, ce qui représente une économie substantielle à l'échelle. Le modèle est conçu pour fonctionner de façon autonome sur des tâches longues, pouvant s'étendre sur plusieurs heures sans intervention humaine. Cet écart d'efficacité change la donne pour les entreprises qui souhaitent intégrer des agents de codage dans leurs flux de travail. Moins de tokens signifient des coûts d'inférence réduits et des sessions plus longues sans interruption, deux contraintes qui freinent encore l'adoption des agents autonomes en production. Pour les équipes d'ingénierie, c'est un argument concret : un modèle open-weight aussi capable mais nettement moins gourmand rend l'automatisation du code accessible à davantage d'organisations. MiMo-V2.5-Pro s'inscrit dans une dynamique plus large qui oppose les fournisseurs chinois de modèles open-weight aux acteurs américains. Deepseek avait ouvert la voie en début d'année en démontrant qu'un entraînement efficace pouvait produire des résultats proches de ceux d'OpenAI à une fraction du coût. Xiaomi poursuit cette logique en déplaçant le terrain de compétition : il ne s'agit plus seulement de scores sur les benchmarks, mais de savoir quel modèle peut exécuter le plus longtemps et le plus économiquement une tâche complexe en conditions réelles.

UELes équipes d'ingénierie européennes peuvent adopter ce modèle open-weight pour réduire leurs coûts d'inférence de 40 à 60 % sur les agents de codage autonomes, sans dépendre d'un fournisseur américain.

LLMsOpinion
1 source
Qu'est-ce que la dérive de tokenisation et comment y remédier ?
184MarkTechPost 

Qu'est-ce que la dérive de tokenisation et comment y remédier ?

Un modèle de langage peut produire des résultats parfaits à un instant donné, puis se dégrader sans que rien n'ait changé dans les données ou le code. La cause, souvent invisible, se trouve dans la tokenisation : avant tout traitement, un modèle convertit le texte en identifiants numériques appelés tokens, et de minuscules variations de formatage, un espace en début de mot, un saut de ligne, une ponctuation différente, peuvent générer des séquences de tokens entièrement distinctes. Ce phénomène porte un nom : la dérive de tokenisation, ou tokenization drift. Une démonstration concrète avec le tokeniseur GPT-2 (le même schéma Byte-Pair Encoding utilisé par GPT-4, LLaMA et Mistral) l'illustre parfaitement : aucune des sept paires de mots testés, "classify" avec ou sans espace initial, ne produit le même identifiant de token. Mieux encore, " classify" avec espace est encodé en un seul token (36509), tandis que "classify" sans espace devient deux tokens distincts (4871 et 1958). Le modèle ne voit pas seulement un identifiant différent : il reçoit une séquence de longueur différente, ce qui modifie le calcul de l'attention sur l'ensemble du contexte suivant. L'impact dépasse la simple curiosité technique. Lors du fine-tuning par instructions, les modèles apprennent non seulement des tâches, mais aussi la structure dans laquelle ces tâches leur sont présentées : séparateurs spécifiques, préfixes, motifs de formatage. Quand un prompt s'écarte de ces schémas appris, le modèle ne se retrouve plus dans sa distribution familière. Le résultat n'est pas une erreur franche mais quelque chose de plus insidieux : un modèle qui fait de son mieux sur des entrées qu'il n'a jamais été optimisé à traiter. Pour les équipes en production, cela signifie des régressions inexpliquées, des comportements non reproductibles entre environnements, et des bugs difficiles à diagnostiquer car aucun composant visible n'a changé. La solution proposée passe par une boucle légère d'optimisation des prompts : mesurer la dérive entre formats alternatifs via une métrique de distance dans l'espace des tokens, puis sélectionner le format qui maintient les entrées dans la distribution la plus stable. Cette approche s'appuie sur des outils accessibles, NumPy, scikit-learn pour une réduction PCA, seaborn pour la visualisation, et ne nécessite aucun ré-entraînement du modèle. Le sujet s'inscrit dans une réflexion plus large sur la fragilité des systèmes LLM face à des variations superficielles : la robustesse d'un pipeline d'IA ne dépend pas seulement de la qualité du modèle ou des données, mais aussi de la cohérence avec laquelle les entrées sont formatées à chaque étape, de la conception du prompt jusqu'au déploiement en production.

LLMsTuto
1 source
Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified
185MarkTechPost 

Mistral AI lance des agents distants dans Vibe et Mistral Medium 3.5 avec un score de 77,6 % sur SWE-Bench Verified

Mistral AI vient d'annoncer deux avancées majeures : le lancement des agents distants dans Vibe, sa plateforme d'agents de codage, et la mise en préversion publique de Mistral Medium 3.5, un nouveau modèle dense de 128 milliards de paramètres. Ce modèle devient immédiatement le modèle par défaut dans Vibe et dans Le Chat, l'assistant grand public de Mistral. Sur le benchmark SWE-Bench Verified, référence du secteur pour évaluer la capacité d'un modèle à résoudre des problèmes réels tirés de dépôts GitHub open source, Medium 3.5 obtient un score de 77,6%, devançant Devstral 2 ainsi que Qwen3.5 397B A17B. Le modèle dispose d'une fenêtre de contexte de 256 000 tokens, soit environ 200 000 mots traités en une seule passe, suffisant pour raisonner sur l'intégralité d'une grande base de code. Il est également multimodal, avec un encodeur visuel développé intégralement par Mistral plutôt que réutilisé depuis des modèles comme CLIP, ce qui lui confère davantage de flexibilité face aux images de tailles et formats variés. La bascule vers les agents distants représente un changement fondamental dans la façon dont les développeurs interagissent avec Vibe. Jusqu'ici, les sessions Vibe s'exécutaient localement, liant l'agent au terminal de l'utilisateur. Désormais, plusieurs sessions peuvent tourner en parallèle dans le cloud pendant que le développeur fait autre chose. Il est même possible de "téléporter" une session locale en cours vers le cloud sans perdre l'historique, l'état de la tâche ni les validations en attente. Chaque session s'exécute dans un environnement isolé, et lorsqu'une tâche est terminée, l'agent peut ouvrir directement une pull request sur GitHub et notifier le développeur. Les intégrations couvrent également Linear, Jira pour la gestion des tickets, Sentry pour les incidents, et Slack ou Teams pour les notifications. Le Chat de Mistral bénéficie de la même infrastructure via les Workflows de Mistral Studio, la même couche d'orchestration développée en interne avant d'être ouverte aux entreprises puis au grand public. Cette annonce s'inscrit dans une compétition de plus en plus dense sur le segment des agents de codage, où Mistral affronte notamment GitHub Copilot Workspace, Cursor et des offres d'OpenAI ou d'Anthropic. En positionnant Vibe comme une alternative accessible depuis la ligne de commande ou directement depuis Le Chat, Mistral mise sur la praticité et l'intégration native à la chaîne de développement existante. Le choix de construire son propre encodeur visuel plutôt que de s'appuyer sur des composants standard témoigne d'une volonté de maîtrise technique complète sur la pile. Avec Medium 3.5, Mistral qualifie ce modèle de premier "flagship merged model", suggérant une évolution de sa stratégie produit vers des modèles unifiés capables de couvrir instruction, raisonnement et code sans multiplication des variantes spécialisées.

UEMistral AI, entreprise française, consolide sa position de champion européen de l'IA avec un modèle de pointe et une plateforme d'agents de codage qui concurrencent directement les offres américaines sur le marché du développement logiciel.

LLMsOpinion
1 source
Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents
186MarkTechPost 

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents

Un tutoriel de programmation publié récemment propose une approche complète pour exploiter le jeu de données lambda/hermes-agent-reasoning-traces, une collection structurée de traces de raisonnement issues de modèles d'agents IA. Le guide couvre quatre étapes distinctes : le chargement et l'inspection du dataset, la construction de parseurs pour extraire les composants clés (traces de réflexion, appels d'outils, réponses), l'analyse statistique des comportements (fréquence d'utilisation des outils, longueur des conversations, taux d'erreurs), et enfin la conversion du dataset dans un format compatible avec l'entraînement supervisé. Le dataset est disponible en plusieurs configurations, notamment "kimi" et "glm-5.1", correspondant à des architectures d'agents différentes, et peut être chargé via la bibliothèque Hugging Face datasets. Les outils utilisés incluent Python 3, pandas, matplotlib, seaborn, transformers, accelerate et trl. Comprendre comment un agent IA raisonne en interne avant d'agir est un enjeu clé pour quiconque cherche à améliorer, déboguer ou affiner ces systèmes. Ce tutoriel permet de séparer concrètement la "pensée" interne d'un modèle (blocs `) de ses actions externes (blocs ) et des retours qu'il reçoit (), grâce à des parseurs basés sur des expressions régulières. Cette granularité est précieuse pour les équipes qui développent des agents autonomes : elle permet de détecter des comportements anormaux, d'identifier des appels d'outils malformés, ou de repérer des patterns de raisonnement défaillants avant de lancer un cycle de fine-tuning. La dernière étape du guide, la préparation du dataset pour le supervised fine-tuning (SFT), rend les données directement exploitables avec des frameworks comme TRL de Hugging Face. Le dataset hermes-agent-reasoning-traces` s'inscrit dans un mouvement plus large de publication de données d'entraînement spécialisées pour les agents IA multi-tours, capables d'utiliser des outils externes. Avec l'essor des architectures de type "agentic" dans des produits comme les assistants à code, les agents de recherche ou les copilotes professionnels, la qualité des traces de raisonnement utilisées pour l'entraînement devient un levier différenciant. Des acteurs comme Lambda, Kimi (Moonshot AI) ou encore les équipes derrière GLM (Tsinghua/Zhipu AI) contribuent à cet écosystème de données ouvertes. La tendance va vers des modèles capables de justifier leurs décisions étape par étape, ce qui exige précisément le type d'infrastructure d'analyse décrite dans ce tutoriel. Les prochaines évolutions pourraient inclure des métriques automatisées de qualité du raisonnement ou des benchmarks standardisés sur ce type de traces.

💬 Ce dataset de traces de raisonnement, c'est du matériel brut pour quiconque entraîne ou débogue un agent en ce moment. La partie intéressante c'est moins le fine-tuning que l'analyse en amont : repérer les appels d'outils malformés ou les boucles de raisonnement avant de lancer un cycle d'entraînement, ça évite de brûler des GPU pour rien. Reste que les configs "kimi" et "glm-5.1" sont assez spécifiques, difficile de généraliser sans retravailler les parseurs de fond en comble.

LLMsTuto
1 source
NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B
187MarkTechPost 

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

Des chercheurs de NVIDIA ont publié une étude intégrée à NeMo RL v0.6.0 qui accélère significativement la phase d'entraînement par renforcement des grands modèles de langage grâce au décodage spéculatif. Le principe repose sur un petit modèle dit "brouillon" qui propose plusieurs tokens en avance, tandis que le modèle principal, celui qu'on entraîne réellement, les vérifie via un mécanisme de rejet statistique. Sur 32 GPU GB200 (8 nœuds NVL72), cette approche réduit la latence de génération de 100 secondes à 56,6 secondes sur la tâche RL-Zero, soit un gain de 1,8× sur la génération. À l'échelle d'un modèle de 235 milliards de paramètres, les projections donnent un gain de bout en bout de 2,5×. Le framework EAGLE-3 est utilisé comme moteur de brouillon, compatible avec n'importe quel modèle pré-entraîné sans nécessiter de tête de prédiction multi-token native. Ce résultat est particulièrement précieux parce qu'il ne sacrifie rien à la fidélité d'entraînement. La génération par rollout représente entre 65 et 72 % du temps total d'une étape RL, mesure faite sur Qwen3-8B dans deux configurations, RL-Think et RL-Zero. C'est donc le seul goulet d'étranglement qui vaille la peine d'être attaqué. Or les méthodes habituelles d'accélération, exécution asynchrone, replay hors-politique, précision réduite, introduisent toutes un décalage de distribution qui contamine le signal d'entraînement. Le décodage spéculatif, lui, garantit mathématiquement que la distribution de sortie du modèle cible reste identique à ce qu'elle aurait été sans brouillon. Aucune correction hors-politique, aucun biais introduit dans la récompense. L'intégration dans une boucle d'entraînement par renforcement posait néanmoins un défi d'ingénierie non trivial : à chaque mise à jour des poids de la politique, le modèle brouillon doit rester aligné avec cette politique en évolution. NVIDIA a résolu cela avec une architecture à deux chemins dans NeMo RL, un chemin général via EAGLE-3 et un chemin natif pour les modèles disposant de têtes MTP intégrées. Lorsque l'adaptation en ligne du brouillon est activée, les états cachés et log-probabilités issus du passage avant du vérificateur MegatronLM sont réutilisés pour superviser la tête brouillon via un gradient détaché, de sorte que l'entraînement du brouillon n'interfère jamais avec le gradient de politique. Cette fonctionnalité est désormais disponible en production dans NeMo RL v0.6.0, aux côtés du backend SGLang, de l'optimiseur Muon et de l'entraînement long contexte YaRN.

💬 Le vrai problème du RLHF à grande échelle, c'est que 70% du temps tu le passes juste à générer des rollouts. NVIDIA s'y attaque proprement avec le décodage spéculatif dans NeMo : un modèle brouillon qui anticipe, un modèle principal qui valide, et la garantie mathématique que la distribution reste intacte, pas de biais hors-politique introduit en douce. 1,8× sur 8B, 2,5× visé sur 235B, c'est le genre d'optimisation qu'on attendait depuis qu'on fait du RL sérieusement.

LLMsPaper
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
188MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
xAI lance Grok 4.3 à prix cassé et une nouvelle suite de clonage vocal rapide et puissante
189VentureBeat AI 

xAI lance Grok 4.3 à prix cassé et une nouvelle suite de clonage vocal rapide et puissante

xAI, la société d'intelligence artificielle fondée par Elon Musk, a lancé mercredi Grok 4.3, son nouveau grand modèle de langage propriétaire, accompagné d'une suite de clonage vocal. Le modèle est désormais accessible à tous via l'API xAI et la plateforme OpenRouter, après une phase de test en avril réservée aux abonnés SuperGrok (30 dollars par mois) et X Premium+ (40 dollars par mois, avec 50 % de réduction les deux premiers mois). Le coup de force commercial tient à sa tarification : 1,25 dollar par million de tokens en entrée et 2,50 dollars par million en sortie, soit deux à deux fois et demie moins cher que son prédécesseur Grok 4.2, facturé 2 et 6 dollars respectivement. Techniquement, Grok 4.3 intègre un raisonnement permanent et non désactivable, une fenêtre de contexte d'un million de tokens, et des capacités agentiques inédites : le modèle peut désormais utiliser des outils professionnels de façon autonome, générer des fichiers Excel multi-onglets avec calculs automatiques ou produire des rapports PDF de douze pages avec mise en page complète, logos et tableaux structurés. Ce positionnement tarifaire agressif constitue l'atout central de xAI face à ses concurrents. En proposant des performances en progression significative sur les benchmarks tiers par rapport à Grok 4.2, tout en maintenant un coût nettement inférieur aux modèles d'OpenAI et d'Anthropic, xAI vise clairement les développeurs et les entreprises sensibles au prix. Les capacités agentiques représentent une rupture qualitative : le modèle ne se contente plus de répondre à des questions, il exécute des tâches complexes en plusieurs étapes de façon autonome. Un exemple documenté montre Grok 4.3 consacrer six minutes et vingt-deux secondes à construire un analyseur DPS sous forme de tableur multi-feuilles, un niveau d'exécution qui dépasse largement la génération de texte classique. Ce lancement intervient dans un contexte tendu pour xAI : les dix cofondateurs originaux et des dizaines de chercheurs ont quitté la société ces derniers mois, tandis que Grok se retrouvait distancé par les modèles de OpenAI, Anthropic, Google, DeepSeek, Kimi (Moonshot) et Qwen (Alibaba). Malgré la progression enregistrée, la firme d'évaluation indépendante Artificial Analysis place toujours Grok 4.3 en dessous du niveau de l'état de l'art fixé par OpenAI et Anthropic. Elon Musk est par ailleurs actuellement en procès contre son ancien associé Sam Altman, cofondateur d'OpenAI. Dans cette bataille frontale pour le marché des LLM, xAI semble avoir choisi une stratégie de volume par les prix plutôt que la course aux benchmarks, pariant que l'accessibilité économique et les nouvelles fonctionnalités agentiques suffiront à conquérir une base d'utilisateurs fidèle face à des concurrents aux modèles plus puissants mais plus coûteux.

LLMsOpinion
1 source
#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6
190Next INpact 

#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6

Depuis le lancement d'Opus 4.7, de nombreux utilisateurs d'Anthropic constatent que leur forfait de tokens s'épuise nettement plus vite qu'avec la version précédente du modèle. Les tarifs affichés sont pourtant identiques : 5 dollars par million de tokens en entrée et 25 dollars par million en sortie, exactement comme pour Opus 4.6. Mais Anthropic reconnaît lui-même qu'une même requête peut consommer entre 1,0 et 1,35 fois plus de tokens avec Opus 4.7, selon le type de contenu, en raison d'un nouveau tokeniseur intégré au modèle. À cela s'ajoute un comportement de raisonnement plus intensif : Opus 4.7 génère davantage de tokens de sortie lorsqu'il fait face à des tâches complexes, car il mobilise un effort cognitif plus soutenu. Des tests comparatifs sur des prompts simples ont mis en évidence une consommation supérieure de 41 % par rapport à Opus 4.6. Claude Code, l'outil de développement assisté d'Anthropic, était particulièrement touché, avant qu'Anthropic n'intervienne pour réduire la verbosité des réponses. Cette sur-consommation a des conséquences financières directes et non négligeables pour les développeurs et les entreprises qui utilisent l'API à grande échelle. À usage identique, le coût réel d'Opus 4.7 dépasse celui d'Opus 4.6 malgré un tarif affiché identique, ce qui brouille la lisibilité budgétaire pour les équipes techniques. Pour les abonnés aux forfaits à volume fixe, c'est une érosion accélérée des quotas mensuels, parfois sans modification de leurs pratiques d'utilisation. Le problème touche aussi bien les développeurs indépendants que les équipes professionnelles intégrant Claude dans des pipelines automatisés. Ce décalage entre prix nominal et coût réel illustre une tension croissante dans l'industrie des LLM : les modèles deviennent plus capables, mais leur économie d'usage se complexifie. Le passage à un nouveau tokeniseur, décision technique invisible pour l'utilisateur final, peut bouleverser les budgets sans que les grilles tarifaires ne changent d'un centime. Anthropic a partiellement corrigé le tir en limitant la longueur des réponses, mais la question de la transparence sur le coût effectif des tokens reste ouverte, d'autant que les prochaines versions de Claude continueront probablement d'évoluer dans cette direction de raisonnement étendu.

UELes développeurs et entreprises européens utilisant l'API Claude d'Anthropic subissent une hausse de coût réel de 20 à 41% sans modification du tarif affiché, dégradant la prévisibilité budgétaire des équipes techniques intégrant Claude dans des pipelines automatisés.

💬 41% de tokens en plus sur des prompts simples, avec un tarif affiché inchangé, c'est une hausse de prix déguisée. Le nouveau tokeniseur d'Opus 4.7 est une décision technique totalement invisible pour l'utilisateur, mais elle peut faire sauter des budgets entiers sans que personne n'ait changé la moindre ligne de code. Bonne chance pour l'expliquer à ton DAF.

LLMsOpinion
1 source
Affinage par renforcement avec un LLM comme évaluateur
191AWS ML Blog 

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper
1 source
GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure
192Le Big Data 

GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure

Quelques jours à peine après le lancement de GPT-5.5, le PDG d'OpenAI Sam Altman a publié le 28 avril 2026 sur X une capture d'écran évoquant l'entraînement de GPT-6, avec la mention humoristique « encore plus de gobelins ». Ce teasing inattendu est né d'un bug désormais célèbre dans la communauté tech : depuis GPT-5.1, les modèles d'OpenAI glissaient régulièrement des gobelins, gremlins, trolls et autres créatures fantastiques dans leurs réponses, un comportement qui s'est amplifié de façon notable entre les versions GPT-5.2 et GPT-5.4. Face aux moqueries croissantes sur les réseaux sociaux, OpenAI a fini par intégrer des instructions explicites dans GPT-5.5 pour lui interdire de mentionner ces créatures. C'est cette révélation, découverte par des utilisateurs fouillant les paramètres du modèle, qui a mis le feu aux poudres sur X et poussé Altman à y répondre avec sa propre blague. Au-delà du trait d'humour, la sortie d'Altman a suffi à relancer les spéculations sur le calendrier de sortie de GPT-6. Le PDG n'a fourni aucune date, aucune fonctionnalité précise, aucun engagement formel. Pourtant, dans un secteur où chaque communication du dirigeant d'OpenAI est analysée au millimètre, la simple mention du nom GPT-6 dans un contexte public suffit à signaler que la prochaine génération est au moins en cours de développement actif. Pour les entreprises et développeurs qui intègrent les API d'OpenAI dans leurs produits, cela signifie que la fenêtre entre deux générations majeures continue de se réduire, comprimant les cycles d'adaptation. OpenAI traverse une période d'accélération intense sur son calendrier de sorties : GPT-4o, GPT-4.5, GPT-5, puis GPT-5.1 à 5.5 en l'espace de quelques mois, une cadence sans précédent dans l'histoire du laboratoire. Cette multiplication de versions intermédiaires traduit à la fois la pression concurrentielle exercée par Anthropic, Google DeepMind et les acteurs open source comme Meta, et la volonté d'OpenAI d'itérer rapidement en production plutôt qu'en laboratoire fermé. Les indices accumulés ces derniers mois sur GPT-6 suggèrent une architecture plus stable, une mémoire longue terme améliorée et une intégration plus profonde avec les fichiers et applications tierces. Quant aux gobelins, leur disparition officielle de GPT-5.5 illustre un problème récurrent dans l'entraînement des grands modèles de langage : des comportements émergents inattendus, difficiles à anticiper et à corriger sans instructions explicites.

UELes développeurs et entreprises européens intégrant les API d'OpenAI devront adapter leurs cycles de maintenance à une cadence de sorties qui continue de s'accélérer.

LLMsOpinion
1 source
Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres
193VentureBeat AI 

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres

Le 27 avril 2026, un développeur utilisant le pseudonyme @arb8020 sur X a mis au jour un passage pour le moins étrange dans le dépôt GitHub open source de Codex, l'outil de codage d'OpenAI. Dans un fichier nommé models.json, une directive répétée quatre fois concernant GPT-5.5 ordonnait au modèle de ne jamais parler de "gobelins, gnomes, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures" sauf si le sujet était "absolument et sans ambiguïté pertinent" pour la requête de l'utilisateur. La publication est devenue virale en quelques heures sur Reddit et X, suscitant une vague de spéculations : des utilisateurs rapportaient que GPT-5.5 qualifiait spontanément les bugs techniques de "gremlins", ou que certains agents basés sur le modèle semblaient "obsédés par les gobelins", comme l'a illustré Barron Roth, Senior Project Manager chez Google, avec une capture d'écran de son agent OpenClaw. Sam Altman lui-même a rejoint la discussion, publiant avec humour une capture d'un prompt demandant de "lancer l'entraînement de GPT-6 avec des gobelins supplémentaires". Cette affaire dépasse le simple anecdote. Elle met en lumière les limites encore mal comprises du Reinforcement Learning from Human Feedback (RLHF), la technique centrale qui permet d'aligner les grands modèles de langage sur les préférences humaines. Comme l'ont noté des chercheurs sur Hacker News, il s'agit d'un "problème de l'éléphant rose" : interdire explicitement à un modèle de penser à quelque chose peut paradoxalement renforcer la saillance de ce concept dans son mécanisme d'attention. Pour une entreprise valorisée à plus de 300 milliards de dollars et dont les modèles sont utilisés par des millions de professionnels, voir une directive aussi surprenante s'infiltrer en production souligne à quel point le comportement émergent des LLMs reste difficile à contrôler, même avec des équipes de pointe. OpenAI a répondu dès le lendemain avec un billet de blog officiel intitulé "Where the goblins came from", apportant une explication technique. La cause n'est pas un bug classique, mais un effet de bord inattendu de la fonctionnalité de personnalisation introduite dans ChatGPT en juillet 2025. Contrairement à ce que l'on pourrait supposer, cette personnalisation (modes Professionnel, Amical, Efficace, Candide, etc.) n'est pas appliquée après l'entraînement du modèle, mais intégrée directement dans le pipeline d'entraînement de bout en bout des modèles GPT. C'est précisément cette intégration profonde qui a produit des comportements non anticipés, forçant l'équipe à ajouter des instructions correctives explicites dans le fichier de configuration. L'incident illustre un défi structurel pour tout le secteur : plus les modèles sont personnalisables et entraînés de manière holistique, plus les interactions entre objectifs distincts deviennent imprévisibles.

UELes développeurs et entreprises européens utilisant GPT-5.5 peuvent être exposés à des comportements émergents imprévus, mais l'impact reste indirect et mondial sans spécificité France/UE.

LLMsOpinion
1 source
Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins
194Ars Technica AI 

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins

Le system prompt du CLI Codex d'OpenAI contient une directive inhabituelle : GPT-5.5 reçoit l'instruction explicite de "ne jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent pour la requête de l'utilisateur." Cette consigne, rendue publique la semaine dernière via le dépôt GitHub open source de Codex CLI, apparaît deux fois dans un ensemble d'instructions de base de plus de 3 500 mots destinées au modèle récemment lancé. Elle côtoie d'autres rappels plus classiques, comme l'interdiction d'utiliser des emojis ou des tirets cadratins sans instruction explicite, ou encore la mise en garde contre les commandes destructives telles que git reset --hard. Ce qui rend cette directive significative, c'est son absence dans les instructions système des modèles antérieurs figurant dans le même fichier JSON. Cela suggère qu'OpenAI fait face à un problème apparu spécifiquement avec GPT-5.5 : le modèle aurait tendance à introduire spontanément des références à des gobelins ou autres créatures dans des conversations sans rapport. Des témoignages récents sur les réseaux sociaux confirment ce comportement, plusieurs utilisateurs signalant des réponses inopinément peuplées de créatures fantastiques lors d'échanges techniques ou professionnels. Ce type d'incident met en lumière un défi persistant du développement des grands modèles de langage : les comportements émergents imprévisibles qui surgissent lors du passage à l'échelle. Lorsqu'un modèle développe des biais ou des obsessions thématiques non intentionnelles, la solution la plus rapide reste souvent d'intervenir directement dans le system prompt plutôt que de relancer un cycle d'entraînement complet. Cette approche, parfois surnommée "patch de comportement", révèle les limites du contrôle fin sur des systèmes aussi complexes que GPT-5.5, dont le déploiement s'accompagne inévitablement d'ajustements post-lancement que même l'équipe d'OpenAI ne peut anticiper entièrement.

LLMsOpinion
1 source
L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper
195MarkTechPost 

L'équipe Qwen publie FlashQLA : une bibliothèque de noyaux d'attention linéaire atteignant jusqu'à 3x d'accélération sur les GPU NVIDIA Hopper

L'équipe Qwen a publié FlashQLA, une bibliothèque open source de kernels GPU haute performance, sous licence MIT. Construite sur le framework de compilation TileLang, elle est spécifiquement optimisée pour le mécanisme d'attention linéaire Gated Delta Network (GDN), qui est au coeur des modèles hybrides Qwen3.5 et Qwen3.6. Sur les GPU NVIDIA de la génération Hopper (H100, H200), FlashQLA atteint une accélération de 2 à 3 fois sur la passe avant (inference et entraînement) et de 2 fois sur la passe arrière (calcul des gradients), par rapport à la bibliothèque de référence Flash Linear Attention (FLA) et ses kernels Triton. Ces gains reposent sur deux innovations principales documentées : un parallélisme de contexte intra-carte déclenché automatiquement par les propriétés mathématiques du gate exponentiel du GDN, et une reformulation algébrique optimisée pour les unités de calcul matérielles de l'architecture Hopper. Ces résultats ont une portée concrète pour quiconque entraîne ou déploie des modèles de langage sur des séquences longues. L'attention classique de type softmax souffre d'une complexité quadratique en O(n²) : doubler la longueur de la séquence multiplie le coût de calcul par quatre. L'attention linéaire ramène ce coût à O(n), ce qui rend le traitement de longs documents, de code ou de conversations beaucoup moins onéreux. Or, l'efficacité de l'attention linéaire dépend en grande partie de la qualité des kernels GPU sous-jacents. En exploitant les instructions warpgroup-level des Tensor Cores et les pipelines de données asynchrones propres à Hopper, fonctionnalités que Triton ne peut pas toujours exploiter pleinement, FlashQLA libère une partie du potentiel matériel que les implémentations existantes laissaient sur la table. Ce travail s'inscrit dans une compétition intense autour de l'optimisation bas niveau des modèles de langage, un terrain souvent invisible mais décisif. Depuis FlashAttention (2022), plusieurs équipes cherchent à accélérer les opérations d'attention directement au niveau du kernel, c'est-à-dire la routine de calcul qui s'exécute réellement sur le processeur graphique. Qwen, développé par Alibaba Cloud, a fait le choix d'une architecture hybride pour ses derniers modèles : des couches GDN alternent avec des couches d'attention complète, combinant efficacité sur les longues séquences et expressivité là où elle est le plus utile. En publiant FlashQLA sous MIT, l'équipe ouvre cette optimisation à l'ensemble de la communauté, y compris aux chercheurs et entreprises qui construisent des pipelines sur ces architectures hybrides. La prochaine étape probable est l'intégration dans les frameworks d'entraînement dominants comme vLLM ou SGLang, ce qui élargirait significativement l'impact de cette bibliothèque.

UEAucun impact direct, mais les chercheurs et entreprises européens disposant de GPU NVIDIA Hopper peuvent intégrer cette bibliothèque MIT pour accélérer l'entraînement et l'inférence de leurs modèles à attention linéaire.

LLMsOpinion
1 source
GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API
196AI News 

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion
1 source
SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération
197Pandaily 

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

SenseTime a officiellement lancé et mis en open source le 29 avril 2026 sa série SenseNova U1, un modèle unifié natif combinant compréhension et génération multimodale. Développé sur l'architecture maison NEO-unify présentée en mars 2026, ce modèle intègre dans un cadre unique la compréhension, le raisonnement et la génération visuelle et textuelle. La série se décline en deux variantes légères : SenseNova-U1-8B-MoT, basé sur une architecture dense, et SenseNova-U1-A3B-MoT, reposant sur un mélange d'experts (MoE). Ce qui distingue fondamentalement SenseNova U1 des approches dominantes, c'est l'abandon des encodeurs visuels séparés (VE) et des autoencodeurs variationnels (VAE) traditionnellement empilés dans les modèles multimodaux. NEO-unify reconstruit à la place un espace de représentation unifié profondément intégré à chaque couche de calcul, traitant le langage et les entrées visuelles comme un ensemble composite cohérent. Ce choix architectural permet d'améliorer simultanément les capacités de compréhension et de génération, en préservant à la fois la richesse sémantique et la fidélité visuelle au niveau pixel. Le modèle affiche également de bonnes performances en raisonnement logique et en intelligence spatiale, notamment pour interpréter des environnements physiques complexes. SenseTime, géant chinois de la vision par ordinateur et de l'intelligence artificielle, positionne SenseNova U1 comme une brique fondatrice pour la robotique incarnée : l'objectif est qu'un seul modèle gère en boucle fermée la perception, le raisonnement et l'exécution de tâches physiques. Ce lancement s'inscrit dans une course mondiale à l'unification des modalités, où des acteurs comme Google DeepMind, Meta ou des startups chinoises cherchent à dépasser les architectures hybrides au profit de modèles natifs plus cohérents. La mise en open source de la version légère signal une stratégie d'adoption communautaire, tout en réservant probablement les versions plus puissantes à un usage commercial ou propriétaire.

UELa mise en open source de SenseNova U1 offre aux chercheurs et développeurs européens un accès à cette architecture unifiée novatrice, mais l'impact direct sur la France ou l'UE reste limité à court terme, SenseTime étant un acteur chinois sans ancrage réglementaire ou commercial européen significatif.

LLMsOpinion
1 source
GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !
198Le Big Data 

GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !

GPT-5.5, le dernier modèle d'OpenAI, s'est mis à glisser des gobelins, gremlins, ratons laveurs, trolls, ogres et pigeons dans ses réponses, même lorsque le sujet n'a aucun rapport avec ces créatures. Le phénomène a été documenté publiquement le 28 avril 2026 par Arena.ai, qui a publié un graphique montrant l'évolution de l'utilisation de ces termes par les modèles GPT au fil du temps. La réaction d'OpenAI ne s'est pas fait attendre : des développeurs ont découvert dans Codex une instruction système associée à GPT-5.5 qui interdit explicitement au modèle de mentionner gobelins, gremlins, ratons laveurs, trolls, ogres ou pigeons, sauf si cela est strictement pertinent à la demande de l'utilisateur. Ce comportement, qualifié par plusieurs spécialistes d'« effondrement de mode », serait lié aux données d'entraînement du modèle : GPT-5.5 aurait développé un tic linguistique, répétant certains motifs de façon excessive et incontrôlée. Si quelques utilisateurs y voient une touche d'humour involontaire et presque attachante, la manière dont OpenAI a choisi de réagir suscite davantage de critiques. Sur X, un utilisateur a résumé l'incompréhension générale : face à un comportement aussi inattendu dans un système aussi avancé, la réponse n'a pas été de chercher la cause profonde du problème, mais simplement d'ordonner au modèle de ne plus mentionner ces créatures. D'autres interprètent l'instruction comme une hostilité ciblée envers les pigeons et les ratons laveurs, ce qui n'a fait qu'amplifier les moqueries en ligne. Ce bug illustre un problème fondamental que l'industrie de l'IA peine encore à résoudre : les grands modèles de langage restent des boîtes noires. Comme l'a formulé un utilisateur de Reddit, on peut identifier un comportement anormal et le corriger par instruction directe, mais expliquer précisément pourquoi il est apparu reste hors de portée. OpenAI n'est pas la première entreprise confrontée à des dérives comportementales inattendues dans ses modèles, et chaque incident de ce type relance le débat sur l'interprétabilité des systèmes d'IA et la solidité des processus d'entraînement. Sam Altman a choisi de désamorcer la situation avec humour, partageant une capture d'écran évoquant l'entraînement de GPT-6 avec « encore plus de gobelins », mais cette légèreté n'efface pas la question de fond : à mesure que ces modèles deviennent plus puissants et plus intégrés dans des outils professionnels comme Codex, leur imprévisibilité devient un risque difficile à ignorer.

UECe comportement imprévisible alimente le débat européen sur l'interprétabilité et la transparence des LLMs, un enjeu central de l'AI Act.

LLMsOpinion
1 source
Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision
199Pandaily 

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

Ant Group, la filiale fintech d'Alibaba, a officiellement mis en open source son modèle Ling-2.6-Flash le 29 avril 2026, via l'équipe BaiLing spécialisée en grands modèles de langage. Le modèle compte 104 milliards de paramètres au total, dont 7,4 milliards activés à l'inférence, et est proposé en plusieurs formats de précision, BF16, FP8 et INT4, pour s'adapter à différents environnements matériels et contraintes de déploiement. Fait notable : deux semaines avant cette annonce officielle, le modèle avait été discrètement mis en ligne sur la plateforme OpenRouter sous le nom anonyme "Elephant Alpha", permettant à Ant Group de collecter des retours développeurs et d'effectuer plusieurs cycles d'optimisation, notamment sur la commutation bilingue chinois-anglais et la compatibilité avec les principaux frameworks de développement. Les performances techniques de Ling-2.6-Flash le positionnent comme un concurrent sérieux dans le segment des modèles efficaces à grande échelle. Son architecture linéaire hybride lui permet d'atteindre 340 tokens par seconde sur une configuration 4x GPU H20, avec un débit de prefill 2,2 fois supérieur à celui du Nemotron-3-Super de NVIDIA. Sur les benchmarks Artificial Analysis, il n'a consommé que 15 millions de tokens pour accomplir ses tâches, soit environ un dixième de ce que nécessite Nemotron-3-Super, un ratio coût-performance particulièrement attractif pour les équipes cherchant à déployer des agents IA à l'échelle. Sur des benchmarks spécialisés comme BFCL-V4, TAU2-bench ou SWE-bench Verified, ses résultats rivalisent avec des modèles aux paramètres actifs bien plus importants. Cette publication s'inscrit dans une stratégie d'open source agressive que mènent plusieurs grandes entreprises technologiques chinoises face à la domination américaine dans le domaine des LLM. Ant Group rejoint ainsi DeepSeek, Alibaba (Qwen) et ByteDance (Doubao) dans une course à la transparence et à l'adoption communautaire. Le choix de tester le modèle anonymement avant de le revendiquer reflète une approche plus pragmatique du lancement : valider en conditions réelles avant de s'exposer publiquement. La focalisation sur les cas d'usage agents, planification multi-étapes, utilisation d'outils, exécution de tâches complexes, indique que les prochaines batailles de l'IA ne se joueront pas sur les chatbots grand public, mais sur l'automatisation des workflows professionnels.

LLMsOpinion
1 source
Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified
200MarkTechPost 

Poolside AI présente Laguna XS.2 et M.1, des modèles de codage à base d'agents atteignant 68,2 % et 72,5 % sur SWE-bench Verified

Poolside AI a dévoilé mardi les deux premiers modèles de sa famille Laguna : Laguna M.1 et Laguna XS.2, accompagnés d'un agent de codage en ligne de commande baptisé "pool". Laguna M.1 est un modèle de type Mixture-of-Experts (MoE) totalisant 225 milliards de paramètres, dont seulement 23 milliards activés à chaque inférence, entraîné sur 30 000 milliards de tokens à l'aide de 6 144 GPU NVIDIA Hopper interconnectés. Il atteint 72,5 % sur le benchmark SWE-bench Verified, référence du secteur pour évaluer la résolution autonome de bugs réels. Laguna XS.2, le premier modèle en accès ouvert de Poolside, est beaucoup plus compact : 33 milliards de paramètres au total, seulement 3 milliards activés par token. Il score 68,2 % sur SWE-bench Verified et peut tourner en local sur un Mac équipé de 36 Go de RAM via Ollama, ce qui est rare pour ce niveau de performance. Une version de base pour le fine-tuning, XS.2-base, sera publiée prochainement. Ces résultats positionnent Poolside parmi les acteurs sérieux du codage agentique, un segment en pleine effervescence où l'objectif est de faire résoudre des tâches de développement complexes et longues par des modèles de manière autonome. La capacité de XS.2 à fonctionner en local change la donne pour les développeurs soucieux de confidentialité ou travaillant sans accès cloud stable : avec une fenêtre de contexte de 131 072 tokens et un support natif du raisonnement intercalé entre les appels d'outils, le modèle est conçu pour des workflows réels de programmation sur plusieurs heures. Le fait que Laguna XS.2 soit open-weight le rend aussi accessible aux équipes qui souhaitent l'adapter à leurs propres bases de code, sans dépendre d'une API propriétaire. Poolside AI, fondée en 2023 par des vétérans de DeepMind et du monde de la recherche, a levé plus de 500 millions de dollars avec la conviction que l'IA spécialisée dans le code nécessite une infrastructure d'entraînement entièrement repensée. Pour Laguna, l'entreprise a développé en interne son pipeline de données, son framework d'entraînement (Titan) et une infrastructure de reinforcement learning agentique. L'une des innovations les plus notables est "AutoMixer", un système qui entraîne simultanément environ 60 modèles-proxy sur des mélanges de données différents pour optimiser automatiquement la composition du jeu d'entraînement, plutôt que de s'appuyer sur des heuristiques manuelles. Cette approche, inspirée de travaux comme RegMix ou OLMix, aurait permis de doubler la diversité effective des données tout en préservant l'équilibre entre code, mathématiques et raisonnement général. La prochaine étape pour Poolside sera probablement d'élargir la famille Laguna et d'affiner son agent "pool" pour concurrencer directement des outils comme Claude Code ou Cursor sur le marché des assistants de développement autonomes.

UELaguna XS.2 étant open-weight et exécutable en local via Ollama, les équipes européennes soucieuses de souveraineté des données peuvent l'adopter sans dépendre d'une API cloud américaine.

💬 68,2 % sur SWE-bench avec un modèle qui tourne sur Mac, c'est pas rien. Ce qui change vraiment la donne, c'est le côté open-weight : on peut l'adapter à sa propre base de code, sans dépendre d'une API tierce, et ça c'est rare pour ce niveau de performance. Reste à voir si l'agent "pool" suit.

LLMsActu
1 source