Aller au contenu principal
SmolLM3 : compact, multilingue et performant sur les longs contextes
LLMsHuggingFace Blog50sem· 1 min de lecture

SmolLM3 : compact, multilingue et performant sur les longs contextes

Source originale ↗·

SmolLM3 est un modèle multilingue capable de raisonnement sur de longues contexts, présenté dans cet article. Il s'agit d'un système "smol" (petit) conçu pour traiter plusieurs langues simultanément.

Impact France/UE

SmolLM3, développé par HuggingFace (entreprise française), renforce la souveraineté européenne en IA avec un modèle multilingue compact et open-source accessible aux développeurs et entreprises de l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment Descript facilite le doublage de vidéos multilingues à grande échelle
1OpenAI Blog 

Comment Descript facilite le doublage de vidéos multilingues à grande échelle

Descript utilise les modèles d'OpenAI pour élargir le dublage vidéo multilingue, optimisant les traductions en termes de sens et de synchronisation afin que le dublage sonne naturel dans différentes langues. Cette approche permet de produire des contenus multilingues à grande échelle tout en maintenant la qualité et la fluidité du discours.

LLMsOutil
1 source
Claude Fable 5 : vous pouvez maintenant le tester sur Perplexity Computer
2Le Big Data 

Claude Fable 5 : vous pouvez maintenant le tester sur Perplexity Computer

Anthropic a rendu Claude Fable 5 accessible au public via Perplexity Computer le 10 juin 2026, marquant la première disponibilité grand public du projet Mythos. Ce modèle est présenté par Anthropic comme son système le plus avancé pour les tâches longues et complexes. Contrairement aux modèles conversationnels classiques, Claude Fable 5 est conçu comme un orchestrateur : il peut enchaîner plusieurs étapes successives, maintenir le contexte sur une période prolongée et piloter des workflows entiers sans perdre l'objectif de vue. L'accès reste pour l'instant limité aux abonnés Perplexity Pro et Max, les utilisateurs gratuits étant exclus du dispositif à ce stade. Cette intégration représente une rupture avec la logique du simple chatbot. Jusqu'ici, les meilleurs modèles excellaient dans les échanges rapides et ponctuels, mais peinent à coordonner des missions multi-étapes sur la durée. Claude Fable 5 vise précisément ce point de friction : en agissant comme un agent capable d'enchaîner des actions plutôt que d'attendre chaque prompt, il rapproche l'expérience de celle d'un assistant opérationnel autonome. Pour les professionnels qui utilisent l'IA dans des processus complexes, comme la recherche multi-sources, la gestion de projets ou l'automatisation de tâches répétitives, cela ouvre des usages concrètement différents de ce qu'offrent aujourd'hui les assistants standards. La restriction aux abonnés payants reflète le coût réel de ces traitements longs, qui mobilisent des ressources informatiques et énergétiques bien plus importantes qu'une simple génération de texte. Perplexity, connu jusqu'ici pour son moteur de recherche augmenté par l'IA, se positionne ainsi comme plateforme d'accueil pour les modèles d'orchestration de pointe, en concurrence directe avec des interfaces comme Claude.ai ou ChatGPT. De son côté, Anthropic accélère sa stratégie de distribution en s'appuyant sur des partenaires tiers pour élargir la portée de ses modèles au-delà de son propre écosystème. Le projet Mythos, dont Fable 5 est la première expression publique, traduit l'ambition d'Anthropic de s'imposer non plus seulement dans la génération de contenu mais dans l'exécution autonome de tâches complexes, un segment où OpenAI avec ses Operators et Google avec Gemini livrent une bataille de plus en plus visible. La vraie question reste entière : ces modèles orchestrateurs tiendront-ils leurs promesses dans des conditions réelles, ou répèteront-ils les déceptions déjà observées avec les premières générations d'agents IA ?

💬 Ce qui m'intéresse dans cette annonce, c'est pas Fable 5, c'est Perplexity. Anthropic commence à distribuer ses meilleurs modèles via des partenaires tiers plutôt que de tout centraliser sur Claude.ai, et ça change quelque chose dans la dynamique. C'est le genre de pari que tu fais quand tu réalises que la plateforme, c'est pas toi.

LLMsOpinion
1 source
Gemma 4 : les modèles open source les plus performants à taille égale
3DeepMind Blog 

Gemma 4 : les modèles open source les plus performants à taille égale

Google a dévoilé Gemma 4, la quatrième génération de sa famille de modèles de langage open weights, présentée comme la plus performante à ce jour dans cette gamme. Conçus pour le raisonnement avancé et les flux de travail agentiques, ces modèles sont disponibles librement pour les développeurs et chercheurs. Google les décrit comme les plus efficaces octet pour octet de leur catégorie, signalant un saut qualitatif par rapport aux versions précédentes sur les benchmarks de compréhension et de raisonnement complexe. Cette sortie est significative pour l'écosystème open source de l'IA : des modèles ouverts aussi performants permettent aux entreprises et développeurs indépendants de déployer des agents autonomes et des pipelines de raisonnement sans dépendre d'APIs propriétaires. L'accent mis sur les workflows agentiques — où le modèle planifie, exécute des actions et s'adapte en plusieurs étapes — répond à un besoin croissant de l'industrie pour des automatisations complexes accessibles localement. Gemma s'inscrit dans la stratégie de Google DeepMind de maintenir une présence forte dans l'open source face à Meta (LLaMA) et Mistral AI, qui dominent ce segment. Après Gemma 1, 2 et 3, cette quatrième itération intervient alors que la course aux modèles ouverts s'intensifie, chaque acteur cherchant à établir son architecture comme référence pour les développeurs.

UELes développeurs et entreprises européens accèdent à des modèles open weights performants déployables localement, réduisant leur dépendance aux APIs propriétaires et intensifiant la pression concurrentielle sur Mistral AI, acteur français de référence sur ce segment.

💬 Mistral a un problème. Google livre des modèles ouverts sérieux sur l'agentique, et l'argument "notre archi est meilleure" va devenir de plus en plus difficile à tenir face à ça. Bon, faut voir ce que ça donne hors benchmarks.

LLMsOpinion
1 source
Comprendre la fenêtre de contexte : limites et solutions techniques des LLM
4Le Big Data 

Comprendre la fenêtre de contexte : limites et solutions techniques des LLM

La fenêtre de contexte est la limite fondamentale qui détermine ce qu'un modèle d'intelligence artificielle peut "garder en tête" lors d'une conversation ou d'une analyse de document. Concrètement, tout ce que le modèle traite en une seule fois, qu'il s'agisse de la question posée, de l'historique des échanges, des instructions système et de la réponse en cours de génération, doit tenir dans cet espace mesuré en tokens, des unités linguistiques représentant en moyenne trois quarts de mot. Sur une fenêtre de 2 000 tokens, un texte de 900 mots consomme déjà environ 1 200 tokens en entrée, ne laissant que 800 tokens pour la réponse avant que le modèle ne s'arrête net. Les premiers modèles géraient environ 2 000 tokens, soit 1 500 mots. Aujourd'hui, certains systèmes atteignent 1 million de tokens, l'équivalent d'un roman entier, mais chaque gain décuple les besoins matériels. Cette contrainte a des conséquences directes et mesurables sur la qualité des réponses. L'architecture Transformer, utilisée par tous les grands modèles actuels, calcule les relations entre chaque paire de tokens selon une complexité quadratique O(n²) : 1 000 tokens génèrent un million de connexions, et la mémoire GPU explose rapidement. Résultat : au-delà d'un certain seuil, le modèle perd les informations placées en début de contexte, répète des idées ou invente des faits, phénomène connu sous le nom d'hallucination. Le test "needle-in-haystack", qui consiste à vérifier si un modèle retrouve une information précise noyée dans un long texte, révèle 30 % d'échecs au-delà de 500 000 tokens. Les coûts ne sont pas négligeables non plus : traiter 1 million de tokens coûte environ dix centimes, sans compter les risques de sécurité, car un prompt malveillant placé en début de contexte peut manipuler le comportement du modèle sur toute la durée d'un long document. Pour contourner ces limites, plusieurs approches techniques ont émergé. Le KV-cache, qui mémorise les calculs d'attention déjà effectués plutôt que de les recalculer à chaque nouveau token généré, peut représenter jusqu'à 100 Go de mémoire temporaire mais accélère considérablement la génération. D'autres architectures cherchent à remplacer ou compléter l'attention quadratique par des mécanismes linéaires ou par de la mémoire externe, permettant de traiter des documents bien au-delà des capacités actuelles sans explosion des coûts. L'enjeu est industriel et stratégique : les cas d'usage les plus lucratifs, analyse juridique, recherche médicale, assistance sur des bases de code entières, nécessitent précisément de maintenir la cohérence sur de très longues séquences. La course aux grandes fenêtres de contexte est donc moins une question de prouesse technique que de viabilité économique pour des applications professionnelles à grande échelle.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic