RechercheMeta Engineering ML6sem· 2 min de lecture

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Meta a présenté SilverTorch, un nouveau système de recommandation qui transforme en profondeur la façon dont les plateformes comme Instagram ou Facebook sélectionnent les contenus affichés dans les fils d'actualité et les sections Reels. Accepté au programme complet de la conférence SIGIR 2026, ce travail de recherche introduit un paradigme inédit baptisé "Index as Model" : l'ensemble du pipeline de récupération de contenus est réuni dans un seul réseau de neurones, là où existaient auparavant une douzaine de microservices distincts. Dans une évaluation portant sur 80 millions d'éléments, SilverTorch a traité 23,7 fois plus de requêtes par seconde qu'une architecture traditionnelle multi-services construite sur la même base de modèle, tout en améliorant l'efficacité du coût total d'exploitation d'un facteur 20,9 par rapport à une solution CPU classique, et ce sans dépasser le seuil critique de 100 millisecondes de latence imposé par les contraintes temps réel.

L'enjeu est considérable pour des plateformes servant des milliards d'utilisateurs quotidiens. Le système de récupération est l'étape qui réduit un catalogue de millions de contenus à quelques milliers de candidats pertinents avant de les transmettre aux algorithmes de classement final, le tout en moins de 100 millisecondes. L'architecture à base de microservices atteignait un plafond structurel : chaque saut entre services entraînait des pertes de latence et limitait la complexité des modèles qu'il était possible d'utiliser. En intégrant dans un même réseau de neurones la recherche par similarité d'intérêts, le filtrage d'éligibilité géographique et linguistique, puis le réordonnancement multi-tâches selon les probabilités d'engagement, SilverTorch rend pratiques des opérations qui étaient auparavant hors de portée dans ce budget de latence. Le résultat concret : une qualité de recommandation sensiblement supérieure, directement visible dans ce que les utilisateurs voient en premier lorsqu'ils ouvrent leurs applications.

Les systèmes de recommandation industriels ont longtemps été construits comme des maillages de microservices hétérogènes, chacun avec son propre cycle de déploiement et souvent son propre langage de programmation, héritage de l'ère CPU où cette fragmentation était un avantage opérationnel. Avec la montée en puissance des GPU et des modèles de deep learning de plus en plus complexes, ce modèle architectural montrait ses limites : la fragmentation créait des frictions et bridait l'innovation. SilverTorch représente une réponse directe à cette contrainte en traitant les index d'items, autrefois gérés comme des bases de données séparées, comme de simples tenseurs à l'intérieur du modèle. Cette approche ouvre la voie à des systèmes de recommandation encore plus sophistiqués et pourrait influencer l'ensemble du secteur, qui fait face aux mêmes compromis entre complexité des modèles, latence et coûts d'infrastructure à très grande échelle.

Dans nos dossiers

Meta IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper

1 source

2NVIDIA AI Blog

Comment les modèles ouverts stimulent la recherche en IA

À l'occasion de l'ICML 2026, l'une des plus grandes conférences mondiales sur le machine learning, les statistiques des papiers acceptés révèlent à quel point les modèles et infrastructures ouverts sont devenus centraux dans la recherche en intelligence artificielle. NVIDIA compte à lui seul 74 papiers acceptés cette année. Environ 2 000 articles retenus citent l'utilisation de GPU NVIDIA, et 145 s'appuient spécifiquement sur Nemotron, la famille de modèles et jeux de données ouverts de l'entreprise, comme fondation de leurs travaux. Des centaines d'autres recherches mobilisent Cosmos, Isaac GR00T ou BioNeMo, couvrant l'IA physique, la robotique, les véhicules autonomes et la recherche biomédicale. Parmi les thèmes dominants figurent la génération vidéo, l'apprentissage par renforcement appliqué aux grands modèles de langage, l'entraînement d'agents et l'inférence, mais de nouveaux axes émergent nettement, notamment les modèles de monde pour la robotique. Le projet DreamDojo illustre cette tendance : construit sur Cosmos, il apprend le comportement du monde physique à partir de vidéos humaines afin de prédire comment un robot réagirait dans des environnements jamais rencontrés à l'entraînement, permettant d'évaluer des politiques de décision et de piloter un robot virtuel sans les coûts et risques d'un déploiement réel. Cette montée en puissance des modèles ouverts change concrètement la manière dont la science de l'IA progresse. Plutôt que de partir de zéro, les laboratoires académiques et industriels s'appuient sur des poids ouverts à évaluer, des jeux de données ouverts pour entraîner leurs propres modèles, et des recettes ouvertes couvrant le raisonnement, l'usage d'outils, la sécurité et l'inférence efficace. En sciences de la vie, les modèles ouverts BioNeMo ont permis des avancées comme FLIP2, un nouveau benchmark public pour évaluer la capacité de l'IA à prédire l'effet des mutations sur les protéines, ou KERMT, un modèle dédié aux propriétés moléculaires utiles à la découverte de médicaments. La génération de données synthétiques s'impose également comme un axe majeur, reflétant un besoin croissant d'entraîner des modèles à grande échelle sans dépendre uniquement de données annotées par des humains, un chantier soutenu par les outils NeMo Curator. Cette dynamique dépasse largement les laboratoires de NVIDIA. Basecamp Research a développé EDEN, un modèle de fondation pour l'ADN qui aide à interpréter et concevoir des séquences génétiques. Le groupe pharmaceutique Merck & Co. utilise KERMT pour prédire le comportement de molécules candidates à un traitement, notamment leur efficacité et leur sécurité potentielles. Le laboratoire japonais Sakana AI, présent à la conférence, a bâti ses modèles Fugu et Fugu-Ultra directement sur Nemotron 3 Ultra pour automatiser une partie de la recherche en IA, tandis que la startup KiloCode a intégré Nemotron dans son architecture de routage de code, revendiquant une réduction des coûts en tokens pouvant atteindre 90 %. Ces exemples illustrent comment l'ouverture des modèles et des infrastructures accélère l'innovation bien au-delà du seul écosystème de leur créateur, en abaissant la barrière d'entrée pour des équipes de recherche et des entreprises de toutes tailles.

UELes laboratoires de recherche académiques europeens beneficient indirectement de l'acces a ces modeles et jeux de donnees ouverts pour leurs propres travaux.

💬 Les chiffres parlent tout seuls : 2000 papiers ICML citent du GPU NVIDIA, 145 s'appuient sur Nemotron. On est loin du open source comme argument marketing, c'est devenu l'infrastructure de base de la recherche en IA. Ce qui me frappe, c'est que ça abaisse vraiment la barrière d'entrée : un labo japonais comme Sakana ou une startup comme KiloCode construisent dessus sans les moyens d'un géant. Reste à voir si NVIDIA garde cette ouverture quand la position dominante sera encore plus verrouillée.

RecherchePaper

1 source

3VentureBeat AI

Un nouveau framework de mémoire pour agents utilise 118K tokens par requête. LangMem en consomme 3,26M

Des chercheurs de la National University of Singapore ont présenté MRAgent, un nouveau cadre de gestion de la mémoire pour agents d'intelligence artificielle qui consomme environ 118 000 tokens par requête, contre 3,26 millions pour LangMem, l'un des frameworks concurrents. MRAgent abandonne l'approche classique dite « retrieve-then-reason », où un agent récupère passivement des documents puis les soumet à un grand modèle de langage. À la place, il introduit un mécanisme de reconstruction mémorielle dynamique, intégré directement dans le processus de raisonnement du LLM : l'agent explore activement un graphe de mémoire structuré, évalue des preuves intermédiaires à chaque étape et ajuste sa stratégie de recherche en temps réel, comme un enquêteur qui affine ses pistes au fil des découvertes. L'enjeu est considérable pour quiconque déploie des agents IA sur des tâches longues et complexes. Les pipelines de récupération traditionnels souffrent de trois défauts majeurs : ils ne peuvent pas réviser leur stratégie en cours de raisonnement, ils inondent la fenêtre de contexte du modèle avec des résultats superficiellement similaires mais peu pertinents, et ils s'appuient sur des structures rigides comme les top-k résultats ou des fonctions de pertinence statiques. Ces limitations se traduisent concrètement par des agents qui oublient des détails cruciaux, hallucinent des connexions, ou explosent les coûts d'API à mesure que les conversations s'allongent. MRAgent réduit ce gaspillage d'un facteur proche de 28 par rapport à LangMem, ce qui représente une économie substantielle à l'échelle industrielle. L'architecture repose sur un mécanisme baptisé « Cue-Tag-Content », un graphe associatif à trois niveaux : des indices fins comme des noms d'entités ou des attributs contextuels, des étiquettes sémantiques qui résument les relations entre ces indices et les contenus stockés, et enfin les unités mémorielles elles-mêmes, organisées en couches de granularité variable, mémoire épisodique pour les événements concrets, mémoire sémantique pour les faits stables et préférences utilisateur. Ce design s'inspire directement des neurosciences cognitives, où la récupération mémorielle est un processus actif et associatif plutôt qu'une simple lecture de base de données. Dans un secteur où les coûts d'inférence et la fiabilité des agents sur les tâches longues sont devenus des critères de sélection déterminants, MRAgent ouvre une voie concrète vers des systèmes à la fois plus précis et plus économiques.

UELes développeurs et entreprises européens déployant des agents IA à grande échelle pourraient bénéficier d'une réduction substantielle des coûts d'inférence si MRAgent est intégré dans les frameworks disponibles, mais l'impact reste indirect à ce stade académique.

RecherchePaper

1 source

4VentureBeat AI

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic