Aller au contenu principal
Meta Adaptive Ranking Model : infléchir la courbe d'inférence pour déployer des LLM dans la publicité
InfrastructureMeta Engineering ML1h

Meta Adaptive Ranking Model : infléchir la courbe d'inférence pour déployer des LLM dans la publicité

1 source couvre ce sujet·Source originale ↗·

Meta a dévoilé l'Adaptive Ranking Model (ARM), un nouveau système de recommandation publicitaire fonctionnant à l'échelle des grands modèles de langage (LLM). Déployé sur Instagram au quatrième trimestre 2025, ARM a généré une hausse de 3 % des conversions publicitaires et de 5 % du taux de clics pour les utilisateurs ciblés. Le système atteint une complexité de calcul équivalente à celle des meilleurs LLMs — environ 10 GFLOPs par token — tout en maintenant une latence inférieure à 100 millisecondes, soit un ordre de grandeur plus rapide que l'inférence LLM standard.

L'enjeu central qu'ARM résout est ce que Meta appelle le « trilemme de l'inférence » : comment faire tourner des modèles d'une complexité comparable à GPT-4 ou Llama dans un environnement publicitaire temps réel, où chaque requête doit aboutir en moins d'une seconde, pour des milliards d'utilisateurs, sans exploser les coûts d'infrastructure. La solution repose sur un routage intelligent des requêtes : plutôt que d'appliquer le même modèle à chaque impression publicitaire, ARM analyse le contexte et l'intention de l'utilisateur pour décider dynamiquement du niveau de complexité nécessaire. Les requêtes simples consomment peu de ressources ; les requêtes complexes mobilisent toute la puissance du modèle LLM-scale. Ce principe d'alignement dynamique entre complexité et contexte permet de maximiser la qualité des prédictions sans surcharger les serveurs.

Trois innovations techniques rendent cela possible. Premièrement, une architecture centrée sur la requête plutôt que sur le modèle, permettant de servir un modèle à un trillion de paramètres (O(1T)) de façon économiquement viable. Deuxièmement, une co-conception modèle-matériel : les architectures sont conçues en tenant compte des contraintes précises du silicium utilisé, ce qui améliore significativement l'utilisation des GPU dans des environnements matériels hétérogènes. Troisièmement, une infrastructure de serving repensée autour d'architectures multi-cartes et d'optimisations bas-niveau spécifiques au hardware. Ce développement s'inscrit dans la course que se livrent les grandes plateformes pour intégrer l'intelligence des LLMs dans leurs systèmes de recommandation — un marché où chaque fraction de point de taux de conversion se traduit en milliards de dollars de revenus publicitaires. Pour Meta, dont plus de 98 % des revenus proviennent de la publicité, ARM représente une avancée structurelle : la preuve qu'il est désormais possible de faire fonctionner des modèles de la taille de ceux utilisés pour les chatbots dans des pipelines industriels ultra-contraints en latence et en coût.

Impact France/UE

Les annonceurs européens utilisant Instagram et Facebook bénéficient indirectement d'un ciblage publicitaire amélioré, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

À lire aussi

Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant
1Presse-citron 

Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant

Google a dévoilé TurboQuant, un nouvel algorithme de compression destiné à optimiser l'utilisation de la mémoire dans les systèmes d'intelligence artificielle. Développé en interne au sein d'Alphabet, cet outil n'est pas un produit grand public, mais une brique technique fondamentale visant à réduire la quantité de mémoire vive nécessaire pour faire fonctionner des modèles de grande taille. La présentation a eu lieu il y a quelques jours, sans annonce de disponibilité externe pour l'instant. L'enjeu est considérable : l'un des principaux freins au déploiement massif de l'IA reste le coût des infrastructures, notamment la mémoire GPU, extrêmement onéreuse. Un algorithme capable de compresser efficacement les poids des modèles sans dégrader leurs performances permettrait à Google de réduire significativement ses coûts opérationnels, tout en accélérant ses services — à commencer par son moteur de recherche, qui intègre désormais des résumés et réponses générés par IA à grande échelle. La compression de modèles, ou quantification, est un champ de recherche très actif où s'affrontent les grandes entreprises tech et les laboratoires académiques. Des techniques comme GPTQ, AWQ ou la quantification 4 bits ont déjà permis des gains importants, mais Google semble vouloir pousser plus loin avec une approche maison. TurboQuant s'inscrit dans une stratégie plus large d'Alphabet pour contrôler toute la chaîne technique de l'IA — des puces (TPU) aux algorithmes d'inférence — et maintenir son avance face à Microsoft, Meta et Amazon.

InfrastructureOpinion
1 source
L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique
2NVIDIA AI Blog 

L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique

NVIDIA et la startup Emerald AI ont présenté lors du CERAWeek — le sommet mondial de l'énergie surnommé le « Davos de l'énergie » — une architecture inédite qui transforme les usines à IA en actifs flexibles pour le réseau électrique. Construite sur la plateforme NVIDIA Vera Rubin DSX et le logiciel Conductor d'Emerald AI, cette approche intègre calcul, gestion de l'énergie et pilotage en temps réel dans une architecture unifiée. Concrètement, une usine à IA peut désormais moduler sa consommation électrique en fonction des conditions du réseau, tout en continuant à produire des tokens. Six grands acteurs de l'énergie — AES, Constellation, Invenergy, NextEra Energy, Nscale Energy & Power et Vistra — se sont engagés à construire des capacités de production compatibles avec cette architecture, notamment via des projets hybrides combinant alimentation locale et connexion au réseau. Du côté de l'efficacité pure, NVIDIA revendique une progression d'un million de fois le nombre de tokens générés pour un même budget énergétique, entre le GPU Kepler de 2012 et la plateforme Vera Rubin lancée cette année. La métrique clé est désormais le « tokens par seconde par watt ». Cet enjeu dépasse la simple optimisation technique : la croissance explosive des infrastructures IA menace de déstabiliser des réseaux électriques déjà sous tension. En rendant les centres de calcul capables de s'adapter en temps réel à l'offre disponible — en réduisant leur consommation lors des pics de demande, par exemple — cette approche évite de dimensionner le réseau pour des pointes qui ne surviennent que rarement. Pour les opérateurs d'énergie, cela représente une nouvelle classe de clients industriels qui, au lieu de fragiliser le réseau, peuvent contribuer à sa stabilité. Pour les entreprises qui déploient l'IA à grande échelle, l'avantage est double : des coûts opérationnels réduits et un accès accéléré à la puissance électrique, souvent le principal goulot d'étranglement dans la construction de nouveaux data centers. Jensen Huang, fondateur et PDG de NVIDIA, décrit l'infrastructure IA comme un « gâteau à cinq couches » — énergie, puces, infrastructure, modèles, applications — dans lequel l'énergie constitue la base fondatrice. C'est dans cette logique que s'inscrit également l'annonce de Maximo, une entreprise de robotique solaire incubée par AES, qui a achevé l'installation autonome d'une ferme solaire de 100 mégawatts sur le site Bellefield d'AES, en utilisant NVIDIA Omniverse et Isaac Sim. TerraPower, en partenariat avec SoftServe, a de son côté présenté une plateforme de jumeau numérique propulsée par Omniverse pour accélérer la conception de réacteurs nucléaires. Ces annonces illustrent une tendance de fond : l'IA ne se contente plus de consommer de l'énergie, elle commence à en accélérer la production.

UENscale, opérateur européen de data centers, figure parmi les six partenaires engagés dans cette architecture, ce qui pourrait influencer la stratégie énergétique des centres de calcul IA en Europe.

InfrastructureActu
1 source
ThinkLabs AI, soutenue par Nvidia, lève 28 millions de dollars pour répondre à la crise du réseau électrique
3VentureBeat AI 

ThinkLabs AI, soutenue par Nvidia, lève 28 millions de dollars pour répondre à la crise du réseau électrique

ThinkLabs AI, une startup américaine spécialisée dans la modélisation par intelligence artificielle des réseaux électriques, a annoncé la clôture d'un tour de table de 28 millions de dollars en Série A. Le tour a été mené par Energy Impact Partners (EIP), l'un des plus grands fonds d'investissement dans la transition énergétique, avec la participation de NVentures — le bras capital-risque de Nvidia — et d'Edison International, maison mère de Southern California Edison. Parmi les investisseurs récurrents figurent GE Vernova, Powerhouse Ventures, Blackhorn Ventures et Amplify Capital, ainsi qu'une grande utility nord-américaine non nommée. Le montant final a dépassé l'objectif initial : le tour était sursouscrit, selon le PDG Josh Wong, en raison de la forte demande des partenaires stratégiques. La technologie de ThinkLabs s'attaque à un goulot d'étranglement critique dans l'ingénierie des réseaux électriques. Lorsqu'un opérateur doit évaluer l'impact du raccordement d'un datacenter ou d'un cluster de bornes de recharge sur un sous-réseau, il doit lancer des simulations de flux de puissance — des calculs complexes qui prennent traditionnellement plusieurs semaines avec les outils hérités de Siemens, GE ou Schneider Electric. ThinkLabs remplace ce processus par des modèles d'IA dits « physics-informed », entraînés sur les sorties de simulateurs physiques de référence. Résultat : une étude qui prenait un mois est compressée en moins de trois minutes, et 10 millions de scénarios peuvent être simulés en 10 minutes, avec une précision supérieure à 99,7 % sur les calculs de flux de puissance. Wong insiste sur la rigueur de l'approche : « Ce n'est pas de l'IA générative qui hallucine — c'est du calcul d'ingénierie, comparable à la dynamique des fluides ou aux modèles climatiques. » L'enjeu est considérable. Selon le cabinet ICF International, la demande électrique américaine devrait croître de 25 % d'ici 2030, tirée par les datacenters d'IA, l'électrification des transports et du bâtiment. Cette montée en charge percute de plein fouet une infrastructure conçue il y a plusieurs décennies pour des usages radicalement différents. Les utilities peinent à suivre : les files d'attente pour raccorder de nouveaux équipements au réseau de transport s'allongent, faute de capacité à modéliser rapidement les impacts. La participation de Nvidia au tour n'est pas anodine : le géant des puces graphiques est à la fois bénéficiaire et contributeur de cette explosion de la demande énergétique liée à l'IA, et a tout intérêt à ce que les infrastructures électriques tiennent la cadence. ThinkLabs se positionne ainsi à l'intersection de deux des grandes transitions de la décennie — numérique et énergétique — avec une application de l'IA qui touche directement à la fiabilité des réseaux physiques.

UELa multiplication des datacenters IA et l'électrification accélérée posent des défis similaires aux gestionnaires de réseaux européens comme RTE ou Elia, qui pourraient bénéficier d'approches comparables pour réduire les délais de raccordement.

💬 Un mois de calcul en trois minutes. Sur le papier ça sonne pitch deck, mais l'approche physics-informed c'est du concret : on accélère de la simulation physique réelle, on ne demande pas à un LLM de deviner des flux de puissance. Nvidia dans le tour, c'est presque logique, ils créent le problème de consommation et financent la solution pour que les réseaux tiennent.

InfrastructureActu
1 source
L’impressionnante reconversion de Dell : du secteur des PC à celui des serveurs IA
4Presse-citron 

L’impressionnante reconversion de Dell : du secteur des PC à celui des serveurs IA

Dell Technologies a enregistré une croissance de 103 % de son activité liée à l'intelligence artificielle au cours de son exercice fiscal en cours, une progression qui illustre la transformation profonde d'un groupe longtemps associé aux ordinateurs personnels grand public. L'entreprise s'est repositionnée sur la fourniture de solutions complètes pour l'IA : serveurs haute densité compatibles GPU, infrastructures de stockage et services d'intégration destinés aux entreprises qui déploient des modèles d'IA à grande échelle. Ce virage stratégique place Dell en compétition directe avec HPE, Supermicro et les hyperscalers sur le marché de l'infrastructure IA, qui représente l'un des segments les plus dynamiques de l'industrie technologique mondiale. La demande explose côté entreprises — banques, assureurs, industriels — qui cherchent à internaliser leurs capacités IA plutôt que de dépendre exclusivement du cloud public, créant ainsi un débouché massif pour les intégrateurs capables de livrer des stacks clés en main. Dell bénéficie ici d'un avantage structurel : ses relations commerciales historiques avec des centaines de milliers d'entreprises lui permettent de vendre de l'infrastructure IA à des clients qu'il fournit déjà en matériel depuis des décennies. Cette reconversion rappelle celle d'IBM vers les services ou de Microsoft vers le cloud — une entreprise dite « mature » qui trouve un second souffle en surfant sur un cycle technologique majeur. La trajectoire de croissance à trois chiffres suggère que ce repositionnement n'en est qu'à ses débuts.

UELes entreprises françaises et européennes (banques, assureurs, industriels) qui cherchent à internaliser leur infrastructure IA disposent d'un fournisseur supplémentaire capable de livrer des stacks clés en main, réduisant leur dépendance au cloud public.

InfrastructureOpinion
1 source