LLMsVentureBeat AI · 29 mai 2026, 19:24· 2 min de lecture

Pinterest réduit ses coûts IA de 90 % en allégeant la couche vision d'un modèle frontier

Résumé IASource uniqueImpact UE Take éditorial

Pinterest a réduit de 90 % le coût de son infrastructure d'intelligence artificielle en procédant à une modification radicale du modèle open source Qwen3-VL, développé par Alibaba. Matt Madrigal, directeur technique de Pinterest, a révélé que son équipe a littéralement supprimé la couche d'encodage visuel du modèle pour la remplacer par des embeddings propriétaires, construits à partir des données uniques de la plateforme. Cette intervention chirurgicale sur les couches internes du modèle n'a pas seulement allégé la facture : elle a également amélioré la précision des recommandations de 30 %. Le résultat alimente notamment Navigator 1, l'assistant de shopping conversationnel de Pinterest, utilisé par ses 620 millions d'utilisateurs mensuels.

L'enjeu technique est considérable. Sans ces embeddings précalculés, chaque image retournée par le moteur de recommandation devrait être encodée en temps réel, une par une, au moment de l'inférence. Selon Madrigal, cela représente une latence "20 fois plus élevée" du point de vue des performances. En précalculant ces représentations hors ligne et en les réactualisant régulièrement, Pinterest évite ce goulot d'étranglement tout en personnalisant l'expérience à une échelle que peu d'entreprises doivent gérer. La stratégie illustre une logique désormais bien ancrée dans l'industrie : lorsque les données propriétaires sont suffisamment riches et distinctives, leur qualité peut compenser une taille de modèle plus modeste. "La qualité des données l'emportera sur la taille du modèle", a résumé Madrigal.

Pinterest s'appuie sur des modèles open source depuis plusieurs années, notamment Google BERT et OpenAI CLIP, sur lequel il a construit son propre modèle Pin CLIP. Cette trajectoire d'internalisation progressive s'inscrit dans une stratégie plus large autour d'un "taste graph" : une représentation dynamique des goûts individuels de chaque utilisateur, actualisée en continu selon ses interactions. Contrairement à un graphe social, il s'agit d'un graphe de préférences conçu pour guider l'utilisateur depuis la phase d'inspiration diffuse jusqu'à l'acte d'achat. Dans un secteur où les géants du cloud font pression pour verrouiller les entreprises dans leurs API propriétaires, le choix de Pinterest de personnaliser en profondeur des modèles sous licence Apache ouverte signale une tendance de fond : les grandes plateformes préfèrent investir dans la maîtrise technique plutôt que dans la dépendance à des modèles frontières coûteux et peu adaptables à leurs cas d'usage spécifiques.

💬 L'analyse de Mathieu

Enlever la couche vision d'un LLM multimodal pour la remplacer par tes propres embeddings, c'est le genre de hack que je n'oserais pas si je n'avais pas une confiance béton dans mes données. Pinterest a osé, et -90% sur la facture avec +30% en précision, c'est le résultat que tu rêves mais que tu crois jamais possible avant de l'avoir fait. Madrigal a raison sur un point : quand tes données sont suffisamment spécifiques, un modèle taillé sur mesure bat un frontier généraliste à dix fois le prix.

Dans nos dossiers

Open weight & Open source Alibaba OpenAI

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Sakana AI lance Sakana Fugu : un modèle d'orchestration qui répartit les tâches entre un ensemble interchangeable de LLMs frontier

Sakana AI a lancé le 15 juin 2026 Sakana Fugu, un système d'orchestration multi-agents qui se présente comme un modèle unique. Le principe : l'utilisateur envoie une requête à un seul point d'accès compatible avec l'API d'OpenAI, et Fugu décide en coulisses s'il traite la tâche seul ou s'il coordonne un ensemble de modèles spécialisés. Le système existe en deux variantes, Fugu, optimisé pour la rapidité sur des tâches courantes comme la revue de code ou les chatbots, et Fugu Ultra, conçu pour les problèmes complexes en plusieurs étapes. Sur les benchmarks publiés, Fugu Ultra affiche 73,7 % sur SWE Bench Pro contre 69,2 % pour Claude Opus 4.8, 93,2 % sur LiveCodeBench contre 87,8 % pour Opus, et 50,0 % sur Humanity's Last Exam contre 49,8 %. L'orchestrateur se classe premier sur 10 des 11 benchmarks testés, dépassant individuellement chacun des modèles qu'il coordonne, dont des instances de Gemini 3.1 Pro et GPT 5.5. Ce résultat illustre un principe contre-intuitif : un système qui apprend à déléguer peut surpasser les modèles auxquels il délègue. Pour les équipes de développement, cela signifie qu'il est possible d'accéder à des performances de pointe sans gérer soi-même la complexité d'une architecture multi-agents. Fugu expose également un mécanisme d'opt-out : certains agents peuvent être exclus du pool pour répondre à des exigences de confidentialité ou de conformité réglementaire, ce qui le rend utilisable dans des environnements contraints. La version Ultra, en revanche, ne propose pas cette flexibilité, son pool d'agents est fixe. Sakana AI, studio de recherche fondé en 2023 à Tokyo par d'anciens chercheurs de Google Brain, s'appuie ici sur deux articles présentés à ICLR 2026 : Trinity, qui assigne dynamiquement des rôles de Penseur, Travailleur ou Vérificateur à chaque agent selon le contexte, et Conductor, entraîné par renforcement pour découvrir des stratégies de coordination en langage naturel. La motivation déclarée pour l'architecture multi-fournisseurs est explicitement politique : l'équipe cite les récents contrôles à l'export sur les modèles Fable et Mythos d'Anthropic comme exemple du risque de dépendance à un seul acteur. En routant autour des restrictions d'accès, Fugu se positionne comme une infrastructure résiliente. Testé en bêta auprès de près de 500 utilisateurs, il a notamment permis à un agent d'améliorer automatiquement la recette d'entraînement d'un petit modèle GPT sur 123 expériences successives, un cas d'usage qui préfigure une automatisation profonde de la recherche en IA elle-même.

UELe mécanisme d'opt-out permettant d'exclure certains agents du pool pour des raisons de conformité rend Fugu potentiellement adopté par des entreprises européennes soumises au RGPD ou à l'AI Act.

💬 Ce qui change avec Fugu, c'est pas le score sur les benchmarks, c'est le principe qu'ils illustrent : un orchestrateur qui apprend à déléguer peut surpasser chacun des modèles qu'il coordonne, donc la compétition se joue autant dans l'architecture que dans le modèle lui-même. Fugu bat Opus 4.8 et GPT 5.5 sans être meilleur qu'eux, juste en sachant à qui passer la main. Et le fait que Sakana cite explicitement les contrôles à l'export sur Anthropic comme motivation de design, c'est une posture géopolitique assumée qu'on voit rarement dans un labo de recherche.

LLMsActu

1 source

2VentureBeat AI

Le stack de Trunk Tools réduit la révision de documents de 60 à 10 jours en abandonnant les modèles généralistes

Trunk Tools, entreprise de gestion de projets de construction, a réduit son cycle de révision de documents de 60 jours à seulement 10 jours en abandonnant les modèles d'IA généralistes au profit d'une architecture propriétaire en trois couches : perception, sémantique et agents. Sarah Buchner, fondatrice et PDG de Trunk Tools et ancienne charpentière, explique que l'entreprise a entrepris de prendre les données dispersées de multiples systèmes, de les prétraiter, de les structurer via une ontologie dans un graphe de connaissances, puis d'entraîner des modèles d'IA sur cette base. Amrish Kapoor, directeur technique de Trunk, souligne que les documents de construction posent un problème particulier : la plupart des transformeurs sont des modèles probabilistes qui identifient un élément comme "probablement" ceci ou cela, une approche insuffisante pour l'interprétation symbolique de haute précision qu'exigent ces plans, où un symbole de 2 millimètres peut avoir une signification radicalement différente selon son emplacement. Cette approche pourrait servir de modèle pour d'autres secteurs confrontés au même problème : les modèles génériques, entraînés pour être compétents sur tout, restent faibles sur les données spécialisées. Kriti Faujdar, cheffe de produit senior en infrastructure IA, note que les termes rares, le raisonnement propre à un domaine et le contexte implicite que tout professionnel connaît intuitivement échappent aux modèles généralistes. Le développeur Sébastien De Bollivier ajoute qu'un modèle de type GPT-4 comprend un contrat juridique français mais échoue à citer précisément les articles de loi requis par les praticiens. Par ailleurs, les données les plus précieuses des entreprises n'ont jamais figuré dans les corpus d'entraînement initiaux : elles restent enfermées dans des systèmes internes et des formats propriétaires, ce qui limite l'efficacité du RAG (génération augmentée par récupération), qui ne fait que fournir de meilleurs faits à un modèle incapable de raisonner correctement dans le domaine concerné. Pour Faujdar, la solution passe par un pré-entraînement sur des données spécifiques au secteur, suivi d'un ajustement fin sur des exemples de tâches réelles et de l'élaboration d'évaluations maison, quelques milliers d'exemples issus de praticiens valant mieux que des millions de données brutes glanées en ligne. Les architectures hybrides combinant un modèle généraliste pour le raisonnement et l'orchestration avec un modèle plus petit et spécialisé pour l'extraction sectorielle représentent une piste prometteuse, tout comme les modèles à mélange d'experts qui permettent une spécialisation sans explosion des coûts d'inférence. Le bâtiment, le droit et la santé sont cités comme les secteurs où ce type de technique gagne le plus de terrain, en raison de l'enjeu élevé des erreurs combiné à des formats de documents standardisés. Un bémol toutefois : ces modèles spécialisés perdent souvent leur efficacité en dehors de leur domaine d'expertise, sauf à être ré-entraînés.

💬 Bon, sur le papier, c'est logique : un plan de construction avec un symbole de 2mm mal interprété, ça coûte des mois de retard sur chantier, pas juste une réponse approximative. Ce que ça dit, en fait, c'est que le RAG a atteint ses limites dès qu'on sort du texte générique, il rend juste les mêmes lacunes de raisonnement mieux documentées. Selon Le Fil IA, la vraie bataille des prochains mois se joue sur les données propriétaires jamais vues par les modèles, pas sur la taille des contextes ou le nombre de paramètres.

LLMsOutil

1 source

3MarkTechPost

Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10

Zyphra a publié Zamba2-VL, une famille de modèles de vision-langage (VLM) open source déclinée en trois tailles : 1,2 milliard, 2,7 milliards et 7 milliards de paramètres. Ces modèles sont capables d'analyser conjointement des images et du texte, graphiques, documents, photos, pour répondre à des questions ou extraire des informations. Contrairement à la quasi-totalité des VLM ouverts actuels, qui reposent sur un Transformer dense comme moteur de langage, Zamba2-VL intègre une architecture hybride combinant des couches Mamba2 (de type SSM, state-space model) et des blocs Transformer partagés. Le modèle utilise le tokeniseur de Mistral v0.1 et a été entraîné sur 100 milliards de tokens de données visuelles et textuelles issues du web ouvert. Pour l'encodage visuel, Zyphra a retenu le Vision Transformer de Qwen2.5-VL, choisi pour sa gestion native des résolutions dynamiques et ses embeddings positionnels 2D rotatifs. L'avantage principal de cette architecture se mesure à l'inférence : là où l'attention des Transformers classiques évolue de façon quadratique avec la longueur des séquences, les couches Mamba2 opèrent en temps quasi-linéaire avec un état récurrent de taille fixe. Sur un préfixe de 32 000 tokens, Zamba2-VL affiche un temps avant premier token (TTFT) inférieur d'environ un ordre de grandeur à celui de ses concurrents Transformer, tout en maintenant des scores comparables. C'est un avantage décisif pour des usages embarqués ou en périphérie (edge), où mémoire et latence sont contraintes. Sur 14 benchmarks couvrant la compréhension de documents, le comptage visuel et la perception générale, le modèle 2,7B atteint 90,9 sur DocVQA et 82,5 sur PixMoCount, surpassant largement InternVL3.5-2B (32,8) et Qwen3-VL-2B (55,7) sur ce dernier test. Il reste en revanche en retrait sur les benchmarks de raisonnement intensif comme MMMU (37,7 contre 49,9 pour InternVL3.5-2B) et MathVista. Cette publication s'inscrit dans une dynamique plus large qui voit les architectures SSM et hybrides progressivement s'imposer comme alternatives sérieuses aux Transformers purs, notamment pour les contraintes d'inférence à bas coût. Zyphra, qui développe la famille Zamba2 depuis plusieurs mois, cible explicitement les gammes 1,2B et 2,7B pour des déploiements sur appareils et en périphérie de réseau, un segment en forte croissance avec la multiplication des assistants locaux et des applications industrielles d'analyse documentaire. Les modèles sont publiés en open source, ce qui devrait accélérer l'adoption et permettre à la communauté d'évaluer indépendamment les compromis entre efficacité d'inférence et performance sur les tâches de raisonnement complexe, domaine où les hybrides SSM-Transformer restent encore challengés par les architectures full-attention à plus grande échelle.

LLMsActu

1 source

4The Decoder

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic