
8 ans, 100 dollars, et plus rapide qu’une RTX 3060 pour faire tourner un LLM en local
Un YouTubeur spécialisé en hardware a démontré récemment qu'une carte Nvidia destinée aux serveurs, datant de 2017 et achetée une centaine de dollars sur eBay, surpasse une RTX 3060 moderne pour faire tourner des modèles de langage en local. La carte en question, une Tesla P40 dotée de 24 Go de mémoire GDDR5, génère davantage de tokens par seconde que la carte grand public de Nvidia sur des modèles comme Llama ou Mistral 7B, tout en offrant deux fois plus de VRAM pour charger des modèles plus volumineux.
Ce résultat contre-intuitif souligne un avantage décisif du matériel entreprise d'occasion : la quantité de mémoire embarquée. Pour les LLM en local, la VRAM est le facteur limitant, bien plus que la puissance de calcul brute. Avec 24 Go, la P40 peut charger des modèles de 13 à 20 milliards de paramètres sans quantification agressive, là où la RTX 3060 et ses 12 Go se retrouvent rapidement à court. Pour un particulier ou un développeur indépendant cherchant à expérimenter avec l'IA générative sans investir plusieurs centaines d'euros, l'équation devient très favorable.
Le marché de l'occasion en matériel datacenter constitue un angle mort peu exploré par la communauté IA grand public. Les cartes Tesla, Quadro et A-series de générations précédentes, déclassées par les entreprises au profit de H100 et autres puces récentes, s'accumulent sur les plateformes de revente à des prix dérisoires. Avec l'explosion de l'intérêt pour les LLM locaux depuis la sortie de Llama en 2023, ce segment pourrait attirer davantage d'attention, au point de faire remonter les prix sur ces références spécifiques.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




