Aller au contenu principal
8 ans, 100 dollars, et plus rapide qu’une RTX 3060 pour faire tourner un LLM en local
InfrastructureFrandroid6sem· 1 min de lecture

8 ans, 100 dollars, et plus rapide qu’une RTX 3060 pour faire tourner un LLM en local

Source originale ↗·

Un YouTubeur spécialisé en hardware a démontré récemment qu'une carte Nvidia destinée aux serveurs, datant de 2017 et achetée une centaine de dollars sur eBay, surpasse une RTX 3060 moderne pour faire tourner des modèles de langage en local. La carte en question, une Tesla P40 dotée de 24 Go de mémoire GDDR5, génère davantage de tokens par seconde que la carte grand public de Nvidia sur des modèles comme Llama ou Mistral 7B, tout en offrant deux fois plus de VRAM pour charger des modèles plus volumineux.

Ce résultat contre-intuitif souligne un avantage décisif du matériel entreprise d'occasion : la quantité de mémoire embarquée. Pour les LLM en local, la VRAM est le facteur limitant, bien plus que la puissance de calcul brute. Avec 24 Go, la P40 peut charger des modèles de 13 à 20 milliards de paramètres sans quantification agressive, là où la RTX 3060 et ses 12 Go se retrouvent rapidement à court. Pour un particulier ou un développeur indépendant cherchant à expérimenter avec l'IA générative sans investir plusieurs centaines d'euros, l'équation devient très favorable.

Le marché de l'occasion en matériel datacenter constitue un angle mort peu exploré par la communauté IA grand public. Les cartes Tesla, Quadro et A-series de générations précédentes, déclassées par les entreprises au profit de H100 et autres puces récentes, s'accumulent sur les plateformes de revente à des prix dérisoires. Avec l'explosion de l'intérêt pour les LLM locaux depuis la sortie de Llama en 2023, ce segment pourrait attirer davantage d'attention, au point de faire remonter les prix sur ces références spécifiques.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les meilleurs mini PC pour l’IA en local : faire tourner un LLM chez soi sans cloud
1Frandroid 

Les meilleurs mini PC pour l’IA en local : faire tourner un LLM chez soi sans cloud

L'article fourni est un simple teaser, il se coupe après l'introduction avec "[Lire la suite]" et ne contient aucun contenu réel : aucun mini PC mentionné, aucun prix, aucune spec technique, aucune recommandation concrète. Écrire un article autonome de 200-250 mots à partir de ça reviendrait à inventer des faits, ce que je ne ferai pas. Options : 1. Fournis le contenu complet de l'article (colle le texte intégral après le "[Lire la suite]"), je le résume immédiatement. 2. Fournis l'URL, je peux tenter de récupérer la page si tu me la donnes.

💬 Les mini PC pour faire tourner un LLM en local, c'est le sujet qui revient tous les six mois avec de nouvelles puces et les mêmes questions. Ce qui change vraiment, c'est que les modèles 7-14B commencent à tenir dans 16 Go de RAM avec des perfs acceptables, ce n'était pas le cas il y a dix-huit mois. Reste que le vrai coût, c'est pas le matériel, c'est le temps passé à optimiser la quantification pour que ça ne rame pas trop.

InfrastructureTuto
1 source
Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud
2VentureBeat AI 

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Microsoft a dévoilé lundi le Surface RTX Spark Dev Box lors de la conférence Build 2026, un ordinateur de bureau compact destiné aux développeurs de logiciels qui souhaitent faire tourner de grands modèles d'intelligence artificielle en local, sans passer par le cloud. La machine embarque le nouveau processeur RTX Spark d'Nvidia, basé sur l'architecture Blackwell, et dispose de 128 gigaoctets de mémoire unifiée partagée dynamiquement entre le CPU et le GPU. Cette configuration permet d'atteindre un pétaflop de puissance de calcul IA, ce qui autorise l'exécution de modèles dépassant 120 milliards de paramètres sans envoyer la moindre requête vers un serveur distant. Pavan Davuluri, vice-président exécutif de Windows et Devices chez Microsoft, a précisé que la mémoire joue un rôle critique : à 100 000 tokens de contexte, le cache clé-valeur d'un grand modèle peut à lui seul consommer entre 40 et 50 gigaoctets, ce qui explique le choix de ce pool mémoire de 128 Go. L'appareil sera commercialisé exclusivement sur Microsoft.com aux États-Unis d'ici la fin de l'année, sans prix annoncé à ce stade. L'enjeu est directement économique. Les entreprises de toutes tailles font face à des factures cloud GPU qui s'accumulent de façon imprévisible : chaque appel d'inférence, chaque cycle de fine-tuning, chaque workflow agentique qui itère sur un modèle frontier génère des coûts qui s'emballent pour un développeur testant son prototype des dizaines de fois par jour. Andrew Hill, vice-président de Surface, a résumé la promesse dans le billet d'annonce : le Dev Box "change l'équation" en permettant aux équipes de "réserver les appels aux modèles frontier aux vrais problèmes frontier, et de traiter le reste sur leur propre matériel." La proposition n'est pas que le cloud soit dépassé, mais qu'une large partie des tâches actuellement envoyées à des datacenters distants ne justifie pas des modèles de pointe et serait mieux servie par du matériel local à coût fixe et prévisible. Ce lancement marque un tournant stratégique notable pour Microsoft, dont Azure génère plusieurs dizaines de milliards de dollars de revenus annuels. En commercialisant explicitement un appareil qui réduit la dépendance au cloud de ses propres clients, l'entreprise reconnaît une tension structurelle qui monte dans l'industrie depuis l'explosion des coûts d'inférence. Le pari de Redmond est que les développeurs qui prototypent en local déploieront ensuite sur Azure lorsqu'ils auront besoin de passer à l'échelle, et que contrôler les deux extrémités de ce cycle de développement est plus rentable que de n'en posséder qu'une. L'architecture RTX Spark, qui fusionne CPU ARM et GPU Blackwell en un seul chip avec mémoire unifiée, remplace quatre composants distincts d'un PC classique et ouvre la voie à une nouvelle génération de postes de travail IA autonomes.

InfrastructureOpinion
1 source
Mistral AI lève 830 millions de dollars pour un centre de données IA
3AI Business 

Mistral AI lève 830 millions de dollars pour un centre de données IA

Mistral AI a annoncé avoir levé 830 millions de dollars pour financer la construction d'un centre de données dédié à l'intelligence artificielle, qui sera implanté en région parisienne. Cette infrastructure, alimentée par des milliers de puces Nvidia, représente l'un des investissements les plus importants jamais réalisés dans l'IA en Europe. La startup française, fondée en 2023, consolide ainsi sa position parmi les acteurs majeurs du secteur à l'échelle mondiale. Ce centre de calcul donnera à Mistral une capacité d'entraînement et d'inférence souveraine, réduisant sa dépendance aux infrastructures cloud américaines comme AWS ou Azure. Pour les entreprises et institutions européennes soucieuses de la localisation de leurs données, cette infrastructure sur sol français représente une alternative crédible aux géants américains. C'est aussi un signal fort sur la capacité de l'Europe à construire une filière IA complète, du modèle jusqu'au silicium. Mistral s'inscrit dans une course mondiale à la puissance de calcul où les États-Unis et la Chine investissent des dizaines de milliards. La France, qui a fait de l'IA souveraine une priorité industrielle, bénéficie ici d'un effet d'entraînement : après les annonces gouvernementales du plan France 2030, un acteur privé passe à l'acte à grande échelle. Les prochains mois diront si d'autres startups européennes suivront cette voie ou si Mistral restera une exception dans un paysage dominé par les hyperscalers américains.

UEMistral AI construit un centre de calcul souverain en région parisienne, offrant aux entreprises et institutions françaises et européennes une alternative locale aux hyperscalers américains pour l'hébergement et l'inférence IA sensibles.

💬 830 millions pour un datacenter, c'est le moment où Mistral arrête de jouer dans la cour des grands et devient un grand. Ce qui m'intéresse vraiment là-dedans, c'est la souveraineté d'inférence : des boîtes françaises qui pourront faire tourner des modèles sans que leurs données passent par Virginia ou Oregon. Reste à voir combien ça coûtera à l'usage.

InfrastructureOpinion
1 source
OpenAI va dépenser plus de 20 milliards de dollars en puces Cerebras et obtenir une participation au capital
4The Information AI 

OpenAI va dépenser plus de 20 milliards de dollars en puces Cerebras et obtenir une participation au capital

OpenAI a conclu un accord majeur avec Cerebras Systems, le fabricant de puces AI concurrent de Nvidia, pour un montant total dépassant 20 milliards de dollars sur trois ans. Selon plusieurs sources proches du dossier, cette somme, deux fois supérieure aux chiffres précédemment évoqués, servira à financer l'utilisation de serveurs équipés des puces Cerebras. En parallèle, OpenAI s'est engagé à injecter environ 1 milliard de dollars supplémentaires pour financer la construction de centres de données destinés à héberger ses produits d'intelligence artificielle. En contrepartie de ces dépenses, OpenAI recevra des bons de souscription donnant accès à une participation minoritaire dans Cerebras, participation qui pourrait croître proportionnellement aux sommes dépensées. Cet accord constitue une tentative directe de réduire la dépendance d'OpenAI envers Nvidia, dont les puces H100 et H200 dominent le marché de l'infrastructure IA. Pour OpenAI, l'enjeu est double : diversifier ses fournisseurs de calcul tout en pesant sur les coûts d'entraînement et d'inférence de ses modèles, qui représentent plusieurs milliards de dollars par an. Cerebras, connue pour ses puces WSE (Wafer Scale Engine) aux performances élevées sur certaines charges de travail, tentait de lancer son introduction en bourse depuis 2024, un processus retardé notamment par des questions réglementaires liées à ses investisseurs du Moyen-Orient. Cet accord avec OpenAI change radicalement sa trajectoire et sa valorisation potentielle. Il s'inscrit dans un mouvement plus large de l'industrie tech visant à diversifier l'approvisionnement en silicium face à la pénurie et au pouvoir de marché de Nvidia, tandis que des acteurs comme AMD, Intel et des startups comme Groq cherchent également à s'imposer comme alternatives crédibles.

💬 20 milliards sur Cerebras, c'est pas une commande de puces, c'est un message envoyé à Jensen Huang. OpenAI commence enfin à construire un levier de négociation réel, parce qu'être client captif de Nvidia à cette échelle, c'est juste intenable sur la durée. Reste à voir si les WSE tiennent la charge en prod sur des workloads variés, parce que Cerebras performe bien dans certains cas mais c'est pas encore la puce universelle qu'on nous vend.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic