Aller au contenu principal
AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement
InfrastructureLe Big Data2h· 2 min de lecture

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

Source originale ↗·

Lors de la conférence Computex 2026, Lisa Su, PDG d'AMD, a pris la scène avec un mini PC pas plus grand qu'un livre épais pour y faire tourner en direct un modèle d'intelligence artificielle de 235 milliards de paramètres, sans datacenter, sans cloud, sans carte graphique dédiée externe. La machine utilisée est équipée du processeur Ryzen AI Max+ 395 (nom de code Strix Halo), intégré notamment dans le GMKtec EVO-X2. Sa particularité tient à son architecture de mémoire unifiée : jusqu'à 128 Go de RAM partagée, dont 96 Go peuvent être alloués au GPU intégré en guise de VRAM. C'est précisément ce volume qui permet de charger des modèles d'une taille normalement réservée aux serveurs professionnels. Le tout s'exécute via des outils open source gratuits comme Ollama, sans abonnement ni limite d'usage imposée par un tiers.

Ce qui change concrètement, c'est la barrière d'accès à l'inférence locale de très grands modèles. Jusqu'ici, faire tourner un LLM de plusieurs dizaines de milliards de paramètres exigeait soit une carte graphique haut de gamme à plusieurs milliers d'euros avec ses limitations de VRAM, soit la location de GPU dans le cloud, une facture récurrente qui peut vite peser sur les marges d'un indépendant ou d'une petite structure. AMD montre ici qu'un mini PC compact peut absorber ces charges de travail localement. Pour les entreprises manipulant des données sensibles, cabinets juridiques, services de santé, bureaux d'études, la promesse est double : confidentialité totale des documents traités et réduction significative des coûts d'infrastructure IA. Un consultant cité dans la démonstration affirme avoir remplacé ses locations de GPU par cette configuration, avec un impact positif sur la rentabilité de son activité.

AMD ne part pas de zéro dans cette course, mais accuse encore du retard sur Nvidia. Son écosystème logiciel ROCm, équivalent maison du CUDA de Nvidia, progresse rapidement en compatibilité mais n'a pas encore atteint la maturité de son concurrent, ce qui peut freiner certains workflows spécialisés. Face à une RTX 5090, les performances de ce Ryzen AI Max+ 395 restent inférieures sur les modèles les plus exigeants. La démonstration d'AMD s'inscrit néanmoins dans une tendance de fond : la décentralisation de l'IA vers le matériel personnel, portée aussi bien par Apple Silicon que par les puces NPU embarquées dans les PC Copilot+. Le marché de l'IA embarquée représente un enjeu stratégique majeur pour les prochaines années, et cette annonce positionne AMD comme un acteur sérieux de l'inférence locale, aux côtés d'un Nvidia dont la domination sur le segment serveur reste, pour l'instant, intacte.

Impact France/UE

Les entreprises européennes soumises au RGPD, cabinets juridiques, services de santé, bureaux d'études, disposent d'une option d'inférence IA locale à coût réduit, garantissant la confidentialité des données sans dépendance à des services cloud tiers.

💬 L'analyse de Mathieu

235 milliards de paramètres dans un boîtier format livre, c'est le genre de démo Computex qu'on met de côté... sauf que là, ça repose sur quelque chose de réel : la mémoire unifiée qui résout enfin le problème de VRAM qui nous bloquait depuis des années. Pour les cabinets, les services de santé, toutes les structures qui ne peuvent pas balancer leurs données sur le cloud, c'est une vraie porte qui s'ouvre. ROCm n'est pas encore CUDA, attention, mais pour de l'inférence locale avec Ollama, ça passe.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment Apple fait tourner une IA géante dans l’iPhone sans saturer la RAM
1Frandroid 

Comment Apple fait tourner une IA géante dans l’iPhone sans saturer la RAM

Apple a publié lors de la WWDC 2026 un billet de recherche détaillant une technique d'ingénierie inédite pour faire tourner son modèle d'IA le plus puissant directement sur iPhone, sans surcharger la mémoire vive. L'approche consiste à stocker les poids du modèle dans la mémoire flash de l'appareil plutôt qu'en RAM, puis à les charger dynamiquement à la demande, par petits blocs, au moment de l'inférence. Cette méthode, baptisée inférence par déchargement flash, permet de faire fonctionner localement un modèle dont la taille dépasse largement la capacité RAM disponible sur un smartphone. L'enjeu est considérable pour Apple, qui a fait de la confidentialité un argument commercial central. Faire tourner l'IA entièrement on-device signifie que les données de l'utilisateur ne quittent jamais l'appareil, contrairement aux architectures cloud ou hybrides. Pour les centaines de millions d'utilisateurs d'iPhone, cela implique des fonctionnalités IA avancées disponibles hors connexion, sans latence réseau, et sans que les requêtes soient transmises à des serveurs tiers. Cette avancée s'inscrit dans une course technologique où Apple, Google et Qualcomm cherchent chacun à maximiser les capacités d'inférence locale sur puces mobiles. Apple avait déjà franchi un cap avec les puces M et A-series, mais la contrainte mémoire restait le goulot d'étranglement principal pour les grands modèles. En résolvant partiellement ce verrou par le logiciel plutôt que par le seul matériel, Apple ouvre la voie à des modèles encore plus ambitieux embarqués dans les prochaines générations d'iPhone.

UELes utilisateurs français d'iPhone bénéficieront de fonctionnalités IA plus avancées en local, renforçant la confidentialité des données personnelles sans recours au cloud.

InfrastructureOpinion
1 source
Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud
2VentureBeat AI 

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Microsoft a dévoilé lundi le Surface RTX Spark Dev Box lors de la conférence Build 2026, un ordinateur de bureau compact destiné aux développeurs de logiciels qui souhaitent faire tourner de grands modèles d'intelligence artificielle en local, sans passer par le cloud. La machine embarque le nouveau processeur RTX Spark d'Nvidia, basé sur l'architecture Blackwell, et dispose de 128 gigaoctets de mémoire unifiée partagée dynamiquement entre le CPU et le GPU. Cette configuration permet d'atteindre un pétaflop de puissance de calcul IA, ce qui autorise l'exécution de modèles dépassant 120 milliards de paramètres sans envoyer la moindre requête vers un serveur distant. Pavan Davuluri, vice-président exécutif de Windows et Devices chez Microsoft, a précisé que la mémoire joue un rôle critique : à 100 000 tokens de contexte, le cache clé-valeur d'un grand modèle peut à lui seul consommer entre 40 et 50 gigaoctets, ce qui explique le choix de ce pool mémoire de 128 Go. L'appareil sera commercialisé exclusivement sur Microsoft.com aux États-Unis d'ici la fin de l'année, sans prix annoncé à ce stade. L'enjeu est directement économique. Les entreprises de toutes tailles font face à des factures cloud GPU qui s'accumulent de façon imprévisible : chaque appel d'inférence, chaque cycle de fine-tuning, chaque workflow agentique qui itère sur un modèle frontier génère des coûts qui s'emballent pour un développeur testant son prototype des dizaines de fois par jour. Andrew Hill, vice-président de Surface, a résumé la promesse dans le billet d'annonce : le Dev Box "change l'équation" en permettant aux équipes de "réserver les appels aux modèles frontier aux vrais problèmes frontier, et de traiter le reste sur leur propre matériel." La proposition n'est pas que le cloud soit dépassé, mais qu'une large partie des tâches actuellement envoyées à des datacenters distants ne justifie pas des modèles de pointe et serait mieux servie par du matériel local à coût fixe et prévisible. Ce lancement marque un tournant stratégique notable pour Microsoft, dont Azure génère plusieurs dizaines de milliards de dollars de revenus annuels. En commercialisant explicitement un appareil qui réduit la dépendance au cloud de ses propres clients, l'entreprise reconnaît une tension structurelle qui monte dans l'industrie depuis l'explosion des coûts d'inférence. Le pari de Redmond est que les développeurs qui prototypent en local déploieront ensuite sur Azure lorsqu'ils auront besoin de passer à l'échelle, et que contrôler les deux extrémités de ce cycle de développement est plus rentable que de n'en posséder qu'une. L'architecture RTX Spark, qui fusionne CPU ARM et GPU Blackwell en un seul chip avec mémoire unifiée, remplace quatre composants distincts d'un PC classique et ouvre la voie à une nouvelle génération de postes de travail IA autonomes.

InfrastructureOpinion
1 source
Il abandonne ses abonnements IA pour un Mac Mini et économise 2 500 $ par an
3Le Big Data 

Il abandonne ses abonnements IA pour un Mac Mini et économise 2 500 $ par an

Un développeur vétéran a publié début juin 2026 le détail de son infrastructure IA personnelle : deux Mac Mini équipés de puces Apple Silicon, acquis pour un total de 1 198 dollars, qui remplacent intégralement un stack d'abonnements cloud lui coûtant 210 dollars par mois. Sur ces machines, il fait tourner l'agent open source Hermes ainsi que plusieurs modèles de langage en local, couvrant ses besoins en programmation, rédaction et analyse. Sa facture d'électricité liée à cette configuration s'élève à deux ou trois dollars mensuels. Le calcul est direct : une fois le matériel amorti, l'économie annuelle atteint environ 2 500 dollars, soit le prix d'un abonnement combinant ChatGPT Pro, Claude Code, Gemini Advanced et GitHub Copilot, des outils devenus des lignes budgétaires standard pour les développeurs actifs. L'impact le plus immédiat concerne les professionnels qui utilisent l'IA de façon intensive et qui accumulent plusieurs abonnements premium en parallèle. Pour eux, le retour sur investissement d'une configuration locale devient concret en moins d'un an. Au-delà du coût, le contrôle des données constitue un avantage distinct : les documents, le code source et les données sensibles ne transitent jamais par des serveurs externes, ce qui répond directement aux exigences de confidentialité dans des contextes professionnels réglementés ou compétitifs. Cette approche représente aussi un signal pour l'industrie : la proposition de valeur du cloud IA repose jusqu'ici sur la commodité et la puissance brute, mais l'Apple Silicon a réduit l'écart de performances au point que le calcul économique bascule pour une catégorie croissante d'utilisateurs. Cette tendance s'inscrit dans un mouvement plus large porté par la démocratisation des modèles open source et par la montée en puissance des puces ARM optimisées pour l'inférence. Apple a délibérément conçu l'Apple Silicon avec une mémoire unifiée à haute bande passante qui avantage précisément les charges de travail LLM, et la communauté open source a suivi avec des outils comme Ollama ou llama.cpp rendant le déploiement local accessible sans infrastructure spécialisée. La limite reste réelle : les modèles locaux disponibles sur deux Mac Mini ne rivalisent pas avec GPT-4o ou Claude Opus sur les tâches les plus complexes, et la mise en place requiert des compétences techniques que l'utilisateur moyen ne possède pas. La plupart des observateurs anticipent donc un modèle hybride : l'inférence locale pour les tâches répétitives et courantes, les API cloud pour les raisonnements lourds ponctuels. Ce que cette configuration démontre surtout, c'est que la dépendance totale aux abonnements cloud n'est plus une fatalité pour les développeurs qui savent ce qu'ils font.

UELes développeurs et entreprises européens soumis au RGPD disposent ici d'un argument concret supplémentaire : une configuration locale garantit que le code source et les données personnelles ne transitent jamais par des serveurs hors UE.

InfrastructureOpinion
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
4Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic