
AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement
Lors de la conférence Computex 2026, Lisa Su, PDG d'AMD, a pris la scène avec un mini PC pas plus grand qu'un livre épais pour y faire tourner en direct un modèle d'intelligence artificielle de 235 milliards de paramètres, sans datacenter, sans cloud, sans carte graphique dédiée externe. La machine utilisée est équipée du processeur Ryzen AI Max+ 395 (nom de code Strix Halo), intégré notamment dans le GMKtec EVO-X2. Sa particularité tient à son architecture de mémoire unifiée : jusqu'à 128 Go de RAM partagée, dont 96 Go peuvent être alloués au GPU intégré en guise de VRAM. C'est précisément ce volume qui permet de charger des modèles d'une taille normalement réservée aux serveurs professionnels. Le tout s'exécute via des outils open source gratuits comme Ollama, sans abonnement ni limite d'usage imposée par un tiers.
Ce qui change concrètement, c'est la barrière d'accès à l'inférence locale de très grands modèles. Jusqu'ici, faire tourner un LLM de plusieurs dizaines de milliards de paramètres exigeait soit une carte graphique haut de gamme à plusieurs milliers d'euros avec ses limitations de VRAM, soit la location de GPU dans le cloud, une facture récurrente qui peut vite peser sur les marges d'un indépendant ou d'une petite structure. AMD montre ici qu'un mini PC compact peut absorber ces charges de travail localement. Pour les entreprises manipulant des données sensibles, cabinets juridiques, services de santé, bureaux d'études, la promesse est double : confidentialité totale des documents traités et réduction significative des coûts d'infrastructure IA. Un consultant cité dans la démonstration affirme avoir remplacé ses locations de GPU par cette configuration, avec un impact positif sur la rentabilité de son activité.
AMD ne part pas de zéro dans cette course, mais accuse encore du retard sur Nvidia. Son écosystème logiciel ROCm, équivalent maison du CUDA de Nvidia, progresse rapidement en compatibilité mais n'a pas encore atteint la maturité de son concurrent, ce qui peut freiner certains workflows spécialisés. Face à une RTX 5090, les performances de ce Ryzen AI Max+ 395 restent inférieures sur les modèles les plus exigeants. La démonstration d'AMD s'inscrit néanmoins dans une tendance de fond : la décentralisation de l'IA vers le matériel personnel, portée aussi bien par Apple Silicon que par les puces NPU embarquées dans les PC Copilot+. Le marché de l'IA embarquée représente un enjeu stratégique majeur pour les prochaines années, et cette annonce positionne AMD comme un acteur sérieux de l'inférence locale, aux côtés d'un Nvidia dont la domination sur le segment serveur reste, pour l'instant, intacte.
Les entreprises européennes soumises au RGPD, cabinets juridiques, services de santé, bureaux d'études, disposent d'une option d'inférence IA locale à coût réduit, garantissant la confidentialité des données sans dépendance à des services cloud tiers.
235 milliards de paramètres dans un boîtier format livre, c'est le genre de démo Computex qu'on met de côté... sauf que là, ça repose sur quelque chose de réel : la mémoire unifiée qui résout enfin le problème de VRAM qui nous bloquait depuis des années. Pour les cabinets, les services de santé, toutes les structures qui ne peuvent pas balancer leurs données sur le cloud, c'est une vraie porte qui s'ouvre. ROCm n'est pas encore CUDA, attention, mais pour de l'inférence locale avec Ollama, ça passe.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




