Il abandonne ses abonnements IA pour un Mac Mini…

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

49

1Le Big Data

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

Lors de la conférence Computex 2026, Lisa Su, PDG d'AMD, a pris la scène avec un mini PC pas plus grand qu'un livre épais pour y faire tourner en direct un modèle d'intelligence artificielle de 235 milliards de paramètres, sans datacenter, sans cloud, sans carte graphique dédiée externe. La machine utilisée est équipée du processeur Ryzen AI Max+ 395 (nom de code Strix Halo), intégré notamment dans le GMKtec EVO-X2. Sa particularité tient à son architecture de mémoire unifiée : jusqu'à 128 Go de RAM partagée, dont 96 Go peuvent être alloués au GPU intégré en guise de VRAM. C'est précisément ce volume qui permet de charger des modèles d'une taille normalement réservée aux serveurs professionnels. Le tout s'exécute via des outils open source gratuits comme Ollama, sans abonnement ni limite d'usage imposée par un tiers. Ce qui change concrètement, c'est la barrière d'accès à l'inférence locale de très grands modèles. Jusqu'ici, faire tourner un LLM de plusieurs dizaines de milliards de paramètres exigeait soit une carte graphique haut de gamme à plusieurs milliers d'euros avec ses limitations de VRAM, soit la location de GPU dans le cloud, une facture récurrente qui peut vite peser sur les marges d'un indépendant ou d'une petite structure. AMD montre ici qu'un mini PC compact peut absorber ces charges de travail localement. Pour les entreprises manipulant des données sensibles, cabinets juridiques, services de santé, bureaux d'études, la promesse est double : confidentialité totale des documents traités et réduction significative des coûts d'infrastructure IA. Un consultant cité dans la démonstration affirme avoir remplacé ses locations de GPU par cette configuration, avec un impact positif sur la rentabilité de son activité. AMD ne part pas de zéro dans cette course, mais accuse encore du retard sur Nvidia. Son écosystème logiciel ROCm, équivalent maison du CUDA de Nvidia, progresse rapidement en compatibilité mais n'a pas encore atteint la maturité de son concurrent, ce qui peut freiner certains workflows spécialisés. Face à une RTX 5090, les performances de ce Ryzen AI Max+ 395 restent inférieures sur les modèles les plus exigeants. La démonstration d'AMD s'inscrit néanmoins dans une tendance de fond : la décentralisation de l'IA vers le matériel personnel, portée aussi bien par Apple Silicon que par les puces NPU embarquées dans les PC Copilot+. Le marché de l'IA embarquée représente un enjeu stratégique majeur pour les prochaines années, et cette annonce positionne AMD comme un acteur sérieux de l'inférence locale, aux côtés d'un Nvidia dont la domination sur le segment serveur reste, pour l'instant, intacte.

UELes entreprises européennes soumises au RGPD, cabinets juridiques, services de santé, bureaux d'études, disposent d'une option d'inférence IA locale à coût réduit, garantissant la confidentialité des données sans dépendance à des services cloud tiers.

💬 235 milliards de paramètres dans un boîtier format livre, c'est le genre de démo Computex qu'on met de côté... sauf que là, ça repose sur quelque chose de réel : la mémoire unifiée qui résout enfin le problème de VRAM qui nous bloquait depuis des années. Pour les cabinets, les services de santé, toutes les structures qui ne peuvent pas balancer leurs données sur le cloud, c'est une vraie porte qui s'ouvre. ROCm n'est pas encore CUDA, attention, mais pour de l'inférence locale avec Ollama, ça passe.

InfrastructureOpinion

1 source

Une tour à 15 274 €, deux GPU AMD et aucun abonnement cloud : on a testé l’IA locale à son maximum [Sponso]

32

2Numerama

Une tour à 15 274 €, deux GPU AMD et aucun abonnement cloud : on a testé l’IA locale à son maximum [Sponso]

Une configuration à 15 274 euros, assemblée sous un bureau et équipée de deux cartes graphiques AMD, a été testée pour évaluer ce qu'une machine dédiée à l'intelligence artificielle peut réellement accomplir en local, sans recourir au moindre service cloud. L'objectif de ce test, mené en collaboration avec AMD, était de faire fonctionner une chaîne complète de production logicielle d'IA, de l'entraînement à l'inférence, entièrement sur du matériel physique installé chez l'utilisateur. Le contenu a été produit par les rédacteurs indépendants de l'entité Humanoid xp, sans intervention de la rédaction de Numerama, dans le cadre d'un partenariat commercial clairement identifié. Cette démarche illustre un intérêt croissant pour les infrastructures d'IA locales, à contre-courant du modèle dominant fondé sur les abonnements aux plateformes cloud comme AWS, Azure ou Google Cloud. Pour les professionnels et les entreprises soucieux de maîtriser leurs coûts récurrents, leurs données sensibles ou leur dépendance à des fournisseurs tiers, une tour équipée de GPU AMD représente une alternative tangible, même si l'investissement initial reste conséquent. Cela change la donne pour les studios, les chercheurs ou les PME qui veulent expérimenter avec des modèles d'IA sans exposer leurs données à des serveurs externes ni subir la facturation à l'usage. Le marché du matériel dédié à l'IA locale s'est intensifié ces dernières années, porté par la demande de puissance de calcul pour l'entraînement et l'inférence de modèles toujours plus lourds. AMD y voit une opportunité de concurrencer Nvidia, acteur dominant du secteur, en misant sur des configurations multi-GPU accessibles aux particuliers avertis et aux petites structures. Ce type de démonstration commerciale s'inscrit dans une bataille plus large pour convaincre les utilisateurs que l'IA locale peut rivaliser, en performance comme en autonomie, avec les offres cloud des géants du secteur.

💬 Une tour à 15 000 balles pour causer IA sans dépendre du cloud, c'est le genre de démo commerciale qu'on regarde avec un sourcil levé, financée par AMD pour vendre du multi-GPU. Mais le vrai signal derrière, c'est que le prix d'entrée pour sortir du modèle abonnement-cloud devient un calcul économique sérieux, pas juste un fantasme de geek paranoïaque des données. Reste à voir si une PME normale a vraiment besoin de ça, parce que pour la plupart, un bon abonnement API reste largement moins cher que d'amortir une tour à cinq chiffres.

InfrastructureActu

1 source

NVIDIA Vera Rubin maximise l'intelligence par dollar pour les charges post-entraînement, une métrique clé pour l'IA à base d'agents

34

3NVIDIA AI Blog

NVIDIA Vera Rubin maximise l'intelligence par dollar pour les charges post-entraînement, une métrique clé pour l'IA à base d'agents

Un athlète professionnel ne se distingue pas pendant le match, mais dans l'intervalle entre deux matchs, quand il ajuste sa technique face à un nouvel adversaire. NVIDIA applique cette logique à l'intelligence artificielle agentique avec sa plateforme Vera Rubin, conçue pour maximiser ce que l'entreprise appelle "l'intelligence par dollar" lors du post-entraînement, cette phase qui affine un modèle après son apprentissage initial sur des données brutes. Contrairement à un modèle génératif qui répond simplement à une requête, un modèle agentique doit planifier, utiliser différents outils et se rétablir seul face aux imprévus rencontrés en cours de tâche. Cet apprentissage repose sur des techniques de renforcement (RL) : le modèle rédige une tentative de réponse lors d'une passe avant (inférence), cette tentative est notée, puis la leçon tirée met à jour les poids du modèle lors d'une passe arrière. NVIDIA a illustré cette approche avec Nemotron 3 Ultra, un modèle ouvert à mixture d'experts de 550 milliards de paramètres, entraîné via la bibliothèque NeMo RL, qui a obtenu un score de 71,7% sur SWE-bench Verified, un benchmark de référence pour l'évaluation du codage en conditions réelles. Cette évolution change fondamentalement l'économie du calcul dans l'industrie de l'IA. Le post-entraînement n'est plus une étape ponctuelle de finition mais un processus continu, car les environnements dans lesquels opèrent les agents évoluent en permanence : les outils utilisés changent d'une semaine à l'autre, des cas limites imprévus par les jeux de test apparaissent en production, et chaque déploiement implique son propre code, ses propres règles et son propre environnement. L'empreinte de calcul ne grossit donc pas parce qu'une seule exécution devient plus lourde, mais parce que ces cycles d'entraînement ne s'arrêtent jamais. Pour les entreprises qui construisent et déploient des agents IA, cela signifie que la valeur d'un modèle ne se mesure plus seulement au coût par token généré lors de l'inférence, mais à la capacité de continuer à investir dans son intelligence à mesure que son environnement de production change, un enjeu direct pour la rentabilité de ces systèmes à grande échelle. Cette approche s'inscrit dans un effort plus large de NVIDIA pour transformer le post-entraînement, longtemps considéré comme un travail de recherche artisanal, en infrastructure reproductible à l'échelle industrielle. Les bibliothèques ouvertes NeMo Gym, pour créer des environnements d'entraînement, et NeMo RL, pour l'entraînement distribué, visent à orchestrer des milliers d'environnements générant des tentatives en parallèle, avec vérification des récompenses et mise à jour des poids en continu, tout en maintenant les accélérateurs pleinement utilisés. L'enjeu stratégique pour NVIDIA est de positionner sa plateforme matérielle Vera Rubin comme le socle indispensable de cette nouvelle génération de calcul intensif, où le coût par token d'inférence et l'intelligence construite par dollar investi deviennent deux mesures complémentaires plutôt que concurrentes. À mesure que les entreprises technologiques déploient des agents IA de plus en plus autonomes dans des environnements réels, la capacité à financer et industrialiser ce cycle d'apprentissage continu pourrait devenir un facteur déterminant de compétitivité dans le secteur.

💬 Bon, sur le papier c'est malin : NVIDIA arrête de vendre le post-entraînement comme une finition ponctuelle et le repositionne comme un flux continu, parce que les agents en prod rencontrent sans cesse des cas que personne n'avait testés. Le vrai message, c'est que le coût par token à l'inférence ne dit plus grand-chose tout seul, ce qui compte c'est le coût pour continuer à réentraîner le modèle chaque fois que son environnement change. Ça sent la stratégie commerciale évidente derrière (vendre du Vera Rubin en continu plutôt qu'un pic ponctuel), mais l'intuition économique tient : les boîtes qui déploient des agents vont payer pour l'apprentissage permanent, pas juste pour la réponse.

InfrastructureActu

1 source

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

52

4NVIDIA AI Blog

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

NVIDIA et Microsoft ont dévoilé lors de Microsoft Build un partenariat élargi pour déployer une pile technologique unifiée dédiée à l'IA agentique, couvrant les PC Windows, le cloud Azure et les environnements locaux. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu en direct depuis Taipei aux côtés de Satya Nadella pour présenter les nouvelles initiatives. Au programme : les PC RTX Spark et les stations DGX Station for Windows, l'accélération GPU de Microsoft Fabric, les modèles ouverts NVIDIA sur Microsoft Foundry, et le runtime sécurisé NVIDIA OpenShell intégré à GitHub Copilot. RTX Spark cible les laptops et petits ordinateurs de bureau avec 1 pétaflop de performance IA, jusqu'à 128 Go de mémoire unifiée et une autonomie toute la journée, avec des systèmes attendus cet automne chez Microsoft Surface, ASUS, Dell, HP, Lenovo et MSI. La DGX Station for Windows, propulsée par le superchip NVIDIA GB300 Grace Blackwell Ultra, offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops en FP4, capable de faire tourner des modèles jusqu'à 1 billion de paramètres, avec des livraisons prévues au quatrième trimestre 2026 chez ASUS, Dell, GIGABYTE, HP, MSI et Supermicro. Ce partenariat marque un tournant dans la course à l'IA agentique d'entreprise en proposant, pour la première fois, une chaîne complète allant du matériel personnel à l'infrastructure cloud. Pour les développeurs et les entreprises, cela signifie pouvoir construire, affiner et déployer des agents IA directement sur Windows sans dépendre exclusivement du cloud. Les modèles Claude d'Anthropic tournent désormais nativement sur les systèmes Blackwell Ultra dans Azure, avec une disponibilité annoncée dans les prochaines semaines. Sur Microsoft Foundry, le nouveau NVIDIA Nemotron 3 Ultra, conçu pour le raisonnement de longue durée dans des tâches de codage, de recherche et de workflows d'entreprise, est disponible dès ce mois-ci, accompagné de Nemotron 3.5 ASR pour la reconnaissance vocale et Nemotron 3.5 Content Safety pour la modération de contenu. Ce rapprochement intervient alors que l'ensemble de l'industrie cherche à concrétiser la promesse des agents IA autonomes capables d'exécuter des tâches complexes sur la durée. NVIDIA, dont les GPU sont devenus incontournables dans les data centers, étend son influence jusqu'au bureau et au PC personnel, concurrençant indirectement Apple Silicon et AMD sur le terrain de l'inférence locale. Le runtime OpenShell, sécurisé nativement, répond aux exigences de gouvernance des grandes entreprises qui hésitent encore à confier des tâches autonomes à des agents. L'intégration des bibliothèques CUDA-X comme cuDF, cuOpt et NeMo directement accessibles aux agents ouvre la voie à des workflows scientifiques plus complexes, notamment avec le modèle Cosmos 3 pour la simulation du monde physique et les modèles météo Earth-2 disponibles via Microsoft Planetary Computer Pro.

UELes entreprises européennes utilisant Azure et Windows bénéficieront d'une chaîne de déploiement IA unifiée du PC personnel au cloud, réduisant la dépendance exclusive à l'infrastructure cloud pour les workflows agentiques.

💬 Jensen Huang qui s'invite en hologramme depuis Taipei pendant le keynote de Satya, c'est le genre de mise en scène qui cache souvent un partenariat creux. Là, non : la DGX Station sous Windows avec 748 Go de mémoire cohérente et 20 pétaflops, c'est du concret pour les boîtes qui refusent de tout mettre dans Azure. Reste à voir si les prix seront accessibles à autre chose qu'aux grands comptes, mais l'idée d'une chaîne complète du laptop au datacenter sans changer de stack, ça change vraiment quelque chose pour les équipes qui font tourner des agents en prod.

InfrastructureActu

1 source

Il abandonne ses abonnements IA pour un Mac Mini et économise 2 500 $ par an

À lire aussi

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

Une tour à 15 274 €, deux GPU AMD et aucun abonnement cloud : on a testé l’IA locale à son maximum [Sponso]

NVIDIA Vera Rubin maximise l'intelligence par dollar pour les charges post-entraînement, une métrique clé pour l'IA à base d'agents

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud