Aller au contenu principal
Ollama accélère les modèles locaux sur Mac grâce au support MLX
OutilsArs Technica AI12sem· 1 min de lecture

Ollama accélère les modèles locaux sur Mac grâce au support MLX

Source originale ↗·

Ollama, le système d'exécution qui permet de faire tourner des grands modèles de langage en local, vient d'annoncer la prise en charge du framework open source MLX d'Apple, conçu spécifiquement pour le machine learning sur les puces Apple Silicon. En parallèle, la plateforme a amélioré ses performances de mise en cache et ajoute la prise en charge du format NVFP4 de Nvidia, une technique de compression de modèles qui réduit significativement l'empreinte mémoire. Ces trois avancées conjuguées se traduisent par des gains de vitesse substantiels pour les utilisateurs de Mac équipés de puces M1 ou plus récentes.

L'impact est concret pour les développeurs et professionnels qui souhaitent exécuter des modèles IA sans dépendre du cloud : les temps d'inférence diminuent, la consommation mémoire baisse, et des modèles autrefois trop lourds pour tourner confortablement sur un MacBook deviennent utilisables au quotidien. La compression NVFP4 est particulièrement significative car elle permet de faire tenir des modèles plus puissants dans la mémoire unifiée des Mac, sans perte de qualité notable — un verrou technique majeur qui saute.

Ces annonces s'inscrivent dans un moment charnière pour l'IA locale. L'engouement autour d'OpenClaw — un projet qui a dépassé les 300 000 étoiles sur GitHub en un temps record, généré des expériences virales comme Moltbook, et suscité une véritable obsession en Chine — a propulsé l'exécution de modèles en local bien au-delà des cercles de chercheurs et de passionnés. Ce qui était niche il y a six mois touche désormais un public bien plus large de développeurs et d'entreprises soucieux de confidentialité, de coûts et d'autonomie vis-à-vis des fournisseurs cloud. Ollama se positionne ainsi comme infrastructure clé de cet écosystème en pleine explosion.

Impact France/UE

Les développeurs et entreprises européennes utilisant des Mac Apple Silicon peuvent exécuter des modèles IA en local plus rapidement, renforçant leur autonomie vis-à-vis des fournisseurs cloud et facilitant la conformité RGPD.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Omio accélère son développement produit voyage avec les modèles OpenAI
1AI News 

Omio accélère son développement produit voyage avec les modèles OpenAI

Omio, plateforme de voyage multimodale opérant avec plus de 3 000 transporteurs dans 47 pays, a intégré les modèles OpenAI à l'ensemble de ses opérations d'ingénierie pour accélérer radicalement le développement de ses produits. L'entreprise a d'abord déployé ChatGPT en accès libre à tous ses employés, avant d'embarquer OpenAI Codex directement dans le cycle de développement logiciel, de la recherche préliminaire à la maintenance système, en passant par la conception architecturale, le codage, les tests automatisés et la revue de code. Des connecteurs internes sur mesure relient les environnements de données propriétaires à ces outils, permettant aux développeurs de sauter l'étape de recherche d'information pour passer directement à l'exécution. En 2023, Omio a aussi lancé l'une des premières interfaces de réservation conversationnelle du secteur, en connectant les modèles OpenAI à son inventaire de transport en temps réel, trains, bus, ferries, vols, permettant aux utilisateurs de formuler des requêtes en langage naturel comme "le trajet le plus rapide de Rome à Florence" et d'obtenir des itinéraires directement réservables. L'impact sur la productivité est saisissant : selon les analyses internes d'Omio, l'effort technique nécessaire pour construire un produit donné ne représente plus que 20 % de ce qu'il était auparavant. Des projets qui mobilisaient plusieurs développeurs pendant un trimestre entier se réalisent désormais avec un seul ingénieur en un mois environ. Cette compression des délais transforme la façon dont l'entreprise alloue ses ressources : il est désormais possible de prototyper rapidement, de tester la demande réelle des utilisateurs à moindre coût, et d'éliminer les fonctionnalités non viables avant d'engager une production à pleine échelle. Les équipes techniques itèrent sur les produits existants à une cadence bien plus élevée, déployant mises à jour et nouvelles interfaces en production à un rythme accéléré. La démarche d'Omio illustre une ambition plus radicale que la simple adoption d'outils IA. Son directeur technique, Tomas Vocetka, impose à chaque fonction interne de repenser entièrement ses modes opératoires pour fonctionner comme une entreprise nativement IA, et non de se contenter d'ajouter une couche technologique à des processus existants inchangés. Cette philosophie s'étend désormais au-delà des équipes techniques : la direction déploie Codex dans les fonctions non-techniques de l'organisation. Dans un secteur du voyage historiquement fragmenté, où les utilisateurs devaient naviguer entre de multiples sites pour comparer modes de transport et assembler manuellement leurs itinéraires, l'intégration conversationnelle d'Omio positionne la plateforme comme un guichet unique capable d'interpréter l'intention du voyageur et de répondre avec des options ancrées dans les prix et disponibilités en temps réel.

UEOmio, entreprise européenne présente en France, illustre comment l'intégration profonde d'outils IA peut multiplier par cinq la vitesse de développement produit dans le secteur du voyage, susceptible d'influencer les pratiques des acteurs européens du tourisme numérique.

OutilsOutil
1 source
Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur
2AWS ML Blog 

Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur

Amazon a introduit une fonctionnalité de personnalisation de modèles sans serveur dans SageMaker AI, permettant aux équipes d'améliorer drastiquement les capacités d'appel d'outils des agents IA sans gérer d'infrastructure GPU. Dans un cas concret publié début avril 2026, des ingénieurs ont affiné le modèle Qwen 2.5 7B Instruct en utilisant la technique RLVR (Reinforcement Learning with Verifiable Rewards) et ont obtenu une amélioration de 57% du score de qualité des appels d'outils sur des scénarios inédits, c'est-à-dire des outils que le modèle n'avait jamais vus lors de l'entraînement. La méthode repose sur un principe simple : le modèle génère huit réponses candidates par prompt, une fonction de récompense vérifie lesquelles sont correctes, et l'algorithme GRPO (Group Relative Policy Optimization) renforce les comportements qui surpassent la moyenne du groupe. SageMaker AI prend en charge les familles de modèles Amazon Nova, Llama, Qwen et DeepSeek, avec un suivi des métriques via MLflow intégré. L'enjeu est concret : les agents IA en production échouent fréquemment lors des appels d'outils, qu'il s'agisse d'halluciner des fonctions inexistantes, de passer des paramètres incorrects, ou de déclencher une action là où ils devraient demander une clarification. Ces erreurs bloquent le déploiement en production et détruisent la confiance des utilisateurs. La nouvelle approche serverless d'Amazon supprime l'obstacle opérationnel majeur que représentait jusqu'ici le fine-tuning par renforcement : achat de GPU, orchestration mémoire entre les phases de rollout et d'entraînement, infrastructure de récompenses, gestion des checkpoints. Les équipes peuvent désormais se concentrer sur leurs données, leur modèle et leur fonction de récompense, le reste étant géré par la plateforme. Le fine-tuning supervisé classique (SFT) montre ses limites pour ce type de tâche : il nécessite des exemples étiquetés pour chaque comportement souhaité, mais peine à généraliser la prise de décision entre appeler un outil, demander des informations supplémentaires, ou refuser d'agir. RLVR contourne ce problème en exploitant la nature vérifiable des appels d'outils : soit le modèle a appelé la bonne fonction avec les bons paramètres, soit non. Cette objectivité binaire rend l'appel d'outils particulièrement adapté à l'apprentissage par renforcement. Amazon positionne cette offre dans un marché de l'IA agentique en forte croissance, où des acteurs comme Google (Vertex AI), Microsoft (Azure ML) et des startups spécialisées se disputent les équipes qui cherchent à industrialiser des agents fiables, avec un accès simplifié via SageMaker Studio et un compte AWS standard.

OutilsActu
1 source
Réduire la dépendance aux fournisseurs grâce aux modèles multi-agents Sakana AI Fugu
3AI News 

Réduire la dépendance aux fournisseurs grâce aux modèles multi-agents Sakana AI Fugu

Sakana AI, société japonaise spécialisée dans l'intelligence artificielle, a lancé Fugu, un système d'orchestration multi-agents conçu pour éliminer la dépendance à un fournisseur unique. Accessible via un endpoint compatible OpenAI, Fugu fonctionne comme un chef d'orchestre invisible : il analyse chaque requête et décide soit de la traiter directement, soit de mobiliser un ensemble de modèles spécialisés travaillant en coordination. La gestion de la sélection des modèles, de la délégation des tâches, de la vérification et de la synthèse des résultats s'effectue en arrière-plan. Les équipes techniques interagissent avec ce qui ressemble à un modèle unique, sans se préoccuper de l'infrastructure sous-jacente. Fugu est proposé en deux versions : une version standard, optimisée pour la faible latence et les tâches quotidiennes comme la revue de code, et une version Ultra, destinée aux analyses complexes telles que la reproduction d'articles académiques, les investigations bibliographiques ou l'analyse de brevets. Environ 500 utilisateurs ont participé à une bêta prolongée axée sur des workflows computationnels multi-étapes. L'enjeu central de Fugu est la résilience face aux risques géopolitiques et réglementaires. Des contrôles à l'exportation récents touchant des modèles d'Anthropic ont démontré qu'un accès à une architecture fondamentale précise peut disparaître du jour au lendemain selon les décisions de politique étrangère. En construisant un système dont le pool d'agents est entièrement interchangeable, Sakana AI permet de réorienter dynamiquement le trafic autour de tout fournisseur restreint ou dégradé, garantissant la continuité du service. Les entreprises soumises à des contraintes strictes de gouvernance des données peuvent également exclure manuellement certains modèles sous-jacents du circuit de routage. Selon Sakana AI, Fugu Ultra affiche des performances comparables aux meilleurs modèles fermés, dont Fable 5 et Mythos Preview, sur des benchmarks scientifiques, d'ingénierie et de raisonnement, sans exposer les entreprises au risque de concentration ou aux contrôles à l'exportation propres à ces modèles. Les tests en conditions réelles ont validé l'approche sur deux fronts majeurs. En cybersécurité, des équipes ont confié à Fugu Ultra des cycles complets d'évaluation de sécurité : à partir d'une seule instruction, le moteur d'orchestration a mené de façon autonome la phase de reconnaissance, effectué des vérifications de type XSS et injection SQL, et réalisé des audits d'authentification, sans jamais déclencher d'actions destructives contre l'infrastructure cible. Il a conclu chaque engagement par un rapport de vulnérabilités structuré, avec preuves et étapes de reproduction à destination des équipes humaines. Sur le terrain du développement logiciel, Fugu Ultra a été intégré dans des pipelines de revue de code où il a systématiquement surpassé les modèles monolithiques dans la détection de failles logiques et de vulnérabilités de sécurité. Un ingénieur participant a résumé la tendance : "Pour la revue de code, Fugu Ultra est nettement meilleur que GPT-5.5."

UELes entreprises européennes soumises aux exigences de souveraineté numérique ou à l'AI Act pourraient s'appuyer sur ce type de système multi-agents pour réduire leur dépendance à un fournisseur unique et se prémunir contre les interruptions liées aux contrôles à l'exportation.

OutilsOutil
1 source
IEEE lance un cours de formation en ligne sur les grands modèles de langage
4IEEE Spectrum AI 

IEEE lance un cours de formation en ligne sur les grands modèles de langage

L'IEEE, l'organisation internationale des ingénieurs en électronique et en informatique, lance un programme de formation en ligne intitulé "Large Language Models Demystified", disponible sur son réseau d'apprentissage IEEE Learning Network. Développé en partenariat avec l'IEEE Computer Society, ce cursus de cinq cours s'adresse aux professionnels techniques qui souhaitent comprendre non seulement comment utiliser les modèles de langage, mais comment les concevoir et les intégrer dans des systèmes réels. Le programme couvre l'évolution des architectures transformer, les mécanismes d'attention, l'optimisation des modèles et des exercices pratiques. Ce lancement intervient alors que le marché des LLM est estimé à une croissance annuelle de 33 % jusqu'en 2030, selon le cabinet MarketsandMarkets, ce qui signifie que la maîtrise de ces technologies passe rapidement d'une compétence de niche à une exigence fondamentale pour tout professionnel du numérique. L'enjeu dépasse largement l'usage grand public des assistants conversationnels. Pour les ingénieurs et développeurs, les LLM sont devenus des composants architecturaux à part entière : ils identifient des vulnérabilités dans du code source, transforment des discussions de projet en spécifications techniques formalisées, et automatisent des tâches répétitives qui mobilisaient auparavant des heures de travail humain. Mais utiliser ces systèmes sans en comprendre la logique interne génère des risques concrets. Le phénomène des "hallucinations", où un modèle produit du code ou des faits d'apparence correcte mais fondamentalement erronés, représente un risque de fiabilité majeur en production. Des techniques comme la génération augmentée par récupération (RAG), qui force le modèle à consulter une base de données vérifiée avant de répondre, ou le déploiement d'instances privées pour protéger le code propriétaire des données d'entraînement publiques, sont désormais des compétences attendues des équipes techniques. Ce mouvement s'inscrit dans une transformation plus profonde de la profession d'ingénieur logiciel. L'architecture transformer, qui a remplacé le traitement séquentiel des données par des mécanismes d'attention parallèle capables d'ingérer des corpus massifs simultanément, a rendu possible une nouvelle génération d'outils de développement. Les API permettent aujourd'hui de connecter directement un LLM à des bases de données internes ou à des environnements d'exécution de code, dépassant largement la simple interface de chat. Face à cette mutation rapide, l'écart se creuse entre ceux qui utilisent l'IA comme un outil opaque et ceux qui savent en contrôler les paramètres, en sécuriser les accès et en garantir la cohérence des résultats. La formation proposée par l'IEEE vise précisément à combler ce fossé, en offrant aux professionnels une compréhension de fond qui transforme l'expérimentation en approche d'ingénierie rigoureuse.

UELes ingénieurs et développeurs français et européens peuvent suivre cette formation IEEE pour structurer leur maîtrise des architectures LLM, compétence de plus en plus exigée par les employeurs du secteur numérique en Europe.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. L'IEEE sort le grand jeu avec ce programme de formation sur les grands modèles de langage, "Large Language Models Demystified". On parle pas juste d'utiliser ces outils, mais aussi de les concevoir et de les intégrer vraiment. C'est crucial, avec le marché des LLM qui grimpe à 33% par an jusqu'en 2030, on passe d'une compétence de spécialiste à une nécessité pour tout pro du numérique. Mais attention, utiliser ces modèles sans les comprendre crée des risques concrets : ces "hallucinations", c'est fondamentalement faux mais qui peut sembler correct. Techniques comme le RAG ou le déploiement d'instances privées, c'est devenu indispensable pour sécuriser le code et les données. L'IEEE met le doigt sur un vrai besoin : transformer l'expérimentation en ingénierie rigoureuse avec ces outils de plus en plus centraux dans notre boulot d'ingés logiciels.

OutilsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic