Aller au contenu principal
LLMsMarkTechPost6sem

Phi-4-Mini de Microsoft : implémentation pour l'inférence quantifiée, le RAG et l'affinage LoRA

Résumé IASource uniqueImpact UE
Source originale ↗·

Microsoft a publié Phi-4-mini-instruct, un modèle de langage compact de la famille Phi-4, conçu pour fonctionner efficacement sur du matériel grand public. Des chercheurs et développeurs ont récemment publié un tutoriel complet montrant comment exploiter ce modèle dans un notebook Google Colab sur GPU T4, en couvrant l'ensemble du spectre des usages modernes : inférence en streaming, raisonnement structuré, appels d'outils, génération augmentée par récupération (RAG) et fine-tuning par LoRA. Le pipeline s'appuie sur une quantification 4 bits au format NF4 via la bibliothèque BitsAndBytes, combinée à bfloat16 et double quantification, ce qui permet de charger le modèle en moins de 2 Go de VRAM tout en conservant des performances proches du modèle en pleine précision. La stack technique repose sur des versions précises de Transformers (4.49 à 4.57), PEFT, Accelerate, Datasets, sentence-transformers et FAISS, toutes compatibles avec l'architecture native phi3 de Microsoft.

Ce travail illustre une tendance de fond dans l'industrie : rendre les workflows LLM avancés accessibles sans infrastructure coûteuse. Un développeur équipé d'un simple GPU de jeu ou d'un accès gratuit à Colab peut désormais expérimenter le tool calling, le RAG ou l'adaptation par LoRA sur un modèle performant, sans dépendre d'API payantes ni de clusters H100. Pour les entreprises, cela ouvre la voie à des déploiements on-premise de petits modèles capables de gérer des tâches complexes, avec un contrôle total sur les données et des coûts d'inférence drastiquement réduits. La démocratisation de ces techniques touche directement les équipes data, les startups et les développeurs indépendants qui ne peuvent pas se permettre de faire tourner des modèles de 70 milliards de paramètres en continu.

Cette publication s'inscrit dans la stratégie de Microsoft autour de la famille Phi, dont l'objectif affiché est de prouver que la taille n'est pas le seul vecteur de performance. Phi-4-mini succède à Phi-3, qui avait déjà surpris l'industrie en dépassant des modèles nettement plus grands sur plusieurs benchmarks de raisonnement. La concurrence sur ce segment des petits modèles efficaces est aujourd'hui vive : Google pousse Gemma, Meta propose Llama 3.2 en versions 1B et 3B, et Mistral entretient sa gamme Mistral-Nemo. Le fait que Phi-4-mini supporte nativement le tool calling et s'intègre facilement dans des pipelines RAG renforce son positionnement pour des cas d'usage en production, notamment les assistants embarqués, les agents autonomes légers et les systèmes d'analyse documentaire tournant en local.

Impact France/UE

Les développeurs et startups européens peuvent déployer ce modèle en local sur du matériel grand public, réduisant leur dépendance aux API cloud payantes et facilitant la conformité RGPD par traitement on-premise.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents
1MarkTechPost 

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents

Un tutoriel de programmation publié récemment propose une approche complète pour exploiter le jeu de données lambda/hermes-agent-reasoning-traces, une collection structurée de traces de raisonnement issues de modèles d'agents IA. Le guide couvre quatre étapes distinctes : le chargement et l'inspection du dataset, la construction de parseurs pour extraire les composants clés (traces de réflexion, appels d'outils, réponses), l'analyse statistique des comportements (fréquence d'utilisation des outils, longueur des conversations, taux d'erreurs), et enfin la conversion du dataset dans un format compatible avec l'entraînement supervisé. Le dataset est disponible en plusieurs configurations, notamment "kimi" et "glm-5.1", correspondant à des architectures d'agents différentes, et peut être chargé via la bibliothèque Hugging Face datasets. Les outils utilisés incluent Python 3, pandas, matplotlib, seaborn, transformers, accelerate et trl. Comprendre comment un agent IA raisonne en interne avant d'agir est un enjeu clé pour quiconque cherche à améliorer, déboguer ou affiner ces systèmes. Ce tutoriel permet de séparer concrètement la "pensée" interne d'un modèle (blocs `) de ses actions externes (blocs ) et des retours qu'il reçoit (), grâce à des parseurs basés sur des expressions régulières. Cette granularité est précieuse pour les équipes qui développent des agents autonomes : elle permet de détecter des comportements anormaux, d'identifier des appels d'outils malformés, ou de repérer des patterns de raisonnement défaillants avant de lancer un cycle de fine-tuning. La dernière étape du guide, la préparation du dataset pour le supervised fine-tuning (SFT), rend les données directement exploitables avec des frameworks comme TRL de Hugging Face. Le dataset hermes-agent-reasoning-traces` s'inscrit dans un mouvement plus large de publication de données d'entraînement spécialisées pour les agents IA multi-tours, capables d'utiliser des outils externes. Avec l'essor des architectures de type "agentic" dans des produits comme les assistants à code, les agents de recherche ou les copilotes professionnels, la qualité des traces de raisonnement utilisées pour l'entraînement devient un levier différenciant. Des acteurs comme Lambda, Kimi (Moonshot AI) ou encore les équipes derrière GLM (Tsinghua/Zhipu AI) contribuent à cet écosystème de données ouvertes. La tendance va vers des modèles capables de justifier leurs décisions étape par étape, ce qui exige précisément le type d'infrastructure d'analyse décrite dans ce tutoriel. Les prochaines évolutions pourraient inclure des métriques automatisées de qualité du raisonnement ou des benchmarks standardisés sur ce type de traces.

💬 Ce dataset de traces de raisonnement, c'est du matériel brut pour quiconque entraîne ou débogue un agent en ce moment. La partie intéressante c'est moins le fine-tuning que l'analyse en amont : repérer les appels d'outils malformés ou les boucles de raisonnement avant de lancer un cycle d'entraînement, ça évite de brûler des GPU pour rien. Reste que les configs "kimi" et "glm-5.1" sont assez spécifiques, difficile de généraliser sans retravailler les parseurs de fond en comble.

LLMsTuto
1 source
Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session
2MarkTechPost 

Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session

Alibaba a publié Qwen 3.6-35B-A3B, un modèle de langage multimodal à architecture MoE (Mixture of Experts) de 35 milliards de paramètres, dont seulement 3,6 milliards sont activés par inférence. Un tutoriel complet, publié en avril 2026, détaille comment déployer ce modèle de bout en bout dans un environnement Google Colab équipé d'un GPU A100 ou L4. L'implémentation couvre un spectre large de fonctionnalités : inférence multimodale avec traitement d'images, contrôle du budget de raisonnement, génération en streaming avec séparation des traces de réflexion et des réponses finales, appel d'outils externes, génération JSON structurée, inspection du routage MoE, benchmarking, génération augmentée par récupération (RAG) et persistance de session. Le code charge le modèle de manière adaptative selon la VRAM disponible : en précision complète bfloat16 au-delà de 75 Go, en quantification int8 entre 40 et 75 Go, et en int4 en dessous, réduisant ainsi les besoins matériels d'un modèle qui pèse environ 70 Go à télécharger. Ce type d'implémentation représente un tournant concret pour les développeurs et chercheurs qui souhaitent expérimenter avec des modèles de frontier-level sans infrastructure cloud dédiée. La capacité à contrôler explicitement le budget de raisonnement, c'est-à-dire la profondeur de réflexion que le modèle alloue avant de répondre, ouvre des usages précis : réduire la latence pour des tâches simples, ou au contraire laisser le modèle « penser » longuement sur des problèmes complexes de code ou de raisonnement logique. L'intégration native du RAG permet de connecter le modèle à des bases de connaissances externes sans fine-tuning, tandis que la persistance de session autorise des conversations longues et cohérentes sur plusieurs échanges. Pour les équipes produit, cela signifie qu'un prototype d'assistant multimodal capable d'appeler des API, d'analyser des images et de maintenir un contexte conversationnel peut être construit sur une seule machine GPU en quelques heures. Qwen 3.6-35B-A3B s'inscrit dans la série Qwen 3 d'Alibaba Cloud, dont plusieurs variantes ont été publiées en open-source début 2025, positionnant le groupe chinois comme concurrent direct d'OpenAI, Google DeepMind et Meta sur le segment des grands modèles accessibles. L'architecture MoE est au coeur de cette stratégie : en n'activant qu'une fraction des paramètres à chaque inférence, elle permet de combiner la capacité d'un très grand modèle avec un coût de calcul réduit. Le tutoriel en question s'adresse aux praticiens qui veulent dépasser l'usage via API et comprendre les mécanismes internes, notamment le routage des experts, observable directement dans le code fourni. La prochaine étape naturelle pour la communauté sera d'évaluer ces capacités sur des benchmarks standardisés et d'intégrer ces modèles dans des pipelines de production, un domaine où la persistance de session et l'appel d'outils deviennent des critères de sélection aussi importants que les scores académiques.

UELes développeurs et équipes produit européens peuvent déployer ce modèle open-source de niveau frontier sur une seule machine GPU, réduisant la dépendance aux APIs cloud propriétaires pour des prototypes multimodaux.

LLMsTuto
1 source
3MarkTechPost 

Guide de programmation complet pour exécuter les modèles open-weight GPT d'OpenAI avec des workflows d'inférence avancés

OpenAI a publié une version open-weight de ses modèles GPT sous l'identifiant openai/gpt-oss-20b, un modèle de 20 milliards de paramètres téléchargeable depuis HuggingFace et exécutable localement via la bibliothèque Transformers. Un guide technique détaillé, publié récemment, explique comment déployer ce modèle dans Google Colab en s'appuyant sur la quantification native MXFP4, les activations en torch.bfloat16, et le système devicemap="auto" pour l'allocation GPU automatique. Le modèle pèse environ 40 Go en téléchargement et nécessite au minimum 16 Go de VRAM, ce qui impose l'usage d'un GPU de type T4 ou A100, disponibles sur Colab Pro. Le tutoriel couvre l'installation des dépendances précises (Transformers 4.51+, accelerate, sentencepiece), le chargement du modèle avec trustremote_code=True, puis l'exécution de workflows complets : génération structurée, streaming, dialogue multi-tours, appel d'outils et inférence en batch. La mise à disposition de ce modèle en open-weight représente un changement significatif pour les développeurs et chercheurs qui souhaitent inspecter, modifier ou déployer un LLM de la famille GPT sans dépendre de l'API d'OpenAI. Contrairement aux modèles hébergés, gpt-oss-20b offre une transparence totale sur l'architecture, un contrôle complet des paramètres d'inférence (température, topp, longueur de séquence), et la possibilité d'exécution hors ligne sur infrastructure privée. Pour les entreprises soumises à des contraintes de confidentialité des données, ou pour les équipes de recherche qui ont besoin de reproductibilité, c'est une alternative concrète aux API fermées. Le guide recommande d'ailleurs les paramètres temperature=1.0 et topp=1.0 pour reproduire le comportement officiel du modèle. Ce mouvement s'inscrit dans une dynamique plus large de publication de modèles open-weight par les grands laboratoires : Meta avec Llama, Mistral AI avec ses modèles libres, ou encore Google avec Gemma. OpenAI, longtemps perçu comme le plus fermé des acteurs majeurs, adopte ici une stratégie différente en libérant un modèle intermédiaire techniquement capable. La compatibilité avec l'écosystème HuggingFace et Transformers facilite l'adoption immédiate par la communauté. Les prochaines étapes pourraient inclure des fine-tunings spécialisés par la communauté, des déploiements sur hardware grand public via des solutions comme llama.cpp ou Ollama, et une évaluation comparative approfondie face à Llama 3 ou Mistral Large, ce qui permettra de situer précisément gpt-oss-20b dans le paysage des modèles ouverts.

UELes équipes européennes soumises au RGPD peuvent désormais déployer un modèle de la famille GPT en infrastructure privée, sans transférer de données vers les serveurs d'OpenAI.

💬 OpenAI qui lâche un open-weight, ça faisait longtemps qu'on en parlait sans y croire. 20 milliards de paramètres, compatible HuggingFace, déployable sur ta propre infra, c'est exactement ce que réclamaient les équipes sous RGPD depuis des mois. Reste à voir si ça tient face à Llama 3 une fois les benchmarks sérieux posés.

LLMsTuto
1 source
Microsoft lance Fara1.5 (4B/9B/27B), des agents de navigation qui surpassent OpenAI Operator et Gemini 2.5 Computer Use
4MarkTechPost 

Microsoft lance Fara1.5 (4B/9B/27B), des agents de navigation qui surpassent OpenAI Operator et Gemini 2.5 Computer Use

Le laboratoire AI Frontiers de Microsoft Research a publié Fara1.5, une famille de modèles d'agents capables de contrôler un navigateur web de façon autonome. La gamme comprend trois variantes selon leur taille : Fara1.5-4B, Fara1.5-9B et Fara1.5-27B, chiffres qui désignent le nombre de paramètres en milliards. Ces modèles s'intègrent à MagenticLite, l'interface de navigateur sandboxé de Microsoft conçue pour ce type d'agents. Concrètement, ils lisent des captures d'écran et émettent des actions de souris et de clavier pour accomplir des tâches dans un vrai navigateur. Sur le benchmark Online-Mind2Web, qui évalue la réussite de 300 tâches sur 136 sites populaires, Fara1.5-27B atteint un taux de succès de 72 %, contre 58,3 % pour OpenAI Operator et 57,3 % pour Gemini 2.5 Computer Use de Google. La version précédente, Fara-7B, n'atteignait que 34,1 % sur cette même évaluation, soit un quasi-doublement des performances en une génération. Ces résultats placent Microsoft en tête d'une catégorie qui concentre une attention croissante de l'industrie : les agents de type "computer use", capables d'agir directement dans un environnement graphique sans passer par des API dédiées. Pour les entreprises, cela ouvre la possibilité d'automatiser des flux de travail complexes sur n'importe quel site web, sans intégrations spécifiques. Les modèles embarquent également des méta-actions qui permettent à l'agent de mémoriser des informations au fil d'une session longue, ou de solliciter l'utilisateur lorsqu'une étape est ambiguë ou irréversible. Cette capacité à interrompre et à collaborer distingue Fara1.5 des approches entièrement autonomes, souvent jugées trop risquées pour un usage professionnel. Les modèles reposent sur les architectures de base Qwen3.5 et ont été entraînés sur environ deux millions d'exemples, dont 60 % de trajectoires web réelles et 12,8 % d'environnements synthétiques. Pour produire ces données, Microsoft a développé FaraGen1.5, un pipeline comprenant six environnements simulés appelés FaraEnvs, qui reproduisent des services comme la messagerie, le calendrier ou la gestion de flux ML, avec un frontend réaliste et une base de données initialisée par des profils d'utilisateurs fictifs. Le solveur chargé de générer les trajectoires d'entraînement s'appuie lui-même sur GPT-5.4 d'OpenAI, qui atteint 83 % sur Online-Mind2Web en mode automatisé. La compétition dans ce segment s'intensifie rapidement : Yutori avec Navigator n1 (64,7 %), Google et OpenAI investissent massivement dans des agents capables d'agir dans des environnements réels, préfigurant une transition vers des systèmes d'IA qui ne se contentent plus de répondre, mais qui exécutent.

💬 72 % sur Mind2Web, c'est pas anodin quand OpenAI Operator plafonne à 58. Ce qui m'intéresse vraiment, c'est la mécanique de pause : l'agent qui s'arrête pour demander confirmation avant une action irréversible, c'est exactement ce qui manquait pour passer du prototype au vrai usage pro. Reste à voir combien de temps avant qu'on puisse tourner ça en local sans dépendre de l'infra Microsoft.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour