Aller au contenu principal
Fine-tuning de FLUX.1-dev sur des matériels consommateurs avec LoRa
RechercheHuggingFace Blog46sem

Fine-tuning de FLUX.1-dev sur des matériels consommateurs avec LoRa

Résumé IASource uniqueImpact UE
Source originale ↗·

L'article présente une étude de cas sur l'ajustement fin de Flux.1-dev, un modèle de traitement du langage naturel, sur des appareils consommateurs grâce à la technologie LoRa. Le processus a permis de réduire la taille du modèle de 118Mo à 1,2Mo sans perte significative de performance, réalisant ainsi un équilibre entre efficacité et précision. La démonstration a été réalisée sur un microcontrôleur STM32 avec succès.

Impact France/UE

Fine-tuning FLUX.1-dev sur des appareils consommateurs via LoRa optimise les ressources en réduisant le modèle de 118Mo à 1,2Mo, respectant potentiellement les exigences du futur AI Act et favorisant l'adoption de l'IA dans l'IoT européen, bénéficiant aux entreprises comme STM32.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Amazon Science 

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Une étude d'ablation menée par des chercheurs d'Amazon sur le modèle Nova 2.0 Lite identifie le module oproj comme le point d'insertion optimal pour les adaptateurs LoRA, offrant le meilleur compromis entre efficacité et précision lors du fine-tuning. LoRA permet d'affiner des LLMs en gelant les poids du modèle de base et en ajoutant de légères matrices dans des sous-couches spécifiques, réduisant ainsi les coûts GPU, la mémoire et la latence d'inférence. Plutôt que de cibler tous les modules (coûteux), cibler uniquement oproj — une transformation linéaire qui fusionne les représentations des têtes d'attention — préserve l'essentiel des gains de performance avec une efficacité significativement améliorée.

RecherchePaper
1 source
Les consommateurs sont-ils condamnés à payer plus cher pour l'électricité en raison des dépenses d'agrandissement des centres de données?
2Ars Technica AI 

Les consommateurs sont-ils condamnés à payer plus cher pour l'électricité en raison des dépenses d'agrandissement des centres de données?

Les consommateurs pourraient-ils être contraints de payer plus cher pour l'électricité en raison des développements des centres de données? Les grandes entreises technologiques, comme Amazon, Google, Meta, Microsoft, xAI, Oracle et OpenAI, s'engagent potentiellement à construire leurs propres centrales électriques pour les centres de données, conformément à une promesse soutenue par Donald Trump. Cependant, ces entreprises font face à des défis logistiques importants pour tenir cette promesse faite lors d'un événement au White House, assurant que "personne ne verra son prix augmenter" en raison de la demande énergétique des centres de données AI.

RechercheOpinion
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
3VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source
TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B
4MarkTechPost 

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour