Aller au contenu principal
RechercheThe Decoder12sem· 1 min de lecture

OpenAI transforme la compression de modèle en chasse aux talents avec son défi « Parameter Golf » à 16 Mo

Source originale ↗·

OpenAI lance un défi inédit à la communauté des chercheurs en intelligence artificielle : concevoir le meilleur modèle de langage possible dans une limite de 16 mégaoctets seulement. Baptisée « Parameter Golf », cette compétition transforme l'exercice de compression de modèle en véritable vitrine technique — et en outil de recrutement assumé.

L'initiative révèle une tendance de fond dans le secteur : l'efficacité des modèles devient un enjeu stratégique aussi important que leur puissance brute. Alors que la course aux paramètres à l'échelle des centaines de milliards a longtemps dominé la recherche, la capacité à obtenir des performances maximales avec des ressources minimales s'impose désormais comme une compétence différenciante, notamment pour les applications embarquées, mobiles ou à faible latence.

La contrainte de 16 Mo est particulièrement sévère : à titre de comparaison, les modèles de la génération actuelle comme GPT-4 ou Llama pèsent plusieurs dizaines de gigaoctets. Atteindre des performances pertinentes dans cet espace revient à résoudre des problèmes de quantification, de distillation et d'architecture qui se situent à la frontière de la recherche fondamentale. OpenAI utilise explicitement la compétition pour identifier les ingénieurs et chercheurs les plus talentueux dans ce domaine précis.

Ce type de défi-recrutement n'est pas une nouveauté dans la tech — Google, Meta et DeepMind y ont régulièrement recours via des compétitions de code ou de ML. Ce qui distingue l'approche d'OpenAI ici, c'est la précision du signal recherché : maîtriser la compression de modèle est exactement le profil nécessaire pour faire tourner des LLM directement sur des appareils grand public, un axe stratégique sur lequel la compétition avec Apple, Google et Microsoft s'intensifie.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
1MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
Le modèle de codage NousCoder-14B de Nous Research fait son entrée dans le moment des assistants Claude pour le code
2VentureBeat AI 

Le modèle de codage NousCoder-14B de Nous Research fait son entrée dans le moment des assistants Claude pour le code

Nous Research, un startup d'IA open-source soutenu par Paradigm, a dévoilé le 1er janvier un nouveau modèle de programmation compétitif, NousCoder-14B, affirmant qu'il égalise ou surpasse plusieurs systèmes propriétaires plus volumineux, formé en seulement quatre jours avec 48 des derniers GPU Nvidia B200. Ce modèle se distingue par son accessibilité, car Nous Research a publié le modèle, l'environnement d'apprentissage par renforcement, la suite de benchmarks et le support de formation, facilitant la reproduction ou l'extension par des chercheurs disposant de suffisamment de ressources computationnelles. Cela survient alors que Claude Code, un outil agissant de la concurrente Anthropic, suscite beaucoup d'intérêt sur les réseaux sociaux, avec des développeurs témoignant de ses capacités remarquables, illustrant la rapide évolution et la concurrence féroce dans le domaine de l'assistance à la création de logiciels par l'IA.

UENousCoder-14B de Nous Research offre une alternative open-source compétitive aux assistants de codage propriétaires, potentiellement influençant le secteur des outils de développement logiciel en Europe en promouvant l'accessibilité et la transparence, conformément aux principes de l'AI Act.

RechercheOutil
1 source
Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale
3La Tribune 

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
4MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic