Aller au contenu principal
RechercheOpenAI Blog33sem

Présentation de gpt-oss

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Présentation de gpt-oss-120b et gpt-oss-20b, deux modèles de langage ouverts de pointe offrant une performance robuste à faible coût, licenciés sous la flexible Apache 2.0. Ces modèles surpassent les modèles ouverts similaires en taille dans des tâches de raisonnement, montrent des capacités de maîtrise d'outils solides et sont optimisés pour une déploiement efficace sur l'équipement grand public.

Impact France/UE

La disponibilité de ces modèles ouverts sous licence Apache 2.0 intensifie la pression concurrentielle sur les acteurs européens comme Mistral, qui développent également des modèles open-source à haute performance.

We’re releasing gpt-oss-120b and gpt-oss-20b—two state-of-the-art open-weight language models that deliver strong real-world performance at low cost. Available under the flexible Apache 2.0 license, these models outperform similarly sized open models on reasoning tasks, demonstrate strong tool use capabilities, and are optimized for efficient deployment on consumer hardware.

À lire aussi

1MarkTechPost3h

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

NVIDIA a présenté PivotRL, un nouveau cadre d'entraînement pour les grands modèles de langage (LLM) conçu pour les tâches agentiques complexes comme l'ingénierie logicielle, la navigation web ou l'utilisation d'outils. Développé par des chercheurs de NVIDIA, PivotRL réduit le nombre de tours de simulation nécessaires d'un facteur 4 tout en maintenant une précision élevée. Le système repose sur deux mécanismes clés : le « Pivot Filtering », qui identifie les étapes d'entraînement les plus instructives, et les « Functional Rewards », qui évaluent les actions par équivalence fonctionnelle plutôt que par correspondance exacte de texte. Ce framework s'attaque à un problème central dans le domaine : les méthodes de fine-tuning supervisé (SFT) sont peu coûteuses mais généralisent mal hors de leur domaine d'entraînement, tandis que l'apprentissage par renforcement de bout en bout (E2E RL) offre une meilleure généralisation mais exige des ressources de calcul considérables. PivotRL cherche à combiner le meilleur des deux approches en opérant sur des trajectoires SFT existantes, concentrant le calcul uniquement sur les états d'entraînement qui fournissent le signal d'apprentissage le plus fort. L'entraînement post-déploiement des LLM pour des agents autonomes est devenu l'un des défis majeurs de l'IA en 2025-2026, à mesure que l'industrie cherche à déployer des systèmes capables d'exécuter des tâches longues et complexes de manière fiable et économique.

RecherchePaper
1 source
2Les Numériques IA6h

Actualité : OpenAI ferme brutalement Sora, l'usine à slop la plus chère de l'histoire de l'IA

OpenAI a annoncé le 24 mars 2026 la fermeture brutale de Sora, son outil d'IA pour créer des vidéos, décrite comme l'usine à slop la plus coûteuse de l'histoire de l'IA. Aucune justification n'est donnée officiellement ; une communication ultérieure devrait préciser le calendrier et les mesures pour sauvegarder les contenus utilisateur.

UELa fermeture soudaine de Sora par OpenAI affecte potentiellement les utilisateurs et développeurs européens qui ont investi dans cet outil d'IA pour la création de vidéos.

RechercheActu
1 source
3MarkTechPost14h

L'attention paginée dans les grands modèles de langage

Dans les LLMs à grande échelle, la mémoire GPU est le principal goulot d'étranglement : chaque requête réserve un bloc fixe pour le cache KV basé sur la longueur maximale de séquence (2048 tokens, soit 1024 Mo), alors qu'en moyenne seulement 24,4 % de cet espace est réellement utilisé — représentant 75 Go gaspillés pour 100 utilisateurs simultanés. Le Paged Attention résout ce problème en découpant le cache KV en petits blocs alloués dynamiquement (16 tokens par page, inspiré de la mémoire virtuelle), permettant aussi à plusieurs requêtes partageant le même prompt de partager la mémoire via un mécanisme Copy-on-Write. Cette approche améliore drastiquement l'efficacité mémoire et le débit, mesurée ici sur des batchs de 10 à 200 requêtes simultanées.

RecherchePaper
1 source
4MarkTechPost17h

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source