Dossier Open weight & Open source — page 9

827 articles · page 9 sur 17

Le mouvement open-weight : DeepSeek, Mistral, Gemma, Qwen et Llama. La fracture stratégique entre laboratoires fermés et écosystème ouvert.

401MarkTechPost RechercheActu

Open Dreamer : une reproduction JAX/Flax du modèle Dreamer 4, avec la recette d'entraînement complète publiée

Un petit groupe de chercheurs en IA, l'équipe Reactor, a publié Open Dreamer, une implémentation ouverte du pipeline de modèle du monde Dreamer 4, codée en JAX et Flax NNX. Deux dépôts ont été mis en ligne: next-state/open-dreamer contient le pipeline d'entraînement complet, avec un tokenizer vidéo causal, un modèle de dynamique latente conditionné par l'action, la génération de rollouts et le calcul du score FVD, tandis que reactor-team/open-dreamer propose un harnais de rollout local minimal qui génère des images à partir d'un fichier MP4 et d'un fichier d'actions associé. Un troisième élément, une démo dans le navigateur hébergée sur l'infrastructure Reactor, diffuse en temps réel un monde Minecraft généré et propose un bouton pour basculer entre le jeu réel et le rêve, image par image. L'équipe a délibérément limité ses méthodes à celles décrites dans l'article de recherche original sur Dreamer 4, en commençant par CoinRun, un jeu de plateforme 2D procédural entraînable sur un seul GPU, avant d'étendre le pipeline à des séquences de jeu Minecraft au format VPT. L'architecture repose sur un même squelette transformeur causal par blocs, utilisé à la fois pour le tokenizer et le modèle de dynamique, alternant des couches spatiales qui propagent l'information au sein d'une image et des couches temporelles causales qui relient les images entre elles. Le tokenizer, un auto-encodeur masqué plutôt qu'un VAE classique, atteint une compression d'environ 100 fois sans perte de qualité liée aux pertes KL ou adversariales, le masquage rendant selon l'équipe l'espace latent plus facile à diffuser. Le modèle de dynamique prédit l'image suivante via diffusion forcing, flow matching et modèles shortcut, tout en anticipant la prochaine action; les jetons du modèle du monde n'ont toutefois pas accès au jeton de l'agent, si bien que la politique n'influence le futur qu'à travers l'action suivante. Concrètement, le modèle de dynamique Minecraft compte 1,6 milliard de paramètres répartis sur 30 couches, avec 30 têtes d'attention et une attention par requêtes groupées à 3 têtes clé-valeur, entraîné pendant 200 000 étapes avec l'optimiseur Muon et un taux d'apprentissage de pointe de 3e-4. Cette publication détaillée offre à la communauté open source une reproduction fidèle et documentée d'une architecture jusque-là propriétaire, avec des choix d'ingénierie précis sur le parallélisme et l'utilisation du matériel. L'équipe rapporte une utilisation des FLOPs du modèle de 57 à 58 %, proche du seuil de 60 % jugé sain pour l'entraînement de transformeurs, et explique avoir dû composer avec un mur mémoire sur les activations plutôt que sur l'état du modèle, qui tient en environ 24 Gio sur un GPU B200. Ce travail s'inscrit dans une course plus large à la reproduction ouverte des modèles du monde utilisés pour la génération d'environnements interactifs et l'entraînement d'agents.

Dossier Open weight & Open source — page 9

Open Dreamer : une reproduction JAX/Flax du modèle Dreamer 4, avec la recette d'entraînement complète publiée

Moonshot AI dévoile Kimi K3, un modèle open MoE de 2,8 billions de paramètres avec Kimi Delta Attention et un contexte d'1M tokens

Le compagnon IA de Superapp franchit un nouveau million d'utilisateurs

Guide de l'ingénierie des boucles : comment 'autoresearch' et 'Bilevel Autoresearch' transforment les agents IA en boucles autonomes de recherche en machine learning

Universités inquiètes : Anthropic, OpenAI, Meta et DeepMind débauchent leurs professeurs

Le crépuscule des chatbots

DeepSeek publie DSpark, un framework de décodage spéculatif qui accélère la génération par utilisateur de DeepSeek-V4 de 60 à 85 % par rapport à MTP-1

Cisco AI présente FAPO : optimisation des prompts par pipeline, attribution des erreurs par étape et orchestration Claude Code

Atelier FineWeb : streaming, filtrage, déduplication, tokenisation et analyse de corpus web à grande échelle

Zyphra lance Zamba2-VL : modèles vision-langage hybrides Mamba2-Transformer réduisant le temps de premier token d'un facteur 10

Des chercheurs affirment avoir entraîné un modèle fondamental de zéro pour environ 1 500 dollars

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

NVIDIA garak : construire un workflow complet de red-teaming défensif pour LLM avec sondes et détecteurs personnalisés

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming

EAGLE 3.1 : l'algorithme de décodage spéculatif qui corrige la dérive d'attention dans l'inférence LLM

Baseten, fournisseur d'inférence IA, en discussion pour lever 1 milliard de dollars à une valorisation de 11 milliards

Trump annule en urgence une cérémonie de signature après le refus des PDG de grandes entreprises d'IA

VLANeXt : recettes pour construire des modèles VLA performants

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées

AWS s'associe à fal, startup IA générative pour la création de contenu média, et devient son fournisseur cloud privilégié

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

Pour 1,3 million de dollars par mois, le fondateur de OpenClaw fait tourner 100 agents IA qui codent, relisent les PR et détectent les bugs

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Auto-cohérence guidée par la géométrie pour l'IA physique

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

ChatGPT intègre GPT-5.5 Instant : moins d'hallucinations et des réponses plus personnalisées

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

Genie Sim 3.0 : une plateforme de simulation haute fidélité pour robots humanoïdes

BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Complémentarité par construction : approche par groupes de Lie pour les programmes quadratiques à complémentarité linéaire

CARLA-Air: infrastructure unifiée pour drones et agents autonomes aériens et terrestres dans CARLA

OpenClaw peine à confirmer après son succès fulgurant

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo

Big lab leaks

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés

L'IA transforme les décisions de production des petits vendeurs en ligne

Onyx : une alternative à Claude, plus puissante, open-source et locale ?

Le code source de Claude a été divulgué par erreur, que s’est-il passé ?

Ollama accélère les modèles locaux sur Mac grâce au support MLX

OpenAI s’empare d’Astral, le fabricant Python pour défier Anthropic

Après Perplexity, Meta lance sa propre alternative à OpenClaw

La version OpenClaw de Nvidia pourrait résoudre son plus grand problème : la sécurité

Le « Personal Computer » de Perplexity amène ses agents IA sur le… PC