Dossier Meta IA — page 9

605 articles · page 9 sur 13

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

401MarkTechPost RecherchePaper

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

Dossier Meta IA — page 9

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

Atoms : un outil de vibe coding qui utilise des agents IA pour créer, déployer et promouvoir votre app, sans code

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Databricks publie Omnigent en open source : un orchestrateur d'agents IA qui unifie Claude Code, Codex et Pi

Amazon obtient un prêt de 17,5 milliards de dollars pour investir dans l’IA

SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel

Sakana AI parie qu'une IA capable de s'améliorer elle-même peut mettre fin à la course au calcul des grands laboratoires

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

IA incarnée : de la perception à la prise de décision

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Trump annule en urgence une cérémonie de signature après le refus des PDG de grandes entreprises d'IA

Doter les agents d'ordinateurs : Ivan Burazin, Daytona

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA

Architectures avancées pour le RAG enrichi par graphes : dépasser la recherche vectorielle en production

NeurIPS 2026 : la conférence où se joue l’avenir scientifique, industriel et géopolitique de l’IA

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

Snapchat introduit des publicités dans les chats via des agents IA conçus pour simuler la conversation

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

SpaceX mise 60 milliards sur CURSOR, Elon Musk contourne la guerre des modèles

Modèles du monde

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Amazon Bedrock : comprendre le cycle de vie des modèles

Anthropic expose accidentellement le code source de Claude Code via un fichier npm

OpenAI demande aux procureurs generaux d'enqueter sur Musk

Des initiés d'OpenAI ne font pas confiance au PDG Sam Altman

Pourquoi Google sort-il ses meilleures pépites IA sur iPhone ? Voici de la dictée vocale hors-ligne et gratuite

Combien de tokens me reste-t-il ? La question que Claude n’arrivera peut-être jamais à résoudre

Duck.ai : ce chatbot axé sur la confidentialité connaît un succès grandissant : comment l'essayer

Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code

Ce chatbot axé sur la confidentialité gagne du terrain — voici pourquoi et comment l'essayer

OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic

La pub sur ChatGPT cartonne aux États-Unis : voici les prochains pays visés

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence

OpenAI dépasse les 100 millions de dollars de revenus annualisés grâce à son pilote publicitaire

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Mirage lève 75 M$ auprès de General Catalyst pour booster son appli vidéo IA

Que faudra-t-il pour construire le plus grand data center du monde ?

Microsoft négocie la location d'un vaste site de datacenter au Texas après le retrait d'Oracle