Dossier Meta IA — page 8

593 articles · page 8 sur 12

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

351MarkTechPost RecherchePaper

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

Dossier Meta IA — page 8

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Amazon obtient un prêt de 17,5 milliards de dollars pour investir dans l’IA

iOS 27 et Siri AI : marre des promesses d’Apple

Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré

Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac

Un badge d’accès dopé à l’IA : le gadget de Microsoft qui voit, écoute et accompagne les salariés

Arthur Mensch : itinéraire d’un architecte de l’IA européenne

SLM (Small Language Models) : ces modèles IA conviennent-ils aux entreprises ?

Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Un bilan objectif sur la panique autour de l'IA et l'emploi

OmniVoice Studio : une alternative locale et open source à ElevenLabs

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

Les meilleures plateformes d'authentification pour agents IA et serveurs MCP en 2026

The Download : l'avenir du code, les « Jeux olympiques sous stéroïdes » et la science par l'IA

Android XR : traduction en temps réel, résumés de conversations… voici les lunettes IA audio

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

Le règlement de 1,5 milliard de dollars d'Anthropic pour droits d'auteur s'enlise : le juge reporte son approbation

Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir

Perceptron Mk1 présente un modèle d'analyse vidéo très performant, 80 à 90 % moins cher qu'Anthropic, OpenAI et Google

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Gemini 3.2 Flash dévoilé par erreur par Google ?

Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques

Disneyland en mode Big Brother ? La reconnaissance faciale débarque aux entrées

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs

Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute

Modèles du monde

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Cette étude révèle pourquoi l’IA pourrait fragiliser l’économie des entreprises

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

OpenAI : prévisions et conjectures

Anthropic expose accidentellement le code source de Claude Code via un fichier npm

OpenAI demande aux procureurs generaux d'enqueter sur Musk

Des initiés d'OpenAI ne font pas confiance au PDG Sam Altman

OpenAI CFO Questions 2026 IPO Readiness

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné

OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic

La politique de TikTok sur les publicités IA ne fonctionne pas

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Mirage lève 75 M$ auprès de General Catalyst pour booster son appli vidéo IA

Voici un nouveau format que j'aimerais essayer