Aller au contenu principal

Dossier DeepSeek — page 2

75 articles · page 2 sur 2

DeepSeek, le laboratoire chinois qui a secoué les valeurs tech US : modèles open-weight V3, R1, V4, économie du compute et géopolitique de l'IA.

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5
51Pandaily LLMsActu

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

Xiaomi a lancé la bêta publique de sa nouvelle série de modèles de langage MiMo-V2.5, avec une mise à disposition en open source de MiMo-V2.5 et MiMo-V2.5-Pro annoncée pour très prochainement. La famille MiMo-V2.5 comprend quatre modèles distincts : MiMo-V2.5, V2.5-Pro, V2.5-TTS et V2.5-ASR, chacun conçu pour améliorer le raisonnement, la gestion de contextes longs, le suivi d'instructions complexes ou ambiguës, et la compréhension multimodale. Xiaomi a également annoncé des ajustements tarifaires sur son offre Token Plan. Le fleuron de la gamme, MiMo-V2.5-Pro, est présenté comme le modèle le plus puissant jamais développé par l'entreprise. Les performances revendiquées sont ambitieuses : en tests internes, MiMo-V2.5-Pro se montre compétitif face à Claude Opus 4.6 et GPT-5.4 sur des tâches d'agent général, d'ingénierie logicielle complexe et d'exécution de tâches longues. Associé au bon environnement d'exécution, le modèle peut enchaîner de manière fiable des séquences impliquant près de 1 000 appels d'outils au cours d'une même session. Sa capacité à suivre des instructions implicites tout en maintenant une cohérence logique sur de longues interactions représente une avancée notable par rapport à la génération précédente, et le positionne comme un outil crédible pour des charges de travail professionnelles exigeantes. Cette annonce s'inscrit dans une stratégie d'accélération claire de Xiaomi dans la course mondiale aux grands modèles de langage. Longtemps perçu avant tout comme fabricant de smartphones et d'électronique grand public, le groupe chinois investit massivement dans l'IA depuis plusieurs trimestres, cherchant à s'imposer face à des acteurs comme Alibaba, Baidu ou DeepSeek sur le marché domestique, tout en visant une reconnaissance internationale grâce à l'open source. La publication prochaine des poids du modèle devrait permettre à la communauté de valider les performances annoncées et d'évaluer la place réelle de Xiaomi dans l'écosystème mondial de l'IA.

UELa mise en open source prochaine des poids du modèle pourrait intéresser les développeurs et entreprises européennes cherchant des alternatives open source compétitives, sans impact réglementaire direct sur la France ou l'UE.

1 source
Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens
52Pandaily 

Ant Group lance Ling-2.6-Flash, un modèle axé sur l'efficacité des tokens

Ant Group, la filiale fintech du géant chinois Alibaba, a lancé Ling-2.6-Flash, un nouveau grand modèle de langage appartenant à sa série Ling. Le modèle repose sur une architecture à 104 milliards de paramètres au total, dont seulement 7,4 milliards sont activés lors de l'inférence, une approche dite MoE (Mixture of Experts) qui réduit considérablement la puissance de calcul nécessaire. Conçu comme un modèle optimisé pour les instructions, Ling-2.6-Flash mise sur ce qu'Ant Group appelle la "Token Efficiency" : délivrer des performances compétitives tout en étant plus rapide et moins coûteux que ses concurrents. Avant même son lancement officiel, une version anonyme du modèle, baptisée en interne "Elephant Alpha", avait été mise en ligne sur la plateforme OpenRouter. En quelques jours, elle s'est hissée en tête des modèles les plus utilisés, avec une consommation quotidienne d'environ 100 milliards de tokens et une croissance hebdomadaire dépassant les 5 000 %. L'adoption aussi rapide et aussi massive d'un modèle avant même son annonce officielle illustre l'appétit du marché pour des alternatives économiques aux LLMs dominants. Avec un tarif d'entrée fixé à 0,10 dollar par million de tokens en entrée et 0,30 dollar par million en sortie, Ling-2.6-Flash se positionne parmi les options les plus abordables du marché, directement en concurrence avec des modèles comme Gemini Flash de Google ou GPT-4o Mini d'OpenAI. L'API est désormais accessible publiquement, accompagnée d'une période d'essai gratuite d'une semaine. Pour les développeurs et les entreprises qui font tourner des applications à grande échelle, une telle structure tarifaire peut représenter des économies substantielles. Ce lancement s'inscrit dans une offensive plus large des acteurs technologiques chinois sur le marché mondial des LLMs. Après DeepSeek, qui avait créé la surprise début 2025 avec des modèles très compétitifs à bas coût, Ant Group entre à son tour dans la course avec une stratégie similaire : maximiser l'efficacité par dollar dépensé. La série Ling illustre la volonté du groupe de rivaliser au niveau international, au moment où la compétition entre fournisseurs de modèles s'intensifie et où la guerre des prix devient un argument commercial aussi décisif que les benchmarks de performance.

UELes développeurs et entreprises européens peuvent accéder dès maintenant à l'API Ling-2.6-Flash à 0,10 $/M tokens en entrée, une alternative économique potentiellement significative pour les applications à fort volume.

LLMsActu
1 source
Tesla Chine intègre le modèle d'IA Doubao dans son système embarqué
53Pandaily 

Tesla Chine intègre le modèle d'IA Doubao dans son système embarqué

Tesla China a finalisé le dépôt réglementaire de son système vocal embarqué le 20 avril 2026, ouvrant la voie à l'intégration du modèle d'intelligence artificielle Doubao de ByteDance dans ses véhicules vendus en Chine. Selon des informations relayées par AI Daily, la page officielle de Tesla China avait déjà révélé dans ses "Conditions d'utilisation de l'assistant vocal embarqué" que la Model Y L serait équipée à la fois du modèle Doubao et de DeepSeek, tous deux accessibles via Volcano Engine, la plateforme cloud de ByteDance. La répartition des rôles est précise : Doubao prend en charge les commandes vocales courantes, réglage de la navigation, contrôle de la lecture multimédia, ajustements climatiques et consultation du manuel propriétaire, tandis que DeepSeek alimente des fonctionnalités conversationnelles plus avancées, permettant des échanges de nature plus générale avec le véhicule. Cette intégration marque une étape concrète dans la localisation de l'expérience Tesla en Chine, marché qui représente une part critique de ses ventes mondiales. En adoptant deux modèles d'IA développés par des acteurs chinois majeurs, Tesla reconnaît implicitement que les LLM occidentaux ne suffisent pas à répondre aux attentes des consommateurs locaux, qu'il s'agisse de la langue, des usages culturels ou des exigences réglementaires. Pour les utilisateurs, cela se traduit par un assistant embarqué nettement plus capable et mieux adapté aux conditions de conduite chinoises. Cette décision s'inscrit dans un contexte de concurrence intense sur le marché automobile chinois, où des constructeurs locaux comme BYD, NIO ou Li Auto intègrent depuis plusieurs années des assistants IA avancés directement dans leurs plateformes. Tesla, longtemps en retard sur ce volet en Chine, avait déjà engagé des discussions avec Baidu pour la cartographie et les services connectés. Le choix de Doubao, modèle phare de ByteDance aux centaines de millions d'utilisateurs, et de DeepSeek, devenu en quelques mois une référence mondiale en matière d'efficience des LLM, reflète la volonté de Tesla de s'aligner rapidement sur les standards locaux pour ne pas perdre de terrain face à une industrie nationale en pleine accélération technologique.

OutilsActu
1 source
Alibaba lance l'avatar "Qwen XiaoJiuWo" pour unifier son écosystème d'assistants IA
54Pandaily 

Alibaba lance l'avatar "Qwen XiaoJiuWo" pour unifier son écosystème d'assistants IA

Alibaba a officiellement lancé le 22 avril 2026 "Qwen XiaoJiuWo", un avatar numérique destiné à incarner l'interface unifiée de tout son écosystème d'intelligence artificielle Qwen. Ce personnage virtuel sera intégré à l'application Qwen avant d'être progressivement déployé sur les grandes plateformes du groupe : Taobao, Fliggy, Amap et Alipay. Selon les données du registre commercial, Alibaba (China) Co., Ltd. a déposé plusieurs marques liées à "Qwen XiaoJiuWo" dès le 10 mars 2026, couvrant des domaines aussi variés que l'IA en tant que service (AIaaS), les logiciels de chatbot et la robotique humanoïde. Ces dépôts sont encore en cours d'examen. L'application Qwen comptait en mars 2026 quelque 166 millions d'utilisateurs actifs mensuels, selon QuestMobile, ce qui la place en deuxième position parmi les applications natives d'IA en Chine. Sur le seul premier trimestre 2026, la base d'utilisateurs a progressé d'environ 126 millions. Ce lancement ne constitue pas un nouveau produit à proprement parler, mais une stratégie de cohérence de marque dans un marché extrêmement concurrentiel. En dotant son assistant d'une identité visuelle forte et reconnaissable, Alibaba cherche à fidéliser ses utilisateurs et à créer un sentiment de continuité entre des plateformes très différentes. La fréquence d'utilisation mensuelle reste cependant un point de vigilance : avec 19,8 sessions par utilisateur en moyenne, Qwen se situe en dessous de plusieurs concurrents directs, ce qui suggère que l'engagement reste à consolider malgré la croissance spectaculaire du nombre d'inscrits. Ce mouvement s'inscrit dans une compétition acharnée entre les géants technologiques chinois pour dominer le marché de l'IA grand public. Baidu avec Ernie Bot, ByteDance et ses propres modèles, ainsi que des acteurs plus récents comme DeepSeek exercent une pression croissante sur Alibaba. Le dépôt de marques incluant la robotique humanoïde laisse entrevoir des ambitions bien au-delà du simple chatbot. Alibaba semble vouloir faire de Qwen XiaoJiuWo un point d'entrée transversal vers l'ensemble de ses services numériques, pariant sur l'unification de l'expérience utilisateur comme levier de différenciation à long terme.

OutilsOpinion
1 source
L'IA tient-elle ses promesses ? Transformer l'élan vers l'IA en valeur mesurable
55VentureBeat AI 

L'IA tient-elle ses promesses ? Transformer l'élan vers l'IA en valeur mesurable

Les grandes entreprises traversent aujourd'hui ce que Brian Gracely, directeur de la stratégie de portefeuille chez Red Hat, appelle le moment "Day 2" de l'intelligence artificielle : la phase où les pilotes cèdent la place à la production, et où les questions de coût, de gouvernance et de rentabilité deviennent plus complexes que la construction des systèmes eux-mêmes. Lors d'une session de l'AI Impact Tour de VentureBeat, Gracely a illustré cette réalité avec un exemple frappant : des clients qui détiennent 50 000 licences de Microsoft Copilot sans savoir précisément ce que leurs employés en tirent, tout en payant pour ce qu'il décrit comme "le calcul informatique le plus cher du monde, parce que ce sont des GPU". Après deux ou trois cycles budgétaires consacrés à l'IA générative, les directions d'entreprise ne demandent plus "peut-on construire quelque chose ?" mais "obtenons-nous ce pour quoi nous payons ?" Le problème central n'est pas seulement le coût brut de l'infrastructure GPU : c'est l'absence d'instrumentation permettant de relier les dépenses aux résultats concrets, rendant quasi impossible la justification des renouvellements de contrats à grande échelle. Cette prise de conscience provoque un changement stratégique profond dans la manière dont les entreprises envisagent leur rapport à l'IA. Le modèle dominant des deux dernières années, payer un fournisseur au token, au siège ou à l'appel API en lui déléguant toute l'infrastructure, est de plus en plus remis en question. Gracely résume cette évolution : plutôt que d'être purement "consommateur de tokens", certaines organisations cherchent à devenir "productrices de tokens", en évaluant quels usages justifient de posséder ou louer directement des GPU, et si les cas d'usage nécessitent vraiment les modèles les plus avancés ou si des modèles ouverts plus légers suffisent. Cette décision n'est pas binaire : elle dépend de la tolérance au risque, de la nature des charges de travail et de la maturité de chaque organisation. Le paradoxe auquel font face les responsables financiers est bien réel. Le PDG d'Anthropic, Dario Amodei, a estimé que les coûts d'inférence chutent d'environ 60 % par an, et l'émergence de modèles open source comme DeepSeek a considérablement élargi les alternatives stratégiques disponibles. Pourtant, la baisse du coût unitaire ne se traduit pas par une réduction des factures totales : l'usage s'accélère à un rythme qui compense largement les gains d'efficacité. C'est une manifestation du paradoxe de Jevons, principe économique selon lequel l'amélioration de l'efficacité d'une ressource tend à augmenter sa consommation globale plutôt qu'à la réduire. Une entreprise qui triple son utilisation de l'IA pendant que les coûts diminuent de moitié dépense encore davantage qu'avant. Pour les décideurs, cela signifie que la maturité de l'IA en entreprise passe désormais par une discipline opérationnelle rigoureuse, et non plus par l'enthousiasme des premières expérimentations.

BusinessOpinion
1 source
Entraînement, alignement et déploiement des LLM : analyse technique approfondie
56MarkTechPost 

Entraînement, alignement et déploiement des LLM : analyse technique approfondie

L'entraînement d'un grand modèle de langage (LLM) moderne repose sur un pipeline en plusieurs étapes distinctes, chacune jouant un rôle précis dans la transformation d'un réseau de neurones brut en un système intelligent et déployable. La première phase, le pré-entraînement, consiste à exposer le modèle à des corpus massifs de textes, livres, sites web, code source, afin qu'il développe une compréhension générale du langage, de la grammaire, du raisonnement et des connaissances du monde. Vient ensuite le fine-tuning supervisé (SFT), où des paires entrée-sortie soigneusement vérifiées permettent d'orienter le comportement du modèle vers des tâches précises, un style de réponse ou des règles métier spécifiques. Pour rendre cette adaptation plus accessible sans recalculer l'intégralité des paramètres du modèle, des techniques comme LoRA (Low-Rank Adaptation) et QLoRA (sa variante quantifiée) permettent un fine-tuning efficace en n'ajustant qu'une fraction des poids. L'alignement avec les préférences humaines passe quant à lui par le RLHF (Reinforcement Learning from Human Feedback), qui affine les sorties selon des critères de sécurité et d'utilité. Plus récemment, GRPO (Group Relative Policy Optimization) est apparu pour renforcer les capacités de raisonnement structuré et de résolution de problèmes en plusieurs étapes. Comprendre ce pipeline est essentiel pour quiconque développe ou intègre des LLMs dans des produits réels. Chaque étape conditionne la suivante : un pré-entraînement faible rend le fine-tuning peu efficace, et un mauvais alignement produit des modèles imprévisibles ou dangereux en production. Le SFT, par exemple, peut transformer une réponse générique ("Essayez de réinitialiser votre mot de passe") en une réponse structurée et empathique adaptée au service client. Les techniques LoRA et QLoRA démocratisent l'adaptation de modèles de grande taille sur du matériel accessible, réduisant les coûts de calcul de manière significative. Le RLHF, popularisé notamment par OpenAI avec ChatGPT, reste la référence pour aligner les modèles sur les attentes humaines, tandis que GRPO représente la nouvelle frontière pour les modèles de raisonnement comme DeepSeek-R1 ou les variantes o1 d'OpenAI. Ce pipeline s'est construit progressivement depuis les premières architectures Transformer de 2017, avec des jalons comme GPT-3 en 2020, qui a démontré la puissance du pré-entraînement à grande échelle, puis InstructGPT en 2022, qui a introduit le RLHF comme standard d'alignement. Aujourd'hui, la course entre les acteurs majeurs, OpenAI, Google DeepMind, Meta, Mistral, Anthropic, se joue précisément sur l'optimisation de ces étapes : qualité des données d'entraînement, efficacité du fine-tuning, robustesse de l'alignement. La montée en puissance des modèles de raisonnement en 2024-2025 a replacé GRPO et les approches similaires au centre des stratégies de recherche, laissant entrevoir des LLMs capables d'une résolution de problèmes complexes nettement plus fiable qu'aujourd'hui.

UEMistral, acteur français, est cité parmi les compétiteurs majeurs dans la course à l'optimisation des pipelines d'entraînement LLM.

LLMsTuto
1 source
[AINews] Classement des meilleurs modèles locaux - avril 2026
57Latent Space 

[AINews] Classement des meilleurs modèles locaux - avril 2026

En avril 2026, la communauté des modèles d'IA locaux a établi un nouveau consensus sur les meilleurs modèles disponibles, après une veille régulière des forums Reddit comme r/localLlama et r/localLLM. Le classement ne repose pas sur les benchmarks théoriques mais sur ce que les utilisateurs recommandent concrètement au quotidien. Qwen 3.5 s'impose comme la famille la plus recommandée toutes catégories confondues, tandis que Gemma 4 de Google gagne rapidement en popularité pour les déploiements locaux de petite et moyenne taille. GLM-5 et GLM-4.7 figurent désormais dans les discussions sur les "meilleurs modèles open-source", aux côtés de MiniMax M2.5 et M2.7, particulièrement cités pour les tâches agentiques et les workflows à forte utilisation d'outils. DeepSeek V3.2 reste solidement dans le peloton de tête des modèles open-weight généralistes, et GPT-oss 20B émerge comme option pratique pour un usage local, notamment pour ses variantes non censurées. Pour le code, le verdict est sans appel : Qwen3-Coder-Next domine largement. Ce palmarès reflète un basculement significatif dans la manière dont les développeurs et les passionnés consomment l'IA : plutôt que de dépendre de services cloud payants, ils privilégient des modèles qu'ils peuvent faire tourner sur leur propre matériel. Cette dynamique démocratise l'accès à des capacités avancées tout en préservant la confidentialité des données. La performance de Qwen 3.5 sur un large spectre d'usages indique que les modèles de taille intermédiaire ont atteint un niveau de maturité suffisant pour remplacer des API commerciales dans de nombreux contextes professionnels. Ce relevé s'inscrit dans une accélération générale de l'écosystème open-weight depuis fin 2024, portée par des acteurs comme Alibaba (Qwen), Google (Gemma), Zhipu AI (GLM) et DeepSeek. La compétition s'est déplacée des grands laboratoires fermés vers un terrain où les sorties se succèdent à un rythme soutenu et où la communauté joue un rôle d'arbitre. La prochaine génération de modèles locaux, notamment Qwen3-Coder-Next pour le développement logiciel, laisse entrevoir des capacités agentiques croissantes qui pourraient transformer les workflows d'ingénierie sans nécessiter de connexion à des services externes.

UEL'adoption croissante de modèles open-weight locaux offre aux développeurs et entreprises européens une alternative concrète aux API cloud américaines, réduisant l'exposition aux risques de dépendance et renforçant la souveraineté des données.

LLMsActu
1 source
MIT, NVIDIA et Zhejiang University proposent TriAttention, une compression du cache KV à débit 2,5 fois supérieur
58MarkTechPost 

MIT, NVIDIA et Zhejiang University proposent TriAttention, une compression du cache KV à débit 2,5 fois supérieur

Des chercheurs du MIT, de NVIDIA et de l'université du Zhejiang ont présenté TriAttention, une nouvelle méthode de compression du cache KV qui résout l'un des goulots d'étranglement les plus critiques des grands modèles de langage actuels. Publiés dans un article disponible sur arXiv (référence 2504.04921), leurs travaux montrent que TriAttention atteint la même précision que l'attention complète sur le benchmark de raisonnement mathématique AIME25 avec des séquences de 32 000 tokens, tout en offrant un débit 2,5 fois supérieur ou une réduction de la mémoire KV d'un facteur 10,7. Les meilleures méthodes concurrentes, comme SnapKV, H2O ou R-KV, n'atteignent qu'environ la moitié de cette précision pour un niveau d'efficacité équivalent. L'enjeu est considérable pour tous ceux qui déploient des modèles de raisonnement avancés comme DeepSeek-R1 ou Qwen3. Ces modèles peuvent générer des dizaines de milliers de tokens avant de produire une réponse, et chaque token doit être stocké dans le cache KV, une structure mémoire qui grossit jusqu'à saturer complètement la mémoire GPU sur du matériel grand public. Les méthodes existantes tentent de compresser ce cache en évictant les tokens jugés peu importants, mais elles opèrent dans l'espace post-RoPE, après application du schéma d'encodage positionnel rotatif utilisé par la quasi-totalité des LLM modernes (Llama, Qwen, Mistral). Ce mécanisme fait pivoter les vecteurs Query et Key selon la position, rendant les requêtes anciennes inutilisables pour estimer l'importance des tokens récents. La fenêtre d'observation efficace se réduit alors à environ 25 requêtes, ce qui conduit à l'éviction définitive de tokens qui deviendront pourtant essentiels plus tard dans la chaîne de raisonnement. L'innovation de TriAttention repose sur une observation faite dans l'espace pré-RoPE, avant que la rotation positionnelle ne soit appliquée. Les chercheurs ont constaté que sur Qwen3-8B, environ 90 % des têtes d'attention présentent un indice de concentration R supérieur à 0,95, signifiant que leurs vecteurs Query et Key se regroupent de façon quasi parfaite autour de centres fixes et stables, indépendants de la position ou de la séquence d'entrée. Cette propriété, qu'ils appellent concentration Q/K, permet d'estimer la pertinence des tokens sans être perturbé par l'encodage positionnel. Le résultat est particulièrement important pour les têtes de récupération, ces composants spécialisés dans l'extraction d'informations factuelles précises depuis de longs contextes, qui étaient les premières victimes des méthodes post-RoPE. En préservant les tokens réellement utiles sur l'ensemble de la fenêtre de contexte, TriAttention maintient l'intégrité des longues chaînes de pensée là où les approches précédentes échouaient.

RecherchePaper
1 source
HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba
59Le Big Data 

HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba

Le vendredi 10 avril 2026, Alibaba a officiellement revendiqué la paternité de HappyHorse-1.0, le modèle d'intelligence artificielle génératrice de vidéos qui avait envahi les réseaux sociaux et les plateformes de benchmark en l'espace de quelques jours. L'annonce est tombée via un post sur X signé par l'équipe du projet, confirmant que le modèle est développé au sein de l'unité ATH AI Innovation Unit, rattachée au géant chinois du e-commerce. Apparu début avril sans affiliation déclarée, HappyHorse-1.0 avait immédiatement pris la première place du classement text-to-video d'Artificial Analysis, devançant des modèles soutenus par des acteurs majeurs de l'industrie. Ses capacités couvrent aussi bien la génération vidéo à partir de texte que la création d'images animées, deux segments très convoités du marché. Le modèle se trouve encore en phase de test bêta, mais un accès via API est annoncé prochainement pour les développeurs. La révélation a eu un effet immédiat sur les marchés : l'action Alibaba a clôturé en hausse de 2,12 % à Hong Kong le jour de l'annonce, après avoir déjà bondi de plus de 6 % deux jours plus tôt, quand les premières spéculations sur l'origine du modèle avaient circulé. Cette réaction boursière illustre l'importance stratégique que les investisseurs accordent désormais aux capacités IA des grandes entreprises technologiques chinoises. Pour Alibaba, HappyHorse représente une validation publique et quantifiable de la stratégie portée par Eddie Wu, le dirigeant qui a fait de l'intelligence artificielle la priorité absolue du groupe depuis son arrivée à la tête de l'entreprise. Un succès technique aussi visible, obtenu en quelques jours sur des benchmarks internationaux, constitue un signal fort envoyé à la fois aux concurrents américains et aux investisseurs mondiaux. Ce lancement intervient dans un moment de turbulences pour le secteur de la vidéo IA. OpenAI a récemment réduit la place de Sora dans sa stratégie globale, préférant concentrer ses ressources sur d'autres usages. ByteDance, de son côté, fait face à des controverses autour de ses outils vidéo expérimentaux, notamment sur des questions de droits d'auteur. Dans ce contexte, Alibaba choisit de s'imposer avec un modèle performant, lancé de façon discrète puis révélé au bon moment, une mécanique de communication qui rappelle les stratégies adoptées par DeepSeek lors de la publication de ses modèles. Le fait qu'un acteur chinois prenne la tête des classements mondiaux sur un segment aussi compétitif que la génération vidéo soulève des questions sur l'équilibre des forces dans la course à l'IA générative, et annonce probablement une intensification de la rivalité technologique entre Pékin et la Silicon Valley.

CréationOpinion
1 source
Sam Altman fragilisé par une enquête explosive du New Yorker au pire moment pour OpenAI
60Siècle Digital 

Sam Altman fragilisé par une enquête explosive du New Yorker au pire moment pour OpenAI

Ronan Farrow et Andrew Marantz ont publié dans le New Yorker une enquête approfondie sur Sam Altman, présentée comme la dissection la plus documentée jamais réalisée sur le PDG d'OpenAI. Le texte paraît à un moment particulièrement délicat : OpenAI affiche une valorisation de 852 milliards de dollars, mais sa propre directrice financière a jugé une introduction en Bourse compromise pour l'année en cours, tandis que la croissance de l'entreprise montre des signes de ralentissement. Le timing est stratégiquement désastreux pour OpenAI. Une enquête de cette envergure, signée par Ronan Farrow, journaliste connu pour ses révélations ayant contribué au mouvement #MeToo, amplifie les doutes des investisseurs institutionnels déjà préoccupés par la trajectoire financière de l'entreprise. Pour une société qui cherche à convaincre les marchés de sa solidité avant une éventuelle cotation, les révélations sur son dirigeant alimentent l'incertitude au pire moment, fragilisant la confiance indispensable à une opération de cette échelle. OpenAI traverse depuis plusieurs mois une période de turbulences : départs de cadres clés, tensions internes sur la direction stratégique, et pression croissante des concurrents comme Google DeepMind, Anthropic ou les acteurs chinois tels que DeepSeek. Sam Altman, déjà brièvement évincé fin 2023 avant d'être rétabli dans ses fonctions, voit son autorité de nouveau mise en question. L'enquête du New Yorker pourrait accélérer les interrogations sur la gouvernance d'OpenAI et sur la capacité d'Altman à piloter une entreprise aux ambitions aussi colossales.

BusinessOpinion
1 source
Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export
61MarkTechPost 

Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export

ModelScope, la plateforme de partage de modèles d'intelligence artificielle développée par Alibaba et son laboratoire DAMO Academy, s'impose comme une alternative crédible à Hugging Face pour les développeurs souhaitant accéder à des modèles pré-entraînés, des jeux de données et des pipelines d'inférence. Un tutoriel complet publié récemment détaille un workflow de bout en bout exécutable sur Google Colab, couvrant l'installation de l'environnement, la recherche de modèles via le hub ModelScope, le téléchargement de snapshots comme BERT, le chargement du jeu de données IMDB, le fine-tuning d'un classificateur de sentiment, son évaluation et son export pour déploiement. La procédure repose sur un écosystème de bibliothèques Python incluant PyTorch, Transformers d'Hugging Face, Accelerate, scikit-learn et Optimum, avec une compatibilité GPU vérifiée dès le départ via CUDA. Ce type de guide pratique a une valeur concrète pour les équipes d'ingénierie et de recherche qui cherchent à industrialiser leurs workflows IA sans repartir de zéro. En montrant que ModelScope s'intègre nativement avec les outils Hugging Face, notamment les pipelines Transformers pour l'analyse de sentiment ou la vision par ordinateur, le tutoriel réduit la barrière à l'entrée pour les équipes déjà familières de cet écosystème. La possibilité de télécharger localement des snapshots de modèles, d'accéder à des datasets comme IMDB via l'API MsDataset, et d'exporter les modèles fine-tunés vers des formats de production (via Optimum) en fait un outil pertinent aussi bien pour l'expérimentation que pour des déploiements à plus grande échelle. ModelScope a été lancé en 2022 par Alibaba DAMO Academy avec l'ambition de construire un écosystème ouvert de modèles centré sur la communauté chinoise et internationale du machine learning. La plateforme héberge des milliers de modèles dans des domaines variés, NLP, vision, audio, multimodal, et se positionne directement face à Hugging Face, qui reste la référence mondiale avec plus de 500 000 modèles disponibles. La dépendance au réseau chinois pour certaines API (la recherche de modèles peut être indisponible hors de Chine, comme le mentionne le tutoriel lui-même) constitue une friction réelle pour les utilisateurs occidentaux. Néanmoins, avec l'accélération des sorties de modèles chinois performants comme Qwen, DeepSeek ou Yi, ModelScope devient un point d'accès incontournable pour quiconque souhaite travailler avec ces modèles dès leur publication, souvent avant leur disponibilité sur d'autres plateformes.

OutilsTuto
1 source
Affinage par renforcement sur Amazon Bedrock : bonnes pratiques
62AWS ML Blog 

Affinage par renforcement sur Amazon Bedrock : bonnes pratiques

Amazon a intégré le Reinforcement Fine-Tuning (RFT) à sa plateforme Bedrock, permettant aux entreprises de personnaliser ses modèles maison Amazon Nova ainsi que plusieurs modèles open source sans avoir besoin de vastes jeux de données étiquetés. Selon les résultats publiés par l'entreprise, cette technique peut générer jusqu'à 66 % de gain de précision par rapport aux modèles de base, à un coût et une complexité réduits. Concrètement, le RFT fonctionne différemment de l'apprentissage supervisé classique : au lieu de s'entraîner sur des paires entrée/sortie correctes, le modèle génère des réponses candidates, qui sont ensuite notées par une fonction de récompense, et ses paramètres sont mis à jour pour favoriser les réponses les mieux notées. Cette boucle itéractive, générer, scorer, ajuster, permet au modèle de découvrir des stratégies que de simples exemples statiques ne pourraient pas lui enseigner. La fonction de récompense est implémentée via AWS Lambda, directement appelée par Bedrock pendant l'entraînement. Cette approche ouvre des possibilités concrètes pour deux grandes familles de tâches. D'un côté, les tâches à critères vérifiables automatiquement : génération de code devant passer des tests unitaires, raisonnement mathématique avec réponses exactes, extraction de données structurées devant respecter un schéma strict, ou orchestration d'API. C'est ce qu'Amazon appelle le RLVR (Reinforcement Learning with Verifiable Rewards). De l'autre côté, les tâches subjectives comme la modération de contenu, les chatbots ou la rédaction créative, où un modèle juge évalue les sorties selon une grille d'évaluation détaillée, approche baptisée RLAIF (Reinforcement Learning with AI Feedback). Pour les équipes techniques, l'intérêt est d'éviter la collecte laborieuse de milliers d'exemples annotés, particulièrement difficile à réaliser pour des tâches de raisonnement complexe où l'expertise humaine est coûteuse. Le RFT s'inscrit dans une tendance lourde de l'industrie IA depuis les succès de DeepSeek-R1 début 2025, qui avait démontré que l'entraînement par renforcement sur des tâches vérifiables pouvait produire des capacités de raisonnement spectaculaires à moindre coût. Amazon emboîte le pas en industrialisant cette technique dans un service cloud managé, ce qui la rend accessible aux équipes sans infrastructure d'entraînement propre. En proposant RFT directement dans Bedrock avec des métriques de suivi intégrées et des guidelines de tuning d'hyperparamètres, Amazon cherche à s'imposer face à Azure et Google Cloud sur le segment de la personnalisation de modèles en entreprise. Le dataset GSM8K, utilisé comme exemple de référence dans la documentation, illustre bien l'ambition : transformer des modèles généralistes en spécialistes fiables sur des domaines métier précis, sans expertise en machine learning approfondie.

UELes entreprises européennes sur AWS peuvent désormais affiner des modèles IA sans jeux de données annotés massifs ni infrastructure ML propre, abaissant la barrière d'entrée pour la personnalisation de modèles en production.

OutilsOutil
1 source
L'ambiance est mauvaise chez OpenAI
63The Verge AI 

L'ambiance est mauvaise chez OpenAI

OpenAI traverse une période de turbulences malgré des indicateurs financiers record. Il y a moins de deux semaines, la société a bouclé une levée de fonds de 122 milliards de dollars, portant sa valorisation post-money à 852 milliards de dollars, ce qui en fait l'une des startups les mieux financées de l'histoire. L'entreprise envisage également une introduction en bourse avant la fin de l'année. ChatGPT, son produit phare, a atteint un statut de marque générique comparable à "Kleenex" dans l'univers de l'IA grand public. Pourtant, ces chiffres impressionnants masquent des signaux d'instabilité préoccupants. Ces derniers mois, OpenAI a connu une série de départs et remaniements au sein de sa direction, des projets abandonnés en cours de route, et une accumulation de controverses publiques qui alimentent les doutes sur la solidité interne de la structure. Pour une entreprise en phase de préparation d'IPO, cette image de désordre organisationnel est un facteur de risque non négligeable aux yeux des investisseurs institutionnels. Les tensions remontent au début de l'année et s'inscrivent dans un contexte de pression concurrentielle accrue. Des acteurs comme Google DeepMind, Anthropic, Meta et des challengers chinois tels que DeepSeek bousculent la domination historique d'OpenAI. La question n'est plus seulement de savoir si la valorisation est justifiée, mais si l'entreprise peut maintenir sa cohésion stratégique et humaine au moment même où elle s'apprête à franchir le cap de la cotation publique.

BusinessOpinion
1 source
L'impact de l'IA sur l'emploi et les centres de données dans l'espace
64MIT Technology Review 

L'impact de l'IA sur l'emploi et les centres de données dans l'espace

L'intelligence artificielle continue de redistribuer les cartes de l'économie mondiale, et les économistes qui minimisaient jusqu'ici ses effets sur l'emploi commencent à revoir leur position. Alex Imas, chercheur à l'Université de Chicago, avance qu'un seul indicateur pourrait réellement éclairer l'ampleur de la transformation à venir : l'élasticité-prix du travail face à l'automatisation. Il plaide pour ce qu'il appelle un "Projet Manhattan" de la collecte de données, afin de mesurer dans quelle mesure les entreprises substitueront effectivement des travailleurs humains à des systèmes d'IA selon l'évolution des coûts. Sans cette donnée, toute politique publique visant à amortir le choc risque de viser à l'aveugle. En parallèle, un rapport explosif du New Yorker révèle que Sam Altman aurait discrètement lobbié contre des réglementations sur l'IA qu'il soutenait publiquement, alimentant la méfiance d'une partie des cadres d'OpenAI envers leur propre PDG. La société fait également face à des doutes sur sa capacité à entrer en Bourse cette année, selon The Information. Ces bouleversements interviennent alors que l'industrie technologique explore des solutions infrastructurelles radicales pour soutenir la croissance de l'IA sans aggraver la crise environnementale terrestre. En janvier 2026, SpaceX d'Elon Musk a déposé une demande pour lancer jusqu'à un million de centres de données en orbite autour de la Terre. L'objectif affiché est de libérer pleinement le potentiel de l'IA tout en délocalisant hors de notre planète la consommation énergétique et thermique colossale que ces infrastructures impliquent. SpaceX n'est pas seule sur ce créneau : plusieurs autres entreprises technologiques explorent des solutions similaires d'informatique orbitale, même si les défis techniques restent considérables. Ce double mouvement, vers une IA plus puissante et vers une infrastructure toujours plus ambitieuse, se déploie dans un contexte géopolitique tendu. L'administration Trump a proposé des coupes massives dans le financement des agences scientifiques américaines, ce qui pourrait provoquer une fuite des cerveaux hors des États-Unis selon le New York Times. Pendant ce temps, OpenAI, Anthropic et Google ont formé une alliance inhabituelle pour contrer ce que Bloomberg décrit comme de la "distillation adversariale" par des acteurs chinois, c'est-à-dire l'extraction des capacités de leurs modèles par imitation. DeepSeek, de son côté, préparerait un nouveau modèle optimisé pour fonctionner sur des puces Huawei, attendu dans les prochaines semaines. Ces dynamiques dessinent un paysage où la course à l'IA se joue désormais autant sur le terrain économique et réglementaire que sur celui de la recherche pure.

UELes coupes budgétaires américaines dans les agences scientifiques pourraient provoquer une fuite des chercheurs vers l'Europe, tandis que l'alliance OpenAI-Anthropic-Google contre la distillation adversariale chinoise soulève des questions de souveraineté numérique pour les acteurs européens de l'IA.

SociétéActu
1 source
Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur
65AWS ML Blog 

Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur

Amazon a introduit une fonctionnalité de personnalisation de modèles sans serveur dans SageMaker AI, permettant aux équipes d'améliorer drastiquement les capacités d'appel d'outils des agents IA sans gérer d'infrastructure GPU. Dans un cas concret publié début avril 2026, des ingénieurs ont affiné le modèle Qwen 2.5 7B Instruct en utilisant la technique RLVR (Reinforcement Learning with Verifiable Rewards) et ont obtenu une amélioration de 57% du score de qualité des appels d'outils sur des scénarios inédits, c'est-à-dire des outils que le modèle n'avait jamais vus lors de l'entraînement. La méthode repose sur un principe simple : le modèle génère huit réponses candidates par prompt, une fonction de récompense vérifie lesquelles sont correctes, et l'algorithme GRPO (Group Relative Policy Optimization) renforce les comportements qui surpassent la moyenne du groupe. SageMaker AI prend en charge les familles de modèles Amazon Nova, Llama, Qwen et DeepSeek, avec un suivi des métriques via MLflow intégré. L'enjeu est concret : les agents IA en production échouent fréquemment lors des appels d'outils, qu'il s'agisse d'halluciner des fonctions inexistantes, de passer des paramètres incorrects, ou de déclencher une action là où ils devraient demander une clarification. Ces erreurs bloquent le déploiement en production et détruisent la confiance des utilisateurs. La nouvelle approche serverless d'Amazon supprime l'obstacle opérationnel majeur que représentait jusqu'ici le fine-tuning par renforcement : achat de GPU, orchestration mémoire entre les phases de rollout et d'entraînement, infrastructure de récompenses, gestion des checkpoints. Les équipes peuvent désormais se concentrer sur leurs données, leur modèle et leur fonction de récompense, le reste étant géré par la plateforme. Le fine-tuning supervisé classique (SFT) montre ses limites pour ce type de tâche : il nécessite des exemples étiquetés pour chaque comportement souhaité, mais peine à généraliser la prise de décision entre appeler un outil, demander des informations supplémentaires, ou refuser d'agir. RLVR contourne ce problème en exploitant la nature vérifiable des appels d'outils : soit le modèle a appelé la bonne fonction avec les bons paramètres, soit non. Cette objectivité binaire rend l'appel d'outils particulièrement adapté à l'apprentissage par renforcement. Amazon positionne cette offre dans un marché de l'IA agentique en forte croissance, où des acteurs comme Google (Vertex AI), Microsoft (Azure ML) et des startups spécialisées se disputent les équipes qui cherchent à industrialiser des agents fiables, avec un accès simplifié via SageMaker Studio et un compte AWS standard.

OutilsActu
1 source
Marc Andreessen s'interroge sur la mort du navigateur, Pi + OpenClaw, et pourquoi cette fois c'est différent
66Latent Space 

Marc Andreessen s'interroge sur la mort du navigateur, Pi + OpenClaw, et pourquoi cette fois c'est différent

Marc Andreessen, cofondateur du fonds de capital-risque Andreessen Horowitz (a16z), qui vient de lever 15 milliards de dollars, s'est exprimé dans un épisode du podcast Latent Space enregistré dans les bureaux légendaires de Sand Hill Road. Face aux animateurs swyx et Alessio, il a développé sa thèse centrale : l'intelligence artificielle n'est pas un nouveau cycle de hype, mais l'aboutissement de quatre-vingts ans de progrès scientifique cumulé. Des réseaux de neurones des années 1980 aux systèmes experts, en passant par AlexNet en 2012 et les transformers, jusqu'aux modèles de raisonnement et aux agents autonomes d'aujourd'hui, Andreessen voit dans ce moment une convergence historique. Il a également mis en avant deux projets qu'il considère comme des percées architecturales majeures : Pi et OpenClaw, une combinaison de modèle de langage, shell Unix, système de fichiers, Markdown et boucle cron qu'il compare à l'invention d'Unix en termes d'importance pour l'industrie logicielle. Pour Andreessen, ce qui distingue fondamentalement ce cycle des précédents, c'est le saut qualitatif entre les LLM classiques et les modèles de raisonnement capables de coder, d'agir de manière autonome et potentiellement de s'améliorer eux-mêmes de façon récursive. Il souligne que la vraie contrainte n'est plus technique mais institutionnelle : les organisations humaines, leurs incitations et leurs structures sociales peinent à absorber un changement aussi rapide. Sur la question des infrastructures, il nuance la comparaison avec la bulle des télécoms de 2000 : les acheteurs actuels de capacités IA sont des géants aux bilans solides, et la demande existe déjà. Il défend également l'importance de l'IA embarquée en local, citant la confidentialité, la confiance et l'économie comme facteurs structurels favorisant les modèles tournant sur Apple Silicon ou des puces dédiées. Andreessen incarne une génération rare d'investisseurs ayant vécu de l'intérieur plusieurs révolutions technologiques : il a créé Mosaic, le premier navigateur web grand public, avant de cofonder Netscape et a16z. Son regard sur l'open source est particulièrement éclairant : il décrit DeepSeek comme "un cadeau au monde", non seulement parce que les modèles sont gratuits, mais parce qu'ils propagent la compréhension profonde de ces systèmes à l'échelle planétaire. Il anticipe également une refonte du rapport humain-machine sur internet, estimant que la détection des bots est désormais un problème insoluble par voie algorithmique seule, et que seule une preuve cryptographique et biométrique d'identité humaine permettra de rétablir la confiance en ligne. Ses prises de position, portées par l'un des fonds les plus influents de la Silicon Valley, façonnent directement les priorités d'investissement de tout un écosystème.

LLMsOpinion
1 source
Vous pouvez investir dans OpenAI avant son introduction en Bourse : les premiers particuliers ont sauté sur l’occasion d’une méga levée de fonds
67Presse-citron 

Vous pouvez investir dans OpenAI avant son introduction en Bourse : les premiers particuliers ont sauté sur l’occasion d’une méga levée de fonds

OpenAI a ouvert pour la première fois sa levée de fonds à des investisseurs individuels, marquant une étape inédite dans l'histoire de la startup la plus valorisée de la Silicon Valley. Jusqu'ici réservées aux fonds de capital-risque et aux institutionnels, les parts de l'entreprise créatrice de ChatGPT sont désormais accessibles à des particuliers dans le cadre d'un tour de financement dont le montant dépasse les précédents records. Dès l'annonce, des investisseurs retail ont saisi l'opportunité, témoignant d'un appétit fort pour un accès anticipé à ce qui pourrait devenir l'une des plus grandes introductions en Bourse de la décennie. Cette ouverture représente un signal fort : elle élargit la base d'actionnaires d'OpenAI bien au-delà des initiés, tout en générant une visibilité grand public rare pour une société encore privée. Pour les particuliers, c'est une occasion de prendre position avant une IPO qui s'annonce massive — et potentiellement très lucrative. Pour OpenAI, cela permet de diversifier ses sources de financement et de construire une communauté d'actionnaires engagés, stratégie classique des entreprises tech en phase pré-cotation. Ce virage intervient dans un contexte où OpenAI communique activement sur sa croissance exceptionnelle et annonce de nouveaux développements majeurs pour ChatGPT, autant d'éléments destinés à séduire les marchés avant une éventuelle entrée en Bourse. La société, qui a levé des dizaines de milliards de dollars depuis sa création, fait face à une concurrence accrue de Google, Anthropic et des acteurs chinois comme DeepSeek. La préparation d'une IPO permettrait de consolider ses ressources dans une course à l'IA générative qui exige des investissements colossaux en infrastructures et en talent. --- Note : le texte source fourni étant un titre et un chapeau, certains détails chiffrés (montant exact, valorisation, conditions d'accès) n'étaient pas disponibles — fournis le corps de l'article pour une version plus précise.

UELes investisseurs particuliers européens pourraient accéder à cette levée de fonds pré-IPO selon les conditions réglementaires locales, mais aucune disposition spécifique au marché français ou européen n'est mentionnée.

BusinessOpinion
1 source
NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle
68MarkTechPost 

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper
1 source
Les prix des H100 s'envolent
69Latent Space 

Les prix des H100 s'envolent

Depuis décembre 2025, les prix de location des GPU H100 de Nvidia repartent fortement à la hausse, effaçant la correction observée début 2025 après le choc DeepSeek R1. Selon le commentateur Dylan sur le podcast Dwarkesh, les H100 valent aujourd'hui davantage qu'il y a trois ans, au moment de leur lancement. Cette inversion de tendance intervient alors que la plupart des acteurs du secteur tablaient sur une dépréciation progressive sur quatre à sept ans. Les raisons avancées sont multiples : une pénurie générale de puces haut de gamme, l'émergence des modèles de raisonnement de décembre 2025, et l'amélioration spectaculaire des logiciels d'inférence, qui rendent une puce de quatre ans beaucoup plus efficace qu'elle ne l'était à sa sortie. Ce retournement a des implications directes sur la rentabilité des centres de données spécialisés en IA. Les modèles économiques construits sur l'hypothèse d'une dépréciation rapide du matériel se trouvent bousculés : un H100 loué plus cher que prévu change profondément les équations de coût par token pour les opérateurs cloud et les startups qui ne possèdent pas leur propre infrastructure. En parallèle, Anthropic serait sur le point de bénéficier d'un financement de Google pour la construction d'un centre de données — selon le Financial Times — ce qui illustre que la compétition frontier est désormais autant une question de capacité électrique et de capital que d'algorithmes. Ce contexte tendu se double d'une semaine chargée pour Anthropic : une fuite interne sur un système baptisé « Claude Mythos » a révélé l'existence d'un nouveau niveau d'abonnement nommé Capybara, décrit comme supérieur à Claude Opus 4.6, plus grand et plus intelligent, avec des scores nettement améliorés en programmation, raisonnement académique et cybersécurité. Le déploiement serait freiné par des contraintes de coût et de sécurité, et la spéculation va bon train autour d'un modèle de classe 10 000 milliards de paramètres évoqué par le PDG Dario Amodei. Pendant ce temps, côté open source, Zhipu a ouvert l'accès à GLM-5.1 à tous les utilisateurs de son offre coding, et la communauté constate que l'écart entre modèles fermés et ouverts n'a jamais été aussi réduit. Des utilisateurs rapportent avoir remplacé des abonnements TTS payants par des modèles locaux comme Qwen 3.5 14B, ou avoir fait tourner Qwen3.5-35B dans 24 Go de VRAM avec seulement 1 % de perte de performance grâce à la quantification — signe que l'économie de l'inférence locale devient viable pour un nombre croissant de cas d'usage professionnels.

UELa hausse des prix des H100 alourdit les coûts d'exploitation des opérateurs cloud et startups européens sans infrastructure propre, fragilisant les modèles économiques construits sur une dépréciation rapide du matériel.

InfrastructureActu
1 source
IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée
70VentureBeat AI 

IndexCache accélère l'inférence des modèles IA sur longs contextes de 1,82x grâce à une attention clairsemée

Des chercheurs de l'Université Tsinghua et de Z.ai ont mis au point une technique appelée IndexCache, capable d'accélérer jusqu'à 1,82 fois le temps de génération du premier token et d'augmenter de 1,48 fois le débit de génération pour des contextes de 200 000 tokens. Concrètement, IndexCache supprime jusqu'à 75 % des calculs redondants dans les modèles d'attention sparse, et s'applique aux architectures utilisant DeepSeek Sparse Attention (DSA), notamment les familles de modèles DeepSeek et GLM. Des tests préliminaires ont déjà été conduits sur GLM-5, un modèle de 744 milliards de paramètres, avec des résultats probants en conditions de production. Cette optimisation répond à un problème fondamental des grands modèles de langage : le mécanisme d'auto-attention, qui calcule les relations entre chaque token et tous les précédents, voit sa complexité computationnelle croître de façon quadratique avec la longueur du contexte. L'attention sparse — dont DSA est une implémentation efficace introduite avec DeepSeek-V3.2 — résout en partie ce problème en ne traitant qu'un sous-ensemble de tokens pertinents, réduisant la complexité de quadratique à linéaire. Mais les chercheurs ont identifié un goulot d'étranglement résiduel : le module d'indexation léger présent à chaque couche du modèle, chargé de sélectionner ces tokens importants, restait lui-même quadratique, ralentissant considérablement la phase de préfill lors du traitement initial du prompt. IndexCache s'attaque précisément à ce verrou en exploitant une propriété empirique : les couches adjacentes du transformer sélectionnent entre 70 % et 100 % des mêmes tokens. Le système désigne donc un petit nombre de couches "complètes" qui calculent et mettent en cache les indices de tokens, tandis que les couches "partagées" réutilisent simplement ces indices sans recalcul. Contrairement aux techniques classiques de compression du KV cache qui visent à réduire l'empreinte mémoire, IndexCache attaque directement le coût computationnel. L'enjeu est considérable pour les entreprises qui déploient des modèles à grande échelle. Le traitement de longs contextes — documents volumineux, workflows agentiques multi-étapes, raisonnements en chaîne de pensée étendue — représente aujourd'hui l'un des principaux freins économiques à l'adoption des LLM en production, où chaque milliseconde et chaque token coûtent. La course à l'efficacité de l'inférence s'est intensifiée ces derniers mois, avec des approches concurrentes comme la distillation de modèles, la quantification ou la compression du KV cache. IndexCache se positionne comme une technique orthogonale et complémentaire, exploitable sans modification de l'architecture de base. Avec DeepSeek déjà en pointe sur l'optimisation des coûts d'inférence et Z.ai directement impliqué dans ces travaux, la technique a de bonnes chances d'être intégrée rapidement dans les prochaines versions des modèles GLM et DeepSeek, élargissant la fenêtre de contexte praticable sans explosion des coûts.

UELes entreprises et laboratoires européens déployant des modèles DeepSeek ou GLM pourraient bénéficier de gains d'efficacité substantiels sur les inférences longues, réduisant les coûts opérationnels sans modification d'architecture.

RecherchePaper
1 source
Xiaomi MiMo-V2-Pro : le géant chinois lance son rival de ChatGPT et Gemini
71Le Big Data 

Xiaomi MiMo-V2-Pro : le géant chinois lance son rival de ChatGPT et Gemini

Xiaomi lance MiMo-V2-Pro (aussi appelé "Hunter Alpha"), un modèle d'IA de fondation conçu pour orchestrer des agents intelligents et exécuter des tâches complexes de bout en bout, notamment en ingénierie logicielle. Sur le benchmark ClawEval, il obtient 61,5 points, dépassant GPT-5.2 et Gemini 3 Pro, et talonnant Claude Opus 4.6. Avec une fenêtre de contexte de 256K tokens et des performances compétitives face à DeepSeek V3, Xiaomi s'affirme comme un acteur sérieux de l'IA générative au-delà du hardware.

UEL'émergence de modèles chinois compétitifs comme MiMo-V2-Pro élargit les alternatives aux modèles américains disponibles pour les développeurs et entreprises européennes.

LLMsActu
1 source
Multiverse Computing propulse ses modèles d'IA compressés vers le grand public
72TechCrunch AI 

Multiverse Computing propulse ses modèles d'IA compressés vers le grand public

Multiverse Computing, spécialisée dans la compression de modèles d'IA, lance une application et une API pour rendre ses modèles compressés plus accessibles au grand public. La société a déjà compressé des modèles de grands laboratoires comme OpenAI, Meta, DeepSeek et Mistral AI.

UEMultiverse Computing, entreprise européenne spécialisée dans la compression de modèles IA, rend ses outils accessibles via une API — opportunité directe pour les développeurs et entreprises européennes cherchant à réduire les coûts d'inférence.

OutilsOutil
1 source
Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins
73MarkTechPost 

Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins

Unsloth AI a lancé Unsloth Studio, une interface locale no-code open-source permettant de fine-tuner des LLMs avec 70% moins de VRAM grâce à des kernels Triton optimisés, atteignant une vitesse d'entraînement 2x supérieure. L'outil supporte des modèles jusqu'à 70B paramètres (Llama 3.1, 3.3, DeepSeek-R1) sur un seul GPU grand public comme le RTX 4090, via les techniques LoRA et QLoRA. Il intègre également un pipeline visuel de préparation des données (PDF, DOCX, CSV), la génération de données synthétiques via NVIDIA DataDesigner, et le support du reinforcement learning GRPO.

OutilsOutil
1 source
74Le Big Data 

Tencent prépare en secret un agent IA pour WeChat, que faut-il savoir ?

Tencent travaille en secret sur un agent d'intelligence artificielle intégré directement à WeChat, son application phare utilisée par 1,4 milliard d'utilisateurs actifs chaque mois. Selon The Information, qui cite plusieurs sources proches du dossier, ce projet aurait été lancé dès le premier semestre 2025 et est classé priorité stratégique confidentielle au sein du groupe. Les tests en boîte grise sont prévus pour le milieu de 2026, avec un déploiement général visé au troisième trimestre — calendrier susceptible de glisser si certaines fonctionnalités ne sont pas suffisamment matures. Côté modèle, aucune décision définitive n'a encore été prise : le modèle maison Hunyuan serait jugé insuffisamment compétitif face aux meilleurs du marché, et plusieurs alternatives chinoises ont été évaluées, dont celles de Zhipu, Alibaba et DeepSeek. L'infrastructure resterait centralisée sur les serveurs cloud de Tencent, les mini-programmes ne disposant pas des ressources locales nécessaires. L'enjeu est considérable : intégrer un agent IA dans WeChat, c'est potentiellement donner accès à un orchestrateur capable d'agir de façon autonome sur des millions de mini-programmes déjà en place — covoiturage, livraison de repas, paiement, services publics. Là où une application IA indépendante doit se battre pour attirer des utilisateurs, WeChat bénéficie d'une audience captive et d'un écosystème construit depuis 2017. La difficulté est symétrique : toute défaillance sur une plateforme aussi critique serait immédiatement visible par des centaines de millions de personnes. C'est précisément pourquoi Tencent avance prudemment, ayant tiré les leçons du lancement tiède de son appli IA autonome Yuanbao en mai 2024, qui n'a pas réussi à s'imposer face à la concurrence. Ce projet s'inscrit dans une bataille plus large pour le contrôle de la couche agent en Chine. Alibaba et ByteDance poursuivent des initiatives similaires, et Tencent ne peut pas rester spectateur dans cette course sans risquer de voir son écosystème WeChat contourné par des assistants tiers. En mars 2026, l'entreprise a déjà présenté trois nouveaux produits reposant sur des agents intelligents — QClaw pour les particuliers, Enterprise WeChat Robot pour les équipes et WorkBuddy pour les environnements professionnels — signalant une accélération de sa stratégie IA tous azimuts. L'agent WeChat représenterait la pièce maîtresse de ce dispositif : la vitrine grand public d'une infrastructure IA que Tencent construit en profondeur, et potentiellement le premier superagent intégré à une messagerie de cette échelle au monde.

OutilsOutil
1 source
75Ahead of AI 

Un printemps pour les LLMs open-weight : 10 architectures (jan-fév 2026)

Entre janvier et février 2026, une vague exceptionnelle de modèles de langage open-weight a déferlé sur la communauté IA, avec dix architectures majeures publiées en l'espace de trois semaines. Parmi les sorties les plus remarquées : Trinity Large d'Arcee AI (27 janvier), Kimi K2.5 de Moonshot AI (27 janvier), Step 3.5 Flash de StepFun (1er février), Qwen3-Coder-Next (3 février), GLM-5 de z.AI et MiniMax M2.5 (12 février), Nanbeige 4.1 3B (13 février), Qwen 3.5 (15 février), les modèles Ling 2.5 et Ring 2.5 à 1 000 milliards de paramètres d'Ant Group (16 février), et enfin Tiny Aya de Cohere (17 février). Le modèle phare de cette période reste Trinity Large d'Arcee AI : un Mixture-of-Experts de 400 milliards de paramètres, dont seulement 13 milliards sont activés à chaque inférence, accompagné de deux variantes plus légères — Trinity Mini (26B/3B actifs) et Trinity Nano (6B/1B actifs). Arcee AI a publié les poids du modèle ainsi qu'un rapport technique détaillé, d'abord sur GitHub puis sur arXiv à partir du 18 février. Cette effervescence illustre une démocratisation accélérée des modèles de grande taille : des entreprises jusqu'ici discrètes, comme Arcee AI, publient désormais des architectures compétitives avec les géants comme z.AI et son GLM-4.5 (355 milliards de paramètres). Sur le plan technique, Trinity Large rivalise avec GLM-4.5 en performances sur les modèles de base — une parité remarquable pour une start-up américaine encore peu connue. Ces modèles open-weight permettent à des équipes de recherche, des entreprises et des développeurs indépendants de déployer des LLMs puissants sans dépendre des API commerciales fermées, ce qui réduit les coûts et augmente la souveraineté technologique. Sur le plan architectural, cette génération de modèles converge vers plusieurs innovations communes. L'attention à fenêtre glissante (sliding window attention, SWA) — qui réduit le coût computationnel de O(n²) à O(n·t) en limitant chaque token à une fenêtre locale fixe — est adoptée par Trinity, Gemma 3, OLMo 3 ou encore Xiaomi MiMo. Trinity opte pour un ratio local:global de 3:1 avec une fenêtre de 4 096 tokens. L'architecture intègre également le QK-Norm (normalisation des clés et requêtes pour stabiliser l'entraînement), l'absence d'encodage positionnel dans les couches d'attention globale (NoPE), et un mécanisme de gating sur l'attention qui réduit les "attention sinks" et améliore la généralisation sur les longues séquences. Ces choix architecturaux convergents signalent une forme de consensus émergeant dans la communauté open-weight sur les meilleures pratiques pour les modèles à très long contexte — une tendance qui devrait s'accentuer avec les prochaines sorties, dont DeepSeek V4, attendu prochainement.

UELes équipes de recherche et entreprises européennes peuvent déployer ces modèles open-weight puissants sans dépendre des API commerciales fermées, réduisant les coûts et renforçant leur souveraineté technologique.

LLMsActu
1 source