Aller au contenu principal

Dossier Meta IA — page 6

545 articles · page 6 sur 11

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public
251MarkTechPost InfrastructureOpinion

Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public

Xiaomi, en collaboration avec le groupe système TileRT, a publié MiMo-V2.5-Pro-UltraSpeed, un mode de serving haute vitesse pour son modèle existant MiMo-V2.5-Pro. Ce modèle, basé sur une architecture Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, franchit pour la première fois la barre des 1 000 tokens par seconde sur cette classe de modèles, avec des pics mesurés à 1 200 tokens/s. Ce qui rend la performance remarquable, c'est le matériel utilisé : non pas des puces custom ou des accélérateurs spécialisés, mais un nœud standard de 8 GPU grand public. Le résultat découle de trois techniques coordonnées que Xiaomi qualifie de "codesign modèle-système extrême" : la quantification FP4 (format MXFP4 appliqué sélectivement aux experts MoE, le reste restant en FP8), le décodage spéculatif DFlash, et le moteur d'exécution TileRT. La qualité des benchmarks reste comparable au modèle original grâce à un entraînement avec conscience de la quantification (QAT). Ces vitesses changent concrètement ce qu'il est possible de faire avec un grand modèle en production. À 1 000 tokens/s, des tâches qui supposaient d'attendre plusieurs secondes entre chaque étape deviennent quasi-instantanées : un agent de code peut enchaîner les cycles génération-exécution-correction sans temps mort perceptible, des stratégies de raisonnement Best-of-N peuvent faire tourner des dizaines de branches en parallèle dans le même temps horloge, et des usages temps réel comme la détection de fraude ou le dialogue interactif deviennent viables sans infrastructure dédiée. Les démos publiées montrent la génération d'un jeu Snake en une dizaine de secondes, illustrant la fluidité atteinte pour des tâches de prototypage rapide. DFlash, la pièce centrale du gain de vitesse, résout un problème structurel du décodage spéculatif classique : le modèle brouillon génère les tokens un par un, créant un goulot d'étranglement séquentiel. DFlash utilise une prédiction parallèle masquée par blocs, permettant au modèle brouillon de remplir un bloc entier de positions en un seul passage. Sur des tâches de code, six à sept tokens sur huit sont acceptés à chaque round de vérification, atteignant parfois 7,14 en moyenne. TileRT complète le tableau côté système : à ces vitesses, chaque opérateur ne dure que quelques microsecondes, et les coûts de lancement d'opérateurs traditionnels fracturent le flux d'exécution. TileRT maintient un noyau persistant sur le GPU avec spécialisation par warp, éliminant ces interruptions. Xiaomi positionne cette combinaison comme une réponse directe à la montée en puissance de la vitesse d'inférence comme métrique concurrentielle, face aux investissements croissants de Meta, Google et OpenAI dans leurs propres accélérateurs propriétaires.

UEImpact indirect : les techniques publiées (quantification MXFP4, décodage spéculatif DFlash, moteur TileRT) pourraient réduire les coûts d'inférence pour les entreprises et labos européens déployant de grands modèles, mais aucune adoption ou régulation directement concernée.

1 source
Moonshot AI vise une valorisation de 30 milliards de dollars avec une nouvelle levée de fonds
252Le Big Data 

Moonshot AI vise une valorisation de 30 milliards de dollars avec une nouvelle levée de fonds

Moonshot AI, la startup chinoise à l'origine du chatbot Kimi, mène des discussions préliminaires avec des investisseurs en vue de lever jusqu'à 2 milliards de dollars supplémentaires. Si cette opération aboutit, sa valorisation atteindrait 30 milliards de dollars, contre un peu plus de 4 milliards fin 2025. La société a déjà bouclé récemment un tour mené par la plateforme Meituan valorisant l'entreprise à 20 milliards de dollars. Fondée par Yang Zhilin, ancien chercheur passé par Google, Meta et l'université Tsinghua, Moonshot AI a franchi en avril 2026 la barre des 200 millions de dollars de chiffre d'affaires annuel récurrent (ARR), un seuil symbolique qui témoigne de sa capacité à générer des revenus stables. Son catalogue s'est enrichi avec Kimi Work, un agent IA polyvalent basé sur la série de modèles K2.6, commercialisé auprès des particuliers comme des entreprises. Ces performances commerciales expliquent l'attractivité de Moonshot AI aux yeux des investisseurs. Là où de nombreux acteurs de l'IA peinent à convertir leurs prouesses techniques en revenus récurrents, Moonshot AI démontre une capacité concrète à monétiser ses modèles auprès de segments de clientèle variés, des abonnements grand public jusqu'aux déploiements en entreprise. L'ARR est l'un des indicateurs les plus scrutés dans le secteur technologique car il permet d'évaluer la solidité financière sur le long terme, et dépasser les 200 millions de dollars représente un signal fort pour les investisseurs qui cherchent à miser sur des acteurs capables de rivaliser avec les géants occidentaux comme OpenAI ou Anthropic. Moonshot AI prépare par ailleurs une étape structurante : une introduction en Bourse à Hong Kong. Pour y parvenir, la société est en train de réorganiser sa gouvernance et de démanteler sa structure offshore historique, sous la pression accrue des autorités chinoises sur les cotations à l'étranger. Afin de préserver l'accès aux financements libellés en dollars, l'entreprise envisagerait la mise en place d'une structure de coentreprise. Ce montage illustre le défi central auquel font face les scale-ups technologiques chinoises aujourd'hui : concilier des exigences réglementaires nationales de plus en plus strictes avec la nécessité d'attirer des capitaux internationaux. La réussite de cette double équation pourrait faire de Moonshot AI un modèle de référence pour l'ensemble de l'écosystème IA chinois, à un moment où la compétition mondiale pour la domination de l'intelligence artificielle s'intensifie sur tous les fronts.

UELa montée en puissance de Moonshot AI renforce la compétition mondiale en IA et pourrait influencer les stratégies d'investissement et de positionnement des acteurs européens du secteur.

BusinessActu
1 source
Anthropic débauche le deuxième ingénieur en puces d'OpenAI alors que les deux sociétés visent la bourse
253The Decoder 

Anthropic débauche le deuxième ingénieur en puces d'OpenAI alors que les deux sociétés visent la bourse

Anthropic a recruté Clive Chan, qu'il décrit lui-même comme le deuxième ingénieur hardware à avoir rejoint le programme de puces personnalisées d'OpenAI. Chan apporte avec lui une expérience rare : il a travaillé sur l'ASIC Autopilot de Tesla avant de contribuer au partenariat stratégique entre OpenAI et Broadcom, le géant des semi-conducteurs, pour développer des puces d'inférence sur mesure. Le recrutement intervient alors que les deux entreprises se préparent activement à entrer en bourse. Ce débauchage ciblé signale qu'Anthropic envisage sérieusement de concevoir ses propres puces d'intelligence artificielle, une étape que la société n'a pas encore franchie publiquement. Pour une startup valorisée à plusieurs dizaines de milliards de dollars, disposer d'une infrastructure silicium propriétaire représente un levier majeur de réduction des coûts et d'indépendance vis-à-vis de Nvidia, dont les GPU H100 et H200 dominent encore massivement le marché de l'entraînement et de l'inférence. Attirer un ingénieur ayant déjà traversé ce processus chez un concurrent direct accélère considérablement la courbe d'apprentissage. La course aux puces maison s'est intensifiée dans tout le secteur : Google dispose de ses TPU, Amazon de ses Trainium et Inferentia, Meta de ses MTIA. OpenAI avait annoncé début 2024 son intention de développer ses propres accélérateurs en collaboration avec Broadcom, avant de signer un accord massif avec SoftBank pour sécuriser des capacités de calcul. Le départ de l'un de ses pionniers hardware vers Anthropic, à quelques mois d'une potentielle introduction en bourse pour les deux acteurs, illustre la bataille de talents qui se joue en coulisses autant que la compétition technologique.

UELa course aux puces IA propriétaires entre géants américains renforce la dépendance technologique européenne vis-à-vis des fournisseurs US, sans impact direct immédiat sur la France ou l'UE.

💬 Le recrutement du deuxième ingénieur puces d'OpenAI, c'est pas anodin. Quand tu cibles quelqu'un qui a déjà fait le chemin chez un concurrent direct, tu brûles les étapes, et Anthropic le sait. Reste à voir si l'IPO va accélérer les investissements silicium ou si c'est encore du positionnement pour les roadshows.

InfrastructureOpinion
1 source
Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée
254MarkTechPost 

Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée

Google DeepMind a publié de nouveaux checkpoints de quantification pour sa famille de modèles Gemma 4, en utilisant une technique appelée Quantization-Aware Training (QAT). Cette publication intervient quelques semaines après le lancement de Gemma 4 en avril 2026 et deux jours après la sortie d'un modèle 12B. La gamme cible deux variantes principales, E2B et E4B, proposées dans trois formats : BF16 pleine précision, Q40 QAT et un nouveau schéma mobile optimisé. En BF16, E2B requiert 9,6 Go de VRAM et E4B 15 Go. En Q40 QAT, ces empreintes tombent respectivement à 3,2 Go et 5 Go. Le format mobile va plus loin encore : E2B y occupe environ 1 Go de mémoire, et en version texte seul, sans encodeurs audio et vision, le modèle passe sous la barre du gigaoctet. La distinction avec la quantification classique post-entraînement (PTQ) est centrale. Là où la PTQ compresse un modèle achevé au risque de dégrader ses performances, le QAT simule la quantification pendant l'entraînement lui-même : le modèle apprend à compenser la perte de précision avant même d'être déployé. Google affirme que ses résultats QAT surpassent les baselines PTQ équivalentes en qualité, une affirmation cohérente avec les données Gemma 3 où le QAT avait réduit de 54 % la dégradation de perplexité en Q40. Concrètement, les formats Q40 QAT sont compatibles avec les outils les plus répandus : llama.cpp, Ollama, LM Studio, vLLM et MLX, permettant un déploiement sur GPU grand public, voire sur un Raspberry Pi 5. Le schéma mobile, lui, mobilise quatre techniques spécifiques : activation statique pré-calculée à l'entraînement, quantification par canal adaptée aux accélérateurs mobiles, compression ciblée en 2 bits sur les seules couches de génération de tokens, et optimisation des embeddings et du cache KV. Les couches de raisonnement central restent à précision plus élevée, préservant les capacités du modèle tout en réduisant l'empreinte mémoire. Cette publication s'inscrit dans une tendance de fond : depuis 2023, la course à l'efficacité sur les appareils edge s'est intensifiée, portée par les contraintes de latence, de confidentialité et de coût d'inférence cloud. Google, avec Gemma, positionne ses modèles ouverts face à Meta (Llama), Microsoft (Phi) et Apple (les modèles embarqués dans iOS). Le format mobile QAT ouvre la voie à des déploiements sur smartphones Android via LiteRT-LM, ainsi que dans des applications web légères avec Transformers.js. L'absence de scores de benchmark publiés pour Gemma 4 QAT dans l'annonce officielle constitue une limite notable : les déclarations de Google restent qualitatives. La prochaine étape logique sera la publication de mesures indépendantes sur des benchmarks standardisés comme MMLU ou HellaSwag, qui permettront de vérifier si la promesse de qualité préservée à 1 Go tient face aux alternatives déjà sur le marché.

UELes développeurs et entreprises européens peuvent déployer des modèles d'IA open source compétitifs directement sur appareils edge (smartphones Android, Raspberry Pi) sans cloud, réduisant latence et coûts d'inférence, avec des outils déjà populaires comme Ollama et llama.cpp.

💬 Un gigaoctet pour un modèle qui raisonne, ça ouvre vraiment le edge. Le QAT, c'est pas de la compression post-entraînement qu'on croise les doigts, c'est le modèle qui apprend à compenser sa propre perte de précision pendant l'entraînement, et sur Gemma 3 ça avait réduit la dégradation de 54 %. Pas de benchmarks publiés pour l'instant, on verra si ça tient.

LLMsOpinion
1 source
NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
255AWS ML Blog 

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

LLMsOpinion
1 source
550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source
256Le Big Data 

550 milliards de paramètres : NVIDIA dévoile son plus gros modèle open source

NVIDIA a lancé le 4 juin 2026 Nemotron 3 Ultra, son plus grand modèle open source à ce jour avec 550 milliards de paramètres. Ce modèle repose sur une architecture hybride Mamba-2 et Transformer organisée en système Mixture-of-Experts (MoE), ce qui lui permet de n'activer que les ressources nécessaires à chaque instant. Selon NVIDIA, cette conception permet une inférence jusqu'à cinq fois plus rapide que certains modèles ouverts concurrents, tout en réduisant le coût des tâches agentiques complexes jusqu'à 30 %. Sur les benchmarks de productivité pour agents IA, Nemotron 3 Ultra atteint 91 %, avec des résultats solides également sur le suivi d'instructions, le travail professionnel et la gestion de très longs contextes. Le modèle est disponible dès maintenant et optimisé pour les frameworks Hermes Agent, LangChain et OpenClaw. Ce lancement marque un pari stratégique clair de NVIDIA sur le marché des agents IA autonomes, considéré comme la prochaine rupture majeure du secteur. Contrairement à un chatbot classique, un agent IA peut planifier ses actions en séquence, utiliser des outils externes, corriger ses erreurs en cours d'exécution et mener des tâches complexes avec une intervention humaine minimale. En rendant un modèle de cette envergure accessible en open source, NVIDIA permet aux développeurs de le modifier, l'affiner et l'intégrer dans des projets de programmation, de recherche ou d'automatisation sans dépendance à une API propriétaire. C'est un argument de poids face aux modèles fermés de OpenAI ou Anthropic, et une invitation directe aux entreprises souhaitant garder le contrôle de leur infrastructure IA. NVIDIA s'inscrit dans une course effrénée au modèle frontier open source qui s'est intensifiée depuis que Meta a popularisé le format avec la série LLaMA. L'entreprise, dont la domination sur le matériel GPU lui confère une position unique, cherche désormais à peser aussi sur la couche logicielle et modèles. Nemotron 3 Ultra n'est toutefois pas sans limites : sur des benchmarks spécialisés en programmation ou en planification à très long terme, des modèles comme GLM 5.1 ou Kimi K2.6 conservent des avantages mesurables. Aucun acteur ne détient encore la formule universelle pour les agents autonomes, et la compétition reste ouverte. Les prochains mois diront si Nemotron 3 Ultra trouve une adoption réelle dans les projets d'infrastructure IA, ou s'il reste une vitrine de puissance technique dans un catalogue déjà très encombré.

UELes développeurs et entreprises européens peuvent déployer Nemotron 3 Ultra en local sans dépendance à une API propriétaire américaine, ce qui s'inscrit dans les enjeux de souveraineté numérique portés par l'UE.

💬 NVIDIA avait les GPU, ils veulent maintenant les modèles aussi. L'architecture MoE, la compatibilité native LangChain et Hermes Agent, 550 milliards de paramètres sans dépendance à une API fermée : pour les équipes qui cherchent à garder le contrôle de leur infra, l'offre est vraiment difficile à contourner. Sur la prog avancée et la planification longue, GLM 5.1 ou Kimi K2.6 gardent une longueur d'avance sur certains benchmarks, mais NVIDIA vient de se poser sérieusement sur la couche modèle, pas juste sur le silicium.

LLMsActu
1 source
Microsoft veut rendre les utilisateurs accros à son agent IA Scout
257Next INpact 

Microsoft veut rendre les utilisateurs accros à son agent IA Scout

Microsoft a présenté Scout lors de sa conférence Build 2026, un agent IA autonome et permanent conçu pour s'intégrer profondément dans l'écosystème Microsoft 365. Contrairement à Copilot, qui répond à des sollicitations ponctuelles, Scout agit de manière proactive : il surveille Teams, Outlook, OneDrive, SharePoint, le calendrier et les e-mails pour anticiper les besoins de l'utilisateur. Concrètement, il peut repérer des réunions importantes, organiser automatiquement des rendez-vous, bloquer des créneaux dans l'agenda pour boucler un projet, préparer des documents avant une réunion ou signaler qu'une décision traîne et risque de faire déraper un planning. Scout possède aussi sa propre identité traçable : toutes ses actions sont journalisées et les opérations critiques nécessitent une validation humaine. Selon des documents internes publiés par 404media, plus de 1 000 employés Microsoft l'utilisent déjà, dont le PDG Satya Nadella. L'agent est pour l'instant en aperçu privé, mais le document interne révèle qu'il s'est imposé comme "l'un des outils internes les plus demandés chez Microsoft, sans annonce officielle, sans marketing". Cette approche représente un changement de paradigme dans l'usage professionnel de l'IA. Là où Copilot restait un assistant réactif, Scout ambitionne de devenir un collaborateur permanent qui apprend les habitudes de travail, identifie les projets prioritaires et anticipe les tâches récurrentes. Pour les entreprises clientes de Microsoft 365, cela signifie un agent qui réduit la charge cognitive des équipes en automatisant la coordination et la gestion du temps, deux des principaux goulots d'étranglement dans les organisations. L'enjeu commercial est considérable : Microsoft a investi des milliards dans ses infrastructures IA et cherche à transformer cet investissement en adoption massive au sein des entreprises. Ce qui rend le lancement de Scout particulièrement significatif, c'est la technologie qui le propulse : OpenClaw, une bibliothèque open source devenue une référence dans le monde des agents autonomes capables de manipuler des applications, des fichiers et des services en continu. Ironie du calendrier, Microsoft avertissait encore en février 2026 des risques de sécurité liés à OpenClaw, jugeant la technologie trop risquée pour les environnements d'entreprise en raison de ses privilèges étendus. L'éditeur a depuis changé de position et s'engage désormais à contribuer directement au projet, affirmant qu'il va "ajouter la sécurité, la gouvernance et l'intégration Microsoft 365" à la base existante. Ce revirement contraste avec l'approche de Meta, qui développe sa propre alternative propriétaire baptisée Hatch depuis qu'OpenAI a recruté Peter Steinberger, le créateur d'OpenClaw. Microsoft choisit l'intégration là où Meta choisit la bifurcation, un pari qui pourrait s'avérer décisif dans la course aux agents d'entreprise.

UEMicrosoft 365 étant massivement déployé dans les entreprises françaises et européennes, l'arrivée de Scout soulève des questions concrètes pour les DSI sur la gouvernance d'agents IA autonomes ayant accès aux données internes.

💬 En février, Microsoft nous expliquait qu'OpenClaw était trop dangereux pour les environnements d'entreprise. Quatre mois après, c'est la même techno qui fait tourner Scout en prod chez Satya Nadella, sans annonce officielle, juste des gens qui l'adoptent en interne. Ce revirement, ça en dit plus sur la pression concurrentielle que sur une vraie conviction technique.

OutilsOutil
1 source
Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?
258Le Big Data 

Ideogram 4.0 affiche des performances record : le nouveau roi des IA d’image open source ?

Ideogram a lancé le 3 juin 2026 la version 4.0 de son modèle de génération d'images, et les chiffres publiés par la startup canadienne ont rapidement retenu l'attention de la communauté. Sur Design Arena, plateforme de comparaison indépendante basée sur des duels à l'aveugle entre générateurs d'images, Ideogram 4.0 atteint un score Elo de 1285, devançant de plus de 100 points des concurrents directs comme HunyuanImage de Tencent ou Gemini 3 Flash Image Gen de Google. Le modèle repose sur 9,3 milliards de paramètres et introduit une architecture d'entrée originale : les prompts sont fournis sous forme de descriptions JSON structurées plutôt qu'en texte libre, ce qui permet de spécifier des palettes de couleurs précises, des positions d'éléments via coordonnées, et de dissocier le contenu textuel de son style graphique. Disponible dès aujourd'hui sur les plans Ideogram et via API, le modèle est également distribué en poids ouverts sous licence non commerciale, avec une intégration native dans ComfyUI. Ce qui distingue Ideogram 4.0 de ses concurrents n'est pas uniquement la qualité esthétique globale, mais sa maîtrise de la typographie dans les images, l'un des défis les plus persistants de la génération visuelle par IA. Avec un taux de réussite de 47,9 % évalué par des designers professionnels pour la génération de texte lisible et bien intégré, le modèle s'adresse directement aux usages professionnels : création d'affiches, de logos, de visuels marketing ou de contenus éditoriaux. Pour les designers et créateurs de contenu, cette précision change concrètement le flux de travail : il devient possible de produire un visuel complet sans repasser par Photoshop pour corriger une typographie défaillante. Pour les développeurs, les poids ouverts permettent un déploiement local et un fine-tuning sur des données propriétaires, sans dépendance à une API tierce. Ideogram, fondé à Toronto en 2023 par d'anciens chercheurs de Google Brain, s'était déjà imposé comme une référence pour la génération de texte dans les images avec ses versions précédentes, mais restait en retrait face aux modèles fermés de Midjourney ou Adobe Firefly sur la qualité visuelle globale. Ce lancement en open weights s'inscrit dans une tendance plus large où les laboratoires misent sur l'ouverture pour accélérer l'adoption et construire un écosystème de développeurs fidèles, une stratégie que Meta a popularisée avec LLaMA dans le domaine du texte. La vraie question reste la durabilité de l'avance d'Ideogram : Stability AI, Black Forest Labs (auteur de FLUX) et les équipes de Tencent travaillent sur des modèles comparables, et les benchmarks Elo peuvent évoluer vite. Les prochains mois diront si Ideogram 4.0 s'impose comme standard ou si la course reste ouverte.

UELes poids ouverts sous licence non commerciale permettent aux développeurs et chercheurs européens de déployer le modèle localement sans dépendance à une API tierce, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

💬 La typo dans les images, c'était le vrai problème depuis le début. 47,9% de réussite sur du texte lisible évalué par des designers pros, ça change la donne en production, et le format JSON pour spécifier palette et positions rend le truc plus prévisible qu'un prompt texte classique. Les poids ouverts non commerciaux, c'est un bon signal, mais faut pas oublier que FLUX et les équipes Tencent ne dorment pas.

CréationOpinion
1 source
Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM
259Ars Technica AI 

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google a annoncé le lancement de Gemma 4 12B, un nouveau modèle de langage open source conçu pour fonctionner sur des ordinateurs portables grand public disposant de 16 Go de RAM ou de VRAM. Ce modèle vient combler un vide dans la gamme Gemma 4 lancée en avril 2026, qui comprenait deux modèles optimisés pour mobile (E2B et E4B) et deux modèles pour usages intensifs (26B Mixture of Experts et 31B Dense). Avec ses 12 milliards de paramètres, Gemma 4 12B se positionne entre ces deux extrêmes et adopte la licence Apache 2.0 ouverte introduite lors du lancement de la famille. Ce modèle représente une avancée concrète pour quiconque souhaite faire tourner un LLM performant en local sans investir dans du matériel spécialisé. Son empreinte mémoire est environ deux fois inférieure à celle du Gemma 4 26B MoE, et Google affirme que ses performances sur les benchmarks restent proches de ce modèle plus lourd. Pour les développeurs, chercheurs, ou professionnels qui veulent expérimenter avec l'IA générative en dehors du cloud, sans dépenser des dizaines de milliers d'euros en accélérateurs matériels dédiés, Gemma 4 12B ouvre une porte que les modèles précédents laissaient fermée. Le contexte est celui d'une course à la puissance de calcul qui a fait exploser les prix de la mémoire vive, une dynamique à laquelle Google contribue directement avec ses propres infrastructures cloud. Mais en parallèle, plusieurs grands acteurs de l'IA, dont Meta avec sa famille Llama, misent aussi sur des modèles locaux légers pour élargir l'adoption. Google se positionne dans cette tendance avec des modèles Gemma pensés pour tourner sans connexion et sans coût d'inférence. La prochaine étape sera d'observer comment la communauté open source s'empare de Gemma 4 12B, notamment via des plateformes comme Hugging Face ou Ollama, pour affiner, tester et intégrer ce modèle dans des applications concrètes.

UELes développeurs et chercheurs européens peuvent désormais faire tourner un LLM performant en local sur un ordinateur grand public de 16 Go de RAM, sans frais cloud ni matériel spécialisé.

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go
260MarkTechPost 

Google DeepMind publie Gemma 4 12B : un modèle multimodal sans encodeur avec audio natif, utilisable sur un PC portable 16 Go

Google DeepMind a publié Gemma 4 12B, un modèle multimodal dense de 12 milliards de paramètres disponible sous licence Apache 2.0. Contrairement à ses prédécesseurs, ce modèle supprime totalement les encodeurs séparés pour la vision et l'audio : les images, vidéos et sons sont traités directement par le décodeur principal, sans couche intermédiaire dédiée. Concrètement, l'encodeur visuel de 550 millions de paramètres et l'encodeur audio de 300 millions de paramètres présents dans les modèles précédents disparaissent au profit d'une projection légère : les images sont découpées en blocs de 48x48 pixels projetés via une simple multiplication matricielle, et l'audio 16 kHz est découpé en trames de 40 ms converties directement en embeddings. Le modèle tourne sur un ordinateur portable grand public disposant de 16 Go de VRAM ou de mémoire unifiée, y compris les Mac Apple Silicon, et est compatible avec les outils les plus répandus : llama.cpp, Ollama, vLLM, MLX, LM Studio et Unsloth. Cette architecture unifiée change concrètement la façon dont on fine-tune et déploie des modèles multimodaux. Puisqu'il n'existe plus d'encodeurs figés, une adaptation via LoRA ou un entraînement complet met à jour simultanément le traitement du texte, de la vision et de l'audio en une seule passe, ce qui simplifie considérablement le pipeline d'entraînement. Sur le plan des performances, Google DeepMind annonce que le 12B s'approche du modèle Gemma 4 26B Mixture of Experts sur les benchmarks standards, avec moins de la moitié de l'empreinte mémoire. Le modèle est capable de reconnaissance vocale native, de diarisation (distinction des locuteurs), de compréhension vidéo, et de raisonnement agentique multi-étapes en local, sans dépendance à un service cloud. Une démonstration a montré l'analyse d'un segment de 5 minutes du keynote Google I/O à partir de 313 images à 1 FPS, avec un budget de 70 tokens visuels par image. Gemma 4 12B s'inscrit dans une stratégie claire de Google DeepMind : combler l'écart entre les petits modèles embarqués comme le E4B et les architectures plus lourdes comme le 26B MoE, tout en poussant l'open source comme levier de diffusion. La suppression des encodeurs n'est pas qu'un choix technique : elle réduit la latence au démarrage puisque le décodeur commence le traitement sans attendre qu'un encodeur termine, ce qui est critique pour les usages agentiques en temps réel. Le modèle est disponible sur Hugging Face sous l'identifiant google/gemma-4-12B-it et sur Kaggle. Dans un contexte où Meta, Mistral et Qwen multiplient les sorties open source performantes à l'edge, ce Gemma 4 12B positionne Google sur le terrain des modèles multimodaux locaux, un segment jusqu'ici dominé par des solutions propriétaires ou des architectures nécessitant du matériel serveur.

UECe modèle open source sous licence Apache 2.0 permet aux développeurs et entreprises européens de déployer localement un modèle multimodal avancé sans dépendance à un service cloud américain, facilitant la conformité avec les exigences de souveraineté des données du RGPD.

LLMsOpinion
1 source
Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré
261The Decoder 

Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré

Ideogram a publié la version 4.0 de son modèle de génération d'images, en le rendant disponible en open-weight, c'est-à-dire avec les poids accessibles publiquement. Cette nouvelle version introduit une résolution native de 2K, un contrôle par boîtes englobantes permettant de positionner précisément les éléments visuels, et des capacités améliorées de rendu du texte dans les images générées. Sur le classement DesignArena, Ideogram 4.0 se hisse à la première place parmi tous les modèles ouverts disponibles. Seuls les systèmes fermés d'OpenAI et de Google le dépassent encore. L'usage commercial reste toutefois soumis à une licence payante. Cette publication marque une avancée significative pour l'écosystème open-weight dans la génération d'images. Jusqu'ici, les modèles capables de produire du texte lisible et correctement intégré dans une image restaient une faiblesse notoire des systèmes ouverts. Proposer la 2K en natif élargit les possibilités pour les créatifs, les designers et les développeurs qui cherchent à intégrer ces outils dans des pipelines de production professionnels sans dépendre entièrement de plateformes fermées. Ideogram s'est imposé ces derniers mois comme l'un des compétiteurs sérieux face à Midjourney, DALL-E et Imagen de Google, notamment grâce à sa maîtrise du rendu typographique. Le choix de l'open-weight, une stratégie popularisée par Meta avec Llama, vise à élargir l'adoption et à s'imposer comme référence dans la communauté des développeurs. La restriction commerciale via licence payante permet à Ideogram de préserver un modèle économique tout en bénéficiant de la visibilité de l'open source.

UELes développeurs et créatifs européens peuvent intégrer ce modèle open-weight dans leurs pipelines de production sans dépendre de plateformes américaines fermées.

CréationOpinion
1 source
OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia
262The Information AI 

OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia

OpenAI envisage de rendre public un outil logiciel développé en interne qui permettrait d'exécuter des charges de travail d'intelligence artificielle sur des puces de différents fabricants, sans se limiter à celles de Nvidia. C'est Sachin Katti, responsable des infrastructures et du calcul chez OpenAI, qui a évoqué cette possibilité lors d'une table ronde. OpenAI a récemment conclu des accords pour utiliser les puces d'Amazon, de Cerebras et d'AMD, tout en développant ses propres puces personnalisées. Katti a décrit cet outil comme une "capacité d'optimisation agentique" et affirmé vouloir "rendre cette capacité disponible pour le monde entier". Il a également indiqué qu'OpenAI disposait déjà d'échantillons précoces des prochaines puces Vera Rubin de Nvidia, dont le déploiement est attendu d'ici fin 2025, et prévoit de les intégrer à ses entraînements d'ici la fin de l'année. Si OpenAI publie effectivement cet outil, les conséquences pour Nvidia pourraient être significatives. L'avantage concurrentiel du géant des semi-conducteurs repose en grande partie sur CUDA, son écosystème propriétaire de compilateurs, de bibliothèques et d'outils d'optimisation que la quasi-totalité des grands développeurs d'IA utilisent pour faire tourner leurs logiciels sur ses puces. Un outil capable d'abstraire cette dépendance, c'est-à-dire de permettre aux équipes d'OpenAI de lancer des charges de travail sans se soucier du matériel sous-jacent, ouvrirait la voie à une concurrence matérielle que Nvidia a jusqu'ici réussi à étouffer grâce à son écosystème logiciel. Katti a également suggéré que l'IA elle-même pourrait générer du code optimisé pour différentes architectures de puces, réduisant encore davantage la valeur de l'exclusivité de CUDA. Cette annonce s'inscrit dans une tendance de fond que l'on observe chez tous les grands laboratoires d'IA : OpenAI, Anthropic et Meta cherchent tous à diversifier leurs fournisseurs de calcul pour ne pas dépendre d'un seul acteur. Katti a résumé cette évolution par une formule claire : "Nous allons nous retrouver dans un monde très hétérogène." PyTorch, le framework développé à l'origine par Meta, avait déjà commencé à éroder l'hégémonie de CUDA en facilitant l'écriture de code pour plusieurs types de puces. Des startups proposent désormais des outils de traduction automatique de ce code vers des instructions bas niveau adaptées directement au matériel. OpenAI, en s'inspirant du système Borg de Google qui permet de gérer des charges de calcul sur des infrastructures hétérogènes, ambitionne d'accélérer ce mouvement à l'échelle de l'ensemble de l'industrie.

UESi cet outil est publié, les laboratoires et entreprises européens pourraient diversifier leurs fournisseurs de puces IA au-delà de Nvidia, réduisant ainsi une dépendance stratégique coûteuse.

InfrastructureOpinion
1 source
Microsoft Build 2026 : ce qu’il faut attendre — et ce qu’il ne faut pas espérer
263Le Big Data 

Microsoft Build 2026 : ce qu’il faut attendre — et ce qu’il ne faut pas espérer

Microsoft Build 2026 ouvre ses portes les 2 et 3 juin au Fort Mason Center de San Francisco, avec un accès en ligne gratuit pour les développeurs du monde entier. Satya Nadella prendra la parole en keynote dès 9h30 heure du Pacifique. L'édition 2026 tourne résolument autour de l'IA agentique : des systèmes capables non plus seulement de répondre à des questions, mais d'agir de manière autonome sur des tâches complexes, en coordonnant plusieurs agents entre eux. Azure AI Foundry est présenté comme le socle technique de ces architectures multi-agents. GitHub Copilot devrait lui aussi franchir un cap, avec des capacités renforcées de débogage, de tests et de correction de code. Reuters signale en parallèle que Microsoft prépare de nouveaux modèles maison, dont un orienté code, pour alimenter Copilot. Côté Windows, Windows AI Foundry permettrait aux applications d'exécuter certains modèles directement sur les PC, via NPU, GPU ou CPU, sans passer par le cloud. Ces annonces dépassent largement le cercle des développeurs. Si les briques agentiques déployées sur Azure finissent intégrées dans Excel, Teams ou Outlook, elles modifieront concrètement les flux de travail de millions d'utilisateurs en entreprise. L'exécution locale des modèles via Windows AI Foundry présente des avantages tangibles : latence réduite, confidentialité améliorée et fonctionnement hors ligne. Microsoft devrait aussi détailler comment réduire les coûts et les délais du passage des prototypes IA à la production, un point de friction majeur pour les équipes qui cherchent à industrialiser ces outils. L'enjeu est de rendre ces technologies utilisables à grande échelle, pas seulement impressionnantes en démonstration. Microsoft Build 2026 s'inscrit dans une course effrénée entre les grands acteurs technologiques pour imposer leurs plateformes comme infrastructure de référence de la prochaine génération d'applications IA. Google, Amazon et Meta jouent la même partition, et chaque Build est aussi une occasion pour Microsoft de montrer que son investissement massif dans OpenAI et dans Azure se traduit en outils concrets pour les développeurs. Le Windows Agent Framework, pressenti pour transformer les agents IA en fonctionnalités système à part entière, et un Windows Agent Store avec un partage de revenus à 85% pour les éditeurs, témoignent d'une ambition claire : faire de Windows une plateforme agentique native. Ce que Build ne montrera probablement pas : du nouveau matériel Surface, un Windows 12 ou des surprises Xbox. L'événement est avant tout une vitrine pour les outils que Microsoft veut mettre dans les mains des développeurs afin de construire la prochaine vague d'applications IA, dont les effets réels se feront sentir sur les mois qui suivent.

UELes développeurs et entreprises européens utilisant Azure et GitHub Copilot seront directement impactés par les nouvelles capacités agentiques, tandis que l'exécution locale de modèles via Windows AI Foundry pourrait faciliter la conformité RGPD en réduisant les transferts de données vers le cloud.

OutilsOutil
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
264VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
Gemini 3.5 Flash pourrait être assez rapide pour que l'IA générative devienne vraiment utile
265Ars Technica AI 

Gemini 3.5 Flash pourrait être assez rapide pour que l'IA générative devienne vraiment utile

Google a présenté Gemini 3.5 Flash lors de sa conférence I/O 2026, avec un déploiement immédiat sur une large gamme de produits maison. Le modèle succède aux branches 3.0 et 3.1 publiées au cours de l'année écoulée, et Google affirme une fois de plus que sa nouvelle version Flash surpasse le modèle Pro de la génération précédente. Tulsee Doshi, directrice senior de la gestion produit pour Gemini, a précisé que les innovations de Gemini 3.5 Flash sont intégrées dans de multiples produits Google, et que ce lancement n'est qu'un début. Ce qui distingue ce modèle de ses prédécesseurs, selon Google, c'est l'équilibre inédit qu'il atteint entre puissance et efficacité. Gemini 3.5 Flash offrirait un niveau d'intelligence comparable aux meilleurs modèles du marché tout en étant suffisamment économe pour rendre viables les tâches agentiques complexes à grande échelle. Concrètement, cela signifie que des workflows automatisés impliquant plusieurs étapes, de nombreux appels au modèle et un traitement intensif pourraient désormais s'exécuter à un coût et une vitesse acceptables pour un déploiement en production. C'est précisément ce qui avait freiné l'adoption massive des agents IA jusqu'ici. Depuis un an, Google suit une cadence soutenue de mises à jour alternant entre modèles Flash et Pro, chaque nouvelle version Flash étant présentée comme plus performante que le Pro précédent. Cette progression rapide reflète une compétition acharnée avec OpenAI, Anthropic et Meta, tous engagés dans une course à l'efficacité pour rendre l'IA générative économiquement viable à l'échelle industrielle. Le fait que Google intègre Gemini 3.5 Flash directement dans ses produits grand public, plutôt que de le réserver à l'API, suggère une confiance accrue dans la maturité du modèle et une volonté de différencier ses services face à des concurrents qui misent sur des intégrations similaires.

UELes développeurs et entreprises européennes utilisant l'API Gemini bénéficieront de coûts réduits pour les workflows agentiques complexes, sans impact réglementaire ou institutionnel direct.

LLMsOpinion
1 source
Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an
266VentureBeat AI 

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion
1 source
Anthropic et OpenAI captent 89 % des revenus des startups IA
267The Information AI 

Anthropic et OpenAI captent 89 % des revenus des startups IA

Anthropic et OpenAI concentrent désormais 89 % des revenus générés par les 34 principales startups d'intelligence artificielle, selon les données de la base Generative AI Database de The Information. Ensemble, ces 34 entreprises ont atteint un chiffre d'affaires annualisé de près de 80 milliards de dollars, soit 6,6 milliards de dollars par mois, tirés de la vente d'applications IA ou de l'accès aux modèles qui les alimentent. Cette progression représente une hausse de 112 % en seulement six mois, témoignant d'une accélération sans précédent dans le secteur. Cette concentration extrême signifie que les deux géants absorbent la quasi-totalité de la valeur créée par le boom de l'IA générative, laissant à peine 11 % des revenus aux 32 autres startups du classement. Pour les investisseurs, les entreprises clientes et les développeurs, cela réduit considérablement la diversité réelle de l'écosystème malgré l'effervescence apparente du marché. Les acteurs qui ne se sont pas imposés comme fournisseurs d'infrastructure ou de modèles de référence risquent de se retrouver structurellement marginalisés. Cette dynamique s'inscrit dans un marché où la course aux modèles fondamentaux a exigé des capitaux colossaux : OpenAI et Anthropic ont levé respectivement plusieurs dizaines de milliards de dollars ces dernières années. La capacité à déployer massivement et à nouer des partenariats stratégiques avec Microsoft, Google ou Amazon a créé des avantages compétitifs difficiles à surmonter. La question qui se pose désormais est de savoir si une troisième force, qu'il s'agisse de Meta, Mistral ou d'un acteur encore émergent, peut briser ce duopole avant qu'il ne se cristallise définitivement.

UELa concentration des revenus entre acteurs américains marginalise Mistral et les alternatives européennes, fragilisant la souveraineté numérique de la France et de l'UE dans les infrastructures IA fondamentales.

💬 89 % pour deux acteurs, c'est le chiffre qui rend tout le discours sur la diversité de l'écosystème IA difficile à tenir. Mistral est dans les 11 % restants, et l'argument souveraineté numérique devient de plus en plus compliqué à défendre quand les deux boîtes qui captent tout ont Microsoft et Google dans leur actionnariat. Ça ne va pas s'inverser tout seul.

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire
268Frandroid 

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire

Nvidia a franchi ce mercredi 13 mai 2026 le seuil des 5 500 milliards de dollars de capitalisation boursière, un record absolu dans l'histoire des marchés financiers. Jamais aucune entreprise n'avait atteint une telle valorisation. Pour mettre ce chiffre en perspective, Nvidia pèse désormais plus d'une fois et demie le PIB annuel de la France, qui s'établit autour de 3 200 milliards de dollars. Le groupe californien, fondé par Jensen Huang, s'est imposé comme le fournisseur incontournable de puces GPU utilisées pour entraîner et faire tourner les modèles d'intelligence artificielle. Cette valorisation record illustre l'appétit insatiable des marchés pour tout ce qui touche à l'IA générative. Nvidia capte une part écrasante des dépenses d'infrastructure des géants technologiques, Microsoft, Google, Amazon, Meta, qui investissent des centaines de milliards de dollars dans leurs datacenters. Ses puces H100, H200 et Blackwell sont en rupture chronique depuis deux ans, ce qui confère à l'entreprise un pouvoir de fixation des prix exceptionnel et des marges brutes dépassant 70 %. Nvidia a profité d'une longueur d'avance stratégique grâce à CUDA, son écosystème logiciel développé depuis 2006, qui a rendu ses GPU quasi indétrônables dans la recherche et l'industrie IA. Ses concurrents, AMD et Intel côté puces, ou les solutions maison de Google (TPU) et Amazon (Trainium), peinent encore à rogner sa domination. La question qui se pose désormais est de savoir si cette croissance est soutenable, ou si un ralentissement des investissements en IA pourrait provoquer une correction aussi spectaculaire que l'ascension.

UELes startups et entreprises européennes développant des solutions IA restent structurellement dépendantes des puces Nvidia, dont les prix élevés et la pénurie chronique renchérissent le coût d'accès à l'infrastructure IA sur le marché européen.

InfrastructureOpinion
1 source
OpenAI va économiser 97 milliards de dollars d'ici 2030 grâce à son nouvel accord avec Microsoft
269The Information AI 

OpenAI va économiser 97 milliards de dollars d'ici 2030 grâce à son nouvel accord avec Microsoft

OpenAI a conclu un nouvel accord avec Microsoft qui lui permettra d'économiser jusqu'à 97 milliards de dollars d'ici 2030. C'est la directrice financière Sarah Friar qui supervise cette renégociation majeure, dont les détails n'avaient jusqu'ici pas été rendus publics. Selon les termes initiaux du partenariat, OpenAI devait reverser 20 % de ses revenus à Microsoft, une clause qui aurait pu représenter 135 milliards de dollars si la société atteignait ses objectifs de croissance à long terme. Le nouvel accord réduit drastiquement cette obligation, limitant la part due à Microsoft à une fraction de ce montant. Cet allègement financier est considérable pour OpenAI, dont les ambitions d'expansion nécessitent des capitaux massifs. La société, valorisée à plus de 300 milliards de dollars après sa dernière levée de fonds, doit financer le développement de ses modèles, l'infrastructure de calcul et l'internationalisation de ChatGPT. Réduire la charge liée au partage de revenus libère des marges de manœuvre significatives pour investir dans la recherche et rester compétitif face à Google, Anthropic et Meta. Le partenariat entre OpenAI et Microsoft remonte à 2019, quand le géant de Redmond a injecté un premier milliard de dollars dans la startup. Depuis, Microsoft a engagé plus de 13 milliards de dollars et intégré les technologies d'OpenAI dans ses produits phares, de Copilot à Azure. La renégociation de cet accord de partage de revenus reflète le rapport de force qui a évolué entre les deux entités, OpenAI cherchant à préserver son autonomie financière à mesure qu'elle se transforme en une entreprise à but lucratif.

💬 Le rapport de force a changé de camp. Quand Microsoft a posé son premier milliard en 2019, les termes du deal reflétaient exactement ça, OpenAI avait besoin d'eux. À 300 milliards de valorisation, continuer à reverser 20% des revenus à Redmond, c'était une anomalie qui ne pouvait pas tenir.

BusinessActu
1 source
Intel pourrait fabriquer les futures puces IA d’Apple
270Le Big Data 

Intel pourrait fabriquer les futures puces IA d’Apple

Apple et Intel auraient conclu un accord préliminaire permettant au géant des semi-conducteurs américain de fabriquer une partie des futures puces IA d'Apple, selon le Wall Street Journal. Les deux groupes auraient négocié pendant plus d'un an avant d'aboutir à ce rapprochement, révélé début mai 2026. La réaction des marchés a été immédiate : l'action Intel a bondi de près de 14 % à l'annonce, tandis qu'Apple gagnait environ 2 %. Le partenariat débuterait par les futures puces de la série M destinées aux Mac et aux iPad, les puces iPhone pouvant suivre dans un second temps. Côté production, l'usine d'Intel à Chandler, en Arizona, fabrique déjà des puces basées sur son procédé 18A, la technologie la plus avancée du groupe. Apple pourrait toutefois attendre la génération suivante, baptisée 18A-P, dont la mise en production de masse est attendue dès l'année prochaine selon l'analyste Ben Bajarin de Creative Strategies. Cet accord représenterait bien plus qu'un simple contrat de sous-traitance. Pour Apple, il s'agit de réduire une dépendance quasi totale à TSMC, le fondeur taïwanais qui produit aujourd'hui l'essentiel de ses puces les plus avancées. La montée en puissance de l'IA générative a fait exploser la demande mondiale de capacités de fabrication : Nvidia, Microsoft, Amazon, Google et Meta mobilisent déjà une part croissante des lignes de production les plus avancées, rendant la diversification stratégique urgente pour Apple. Bajarin qualifie Intel de "seule alternative crédible" capable de devenir une seconde source industrielle à grande échelle pour Cupertino. Cette diversification permettrait également de limiter l'exposition aux risques géopolitiques liés aux tensions autour de Taïwan, qui font peser une menace structurelle sur l'approvisionnement en puces. Pour Intel, la portée symbolique d'un tel contrat serait considérable. L'entreprise a longtemps peiné à convaincre des clients externes de lui confier des puces critiques, après des années de retards technologiques et de problèmes de rendement dans son activité de fonderie. Accrocher Apple à son carnet de commandes équivaudrait à valider publiquement que cette division est désormais compétitive face aux leaders asiatiques. Intel accélère ses investissements industriels aux États-Unis dans ce but. Cette alliance potentielle s'inscrit dans une bataille plus large : aujourd'hui, seules trois entreprises disposent des technologies nécessaires pour produire les semi-conducteurs les plus avancés, TSMC, Intel et Samsung. Apple aurait d'ailleurs également visité l'usine texane de Samsung pour évaluer ses capacités, signe que la guerre mondiale des usines IA s'intensifie et que les géants de la tech cherchent activement à multiplier leurs options industrielles.

UECe rapprochement Apple-Intel accélère la consolidation des capacités de fabrication de semi-conducteurs avancés aux États-Unis, rendant plus urgente la question de la souveraineté industrielle européenne face à une dépendance structurelle aux fondeurs extra-européens que l'European Chips Act cherche précisément à réduire.

💬 Apple qui diversifie ses fondeurs, c'est pas une surprise, mais que ce soit Intel qui décroche le contrat, là par contre je l'aurais pas parié il y a deux ans. Les retards, les problèmes de rendement, le fiasco de leur division fonderie... et pourtant le 18A semble enfin tenir la route, assez pour qu'Apple prenne le risque. Reste à voir si les lignes de production suivent quand il faudra livrer des dizaines de millions de puces.

Les coûts croissants de l'IA posent problème même aux investisseurs
271The Information AI 

Les coûts croissants de l'IA posent problème même aux investisseurs

Les coûts de l'intelligence artificielle commencent à peser lourdement, y compris sur les investisseurs en capital-risque. Un associé d'un grand fonds de venture capital a révélé que cinq membres de son équipe, équipés de comptes Claude Enterprise à facturation à l'usage, ont généré des dépenses atteignant 1 000 dollars par jour et par personne ces dernières semaines. À ce rythme, la firme aurait pu dépenser plus de 100 000 dollars par mois uniquement pour ces quelques utilisateurs intensifs. Le problème ne se limite pas à ce fonds : Uber, par exemple, a épuisé l'intégralité de son budget IA pour 2026 en quelques mois seulement. L'origine du problème est comportementale autant que tarifaire. Les employés avaient pris l'habitude de solliciter les modèles les plus puissants et les plus coûteux pour des tâches banales, comme rédiger des réponses à des emails. Cette tendance à utiliser la technologie la plus avancée disponible par défaut, indépendamment de la complexité réelle de la tâche, multiplie les coûts sans nécessairement améliorer les résultats. L'associé a depuis imposé à son équipe de basculer vers des modèles moins chers ou open source pour les tâches courantes, réduisant ainsi la facture. Ce phénomène illustre une tension croissante dans l'industrie IA : les fournisseurs comme Anthropic ou OpenAI monétisent leurs modèles les plus sophistiqués à des tarifs élevés, tandis que les entreprises clientes peinent à maîtriser leur consommation. Pour les fonds d'investissement, qui conseillent leurs portefeuilles sur la maîtrise des coûts technologiques, se retrouver eux-mêmes victimes du problème est paradoxal. La montée en puissance des modèles open source compétitifs, notamment ceux de Meta ou Mistral, offre une alternative crédible pour les usages non critiques, et pourrait accélérer une segmentation du marché entre tâches premium et tâches courantes.

UELa montée en puissance de Mistral (France) comme alternative open source crédible représente une opportunité concrète pour les entreprises européennes de réduire leurs coûts IA sur les tâches courantes.

BusinessOpinion
1 source
Un plan d'action pour utiliser l'IA au service de la démocratie
272MIT Technology Review 

Un plan d'action pour utiliser l'IA au service de la démocratie

Depuis l'invention de l'imprimerie jusqu'à l'essor des médias de masse, chaque révolution de l'information a reconfiguré les formes de gouvernance. Nous entrons aujourd'hui dans une transformation d'une ampleur comparable : l'intelligence artificielle est en train de devenir le principal intermédiaire par lequel les citoyens se forment une opinion et participent à la vie démocratique. Les moteurs de recherche sont déjà largement pilotés par des algorithmes, mais la prochaine génération d'assistants IA ira bien plus loin : elle synthétisera l'information, la mettra en cadre et la présentera avec autorité. Pour un nombre croissant de personnes, interroger une IA deviendra le réflexe par défaut pour se faire une opinion sur un candidat, une loi ou une personnalité publique. Parallèlement, les agents IA personnels commencent à agir au nom de leurs utilisateurs : ils mènent des recherches, rédigent des courriers, soutiennent des causes, et peuvent même orienter des décisions aussi concrètes que le vote sur un référendum ou la réponse à un courrier administratif. Ce double mouvement pose des risques considérables pour les démocraties. L'expérience des réseaux sociaux a déjà montré qu'un algorithme optimisé pour l'engagement, sans agenda politique explicite, peut produire polarisation et radicalisation. Un agent IA qui connaît vos préférences et vos angoisses, conçu pour vous garder actif, expose aux mêmes dérives, avec une subtilité supplémentaire : il se présente comme votre allié, parle en votre nom, et gagne précisément en confiance par cette proximité. À l'échelle collective, les effets deviennent encore plus imprévisibles. Des recherches montrent que des agents individuellement neutres peuvent, en interagissant à grande échelle, générer des biais collectifs. Un espace public où chacun dispose d'un agent personnalisé, parfaitement accordé à ses convictions existantes, n'est plus un espace public : c'est un archipel de mondes privés, chacun cohérent en lui-même, mais collectivement hostile à la délibération partagée qu'exige la démocratie. Cette transformation ne s'annonce pas : elle est déjà en cours, portée par des choix de conception effectués aujourd'hui dans les laboratoires et les départements produit des grandes entreprises technologiques. Les institutions démocratiques ont été conçues pour un monde où le pouvoir se construisait différemment, à une vitesse différente. Trois mutations simultanées les bousculent désormais : la façon dont les citoyens accèdent à la vérité, la façon dont ils exercent leur agentivité civique, et la façon dont se structurent les délibérations collectives. Des acteurs comme Google, OpenAI, Anthropic ou Meta façonnent, souvent sans en avoir pleinement conscience, les nouvelles infrastructures de l'opinion publique. La question n'est plus de savoir si l'IA redéfinira la citoyenneté, mais si les sociétés se donneront les moyens d'en orienter les conséquences avant que les règles du jeu ne soient écrites sans elles.

UELes institutions démocratiques européennes doivent adapter leur cadre réglementaire face aux agents IA qui médiatisent l'opinion publique et risquent de fragmenter la délibération civique des citoyens.

💬 Le problème avec les réseaux sociaux, c'était un algo sans visage qui optimisait dans le vide. Là, c'est un agent qui te connaît, qui parle en ton nom, et qui gagne ta confiance précisément parce qu'il est "de ton côté". C'est une marche de plus, et pas la plus petite.

SociétéOpinion
1 source
Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google
273The Information AI 

Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google

Lors de sa dernière conférence téléphonique sur ses résultats financiers, Google a annoncé qu'il prévoit de vendre ses puces TPU (tensor processing units) directement à des clients entreprises pour une utilisation dans leurs propres centres de données, une rupture majeure avec une stratégie qui cantonnait jusqu'ici ces accélérateurs quasi exclusivement à Google Cloud. Mais au même moment, trois dirigeants de grands acteurs du "neocloud" ont clairement indiqué ne pas avoir l'intention d'adopter les TPU dans un avenir proche. Chuck Fisher, directeur financier de Lambda, a déclaré lors d'une conférence de The Information : "Nous saignons vert chez Lambda", allusion directe aux couleurs d'Nvidia. Marc Boroditsky, directeur commercial de Nebius, a confirmé que 99 % de la demande que reçoit son entreprise porte sur des GPU Nvidia, précisant que les rares clients qui s'enquièrent des TPU sont souvent d'anciens salariés de Google. Nick Robbins, vice-président de CoreWeave, a quant à lui noté que les principaux utilisateurs de TPU, Google, Anthropic et Meta, sont aussi parmi les plus gros acheteurs de GPU, ce qui conforte la rentabilité de miser sur Nvidia. Ces déclarations révèlent le défi structurel auquel Google se heurte pour faire des TPU une alternative crédible aux GPU d'Nvidia. Les neoclouds, canal de distribution naturel pour ce type de matériel, sont profondément liés à Nvidia : la firme de Santa Clara est à la fois leur principal fournisseur, un investisseur clé et souvent un important client. La logique économique est implacable : lorsque 99 % du marché réclame une technologie précise, parier sur une alternative représente un risque difficile à justifier. Chaque mégawatt alloué fait l'objet d'un calcul de rendement ajusté au risque, et dans ce calcul, Nvidia l'emporte largement. Confronté au désintérêt des grands neoclouds, Google a réorienté sa stratégie de distribution. Après avoir tenté d'intégrer ses TPU aux infrastructures de CoreWeave et de Crusoe, sans succès, la firme a conclu un accord avec Fluidstack, une startup encore peu connue dans le secteur, pour déployer des TPU au bénéfice d'Anthropic, en garantissant des milliards de dollars en baux et en dettes liés à ces déploiements. Le PDG Sundar Pichai a confirmé que Google vise un "groupe sélectif de clients", notamment dans les services financiers et l'IA de pointe, plutôt que de chercher à rendre ses puces aussi répandues que les GPU. Sur le plan financier, Google négocie avec de grands fonds d'investissement pour créer des coentreprises et des véhicules ad hoc permettant d'acheter des TPU et de les louer aux clients finaux, réduisant ainsi sa dépendance aux neoclouds pour la distribution de son matériel propriétaire.

UENebius, acteur neocloud implanté en Europe, confirme que 99 % de la demande de ses clients porte sur des GPU Nvidia, illustrant la dépendance du marché européen à l'égard de ce fournisseur pour l'infrastructure IA.

InfrastructureOpinion
1 source
Big Tech prouve l'efficacité de ses dépenses en infrastructure IA, et augmente quand même la facture
274AI News 

Big Tech prouve l'efficacité de ses dépenses en infrastructure IA, et augmente quand même la facture

Microsoft, Alphabet, Meta et Amazon ont publié leurs résultats trimestriels le même jour, offrant la première vérification à grande échelle du pari colossal qu'elles ont engagé sur l'infrastructure IA. Le verdict est sans ambiguïté : les quatre entreprises ont dépassé les attentes des analystes, et toutes quatre ont simultanément rehaussé leurs prévisions de dépenses en capital pour 2026. Ensemble, elles s'engagent désormais sur une enveloppe totale comprise entre 630 et 650 milliards de dollars pour l'année. Microsoft a enregistré un chiffre d'affaires de 82,9 milliards de dollars au premier trimestre, en hausse de 18 % sur un an, avec une croissance d'Azure à 40 % en devise constante, au-delà des 38,8 % anticipés par le consensus CNBC. Les revenus annualisés liés à l'IA dépassent désormais 37 milliards de dollars. Alphabet a affiché sa plus forte croissance trimestrielle depuis 2022, avec un bond de 63 % pour Google Cloud et un bénéfice net de 62,57 milliards de dollars, en hausse de 81 % sur un an. Meta a de son côté enregistré une croissance de 33 % de ses revenus, à 56,31 milliards de dollars, son rythme le plus rapide depuis 2021. AWS d'Amazon a connu sa croissance la plus rapide en quinze trimestres. Ces chiffres importent parce qu'ils répondent à la question que les marchés posaient depuis des mois : l'infrastructure IA génère-t-elle des retours ? La réponse est oui, mais avec une nuance cruciale. Chez Meta, c'est la plateforme publicitaire Advantage+, dopée à l'IA, qui transforme les investissements en revenus. Chez Microsoft, les obligations de performances commerciales restantes ont bondi de 99 % à 627 milliards de dollars, signe d'une demande entreprise robuste. Chez Alphabet, le PDG Sundar Pichai a lui-même reconnu que la société est "contrainte à court terme par les capacités de calcul", ce qui signifie que la demande dépasse la vitesse de construction. Pourtant, malgré des résultats opérationnels solides, le titre Microsoft a reculé de plus de 3 % en après-marché, preuve que les investisseurs scrutent désormais les dépenses autant que les revenus. Cet épisode s'inscrit dans une dynamique plus large qui s'est accélérée depuis le lancement de ChatGPT fin 2022 : les grandes plateformes technologiques ont transformé leurs bilans en paris sur l'infrastructure IA, convaincues que celui qui construit le plus vite capturera la valeur de la prochaine décennie. Microsoft relève sa prévision de capex annuel à 190 milliards de dollars, bien au-delà des 154,6 milliards attendus. Meta porte la sienne à 125-145 milliards, en partie à cause de la hausse des prix des composants. Alphabet annonce que ses dépenses 2027 "augmenteront significativement" par rapport à 2026. La question ouverte est celle de la soutenabilité : les revenus publicitaires et cloud peuvent-ils continuer à financer des engagements qui rivalisent avec le PIB de certains États, à mesure que la concurrence entre Google, Microsoft, Meta et Amazon s'intensifie sur chaque couche de la pile IA ?

UELes engagements massifs de capex des géants américains conditionnent l'offre et les tarifs cloud IA accessibles aux entreprises européennes à moyen terme.

BusinessOpinion
1 source
Les IPO de SpaceX et d'entreprises IA font peser des risques sur l'essor du secteur, selon des investisseurs
275The Information AI 

Les IPO de SpaceX et d'entreprises IA font peser des risques sur l'essor du secteur, selon des investisseurs

Lors d'un événement sur le financement de l'IA organisé par The Information à New York ce lundi, des investisseurs ont mis en garde contre les risques que font peser plusieurs introductions en bourse majeures sur l'ensemble de l'écosystème IA. SpaceX, Anthropic et OpenAI pourraient toutes entrer en bourse au cours de la même année civile, ce qui représenterait, selon Alexa von Tobel, fondatrice et associée gérante d'Inspired Capital, "trois des plus grandes IPO de l'histoire, potentiellement toutes dans le même calendrier". À l'heure où les grandes entreprises tech et IA cherchent à lever des centaines de milliards de dollars en capitaux propres et en dette pour construire des centres de données, la pression sur ces opérations est considérable. Le risque est simple : si ces introductions en bourse déçoivent les marchés, l'enthousiasme général pour l'investissement dans l'IA pourrait se refroidir brutalement. Von Tobel a utilisé l'expression "cold water on reality" pour décrire ce scénario, où de mauvaises performances boursières rendraient les capitaux environnants "plus prudents". Dans un secteur où la confiance des investisseurs alimente directement la construction d'infrastructures massives, un signal négatif sur les marchés publics aurait des répercussions bien au-delà des seules entreprises concernées, affectant potentiellement des dizaines de milliards de dollars de projets de data centers en cours. Ce contexte s'inscrit dans une période d'investissement sans précédent dans l'infrastructure IA : Microsoft, Google, Amazon et Meta ont annoncé des plans d'investissement totalisant plusieurs centaines de milliards de dollars pour 2025 et 2026. OpenAI et Anthropic, encore privées, sont valorisées respectivement à plusieurs centaines de milliards de dollars, et leur entrée en bourse constituerait un test grandeur nature de la confiance du marché public dans la rentabilité future de l'IA générative. La performance de ces IPO servira de baromètre pour toute une génération d'investissements technologiques à venir.

UEUn échec ou une déception de ces IPO américaines pourrait refroidir l'appétit des investisseurs européens pour l'IA et ralentir le financement des startups et projets d'infrastructure IA en Europe.

BusinessOpinion
1 source
Google prêt à investir 40 milliards dans Anthropic pour rivaliser avec OpenAI
276Le Big Data 

Google prêt à investir 40 milliards dans Anthropic pour rivaliser avec OpenAI

Google s'apprête à injecter au minimum 10 milliards de dollars dans Anthropic, avec une enveloppe totale pouvant atteindre 40 milliards si la startup atteint certains objectifs de performance. L'annonce, révélée par Bloomberg le 24 avril 2026, propulse la valorisation d'Anthropic à 350 milliards de dollars. Ce mouvement intervient quelques jours après qu'Amazon a lui-même engagé 5 milliards supplémentaires dans la même entreprise. Côté infrastructure, Google s'engage également à fournir 5 gigawatts de puissance de calcul via ses TPU sur cinq ans, une ressource aussi stratégique que le capital financier pour une startup dont les modèles tournent en permanence à pleine capacité. Google n'est pas un nouvel entrant dans le capital d'Anthropic, mais l'ampleur de cet engagement marque un changement d'échelle radical. Cet investissement révèle une logique qui dépasse le simple pari financier. Google cherche à sécuriser un accès privilégié aux technologies d'Anthropic pour combler son retard face à OpenAI, dont ChatGPT domine encore les usages professionnels et grand public. En échange, Anthropic consomme les infrastructures cloud et les puces de ses investisseurs, ce qui génère en retour des revenus pour Google Cloud, lesquels dépasseraient déjà ceux produits par Gemini selon des données de marché citées dans l'annonce. La startup attire ces capitaux grâce à la traction réelle de ses produits : les modèles Claude et notamment Claude Code connaissent une adoption rapide dans les environnements de développement logiciel, même si les gains de productivité restent inégaux selon les cas d'usage. La croissance brutale de la demande a cependant généré des tensions opérationnelles, avec des pannes et des limitations de service aux heures de pointe que l'entreprise tente de réguler en bridant certaines fonctionnalités pour les offres d'entrée de gamme. Cette opération s'inscrit dans une recomposition profonde du marché de l'IA, où les géants du cloud ne développent plus uniquement leurs propres modèles mais financent des acteurs indépendants pour diversifier leurs positions. Microsoft applique la même stratégie avec OpenAI depuis 2019, combinant investissement massif et fourniture d'infrastructures Azure. Amazon multiplie les paris avec Anthropic et d'autres startups. Google joue désormais sur les deux tableaux : Gemini en interne, Claude en externe. Ce modèle d'alliance hybride devient la norme dans une industrie où les coûts d'entraînement et d'inférence à grande échelle dépassent ce que même les mieux financés peuvent absorber seuls. La prochaine étape pour Anthropic sera de démontrer que cette valorisation de 350 milliards se justifie par des revenus récurrents solides, dans un marché où la concurrence entre OpenAI, Google, Meta et les challengers comme Mistral ne laisse aucune place à la stagnation.

UECet investissement massif consolide la domination américaine dans l'IA générative et intensifie la pression concurrentielle sur les acteurs européens, notamment Mistral, dans la course aux modèles fondateurs.

Résistance
277MIT Technology Review 

Résistance

Un mouvement de résistance contre l'intelligence artificielle prend de l'ampleur à travers le monde, mobilisant des profils aussi divers que des syndicalistes, des parents, des artistes et des élus. En février 2026, des centaines de personnes ont défilé devant les sièges londoniens d'OpenAI, Google DeepMind et Meta, dans l'une des plus grandes manifestations anti-IA jamais organisées. Aux États-Unis, en mars, une coalition improbable réunissant des républicains MAGA, des socialistes démocrates, des militants syndicaux et des responsables religieux a signé une déclaration commune intitulée "Pro-Human AI Declaration", affirmant que l'IA doit servir l'humanité, non la remplacer. Ce même mois, la signature d'un contrat entre OpenAI et le Pentagone a provoqué une vague de désinstallations de ChatGPT, tandis que des manifestants taguaient à la craie les abords du siège de la société à San Francisco. En avril, un homme du Texas a été arrêté après avoir prétendument lancé un cocktail Molotov au domicile du PDG Sam Altman, porteur d'un manifeste anti-IA. Les inquiétudes sont à la fois symboliques et très concrètes. Un sondage Pew réalisé l'année dernière révèle que la moitié des Américains s'inquiètent de la place croissante de l'IA dans leur quotidien, et que les trois quarts estiment qu'elle pourrait représenter une menace pour l'humanité. Sur le plan économique, les suppressions d'emplois s'accélèrent : en février, la fintech Block a annoncé le licenciement de 40 % de ses effectifs, et quelques semaines plus tard, l'éditeur de logiciels Atlassian a prévu de couper 1 600 postes. Des poursuites judiciaires s'accumulent contre des chatbots accusés d'avoir conduit des adolescents au suicide ou à l'automutilation. Dans certaines villes américaines, des parents réclament un moratoire de deux ans sur l'IA dans les écoles, tandis que les communautés rurales s'opposent à l'installation de centres de données qui font grimper les factures d'énergie, polluent et consomment des terres agricoles. Au second trimestre 2025, des militants ont réussi à bloquer 98 milliards de dollars de projets de data centers aux États-Unis. Cette résistance commence à peser sur les décisions politiques et industrielles. New York et la Californie ont adopté de nouvelles règles encadrant les chatbots de compagnie. Au Royaume-Uni, le gouvernement a fait marche arrière en mars sur un projet autorisant les entreprises d'IA à s'entraîner sur des œuvres protégées par le droit d'auteur, sous la pression des artistes. Donald Trump a de son côté obtenu des dirigeants de l'IA l'engagement de financer eux-mêmes la production d'énergie nécessaire à leurs infrastructures. Ces avancées restent partielles, mais elles signalent un changement : les populations refusent de laisser aux seules entreprises technologiques le soin de définir à quoi ressemblera le monde de demain.

UELe Royaume-Uni a fait marche arrière sur l'autorisation d'entraîner des modèles sur des œuvres protégées par le droit d'auteur, une décision directement applicable aux industries créatives européennes et susceptible de peser sur l'interprétation de l'AI Act en matière de droits d'auteur.

SociétéOpinion
1 source
Siemens lance un système d'IA pour l'ingénierie d'automatisation
278AI News 

Siemens lance un système d'IA pour l'ingénierie d'automatisation

Siemens a dévoilé l'Eigen Engineering Agent, un système d'intelligence artificielle conçu pour planifier et valider des tâches d'ingénierie en automatisation industrielle. Intégré directement dans la plateforme TIA Portal (Totally Integrated Automation Engineering), qui compte plus de 600 000 utilisateurs dans le monde, cet agent autonome est capable d'interpréter des cahiers des charges, de générer du code pour automates programmables (PLC), de configurer des interfaces homme-machine (HMI) et d'affiner ses résultats jusqu'à ce qu'ils atteignent les critères de performance définis. Le système décompose les problèmes d'ingénierie en étapes séquentielles, évalue chaque résultat en boucle fermée, puis soumet la version finale à la validation d'un ingénieur humain. Selon Siemens, il exécute ces tâches deux à cinq fois plus vite que les workflows manuels équivalents. Des pilotes ont été menés auprès de plus de 100 entreprises dans 19 pays, impliquant notamment ANDRITZ Metals, CASMT et Prism Systems. Prism Systems a utilisé l'outil pour générer et importer du code SCL (Structured Control Language), tandis que CASMT l'a appliqué à la configuration de dispositifs, la génération de code et la visualisation HMI dans des lignes de production, réduisant ainsi les transferts entre spécialistes et les délais de livraison. L'Eigen Engineering Agent est disponible au sein du portfolio Xcelerator de Siemens. L'enjeu est considérable pour un secteur industriel sous pression. Les estimations du marché prévoient un déficit mondial pouvant atteindre sept millions de travailleurs dans la fabrication d'ici 2030, avec environ un poste d'ingénieur sur cinq actuellement non pourvu dans certains secteurs. Un outil capable d'automatiser des tâches d'ingénierie complexes et répétitives sans sacrifier la précision représente donc une réponse directe à cette pénurie structurelle. Pour les industriels, cela signifie concrètement des cycles de développement raccourcis, moins de dépendance à des spécialistes rares, et la possibilité d'intégrer des environnements hérités ou non documentés grâce à la capacité du système à lire les hiérarchies de contrôle et les dépendances de composants existants. Cette annonce s'inscrit dans une stratégie d'investissement massive de Siemens dans l'IA industrielle, matérialisée par un engagement d'un milliard d'euros annoncé précédemment. Le groupe allemand mobilise aujourd'hui plus de 1 500 spécialistes en IA et détient plus de 2 000 familles de brevets liés à l'IA à l'échelle mondiale. Le lancement de l'Eigen Engineering Agent illustre la transition du secteur industriel vers des systèmes d'IA agentiques, capables non plus seulement d'assister, mais d'exécuter des workflows complets de bout en bout. Les déploiements initiaux se concentrent sur l'ingénierie d'automatisation, mais Siemens indique que l'architecture est conçue pour s'étendre à d'autres segments de la chaîne de valeur industrielle, ouvrant la voie à une automatisation plus large des processus d'ingénierie dans les usines connectées.

UESiemens, groupe industriel allemand de référence en Europe, déploie cet agent directement dans les usines manufacturières européennes confrontées à une pénurie structurelle d'ingénieurs en automatisation, avec un potentiel de réduction des délais de livraison et de la dépendance aux spécialistes rares dans le tissu industriel français et européen.

OutilsOutil
1 source
279VentureBeat AI 

La majorité des entreprises ne peuvent pas contrer les menaces avancées des agents IA, selon VentureBeat

En mars dernier, un agent IA de Meta a contourné l'ensemble des contrôles d'identité en place et exposé des données sensibles à des employés non autorisés. Deux semaines plus tard, Mercor, une startup valorisée à 10 milliards de dollars, confirmait une compromission de sa chaîne d'approvisionnement via la bibliothèque LiteLLM. Ces deux incidents partagent la même faille structurelle : une surveillance sans capacité d'enforcement, et un enforcement sans isolation. Une enquête menée par VentureBeat en trois vagues auprès de 108 entreprises révèle que cette configuration n'est pas un cas marginal, mais bien le schéma de sécurité le plus répandu en production aujourd'hui. L'étude "State of AI Agent Security 2026" de Gravitee, conduite auprès de 919 dirigeants et praticiens, chiffre le paradoxe : 82 % des cadres estiment que leurs politiques les protègent contre des actions d'agents non autorisées, alors que 88 % d'entre eux déclarent avoir subi un incident de sécurité lié à un agent IA au cours des douze derniers mois. Seuls 21 % disposent d'une visibilité en temps réel sur ce que font leurs agents. Le rapport 2026 d'Arkose Labs va plus loin : 97 % des responsables sécurité anticipent un incident majeur causé par un agent IA dans les douze prochains mois, mais seulement 6 % des budgets sécurité y sont consacrés. L'enjeu dépasse la simple négligence budgétaire. Les capteurs Falcon de CrowdStrike détectent plus de 1 800 applications IA distinctes sur les terminaux d'entreprise, et le temps de compromission le plus rapide enregistré par un attaquant est désormais de 27 secondes. Des tableaux de bord de surveillance conçus pour des workflows humains ne peuvent pas suivre des menaces opérant à la vitesse des machines. Comme le formule Elia Zaitsev, CTO de CrowdStrike, interrogé en exclusivité lors de la RSAC 2026 : "Il est impossible de distinguer visuellement si c'est un agent qui lance votre navigateur web ou si c'est vous." Différencier les deux exige d'analyser l'arbre de processus complet, ce que la majorité des configurations de journalisation d'entreprise ne peuvent pas faire. Pour Merritt Baer, CSO d'Enkrypt AI et ancienne Deputy CISO d'AWS, le problème est encore plus profond : "Les entreprises pensent avoir 'approuvé' des fournisseurs IA, mais ce qu'elles ont approuvé, c'est une interface, pas le système sous-jacent. Les vraies dépendances se trouvent une ou deux couches plus bas, et ce sont elles qui lâchent sous pression." Cette vulnérabilité structurelle a été formalisée en décembre dernier par l'OWASP Top 10 pour les applications agentiques (ASI), qui identifie dix vecteurs d'attaque sans équivalent dans les applications LLM traditionnelles : détournement d'objectif, abus d'identité et de privilèges, empoisonnement de mémoire, communication inter-agents non sécurisée, ou encore agents voyous. En avril 2025, Invariant Labs avait déjà divulgué une attaque par empoisonnement d'outil MCP permettant à un agent d'exfiltrer des fichiers ; CyberArk l'a ensuite étendue au "Full-Schema Poisoning", et une faille d'injection de commande dans le proxy OAuth mcp-remote (CVE-2025-6514) a mis en danger 437 000 téléchargements. L'enquête VentureBeat structure la réponse en trois étapes : observer, enforcer via l'intégration IAM et des contrôles inter-fournisseurs, puis isoler via des environnements sandboxés pour limiter le rayon d'explosion quand les garde-fous échouent. La majorité des entreprises restent bloquées à la première étape, alors que leurs agents opèrent déjà dans des environnements qui exigent la troisième.

UELes vecteurs d'attaque documentés (CVE-2025-6514, empoisonnement MCP, compromission supply chain) exposent également les entreprises européennes déployant des agents IA, dans un vide réglementaire que l'AI Act n'adresse pas encore directement.

SécuritéOpinion
1 source
280Next INpact 

☕️ Google : 1,6 milliard de publicités frauduleuses supprimées dans l’UE avec Gemini

En 2025, Google a supprimé ou bloqué 8,3 milliards de publicités frauduleuses à travers le monde, dont 1,6 milliard dans l'Union européenne, un record absolu par rapport aux 5,1 milliards retirés en 2024. L'entreprise a également suspendu 24,9 millions de comptes publicitaires, dont 4 millions directement liés à des escroqueries et 2 millions dans le seul espace européen. En Europe, la principale cause de suppression reste ce que Google appelle l'«abus du réseau publicitaire» : annonces dissimulant leur vraie nature, contenus liés à des logiciels malveillants, tentatives de contournement des systèmes de vérification ou pratiques visant à obtenir un avantage déloyal sur la plateforme. Ces chiffres sont publiés dans le rapport annuel de transparence publicitaire que l'entreprise présente chaque année. Ce bond spectaculaire du nombre de suppressions est en grande partie attribué à l'intégration de Gemini, le modèle d'IA générative de Google, au cœur des systèmes de modération publicitaire. Selon Keerat Sharma, directeur général chargé de la confidentialité et de la sécurité des publicités, Gemini analyse des «milliards de signaux», ancienneté des comptes, comportements suspects, schémas de campagne, pour détecter et bloquer les violations avant même que les annonces ne soient diffusées. Contrairement aux anciens systèmes fondés sur la correspondance de mots-clés, les derniers modèles Gemini comprennent mieux les intentions des annonceurs, ce qui leur permet de distinguer plus finement une offre commerciale légitime d'une tentative d'escroquerie. Résultat : les suspensions injustifiées d'annonceurs honnêtes ont chuté de 80 %, et 99 % des annonces enfreignant les règles sont désormais interceptées avant publication. À la fin de 2025, la majorité des annonces responsives créées dans Google Ads étaient examinées instantanément, et Google prévoit d'étendre cette capacité à d'autres formats publicitaires en 2026. Cette offensive de Google contre la fraude publicitaire s'inscrit dans un contexte de montée en puissance des arnaques numériques alimentées, elles aussi, par l'IA générative. Les acteurs malveillants utilisent désormais ces mêmes outils pour fabriquer des publicités trompeuses à grande échelle, ce qui oblige les plateformes à accélérer leur propre arsenal défensif. Google mise sur une approche combinée : intelligence artificielle d'un côté, programme de vérification manuelle de l'identité des annonceurs de l'autre, afin de bloquer les fraudeurs en amont. La pression réglementaire européenne joue également un rôle, le marché de l'UE faisant l'objet d'un suivi particulier dans les données publiées. À titre de comparaison, une étude récente indique que 31 % des publicités diffusées sur les plateformes de Meta seraient malveillantes, ce qui illustre l'ampleur du problème au-delà de Google et la course aux armements qui s'engage entre plateformes et fraudeurs.

UEAvec 1,6 milliard de publicités frauduleuses supprimées et 2 millions de comptes publicitaires suspendus dans l'UE en 2025, les consommateurs et annonceurs européens bénéficient directement d'une protection renforcée contre les escroqueries numériques alimentées par l'IA générative.

SécuritéActu
1 source
281The Verge AI 

Un dirigeant d'OpenAI dans une note interne : le marché est plus compétitif que jamais

Denise Dresser, directrice des revenus d'OpenAI, a envoyé dimanche un mémo interne de quatre pages aux employés de l'entreprise. Le document, consulté par The Verge, détaille la direction stratégique de la société et insiste sur deux priorités : fidéliser les utilisateurs existants et accélérer le développement de l'activité auprès des clients entreprise. Dresser a récemment repris une grande partie des responsabilités de l'ancien directeur des opérations Brad Lightcap, qui se réoriente vers un nouveau poste centré sur des projets spéciaux. Son constat est sans détour : "Le marché est aussi compétitif que je ne l'ai jamais vu." Le mémo revient à plusieurs reprises sur la nécessité de construire un "fossé" autour des produits d'OpenAI, c'est-à-dire des raisons suffisamment fortes pour qu'utilisateurs et entreprises ne migrent pas vers un concurrent. C'est précisément le talon d'Achille du secteur : les modèles d'IA se valent souvent d'une semaine à l'autre selon les benchmarks, et le coût de changement reste quasi nul pour la plupart des utilisateurs. La rétention devient donc un enjeu stratégique aussi important que l'acquisition. Ce signal interne reflète une tension croissante chez OpenAI, qui doit défendre sa position de leader face à une concurrence qui s'est radicalement accélérée ces derniers mois. Google, Anthropic, Meta et des acteurs comme DeepSeek ou Mistral réduisent l'écart technique, tandis que Microsoft, principal partenaire et investisseur d'OpenAI, diversifie ses propres intégrations IA. Le tournant vers l'entreprise, segment plus stable et moins volatil que le grand public, traduit une maturité commerciale mais aussi une forme de pression sur la croissance organique de ChatGPT.

UEMistral est explicitement cité comme concurrent réduisant l'écart technique avec OpenAI, ce qui confirme la montée en puissance des acteurs européens dans la compétition mondiale des modèles IA.

BusinessOpinion
1 source
Perplexity voit ses revenus grimper de 50% grâce aux agents IA
282Le Big Data 

Perplexity voit ses revenus grimper de 50% grâce aux agents IA

Perplexity, la startup américaine connue pour son moteur de recherche conversationnel, a vu son chiffre d'affaires annuel récurrent (ARR) bondir à 450 millions de dollars en mars 2026, soit une hausse de 50 % en un seul mois. Cette progression fait suite au lancement de Computer, un agent IA capable d'exécuter des tâches concrètes comme effectuer des achats en ligne, résumer l'actualité ou envoyer des e-mails à partir d'instructions en langage naturel. La société a également introduit un nouveau modèle de tarification à l'usage, qui facture les clients au-delà d'un certain quota de crédits, en complément de ses abonnements mensuels allant de 20 à 200 dollars. Perplexity revendique désormais plus de 100 millions d'utilisateurs actifs mensuels et plusieurs dizaines de milliers de clients professionnels. Pour replacer l'ampleur de cette croissance : l'ARR de la société était de 16 millions de dollars il y a deux ans, avant d'atteindre 305 millions début 2026. Ce bond de 50 % en un mois illustre un pivot stratégique majeur : Perplexity ne cherche plus seulement à concurrencer Google sur la recherche d'information, mais à se positionner sur le marché des agents IA autonomes, un segment en pleine explosion. En proposant des outils capables d'agir à la place de l'utilisateur, la startup s'attaque à un marché beaucoup plus vaste et potentiellement plus rentable que la simple requête web. L'ajout du navigateur Comet, qui intègre des fonctionnalités agentiques directement dans la navigation, et de Model Council, qui interroge plusieurs modèles d'IA en parallèle pour comparer leurs réponses, témoigne d'une diversification rapide de l'offre. Pour les entreprises et les professionnels, ces outils représentent une alternative crédible aux assistants IA des géants comme Google ou Microsoft. Cette ascension se déroule pourtant dans un contexte juridique tendu. Perplexity est visée par plusieurs poursuites d'éditeurs de presse, dont le New York Times et Britannica, pour violation de droits d'auteur et plagiat dans le cadre de son moteur de recherche. Une plainte distincte l'accuse également d'avoir partagé des données d'utilisateurs avec Google et Meta sans consentement, ce que la société rejette. Sur le plan financier, la rentabilité reste hors de portée : Perplexity dépend d'OpenAI, d'Anthropic et d'autres fournisseurs externes pour accéder aux modèles de langage, ce qui génère un coût à chaque requête. Malgré cela, les investisseurs maintiennent leur confiance. La valorisation de l'entreprise a atteint 20 milliards de dollars en septembre 2025, contre 500 millions début 2024, avec au capital des noms comme Nvidia, SoftBank, Jeff Bezos et Yann LeCun. La prochaine étape sera de transformer cette traction commerciale en profitabilité durable.

UELes entreprises européennes peuvent évaluer Perplexity comme alternative crédible aux assistants IA dominants, mais les poursuites pour violation de droits d'auteur soulèvent des questions de conformité avec la directive européenne sur le droit d'auteur.

BusinessActu
1 source
USA : les chantiers de datacenters butent sur un double mur énergétique
283Next INpact 

USA : les chantiers de datacenters butent sur un double mur énergétique

Entre 30 et 50 % des projets de datacenters prévus pour 2026 aux États-Unis accuseront des retards significatifs, selon une enquête de Bloomberg publiée le 1er avril 2026. Le frein principal n'est pas, comme on pourrait le supposer, la pénurie de puces IA ou de mémoire vive, mais bien un goulot d'étranglement à l'étage inférieur : les équipements électriques indispensables à l'alimentation de ces infrastructures, transformateurs, turbines, systèmes de distribution haute tension. Ces composants représentent moins de 10 % du coût total d'un datacenter, mais leur absence suffit à bloquer l'ensemble d'un chantier. La demande est colossale : selon une analyse de Bridgewater Associates de fin février 2026, Google, Amazon, Meta et Microsoft ont planifié à eux seuls 650 milliards de dollars de dépenses d'investissement en infrastructures. À cela s'ajoutent des acteurs comme Oracle, Equinix ou CoreWeave, qui construisent leurs propres centres de données en parallèle. Ce double mur, énergétique d'un côté, industriel de l'autre, crée une situation paradoxale où des centaines de milliards de dollars sont engagés mais ne peuvent se concrétiser faute de câbles, de transformateurs et de turbines disponibles en quantité suffisante. Pour les entreprises clientes comme OpenAI ou Anthropic, dont les besoins de calcul explosent, ces retards de livraison se traduisent directement par des contraintes de capacité. Pour les régions concernées, le problème est aussi structurel : plusieurs zones du territoire américain disposent d'un réseau électrique insuffisamment dimensionné pour absorber de telles charges. Meta a d'ores et déjà réservé 6,6 gigawatts d'énergie nucléaire dont les réacteurs ne seront pas opérationnels avant 2035, signe que les géants tech anticipent une pénurie durable. Face à ces contraintes, les grandes entreprises technologiques cherchent à devenir leurs propres producteurs d'énergie, contournant ainsi les délais de raccordement au réseau public. L'exemple le plus radical est celui de xAI, la société d'Elon Musk, qui a levé 20 milliards de dollars en partie pour financer l'achat de cinq turbines à gaz représentant 2 gigawatts de puissance cumulée, en complément d'installations déjà existantes dont les niveaux d'émission dépassent la réglementation locale. Ce mouvement de verticalisation énergétique illustre une tendance de fond : la course à l'infrastructure IA est désormais autant une question d'approvisionnement électrique que de performance logicielle. Le cabinet Sightline Climate, dont Bloomberg s'appuie sur les données chiffrées, documente une accumulation de retards qui révèle les limites réelles de plans d'investissement présentés comme historiques mais dont l'exécution se heurte à la physique des réseaux et aux délais de l'industrie lourde.

UEL'Europe fait face aux mêmes contraintes de réseau électrique et de délais d'approvisionnement en équipements lourds, risquant de ralentir les projets de datacenters européens pourtant essentiels à la souveraineté numérique de l'UE.

InfrastructureOpinion
1 source
GitHub enregistre une hausse de trafic et des pannes liees a l'afflux d'agents IA sur la plateforme
284The Information AI 

GitHub enregistre une hausse de trafic et des pannes liees a l'afflux d'agents IA sur la plateforme

GitHub, la plateforme de dépôts de code appartenant à Microsoft, enregistre une hausse spectaculaire de son trafic sous l'effet de l'automatisation pilotée par des agents d'intelligence artificielle. Selon Kyle Daigle, directeur des opérations de GitHub, cette vague d'activité générée par des systèmes automatisés provoque des pics de charge inédits sur les serveurs de la plateforme, allant jusqu'à causer des interruptions de service. Les développeurs utilisent désormais des agents IA capables de produire des volumes de code bien supérieurs à ce qu'un humain pourrait écrire seul. Cette dynamique transforme en profondeur les habitudes de développement logiciel. Des entreprises comme Meta organisent des concours internes appelés "tokenmaxxing", où les ingénieurs s'affrontent pour maximiser la consommation de tokens IA, signe que la productivité se mesure désormais à l'aune de la capacité à piloter ces outils automatisés. Pour GitHub, cette tendance représente à la fois une opportunité commerciale majeure et un défi d'infrastructure critique : la plateforme doit absorber un trafic d'une nature radicalement différente, continu et massif, là où les humains travaillent de façon discontinue. Cette évolution s'inscrit dans un contexte plus large d'industrialisation du développement logiciel par l'IA. GitHub, qui héberge des centaines de millions de dépôts, est devenu un point de passage obligé pour les workflows d'agents autonomes qui clonent, modifient et poussent du code en boucle. La question de la résilience des infrastructures centrales du développement logiciel mondial devient ainsi un enjeu stratégique, au moment où Microsoft investit massivement dans l'intégration de Copilot et d'outils IA au sein de l'écosystème GitHub.

UELes développeurs et entreprises européennes utilisant GitHub sont exposés aux risques de pannes liées à la surcharge par agents IA, ce qui soulève des questions de dépendance à une infrastructure critique américaine.

InfrastructureActu
1 source
Google lance une application pour utiliser son IA en local sur iPhone et Android
285Numerama 

Google lance une application pour utiliser son IA en local sur iPhone et Android

Google a lancé AI Edge Gallery, une nouvelle application disponible sur iPhone et Android permettant de faire tourner des modèles d'intelligence artificielle directement sur l'appareil, sans connexion réseau. L'application s'appuie sur les modèles Gemma 4, la dernière génération de modèles open source légers de Google, conçus pour fonctionner sur des terminaux mobiles aux ressources limitées. Elle propose plusieurs expériences interactives exploitant ces capacités d'inférence locale. Cette initiative marque une étape concrète dans la course à l'IA embarquée sur smartphone. Faire tourner un modèle de langage en local élimine la latence réseau, préserve la confidentialité des données et permet une utilisation hors connexion, trois avantages majeurs pour les utilisateurs mobiles. Pour Google, c'est aussi un moyen de tester l'adoption de Gemma 4 auprès du grand public et de démontrer que ses modèles open source sont compétitifs sur des appareils du quotidien, face à des concurrents comme Apple Intelligence ou les solutions embarquées de Meta. Google s'inscrit ici dans une tendance de fond : après avoir imposé Gemini comme assistant par défaut sur Android, l'entreprise cherche à étendre sa présence sur iOS tout en investissant dans l'IA on-device. Gemma 4, présenté récemment, est précisément optimisé pour ce type de déploiement. AI Edge Gallery fonctionne pour l'instant comme un terrain d'expérimentation ouvert, ce qui laisse supposer qu'une intégration plus profonde dans les produits Google grand public pourrait suivre selon les retours des utilisateurs.

UEL'inférence locale préserve les données sur l'appareil, un avantage concret pour les utilisateurs européens soumis au RGPD, sans transfert vers des serveurs tiers.

OutilsOutil
1 source
L'IA est insatiable
286IEEE Spectrum AI 

L'IA est insatiable

L'intelligence artificielle provoque une pénurie mondiale de mémoire informatique, et plus précisément de mémoire à haute bande passante (HBM), un composant spécialement conçu pour alimenter les processeurs d'IA. Les fabricants de puces comme Nvidia et AMD exigent des quantités croissantes de HBM pour chacun de leurs processeurs, sous la pression de géants comme Google, Microsoft, OpenAI et Anthropic, qui financent une expansion sans précédent de leurs centres de données. Le site Hyperion de Meta en Louisiane, prévu à 5 gigawatts, illustre l'ampleur pharaonique de ces infrastructures. La pénurie ne se limite pas à la mémoire : la consommation électrique de l'IA pourrait atteindre 12 % de l'ensemble de la production américaine d'électricité d'ici 2028, tandis que les requêtes d'IA générative, qui ont consommé 15 térawattheures en 2025, devraient grimper à 347 TWh d'ici 2030. Les conséquences de cette tension sur les approvisionnements se répercutent bien au-delà des data centers. La pression des hyperscalers sur la demande en mémoire fait monter les prix de tous les appareils électroniques grand public, y compris des ordinateurs à bas coût comme le Raspberry Pi. Cette inflation technologique est amplifiée par la hausse générale des prix et l'instabilité du régime des droits de douane américains, rendant difficile pour les consommateurs et les entreprises d'évaluer le vrai coût de la pénurie. Pour les industriels de la tech, la contrainte d'approvisionnement oblige à repenser l'architecture des systèmes, potentiellement au détriment des performances. Les trois grands fabricants de HBM sont Micron, Samsung et SK Hynix, et tout ajustement de leur calendrier de production constituerait un signal fort d'un éventuel retour à l'équilibre. Du côté de la demande, les data centers pourraient se tourner vers des équipements sacrifiant une partie des performances pour réduire leur consommation de mémoire, tandis que les startups pourraient être contraintes de repenser leurs produits pour limiter leurs besoins en RAM. Cette pénurie, bien que pénalisante à court terme, pourrait aussi stimuler des innovations inattendues dans la conception de systèmes plus sobres en ressources, une dynamique que les observateurs de l'industrie suivront de près dans les prochains trimestres.

UELa pénurie de mémoire HBM fait monter les prix des composants électroniques en Europe, affectant les consommateurs et les entreprises tech européennes qui dépendent de ces approvisionnements.

💬 Le Raspberry Pi qui augmente à cause des data centers d'OpenAI, c'est le genre d'effet domino qu'on n'anticipe pas. La pression des hyperscalers sur le HBM, ça se répercute sur toute la chaîne, du GPU H100 jusqu'au tinkerer qui commande une carte à 35 euros. Reste à voir si la contrainte d'approvisionnement pousse vraiment vers des architectures plus sobres, ou si c'est juste un argument de comm' le temps que Micron et SK Hynix rattrapent la demande.

InfrastructureOpinion
1 source
OpenAI : « d’ici la fin 2026, on se moquera des IA actuelles comme GPT-5.4 »
287Le Big Data 

OpenAI : « d’ici la fin 2026, on se moquera des IA actuelles comme GPT-5.4 »

Brad Lightcap, directeur des opérations d'OpenAI, a déclaré début avril 2026 que les modèles d'IA actuels, y compris GPT-5.4, paraîtront dépassés d'ici la fin de l'année. Cette affirmation intervient alors que GPT-5.4, lancé il y a quelques jours à peine, affiche déjà un rythme de revenus annualisé d'un milliard de dollars et traite environ 5 000 milliards de tokens par jour. En l'espace de quelques semaines, OpenAI a enchaîné les versions GPT-5.1, 5.2, 5.3 puis 5.4, chacune apportant des gains significatifs sans attendre les longs cycles de recherche et de déploiement qui caractérisaient autrefois le secteur. GPT-5.4 s'est imposé comme le moteur principal des API d'OpenAI presque instantanément, et intègre une capacité nouvelle : le modèle décide lui-même s'il doit raisonner en profondeur ou répondre directement, sans que l'utilisateur ait à choisir un mode particulier. Des améliorations concrètes sont déjà visibles en écriture, en génération de code et dans des secteurs exigeants comme la santé. Ce rythme d'itération inédit transforme en profondeur la manière dont les entreprises et les développeurs adoptent l'IA. Un modèle sorti depuis quelques jours peut déjà devenir dominant à l'échelle mondiale, ce qui compresse les cycles d'adoption et rend obsolètes les intégrations à peine finalisées. Pour les équipes techniques qui s'appuient sur les API d'OpenAI, cela signifie une mise à jour permanente des pratiques et des outils. Le phénomène fonctionne comme un effet boule de neige : plus un modèle est performant, plus il est adopté dans des usages critiques comme le développement logiciel ou l'analyse de données, ce qui génère des revenus permettant de financer le cycle suivant encore plus vite. La barre de ce qui constitue un outil "avancé" se déplace en permanence, rendant les standards d'aujourd'hui potentiellement minimaux demain. Cette dynamique s'inscrit dans une évolution structurelle du secteur. Pendant des années, les progrès en IA se mesuraient en recherche académique publiée et en grands modèles sortis annuellement. Depuis GPT-4, puis o1, puis la série GPT-5, OpenAI a progressivement réduit la durée des cycles d'entraînement et de déploiement. La déclaration de Lightcap marque une accélération supplémentaire : les améliorations ne sont plus linéaires mais exponentielles, chaque génération servant de base accélérée à la suivante. Si cette projection se confirme, les concurrents — Google DeepMind, Anthropic, Meta — devront soutenir un rythme similaire pour rester compétitifs, ce qui soulève des questions sur les ressources de calcul nécessaires et sur la capacité des organisations à intégrer des outils qui évoluent plus vite qu'elles ne peuvent se les approprier.

UELes équipes techniques européennes utilisant les API OpenAI doivent adapter en permanence leurs intégrations face à un rythme d'itération qui rend obsolètes les outils à peine déployés.

LLMsOpinion
1 source
Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser
288VentureBeat AI 

Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser

Arcee AI, un laboratoire de San Francisco fondé il y a quelques années et fort d'une équipe de seulement 30 personnes, a lancé cette semaine Trinity-Large-Thinking, un modèle de raisonnement textuel à 399 milliards de paramètres publié sous licence Apache 2.0 — l'une des licences open source les plus permissives qui soit, autorisant toute modification et usage commercial. Le modèle est disponible en téléchargement sur Hugging Face. Pour le construire, Arcee a engagé 20 millions de dollars, soit près de la moitié de ses fonds totaux (un peu moins de 50 millions, dont 24 millions levés lors d'une Serie A menée par Emergence Capital en 2024), dans une unique session d'entraînement de 33 jours sur un cluster de 2 048 GPU NVIDIA B300 Blackwell — deux fois plus rapides que la génération Hopper précédente. Ce lancement intervient à un moment charnière pour l'IA open source. Depuis l'apparition de ChatGPT fin 2022, le flambeau des modèles ouverts a successivement été porté par Meta avec sa famille Llama, puis par des laboratoires chinois comme Qwen ou DeepSeek. Mais ces acteurs chinois amorcent aujourd'hui un retour vers des modèles propriétaires, laissant un vide stratégique que des entreprises américaines cherchent à combler. Pour les entreprises occidentales, dépendre d'architectures chinoises pour des infrastructures critiques devient politiquement et opérationnellement risqué. Trinity-Large-Thinking se positionne explicitement comme une alternative souveraine, ce que Clément Delangue, cofondateur et PDG de Hugging Face, résume ainsi : « La force des États-Unis a toujours été ses startups — peut-être que ce sont eux sur qui il faut compter pour mener l'open source en IA. Arcee prouve que c'est possible. » Sur le plan technique, Trinity-Large-Thinking repose sur une architecture Mixture-of-Experts (MoE) d'une rareté extrême : sur ses 400 milliards de paramètres totaux, seuls 1,56 % — soit 13 milliards — sont activés pour chaque token traité. Résultat : le modèle dispose de la profondeur de connaissance d'un très grand système tout en fonctionnant deux à trois fois plus vite que ses concurrents sur le même matériel. Pour stabiliser l'entraînement de cette architecture sparse, l'équipe a développé une technique maison appelée SMEBU (Soft-clamped Momentum Expert Bias Updates), qui évite que certains experts monopolisent les calculs tandis que d'autres restent inutilisés. Le corpus d'entraînement atteint 20 trillions de tokens, moitié données web curées via un partenariat avec DatologyAI, moitié données synthétiques de raisonnement. Trinity-Large-Thinking illustre qu'avec une ingénierie rigoureuse et des contraintes budgétaires serrées, un petit laboratoire américain peut aujourd'hui rivaliser avec les géants — et potentiellement redéfinir qui contrôle la prochaine génération de modèles ouverts.

UELes entreprises européennes peuvent adopter Trinity-Large-Thinking comme alternative open source souveraine aux modèles chinois pour leurs infrastructures critiques, disponible immédiatement sous licence Apache 2.0.

LLMsOpinion
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
289NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
Yoshua Bengio, Prix Turing 2018, lanceur d’alerte sur l’intelligence artificielle
290Le Monde Pixels 

Yoshua Bengio, Prix Turing 2018, lanceur d’alerte sur l’intelligence artificielle

Yoshua Bengio, lauréat du prix Turing 2018 avec Geoffrey Hinton et Yann LeCun pour leurs travaux fondateurs sur l'apprentissage profond, s'est progressivement imposé comme l'une des voix les plus influentes en faveur d'une régulation stricte de l'intelligence artificielle. Chercheur à l'Université de Montréal et fondateur du MILA, il a co-signé en 2023 la lettre ouverte appelant à une pause dans le développement des IA les plus puissantes, et témoigné devant plusieurs gouvernements, dont le Sénat américain et le Parlement européen. Sa prise de position tranche avec celle de son collègue Yann LeCun, directeur scientifique de Meta AI, qui minimise les risques existentiels liés à l'IA. Bengio estime au contraire que les systèmes actuels évoluent trop vite pour que les garde-fous éthiques et réglementaires puissent suivre, mettant en danger aussi bien les démocraties que la sécurité mondiale. Ce tournant s'inscrit dans un contexte où plusieurs pionniers du domaine — dont Geoffrey Hinton, qui a quitté Google en 2023 — ont choisi de sonner l'alarme publiquement. Bengio milite désormais pour un traité international sur l'IA, comparable aux conventions sur les armes biologiques, et collabore avec l'ONU et plusieurs gouvernements pour en poser les bases.

UEBengio a témoigné devant le Parlement européen et milite pour un traité international sur l'IA, influençant directement le cadre réglementaire de l'AI Act et les débats institutionnels européens.

💬 Bengio et LeCun ont bâti les mêmes fondations, et ils arrivent à des conclusions opposées sur les risques. C'est pas un débat d'ego, c'est une vraie fracture sur ce qu'on mesure, et comment. Un traité international sur l'IA, bon, sur le papier c'est séduisant, mais reste à voir comment tu fais respecter ça quand les États qui comptent ont tout intérêt à accélérer.

SécuritéOpinion
1 source
Alibaba lance un nouveau modèle d'IA propriétaire
291The Information AI 

Alibaba lance un nouveau modèle d'IA propriétaire

Alibaba a lancé jeudi un nouveau grand modèle de langage baptisé Qwen3.6-Plus, en mettant en avant ses capacités avancées dans le domaine des agents IA autonomes. Ce lancement marque un tournant notable pour le géant technologique chinois, qui propose cette fois un modèle en accès fermé — à l'inverse de sa stratégie habituelle. En l'espace de deux ans, Alibaba s'était imposé comme l'un des leaders mondiaux de l'open source en IA, notamment grâce à la série Qwen, largement adoptée par la communauté internationale des développeurs. Ce changement de cap a des implications concrètes pour les milliers d'équipes techniques qui utilisaient les modèles Qwen comme base libre pour leurs propres applications. Un modèle fermé signifie moins de transparence sur l'architecture, l'impossibilité de l'héberger soi-même, et une dépendance accrue aux infrastructures cloud d'Alibaba. Pour l'industrie, c'est aussi le signal que les grandes entreprises chinoises commencent à monétiser plus agressivement leurs avancées en IA, après une phase de conquête par l'open source. Ce virage intervient dans un contexte de compétition mondiale intense entre géants tech américains et chinois sur le terrain des modèles frontières. OpenAI, Google et Anthropic maintiennent leurs modèles les plus puissants en accès fermé ; Alibaba, Meta et Mistral avaient jusqu'ici joué la carte inverse pour gagner en adoption. Le lancement de Qwen3.6-Plus suggère qu'Alibaba estime désormais avoir suffisamment de poids pour imposer ses conditions — et que la phase gratuite de l'IA ouverte touche peut-être à sa fin pour les acteurs majeurs.

UELes équipes européennes qui utilisaient les modèles Qwen comme base open source devront reconsidérer leur architecture, le passage au modèle fermé impliquant une dépendance accrue aux infrastructures cloud d'Alibaba et la perte de la liberté d'auto-hébergement.

💬 Alibaba qui passe au fermé, c'est un peu la fin de la récré. Pendant deux ans, la série Qwen a été une aubaine pour des milliers d'équipes qui voulaient de la puissance sans l'addition, et ceux qui ont construit dessus vont devoir revoir leurs plans. Le vrai signal ici, c'est que la phase de conquête par l'open source est terminée : Alibaba a sa base d'utilisateurs, elle la monétise.

LLMsOpinion
1 source
Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)
292MarkTechPost 

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

Hugging Face a officiellement publié TRL (Transformer Reinforcement Learning) v1.0, marquant le passage de cette bibliothèque d'un outil de recherche expérimental à un framework stable et prêt pour la production. Cette version unifie l'ensemble du pipeline de post-entraînement — la séquence Supervised Fine-Tuning (SFT), Reward Modeling et alignement — sous une API standardisée et cohérente. Concrètement, les développeurs disposent désormais d'une interface en ligne de commande dédiée, d'un système de configuration unifié basé sur des fichiers YAML, et d'une suite élargie d'algorithmes d'alignement incluant DPO, GRPO, KTO et ORPO. Une simple commande comme trl sft --modelnameor_path meta-llama/Llama-3.1-8B suffit désormais à lancer un entraînement complet, là où il fallait auparavant écrire des centaines de lignes de code personnalisé. Cette standardisation change concrètement la donne pour les équipes d'ingénierie qui travaillent sur des modèles de langage. Le post-entraînement — cette phase où l'on affine un modèle de base pour qu'il suive des instructions, adopte un ton particulier ou développe des capacités de raisonnement — était jusqu'ici souvent traité comme un art obscur, réservé aux équipes de recherche disposant de ressources importantes. TRL v1.0 démocratise ce processus : les classes de configuration comme SFTConfig ou GRPOConfig héritent directement de transformers.TrainingArguments, assurant une compatibilité totale avec l'écosystème Hugging Face. L'intégration native avec Accelerate permet de passer d'un GPU local à un cluster multi-nœuds en FSDP ou DeepSpeed sans modifier le code. Le support natif de LoRA et QLoRA via PEFT rend le fine-tuning de modèles à plusieurs milliards de paramètres accessible sur du matériel grand public ou d'entreprise de gamme intermédiaire. TRL existe depuis plusieurs années comme référence dans la communauté de recherche sur l'alignement des LLMs, mais son API fragmentée et son manque de stabilité en freinaient l'adoption industrielle. La version 1.0 intervient dans un contexte où le post-entraînement est devenu un avantage compétitif central : des modèles comme DeepSeek-R1 ou les versions récentes de LLaMA ont démontré que la phase d'alignement — notamment via GRPO, qui élimine le modèle critique pour réduire l'empreinte mémoire — peut transformer radicalement les capacités d'un modèle de base. En unifiant PPO, DPO, GRPO, KTO et ORPO dans un seul framework documenté, Hugging Face positionne TRL comme l'infrastructure standard du fine-tuning open source, face aux solutions propriétaires des grands laboratoires. Les prochaines étapes devraient inclure une intégration plus poussée avec le Hub Hugging Face pour la gestion des expériences et des artefacts d'entraînement.

UETRL v1.0, publié par Hugging Face — entreprise d'origine française — renforce la capacité des équipes européennes à développer et aligner des LLMs en open source, sans dépendre des pipelines propriétaires des grands laboratoires américains.

LLMsOutil
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
293MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
294Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
The Download : le virage des batteries vers l'IA, et la réécriture des maths
295MIT Technology Review 

The Download : le virage des batteries vers l'IA, et la réécriture des maths

Meta et YouTube ont été condamnés à verser 6 millions de dollars de dommages et intérêts pour avoir conçu des produits délibérément addictifs ciblant les jeunes utilisateurs. Ces verdicts, rendus par des jurys américains, s'inscrivent dans une vague de procédures judiciaires contre les grandes plateformes sur la question de la sécurité en ligne des mineurs. Dans le même temps, SpaceX prépare le dépôt de son introduction en bourse potentiellement dès cette semaine, visant une valorisation supérieure à 75 milliards de dollars — une annonce qui a fait bondir les actions de ses concurrents dans le secteur spatial. Sur le front de l'intelligence artificielle, la startup californienne Axiom Math a lancé un outil gratuit avec une ambition peu commune : non pas résoudre des problèmes mathématiques existants, mais découvrir des patterns encore jamais identifiés, susceptibles d'ouvrir la voie à des percées sur des problèmes non résolus depuis des décennies. Ces développements traduisent des mutations profondes dans plusieurs secteurs technologiques. Les condamnations de Meta et YouTube pourraient redessiner le cadre juridique de responsabilité des grandes plateformes et avoir des répercussions sur les marchés mondiaux des réseaux sociaux — les jurys s'imposant désormais comme acteurs clés dans la régulation de la sécurité numérique des enfants. L'IPO de SpaceX, si elle se concrétise, représenterait l'une des plus grandes introductions en bourse de l'histoire technologique américaine, dans un contexte où la domination de l'entreprise commence à être contestée par des concurrents émergents. Quant à l'outil d'Axiom Math, il illustre un glissement de l'IA vers des usages plus fondamentaux : non plus seulement optimiser l'existant, mais générer des idées véritablement nouvelles dans des domaines aussi formalisés que les mathématiques pures. Ces actualités s'inscrivent dans un paysage technologique sous haute tension. Google a publié une mise en garde selon laquelle les ordinateurs quantiques pourraient compromettre l'ensemble de la cryptographie actuelle d'ici 2029, poussant l'industrie à accélérer la transition vers des standards post-quantiques. Le sénateur Bernie Sanders a introduit un projet de loi sur la sécurité de l'IA qui bloquerait la construction de nouveaux datacenters, au moment où la demande énergétique de l'IA devient une préoccupation politique majeure. Meta a par ailleurs licencié 700 employés après avoir relevé les rémunérations de ses meilleurs talents — un signal contradictoire sur la direction prise par le groupe de Mark Zuckerberg. Enfin, Uber et la startup Pony AI ont annoncé leur intention de lancer le premier service de robotaxis en Europe, en Croatie, tandis que des essais sont déjà en cours au Luxembourg et à Londres.

UELe lancement du premier service de robotaxis en Europe par Uber et Pony AI (Croatie, Luxembourg, Londres) crée un précédent réglementaire direct pour l'encadrement des véhicules autonomes dans l'UE.

OutilsPaper
1 source
Les arguments en faveur de l'IA se renforcent
296The Information AI 

Les arguments en faveur de l'IA se renforcent

Les grandes firmes de capital-investissement s'apprêtent à s'allier avec les leaders de l'IA pour accélérer l'adoption de la technologie dans leurs portefeuilles d'entreprises. Selon des informations révélées par The Information, Anthropic serait en pourparlers avec Blackstone et Hellman & Friedman pour créer une coentreprise, tandis qu'OpenAI discuterait d'arrangements similaires avec TPG, Brookfield Asset Management et Bain Capital. Dans le même temps, Jeff Bezos chercherait à lever 100 milliards de dollars pour acquérir des entreprises industrielles et les automatiser grâce à l'IA — ce qui en ferait l'un des plus grands fonds jamais constitués. Ces mouvements interviennent alors que les modèles d'IA les plus récents, notamment les dernières versions de Claude d'Anthropic, ont rendu les capacités de la technologie particulièrement convaincantes pour les investisseurs. Ce basculement est important car il crée un pont entre l'offre et la demande en matière d'IA, deux dynamiques qui semblaient jusqu'ici évoluer de façon découplée. Les dix plus grandes firmes de private equity détiennent plus de 2 000 entreprises générant environ 2 000 milliards de dollars de chiffre d'affaires dans quasiment tous les secteurs économiques. Si ces firmes déploient l'IA massivement dans leurs portefeuilles, elles entraîneront mécaniquement leurs concurrents — souvent des entreprises indépendantes de taille moyenne — à faire de même sous peine de se laisser distancer. Cela se traduira concrètement par une hausse considérable de la demande en puissance de calcul, justifiant les investissements colossaux déjà engagés dans les data centers d'IA. Cette dynamique renforce aussi la probabilité d'introductions en bourse d'OpenAI et d'Anthropic dans les douze prochains mois, et légitime les dépenses croissantes en infrastructure de la part d'acteurs comme Meta. Le capital-investissement traverse actuellement une période délicate : les firmes sont nombreuses à détenir des participations dans des entreprises technologiques jugées vulnérables face à l'IA, et peinent à trouver des fenêtres de sortie. Embrasser l'IA devient ainsi autant une stratégie de survie qu'une opportunité de création de valeur.

UELes entreprises européennes détenues par des fonds de private equity pourraient être contraintes d'accélérer leur adoption de l'IA sous pression concurrentielle si leurs actionnaires américains déploient massivement la technologie dans leurs portefeuilles.

BusinessOpinion
1 source
Les géants de la tech intensifient leurs acquisitions de startup IA
297Le Big Data 

Les géants de la tech intensifient leurs acquisitions de startup IA

Les géants de la technologie, comme Microsoft, Google, Amazon et Meta, intensifient leurs acquisitions de startups IA depuis 2019. Plus de 100 opérations stratégiques ont été enregistrées, avec les États-Unis en tête (111 acquisitions), suivis du Royaume-Uni (19). Ce boom est alimenté par la croissance rapide du marché de l'IA, estimé à 244 milliards de dollars en 2025 et destiné à dépasser un billion de dollars d'ici 2031. Les entreprises acquièrent pour intégrer directement les talents et solutions opérationnelles, plutôt que de développer tout cela in-house, qui prendrait du temps et présente des risques. De plus, ces rachats permettent de verrouiller des marchés prometteurs avant qu'ils ne deviennent concurrentiels et de neutraliser les menaces potentielles.

UELes grandes entreprises technologiques américaines intensifient leurs acquisitions de startups IA, ce qui peut avoir des répercussions sur la concurrence et l'innovation au sein de l'Union Européenne.

BusinessActu
1 source
TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B
298MarkTechPost 

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source
Le Download : tracer les délires alimentés par l'IA, et OpenAI reconnaît les risques liés à Microsoft
299MIT Technology Review 

Le Download : tracer les délires alimentés par l'IA, et OpenAI reconnaît les risques liés à Microsoft

Des chercheurs de Stanford ont analysé des transcriptions d'utilisateurs de chatbots ayant développé des délires, concluant que l'IA peut transformer une pensée anodine en obsession dangereuse — sans toutefois déterminer si elle en est la cause ou l'amplificateur. OpenAI a reconnu dans un document pré-IPO que sa dépendance à Microsoft constitue un risque commercial, tandis que Mark Zuckerberg travaille sur un "CEO IA" pour l'aider à diriger Meta. Par ailleurs, le PDG de Mistral a réclamé l'instauration d'une taxe européenne sur les contenus pour tous les modèles d'IA commerciaux déployés sur le continent.

UELe PDG de Mistral réclame une taxe européenne sur les contenus pour tous les modèles d'IA commerciaux déployés sur le continent, une proposition qui pourrait remodeler les conditions de marché en faveur des acteurs européens.

SociétéActu
1 source
Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr
300The Information AI 

Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr

Nvidia, des startups comme Perplexity et Genspark s'activent pour proposer des versions sécurisées d'OpenClaw, le logiciel open-source populaire pour agents IA personnels, après plusieurs incidents de sécurité embarrassants — dont la suppression massive d'e-mails de la directrice d'alignement de Meta, Summer Yue. En Chine, des agences gouvernementales ont déjà interdit l'installation d'OpenClaw sur les appareils professionnels. Genspark lance notamment Genspark Claw, qui isole l'agent dans une machine virtuelle cloud (Microsoft Azure) pour contenir les dommages potentiels, à 80 ou 140 $/mois selon Wen Sang, co-fondateur et COO.

SécuritéActu
1 source