Aller au contenu principal

Dossier Meta IA — page 4

299 articles · page 4 sur 6

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome
151arXiv cs.RO RechercheOpinion

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Des chercheurs ont publié sur arXiv (identifiant 2310.02635, cinquième révision) un cadre appelé RLFP, Reinforcement Learning with Foundation Priors, conçu pour rendre l'apprentissage par renforcement viable sur des robots réels, sans ingénierie manuelle des récompenses. Au coeur du système se trouve l'algorithme FAC (Foundation-guided Actor-Critic), qui s'appuie simultanément sur trois types de modèles fondationnels : un modèle de politique, un modèle de valeur, et un modèle de récompense de succès. Sur cinq tâches de manipulation dextère réalisées avec de vrais robots, FAC atteint un taux de succès moyen de 86 % après seulement une heure d'apprentissage en temps réel. Sur le benchmark simulé Meta-world, il obtient 100 % de succès sur 7 des 8 tâches évaluées, en moins de 100 000 frames d'interaction, là où les méthodes de référence avec récompenses manuelles nécessitent 1 million de frames pour des performances comparables. L'impact industriel potentiel est significatif. L'un des verrous majeurs du déploiement de la robotique apprenante en environnement réel est double : la quantité astronomique de données requise par le RL classique, et le coût humain de la conception des fonctions de récompense, qui exige des ingénieurs spécialisés pour chaque nouvelle tâche. RLFP adresse les deux simultanément, en multipliant par environ dix l'efficacité en données et en automatisant la génération de signal de récompense via des modèles pré-entraînés. Si les résultats se confirment hors conditions de laboratoire, ce type de cadre pourrait réduire drastiquement le temps de mise en service d'un bras industriel sur une nouvelle opération, un enjeu clé pour les intégrateurs. Ce travail s'inscrit dans une tendance de fond qui voit les grands modèles de langage et de vision (VLM/LLM) utilisés comme priors pour guider l'exploration robotique, une approche concurrente des méthodes par imitation pure (apprentissage à partir de démonstrations humaines) ou par curriculum appris. Parmi les travaux proches figurent SayCan (Google), Code as Policies (DeepMind) et les récents VLA comme pi-0 (Physical Intelligence) ou OpenVLA. L'équipe indique que RLFP est agnostique au type de modèle fondationnel utilisé et robuste aux priors bruités, ce qui est une affirmation forte qu'il faudra valider sur des benchmarks extérieurs. Le code et les visualisations sont disponibles publiquement, ce qui facilite la reproduction indépendante.

1 source
Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur
152MarkTechPost 

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion
1 source
OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute
153Le Big Data 

OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute

Le 22 avril 2026, des utilisateurs de Codex, l'environnement de développement assisté d'OpenAI, ont brièvement aperçu dans un sélecteur de modèles interne des noms inconnus : GPT-5.5, oai-2.1, et plusieurs variantes expérimentales non annoncées. L'accès a disparu en quelques minutes, mais les captures d'écran avaient déjà circulé sur X et dans les forums de développeurs. La fuite s'est produite dans un contexte particulier : OpenAI menait simultanément un test élargi dans Codex, confirmé par Rohan Varma, ingénieur de l'entreprise, touchant environ 100 % des utilisateurs, tous abonnements confondus, gratuits et payants. Sam Altman, PDG d'OpenAI, n'a pas démenti les spéculations autour d'un lancement imminent. Interrogé par un utilisateur évoquant une sortie possible dès le jeudi suivant, il a répondu par un simple emoji, sans démentir ni confirmer. Au-delà de l'anecdote, les retours techniques des développeurs ayant eu accès au modèle pendant ce court intervalle sont frappants. Plusieurs signalent une résolution de bugs front-end en quelques minutes là où GPT-4o nécessitait plusieurs heures. D'autres notent une meilleure cohérence dans la génération de code HTML et Tailwind CSS. Si ces observations restent parcellaires et non vérifiables à grande échelle, elles alimentent l'idée qu'OpenAI prépare un saut qualitatif significatif, pas seulement une mise à jour incrémentale. Pour l'industrie du développement logiciel assisté par IA, un modèle nettement plus rapide et fiable sur les tâches de code changerait concrètement les flux de travail quotidiens de millions de développeurs. La mise à disposition sur tous les plans tarifaires, si elle se confirme, représenterait également un changement de stratégie commerciale notable par rapport à la segmentation actuelle. Cette fuite s'inscrit dans une séquence d'annonces très dense côté OpenAI : ChatGPT Images 2.0 venait tout juste d'être déployé, renforçant la génération d'images précises directement dans le chat. Le rythme de publication soutenu d'OpenAI répond à une pression concurrentielle extrême. Anthropic a simultanément modifié son offre Claude Code en limitant l'accès pour certains abonnés Pro, tandis que Google, Meta et Mistral multiplient eux aussi les sorties. Dans ce contexte de course aux annonces, la communication ambiguë d'Altman, entre silence et émoji, est devenue une méthode rodée pour entretenir l'attention sans s'engager officiellement. GPT-5.5 pourrait être un modèle intermédiaire entre GPT-5 et une future version majeure, ou simplement un nom de test interne jamais destiné au public. La réponse pourrait venir dans les jours suivants, si OpenAI tient le calendrier informel que son PDG semble avoir laissé entrevoir.

UELa cadence de sorties accélérée d'OpenAI accentue la pression concurrentielle sur les acteurs européens, en particulier Mistral, cité dans l'article comme rival direct dans la course aux annonces de modèles.

LLMsOpinion
1 source
SpaceX mise 60 milliards sur CURSOR, Elon Musk contourne la guerre des modèles
154FrenchWeb 

SpaceX mise 60 milliards sur CURSOR, Elon Musk contourne la guerre des modèles

SpaceX, dont la valorisation pourrait atteindre 60 milliards de dollars à l'occasion d'une introduction en bourse qui s'annonce historique, accélère son repositionnement stratégique autour de l'intelligence artificielle. Sous l'impulsion directe d'Elon Musk, l'entreprise fait le pari de CURSOR, un outil d'IA intégré à ses processus internes de développement logiciel, pour devenir une plateforme technologique à part entière et non plus simplement un acteur du spatial. Ce virage s'opère à un rythme soutenu, avec l'ambition de capter une part structurante de la valeur générée par le secteur de l'IA. Le choix de CURSOR n'est pas anodin : en s'appuyant sur un outil de développement assisté par IA plutôt que sur un modèle fondamental propriétaire, SpaceX contourne la guerre d'attrition qui oppose actuellement OpenAI, Google, Anthropic et Meta dans la course aux LLMs. Cette posture de "consommateur stratégique" plutôt que de "constructeur de modèles" permet à l'entreprise de bénéficier des avancées de l'ensemble de l'écosystème sans en supporter les coûts d'entraînement colossaux, tout en intégrant l'IA profondément dans sa chaîne de valeur industrielle. Ce mouvement intervient dans un contexte où SpaceX prépare activement son entrée en bourse, un événement qui pourrait établir un record de valorisation dans l'histoire des marchés technologiques américains. Musk, qui dirige simultanément xAI et Tesla, joue ici une carte différente pour SpaceX : celle d'une intégration verticale de l'IA au service de l'ingénierie aérospatiale et de la connectivité via Starlink. Les suites dépendront en grande partie de la capacité de l'entreprise à démontrer aux investisseurs que cette orientation technologique se traduit en avantage concurrentiel mesurable avant l'IPO.

BusinessOpinion
1 source
Agents IA autonomes : les meilleurs outils à installer en local sur son PC
155Le Big Data 

Agents IA autonomes : les meilleurs outils à installer en local sur son PC

Les agents IA autonomes capables de s'exécuter directement sur un ordinateur personnel constituent une nouvelle génération d'outils radicalement différents des chatbots classiques. Contrairement à ces derniers, ils ne se contentent pas de répondre à des questions : ils planifient et exécutent des missions complexes de façon indépendante, en décomposant un objectif large en étapes logiques, en vérifiant leurs propres résultats et en ajustant leur stratégie en cas d'erreur. Sur le plan technique, ces systèmes s'appuient sur un modèle de langage (LLM) comme moteur de raisonnement, couplé à une mémoire de suivi et à des outils d'action concrets, lecture de fichiers, navigation web, exécution de code. Des frameworks comme LangChain, CrewAI ou AutoGen structurent ces opérations, tandis que des applications comme GPT4All (développée par Nomic AI) ou Ollama permettent de faire tourner localement des modèles comme Llama 3 ou Mistral. Le choix du modèle dépend directement du matériel disponible : un modèle de 7 milliards de paramètres quantifié (Q4/Q5) exige environ 8 Go de VRAM, quand la précision standard (fp16) double ce besoin, et les modèles de 13 à 34 milliards de paramètres requièrent au moins 24 Go. L'intérêt principal de cette exécution en local réside dans la souveraineté des données et l'indépendance opérationnelle. Les documents sensibles ne quittent jamais le disque dur, ce qui supprime les risques liés aux fuites de données sur des serveurs tiers. L'absence de connexion internet requise élimine également les pannes dépendant de services cloud, les frais d'API et les abonnements mensuels. Pour les professionnels manipulant des données confidentielles, données médicales, juridiques, financières, cette rupture avec le cloud représente un changement de paradigme concret. Les outils comme Lain Agent ciblent les utilisateurs non techniques sous Windows sans configuration avancée, tandis qu'AutoGen ou LangChain offrent aux développeurs une flexibilité totale pour connecter ces agents à des systèmes Git, des bases de données ou des pipelines d'automatisation. Ce mouvement vers l'IA locale s'inscrit dans une tendance plus large de démocratisation matérielle accélérée par la montée en puissance des GPU grand public et des puces NPU intégrées dans les processeurs modernes. Pendant des années, exécuter un LLM performant nécessitait une infrastructure serveur hors de portée du particulier. La quantification des modèles et l'optimisation des runtimes comme Ollama ont radicalement abaissé cette barrière. Les acteurs impliqués sont aussi bien des laboratoires de recherche open source (Meta avec Llama, Mistral AI) que des startups spécialisées dans l'outillage local (Nomic AI). La prochaine étape logique sera l'intégration native de ces agents dans les systèmes d'exploitation et les environnements de développement, rendant l'autonomie locale accessible sans aucune configuration technique préalable.

UEMistral AI (entreprise française) est citée comme acteur clé du mouvement open source local, et la souveraineté des données mise en avant répond directement aux contraintes RGPD pesant sur les entreprises européennes.

OutilsOutil
1 source
Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session
156MarkTechPost 

Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session

Alibaba a publié Qwen 3.6-35B-A3B, un modèle de langage multimodal à architecture MoE (Mixture of Experts) de 35 milliards de paramètres, dont seulement 3,6 milliards sont activés par inférence. Un tutoriel complet, publié en avril 2026, détaille comment déployer ce modèle de bout en bout dans un environnement Google Colab équipé d'un GPU A100 ou L4. L'implémentation couvre un spectre large de fonctionnalités : inférence multimodale avec traitement d'images, contrôle du budget de raisonnement, génération en streaming avec séparation des traces de réflexion et des réponses finales, appel d'outils externes, génération JSON structurée, inspection du routage MoE, benchmarking, génération augmentée par récupération (RAG) et persistance de session. Le code charge le modèle de manière adaptative selon la VRAM disponible : en précision complète bfloat16 au-delà de 75 Go, en quantification int8 entre 40 et 75 Go, et en int4 en dessous, réduisant ainsi les besoins matériels d'un modèle qui pèse environ 70 Go à télécharger. Ce type d'implémentation représente un tournant concret pour les développeurs et chercheurs qui souhaitent expérimenter avec des modèles de frontier-level sans infrastructure cloud dédiée. La capacité à contrôler explicitement le budget de raisonnement, c'est-à-dire la profondeur de réflexion que le modèle alloue avant de répondre, ouvre des usages précis : réduire la latence pour des tâches simples, ou au contraire laisser le modèle « penser » longuement sur des problèmes complexes de code ou de raisonnement logique. L'intégration native du RAG permet de connecter le modèle à des bases de connaissances externes sans fine-tuning, tandis que la persistance de session autorise des conversations longues et cohérentes sur plusieurs échanges. Pour les équipes produit, cela signifie qu'un prototype d'assistant multimodal capable d'appeler des API, d'analyser des images et de maintenir un contexte conversationnel peut être construit sur une seule machine GPU en quelques heures. Qwen 3.6-35B-A3B s'inscrit dans la série Qwen 3 d'Alibaba Cloud, dont plusieurs variantes ont été publiées en open-source début 2025, positionnant le groupe chinois comme concurrent direct d'OpenAI, Google DeepMind et Meta sur le segment des grands modèles accessibles. L'architecture MoE est au coeur de cette stratégie : en n'activant qu'une fraction des paramètres à chaque inférence, elle permet de combiner la capacité d'un très grand modèle avec un coût de calcul réduit. Le tutoriel en question s'adresse aux praticiens qui veulent dépasser l'usage via API et comprendre les mécanismes internes, notamment le routage des experts, observable directement dans le code fourni. La prochaine étape naturelle pour la communauté sera d'évaluer ces capacités sur des benchmarks standardisés et d'intégrer ces modèles dans des pipelines de production, un domaine où la persistance de session et l'appel d'outils deviennent des critères de sélection aussi importants que les scores académiques.

UELes développeurs et équipes produit européens peuvent déployer ce modèle open-source de niveau frontier sur une seule machine GPU, réduisant la dépendance aux APIs cloud propriétaires pour des prototypes multimodaux.

LLMsTuto
1 source
Phi-4-Mini de Microsoft : implémentation pour l'inférence quantifiée, le RAG et l'affinage LoRA
157MarkTechPost 

Phi-4-Mini de Microsoft : implémentation pour l'inférence quantifiée, le RAG et l'affinage LoRA

Microsoft a publié Phi-4-mini-instruct, un modèle de langage compact de la famille Phi-4, conçu pour fonctionner efficacement sur du matériel grand public. Des chercheurs et développeurs ont récemment publié un tutoriel complet montrant comment exploiter ce modèle dans un notebook Google Colab sur GPU T4, en couvrant l'ensemble du spectre des usages modernes : inférence en streaming, raisonnement structuré, appels d'outils, génération augmentée par récupération (RAG) et fine-tuning par LoRA. Le pipeline s'appuie sur une quantification 4 bits au format NF4 via la bibliothèque BitsAndBytes, combinée à bfloat16 et double quantification, ce qui permet de charger le modèle en moins de 2 Go de VRAM tout en conservant des performances proches du modèle en pleine précision. La stack technique repose sur des versions précises de Transformers (4.49 à 4.57), PEFT, Accelerate, Datasets, sentence-transformers et FAISS, toutes compatibles avec l'architecture native phi3 de Microsoft. Ce travail illustre une tendance de fond dans l'industrie : rendre les workflows LLM avancés accessibles sans infrastructure coûteuse. Un développeur équipé d'un simple GPU de jeu ou d'un accès gratuit à Colab peut désormais expérimenter le tool calling, le RAG ou l'adaptation par LoRA sur un modèle performant, sans dépendre d'API payantes ni de clusters H100. Pour les entreprises, cela ouvre la voie à des déploiements on-premise de petits modèles capables de gérer des tâches complexes, avec un contrôle total sur les données et des coûts d'inférence drastiquement réduits. La démocratisation de ces techniques touche directement les équipes data, les startups et les développeurs indépendants qui ne peuvent pas se permettre de faire tourner des modèles de 70 milliards de paramètres en continu. Cette publication s'inscrit dans la stratégie de Microsoft autour de la famille Phi, dont l'objectif affiché est de prouver que la taille n'est pas le seul vecteur de performance. Phi-4-mini succède à Phi-3, qui avait déjà surpris l'industrie en dépassant des modèles nettement plus grands sur plusieurs benchmarks de raisonnement. La concurrence sur ce segment des petits modèles efficaces est aujourd'hui vive : Google pousse Gemma, Meta propose Llama 3.2 en versions 1B et 3B, et Mistral entretient sa gamme Mistral-Nemo. Le fait que Phi-4-mini supporte nativement le tool calling et s'intègre facilement dans des pipelines RAG renforce son positionnement pour des cas d'usage en production, notamment les assistants embarqués, les agents autonomes légers et les systèmes d'analyse documentaire tournant en local.

UELes développeurs et startups européens peuvent déployer ce modèle en local sur du matériel grand public, réduisant leur dépendance aux API cloud payantes et facilitant la conformité RGPD par traitement on-premise.

LLMsTuto
1 source
Des influenceurs générés par IA inondent les réseaux sociaux de contenus pro-Trump avant les midterms
158The Decoder 

Des influenceurs générés par IA inondent les réseaux sociaux de contenus pro-Trump avant les midterms

Des centaines d'avatars générés par intelligence artificielle inondent TikTok, Instagram et YouTube avec des messages de soutien à Donald Trump à l'approche des élections de mi-mandat américaines. Certains de ces comptes ont déjà accumulé plus de 35 000 abonnés et engrangé des millions de vues. Trump lui-même a partagé du contenu produit par IA, ce qui a contribué à amplifier leur portée. L'origine de cette vague reste floue : s'agit-il d'initiatives d'activistes individuels ou d'une campagne coordonnée, personne ne le sait encore avec certitude. Ce phénomène soulève des questions majeures sur l'intégrité de l'information politique en ligne. Des influenceurs virtuels, indiscernables de vraies personnes, peuvent diffuser des messages partisans à grande échelle, sans les contraintes légales ou éthiques qui s'appliquent aux acteurs humains. Pour les plateformes comme TikTok et Meta, la détection et la modération de ce type de contenu représentent un défi technique et politique considérable, d'autant que les algorithmes de recommandation amplifient naturellement les contenus engageants, quelle que soit leur origine. L'utilisation de l'IA à des fins de propagande politique n'est pas nouvelle, mais la facilité avec laquelle ces avatars peuvent être créés et déployés massivement marque un tournant. Après les controverses autour des ingérences étrangères lors des élections de 2016 et 2020, les autorités américaines et les plateformes ont renforcé leurs politiques, sans pour autant anticiper ce scénario. La question de la transparence sur l'origine artificielle du contenu politique devient désormais centrale pour les régulateurs et les législateurs aux États-Unis comme en Europe.

UELa prolifération d'avatars politiques générés par IA interpelle directement les régulateurs européens, le Digital Services Act et l'AI Act imposant des obligations de transparence et de marquage des contenus synthétiques que les plateformes peinent encore à appliquer.

💬 On savait que ça allait arriver, mais la vitesse, là, ça surprend quand même. Des centaines de comptes coordonnés, des millions de vues en quelques semaines, c'est plus de l'expérimentation isolée, c'est une chaîne de production. Le DSA impose le marquage des contenus synthétiques, sur le papier c'est exactement pour ça qu'il existe, mais modérer à cette échelle sur TikTok sans faux positifs massifs, personne ne l'a encore réussi.

ÉthiqueOpinion
1 source
L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs
159MarkTechPost 

L'équipe Qwen publie en open source Qwen3.6-35B-A3B, modèle vision-langage MoE à 3 milliards de paramètres actifs

L'équipe Qwen d'Alibaba a publié Qwen3.6-35B-A3B, le premier modèle open-weight de la génération Qwen3.6, une architecture multimodale de type Mixture of Experts (MoE) qui combine 35 milliards de paramètres au total, mais n'en active que 3 milliards lors de l'inférence. Le modèle repose sur 256 experts par couche, dont seulement 8 sont mobilisés par token, ce qui maintient les coûts de calcul et la latence au niveau d'un modèle bien plus petit. Il intègre un encodeur visuel natif capable de traiter images, documents, vidéos et tâches de raisonnement spatial, avec une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à plus d'un million via la technique YaRN. Le modèle est disponible en open-weight, accompagné d'un billet de blog technique détaillé publié sur qwen.ai. Les performances en développement logiciel autonome constituent l'argument le plus fort de ce lancement. Sur SWE-bench Verified, le benchmark de référence pour la résolution de problèmes GitHub réels, Qwen3.6-35B-A3B obtient 73,4 points, contre 70,0 pour son prédécesseur Qwen3.5-35B-A3B et 52,0 pour Gemma4-31B de Google. Sur Terminal-Bench 2.0, qui évalue un agent accomplissant des tâches dans un vrai terminal avec trois heures allouées, il atteint 51,5, devant tous les modèles comparés. En génération de code frontend, l'écart est encore plus marqué: le modèle score 1 397 sur QwenWebBench interne, contre 978 pour la version précédente. Sur les benchmarks de raisonnement scientifique, il obtient 92,7 sur AIME 2026 et 86,0 sur GPQA Diamond. Côté vision, il surpasse Claude Sonnet 4.5 sur MMMU (81,7 contre 79,6), sur RealWorldQA (85,3 contre 70,3) et sur VideoMMMU (83,7 contre 77,6). Ce lancement s'inscrit dans une course intense entre les grands laboratoires chinois et occidentaux pour produire des modèles à la fois performants et économiquement viables à déployer. L'approche MoE, popularisée par Mistral avec Mixtral puis reprise par Meta, DeepSeek et désormais Alibaba, répond directement à la contrainte centrale du déploiement en production: réduire le coût par token sans sacrifier la qualité. Qwen3.6-35B-A3B joue ici sur deux tableaux simultanément, en ciblant à la fois les développeurs qui cherchent un agent de codage capable et les équipes qui ont besoin de capacités visuelles avancées sans financer un modèle dense de 100 milliards de paramètres. La disponibilité en open-weight renforce l'attractivité du modèle pour les entreprises soucieuses de garder la main sur leur infrastructure, dans un contexte où les modèles propriétaires de frontier comme GPT-4o ou Gemini Ultra restent hors de portée pour un déploiement local.

UELa disponibilité en open-weight permet aux entreprises et institutions européennes de déployer ce modèle multimodal performant en infrastructure locale, réduisant la dépendance aux modèles propriétaires américains et soutenant les objectifs de souveraineté numérique de l'UE.

LLMsActu
1 source
The Download : l'état de l'IA et la protection des ours par drones
160MIT Technology Review 

The Download : l'état de l'IA et la protection des ours par drones

Le rapport annuel Stanford AI Index 2026, publié cette semaine, dresse un état des lieux chiffré de l'intelligence artificielle mondiale et confirme une réalité fracturée. Parmi ses données les plus frappantes : 73 % des experts américains estiment que l'IA a un impact positif sur l'emploi, contre seulement 23 % du grand public. Cet écart se retrouve dans les domaines de la santé et de l'économie. Par ailleurs, un homme du Texas a été inculpé pour tentative de meurtre sur la personne de Sam Altman, PDG d'OpenAI, après avoir lancé un cocktail Molotov sur sa résidence vendredi dernier. Le suspect aurait détenu une liste d'autres dirigeants de l'industrie de l'IA. Dans le même temps, un mémo interne leaked révèle qu'OpenAI planifie une offensive directe contre son concurrent Anthropic, tout en accusant Microsoft d'avoir "limité sa capacité" à atteindre ses clients, et en cultivant une alliance naissante avec Amazon. Ces développements illustrent les tensions profondes qui traversent l'écosystème IA. Le fossé entre experts et grand public n'est pas anodin : ceux qui utilisent l'IA au quotidien pour le code et les tâches techniques la voient à son meilleur, tandis que le reste de la population fait face à une expérience bien plus inégale. Ce décalage de perception alimente des débats politiques et sociaux mal calibrés. Sur le front compétitif, la rivalité entre grands laboratoires s'intensifie à un moment critique : les meilleurs agents IA n'accomplissent encore que la moitié des tâches complexes qu'un expert humain avec un doctorat peut réaliser, selon une étude publiée dans Nature. L'IA commence néanmoins à transformer les mathématiques en prouvant de nouveaux résultats à un rythme soutenu, et trouve des failles logicielles plus vite qu'elles ne peuvent être corrigées, ce qui représente un risque réel d'exploitation par des hackers. Le rapport Stanford s'inscrit dans un contexte où la rivalité sino-américaine en matière d'IA s'accélère et où les percées de modèles se succèdent plus vite que les capacités de régulation. Les inscriptions en informatique aux États-Unis chutent massivement, une tendance attribuée en partie à la dévaluation perçue du diplôme face aux outils de codage automatisés. Meta s'apprête quant à elle à dépasser Google en revenus publicitaires en 2026, devenant ainsi la première plateforme mondiale de publicité numérique, signe du repositionnement des géants tech autour de l'IA. L'index Stanford rappelle que derrière les annonces spectaculaires, la technologie évolue plus vite que les institutions, les entreprises et les individus ne peuvent s'y adapter.

UELe rapport Stanford AI Index 2026 met en évidence un fossé de perception entre experts et grand public sur l'impact de l'IA sur l'emploi, un enjeu central pour les politiques européennes de régulation et d'adaptation au marché du travail.

SociétéActu
1 source
Un dirigeant d'OpenAI dans une note interne : le marché est plus compétitif que jamais
161The Verge AI 

Un dirigeant d'OpenAI dans une note interne : le marché est plus compétitif que jamais

Denise Dresser, directrice des revenus d'OpenAI, a envoyé dimanche un mémo interne de quatre pages aux employés de l'entreprise. Le document, consulté par The Verge, détaille la direction stratégique de la société et insiste sur deux priorités : fidéliser les utilisateurs existants et accélérer le développement de l'activité auprès des clients entreprise. Dresser a récemment repris une grande partie des responsabilités de l'ancien directeur des opérations Brad Lightcap, qui se réoriente vers un nouveau poste centré sur des projets spéciaux. Son constat est sans détour : "Le marché est aussi compétitif que je ne l'ai jamais vu." Le mémo revient à plusieurs reprises sur la nécessité de construire un "fossé" autour des produits d'OpenAI, c'est-à-dire des raisons suffisamment fortes pour qu'utilisateurs et entreprises ne migrent pas vers un concurrent. C'est précisément le talon d'Achille du secteur : les modèles d'IA se valent souvent d'une semaine à l'autre selon les benchmarks, et le coût de changement reste quasi nul pour la plupart des utilisateurs. La rétention devient donc un enjeu stratégique aussi important que l'acquisition. Ce signal interne reflète une tension croissante chez OpenAI, qui doit défendre sa position de leader face à une concurrence qui s'est radicalement accélérée ces derniers mois. Google, Anthropic, Meta et des acteurs comme DeepSeek ou Mistral réduisent l'écart technique, tandis que Microsoft, principal partenaire et investisseur d'OpenAI, diversifie ses propres intégrations IA. Le tournant vers l'entreprise, segment plus stable et moins volatil que le grand public, traduit une maturité commerciale mais aussi une forme de pression sur la croissance organique de ChatGPT.

UEMistral est explicitement cité comme concurrent réduisant l'écart technique avec OpenAI, ce qui confirme la montée en puissance des acteurs européens dans la compétition mondiale des modèles IA.

BusinessOpinion
1 source
Cette étude révèle pourquoi l’IA pourrait fragiliser l’économie des entreprises
162Le Big Data 

Cette étude révèle pourquoi l’IA pourrait fragiliser l’économie des entreprises

Une étude publiée en avril 2026 par des chercheurs de l'Université de Pennsylvanie et de l'Université de Boston, intitulée "The AI Layoff Trap", modélise mathématiquement un mécanisme économique préoccupant lié à l'automatisation massive par l'IA. Les chiffres sont éloquents : plus de 100 000 postes ont disparu dans le secteur technologique en 2025, et 2026 s'annonce encore plus marqué avec déjà 61 000 suppressions d'emplois recensées. Des géants comme Amazon et Meta multiplient les vagues de licenciements, tandis que les chercheurs estiment que près de 80 % des travailleurs américains restent exposés à l'automatisation. L'étude utilise un modèle issu de la théorie des jeux pour démontrer que chaque entreprise, prise individuellement, agit de façon parfaitement rationnelle en adoptant l'IA afin de réduire ses coûts et maintenir sa compétitivité face à ses concurrents. Le problème, selon les auteurs, est que cette rationalité individuelle produit une irrationali­té collective. Moins d'emplois signifie moins de pouvoir d'achat, donc moins de consommation, donc une demande en recul dans tous les secteurs de l'économie. Les revenus des entreprises finissent par chuter, y compris celles qui ont massivement automatisé. Le mécanisme est décrit comme un dilemme du prisonnier appliqué à l'échelle macroéconomique : chaque acteur optimise sa survie à court terme, mais l'ensemble du système se déstabilise. Les entreprises qui n'automatisent pas perdent des parts de marché face à celles qui le font, ce qui les contraint à automatiser à leur tour, entretenant un cercle qui érode progressivement la demande dont toutes dépendent. Ce que rend particulièrement inquiétant le constat des chercheurs, c'est l'échec des solutions habituellement proposées. Le revenu universel de base, la redistribution fiscale du capital ou encore la formation professionnelle continue sont examinés et écartés : aucune de ces mesures ne modifie les incitations profondes qui poussent les entreprises vers l'automatisation massive. Tant que la pression concurrentielle reste intacte, chaque acteur continuera d'accélérer ses investissements en IA pour ne pas se laisser distancer, quelle que soit la politique redistributive en place. Cette étude s'inscrit dans un débat économique qui prend de l'ampleur alors que les grandes entreprises technologiques réallouent leurs budgets salariaux vers des infrastructures d'IA, posant une question structurelle à laquelle les gouvernements et les régulateurs n'ont pas encore trouvé de réponse convaincante.

UELes entreprises et travailleurs européens sont soumis aux mêmes dynamiques concurrentielles décrites par l'étude, ce qui renforce l'urgence du débat européen sur la régulation du marché du travail face à l'automatisation massive.

SociétéPaper
1 source
Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués
163MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
Perplexity voit ses revenus grimper de 50% grâce aux agents IA
164Le Big Data 

Perplexity voit ses revenus grimper de 50% grâce aux agents IA

Perplexity, la startup américaine connue pour son moteur de recherche conversationnel, a vu son chiffre d'affaires annuel récurrent (ARR) bondir à 450 millions de dollars en mars 2026, soit une hausse de 50 % en un seul mois. Cette progression fait suite au lancement de Computer, un agent IA capable d'exécuter des tâches concrètes comme effectuer des achats en ligne, résumer l'actualité ou envoyer des e-mails à partir d'instructions en langage naturel. La société a également introduit un nouveau modèle de tarification à l'usage, qui facture les clients au-delà d'un certain quota de crédits, en complément de ses abonnements mensuels allant de 20 à 200 dollars. Perplexity revendique désormais plus de 100 millions d'utilisateurs actifs mensuels et plusieurs dizaines de milliers de clients professionnels. Pour replacer l'ampleur de cette croissance : l'ARR de la société était de 16 millions de dollars il y a deux ans, avant d'atteindre 305 millions début 2026. Ce bond de 50 % en un mois illustre un pivot stratégique majeur : Perplexity ne cherche plus seulement à concurrencer Google sur la recherche d'information, mais à se positionner sur le marché des agents IA autonomes, un segment en pleine explosion. En proposant des outils capables d'agir à la place de l'utilisateur, la startup s'attaque à un marché beaucoup plus vaste et potentiellement plus rentable que la simple requête web. L'ajout du navigateur Comet, qui intègre des fonctionnalités agentiques directement dans la navigation, et de Model Council, qui interroge plusieurs modèles d'IA en parallèle pour comparer leurs réponses, témoigne d'une diversification rapide de l'offre. Pour les entreprises et les professionnels, ces outils représentent une alternative crédible aux assistants IA des géants comme Google ou Microsoft. Cette ascension se déroule pourtant dans un contexte juridique tendu. Perplexity est visée par plusieurs poursuites d'éditeurs de presse, dont le New York Times et Britannica, pour violation de droits d'auteur et plagiat dans le cadre de son moteur de recherche. Une plainte distincte l'accuse également d'avoir partagé des données d'utilisateurs avec Google et Meta sans consentement, ce que la société rejette. Sur le plan financier, la rentabilité reste hors de portée : Perplexity dépend d'OpenAI, d'Anthropic et d'autres fournisseurs externes pour accéder aux modèles de langage, ce qui génère un coût à chaque requête. Malgré cela, les investisseurs maintiennent leur confiance. La valorisation de l'entreprise a atteint 20 milliards de dollars en septembre 2025, contre 500 millions début 2024, avec au capital des noms comme Nvidia, SoftBank, Jeff Bezos et Yann LeCun. La prochaine étape sera de transformer cette traction commerciale en profitabilité durable.

UELes entreprises européennes peuvent évaluer Perplexity comme alternative crédible aux assistants IA dominants, mais les poursuites pour violation de droits d'auteur soulèvent des questions de conformité avec la directive européenne sur le droit d'auteur.

BusinessActu
1 source
OpenAI : prévisions et conjectures
165The Information AI 

OpenAI : prévisions et conjectures

OpenAI fait face à des critiques croissantes sur la crédibilité de ses projections financières. Selon des documents obtenus par The Information, la société prévoit que son chiffre d'affaires total atteindra 284 milliards de dollars d'ici 2030, contre 13 milliards en 2025. Sur le seul segment publicitaire, OpenAI anticipe 2,4 milliards de dollars de revenus publicitaires pour ChatGPT cette année, 11 milliards en 2026, et jusqu'à 102 milliards en 2030, alors que la plateforme n'a commencé à tester la publicité qu'en février 2025. Ces chiffres soulèvent des questions sérieuses sur la rigueur des prévisions communiquées aux investisseurs. L'analyste financier Jim Chanos, réputé pour ses positions à la baisse sur des entreprises surévaluées, a déclaré en février que ces projections s'apparentaient peut-être à de simples "suppositions". Promettre 2,4 milliards de revenus publicitaires sur une année à peine entamée, pour un format publicitaire encore en phase de test, relève d'un optimisme difficilement justifiable. Pour les investisseurs qui participent aux levées de fonds massives d'OpenAI, dont la valorisation dépasse les 300 milliards de dollars, la qualité de ces projections a des implications directes sur leurs décisions d'allocation de capital. OpenAI se trouve dans une position paradoxale : pour justifier des valorisations astronomiques, la société doit présenter des trajectoires de croissance spectaculaires, au risque de perdre en crédibilité si les chiffres réels s'écartent trop des prévisions. L'entreprise cherche à diversifier ses revenus au-delà des abonnements ChatGPT et des accords API, notamment via la publicité et les services aux entreprises. Mais dans un secteur où Google, Meta et Microsoft disposent d'infrastructures publicitaires établies depuis des années, la montée en puissance d'OpenAI sur ce marché reste hautement incertaine. The Information suggère que la direction d'OpenAI aurait tout intérêt à cesser de publier des prévisions à si long terme, qui nuisent davantage à sa réputation qu'elles ne servent ses intérêts.

UELes investisseurs européens exposés aux levées de fonds d'OpenAI (valorisée à 300 milliards de dollars) doivent évaluer la crédibilité de ces projections financières dans leurs décisions d'allocation de capital.

BusinessOpinion
1 source
OpenAI prévoit que le marché publicitaire atteindra 102 milliards de dollars d'ici 2030
166The Information AI 

OpenAI prévoit que le marché publicitaire atteindra 102 milliards de dollars d'ici 2030

OpenAI mise désormais sur la publicité comme principal moteur de revenus d'ici 2030, avec des projections atteignant 102 milliards de dollars. Selon des prévisions financières internes du premier trimestre 2026, qui n'avaient pas encore été rendues publiques, la société s'attend à générer environ 2,4 milliards de dollars de revenus publicitaires cette année, puis à quadrupler ce chiffre dès 2025 pour approcher les 11 milliards. Ces estimations dépassent largement les projections établies il y a un an, qui tablaient sur 1,6 milliard cette année et 5,9 milliards l'année suivante pour les utilisateurs non abonnés. Ce repositionnement stratégique signale un tournant majeur dans le modèle économique d'OpenAI. Jusqu'ici fortement dépendante des abonnements ChatGPT et des contrats API avec les entreprises, la société cherche à diversifier ses sources de revenus à grande échelle. Faire de la publicité le premier poste de revenus d'ici 2030 implique de transformer ses plateformes en espaces publicitaires capables de rivaliser avec les géants du secteur, ce qui pourrait profondément modifier l'expérience utilisateur de ses produits grand public. OpenAI entre ainsi en concurrence directe avec Google, Meta et Microsoft sur un marché publicitaire dominé par quelques acteurs. La société, valorisée à 157 milliards de dollars après sa dernière levée de fonds, fait face à des dépenses colossales en infrastructure et doit trouver des relais de croissance au-delà des abonnements. L'intégration de la publicité dans ses produits reste toutefois à préciser techniquement et éthiquement, notamment sur la question de la personnalisation des données dans un contexte d'IA générative.

UELe virage publicitaire d'OpenAI pourrait soulever des questions de conformité au RGPD si ChatGPT exploite les données des utilisateurs européens à des fins de ciblage publicitaire.

BusinessOpinion
1 source
USA : les chantiers de datacenters butent sur un double mur énergétique
167Next INpact 

USA : les chantiers de datacenters butent sur un double mur énergétique

Entre 30 et 50 % des projets de datacenters prévus pour 2026 aux États-Unis accuseront des retards significatifs, selon une enquête de Bloomberg publiée le 1er avril 2026. Le frein principal n'est pas, comme on pourrait le supposer, la pénurie de puces IA ou de mémoire vive, mais bien un goulot d'étranglement à l'étage inférieur : les équipements électriques indispensables à l'alimentation de ces infrastructures, transformateurs, turbines, systèmes de distribution haute tension. Ces composants représentent moins de 10 % du coût total d'un datacenter, mais leur absence suffit à bloquer l'ensemble d'un chantier. La demande est colossale : selon une analyse de Bridgewater Associates de fin février 2026, Google, Amazon, Meta et Microsoft ont planifié à eux seuls 650 milliards de dollars de dépenses d'investissement en infrastructures. À cela s'ajoutent des acteurs comme Oracle, Equinix ou CoreWeave, qui construisent leurs propres centres de données en parallèle. Ce double mur, énergétique d'un côté, industriel de l'autre, crée une situation paradoxale où des centaines de milliards de dollars sont engagés mais ne peuvent se concrétiser faute de câbles, de transformateurs et de turbines disponibles en quantité suffisante. Pour les entreprises clientes comme OpenAI ou Anthropic, dont les besoins de calcul explosent, ces retards de livraison se traduisent directement par des contraintes de capacité. Pour les régions concernées, le problème est aussi structurel : plusieurs zones du territoire américain disposent d'un réseau électrique insuffisamment dimensionné pour absorber de telles charges. Meta a d'ores et déjà réservé 6,6 gigawatts d'énergie nucléaire dont les réacteurs ne seront pas opérationnels avant 2035, signe que les géants tech anticipent une pénurie durable. Face à ces contraintes, les grandes entreprises technologiques cherchent à devenir leurs propres producteurs d'énergie, contournant ainsi les délais de raccordement au réseau public. L'exemple le plus radical est celui de xAI, la société d'Elon Musk, qui a levé 20 milliards de dollars en partie pour financer l'achat de cinq turbines à gaz représentant 2 gigawatts de puissance cumulée, en complément d'installations déjà existantes dont les niveaux d'émission dépassent la réglementation locale. Ce mouvement de verticalisation énergétique illustre une tendance de fond : la course à l'infrastructure IA est désormais autant une question d'approvisionnement électrique que de performance logicielle. Le cabinet Sightline Climate, dont Bloomberg s'appuie sur les données chiffrées, documente une accumulation de retards qui révèle les limites réelles de plans d'investissement présentés comme historiques mais dont l'exécution se heurte à la physique des réseaux et aux délais de l'industrie lourde.

UEL'Europe fait face aux mêmes contraintes de réseau électrique et de délais d'approvisionnement en équipements lourds, risquant de ralentir les projets de datacenters européens pourtant essentiels à la souveraineté numérique de l'UE.

InfrastructureOpinion
1 source
GitHub enregistre une hausse de trafic et des pannes liees a l'afflux d'agents IA sur la plateforme
168The Information AI 

GitHub enregistre une hausse de trafic et des pannes liees a l'afflux d'agents IA sur la plateforme

GitHub, la plateforme de dépôts de code appartenant à Microsoft, enregistre une hausse spectaculaire de son trafic sous l'effet de l'automatisation pilotée par des agents d'intelligence artificielle. Selon Kyle Daigle, directeur des opérations de GitHub, cette vague d'activité générée par des systèmes automatisés provoque des pics de charge inédits sur les serveurs de la plateforme, allant jusqu'à causer des interruptions de service. Les développeurs utilisent désormais des agents IA capables de produire des volumes de code bien supérieurs à ce qu'un humain pourrait écrire seul. Cette dynamique transforme en profondeur les habitudes de développement logiciel. Des entreprises comme Meta organisent des concours internes appelés "tokenmaxxing", où les ingénieurs s'affrontent pour maximiser la consommation de tokens IA, signe que la productivité se mesure désormais à l'aune de la capacité à piloter ces outils automatisés. Pour GitHub, cette tendance représente à la fois une opportunité commerciale majeure et un défi d'infrastructure critique : la plateforme doit absorber un trafic d'une nature radicalement différente, continu et massif, là où les humains travaillent de façon discontinue. Cette évolution s'inscrit dans un contexte plus large d'industrialisation du développement logiciel par l'IA. GitHub, qui héberge des centaines de millions de dépôts, est devenu un point de passage obligé pour les workflows d'agents autonomes qui clonent, modifient et poussent du code en boucle. La question de la résilience des infrastructures centrales du développement logiciel mondial devient ainsi un enjeu stratégique, au moment où Microsoft investit massivement dans l'intégration de Copilot et d'outils IA au sein de l'écosystème GitHub.

UELes développeurs et entreprises européennes utilisant GitHub sont exposés aux risques de pannes liées à la surcharge par agents IA, ce qui soulève des questions de dépendance à une infrastructure critique américaine.

InfrastructureActu
1 source
Google lance une application pour utiliser son IA en local sur iPhone et Android
169Numerama 

Google lance une application pour utiliser son IA en local sur iPhone et Android

Google a lancé AI Edge Gallery, une nouvelle application disponible sur iPhone et Android permettant de faire tourner des modèles d'intelligence artificielle directement sur l'appareil, sans connexion réseau. L'application s'appuie sur les modèles Gemma 4, la dernière génération de modèles open source légers de Google, conçus pour fonctionner sur des terminaux mobiles aux ressources limitées. Elle propose plusieurs expériences interactives exploitant ces capacités d'inférence locale. Cette initiative marque une étape concrète dans la course à l'IA embarquée sur smartphone. Faire tourner un modèle de langage en local élimine la latence réseau, préserve la confidentialité des données et permet une utilisation hors connexion, trois avantages majeurs pour les utilisateurs mobiles. Pour Google, c'est aussi un moyen de tester l'adoption de Gemma 4 auprès du grand public et de démontrer que ses modèles open source sont compétitifs sur des appareils du quotidien, face à des concurrents comme Apple Intelligence ou les solutions embarquées de Meta. Google s'inscrit ici dans une tendance de fond : après avoir imposé Gemini comme assistant par défaut sur Android, l'entreprise cherche à étendre sa présence sur iOS tout en investissant dans l'IA on-device. Gemma 4, présenté récemment, est précisément optimisé pour ce type de déploiement. AI Edge Gallery fonctionne pour l'instant comme un terrain d'expérimentation ouvert, ce qui laisse supposer qu'une intégration plus profonde dans les produits Google grand public pourrait suivre selon les retours des utilisateurs.

UEL'inférence locale préserve les données sur l'appareil, un avantage concret pour les utilisateurs européens soumis au RGPD, sans transfert vers des serveurs tiers.

OutilsOutil
1 source
Anthropic expose accidentellement le code source de Claude Code via un fichier npm
170InfoQ AI 

Anthropic expose accidentellement le code source de Claude Code via un fichier npm

Anthropic a accidentellement exposé l'intégralité du code source de son outil Claude Code en incluant un fichier de source map dans la version 2.1.88 du paquet npm, publiée récemment. Ce fichier, normalement réservé au débogage, contenait la totalité du code TypeScript original -- soit environ 512 000 lignes -- qui était pourtant censé rester compilé et opaque. En quelques heures, des développeurs ont archivé le code sur GitHub, le rendant publiquement accessible. Anthropic a confirmé l'incident, le qualifiant d'erreur humaine lors du processus de packaging. La fuite a mis en lumière des éléments sensibles que l'entreprise n'avait pas encore annoncés : des fonctionnalités inédites, des noms de code internes pour ses modèles, ainsi que l'architecture de son système d'orchestration multi-agents. Ces informations constituent une mine de renseignements concurrentiels pour des acteurs comme OpenAI, Google DeepMind ou Meta, qui cherchent à comprendre les orientations techniques d'Anthropic. Pour les développeurs utilisant Claude Code au quotidien, la fuite offre un aperçu rare du fonctionnement interne d'un outil commercial de premier plan. Cet incident illustre la tension croissante entre la volonté des laboratoires d'IA de protéger leur propriété intellectuelle et les risques opérationnels inhérents à la distribution de logiciels via des registres publics comme npm. Anthropic, valorisé à plusieurs dizaines de milliards de dollars, mise largement sur Claude Code pour concurrencer GitHub Copilot et les outils de Cursor dans le segment des assistants de développement. L'entreprise devra désormais renforcer ses processus de publication pour éviter que de telles erreurs ne se reproduisent, d'autant que la course aux agents de codage s'intensifie.

BusinessActu
1 source
TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?
171The Information AI 

TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?

Nick Tatarchuk, fondateur de la startup TensorWave, a organisé mercredi à San Francisco un événement intitulé Beyond Summit, anciennement appelé Beyond CUDA. Ce changement de nom n'est pas anodin : l'édition précédente, tenue à San Jose en 2025 lors de la conférence GTC de Nvidia, avait attiré des centaines de participants désireux de discuter des alternatives au logiciel de Nvidia. Cette année, des sponsors et participants potentiels ont exprimé des réticences à s'associer à un événement aussi explicitement positionné contre le géant des puces. Tatarchuk lui-même reconnaît cette pression, d'autant que sa salle habituelle à San Jose avait été réservée pour plusieurs années... par Nvidia. L'événement réunit des startups qui développent des compilateurs, des noyaux et des couches d'optimisation pour concurrencer l'écosystème logiciel de Nvidia, dont plusieurs ont figuré dans les classements Top 50 Startups de 2024 et 2025. L'enjeu central est CUDA, la plateforme logicielle de Nvidia considérée comme son véritable fossé concurrentiel : elle simplifie radicalement l'utilisation du matériel Nvidia pour l'entraînement et l'inférence de modèles d'IA. Mais ce monopole commence à se fissurer. OpenAI et Meta ont récemment annoncé des accords importants avec AMD, rival direct de Nvidia, pour utiliser ses puces dans leurs infrastructures d'IA. Tatarchuk affirme que des laboratoires d'IA commencent désormais à réaliser des entraînements à grande échelle sur du matériel AMD, une pratique qui était à peine évoquée publiquement il y a encore peu. Pour la première fois depuis des années, des clients seraient prêts à envisager sérieusement des alternatives à CUDA, estime-t-il : "Il y a tellement d'entreprises sophistiquées qui n'ont pas besoin de CUDA." Ce mouvement s'inscrit dans un contexte de transformation profonde de l'industrie du calcul pour l'IA. La domination de Nvidia, dont les GPU représentent l'essentiel du marché de l'entraînement des grands modèles, est contestée à la fois par des fabricants de puces alternatifs et par un écosystème logiciel naissant. En parallèle, une autre initiative illustre l'effervescence du secteur : à l'université Stanford, un cours universitaire de premier cycle sur l'infrastructure IA est devenu un événement majeur, surnommé le "Compute Coachella". Le cours, complet, réunit cette semaine Jensen Huang (Nvidia), Lisa Su (AMD), Sam Altman (OpenAI), Satya Nadella (Microsoft) et Andrej Karpathy comme intervenants. Il est enseigné par Anjney Midha, ancien associé d'Andreessen Horowitz et investisseur précoce d'Anthropic, et Michael Abbott, ancien responsable ingénierie chez Apple, tous deux impliqués dans AMP, une initiative visant à faciliter l'accès aux ressources de calcul pour les entreprises.

UEL'émergence d'alternatives viables à CUDA pourrait à terme réduire la dépendance des entreprises et laboratoires européens envers Nvidia pour leurs infrastructures d'entraînement IA.

InfrastructureActu
1 source
L'IA est insatiable
172IEEE Spectrum AI 

L'IA est insatiable

L'intelligence artificielle provoque une pénurie mondiale de mémoire informatique, et plus précisément de mémoire à haute bande passante (HBM), un composant spécialement conçu pour alimenter les processeurs d'IA. Les fabricants de puces comme Nvidia et AMD exigent des quantités croissantes de HBM pour chacun de leurs processeurs, sous la pression de géants comme Google, Microsoft, OpenAI et Anthropic, qui financent une expansion sans précédent de leurs centres de données. Le site Hyperion de Meta en Louisiane, prévu à 5 gigawatts, illustre l'ampleur pharaonique de ces infrastructures. La pénurie ne se limite pas à la mémoire : la consommation électrique de l'IA pourrait atteindre 12 % de l'ensemble de la production américaine d'électricité d'ici 2028, tandis que les requêtes d'IA générative, qui ont consommé 15 térawattheures en 2025, devraient grimper à 347 TWh d'ici 2030. Les conséquences de cette tension sur les approvisionnements se répercutent bien au-delà des data centers. La pression des hyperscalers sur la demande en mémoire fait monter les prix de tous les appareils électroniques grand public, y compris des ordinateurs à bas coût comme le Raspberry Pi. Cette inflation technologique est amplifiée par la hausse générale des prix et l'instabilité du régime des droits de douane américains, rendant difficile pour les consommateurs et les entreprises d'évaluer le vrai coût de la pénurie. Pour les industriels de la tech, la contrainte d'approvisionnement oblige à repenser l'architecture des systèmes, potentiellement au détriment des performances. Les trois grands fabricants de HBM sont Micron, Samsung et SK Hynix, et tout ajustement de leur calendrier de production constituerait un signal fort d'un éventuel retour à l'équilibre. Du côté de la demande, les data centers pourraient se tourner vers des équipements sacrifiant une partie des performances pour réduire leur consommation de mémoire, tandis que les startups pourraient être contraintes de repenser leurs produits pour limiter leurs besoins en RAM. Cette pénurie, bien que pénalisante à court terme, pourrait aussi stimuler des innovations inattendues dans la conception de systèmes plus sobres en ressources, une dynamique que les observateurs de l'industrie suivront de près dans les prochains trimestres.

UELa pénurie de mémoire HBM fait monter les prix des composants électroniques en Europe, affectant les consommateurs et les entreprises tech européennes qui dépendent de ces approvisionnements.

💬 Le Raspberry Pi qui augmente à cause des data centers d'OpenAI, c'est le genre d'effet domino qu'on n'anticipe pas. La pression des hyperscalers sur le HBM, ça se répercute sur toute la chaîne, du GPU H100 jusqu'au tinkerer qui commande une carte à 35 euros. Reste à voir si la contrainte d'approvisionnement pousse vraiment vers des architectures plus sobres, ou si c'est juste un argument de comm' le temps que Micron et SK Hynix rattrapent la demande.

InfrastructureOpinion
1 source
OpenAI CFO Questions 2026 IPO Readiness
173The Information AI 

OpenAI CFO Questions 2026 IPO Readiness

Sam Altman, PDG d'OpenAI, et Sarah Friar, directrice financière de l'entreprise, ne s'accordent pas sur le calendrier d'une éventuelle introduction en bourse, selon des informations rapportées par The Information. Altman souhaiterait une entrée en bourse dès le quatrième trimestre 2026, tandis que Friar aurait exprimé en privé des réserves sur la capacité d'OpenAI à être prête dans ce délai. Ce désaccord au sommet est révélateur des tensions internes que traverse la startup la plus valorisée du secteur de l'IA. Une introduction en bourse prématurée exposerait OpenAI à un niveau de transparence financière et réglementaire auquel l'entreprise n'est peut-être pas encore préparée, avec des exigences de reporting trimestriel et une pression accrue des marchés sur la rentabilité à court terme, un défi de taille pour une société qui brûle des milliards en infrastructure et en recherche. OpenAI a récemment levé 40 milliards de dollars en mars 2026 lors d'un tour de table mené par SoftBank, portant sa valorisation à 300 milliards de dollars. Cette levée massive, combinée à la restructuration de l'entreprise en société à but lucratif, semblait préparer le terrain pour une éventuelle entrée en bourse. Mais les frictions entre Altman et Friar suggèrent que la transition vers les marchés publics est plus complexe que prévu, notamment dans un contexte de concurrence intense avec Google, Anthropic et Meta sur le marché de l'IA générative.

BusinessActu
1 source
Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX
174MarkTechPost 

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Netflix a publié VOID (Video Object Inpainting and Detection), un modèle d'intelligence artificielle capable de supprimer des objets d'une vidéo et de reconstituer le fond de manière réaliste. Le pipeline repose sur CogVideoX-Fun-V1.5-5b-InP, un modèle d'inpainting vidéo développé par Alibaba PAI et distribué via Hugging Face. Le code source est accessible publiquement sur GitHub à l'adresse netflix/void-model, et le checkpoint officiel void_pass1.safetensors est téléchargeable depuis le dépôt netflix/void-model sur Hugging Face. Pour faire tourner le système, il faut au minimum 40 Go de VRAM, un GPU A100 étant recommandé par les ingénieurs de Netflix eux-mêmes. Le workflow comprend plusieurs étapes : cloner le dépôt, télécharger les modèles de base, préparer des séquences vidéo d'entrée avec leurs masques, puis lancer l'inférence pour obtenir une vidéo où l'objet ciblé a été effacé et remplacé par un fond cohérent. Une intégration optionnelle avec l'API d'OpenAI permet de générer automatiquement un prompt décrivant le fond souhaité, ce qui améliore la qualité du résultat final. Ce type d'outil représente une avancée significative pour la production audiovisuelle. Supprimer un objet indésirable d'une scène vidéo, un câble visible, un accessoire oublié en arrière-plan ou un logo non autorisé, est une opération courante en post-production qui nécessite aujourd'hui des heures de travail manuel dans des logiciels spécialisés comme Adobe After Effects ou DaVinci Resolve. Avec VOID, Netflix propose une approche automatisée basée sur la génération vidéo, où le modèle ne se contente pas de masquer une zone mais reconstitue activement ce qui se trouverait derrière l'objet supprimé, en tenant compte du mouvement de la caméra et de la cohérence temporelle entre les frames. Pour les studios de production et les équipes VFX, cela pourrait réduire drastiquement les coûts et délais associés aux corrections de plans en post-production. Netflix n'est pas le premier acteur à s'aventurer sur ce terrain. Des outils comme RunwayML Gen-3 ou Adobe Firefly Video proposent déjà des fonctionnalités similaires en mode SaaS, mais rares sont les modèles publiés en open source avec un pipeline complet et reproductible. En rendant VOID accessible, Netflix s'inscrit dans une tendance récente de grandes entreprises tech qui publient des modèles de recherche appliquée, à l'image de Meta avec SAM 2 pour la segmentation vidéo ou de Google avec ses travaux sur l'édition de scènes. L'architecture choisie, basée sur CogVideoX et les transformers de diffusion vidéo, reflète l'état de l'art actuel dans le domaine. La prochaine étape probable sera l'intégration de passes multiples et le traitement de vidéos longue durée, l'infrastructure actuelle étant limitée à des clips courts en raison des contraintes mémoire des GPU disponibles.

UELes studios de production et équipes VFX français et européens pourraient réduire leurs coûts de post-production grâce à ce pipeline open source de suppression d'objets vidéo, accessible sur GitHub et Hugging Face.

CréationOpinion
1 source
OpenAI : « d’ici la fin 2026, on se moquera des IA actuelles comme GPT-5.4 »
175Le Big Data 

OpenAI : « d’ici la fin 2026, on se moquera des IA actuelles comme GPT-5.4 »

Brad Lightcap, directeur des opérations d'OpenAI, a déclaré début avril 2026 que les modèles d'IA actuels, y compris GPT-5.4, paraîtront dépassés d'ici la fin de l'année. Cette affirmation intervient alors que GPT-5.4, lancé il y a quelques jours à peine, affiche déjà un rythme de revenus annualisé d'un milliard de dollars et traite environ 5 000 milliards de tokens par jour. En l'espace de quelques semaines, OpenAI a enchaîné les versions GPT-5.1, 5.2, 5.3 puis 5.4, chacune apportant des gains significatifs sans attendre les longs cycles de recherche et de déploiement qui caractérisaient autrefois le secteur. GPT-5.4 s'est imposé comme le moteur principal des API d'OpenAI presque instantanément, et intègre une capacité nouvelle : le modèle décide lui-même s'il doit raisonner en profondeur ou répondre directement, sans que l'utilisateur ait à choisir un mode particulier. Des améliorations concrètes sont déjà visibles en écriture, en génération de code et dans des secteurs exigeants comme la santé. Ce rythme d'itération inédit transforme en profondeur la manière dont les entreprises et les développeurs adoptent l'IA. Un modèle sorti depuis quelques jours peut déjà devenir dominant à l'échelle mondiale, ce qui compresse les cycles d'adoption et rend obsolètes les intégrations à peine finalisées. Pour les équipes techniques qui s'appuient sur les API d'OpenAI, cela signifie une mise à jour permanente des pratiques et des outils. Le phénomène fonctionne comme un effet boule de neige : plus un modèle est performant, plus il est adopté dans des usages critiques comme le développement logiciel ou l'analyse de données, ce qui génère des revenus permettant de financer le cycle suivant encore plus vite. La barre de ce qui constitue un outil "avancé" se déplace en permanence, rendant les standards d'aujourd'hui potentiellement minimaux demain. Cette dynamique s'inscrit dans une évolution structurelle du secteur. Pendant des années, les progrès en IA se mesuraient en recherche académique publiée et en grands modèles sortis annuellement. Depuis GPT-4, puis o1, puis la série GPT-5, OpenAI a progressivement réduit la durée des cycles d'entraînement et de déploiement. La déclaration de Lightcap marque une accélération supplémentaire : les améliorations ne sont plus linéaires mais exponentielles, chaque génération servant de base accélérée à la suivante. Si cette projection se confirme, les concurrents — Google DeepMind, Anthropic, Meta — devront soutenir un rythme similaire pour rester compétitifs, ce qui soulève des questions sur les ressources de calcul nécessaires et sur la capacité des organisations à intégrer des outils qui évoluent plus vite qu'elles ne peuvent se les approprier.

UELes équipes techniques européennes utilisant les API OpenAI doivent adapter en permanence leurs intégrations face à un rythme d'itération qui rend obsolètes les outils à peine déployés.

LLMsOpinion
1 source
Comment installer Google Gemma 4 sur votre smartphone Android ou iPhone : un « ChatGPT » gratuit et sans connexion
176Frandroid 

Comment installer Google Gemma 4 sur votre smartphone Android ou iPhone : un « ChatGPT » gratuit et sans connexion

Google vient de franchir une étape significative dans la démocratisation de l'intelligence artificielle embarquée avec le lancement de Gemma 4, un modèle de langage léger conçu pour fonctionner directement sur les smartphones Android et iOS. Disponible via l'application AI Edge Gallery, ce modèle peut être téléchargé et utilisé sans aucune connexion internet, offrant une expérience comparable à celle de ChatGPT mais entièrement locale. Compatible avec les terminaux Android récents ainsi qu'avec l'iPhone, Gemma 4 s'installe en quelques minutes et ne nécessite aucun abonnement ni compte en ligne. L'enjeu principal est la confidentialité : en traitant toutes les requêtes directement sur l'appareil, aucune donnée ne transite vers des serveurs distants. Pour les professionnels manipulant des informations sensibles, les journalistes, ou simplement les utilisateurs soucieux de leur vie privée, c'est un changement de paradigme concret. L'absence de connexion requise ouvre également l'accès à l'IA dans des zones mal desservies ou lors de déplacements sans réseau fiable, élargissant drastiquement le public potentiel. Cette annonce s'inscrit dans une tendance de fond portée par plusieurs acteurs majeurs : Meta avec ses modèles Llama, Apple avec ses efforts sur l'on-device AI, et désormais Google qui accélère sur les modèles compacts. Gemma 4 est la quatrième itération d'une famille de modèles open-source lancée par Google DeepMind début 2024, pensée dès l'origine pour fonctionner sur du matériel grand public. La course aux modèles embarqués reflète une conviction croissante dans l'industrie : l'avenir de l'IA ne sera pas uniquement dans le cloud, mais aussi dans la poche de chaque utilisateur.

UELes utilisateurs français et européens peuvent désormais utiliser un LLM performant sans transfert de données vers des serveurs distants, en parfaite cohérence avec les exigences du RGPD.

OutilsTuto
1 source
Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser
177VentureBeat AI 

Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser

Arcee AI, un laboratoire de San Francisco fondé il y a quelques années et fort d'une équipe de seulement 30 personnes, a lancé cette semaine Trinity-Large-Thinking, un modèle de raisonnement textuel à 399 milliards de paramètres publié sous licence Apache 2.0 — l'une des licences open source les plus permissives qui soit, autorisant toute modification et usage commercial. Le modèle est disponible en téléchargement sur Hugging Face. Pour le construire, Arcee a engagé 20 millions de dollars, soit près de la moitié de ses fonds totaux (un peu moins de 50 millions, dont 24 millions levés lors d'une Serie A menée par Emergence Capital en 2024), dans une unique session d'entraînement de 33 jours sur un cluster de 2 048 GPU NVIDIA B300 Blackwell — deux fois plus rapides que la génération Hopper précédente. Ce lancement intervient à un moment charnière pour l'IA open source. Depuis l'apparition de ChatGPT fin 2022, le flambeau des modèles ouverts a successivement été porté par Meta avec sa famille Llama, puis par des laboratoires chinois comme Qwen ou DeepSeek. Mais ces acteurs chinois amorcent aujourd'hui un retour vers des modèles propriétaires, laissant un vide stratégique que des entreprises américaines cherchent à combler. Pour les entreprises occidentales, dépendre d'architectures chinoises pour des infrastructures critiques devient politiquement et opérationnellement risqué. Trinity-Large-Thinking se positionne explicitement comme une alternative souveraine, ce que Clément Delangue, cofondateur et PDG de Hugging Face, résume ainsi : « La force des États-Unis a toujours été ses startups — peut-être que ce sont eux sur qui il faut compter pour mener l'open source en IA. Arcee prouve que c'est possible. » Sur le plan technique, Trinity-Large-Thinking repose sur une architecture Mixture-of-Experts (MoE) d'une rareté extrême : sur ses 400 milliards de paramètres totaux, seuls 1,56 % — soit 13 milliards — sont activés pour chaque token traité. Résultat : le modèle dispose de la profondeur de connaissance d'un très grand système tout en fonctionnant deux à trois fois plus vite que ses concurrents sur le même matériel. Pour stabiliser l'entraînement de cette architecture sparse, l'équipe a développé une technique maison appelée SMEBU (Soft-clamped Momentum Expert Bias Updates), qui évite que certains experts monopolisent les calculs tandis que d'autres restent inutilisés. Le corpus d'entraînement atteint 20 trillions de tokens, moitié données web curées via un partenariat avec DatologyAI, moitié données synthétiques de raisonnement. Trinity-Large-Thinking illustre qu'avec une ingénierie rigoureuse et des contraintes budgétaires serrées, un petit laboratoire américain peut aujourd'hui rivaliser avec les géants — et potentiellement redéfinir qui contrôle la prochaine génération de modèles ouverts.

UELes entreprises européennes peuvent adopter Trinity-Large-Thinking comme alternative open source souveraine aux modèles chinois pour leurs infrastructures critiques, disponible immédiatement sous licence Apache 2.0.

LLMsOpinion
1 source
Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
178MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
179NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
Gemma 4 : les modèles open source les plus performants à taille égale
180DeepMind Blog 

Gemma 4 : les modèles open source les plus performants à taille égale

Google a dévoilé Gemma 4, la quatrième génération de sa famille de modèles de langage open weights, présentée comme la plus performante à ce jour dans cette gamme. Conçus pour le raisonnement avancé et les flux de travail agentiques, ces modèles sont disponibles librement pour les développeurs et chercheurs. Google les décrit comme les plus efficaces octet pour octet de leur catégorie, signalant un saut qualitatif par rapport aux versions précédentes sur les benchmarks de compréhension et de raisonnement complexe. Cette sortie est significative pour l'écosystème open source de l'IA : des modèles ouverts aussi performants permettent aux entreprises et développeurs indépendants de déployer des agents autonomes et des pipelines de raisonnement sans dépendre d'APIs propriétaires. L'accent mis sur les workflows agentiques — où le modèle planifie, exécute des actions et s'adapte en plusieurs étapes — répond à un besoin croissant de l'industrie pour des automatisations complexes accessibles localement. Gemma s'inscrit dans la stratégie de Google DeepMind de maintenir une présence forte dans l'open source face à Meta (LLaMA) et Mistral AI, qui dominent ce segment. Après Gemma 1, 2 et 3, cette quatrième itération intervient alors que la course aux modèles ouverts s'intensifie, chaque acteur cherchant à établir son architecture comme référence pour les développeurs.

UELes développeurs et entreprises européens accèdent à des modèles open weights performants déployables localement, réduisant leur dépendance aux APIs propriétaires et intensifiant la pression concurrentielle sur Mistral AI, acteur français de référence sur ce segment.

💬 Mistral a un problème. Google livre des modèles ouverts sérieux sur l'agentique, et l'argument "notre archi est meilleure" va devenir de plus en plus difficile à tenir face à ça. Bon, faut voir ce que ça donne hors benchmarks.

LLMsOpinion
1 source
Yoshua Bengio, Prix Turing 2018, lanceur d’alerte sur l’intelligence artificielle
181Le Monde Pixels 

Yoshua Bengio, Prix Turing 2018, lanceur d’alerte sur l’intelligence artificielle

Yoshua Bengio, lauréat du prix Turing 2018 avec Geoffrey Hinton et Yann LeCun pour leurs travaux fondateurs sur l'apprentissage profond, s'est progressivement imposé comme l'une des voix les plus influentes en faveur d'une régulation stricte de l'intelligence artificielle. Chercheur à l'Université de Montréal et fondateur du MILA, il a co-signé en 2023 la lettre ouverte appelant à une pause dans le développement des IA les plus puissantes, et témoigné devant plusieurs gouvernements, dont le Sénat américain et le Parlement européen. Sa prise de position tranche avec celle de son collègue Yann LeCun, directeur scientifique de Meta AI, qui minimise les risques existentiels liés à l'IA. Bengio estime au contraire que les systèmes actuels évoluent trop vite pour que les garde-fous éthiques et réglementaires puissent suivre, mettant en danger aussi bien les démocraties que la sécurité mondiale. Ce tournant s'inscrit dans un contexte où plusieurs pionniers du domaine — dont Geoffrey Hinton, qui a quitté Google en 2023 — ont choisi de sonner l'alarme publiquement. Bengio milite désormais pour un traité international sur l'IA, comparable aux conventions sur les armes biologiques, et collabore avec l'ONU et plusieurs gouvernements pour en poser les bases.

UEBengio a témoigné devant le Parlement européen et milite pour un traité international sur l'IA, influençant directement le cadre réglementaire de l'AI Act et les débats institutionnels européens.

💬 Bengio et LeCun ont bâti les mêmes fondations, et ils arrivent à des conclusions opposées sur les risques. C'est pas un débat d'ego, c'est une vraie fracture sur ce qu'on mesure, et comment. Un traité international sur l'IA, bon, sur le papier c'est séduisant, mais reste à voir comment tu fais respecter ça quand les États qui comptent ont tout intérêt à accélérer.

SécuritéOpinion
1 source
Alibaba lance un nouveau modèle d'IA propriétaire
182The Information AI 

Alibaba lance un nouveau modèle d'IA propriétaire

Alibaba a lancé jeudi un nouveau grand modèle de langage baptisé Qwen3.6-Plus, en mettant en avant ses capacités avancées dans le domaine des agents IA autonomes. Ce lancement marque un tournant notable pour le géant technologique chinois, qui propose cette fois un modèle en accès fermé — à l'inverse de sa stratégie habituelle. En l'espace de deux ans, Alibaba s'était imposé comme l'un des leaders mondiaux de l'open source en IA, notamment grâce à la série Qwen, largement adoptée par la communauté internationale des développeurs. Ce changement de cap a des implications concrètes pour les milliers d'équipes techniques qui utilisaient les modèles Qwen comme base libre pour leurs propres applications. Un modèle fermé signifie moins de transparence sur l'architecture, l'impossibilité de l'héberger soi-même, et une dépendance accrue aux infrastructures cloud d'Alibaba. Pour l'industrie, c'est aussi le signal que les grandes entreprises chinoises commencent à monétiser plus agressivement leurs avancées en IA, après une phase de conquête par l'open source. Ce virage intervient dans un contexte de compétition mondiale intense entre géants tech américains et chinois sur le terrain des modèles frontières. OpenAI, Google et Anthropic maintiennent leurs modèles les plus puissants en accès fermé ; Alibaba, Meta et Mistral avaient jusqu'ici joué la carte inverse pour gagner en adoption. Le lancement de Qwen3.6-Plus suggère qu'Alibaba estime désormais avoir suffisamment de poids pour imposer ses conditions — et que la phase gratuite de l'IA ouverte touche peut-être à sa fin pour les acteurs majeurs.

UELes équipes européennes qui utilisaient les modèles Qwen comme base open source devront reconsidérer leur architecture, le passage au modèle fermé impliquant une dépendance accrue aux infrastructures cloud d'Alibaba et la perte de la liberté d'auto-hébergement.

💬 Alibaba qui passe au fermé, c'est un peu la fin de la récré. Pendant deux ans, la série Qwen a été une aubaine pour des milliers d'équipes qui voulaient de la puissance sans l'addition, et ceux qui ont construit dessus vont devoir revoir leurs plans. Le vrai signal ici, c'est que la phase de conquête par l'open source est terminée : Alibaba a sa base d'utilisateurs, elle la monétise.

LLMsOpinion
1 source
Gemma 4 : intelligence multimodale de pointe sur appareil
183HuggingFace Blog 

Gemma 4 : intelligence multimodale de pointe sur appareil

Google DeepMind a lancé Gemma 4, sa nouvelle génération de modèles open source, disponible depuis début avril 2025. Cette famille comprend quatre variantes allant de 1 milliard à 27 milliards de paramètres, toutes capables de traiter texte et images simultanément. Les modèles sont disponibles sur Hugging Face, Google AI Studio et Kaggle, avec des licences permissives autorisant leur usage commercial. La particularité de Gemma 4 réside dans sa capacité multimodale optimisée pour les appareils locaux, depuis les smartphones jusqu'aux ordinateurs personnels, sans dépendance à un serveur distant. Le modèle 27B affiche des performances comparables à des systèmes bien plus volumineux sur les benchmarks de raisonnement et de vision, tandis que le 1B peut tourner directement sur mobile, ouvrant la voie à des applications IA entièrement hors ligne. Cette sortie s'inscrit dans la compétition ouverte qui oppose Google à Meta, Microsoft et Mistral sur le segment des modèles open source embarqués. Depuis Gemma 1 en février 2024, Google a accéléré le rythme de ses publications pour ne pas céder ce terrain stratégique à Llama. La course aux modèles multimodaux légers devient un enjeu central pour l'IA souveraine et les usages professionnels sans connectivité cloud.

UELes modèles embarqués sans dépendance cloud s'alignent avec les exigences d'IA souveraine portées par l'UE, facilitant des déploiements professionnels conformes au RGPD sans transfert de données vers des serveurs tiers.

LLMsOpinion
1 source
Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)
184MarkTechPost 

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

Hugging Face a officiellement publié TRL (Transformer Reinforcement Learning) v1.0, marquant le passage de cette bibliothèque d'un outil de recherche expérimental à un framework stable et prêt pour la production. Cette version unifie l'ensemble du pipeline de post-entraînement — la séquence Supervised Fine-Tuning (SFT), Reward Modeling et alignement — sous une API standardisée et cohérente. Concrètement, les développeurs disposent désormais d'une interface en ligne de commande dédiée, d'un système de configuration unifié basé sur des fichiers YAML, et d'une suite élargie d'algorithmes d'alignement incluant DPO, GRPO, KTO et ORPO. Une simple commande comme trl sft --modelnameor_path meta-llama/Llama-3.1-8B suffit désormais à lancer un entraînement complet, là où il fallait auparavant écrire des centaines de lignes de code personnalisé. Cette standardisation change concrètement la donne pour les équipes d'ingénierie qui travaillent sur des modèles de langage. Le post-entraînement — cette phase où l'on affine un modèle de base pour qu'il suive des instructions, adopte un ton particulier ou développe des capacités de raisonnement — était jusqu'ici souvent traité comme un art obscur, réservé aux équipes de recherche disposant de ressources importantes. TRL v1.0 démocratise ce processus : les classes de configuration comme SFTConfig ou GRPOConfig héritent directement de transformers.TrainingArguments, assurant une compatibilité totale avec l'écosystème Hugging Face. L'intégration native avec Accelerate permet de passer d'un GPU local à un cluster multi-nœuds en FSDP ou DeepSpeed sans modifier le code. Le support natif de LoRA et QLoRA via PEFT rend le fine-tuning de modèles à plusieurs milliards de paramètres accessible sur du matériel grand public ou d'entreprise de gamme intermédiaire. TRL existe depuis plusieurs années comme référence dans la communauté de recherche sur l'alignement des LLMs, mais son API fragmentée et son manque de stabilité en freinaient l'adoption industrielle. La version 1.0 intervient dans un contexte où le post-entraînement est devenu un avantage compétitif central : des modèles comme DeepSeek-R1 ou les versions récentes de LLaMA ont démontré que la phase d'alignement — notamment via GRPO, qui élimine le modèle critique pour réduire l'empreinte mémoire — peut transformer radicalement les capacités d'un modèle de base. En unifiant PPO, DPO, GRPO, KTO et ORPO dans un seul framework documenté, Hugging Face positionne TRL comme l'infrastructure standard du fine-tuning open source, face aux solutions propriétaires des grands laboratoires. Les prochaines étapes devraient inclure une intégration plus poussée avec le Hub Hugging Face pour la gestion des expériences et des artefacts d'entraînement.

UETRL v1.0, publié par Hugging Face — entreprise d'origine française — renforce la capacité des équipes européennes à développer et aligner des LLMs en open source, sans dépendre des pipelines propriétaires des grands laboratoires américains.

LLMsOutil
1 source
BlueSky lance Attie : une IA pour créer ton propre réseau social
185Le Big Data 

BlueSky lance Attie : une IA pour créer ton propre réseau social

Le 28 mars 2026, lors de la conférence Atmosphere, Jay Graber (PDG de Bluesky) et Paul Frazee (CTO) ont dévoilé Attie, un outil d'intelligence artificielle permettant à n'importe quel utilisateur de construire son propre réseau social personnalisé en langage naturel. Concrètement, il suffit de décrire en une phrase le type de contenu souhaité — par exemple des articles sur le folklore celtique, la mythologie et la musique traditionnelle — pour qu'Attie génère automatiquement un fil d'actualité sur mesure. L'outil repose sur la technologie Claude d'Anthropic et s'appuie sur le protocole AT, la base open source qui sous-tend l'infrastructure de Bluesky. Il se présente comme une application sociale agentique : l'IA ne se contente pas de produire du contenu, elle organise l'information selon les intentions explicites de l'utilisateur, sans ligne de code requise. L'enjeu est direct : Attie s'attaque frontalement au modèle dominant des grandes plateformes comme X ou Instagram, où des algorithmes opaques dictent ce que chacun voit, en optimisant pour l'engagement plutôt que pour la pertinence. Jay Graber pointe une explosion de contenus peu fiables et un manque de transparence structurel dans ces systèmes. Avec Attie, l'utilisateur reprend la main — il choisit ses sources, définit ses priorités, et n'est plus spectateur passif d'un flux conçu pour l'accrocher. Pour les professionnels de l'information, les créateurs de contenu et les communautés de niche, cela représente une rupture concrète : accéder à un espace d'information réellement calibré sur ses besoins, sans intermédiaire algorithmique imposé. Bluesky s'est imposé comme l'alternative décentralisée la plus sérieuse à X depuis le rachat de Twitter par Elon Musk, attirant plusieurs millions d'utilisateurs en quête d'une plateforme plus ouverte. Le protocole AT, sur lequel Attie est construit, est conçu pour être entièrement transparent et interopérable — ce qui distingue fondamentalement l'approche de celle des silos fermés que sont Meta ou X. Attie s'inscrit dans une tendance plus large des interfaces en langage naturel qui éliminent la barrière technique entre l'utilisateur et la personnalisation avancée, là où il fallait auparavant des mois de développement. La vraie question reste celle du passage à l'échelle : si l'outil reste une curiosité pour early adopters technophiles, l'impact sera limité. Mais si Bluesky parvient à démocratiser cette approche, les réseaux sociaux pourraient évoluer vers des architectures modulaires où chaque utilisateur devient, en quelques mots, l'éditeur de son propre média.

UEConstruit sur un protocole ouvert et interopérable, Attie offre aux utilisateurs européens une alternative concrète aux algorithmes opaques des plateformes américaines, en cohérence avec les objectifs européens de transparence algorithmique et de souveraineté numérique.

OutilsOutil
1 source
Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné
186The Decoder 

Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné

Alibaba a publié Qwen3.5-Omni, un nouveau modèle d'intelligence artificielle omnimodal capable de traiter simultanément du texte, des images, de l'audio et de la vidéo. Selon l'entreprise, le modèle surpasse Gemini 2.5 Pro sur les tâches de compréhension audio. Mais c'est une capacité émergente, non prévue lors de l'entraînement, qui a le plus retenu l'attention : Qwen3.5-Omni est capable d'écrire du code à partir d'instructions orales combinées à des entrées vidéo, une compétence que personne ne lui a explicitement enseignée. Ce phénomène d'émergence spontanée illustre une tendance de fond dans les grands modèles multimodaux : en apprenant à connecter plusieurs modalités sensorielles, ces systèmes développent des compétences transversales imprévues qui dépassent leurs objectifs d'entraînement initiaux. Pour les développeurs, cela ouvre des perspectives concrètes — imaginer un assistant capable de regarder un écran, d'écouter une demande vocale et de produire directement le code correspondant, sans interaction textuelle intermédiaire. Alibaba positionne Qwen3.5-Omni dans une course multimodale qui oppose désormais directement les acteurs chinois aux laboratoires américains. La série Qwen a déjà produit plusieurs modèles qui ont surpris par leurs performances, notamment sur des benchmarks de code et de raisonnement. Face à Google avec Gemini, OpenAI avec GPT-4o et ses variantes vocales, et Meta avec ses modèles ouverts, Alibaba cherche à s'imposer comme un acteur de référence sur le segment des modèles capables de percevoir et d'agir sur l'ensemble des modalités humaines. La publication de Qwen3.5-Omni renforce cette ambition.

LLMsOpinion
1 source
L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel
187MarkTechPost 

L'équipe Qwen d'Alibaba publie Qwen3.5 Omni : un modèle multimodal natif pour le texte, l'audio, la vidéo et l'interaction en temps réel

L'équipe Qwen d'Alibaba a publié Qwen3.5-Omni, un modèle multimodal natif capable de traiter simultanément du texte, des images, de l'audio et de la vidéo au sein d'un seul pipeline computationnel. Disponible en trois variantes — Plus (raisonnement complexe), Flash (faible latence) et Light (efficacité) — le modèle phare Qwen3.5-Omni-Plus revendique des résultats de pointe sur 215 sous-tâches de compréhension et de raisonnement audio et audiovisuel, dépassant selon Alibaba le Gemini 3.1 Pro de Google sur la compréhension audio générale, la reconnaissance vocale et la traduction. Son encodeur audio natif (Audio Transformer) a été pré-entraîné sur plus de 100 millions d'heures de données audio-visuelles, et l'architecture supporte des fenêtres contextuelles de 256 000 tokens — soit plus de 10 heures d'audio continu ou 400 secondes de contenu vidéo 720p. Ce lancement marque un tournant dans la conception des modèles multimodaux : on passe des architectures « en patchwork », où des encodeurs spécialisés (comme Whisper pour l'audio) sont greffés sur un socle textuel, à des systèmes entièrement natifs et unifiés. Pour l'industrie, cela signifie des agents vocaux et visuels capables d'interaction en temps réel sans les pénalités de latence propres aux pipelines en cascade. L'architecture Thinker-Talker, couplée à un mécanisme Hybrid-Attention Mixture of Experts (MoE), permet au modèle d'allouer dynamiquement ses ressources selon la modalité dominante — favorisant les tokens visuels lors d'une analyse vidéo, par exemple — tout en conservant un débit compatible avec les services de streaming. Concrètement, les développeurs d'applications vocales, de systèmes de sous-titrage automatique ou d'assistants multimodaux disposent d'un socle technique plus robuste et moins coûteux à exploiter. La course aux modèles omnimodaux s'est accélérée depuis que Google a démontré avec Gemini la viabilité des architectures nativement multimodales, forçant les acteurs comme OpenAI, Meta et Alibaba à répondre. Qwen3.5-Omni s'inscrit dans la stratégie offensive d'Alibaba pour s'imposer comme alternative crédible aux modèles occidentaux, notamment sur les marchés asiatiques et auprès des entreprises sensibles à la souveraineté des données. Deux problèmes d'ingénierie spécifiques à l'interaction temps réel ont été adressés : la stabilité du flux de parole (via un mécanisme baptisé ARIA — Adaptive Rate Interleave Alignment, qui synchronise les tokens texte et audio de nature asymétrique) et la fluidité conversationnelle. Les benchmarks avancés par Alibaba — 8 tests de reconnaissance automatique de la parole, 156 tâches de traduction parole-texte dans des langues spécifiques, 43 tâches d'ASR ciblées — restent à valider par des évaluations indépendantes, mais positionnent déjà Qwen3.5-Omni comme un concurrent direct aux modèles les plus avancés du moment.

UELes entreprises européennes sensibles à la souveraineté des données disposent d'une alternative crédible aux modèles américains pour leurs déploiements d'agents vocaux et visuels multimodaux en temps réel.

💬 L'architecture native, c'est vraiment ce qui change la donne ici. Pas un Whisper greffé sur un LLM avec du scotch, mais un seul pipeline qui ingère tout en même temps, avec 100 millions d'heures d'entraînement audio-vidéo derrière. Les benchmarks Alibaba, bon, à vérifier en conditions réelles — mais le socle technique, lui, a l'air solide.

LLMsOpinion
1 source
Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !
188Le Big Data 

Apple change de cap : Siri va regrouper ChatGPT, Gemini et toutes les IA !

Apple prépare une transformation majeure de Siri avec iOS 27, prévu pour l'été 2026. Selon Mark Gurman, journaliste de Bloomberg et source fiable sur Apple depuis des années, l'entreprise développerait un système d'extensions permettant à n'importe quel chatbot disponible sur l'App Store de s'interfacer directement avec Siri. Concrètement, des assistants comme Claude d'Anthropic, Google Gemini ou d'autres IA tierces pourraient être sollicités via Siri comme intermédiaire : l'utilisateur précise quel modèle utiliser, et Siri relaie la requête. Cette ouverture marquerait la fin de l'exclusivité dont bénéficie actuellement ChatGPT d'OpenAI, intégré depuis iOS 18. Apple travaille depuis 2024 sur cette version refondue, parfois appelée Siri 2.0, qui inclurait également une application Siri dédiée, une interface repensée dans la Dynamic Island, et une fusion avec Spotlight Search. Pour les utilisateurs, l'impact serait considérable : Siri deviendrait un hub centralisé capable de mobiliser des dizaines de modèles spécialisés selon la tâche — analyse de documents, génération de contenu, planification, code. Plus besoin de jongler entre applications : un seul point d'entrée vocal donnerait accès à l'ensemble de l'écosystème IA disponible sur iPhone et iPad. Pour Apple, l'enjeu financier est tout aussi important : la firme prélèverait une commission sur les abonnements souscrits via l'App Store pour accéder aux IA tierces, transformant Siri en levier de monétisation de l'explosion des assistants intelligents. Cette stratégie permettrait à Apple de rivaliser directement avec Amazon Alexa, Microsoft Copilot et Meta AI, sans avoir à développer elle-même des modèles de pointe. Ce pivot s'inscrit dans un contexte délicat pour Apple sur le terrain de l'IA. L'entreprise a accumulé du retard face à Google, Microsoft et OpenAI, et Siri a longtemps été moqué pour ses limitations face à des concurrents bien plus capables. Le partenariat avec OpenAI, annoncé à la WWDC 2024, était une première réponse, mais insuffisante pour couvrir l'ensemble des usages. L'ouverture à tous les chatbots via un modèle d'extensions — similaire à ce qu'Apple a fait avec les widgets ou les extensions de clavier — serait une façon de contourner le problème sans avoir à choisir un seul gagnant. Des questions réglementaires se poseront inévitablement : l'acheminement de données personnelles vers de multiples fournisseurs d'IA soulève des enjeux de confidentialité que les autorités européennes notamment scruteront de près. Apple devra démontrer que cette ouverture reste compatible avec ses engagements en matière de protection des données, un pilier central de son image de marque.

UEL'acheminement de données personnelles vers de multiples fournisseurs d'IA via Siri soulève des questions de conformité RGPD que la CNIL et les autorités européennes devront examiner.

OutilsOpinion
1 source
La politique de TikTok sur les publicités IA ne fonctionne pas
189The Verge AI 

La politique de TikTok sur les publicités IA ne fonctionne pas

Plusieurs grandes entreprises diffusent des publicités générées par intelligence artificielle sur TikTok sans apposer le label requis par la plateforme, révèle une enquête du site The Verge. Samsung figure parmi les marques épinglées : plusieurs de ses vidéos promotionnelles publiées sur ses comptes TikTok ne mentionnent nulle part l'utilisation d'outils d'IA générative, ni dans la vidéo elle-même, ni dans les petites lignes. TikTok impose pourtant depuis 2023 une politique explicite d'étiquetage des contenus publicitaires créés ou modifiés par IA, sous peine de sanctions théoriques pour les annonceurs contrevenants. Ce manquement soulève une question de confiance fondamentale pour les consommateurs : si des professionnels de l'image peinent à distinguer une vidéo synthétique d'une vraie, le grand public n'a aucune chance. L'absence de transparence fausse la perception des produits — un visage retouché par IA, une mise en scène impossible ou une voix clonée peuvent créer des attentes irréalistes. Pour l'industrie publicitaire, l'enjeu est de taille : la crédibilité des marques et la confiance des plateformes reposent sur des règles que personne ne semble aujourd'hui contrôler sérieusement. La prolifération des outils d'IA générative — Sora, Runway, Adobe Firefly, entre autres — a rendu la production de contenus synthétiques accessible à presque tous les annonceurs, accélérant une course au contenu bon marché qui dépasse les capacités de modération des plateformes. TikTok n'est pas seul dans cette situation : Meta, YouTube et Google font face aux mêmes défis de détection et d'application. Plusieurs régulateurs, notamment en Europe avec l'AI Act, commencent à imposer des obligations légales d'étiquetage, mais leur mise en œuvre reste balbutiante. La prochaine étape sera probablement judiciaire ou législative — à moins que les plateformes ne renforcent elles-mêmes leurs mécanismes de vérification avant que le scandale ne s'emballe.

UEL'AI Act européen impose des obligations d'étiquetage des contenus générés par IA aux plateformes opérant en Europe, et le non-respect constaté chez TikTok pourrait déclencher des procédures de conformité auprès des régulateurs européens.

ÉthiqueReglementation
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
190MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA
191Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
The Download : le virage des batteries vers l'IA, et la réécriture des maths
192MIT Technology Review 

The Download : le virage des batteries vers l'IA, et la réécriture des maths

Meta et YouTube ont été condamnés à verser 6 millions de dollars de dommages et intérêts pour avoir conçu des produits délibérément addictifs ciblant les jeunes utilisateurs. Ces verdicts, rendus par des jurys américains, s'inscrivent dans une vague de procédures judiciaires contre les grandes plateformes sur la question de la sécurité en ligne des mineurs. Dans le même temps, SpaceX prépare le dépôt de son introduction en bourse potentiellement dès cette semaine, visant une valorisation supérieure à 75 milliards de dollars — une annonce qui a fait bondir les actions de ses concurrents dans le secteur spatial. Sur le front de l'intelligence artificielle, la startup californienne Axiom Math a lancé un outil gratuit avec une ambition peu commune : non pas résoudre des problèmes mathématiques existants, mais découvrir des patterns encore jamais identifiés, susceptibles d'ouvrir la voie à des percées sur des problèmes non résolus depuis des décennies. Ces développements traduisent des mutations profondes dans plusieurs secteurs technologiques. Les condamnations de Meta et YouTube pourraient redessiner le cadre juridique de responsabilité des grandes plateformes et avoir des répercussions sur les marchés mondiaux des réseaux sociaux — les jurys s'imposant désormais comme acteurs clés dans la régulation de la sécurité numérique des enfants. L'IPO de SpaceX, si elle se concrétise, représenterait l'une des plus grandes introductions en bourse de l'histoire technologique américaine, dans un contexte où la domination de l'entreprise commence à être contestée par des concurrents émergents. Quant à l'outil d'Axiom Math, il illustre un glissement de l'IA vers des usages plus fondamentaux : non plus seulement optimiser l'existant, mais générer des idées véritablement nouvelles dans des domaines aussi formalisés que les mathématiques pures. Ces actualités s'inscrivent dans un paysage technologique sous haute tension. Google a publié une mise en garde selon laquelle les ordinateurs quantiques pourraient compromettre l'ensemble de la cryptographie actuelle d'ici 2029, poussant l'industrie à accélérer la transition vers des standards post-quantiques. Le sénateur Bernie Sanders a introduit un projet de loi sur la sécurité de l'IA qui bloquerait la construction de nouveaux datacenters, au moment où la demande énergétique de l'IA devient une préoccupation politique majeure. Meta a par ailleurs licencié 700 employés après avoir relevé les rémunérations de ses meilleurs talents — un signal contradictoire sur la direction prise par le groupe de Mark Zuckerberg. Enfin, Uber et la startup Pony AI ont annoncé leur intention de lancer le premier service de robotaxis en Europe, en Croatie, tandis que des essais sont déjà en cours au Luxembourg et à Londres.

UELe lancement du premier service de robotaxis en Europe par Uber et Pony AI (Croatie, Luxembourg, Londres) crée un précédent réglementaire direct pour l'encadrement des véhicules autonomes dans l'UE.

OutilsPaper
1 source
Les arguments en faveur de l'IA se renforcent
193The Information AI 

Les arguments en faveur de l'IA se renforcent

Les grandes firmes de capital-investissement s'apprêtent à s'allier avec les leaders de l'IA pour accélérer l'adoption de la technologie dans leurs portefeuilles d'entreprises. Selon des informations révélées par The Information, Anthropic serait en pourparlers avec Blackstone et Hellman & Friedman pour créer une coentreprise, tandis qu'OpenAI discuterait d'arrangements similaires avec TPG, Brookfield Asset Management et Bain Capital. Dans le même temps, Jeff Bezos chercherait à lever 100 milliards de dollars pour acquérir des entreprises industrielles et les automatiser grâce à l'IA — ce qui en ferait l'un des plus grands fonds jamais constitués. Ces mouvements interviennent alors que les modèles d'IA les plus récents, notamment les dernières versions de Claude d'Anthropic, ont rendu les capacités de la technologie particulièrement convaincantes pour les investisseurs. Ce basculement est important car il crée un pont entre l'offre et la demande en matière d'IA, deux dynamiques qui semblaient jusqu'ici évoluer de façon découplée. Les dix plus grandes firmes de private equity détiennent plus de 2 000 entreprises générant environ 2 000 milliards de dollars de chiffre d'affaires dans quasiment tous les secteurs économiques. Si ces firmes déploient l'IA massivement dans leurs portefeuilles, elles entraîneront mécaniquement leurs concurrents — souvent des entreprises indépendantes de taille moyenne — à faire de même sous peine de se laisser distancer. Cela se traduira concrètement par une hausse considérable de la demande en puissance de calcul, justifiant les investissements colossaux déjà engagés dans les data centers d'IA. Cette dynamique renforce aussi la probabilité d'introductions en bourse d'OpenAI et d'Anthropic dans les douze prochains mois, et légitime les dépenses croissantes en infrastructure de la part d'acteurs comme Meta. Le capital-investissement traverse actuellement une période délicate : les firmes sont nombreuses à détenir des participations dans des entreprises technologiques jugées vulnérables face à l'IA, et peinent à trouver des fenêtres de sortie. Embrasser l'IA devient ainsi autant une stratégie de survie qu'une opportunité de création de valeur.

UELes entreprises européennes détenues par des fonds de private equity pourraient être contraintes d'accélérer leur adoption de l'IA sous pression concurrentielle si leurs actionnaires américains déploient massivement la technologie dans leurs portefeuilles.

BusinessOpinion
1 source
Les autorités chinoises interdisent aux cofondateurs de Manus de quitter le territoire
194The Information AI 

Les autorités chinoises interdisent aux cofondateurs de Manus de quitter le territoire

Les autorités chinoises ont interdit aux cofondateurs de Manus, Xiao Hong et Ji Yichao, de quitter le territoire national, selon le Financial Times. Cette mesure intervient alors que les régulateurs examinent l'acquisition de la startup d'agents IA par Meta Platforms pour 2 milliards de dollars. Les deux fondateurs ont été convoqués par la Commission nationale du développement et de la réforme. Cette interdiction de sortie du territoire signale que Pékin entend exercer un contrôle étroit sur cette transaction stratégique. Elle pourrait ralentir, voire bloquer, un rachat qui représenterait l'une des plus importantes acquisitions de Meta dans le domaine de l'IA, et illustre la volonté de la Chine de garder la main sur ses pépites technologiques. Manus est une startup chinoise spécialisée dans les agents IA autonomes, devenue virale début 2025 après la démonstration de capacités jugées remarquables. Son acquisition par Meta s'inscrit dans la course mondiale aux talents et technologies d'IA.

UELa tension géopolitique sino-américaine autour des acquisitions d'IA illustre des enjeux de souveraineté technologique que l'UE suit de près dans le cadre de sa propre politique industrielle.

BusinessActu
1 source
L'IA part en guerre : le baromètre de l'emballement
195MIT Technology Review 

L'IA part en guerre : le baromètre de l'emballement

L'intelligence artificielle s'invite désormais dans les conflits armés. Anthropic et le Pentagone se sont affrontés sur la manière de militariser Claude, le modèle phare de l'entreprise, avant qu'OpenAI ne conclue un accord qualifié d'« opportuniste et bâclé » avec l'armée américaine. Résultat : Anthropic, fondée sur des principes éthiques stricts, se retrouve aujourd'hui à accélérer des frappes américaines contre l'Iran. Ces développements provoquent une réaction croissante dans la société. Des utilisateurs quittent ChatGPT en masse, et des milliers de personnes ont défilé à Londres lors de la plus grande manifestation anti-IA jamais organisée. Pendant ce temps, le phénomène des agents IA gagne du terrain sur internet : OpenAI recrute le créateur d'OpenClaw, un agent viral, tandis que Meta rachète Moltbook, une plateforme où des agents semblent méditer sur leur propre existence et inventer de nouvelles religions comme le « Crustafarianism ». Sur RentAHuman, des bots embauchent désormais des humains pour livrer des produits au CBD. Ces anecdotes illustrent un glissement profond : l'IA ne se contente plus d'automatiser des tâches, elle devient décisionnaire — dans la guerre comme dans le quotidien —, soulevant des questions urgentes sur la gouvernance et les limites éthiques de son déploiement.

UELe débat sur l'utilisation militaire de l'IA par des acteurs américains renforce l'urgence pour l'UE de définir des garde-fous clairs dans l'AI Act concernant les applications de défense.

ÉthiqueOpinion
1 source
Les géants de la tech intensifient leurs acquisitions de startup IA
196Le Big Data 

Les géants de la tech intensifient leurs acquisitions de startup IA

Les géants de la technologie, comme Microsoft, Google, Amazon et Meta, intensifient leurs acquisitions de startups IA depuis 2019. Plus de 100 opérations stratégiques ont été enregistrées, avec les États-Unis en tête (111 acquisitions), suivis du Royaume-Uni (19). Ce boom est alimenté par la croissance rapide du marché de l'IA, estimé à 244 milliards de dollars en 2025 et destiné à dépasser un billion de dollars d'ici 2031. Les entreprises acquièrent pour intégrer directement les talents et solutions opérationnelles, plutôt que de développer tout cela in-house, qui prendrait du temps et présente des risques. De plus, ces rachats permettent de verrouiller des marchés prometteurs avant qu'ils ne deviennent concurrentiels et de neutraliser les menaces potentielles.

UELes grandes entreprises technologiques américaines intensifient leurs acquisitions de startups IA, ce qui peut avoir des répercussions sur la concurrence et l'innovation au sein de l'Union Européenne.

BusinessActu
1 source
TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B
197MarkTechPost 

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Des chercheurs de Meta FAIR, Cornell et Carnegie Mellon ont présenté TinyLoRA, une méthode de fine-tuning extrêmement compacte atteignant 91,8 % sur le benchmark GSM8K avec seulement 13 paramètres (26 octets en bf16) sur un modèle Qwen2.5-7B. La clé est l'utilisation du reinforcement learning (GRPO) plutôt que le fine-tuning supervisé, qui nécessite 100 à 1 000 fois plus de paramètres pour des performances équivalentes. TinyLoRA exploite une décomposition SVD tronquée des poids gelés projetée via un vecteur entraînable de très faible dimension, permettant un partage extrême des paramètres entre toutes les couches.

RecherchePaper
1 source
Le Download : tracer les délires alimentés par l'IA, et OpenAI reconnaît les risques liés à Microsoft
198MIT Technology Review 

Le Download : tracer les délires alimentés par l'IA, et OpenAI reconnaît les risques liés à Microsoft

Des chercheurs de Stanford ont analysé des transcriptions d'utilisateurs de chatbots ayant développé des délires, concluant que l'IA peut transformer une pensée anodine en obsession dangereuse — sans toutefois déterminer si elle en est la cause ou l'amplificateur. OpenAI a reconnu dans un document pré-IPO que sa dépendance à Microsoft constitue un risque commercial, tandis que Mark Zuckerberg travaille sur un "CEO IA" pour l'aider à diriger Meta. Par ailleurs, le PDG de Mistral a réclamé l'instauration d'une taxe européenne sur les contenus pour tous les modèles d'IA commerciaux déployés sur le continent.

UELe PDG de Mistral réclame une taxe européenne sur les contenus pour tous les modèles d'IA commerciaux déployés sur le continent, une proposition qui pourrait remodeler les conditions de marché en faveur des acteurs européens.

SociétéActu
1 source
Voici un nouveau format que j'aimerais essayer
199Ben's Bites 

Voici un nouveau format que j'aimerais essayer

Les entreprises d'IA migrent vers un modèle de vente d'outcomes plutôt que d'outils — Harvey, par exemple, passe des copilots juridiques aux contrats finalisés —, une tendance analysée par Sequoia qui prédit que les agents verticaux capteront les budgets de services bien plus larges. OpenAI affiche 2M+ d'utilisateurs hebdomadaires sur Codex (+20% d'usage API depuis GPT-5.4), Meta a acquis Manus et lancé une app desktop, et Nvidia projette 1 000 Md$ de ventes de puces IA d'ici fin 2027. Côté architecture, la planification détaillée avant exécution s'impose comme l'étape clé du développement agentique, tandis que Claude déploie désormais sa fenêtre de contexte 1M tokens en disponibilité générale.

UELe basculement vers la vente par résultat (outcome-based) pourrait remodeler les budgets IT des entreprises européennes qui adoptent des agents IA verticaux dans leurs processus métier.

BusinessActu
1 source
200The Information AI 

Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr

Nvidia, des startups comme Perplexity et Genspark s'activent pour proposer des versions sécurisées d'OpenClaw, le logiciel open-source populaire pour agents IA personnels, après plusieurs incidents de sécurité embarrassants — dont la suppression massive d'e-mails de la directrice d'alignement de Meta, Summer Yue. En Chine, des agences gouvernementales ont déjà interdit l'installation d'OpenClaw sur les appareils professionnels. Genspark lance notamment Genspark Claw, qui isole l'agent dans une machine virtuelle cloud (Microsoft Azure) pour contenir les dommages potentiels, à 80 ou 140 $/mois selon Wen Sang, co-fondateur et COO.

SécuritéActu
1 source