Aller au contenu principal

Dossier Meta IA — page 8

593 articles · page 8 sur 12

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres
351MarkTechPost RecherchePaper

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

1 source
DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée
352arXiv cs.RO 

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Une équipe associée à JD Cloud publie DataLadder (arXiv:2606.16776, juin 2026), un pipeline de conversion bidirectionnel entre robots réels, simulation et démonstrations humaines, conçu pour scaler la génération de données d'entraînement et l'évaluation de politiques robotiques généralistes. L'outil repose sur deux flux complémentaires via le simulateur JoySim. Le premier, Robot vers Simulation vers Human, reconstruit des tâches réelles de rangement sur table en jumeaux numériques calibrés, puis mobilise des retours humains pour affiner la naturalité des trajectoires simulées, permettant une évaluation reproductible sans mobiliser de robot physique en continu. Le second, Human vers Simulation vers Robot, projette des démonstrations humaines filmées en vue égocentrique dans JoySim, les confronte aux contraintes physiques du robot cible, et en extrait trajectoires, annotations et observations visuelles directement utilisables en entraînement. Les modules de reconstruction, rendu et augmentation de réalisme sont exposés en services cloud sur JD Cloud. Ce travail adresse une asymétrie bien documentée : les données issues de robots réels restent la source la plus fiable, mais leur collecte est lente et coûteuse, tandis que la simulation seule souffre du sim-to-real gap. DataLadder introduit un filtre de cohérence physique dans la boucle de conversion human-to-robot, ce qui dépasse les approches de retargeting naïves. Pour les équipes développant des architectures VLA (vision-language-action), cette infrastructure pourrait réduire significativement la dépendance aux démos téléopérées, dont le coût est souvent estimé à plusieurs milliers de dollars par heure de collecte. L'accessibilité via API cloud simplifie également le déploiement pour des équipes sans cluster de simulation dédié. DataLadder s'inscrit dans la course au "data flywheel" pour robots généralistes, lancée par RT-2 (Google DeepMind, 2023) et accélérée par des politiques comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). JD.com, conglomérat e-commerce chinois opérant une large flotte logistique autonome, a un intérêt direct à industrialiser cette chaîne pour ses propres lignes de tri et de picking. Aucun benchmark comparatif avec les simulateurs concurrents Isaac Lab (NVIDIA) ou MuJoCo Playground (DeepMind) n'est fourni dans ce preprint, ce qui rend les affirmations de performance difficiles à évaluer pour l'instant. La prochaine étape attendue serait une validation quantitative sur des benchmarks standardisés de manipulation comme LIBERO ou MetaWorld.

RobotiqueOpinion
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
353arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

RechercheOpinion
1 source
Amazon obtient un prêt de 17,5 milliards de dollars pour investir dans l’IA
354Le Big Data 

Amazon obtient un prêt de 17,5 milliards de dollars pour investir dans l’IA

Amazon a sécurisé un prêt bancaire de 17,5 milliards de dollars auprès d'un consortium mené par Citigroup, JPMorgan Chase, Wells Fargo, HSBC et BofA Securities, annoncé le 10 juin 2026. L'opération intervient deux jours à peine après une émission obligataire de 14 milliards de dollars, portant le total des fonds levés en moins de 48 heures à 31,5 milliards de dollars. Ce prêt prend la forme d'un financement à tirage différé, ce qui signifie qu'Amazon peut débloquer les fonds progressivement selon ses besoins, sans mobiliser la totalité du capital immédiatement. Reuters indique que les fonds sont destinés aux "besoins généraux de l'entreprise", sans préciser de projets spécifiques. Pour un groupe de la taille d'Amazon, cette double opération financière en 48 heures envoie un signal fort sur l'intensité de la course aux infrastructures d'IA. Amazon Web Services, pilier technologique du groupe, doit sans cesse accroître ses capacités de calcul pour répondre à la demande des entreprises clientes en IA générative. Développer des modèles avancés, acquérir des puces spécialisées comme les GPU Nvidia et construire de nouveaux data centers exige des investissements qui se chiffrent désormais en dizaines de milliards de dollars par an. En recourant à la dette plutôt qu'à ses propres liquidités, Amazon préserve sa flexibilité financière tout en maintenant un rythme d'investissement que peu d'acteurs peuvent se permettre. Cette opération s'inscrit dans un mouvement plus large qui touche l'ensemble des géants technologiques américains. Alphabet a annoncé vouloir mobiliser jusqu'à 80 milliards de dollars pour soutenir ses investissements dans l'IA, et Meta a également lancé une importante émission obligataire pour financer ses propres projets. Les hyperscalers font face à des besoins simultanés et colossaux : data centers, réseaux électriques, systèmes de refroidissement et processeurs spécialisés représentent des dépenses sans précédent dans l'histoire récente de la Silicon Valley. La question qui se pose désormais pour les investisseurs est celle de la rentabilité : ces entreprises parient que l'IA deviendra un moteur de revenus massif dans les prochaines années, mais les retours sur ces investissements historiques restent encore largement à démontrer.

UEL'ampleur de ces opérations financières creuse l'écart entre les capacités d'investissement américaines et européennes dans les infrastructures IA, alimentant les débats sur la souveraineté numérique et la compétitivité industrielle de l'Europe.

BusinessActu
1 source
iOS 27 et Siri AI : marre des promesses d’Apple
355Frandroid 

iOS 27 et Siri AI : marre des promesses d’Apple

Lors de la WWDC 2026, Apple a présenté iOS 27 avec une série de fonctionnalités Siri dopées à l'intelligence artificielle : résumés de notifications, réponses contextuelles dans les applications, intégration avancée avec les modèles de langage. Une keynote ambitieuse, destinée à rattraper le retard d'Apple sur l'IA générative face à Google et Microsoft. Sauf qu'une large partie de ces annonces ne s'applique pas aux utilisateurs européens, contraints une fois de plus de regarder depuis les gradins. La cause est connue : le Règlement sur les marchés numériques (DMA) impose à Apple des obligations d'interopérabilité et de transparence que la firme de Cupertino juge incompatibles avec son modèle de déploiement IA. Résultat, les fonctionnalités Apple Intelligence continuent d'arriver au compte-gouttes en Europe, quand elles arrivent. Pour des millions d'utilisateurs qui paient le même prix qu'un Américain pour leur iPhone, c'est une frustration croissante : acheter un produit premium et se retrouver avec une version bridée d'office. Ce décalage entre annonces mondiales et disponibilité réelle en Europe s'est installé depuis iOS 18 et ne fait qu'empirer avec chaque cycle. Apple et la Commission européenne négocient en arrière-plan, mais aucune résolution n'est en vue à court terme. D'autres acteurs comme Google et Meta déploient eux aussi leurs IA en ordre dispersé selon les régions, mais Apple, avec sa réputation d'expérience unifiée et premium, souffre davantage de l'écart. La question n'est plus de savoir si ces fonctionnalités arriveront, mais combien de keynotes européens devront encore encaisser avant d'y avoir vraiment accès.

UELe DMA contraint Apple à déployer ses fonctionnalités Siri IA au compte-gouttes en Europe, privant des millions d'utilisateurs français et européens des nouveautés iOS 27 malgré un prix d'achat identique aux marchés non-européens, sans résolution à court terme entre Apple et la Commission européenne.

RégulationReglementation
1 source
Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré
356The Decoder 

Ideogram 4.0 sort en open-weight avec une résolution native 2K et un rendu de texte amélioré

Ideogram a publié la version 4.0 de son modèle de génération d'images, en le rendant disponible en open-weight, c'est-à-dire avec les poids accessibles publiquement. Cette nouvelle version introduit une résolution native de 2K, un contrôle par boîtes englobantes permettant de positionner précisément les éléments visuels, et des capacités améliorées de rendu du texte dans les images générées. Sur le classement DesignArena, Ideogram 4.0 se hisse à la première place parmi tous les modèles ouverts disponibles. Seuls les systèmes fermés d'OpenAI et de Google le dépassent encore. L'usage commercial reste toutefois soumis à une licence payante. Cette publication marque une avancée significative pour l'écosystème open-weight dans la génération d'images. Jusqu'ici, les modèles capables de produire du texte lisible et correctement intégré dans une image restaient une faiblesse notoire des systèmes ouverts. Proposer la 2K en natif élargit les possibilités pour les créatifs, les designers et les développeurs qui cherchent à intégrer ces outils dans des pipelines de production professionnels sans dépendre entièrement de plateformes fermées. Ideogram s'est imposé ces derniers mois comme l'un des compétiteurs sérieux face à Midjourney, DALL-E et Imagen de Google, notamment grâce à sa maîtrise du rendu typographique. Le choix de l'open-weight, une stratégie popularisée par Meta avec Llama, vise à élargir l'adoption et à s'imposer comme référence dans la communauté des développeurs. La restriction commerciale via licence payante permet à Ideogram de préserver un modèle économique tout en bénéficiant de la visibilité de l'open source.

UELes développeurs et créatifs européens peuvent intégrer ce modèle open-weight dans leurs pipelines de production sans dépendre de plateformes américaines fermées.

CréationOpinion
1 source
Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac
357Frandroid 

Gemma 4 12B : comment installer l’IA open source de Google sur votre PC ou Mac

Google a dévoilé le Gemma 4 12B, le plus récent modèle de sa famille Gemma 4, conçu pour fonctionner directement sur un ordinateur personnel sans passer par le cloud ni souscrire à un abonnement payant. Avec ses 12 milliards de paramètres, il représente le point d'équilibre idéal de la gamme pour un usage sur laptop : assez puissant pour des tâches complexes, assez léger pour tourner sur du matériel grand public. Son installation passe notamment par des outils comme Ollama ou LM Studio, qui permettent de télécharger et d'exécuter le modèle localement en quelques commandes. L'intérêt principal du Gemma 4 12B réside dans la confidentialité et l'autonomie qu'il offre : aucune donnée ne quitte la machine, aucun abonnement mensuel n'est requis, et le modèle reste disponible même hors connexion. Pour les développeurs, chercheurs ou professionnels manipulant des données sensibles, c'est une alternative crédible aux API cloud d'OpenAI ou Anthropic. La famille Gemma 4 intègre également des capacités multimodales, permettant de traiter texte et images au sein d'un même modèle. Cette sortie s'inscrit dans la stratégie open source de Google, qui fait face à une concurrence directe de Meta et de ses modèles Llama, largement adoptés par la communauté. En proposant des modèles librement redistribuables et optimisés pour le matériel grand public, Google cherche à gagner en influence auprès des développeurs indépendants et des entreprises qui préfèrent garder le contrôle de leur infrastructure IA. La course aux modèles locaux performants ne fait que commencer.

UELes développeurs et entreprises européennes soucieux du RGPD peuvent déployer Gemma 4 12B entièrement en local, sans transfert de données vers l'étranger, renforçant la souveraineté numérique.

LLMsTuto
1 source
Un badge d’accès dopé à l’IA : le gadget de Microsoft qui voit, écoute et accompagne les salariés
358Le Big Data 

Un badge d’accès dopé à l’IA : le gadget de Microsoft qui voit, écoute et accompagne les salariés

Microsoft a présenté lors de sa conférence Build un prototype de badge d'entreprise dopé à l'intelligence artificielle, baptisé Project Solara. Cet objet, conçu comme un compagnon de terrain connecté à Copilot, embarque un écran tactile, une caméra latérale, un microphone, un capteur d'empreintes digitales, du Wi-Fi et de la 5G. Steven Bathiche, expert technique chez Microsoft, a démontré sur scène comment demander à Copilot de repérer des prises de vue, de les retoucher et de les envoyer directement à une équipe. Un second prototype, lui destiné à rester sur un bureau, intègre des capteurs de présence à ultra-large bande capables de détecter l'approche de l'utilisateur, et se synchronise avec le PC principal via Bluetooth pour permettre de basculer des tâches entre les deux appareils. L'ambition de Microsoft est claire : faire sortir ses agents d'IA des interfaces logicielles pour les ancrer dans le monde physique, doté d'yeux, d'oreilles et d'une connexion permanente. La cible prioritaire n'est pas le cadre devant son écran, mais les travailleurs de première ligne, infirmières, employés de magasin, techniciens de terrain, pour qui un assistant capable de lire une scène en temps réel représente un gain concret. Le badge tire sa force du format lui-même : c'est un objet déjà accepté, voire ignoré, dans la plupart des organisations, ce qui facilite son adoption. Mais cette même discrétion soulève des questions immédiates sur la vie privée : un badge avec caméra et micro porté en permanence au travail franchit rapidement la ligne entre outil d'assistance et dispositif de surveillance. Cette annonce s'inscrit dans une stratégie plus large que Microsoft déploie depuis plusieurs années : après les PC Copilot, les agents logiciels autonomes et l'intégration de l'IA dans Microsoft 365, l'entreprise cherche à coloniser tous les points de contact du quotidien professionnel. Le mouvement n'est pas isolé, lunettes connectées, pendentifs IA et autres wearables fleurissent chez des concurrents comme Meta ou des startups spécialisées. Microsoft mise ici sur le monde de l'entreprise plutôt que sur le grand public, avec des secteurs comme la santé ou la distribution en ligne de mire. Le projet reste à ce stade un concept sans date de commercialisation annoncée, mais il signale une direction : si les agents d'IA doivent devenir vraiment utiles hors des bureaux, ils auront besoin d'un support physique. Microsoft parie que ce support pourrait se porter autour du cou.

UELe port permanent d'un badge caméra-micro en entreprise se heurterait directement au RGPD et au droit du travail français, qui encadrent strictement la surveillance des salariés et imposent un consentement explicite pour toute collecte de données biométriques ou audio sur le lieu de travail.

OutilsOutil
1 source
Arthur Mensch : itinéraire d’un architecte de l’IA européenne
359Le Big Data 

Arthur Mensch : itinéraire d’un architecte de l’IA européenne

Arthur Mensch, 33 ans, a cofondé Mistral AI en mai 2023 à Paris aux côtés de Guillaume Lample et Timothée Lacroix, deux anciens de Meta AI et camarades de l'École Polytechnique. Dès le mois suivant, la jeune pousse lève 105 millions de dollars en amorçage auprès de Lightspeed Venture Partners, un record européen pour une entreprise sans produit visible, fondé uniquement sur la réputation scientifique des trois associés. Le parcours de Mensch lui-même est celui d'un chercheur de fond formé à Polytechnique, Télécom Paris et au Master MVA de l'ENS Paris-Saclay, avant une thèse à l'Inria et au CEA NeuroSpin sur l'optimisation stochastique appliquée à l'imagerie cérébrale. Il rejoint ensuite Google DeepMind Paris fin 2020, où il travaille pendant près de trois ans sur des architectures multimodales et du traitement du langage à grande échelle. Ce que représente Mistral AI dépasse le simple succès commercial d'une startup : c'est la première fois qu'une entreprise européenne s'installe durablement dans la compétition frontale avec OpenAI, Google et Meta sur les grands modèles de langage. En optant pour des modèles ouverts et publiés librement, Mistral bouscule un secteur où la fermeture est la norme, séduisant à la fois les développeurs indépendants, les entreprises soucieuses de souveraineté des données et les gouvernements européens en quête d'alternatives crédibles aux fournisseurs américains. Cette approche technique traduit aussi un pari stratégique : la transparence comme levier de confiance et d'adoption rapide. Le déclic entrepreneurial de Mensch est né d'un constat précis observé de l'intérieur de DeepMind : l'Europe produit des chercheurs en IA parmi les meilleurs au monde, mais la Silicon Valley en capte systématiquement la valeur économique et la propriété intellectuelle. Plutôt que de tenter d'infléchir cette dynamique depuis un grand groupe américain, il choisit de fonder une structure indépendante sur le continent, capable de retenir les talents locaux et de garantir que les données des utilisateurs européens ne transitent pas par des serveurs étrangers. Depuis ses auditions parlementaires à Bruxelles et Paris, Mensch porte désormais ce discours au niveau politique, plaidant pour une régulation de l'IA qui ne pénalise pas les acteurs européens face à des concurrents qui opèrent hors de toute contrainte comparable. En trois ans, Mistral est passé de feuille blanche à symbole d'une souveraineté technologique possible.

UEMistral AI, entreprise purement française, incarne la souveraineté technologique européenne en offrant aux entreprises et gouvernements du continent une alternative crédible aux modèles américains pour héberger leurs données sans dépendance extra-européenne.

💬 105 millions levés sans produit, juste sur la réputation de trois chercheurs : ça te dit tout sur ce que vaut la crédibilité scientifique quand elle est bien emballée. Ce que Mensch a compris (et que DeepMind n'a pas su retenir), c'est que garder les talents ici passe par leur donner la propriété de ce qu'ils construisent. L'open source comme levier d'adoption, c'est le pari qui a marché jusqu'ici.

BusinessOpinion
1 source
SLM (Small Language Models) : ces modèles IA conviennent-ils aux entreprises ?
360Le Big Data 

SLM (Small Language Models) : ces modèles IA conviennent-ils aux entreprises ?

Face à la montée en puissance des grands modèles de langage généralistes, une nouvelle tendance s'installe dans les entreprises : les SLM, ou Small Language Models. Ces modèles compacts fonctionnent avec un nombre réduit de paramètres et sont entraînés sur des jeux de données ciblés plutôt que sur l'intégralité du web. Contrairement aux LLM classiques qui nécessitent des serveurs spécialisés et des centres de calcul coûteux, les SLM peuvent tourner directement sur l'infrastructure interne d'une entreprise. Leur architecture allégée leur permet d'être déployés sur des machines standard, sans dépendance au cloud. La contrepartie est claire : leur base de connaissances est volontairement restreinte, ce qui rend la qualité des données d'entraînement absolument critique. Un SLM mal entraîné sur des données médiocres devient rapidement inutilisable. L'attrait concret pour les entreprises tient à quatre avantages opérationnels majeurs. D'abord, le coût : chaque requête vers un grand modèle distant génère une dépense, alors qu'un SLM local traite les données sans frais supplémentaires. Ensuite, la vitesse : sans traversée des couches réseau, les réponses arrivent sensiblement plus vite. La confidentialité constitue un troisième argument de poids : aucun document ne quitte le réseau interne, ce qui répond directement aux exigences de nombreux secteurs réglementés comme la finance, la santé ou le juridique. Enfin, la sobriété énergétique : ces modèles consomment nettement moins de ressources matérielles, ce qui réduit à la fois la facture électrique et les besoins en équipement. Un assistant SLM dédié au support client peut par exemple maîtriser parfaitement les procédures internes et les produits d'une entreprise, sans aucun risque de fuite de données vers un tiers. Ce tournant vers les SLM s'inscrit dans une remise en question plus large d'une décennie de course aux grands modèles. Pendant longtemps, l'industrie technologique a postulé que la taille était synonyme de performance, justifiant des investissements colossaux en infrastructure cloud. Cette logique atteint ses limites économiques et pratiques pour une majorité d'entreprises qui n'ont pas les moyens ni les besoins de Google ou Microsoft. Les grands acteurs ont d'ailleurs anticipé ce virage : Microsoft a lancé sa gamme Phi, Google ses modèles Gemma, Meta ses versions légères de LLaMA. La compétition se déplace désormais vers l'efficience plutôt que la seule puissance brute. Pour les organisations qui cherchent une IA fiable, rapide et maîtrisée, les SLM représentent une voie d'adoption plus réaliste que le recours systématique aux géants du cloud.

UELes SLM représentent une option stratégique pour les entreprises européennes soumises au RGPD, permettant de traiter des données sensibles en interne sans les transmettre à des services cloud étrangers.

💬 J'ai vu trop de projets IA bloqués au bout de trois mois parce que le DSI refusait d'envoyer des données patients ou des contrats dans le cloud américain. Les SLM répondent exactement à ça : tu gardes tout en interne, ça tourne sur du hardware qu'une PME peut se payer, et le RGPD devient un avantage plutôt qu'un frein. Le seul truc sur lequel faut pas se louper, c'est la qualité des données d'entraînement, parce que compact et mal nourri, ça donne inutilisable en quinze jours.

LLMsOutil
1 source
Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?
361Le Big Data 

Liquid AI lance LFM2.5-8B-A1B : la taille ne fait-elle plus vraiment la performance ?

Liquid AI a lancé le 28 mai 2026 son nouveau modèle LFM2.5-8B-A1B, une intelligence artificielle conçue pour fonctionner directement sur des appareils grand public : smartphones, ordinateurs portables, PC, mais aussi des robots et des serveurs légers. Le modèle repose sur une architecture Mixture-of-Experts (MoE) : il dispose de 8 milliards de paramètres au total, mais n'en active qu'1,5 milliard par requête, ce qui réduit drastiquement les besoins en puissance de calcul. Par rapport à son prédécesseur LFM2-8B-A1B, sorti en 2025, il intègre une fenêtre de contexte élargie de 32 768 à 128 000 tokens, un vocabulaire doublé à 128 000 entrées, et un volume d'entraînement multiplié par trois, passant de 12 à 38 billions de tokens. Il introduit également un raisonnement explicite en chaîne de réflexion avant de produire ses réponses, une première pour cette gamme. Il est compatible nativement avec llama.cpp, MLX, vLLM et SGLang. Cette sortie est significative parce qu'elle cible directement un angle mort de l'IA actuelle : la dépendance au cloud. La quasi-totalité des modèles performants exigent une infrastructure serveur coûteuse, ce qui les rend inaccessibles en usage local ou dans des contextes à faible connectivité. En faisant fonctionner une IA avancée directement sur le matériel de l'utilisateur, Liquid AI ouvre la voie à des applications plus privées, plus réactives et moins onéreuses. L'entreprise revendique les meilleures vitesses de sa catégorie sur CPU comme sur GPU, et des performances comparables à des modèles bien plus lourds sur des benchmarks de suivi d'instructions et de tâches agentiques. Le doublement du vocabulaire améliore aussi concrètement la qualité pour des langues non latines comme l'hindi, le thaï, l'arabe ou l'indonésien, jusqu'ici mal servies par les grands modèles occidentaux. Liquid AI s'inscrit dans un mouvement plus large d'optimisation des modèles dit "edge-first", qui vise à rapprocher l'IA du matériel plutôt que de la centraliser dans des datacenters. Face à des acteurs comme Google avec Gemma, Microsoft avec Phi ou Meta avec Llama, la startup mise sur une architecture hybride originale combinant MoE, GQA et blocs de convolution courte pour se différencier. L'ajout de phases d'apprentissage par renforcement pour réduire les hallucinations et améliorer le raisonnement suit également la tendance imposée par les modèles o1 d'OpenAI et DeepSeek-R1. La suite logique pour Liquid AI sera de démontrer ces performances dans des cas d'usage réels embarqués, là où la vitesse et la frugalité en ressources comptent autant que les scores sur des benchmarks académiques.

LLMsOpinion
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
362VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation
363Meta Engineering ML 

SilverTorch : l'index comme modèle, un nouveau paradigme de recommandation

Meta a présenté SilverTorch, un nouveau système de recommandation qui transforme en profondeur la façon dont les plateformes comme Instagram ou Facebook sélectionnent les contenus affichés dans les fils d'actualité et les sections Reels. Accepté au programme complet de la conférence SIGIR 2026, ce travail de recherche introduit un paradigme inédit baptisé "Index as Model" : l'ensemble du pipeline de récupération de contenus est réuni dans un seul réseau de neurones, là où existaient auparavant une douzaine de microservices distincts. Dans une évaluation portant sur 80 millions d'éléments, SilverTorch a traité 23,7 fois plus de requêtes par seconde qu'une architecture traditionnelle multi-services construite sur la même base de modèle, tout en améliorant l'efficacité du coût total d'exploitation d'un facteur 20,9 par rapport à une solution CPU classique, et ce sans dépasser le seuil critique de 100 millisecondes de latence imposé par les contraintes temps réel. L'enjeu est considérable pour des plateformes servant des milliards d'utilisateurs quotidiens. Le système de récupération est l'étape qui réduit un catalogue de millions de contenus à quelques milliers de candidats pertinents avant de les transmettre aux algorithmes de classement final, le tout en moins de 100 millisecondes. L'architecture à base de microservices atteignait un plafond structurel : chaque saut entre services entraînait des pertes de latence et limitait la complexité des modèles qu'il était possible d'utiliser. En intégrant dans un même réseau de neurones la recherche par similarité d'intérêts, le filtrage d'éligibilité géographique et linguistique, puis le réordonnancement multi-tâches selon les probabilités d'engagement, SilverTorch rend pratiques des opérations qui étaient auparavant hors de portée dans ce budget de latence. Le résultat concret : une qualité de recommandation sensiblement supérieure, directement visible dans ce que les utilisateurs voient en premier lorsqu'ils ouvrent leurs applications. Les systèmes de recommandation industriels ont longtemps été construits comme des maillages de microservices hétérogènes, chacun avec son propre cycle de déploiement et souvent son propre langage de programmation, héritage de l'ère CPU où cette fragmentation était un avantage opérationnel. Avec la montée en puissance des GPU et des modèles de deep learning de plus en plus complexes, ce modèle architectural montrait ses limites : la fragmentation créait des frictions et bridait l'innovation. SilverTorch représente une réponse directe à cette contrainte en traitant les index d'items, autrefois gérés comme des bases de données séparées, comme de simples tenseurs à l'intérieur du modèle. Cette approche ouvre la voie à des systèmes de recommandation encore plus sophistiqués et pourrait influencer l'ensemble du secteur, qui fait face aux mêmes compromis entre complexité des modèles, latence et coûts d'infrastructure à très grande échelle.

RecherchePaper
1 source
Un bilan objectif sur la panique autour de l'IA et l'emploi
364MIT Technology Review 

Un bilan objectif sur la panique autour de l'IA et l'emploi

Malgré les manchettes alarmistes et les licenciements récents chez Coinbase, Meta et Cisco présentés comme le signe avant-coureur d'une destruction massive de l'emploi, les données économiques américaines racontent une autre histoire. Selon les analyses du Bureau of Labor Statistics (BLS), le taux de chômage dans les professions les plus exposées à l'intelligence artificielle est en réalité inférieur à celui des métiers peu concernés par la technologie. Plus révélateur encore : aucun mouvement massif de travailleurs des secteurs menacés vers des emplois réputés plus sûrs, comme les métiers manuels, n'est observable dans les statistiques. Erika McEntarfer, ancienne directrice du BLS limogée par l'administration Trump à l'automne 2025 après un rapport sur l'emploi jugé déplaisant, et désormais chercheuse au Stanford Institute for Economic Policy Research, résume la situation ainsi : "Toutes les preuves disponibles suggèrent que l'impact de l'IA sur le marché du travail actuel reste probablement faible. La disruption n'est pas encore là, et nous avons le temps de nous préparer." Ce constat ne signifie pas que tout va bien pour les travailleurs américains, mais il invite à dissocier les difficultés réelles de la cause qu'on leur attribue. Le taux de chômage des jeunes diplômés tourne autour de 5,6 %, un niveau inédit depuis la pandémie et la période post-2008. Les taux d'embauche restent particulièrement bas dans l'économie post-Covid, pénalisant surtout les 22-25 ans qui cherchent à intégrer le marché du travail, notamment en développement logiciel. Des signes indiquent que l'IA contribue à cette pression sur certains profils, mais ces professions ne représentent qu'une fraction de l'emploi total. Le recensement américain révèle par ailleurs que seulement une entreprise sur cinq utilise l'IA dans une quelconque fonction opérationnelle, ce qui relativise considérablement l'ampleur de la transformation en cours. La prudence des économistes repose sur une leçon historique bien documentée : les innovations technologiques mettent du temps à remodeler les marchés du travail, car elles doivent d'abord transformer les entreprises elles-mêmes. McEntarfer rappelle que "l'IA ne bouleversera probablement pas les marchés du travail avant d'avoir d'abord bouleversé les modèles d'affaires." Ce décalage entre le discours catastrophiste, alimenté par des figures influentes du secteur tech, et la réalité mesurable des données n'écarte pas un choc futur, potentiellement brutal lorsque l'adoption s'accélérera. Mais il plaide pour remplacer l'hystérie par une planification lucide, en s'appuyant sur ce que les chiffres montrent aujourd'hui plutôt que sur des projections anxiogènes dont aucune ne s'est encore concrétisée à grande échelle.

UECette analyse américaine offre un éclairage méthodologique pertinent pour les décideurs et syndicats européens qui débattent de l'impact de l'IA sur l'emploi, même si les données citées (BLS, Census américain) ne reflètent pas directement le marché du travail européen.

SociétéOpinion
1 source
OmniVoice Studio : une alternative locale et open source à ElevenLabs
365MarkTechPost 

OmniVoice Studio : une alternative locale et open source à ElevenLabs

OmniVoice Studio est une application de bureau open source qui propose une alternative locale aux services vocaux d'ElevenLabs, dont les abonnements vont de 5 à 330 dollars par mois. Développée autour du modèle OmniVoice de k2-fsa, l'application regroupe six fonctionnalités principales : clonage de voix à partir d'un clip audio de trois secondes en zero-shot learning, conception de voix synthétiques paramétrables (genre, âge, accent, émotion), doublage automatique de vidéos YouTube ou locales, dictée en temps réel via un widget flottant système, traitement par lots jusqu'à 50 vidéos simultanées, et exposition de toutes ces capacités via un serveur MCP compatible avec Claude, Cursor ou tout client personnalisé. L'architecture repose sur un frontend React couplé à un backend FastAPI exposant 97 endpoints, avec stockage SQLite et streaming via Server-Sent Events. Les bibliothèques ML au coeur du système sont WhisperX pour la transcription (99 langues, alignement mot à mot), Demucs de Meta pour la séparation vocale, Pyannote pour la diarisation des locuteurs, et AudioSeal de Meta pour incruster un filigrane neuronal invisible dans l'audio généré. L'application supporte nativement CUDA, Apple Silicon Metal et ROCm AMD, avec bascule automatique sur CPU en dessous de 8 Go de VRAM. Ce qui distingue fondamentalement OmniVoice Studio, c'est que l'intégralité du pipeline s'exécute en local, sans envoyer aucune donnée vers des serveurs externes. Pour les créateurs de contenu, les développeurs, les journalistes ou les entreprises traitant des enregistrements sensibles, cela représente un changement de paradigme concret : zéro latence réseau, zéro dépendance à un abonnement, zéro exposition de données propriétaires. Le support de 646 langues pour la synthèse vocale, contre 32 pour ElevenLabs, ouvre des usages dans des langues minoritaires ou des dialectes régionaux que les plateformes commerciales ignorent. La fonctionnalité de doublage vidéo entièrement automatisée, transcription, traduction, synthèse, export MP4, comprime en quelques minutes un workflow qui demandait auparavant des outils multiples et des compétences spécialisées. Le projet s'inscrit dans une tendance de fond qui voit l'open source rattraper progressivement les services cloud d'IA vocale, portés par la démocratisation des modèles de diffusion et des architectures TTS performantes. OmniVoice Studio propose six moteurs TTS interchangeables via une variable d'environnement, dont CosyVoice 3 (Apache 2.0, 9 langues et 18 dialectes), MLX-Audio réservé à Apple Silicon, et MOSS-TTS-Nano capable de fonctionner en temps réel sur CPU. Ajouter un moteur personnalisé ne requiert qu'une cinquantaine de lignes de Python. L'enveloppe desktop est construite avec Tauri, framework Rust multiplateforme, pour une base de code répartie à 56 % en Python et 23,6 % en JavaScript. À mesure que les modèles locaux gagnent en qualité et que les coûts d'inférence baissent, des projets comme celui-ci fragilisent le modèle économique des plateformes SaaS vocales qui facturent l'accès à des capacités désormais reproductibles hors cloud.

UELe traitement 100% local facilite la conformité RGPD pour les entreprises, médias et journalistes européens qui manipulent des enregistrements sensibles sans dépendre de serveurs cloud américains.

CréationOutil
1 source
MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros
366Le Big Data 

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

MiniCPM5-1B, développé par OpenBMB en collaboration avec des chercheurs de l'université Tsinghua, vient de décrocher la première place de l'Artificial Analysis Intelligence Index dans la catégorie des modèles open source sous les 2 milliards de paramètres, avec un score de 17,9 points. Ce résultat lui permet de devancer des concurrents pourtant plus imposants comme Qwen3.5-2B, qui plafonne à 16,3 points, malgré deux fois moins de paramètres. L'annonce a été faite le 25 mai 2026 via le compte ModelScope. Quantifié en INT4, le modèle ne pèse qu'environ 0,5 Go, ce qui lui permet de fonctionner localement sur des smartphones, dans des navigateurs web ou sur des appareils edge. Il propose une fenêtre de contexte de 128 000 tokens, deux modes de réponse (raisonnement détaillé étape par étape ou réponses rapides), et affiche de solides performances en mathématiques, génération de code et utilisation d'outils externes. Le projet est entièrement open source : poids, données d'entraînement et code de déploiement sont accessibles publiquement. OpenBMB précise également que MiniCPM5-1B a été entraîné via ForgeTrain, un framework de préentraînement développé sans programmeur humain. L'impact concret de ce type de modèle est considérable pour les usages du quotidien. Un modèle capable de fonctionner hors connexion sur un téléphone ordinaire ou un ordinateur portable bas de gamme transforme radicalement l'accès à l'IA : plus besoin d'envoyer des données vers des serveurs distants, plus de latence réseau, plus de dépendance à un abonnement cloud. Des utilisateurs rapportent déjà avoir dialogué avec le modèle pendant près d'une heure sans connexion Wi-Fi. Pour les entreprises, les développeurs indépendants ou les pays disposant d'infrastructures réseau limitées, cette autonomie représente un changement structurel. La capacité à gérer de longs documents ou conversations sans perdre le contexte, malgré un format aussi compact, élargit encore le champ d'application possible. La progression des petits modèles efficaces s'inscrit dans une tendance de fond qui remet en question la course aux paramètres qui a dominé l'industrie depuis 2020. Des laboratoires comme Google DeepMind avec Gemma, ou Meta avec les versions légères de LLaMA, explorent également cette voie, mais MiniCPM5-1B illustre que des équipes académiques chinoises peuvent désormais rivaliser directement avec les géants technologiques occidentaux sur ce terrain. Le fait qu'OpenBMB ait rendu l'ensemble du processus open source accentue la pression sur les acteurs commerciaux, qui ne peuvent plus se contenter de la taille pour justifier leurs coûts. La prochaine étape sera de vérifier si ces performances sur benchmarks se traduisent par une adoption réelle dans des applications grand public, ce qui constitue historiquement le vrai test de viabilité pour tout modèle, quel que soit son format.

UECe modèle open source deployable hors connexion pourrait intéresser des développeurs et PME européennes soucieux de souveraineté des données, mais aucun impact réglementaire ou institutionnel direct pour la France ou l'UE n'est identifié.

💬 0,5 Go pour battre Qwen deux fois plus gros, c'est le genre de chiffre qui devrait clore les débats sur la course aux paramètres. Ce qui m'intéresse c'est pas le score, c'est l'offline : dialoguer une heure depuis ton téléphone sans Wi-Fi et sans envoyer tes données nulle part, c'est un usage réel pour des millions de gens. Tout est open source, poids, données, code, donc la communauté va vite trancher si ça tient à l'usage ou non.

LLMsOpinion
1 source
Les meilleures plateformes d'authentification pour agents IA et serveurs MCP en 2026
367MarkTechPost 

Les meilleures plateformes d'authentification pour agents IA et serveurs MCP en 2026

Le Model Context Protocol (MCP), lancé par Anthropic en novembre 2024, s'est imposé en moins d'un an comme le standard de facto de l'écosystème agentique. OpenAI l'a adopté en mars 2025, Microsoft a annoncé son support dans Copilot Studio le même mois, et fin 2025 les téléchargements cumulés des SDK Python et TypeScript dépassaient 97 millions par mois. En décembre 2025, Anthropic a cédé le protocole à l'Agentic AI Foundation, hébergée par la Linux Foundation, pour en faire un bien commun de l'industrie. Gartner projette que 40 % des applications d'entreprise intégreront des agents IA spécialisés d'ici fin 2026, contre moins de 5 % aujourd'hui. Cette explosion soulève un problème central resté sans solution robuste : l'authentification. Quand un agent IA se contente de répondre à des questions, la sécurité d'accès reste anecdotique. Quand il lit des e-mails, met à jour des CRM, écrit dans des bases de données et appelle des API externes de façon autonome, l'authentification devient une infrastructure critique, et le coût d'une faille peut être considérable. La spécification MCP pour les déploiements HTTP protégés est précise : OAuth 2.1 avec PKCE est obligatoire, tous les endpoints doivent fonctionner en HTTPS, les métadonnées du serveur d'autorisation doivent être découvrables par les clients, et les mécanismes Protected Resource Metadata (RFC 9728) ainsi que Resource Indicators (RFC 8707) doivent être implémentés pour éviter la confusion d'audience des tokens. Plusieurs fournisseurs connus ne répondent pas encore à toutes ces exigences. C'est dans ce contexte que deux plateformes se distinguent : WorkOS, ciblant les équipes d'ingénierie enterprise, combine OAuth 2.1 compatible MCP avec SSO, SCIM, journaux d'audit et une autorisation granulaire (Fine-Grained Authorization) permettant de restreindre un agent à des outils précis plutôt qu'à un service entier. Stytch, filiale de Twilio, s'adresse aux équipes SaaS B2B déployant sur Cloudflare Workers et souhaitant ajouter l'authentification MCP sans migrer toute leur stack existante. L'enjeu dépasse le simple choix d'une bibliothèque. L'émergence des agents autonomes redéfinit la granularité des droits d'accès : il ne s'agit plus de savoir si un utilisateur peut accéder à une application, mais si un agent peut appeler un outil spécifique dans un service donné, dans un contexte précis, avec une traçabilité complète. Les acteurs comme Okta, Microsoft Entra ou des annuaires internes restent en jeu, mais les nouvelles plateformes comme WorkOS visent à s'y connecter plutôt qu'à les remplacer. Avec 40 % des applications enterprise concernées d'ici dix-huit mois, la fenêtre pour standardiser ces pratiques est courte, et les choix d'architecture faits aujourd'hui conditionneront la sécurité des systèmes agentiques pour les années à venir.

UELes entreprises européennes déployant des agents IA autonomes devront adopter ces standards d'authentification pour satisfaire aux exigences de traçabilité et d'auditabilité imposées par l'AI Act.

💬 L'auth pour agents, c'était le truc qu'on remettait à plus tard tant que les agents répondaient juste à des questions. Là, avec des systèmes qui lisent des mails, poussent dans des CRM et appellent des API externes sans supervision, c'est de l'infrastructure critique, et WorkOS a bien vu que le vrai sujet c'est l'autorisation à l'outil (pas à l'application, à l'outil spécifique). Reste à voir si les équipes qui déploient aujourd'hui vont s'y plier avant le premier incident sérieux.

OutilsOpinion
1 source
The Download : l'avenir du code, les « Jeux olympiques sous stéroïdes » et la science par l'IA
368MIT Technology Review 

The Download : l'avenir du code, les « Jeux olympiques sous stéroïdes » et la science par l'IA

Lors de l'événement développeur Code with Claude organisé par Anthropic à Londres cette semaine, presque la moitié des participants ont levé la main quand on leur a demandé s'ils avaient mis en production du code écrit entièrement par Claude, sans l'avoir relu. Ce signal fort illustre une transformation profonde du développement logiciel : des outils comme Claude Code gagnent suffisamment la confiance des ingénieurs pour qu'ils délèguent non seulement l'écriture, mais aussi la validation du code à l'IA. Anthropic assume pleinement cette direction et dit vouloir pousser l'automatisation aussi loin que possible. En parallèle, lors du Google I/O mardi, Demis Hassabis, PDG de Google DeepMind, a déclaré que l'humanité se trouvait "aux contreforts de la singularité" et annoncé Gemini for Science, un agent LLM capable de piloter des projets de recherche scientifique de bout en bout, avec la possibilité de faire appel à des systèmes spécialisés comme WeatherNext. Ces annonces révèlent deux basculements simultanés. Dans le développement logiciel, la question n'est plus de savoir si l'IA va coder à la place des humains, mais à quelle vitesse et avec quelles garanties de qualité. Des ingénieurs chez OpenClaw mettent déjà en garde contre une vague de "vibe-coded slop", du code généré à la va-vite par IA, potentiellement dangereux, qui inonde les bases de code de l'industrie. Dans la science, le passage d'outils spécialisés à des agents autonomes représente un changement de paradigme : Google semble délaisser les systèmes entraînés pour des tâches précises au profit d'architectures agentiques générales, une orientation qui pourrait accélérer la recherche mais aussi en réduire la traçabilité et l'explicabilité. Ces évolutions s'inscrivent dans un moment charnière pour l'IA en 2026. D'un côté, les modèles du monde, world models, portés par des chercheurs de Google DeepMind, du World Labs de Fei-Fei Li et de Yann LeCun (ex-chief AI scientist de Meta) cherchent à doter les systèmes d'une compréhension causale de l'environnement physique, une direction jugée essentielle pour dépasser les limites actuelles des LLM. De l'autre, la régulation reste absente : Donald Trump a reporté cette semaine un décret sur l'IA, craignant qu'il ne freine l'industrie américaine dans sa course contre la Chine. Résultat, l'industrie avance à grande vitesse, sans garde-fou clair, sur des sujets aussi larges que la production de code critique, la recherche scientifique autonome et la modélisation du monde réel.

UEL'absence de régulation fédérale américaine renforce le positionnement de l'AI Act européen comme seul cadre juridique structurant pour encadrer le code généré automatiquement et les agents de recherche scientifique autonomes.

💬 La stat qui me reste : la moitié des devs à Code with Claude shippent du code IA sans relecture. Je comprends, quand le modèle est fiable et le périmètre bien borné, ça peut marcher. Mais à l'échelle de l'industrie entière, sans garde-fou, on construit une belle dette technique invisible dont personne ne voudra être responsable dans six mois.

LLMsActu
1 source
Android XR : traduction en temps réel, résumés de conversations… voici les lunettes IA audio
369Le Big Data 

Android XR : traduction en temps réel, résumés de conversations… voici les lunettes IA audio

Google a présenté lors de la Google I/O 2026 une nouvelle génération de lunettes connectées fonctionnant sous Android XR, son système d'exploitation dédié à la réalité étendue. Alimentées par Gemini, son modèle d'IA maison, ces lunettes audio misent sur une interaction entièrement vocale : elles traduisent des conversations en temps réel, lisent et résument les notifications reçues, répondent à des questions sur l'environnement immédiat de l'utilisateur, et permettent d'envoyer des SMS, passer des appels ou appeler un Uber sans jamais sortir le smartphone de sa poche. Lors des démonstrations, Google a montré les lunettes capables de traduire un menu rédigé en langue étrangère simplement en le regardant, ou de retranscrire un échange oral en adaptant le ton à celui de l'interlocuteur. La navigation vocale figure également parmi les fonctions phares : les lunettes détectent la direction du regard et guident l'utilisateur de manière plus naturelle qu'un GPS classique. Des photos et vidéos peuvent aussi être prises sur commande vocale, avec retouches automatiques générées par l'IA. L'enjeu de ces lunettes dépasse largement le gadget : elles représentent une tentative sérieuse de rendre l'IA ambiante et permanente, intégrée dans le quotidien sans friction d'écran. Pour les utilisateurs, cela signifie accéder à l'information et piloter son environnement numérique les mains libres, en toutes circonstances. Pour l'industrie, c'est un signal fort que la prochaine bataille de l'IA se joue sur le corps, pas sur le bureau. Google se positionne directement face à Meta, dont les Ray-Ban connectées ont démontré qu'un facteur de forme discret peut effectivement séduire le grand public, là où les interfaces tête-haute et les écrans superposés peinent encore à convaincre. Treize ans après le fiasco des Google Glass, rejetées pour leur design ostensiblement technologique et leurs questions éthiques sur la vie privée, Google a visiblement tiré les leçons. Les nouvelles montures Android XR ont été co-développées avec Gentle Monster et Warby Parker, deux acteurs reconnus dans la lunetterie et la mode, pour que le produit ressemble avant tout à une paire de lunettes ordinaires. Les haut-parleurs et microphones sont dissimulés dans les branches sans altérer l'aspect visuel. Cette stratégie de normalisation du design est désormais le prérequis non négociable du marché des wearables : Meta l'a compris avec Ray-Ban, Google y revient avec Android XR. La prochaine étape sera de convaincre sur l'usage réel au quotidien, loin des démonstrations scénarisées, et de répondre aux inévitables questions sur la collecte de données dans des espaces publics.

UELa commercialisation en Europe de lunettes capables d'enregistrer l'environnement en continu soulèvera des questions directes pour la CNIL et le RGPD sur la collecte de données biométriques et environnementales dans les espaces publics.

OutilsOutil
1 source
NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU
370MarkTechPost 

NVIDIA lance SANA-WM : un modèle mondial open source de 2,6 milliards de paramètres capable de générer des vidéos 720p de plusieurs minutes sur un seul GPU

NVIDIA a publié SANA-WM, un modèle de monde open-source de 2,6 milliards de paramètres capable de générer une vidéo d'une minute en résolution 720p sur un seul GPU. Construit sur la base de code SANA-Video et disponible sur le dépôt GitHub NVlabs/Sana, ce modèle est un Diffusion Transformer (DiT) entraîné nativement pour la synthèse de séquences longues avec un contrôle de caméra 6-DoF à l'échelle métrique. Il propose trois modes d'inférence sur GPU unique : un générateur bidirectionnel pour la synthèse hors-ligne haute qualité, un générateur autorégressif par segments pour le déploiement séquentiel, et une variante distillée accélérée. Cette dernière génère un clip de 60 secondes en 720p en 34 secondes sur une RTX 5090 avec quantification NVFP4. Les modèles de monde représentent une brique technologique clé pour l'IA incarnée, la simulation et la robotique : ils permettent de prédire des séquences visuelles réalistes à partir d'une image initiale et d'un ensemble d'actions. Jusqu'ici, les systèmes open-source les plus compétitifs exigeaient soit plusieurs GPU pour l'inférence, soit une réduction de la résolution pour rester dans les budgets de calcul. SANA-WM s'attaque directement à ces deux contraintes, rendant accessible à un seul GPU une génération vidéo longue et haute définition. Pour les chercheurs en robotique et en simulation, cela réduit considérablement le coût d'expérimentation et ouvre la voie à des environnements synthétiques à grande échelle sans infrastructure dédiée. Sur le plan architectural, NVIDIA a résolu un problème fondamental : l'attention softmax standard a une complexité mémoire quadratique avec la longueur de séquence, ce qui devient prohibitif pour 961 frames latentes sur une vidéo de 60 secondes. SANA-WM remplace la majorité des blocs d'attention par des blocs Gated DeltaNet (GDN) frame-wise, une variante récurrente à taille d'état constante qui intègre un mécanisme de décroissance pour éviter l'accumulation de toutes les frames passées avec un poids égal, un problème qui dégradait les prédécesseurs sur les séquences longues. L'architecture finale entrelace 15 blocs GDN avec 5 blocs d'attention softmax sur 20 couches transformer au total. Le contrôle de caméra repose sur deux branches complémentaires : une branche grossière basée sur un encodage de position de caméra unifié (UCPE) pour capturer la trajectoire globale, et une branche fine utilisant des Plücker raymaps pour restaurer les mouvements de caméra intra-stride comprimés par le VAE vidéo. Ce modèle s'inscrit dans une dynamique d'accélération rapide des modèles de monde ouverts, où Google, Meta et des startups comme World Labs se positionnent également, faisant de la génération vidéo contrôlable un enjeu central de la prochaine génération d'IA.

UELes chercheurs européens en robotique et simulation peuvent désormais expérimenter avec des modèles de monde vidéo haute définition sur un seul GPU grand public, réduisant significativement les coûts d'infrastructure pour les laboratoires sans moyens de calcul dédiés.

💬 Un modèle de monde open-source qui tourne sur un seul GPU, c'est le genre de truc qui change vraiment les règles pour les labos sans cluster dédié. Ce qui me plaît, c'est le travail architectural sous-jacent : remplacer la majorité des blocs d'attention softmax par des GDN pour tenir sur des séquences longues sans exploser la mémoire, c'est pas trivial du tout. Reste à voir ce que ça donne sur une 4080 ordinaire, parce que la RTX 5090 c'est encore un autre monde.

CréationOpinion
1 source
Le règlement de 1,5 milliard de dollars d'Anthropic pour droits d'auteur s'enlise : le juge reporte son approbation
371Ars Technica AI 

Le règlement de 1,5 milliard de dollars d'Anthropic pour droits d'auteur s'enlise : le juge reporte son approbation

Une juge fédérale américaine a refusé jeudi d'approuver en l'état l'accord de règlement de 1,5 milliard de dollars conclu entre Anthropic et des auteurs dont les oeuvres auraient été utilisées sans autorisation pour entraîner ses modèles d'intelligence artificielle. La magistrate Araceli Martinez-Olguin, du tribunal de district des États-Unis, a suspendu la validation finale de ce qui est considéré comme le plus grand règlement pour violation de droits d'auteur de l'histoire américaine. Elle a demandé aux avocats représentant les auteurs de répondre aux objections formulées par plusieurs membres du groupe de plaignants, qui contestent les termes de l'accord. Ces objections portent sur deux points centraux : la rémunération des avocats, jugée excessive, et les versements prévus pour les auteurs concernés, qualifiés de "dérisoires" par certains plaignants. Des membres du collectif ont également adressé des lettres à la juge, affirmant que l'équipe juridique des auteurs cherchait à les empêcher de faire entendre leurs objections de manière équitable. Martinez-Olguin, plutôt que d'entériner rapidement l'accord, a choisi d'examiner sérieusement ces griefs avant de se prononcer, signalant que le consentement des plaignants ne peut pas être ignoré au profit d'un règlement expéditif. Cet accord s'inscrit dans une vague de procédures judiciaires qui opposent depuis plusieurs années les grandes entreprises d'IA aux titulaires de droits d'auteur, notamment des auteurs, des musiciens et des journalistes. Anthropic, comme ses concurrents OpenAI et Meta, fait face à des accusations d'avoir massivement aspiré des oeuvres protégées pour constituer les jeux de données d'entraînement de leurs modèles. Le montant de 1,5 milliard de dollars témoigne de l'ampleur du contentieux, mais les dissensions internes parmi les plaignants révèlent les tensions entre les stratégies des cabinets d'avocats spécialisés dans les recours collectifs et les intérêts réels des créateurs individuels. La décision finale de la juge pourrait redéfinir les standards des futurs règlements dans ce secteur en pleine effervescence juridique.

UECette affaire pourrait faire jurisprudence et peser sur les futures procédures judiciaires européennes concernant l'utilisation d'œuvres protégées pour l'entraînement de modèles d'IA, un débat également ouvert dans le cadre de l'AI Act.

💬 1,5 milliard, ça impressionne, mais ce que je trouve révélateur c'est que les avocats des plaignants cherchent à faire taire leurs propres clients. La juge a eu raison de bloquer: quand les créateurs eux-mêmes jugent l'accord "dérisoire", ça dit tout sur l'écart entre les intérêts des cabinets et ceux qu'ils représentent. Reste à voir si la version 2 du deal sera meilleure, ou juste mieux emballée.

RégulationReglementation
1 source
Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir
372Next INpact 

Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir

Des employés d'Amazon utilisent MeshClaw, un outil interne de déploiement d'agents IA lancé il y a quelques semaines par le groupe, non pas pour travailler plus efficacement, mais pour gonfler artificiellement leurs statistiques de consommation de tokens. MeshClaw fonctionne sur le même principe qu'OpenClaw : il permet de déployer des agents capables de trier des courriels, interagir sur Slack, déployer du code ou surveiller des applications. Selon le Financial Times, certains salariés font tourner ces agents en continu non parce qu'ils en ont besoin, mais pour afficher un usage IA élevé dans des classements internes que la direction a commencé à surveiller. Amazon s'est fixé comme objectif que 80 % de ses développeurs utilisent l'IA chaque semaine. Ce phénomène a reçu un nom : le "tokenmaxxing". Un développeur médian consomme environ 51 millions de tokens par mois selon une étude Jellyfish publiée en avril 2026, tandis que les 10 % de plus gros consommateurs dépassent 380 millions de tokens mensuels, soit un coût pouvant atteindre 700 dollars par mois aux tarifs de l'API Claude. Ce détournement révèle les effets pervers d'une gouvernance par les métriques dans les entreprises tech. Quand un indicateur devient un critère d'évaluation implicite, il cesse de mesurer la réalité et devient une fin en soi. "Les managers regardent ces chiffres", confie un employé anonyme, "ça crée des effets pervers et certaines personnes deviennent très compétitives." L'étude Jellyfish sur 12 000 développeurs dans 200 entreprises au premier trimestre 2026 enfonce le clou : une consommation massive de tokens produit effectivement plus de code, mais ce code nécessite davantage d'allers-retours, de supervision humaine et de corrections, ce qui annule les gains de productivité supposés. À cela s'ajoute un risque de sécurité réel : MeshClaw dispose d'un accès large à des outils internes sensibles, ce qui peut provoquer des incidents graves en cas d'usage mal maîtrisé, comme l'ont déjà illustré de récentes pannes chez AWS attribuées à des agents IA. Ce phénomène dépasse Amazon. Meta avait développé un tableau de bord interne attribuant le statut de "Token Legend" aux plus gros consommateurs de tokens, avant de le retirer sous pression, tout en maintenant un suivi officiel de l'usage IA. La pression vient du sommet : Amazon a annoncé 200 milliards de dollars de dépenses d'investissement pour 2026, en grande partie fléchés vers l'IA et les centres de données. Pour justifier ces montants astronomiques auprès des actionnaires, les directions poussent les équipes à produire des preuves d'usage, créant une mécanique où l'apparence d'adoption compte autant que l'adoption réelle. L'enjeu, désormais, est de distinguer la valeur générée par l'IA de la valeur simulée pour complaire aux tableaux de bord.

UELes entreprises tech françaises et européennes qui adoptent des métriques de suivi de l'usage IA s'exposent aux mêmes effets pervers de gouvernance par les indicateurs documentés ici.

SociétéOpinion
1 source
Perceptron Mk1 présente un modèle d'analyse vidéo très performant, 80 à 90 % moins cher qu'Anthropic, OpenAI et Google
373VentureBeat AI 

Perceptron Mk1 présente un modèle d'analyse vidéo très performant, 80 à 90 % moins cher qu'Anthropic, OpenAI et Google

La startup américaine Perceptron Inc. a lancé ce mois-ci son modèle d'analyse vidéo par intelligence artificielle, baptisé Mk1 (pour "Mark One"), à un prix qui bouleverse les standards du marché : 0,15 dollar par million de tokens en entrée et 1,50 dollar par million en sortie via son API. Ces tarifs représentent une réduction de 80 à 90 % par rapport aux principaux concurrents propriétaires, soit Claude Sonnet 4.5 d'Anthropic, GPT-5 d'OpenAI et Gemini 3.1 Pro de Google, ce dernier étant facturé autour de 3 dollars le million de tokens en coût combiné. Fondée il y a deux ans et pilotée par Armen Aghajanyan, ex-chercheur chez Meta FAIR et Microsoft, l'entreprise a consacré seize mois à développer une architecture multimodale conçue de zéro pour comprendre le monde physique. Sur les benchmarks de référence, Mk1 atteint 85,1 sur EmbSpatialBench, devançant le modèle Robotics-ER 1.5 de Google (78,4), et signe 72,4 sur RefSpatialBench contre seulement 9,0 pour GPT-5m et 2,2 pour Sonnet 4.5. Sur VSI-Bench, dédié au raisonnement temporel vidéo, Mk1 enregistre 88,5, le meilleur score parmi tous les modèles comparés. Ce positionnement ouvre concrètement l'analyse vidéo avancée à des usages industriels à grande échelle, jusqu'ici freinés par les coûts. Des secteurs comme la sécurité physique, la production de contenu marketing, la recherche comportementale ou le contrôle qualité en fabrication peuvent désormais envisager un déploiement massif sans budget prohibitif. La capacité du modèle à traiter des flux vidéo natifs à 2 images par seconde sur une fenêtre de contexte de 32 000 tokens, tout en maintenant la continuité temporelle des objets entre les frames, représente un bond technique par rapport aux modèles de vision classiques qui traitent la vidéo comme une succession d'images fixes déconnectées. L'analyse vidéo par IA reste aujourd'hui une niche technique dominée par quelques acteurs disposant de ressources considérables. Perceptron s'inscrit dans une tendance plus large où des startups spécialisées cherchent à attaquer des segments précis du marché des modèles fondamentaux, en ciblant ce que l'entreprise appelle la "frontière d'efficience", soit le rapport optimal entre performance et coût. Face à des géants comme Google, OpenAI et Anthropic qui développent des modèles généralistes onéreux, cette approche verticale centrée sur la compréhension du monde physique, incluant la causalité, la dynamique des objets et les lois de la physique, constitue un pari stratégique distinct. Une démo publique est disponible pour tester le modèle, et l'entreprise vise clairement les contrats enterprise à fort volume plutôt que la recherche exploratoire.

OutilsOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
374arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

RechercheOpinion
1 source
Gemini 3.2 Flash dévoilé par erreur par Google ?
375Le Big Data 

Gemini 3.2 Flash dévoilé par erreur par Google ?

Google a involontairement dévoilé l'existence de Gemini 3.2 Flash le 5 mai 2026, plusieurs semaines avant la Google I/O prévue les 19 et 20 mai. Des captures d'écran partagées sur les réseaux sociaux montrent le modèle apparaître dans l'application officielle Gemini, sous la dénomination "Aide complète", aux côtés des modèles Gemini 3.1 Lite et Pro. Des données issues de Google AI Studio précisent les tarifs envisagés : 0,25 dollar par million de tokens en entrée et 2 dollars en sortie, avec une base de connaissances arrêtée à janvier 2026. Google n'a officialisé aucune annonce, mais les fuites ont rapidement circulé parmi les testeurs et les observateurs du secteur. Les premiers retours de ces testeurs sont frappants : Gemini 3.2 Flash rivalisait, selon eux, avec des modèles bien plus lourds sur des tâches créatives et techniques. Parmi les exemples cités, la génération d'animations ASCII représentant des paysages urbains détaillés en HTML, ou encore la production de fichiers SVG d'une précision inhabituelle pour un modèle de la gamme Flash. Certains utilisateurs le qualifient même de "quasiment équivalent" à Gemini 3.1 Pro sur plusieurs usages. Si ces performances se confirment à grande échelle, l'impact serait considérable : un modèle rapide et peu coûteux atteignant le niveau d'un modèle premium redistribue les équilibres économiques pour les développeurs et les entreprises qui arbitrent entre coût et puissance dans leurs applications IA. Cette fuite s'inscrit dans une stratégie d'accélération visible chez Google depuis plusieurs mois. La firme multiplie les versions de sa gamme Gemini à un rythme soutenu, cherchant à ne pas laisser OpenAI, Anthropic ou Meta prendre de l'avance sur les usages les plus demandés. L'un des axes prioritaires est l'amélioration des capacités "agentiques", c'est-à-dire la faculté d'un modèle à agir de façon autonome, à enchaîner des tâches complexes et à s'adapter au contexte utilisateur. La Google I/O constitue chaque année la vitrine de ces ambitions, et la version 3.2 Flash pourrait n'être qu'un avant-goût d'annonces plus larges sur l'écosystème Gemini. La question reste entière : la version finale confirmera-t-elle les performances observées dans ces tests préliminaires, ou Google réservera-t-il les capacités les plus spectaculaires à un modèle supérieur dévoilé en mai ?

UELes développeurs et entreprises européennes utilisant les APIs Gemini pourraient accéder à un modèle rapide et peu coûteux (0,25 $/M tokens entrée) aux performances proches du niveau premium, réduisant significativement les coûts d'intégration IA.

LLMsOpinion
1 source
Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques
376The Information AI 

Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques

Google, Microsoft, Amazon et Meta ont simultanément publié leurs résultats du premier trimestre 2026, déclenchant un déluge de chiffres qui a dominé l'actualité financière de la journée. Le constat le plus net qui se dégage de cette publication groupée : la demande en capacité de calcul liée à l'intelligence artificielle continue d'accélérer, et elle tire vers le haut les revenus cloud des trois grands, AWS, Google Cloud et Azure. Amazon a particulièrement brillé, tout comme Google Cloud, avec des croissances qui ont dépassé les attentes des analystes. Andy Jassy, PDG d'Amazon, a résumé l'ambiance en quelques mots : « Ce n'est un secret pour personne que les laboratoires d'IA dépensent des sommes considérables en infrastructure de calcul. » Ce dynamisme a pourtant une face moins reluisante. Une part significative de la demande cloud provient des grands laboratoires d'IA eux-mêmes, Anthropic, OpenAI et leurs équivalents, qui consomment massivement des ressources GPU pour entraîner et faire tourner leurs modèles. Cela signifie que la croissance actuelle du cloud est en partie circulaire : les fournisseurs cloud investissent dans l'IA, et les entreprises d'IA réinjectent ces revenus en achetant encore plus de cloud. Jassy a néanmoins tenu à nuancer le tableau, soulignant qu'une partie non négligeable de la demande émane d'entreprises classiques qui intègrent l'IA dans leurs opérations, ce qui est indispensable si l'on veut que la révolution de l'IA soit économiquement viable à long terme. Sur le front publicitaire, Meta et Google ont également affiché de bons résultats, l'IA améliorant le ciblage et l'efficacité de leurs régies. Ces résultats s'inscrivent dans une séquence d'investissements massifs : les grandes entreprises technologiques ont collectivement annoncé des centaines de milliards de dollars de dépenses en infrastructure IA pour 2025 et 2026. La question qui reste ouverte est celle de la rentabilité de cet écosystème au-delà des hyperscalers eux-mêmes. Si les entreprises ordinaires adoptent l'IA à grande échelle, comme Jassy l'espère, le modèle tient. Dans le cas contraire, la bulle d'investissement repose essentiellement sur une concentration de quelques acteurs qui se financent mutuellement, un équilibre que les prochains trimestres permettront de mieux évaluer.

UEL'essor de la demande cloud tirée par l'IA se répercute indirectement sur les entreprises européennes qui dépendent de ces infrastructures pour déployer leurs propres projets d'IA, sans que l'article n'identifie d'impact direct sur la France ou l'UE.

BusinessActu
1 source
Disneyland en mode Big Brother ? La reconnaissance faciale débarque aux entrées
377Le Big Data 

Disneyland en mode Big Brother ? La reconnaissance faciale débarque aux entrées

Disneyland Californie a commencé à équiper plusieurs de ses entrées de caméras de reconnaissance faciale, dans le cadre d'un déploiement officiel annoncé par la Walt Disney Company. Le système capture des images des visiteurs et les convertit, via la biométrie, en empreintes numériques uniques liées à leur identité. L'objectif affiché est double : détecter les personnes qui entrent plusieurs fois sur la même journée et bloquer le partage non autorisé des abonnements annuels, une pratique coûteuse pour le groupe. Les visiteurs réticents peuvent contourner les files équipées du dispositif, précise Disney. Ce déploiement en 2026 fait suite à deux phases de tests : une première à Magic Kingdom Orlando en 2021, une seconde à Disneyland même en 2024. Pour Disney, l'enjeu économique est réel : les abonnements annuels partagés représentent un manque à gagner significatif sur des parcs qui accueillent des millions de visiteurs chaque année. Mais la portée du déploiement dépasse la simple lutte contre la fraude. En normalisant la reconnaissance faciale dans un lieu de divertissement familial à la fréquentation massive, Disney contribue à banaliser une surveillance biométrique que des millions de personnes accepteront sans y réfléchir, simplement parce qu'elles veulent accéder plus vite aux attractions. L'entreprise affirme avoir mis en place des protections techniques, administratives et physiques pour sécuriser les données collectées, tout en reconnaissant qu'aucun système n'est totalement imperméable à une faille. Ce mouvement s'inscrit dans une dynamique plus large et préoccupante. Plusieurs stades de la Major League Baseball utilisent déjà des systèmes similaires pour accélérer les entrées via selfie applicatif. Meta envisage d'intégrer la reconnaissance faciale à ses lunettes connectées Ray-Ban. Du côté des pouvoirs publics américains, des discussions en cours évoquent des financements pour des usages liés au contrôle de l'immigration et aux frontières. Les forces de l'ordre qui utilisent ces technologies font face à des poursuites judiciaires en raison de taux d'erreur élevés, affectant de manière disproportionnée certaines populations minoritaires. L'Union américaine pour les libertés civiles (ACLU) tire la sonnette d'alarme : son expert Jay Stanley posait déjà la question dès 2024, jusqu'où accepterons-nous que nos visages soient scannés dans les espaces publics. La réponse que donne aujourd'hui Disneyland, l'un des sites touristiques les plus visités au monde, pourrait bien faire jurisprudence pour l'ensemble du secteur des loisirs.

UELe déploiement à grande échelle de la reconnaissance faciale par Disney aux États-Unis pourrait précéder une extension à Disneyland Paris, alors que l'AI Act européen interdit en principe l'identification biométrique en temps réel dans les espaces publics accessibles au grand public.

ÉthiqueOpinion
1 source
Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs
378IEEE Spectrum AI 

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs

Le dernier modèle Llama de Meta atteint les 2 000 milliards de paramètres, un chiffre vertigineux qui illustre la course effrénée au gigantisme dans l'industrie de l'IA. Mais des chercheurs de l'université de Stanford ont mis au point une puce expérimentale qui pourrait changer radicalement l'équation énergétique de ces modèles colossaux. Leur approche repose sur un phénomène connu sous le nom de sparsité : dans la plupart des grands modèles de langage, une majorité des paramètres (poids et activations) sont égaux à zéro, ou si proches de zéro qu'ils peuvent être traités comme tels sans perte de précision. L'équipe Stanford a conçu le premier accélérateur matériel capable de traiter efficacement tous les types de charges de travail sparses, en partant de zéro sur la pile complète : hardware, firmware bas niveau et logiciel applicatif. Résultat mesuré : la puce consomme en moyenne soixante-dix fois moins d'énergie qu'un CPU classique et effectue les calculs huit fois plus vite. L'enjeu est considérable pour l'ensemble de l'industrie. Les modèles d'IA actuels exigent des ressources computationnelles et énergétiques croissantes, avec un impact carbone qui devient difficile à ignorer. Or les GPU et CPU dominants aujourd'hui n'exploitent pas naturellement la sparsité : ils multiplient et additionnent les zéros comme n'importe quel autre nombre, gaspillant du temps et de l'énergie. Sauter ces opérations inutiles et ne stocker que les paramètres non nuls permettrait, en théorie, de faire tourner des modèles de très grande taille avec une fraction de l'infrastructure actuelle, sans sacrifier leurs performances. Pour les entreprises qui déploient des modèles en production, les économies potentielles sur les coûts d'inférence seraient substantielles. Il y a deux ans, Cerebras avait déjà démontré que l'on peut mettre à zéro jusqu'à 70 à 80 % des paramètres d'un grand modèle de langage sans perte de précision mesurable, en testant cette approche sur le Llama 7B de Meta, avec des implications étendues à des modèles comme ChatGPT ou Claude. La sparsité peut aussi être naturellement présente dans certaines architectures, comme les modèles de recommandation ou les graphes de réseaux sociaux, où la plupart des connexions possibles n'existent pas. Ce que l'équipe Stanford apporte maintenant, c'est la preuve matérielle que toute la chaîne d'exécution peut être repensée pour exploiter cette propriété. La prochaine étape sera de savoir si l'industrie, dominée par Nvidia et ses GPU denses, adoptera cette direction ou si la sparsité restera un sujet de recherche académique face à la brutalité des roadmaps de puissance brute.

💬 70x moins d'énergie, c'est pas un détail. Stanford prouve qu'on peut reconstruire toute la stack matérielle autour de la sparsité et obtenir des résultats qui feraient pâlir n'importe quel data center. La vraie question, c'est si Nvidia va laisser ce genre de truc décoller, ou si leurs roadmaps de puissance brute vont continuer à dicter la direction de l'industrie pendant les 10 prochaines années.

InfrastructureOpinion
1 source
Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données
379arXiv cs.RO 

Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données

Une équipe de chercheurs a publié sur arXiv (référence 2604.23001) une analyse exhaustive de l'état des données dans les modèles Vision-Langage-Action (VLA) appliqués à la robotique. Ces modèles, qui permettent à un robot de percevoir son environnement visuel, d'interpréter des instructions en langage naturel et d'exécuter des actions physiques, connaissent des progrès spectaculaires depuis deux ans. Pourtant, selon les auteurs, le vrai goulot d'étranglement n'est pas l'architecture des modèles : c'est l'infrastructure des données. L'étude passe en revue trois dimensions clés, les jeux de données, les benchmarks d'évaluation, et les moteurs de génération de données, en cartographiant systématiquement leurs forces et leurs lacunes. Ce travail met en lumière un problème fondamental qui freine toute la discipline : collecter des données robotiques de haute fidélité coûte extrêmement cher, ce qui pousse les équipes vers des données synthétiques moins réalistes. Les benchmarks actuels, censés mesurer les capacités des robots, peinent à évaluer deux compétences pourtant cruciales, la généralisation compositionnelle (combiner des tâches apprises pour en résoudre de nouvelles) et le raisonnement sur des séquences longues. Autrement dit, les robots paraissent performants dans les tests, mais restent fragiles face à des situations légèrement différentes de celles rencontrées lors de l'entraînement. Pour les industriels et les laboratoires qui investissent massivement dans la robotique autonome, ce décalage entre métriques et réalité représente un risque concret. Le domaine de l'IA incarnée (embodied AI) est aujourd'hui dominé par des acteurs comme Google DeepMind, Meta, Physical Intelligence ou encore des équipes universitaires qui rivalisent pour entraîner des robots généralistes. Les auteurs identifient quatre défis ouverts : aligner les représentations visuelles et textuelles, améliorer la supervision multimodale, mieux évaluer le raisonnement, et générer des données à grande échelle sans perdre en réalisme physique. Leur conclusion est nette : traiter l'infrastructure de données comme un objet de recherche à part entière, et non comme un arrière-plan technique, est la condition pour que les prochaines générations de VLA tiennent leurs promesses hors des laboratoires.

RobotiqueOpinion
1 source
Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur
380MarkTechPost 

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion
1 source
OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute
381Le Big Data 

OpenAI travaille-t-il déjà sur GPT-5.5 ? Une fuite sème le doute

Le 22 avril 2026, des utilisateurs de Codex, l'environnement de développement assisté d'OpenAI, ont brièvement aperçu dans un sélecteur de modèles interne des noms inconnus : GPT-5.5, oai-2.1, et plusieurs variantes expérimentales non annoncées. L'accès a disparu en quelques minutes, mais les captures d'écran avaient déjà circulé sur X et dans les forums de développeurs. La fuite s'est produite dans un contexte particulier : OpenAI menait simultanément un test élargi dans Codex, confirmé par Rohan Varma, ingénieur de l'entreprise, touchant environ 100 % des utilisateurs, tous abonnements confondus, gratuits et payants. Sam Altman, PDG d'OpenAI, n'a pas démenti les spéculations autour d'un lancement imminent. Interrogé par un utilisateur évoquant une sortie possible dès le jeudi suivant, il a répondu par un simple emoji, sans démentir ni confirmer. Au-delà de l'anecdote, les retours techniques des développeurs ayant eu accès au modèle pendant ce court intervalle sont frappants. Plusieurs signalent une résolution de bugs front-end en quelques minutes là où GPT-4o nécessitait plusieurs heures. D'autres notent une meilleure cohérence dans la génération de code HTML et Tailwind CSS. Si ces observations restent parcellaires et non vérifiables à grande échelle, elles alimentent l'idée qu'OpenAI prépare un saut qualitatif significatif, pas seulement une mise à jour incrémentale. Pour l'industrie du développement logiciel assisté par IA, un modèle nettement plus rapide et fiable sur les tâches de code changerait concrètement les flux de travail quotidiens de millions de développeurs. La mise à disposition sur tous les plans tarifaires, si elle se confirme, représenterait également un changement de stratégie commerciale notable par rapport à la segmentation actuelle. Cette fuite s'inscrit dans une séquence d'annonces très dense côté OpenAI : ChatGPT Images 2.0 venait tout juste d'être déployé, renforçant la génération d'images précises directement dans le chat. Le rythme de publication soutenu d'OpenAI répond à une pression concurrentielle extrême. Anthropic a simultanément modifié son offre Claude Code en limitant l'accès pour certains abonnés Pro, tandis que Google, Meta et Mistral multiplient eux aussi les sorties. Dans ce contexte de course aux annonces, la communication ambiguë d'Altman, entre silence et émoji, est devenue une méthode rodée pour entretenir l'attention sans s'engager officiellement. GPT-5.5 pourrait être un modèle intermédiaire entre GPT-5 et une future version majeure, ou simplement un nom de test interne jamais destiné au public. La réponse pourrait venir dans les jours suivants, si OpenAI tient le calendrier informel que son PDG semble avoir laissé entrevoir.

UELa cadence de sorties accélérée d'OpenAI accentue la pression concurrentielle sur les acteurs européens, en particulier Mistral, cité dans l'article comme rival direct dans la course aux annonces de modèles.

LLMsOpinion
1 source
Modèles du monde
382MIT Technology Review 

Modèles du monde

Les systèmes d'intelligence artificielle maîtrisent aujourd'hui le monde numérique avec une aisance impressionnante, mais le monde physique reste un défi d'une tout autre nature. Pour franchir ce cap, de nombreux chercheurs misent sur une approche appelée "modèle du monde", une représentation interne que l'IA se construit de son environnement pour anticiper les conséquences de ses actions. Google DeepMind et World Labs, la startup fondée par Fei-Fei Li, professeure à Stanford, travaillent activement sur ces systèmes. Yann LeCun, jusqu'ici figure centrale de Meta, a quant à lui quitté l'entreprise pour fonder une startup entièrement dédiée à cette approche. OpenAI a également redirigé des ressources issues de la fermeture de son application vidéo Sora vers ce qu'elle appelle la "recherche en simulation du monde à long terme". L'enjeu est de taille : les grands modèles de langage actuels présentent des lacunes profondes dès qu'il s'agit de raisonner sur le monde réel. Une étude révélatrice a montré que des modèles entraînés sur des millions de trajets de taxis new-yorkais peuvent donner des itinéraires corrects dans Manhattan, mais échouent complètement dès qu'on leur impose un détour. Ce type de fragilité est fondamentalement incompatible avec des applications robotiques, où l'imprévu est la règle. Un vrai modèle du monde permettrait à un agent IA de se représenter son environnement avec suffisamment de fidélité pour prédire ce qui se passe si on pousse une tasse du bord d'une table, ou si on change de route en cours de chemin, exactement comme le fait le cerveau humain. Les applications concrètes émergent progressivement. Niantic, le studio derrière Pokémon Go, exploite les milliards d'images collectées par les joueurs du jeu pour construire les premières briques d'un modèle du monde destiné à guider des robots de livraison. Google DeepMind et World Labs concentrent actuellement leurs efforts sur la génération d'environnements virtuels 3D interactifs à partir de textes, d'images et de vidéos, des outils utiles pour la conception de jeux vidéo ou d'expériences en réalité virtuelle, mais encore limités dans leur portée. Les véritables percées viendront probablement de l'intégration de ces systèmes dans des agents autonomes capables de modéliser leur environnement, d'anticiper les effets de leurs actions et de décider en conséquence. Li et LeCun voient dans cette direction la clé pour des robots capables d'explorer les grands fonds marins ou d'assister le personnel soignant, un horizon encore lointain, mais qui mobilise désormais les acteurs les plus influents du secteur.

RecherchePaper
1 source
383MarkTechPost 

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément. Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite. La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

UEL'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

RecherchePaper
1 source
Cette étude révèle pourquoi l’IA pourrait fragiliser l’économie des entreprises
384Le Big Data 

Cette étude révèle pourquoi l’IA pourrait fragiliser l’économie des entreprises

Une étude publiée en avril 2026 par des chercheurs de l'Université de Pennsylvanie et de l'Université de Boston, intitulée "The AI Layoff Trap", modélise mathématiquement un mécanisme économique préoccupant lié à l'automatisation massive par l'IA. Les chiffres sont éloquents : plus de 100 000 postes ont disparu dans le secteur technologique en 2025, et 2026 s'annonce encore plus marqué avec déjà 61 000 suppressions d'emplois recensées. Des géants comme Amazon et Meta multiplient les vagues de licenciements, tandis que les chercheurs estiment que près de 80 % des travailleurs américains restent exposés à l'automatisation. L'étude utilise un modèle issu de la théorie des jeux pour démontrer que chaque entreprise, prise individuellement, agit de façon parfaitement rationnelle en adoptant l'IA afin de réduire ses coûts et maintenir sa compétitivité face à ses concurrents. Le problème, selon les auteurs, est que cette rationalité individuelle produit une irrationali­té collective. Moins d'emplois signifie moins de pouvoir d'achat, donc moins de consommation, donc une demande en recul dans tous les secteurs de l'économie. Les revenus des entreprises finissent par chuter, y compris celles qui ont massivement automatisé. Le mécanisme est décrit comme un dilemme du prisonnier appliqué à l'échelle macroéconomique : chaque acteur optimise sa survie à court terme, mais l'ensemble du système se déstabilise. Les entreprises qui n'automatisent pas perdent des parts de marché face à celles qui le font, ce qui les contraint à automatiser à leur tour, entretenant un cercle qui érode progressivement la demande dont toutes dépendent. Ce que rend particulièrement inquiétant le constat des chercheurs, c'est l'échec des solutions habituellement proposées. Le revenu universel de base, la redistribution fiscale du capital ou encore la formation professionnelle continue sont examinés et écartés : aucune de ces mesures ne modifie les incitations profondes qui poussent les entreprises vers l'automatisation massive. Tant que la pression concurrentielle reste intacte, chaque acteur continuera d'accélérer ses investissements en IA pour ne pas se laisser distancer, quelle que soit la politique redistributive en place. Cette étude s'inscrit dans un débat économique qui prend de l'ampleur alors que les grandes entreprises technologiques réallouent leurs budgets salariaux vers des infrastructures d'IA, posant une question structurelle à laquelle les gouvernements et les régulateurs n'ont pas encore trouvé de réponse convaincante.

UELes entreprises et travailleurs européens sont soumis aux mêmes dynamiques concurrentielles décrites par l'étude, ce qui renforce l'urgence du débat européen sur la régulation du marché du travail face à l'automatisation massive.

SociétéPaper
1 source
385MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
OpenAI : prévisions et conjectures
386The Information AI 

OpenAI : prévisions et conjectures

OpenAI fait face à des critiques croissantes sur la crédibilité de ses projections financières. Selon des documents obtenus par The Information, la société prévoit que son chiffre d'affaires total atteindra 284 milliards de dollars d'ici 2030, contre 13 milliards en 2025. Sur le seul segment publicitaire, OpenAI anticipe 2,4 milliards de dollars de revenus publicitaires pour ChatGPT cette année, 11 milliards en 2026, et jusqu'à 102 milliards en 2030, alors que la plateforme n'a commencé à tester la publicité qu'en février 2025. Ces chiffres soulèvent des questions sérieuses sur la rigueur des prévisions communiquées aux investisseurs. L'analyste financier Jim Chanos, réputé pour ses positions à la baisse sur des entreprises surévaluées, a déclaré en février que ces projections s'apparentaient peut-être à de simples "suppositions". Promettre 2,4 milliards de revenus publicitaires sur une année à peine entamée, pour un format publicitaire encore en phase de test, relève d'un optimisme difficilement justifiable. Pour les investisseurs qui participent aux levées de fonds massives d'OpenAI, dont la valorisation dépasse les 300 milliards de dollars, la qualité de ces projections a des implications directes sur leurs décisions d'allocation de capital. OpenAI se trouve dans une position paradoxale : pour justifier des valorisations astronomiques, la société doit présenter des trajectoires de croissance spectaculaires, au risque de perdre en crédibilité si les chiffres réels s'écartent trop des prévisions. L'entreprise cherche à diversifier ses revenus au-delà des abonnements ChatGPT et des accords API, notamment via la publicité et les services aux entreprises. Mais dans un secteur où Google, Meta et Microsoft disposent d'infrastructures publicitaires établies depuis des années, la montée en puissance d'OpenAI sur ce marché reste hautement incertaine. The Information suggère que la direction d'OpenAI aurait tout intérêt à cesser de publier des prévisions à si long terme, qui nuisent davantage à sa réputation qu'elles ne servent ses intérêts.

UELes investisseurs européens exposés aux levées de fonds d'OpenAI (valorisée à 300 milliards de dollars) doivent évaluer la crédibilité de ces projections financières dans leurs décisions d'allocation de capital.

BusinessOpinion
1 source
Anthropic expose accidentellement le code source de Claude Code via un fichier npm
387InfoQ AI 

Anthropic expose accidentellement le code source de Claude Code via un fichier npm

Anthropic a accidentellement exposé l'intégralité du code source de son outil Claude Code en incluant un fichier de source map dans la version 2.1.88 du paquet npm, publiée récemment. Ce fichier, normalement réservé au débogage, contenait la totalité du code TypeScript original -- soit environ 512 000 lignes -- qui était pourtant censé rester compilé et opaque. En quelques heures, des développeurs ont archivé le code sur GitHub, le rendant publiquement accessible. Anthropic a confirmé l'incident, le qualifiant d'erreur humaine lors du processus de packaging. La fuite a mis en lumière des éléments sensibles que l'entreprise n'avait pas encore annoncés : des fonctionnalités inédites, des noms de code internes pour ses modèles, ainsi que l'architecture de son système d'orchestration multi-agents. Ces informations constituent une mine de renseignements concurrentiels pour des acteurs comme OpenAI, Google DeepMind ou Meta, qui cherchent à comprendre les orientations techniques d'Anthropic. Pour les développeurs utilisant Claude Code au quotidien, la fuite offre un aperçu rare du fonctionnement interne d'un outil commercial de premier plan. Cet incident illustre la tension croissante entre la volonté des laboratoires d'IA de protéger leur propriété intellectuelle et les risques opérationnels inhérents à la distribution de logiciels via des registres publics comme npm. Anthropic, valorisé à plusieurs dizaines de milliards de dollars, mise largement sur Claude Code pour concurrencer GitHub Copilot et les outils de Cursor dans le segment des assistants de développement. L'entreprise devra désormais renforcer ses processus de publication pour éviter que de telles erreurs ne se reproduisent, d'autant que la course aux agents de codage s'intensifie.

BusinessActu
1 source
OpenAI demande aux procureurs generaux d'enqueter sur Musk
388The Information AI 

OpenAI demande aux procureurs generaux d'enqueter sur Musk

Jason Kwon, directeur stratégique d'OpenAI, a adressé lundi une lettre aux procureurs généraux de Californie et du Delaware pour demander l'ouverture d'une enquête sur Elon Musk. Selon des documents consultés par The Information, OpenAI accuse le milliardaire de chercher activement à saboter sa transformation de structure à but non lucratif en entité commerciale, une conversion juridique actuellement soumise à l'approbation de ces deux États. Cette démarche marque une escalade significative dans le conflit entre Musk et l'organisation qu'il a cofondée en 2015 avant d'en partir en 2018. OpenAI soutient que les actions de Musk, notamment ses tentatives présumées de rallier des investisseurs concurrents et ses déclarations publiques répétées, constituent une interférence délibérée dans un processus réglementaire légalement encadré. Pour OpenAI, dont la valorisation dépasse désormais les 300 milliards de dollars, la conversion en société à but lucratif est indispensable pour lever les capitaux nécessaires à sa compétitivité face à Google et Meta. Musk, qui dirige xAI et son modèle Grok concurrent, mène depuis 2023 une bataille judiciaire et rhétorique contre OpenAI, l'accusant de trahir sa mission originelle d'intérêt public. En sollicitant les autorités étatiques plutôt que de se limiter au terrain judiciaire fédéral, OpenAI cherche à multiplier les fronts de pression légale contre son ancien cofondateur, dont l'influence politique -- notamment sa proximité avec l'administration Trump -- complique déjà le paysage réglementaire de l'intelligence artificielle américaine.

BusinessActu
1 source
Des initiés d'OpenAI ne font pas confiance au PDG Sam Altman
389Ars Technica AI 

Des initiés d'OpenAI ne font pas confiance au PDG Sam Altman

Le même jour où OpenAI publiait ses recommandations politiques pour garantir que l'intelligence artificielle bénéficie à l'humanité en cas d'avènement d'une superintelligence, le magazine The New Yorker lançait une vaste enquête sur la fiabilité de Sam Altman, PDG d'OpenAI, quant à la tenue des grandes promesses de l'entreprise. Cette coïncidence éditoriale crée un contraste saisissant : d'un côté, un document institutionnel affirmant qu'OpenAI s'engage à "garder les humains en premier" alors que l'IA commencera à "surpasser les humains les plus intelligents, même assistés par l'IA" ; de l'autre, une investigation journalistique alimentée par des témoignages d'anciens collaborateurs qui doutent que ce discours soit sincère. L'enquête du New Yorker met en lumière une fracture profonde au sein même de l'organisation : des initiés, anciens employés ou proches du dossier, estiment que le problème central n'est pas la technologie mais son dirigeant. Sam Altman est décrit comme un leader dont les décisions et le style de management sèment la méfiance en interne. Pendant ce temps, le document de politique d'OpenAI reconnaît explicitement des risques extrêmes, notamment la possibilité que des systèmes d'IA échappent au contrôle humain ou que des gouvernements s'en servent pour saper la démocratie. L'entreprise promet de rester "lucide" et transparente sur ces dangers, mais la crédibilité de cet engagement est précisément ce que l'enquête remet en question. Cette tension intervient dans un contexte où OpenAI, valorisée à plusieurs dizaines de milliards de dollars et en pleine transformation vers une structure à but lucratif, est scrutée de toutes parts. La course à la superintelligence oppose des acteurs comme Google DeepMind, Anthropic et Meta, tous engagés dans une compétition technologique sans précédent. La question de la gouvernance, et de la confiance accordée aux dirigeants qui pilotent ces systèmes, est désormais au coeur du débat public. Si les promesses d'OpenAI sur la sécurité et la transparence sont prises au sérieux par les régulateurs et le grand public, leur crédibilité repose largement sur la personne qui les incarne.

UELes régulateurs européens scrutent la gouvernance des grands labs d'IA dans le cadre de l'AI Act ; une crise de confiance envers la direction d'OpenAI pourrait renforcer les exigences de transparence et d'audit imposées aux fournisseurs de modèles à haut risque.

SécuritéOpinion
1 source
OpenAI CFO Questions 2026 IPO Readiness
390The Information AI 

OpenAI CFO Questions 2026 IPO Readiness

Sam Altman, PDG d'OpenAI, et Sarah Friar, directrice financière de l'entreprise, ne s'accordent pas sur le calendrier d'une éventuelle introduction en bourse, selon des informations rapportées par The Information. Altman souhaiterait une entrée en bourse dès le quatrième trimestre 2026, tandis que Friar aurait exprimé en privé des réserves sur la capacité d'OpenAI à être prête dans ce délai. Ce désaccord au sommet est révélateur des tensions internes que traverse la startup la plus valorisée du secteur de l'IA. Une introduction en bourse prématurée exposerait OpenAI à un niveau de transparence financière et réglementaire auquel l'entreprise n'est peut-être pas encore préparée, avec des exigences de reporting trimestriel et une pression accrue des marchés sur la rentabilité à court terme, un défi de taille pour une société qui brûle des milliards en infrastructure et en recherche. OpenAI a récemment levé 40 milliards de dollars en mars 2026 lors d'un tour de table mené par SoftBank, portant sa valorisation à 300 milliards de dollars. Cette levée massive, combinée à la restructuration de l'entreprise en société à but lucratif, semblait préparer le terrain pour une éventuelle entrée en bourse. Mais les frictions entre Altman et Friar suggèrent que la transition vers les marchés publics est plus complexe que prévu, notamment dans un contexte de concurrence intense avec Google, Anthropic et Meta sur le marché de l'IA générative.

BusinessActu
1 source
Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX
391MarkTechPost 

Construire un pipeline Netflix VOID de suppression d'objets vidéo avec CogVideoX

Netflix a publié VOID (Video Object Inpainting and Detection), un modèle d'intelligence artificielle capable de supprimer des objets d'une vidéo et de reconstituer le fond de manière réaliste. Le pipeline repose sur CogVideoX-Fun-V1.5-5b-InP, un modèle d'inpainting vidéo développé par Alibaba PAI et distribué via Hugging Face. Le code source est accessible publiquement sur GitHub à l'adresse netflix/void-model, et le checkpoint officiel void_pass1.safetensors est téléchargeable depuis le dépôt netflix/void-model sur Hugging Face. Pour faire tourner le système, il faut au minimum 40 Go de VRAM, un GPU A100 étant recommandé par les ingénieurs de Netflix eux-mêmes. Le workflow comprend plusieurs étapes : cloner le dépôt, télécharger les modèles de base, préparer des séquences vidéo d'entrée avec leurs masques, puis lancer l'inférence pour obtenir une vidéo où l'objet ciblé a été effacé et remplacé par un fond cohérent. Une intégration optionnelle avec l'API d'OpenAI permet de générer automatiquement un prompt décrivant le fond souhaité, ce qui améliore la qualité du résultat final. Ce type d'outil représente une avancée significative pour la production audiovisuelle. Supprimer un objet indésirable d'une scène vidéo, un câble visible, un accessoire oublié en arrière-plan ou un logo non autorisé, est une opération courante en post-production qui nécessite aujourd'hui des heures de travail manuel dans des logiciels spécialisés comme Adobe After Effects ou DaVinci Resolve. Avec VOID, Netflix propose une approche automatisée basée sur la génération vidéo, où le modèle ne se contente pas de masquer une zone mais reconstitue activement ce qui se trouverait derrière l'objet supprimé, en tenant compte du mouvement de la caméra et de la cohérence temporelle entre les frames. Pour les studios de production et les équipes VFX, cela pourrait réduire drastiquement les coûts et délais associés aux corrections de plans en post-production. Netflix n'est pas le premier acteur à s'aventurer sur ce terrain. Des outils comme RunwayML Gen-3 ou Adobe Firefly Video proposent déjà des fonctionnalités similaires en mode SaaS, mais rares sont les modèles publiés en open source avec un pipeline complet et reproductible. En rendant VOID accessible, Netflix s'inscrit dans une tendance récente de grandes entreprises tech qui publient des modèles de recherche appliquée, à l'image de Meta avec SAM 2 pour la segmentation vidéo ou de Google avec ses travaux sur l'édition de scènes. L'architecture choisie, basée sur CogVideoX et les transformers de diffusion vidéo, reflète l'état de l'art actuel dans le domaine. La prochaine étape probable sera l'intégration de passes multiples et le traitement de vidéos longue durée, l'infrastructure actuelle étant limitée à des clips courts en raison des contraintes mémoire des GPU disponibles.

UELes studios de production et équipes VFX français et européens pourraient réduire leurs coûts de post-production grâce à ce pipeline open source de suppression d'objets vidéo, accessible sur GitHub et Hugging Face.

CréationOpinion
1 source
Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
392MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source
Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné
393The Decoder 

Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné

Alibaba a publié Qwen3.5-Omni, un nouveau modèle d'intelligence artificielle omnimodal capable de traiter simultanément du texte, des images, de l'audio et de la vidéo. Selon l'entreprise, le modèle surpasse Gemini 2.5 Pro sur les tâches de compréhension audio. Mais c'est une capacité émergente, non prévue lors de l'entraînement, qui a le plus retenu l'attention : Qwen3.5-Omni est capable d'écrire du code à partir d'instructions orales combinées à des entrées vidéo, une compétence que personne ne lui a explicitement enseignée. Ce phénomène d'émergence spontanée illustre une tendance de fond dans les grands modèles multimodaux : en apprenant à connecter plusieurs modalités sensorielles, ces systèmes développent des compétences transversales imprévues qui dépassent leurs objectifs d'entraînement initiaux. Pour les développeurs, cela ouvre des perspectives concrètes — imaginer un assistant capable de regarder un écran, d'écouter une demande vocale et de produire directement le code correspondant, sans interaction textuelle intermédiaire. Alibaba positionne Qwen3.5-Omni dans une course multimodale qui oppose désormais directement les acteurs chinois aux laboratoires américains. La série Qwen a déjà produit plusieurs modèles qui ont surpris par leurs performances, notamment sur des benchmarks de code et de raisonnement. Face à Google avec Gemini, OpenAI avec GPT-4o et ses variantes vocales, et Meta avec ses modèles ouverts, Alibaba cherche à s'imposer comme un acteur de référence sur le segment des modèles capables de percevoir et d'agir sur l'ensemble des modalités humaines. La publication de Qwen3.5-Omni renforce cette ambition.

LLMsOpinion
1 source
OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic
394Blog du Modérateur 

OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic

En l'espace d'une semaine, OpenAI a annoncé la fermeture de Sora, son générateur vidéo, ainsi que plusieurs projets annexes jugés non essentiels. Ces décisions marquent un recentrage stratégique brutal vers le cœur de métier de l'entreprise : les modèles de langage et ChatGPT. Selon le journaliste Jérôme Marin pour BDM, ces renoncements ne sont pas anodins et traduisent une pression concurrentielle grandissante. La principale menace identifiée est Anthropic, dont le modèle Claude gagne rapidement du terrain auprès des entreprises et des développeurs. OpenAI semble avoir conclu que disperser ses ressources sur des projets spectaculaires mais périphériques fragilisait sa position face à un concurrent qui, lui, concentre tous ses efforts sur la fiabilité et la sécurité de ses modèles. L'abandon de Sora est particulièrement symbolique : lancé en fanfare, le projet n'avait jamais atteint une adoption commerciale significative. Ce pivot intervient dans un contexte où la course aux modèles fondamentaux s'intensifie à vitesse inédite. Google, Meta, Mistral et xAI maintiennent la pression, tandis que les investisseurs exigent une trajectoire claire vers la rentabilité. OpenAI, valorisée à plus de 150 milliards de dollars, doit désormais prouver que sa domination historique sur le marché des LLM se traduira en revenus durables — pas seulement en annonces fracassantes.

UELa consolidation stratégique d'OpenAI autour des LLM intensifie la pression concurrentielle sur Mistral, seul acteur européen cité dans la course aux modèles fondamentaux.

BusinessOpinion
1 source
La politique de TikTok sur les publicités IA ne fonctionne pas
395The Verge AI 

La politique de TikTok sur les publicités IA ne fonctionne pas

Plusieurs grandes entreprises diffusent des publicités générées par intelligence artificielle sur TikTok sans apposer le label requis par la plateforme, révèle une enquête du site The Verge. Samsung figure parmi les marques épinglées : plusieurs de ses vidéos promotionnelles publiées sur ses comptes TikTok ne mentionnent nulle part l'utilisation d'outils d'IA générative, ni dans la vidéo elle-même, ni dans les petites lignes. TikTok impose pourtant depuis 2023 une politique explicite d'étiquetage des contenus publicitaires créés ou modifiés par IA, sous peine de sanctions théoriques pour les annonceurs contrevenants. Ce manquement soulève une question de confiance fondamentale pour les consommateurs : si des professionnels de l'image peinent à distinguer une vidéo synthétique d'une vraie, le grand public n'a aucune chance. L'absence de transparence fausse la perception des produits — un visage retouché par IA, une mise en scène impossible ou une voix clonée peuvent créer des attentes irréalistes. Pour l'industrie publicitaire, l'enjeu est de taille : la crédibilité des marques et la confiance des plateformes reposent sur des règles que personne ne semble aujourd'hui contrôler sérieusement. La prolifération des outils d'IA générative — Sora, Runway, Adobe Firefly, entre autres — a rendu la production de contenus synthétiques accessible à presque tous les annonceurs, accélérant une course au contenu bon marché qui dépasse les capacités de modération des plateformes. TikTok n'est pas seul dans cette situation : Meta, YouTube et Google font face aux mêmes défis de détection et d'application. Plusieurs régulateurs, notamment en Europe avec l'AI Act, commencent à imposer des obligations légales d'étiquetage, mais leur mise en œuvre reste balbutiante. La prochaine étape sera probablement judiciaire ou législative — à moins que les plateformes ne renforcent elles-mêmes leurs mécanismes de vérification avant que le scandale ne s'emballe.

UEL'AI Act européen impose des obligations d'étiquetage des contenus générés par IA aux plateformes opérant en Europe, et le non-respect constaté chez TikTok pourrait déclencher des procédures de conformité auprès des régulateurs européens.

ÉthiqueReglementation
1 source
Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur
396Frandroid 

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

Yann LeCun, chercheur français et directeur scientifique de Meta AI, reconnu comme l'un des pères fondateurs de l'intelligence artificielle moderne, a dévoilé avec son équipe un nouveau système baptisé LeWorldModel. La particularité revendiquée de ce modèle est sa capacité à fonctionner sur un seul GPU, une contrainte matérielle bien plus accessible que les clusters de milliers de puces utilisés par les grands modèles actuels. Les premiers résultats expérimentaux sont décrits comme très encourageants par les chercheurs. Si la promesse tient, LeWorldModel représenterait une avancée significative dans la démocratisation de l'IA : rendre possible une compréhension contextuelle du monde physique sans infrastructure colossale ouvre la voie à des déploiements embarqués, sur des robots, des véhicules autonomes ou des appareils grand public. Cela réduirait aussi la dépendance aux géants du cloud pour qui souhaite développer des applications d'IA perceptuelle. LeWorldModel s'inscrit dans la vision de long terme de LeCun, qui critique depuis plusieurs années les grands modèles de langage (LLM) pour leur incapacité à raisonner sur le monde réel. Il défend l'approche des "world models" — des systèmes capables de simuler et anticiper les états du monde physique, inspirés du fonctionnement cognitif humain. Cette annonce relance le débat sur la voie vers une IA plus robuste, face aux approches dominantes de type GPT portées par OpenAI et Google.

UEYann LeCun, chercheur français à la tête de Meta AI, porte une vision qui pourrait orienter la recherche européenne en IA vers des approches embarquées moins dépendantes des infrastructures cloud américaines.

RecherchePaper
1 source
Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence
397ZDNET FR 

Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence

Arm, le concepteur britannique de puces dont l'architecture équipe la quasi-totalité des smartphones mondiaux, a annoncé le lancement de son propre processeur destiné aux data centers : l'Arm AGI CPU. Contrairement à son modèle historique de simple vente de licences d'architecture, Arm entre cette fois directement sur le marché du silicium, ciblant spécifiquement les charges de travail liées à l'IA agentique — ces systèmes autonomes capables d'enchaîner des tâches complexes sans intervention humaine. Cette annonce marque un tournant stratégique majeur pour l'industrie. L'IA agentique exige des processeurs capables de gérer des flux de raisonnement continus et intensifs, un segment jusqu'ici dominé par les GPU de Nvidia et les puces custom de Google (TPU) ou Amazon (Trainium). En proposant un CPU optimisé pour ces usages, Arm s'attaque à un marché en croissance explosive, tout en challengeant ses propres clients comme Qualcomm et Apple qui s'appuient sur ses licences. Le mouvement s'inscrit dans un contexte de consolidation verticale accélérée : Meta, Microsoft et Amazon développent leurs propres puces, tandis que SoftBank — propriétaire d'Arm depuis 2016 et reintroduit en bourse en 2023 — pousse à une montée en valeur ajoutée. La concurrence sera néanmoins rude face à des acteurs comme AMD, Intel et surtout Nvidia, dont l'emprise sur l'infrastructure IA reste considérable. Les prochains mois révéleront si Arm peut transformer son omniprésence architecturale en avantage commercial direct sur ce segment stratégique.

UEArm étant une entreprise britannique stratégique soutenue par SoftBank, son entrée sur le marché des processeurs pour data centers pourrait renforcer l'écosystème européen des semi-conducteurs et influencer les choix d'infrastructure IA des acteurs cloud opérant en Europe.

InfrastructureOpinion
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
398MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Mirage lève 75 M$ auprès de General Catalyst pour booster son appli vidéo IA
399Le Big Data 

Mirage lève 75 M$ auprès de General Catalyst pour booster son appli vidéo IA

Mirage, la startup américaine spécialisée dans la création vidéo par intelligence artificielle, a levé 75 millions de dollars auprès du Customer Value Fund de General Catalyst, portant son financement total à plus de 175 millions de dollars. Cet investissement est destiné au développement de nouveaux modèles pour Captions, son application phare de montage vidéo assisté par IA. La plateforme revendique aujourd'hui plus de 20 millions d'utilisateurs dans le monde — des créateurs de contenu individuels comme des équipes marketing de grandes entreprises telles que HubSpot, CoreWeave et King. En un an, l'application a été téléchargée 3,2 millions de fois et a généré 28,4 millions de dollars de revenus intégrés, avec plus de 200 millions de vidéos créées. Fait notable : seulement un quart des revenus provient des États-Unis, signe d'une audience résolument internationale. Ce financement marque une étape dans la transformation plus large de la startup, qui a changé de nom — passant de Captions à Mirage — pour affirmer son positionnement comme laboratoire d'IA à vocation industrielle. En janvier 2025, elle a adopté un modèle freemium pour concurrencer CapCut de ByteDance (plus d'un milliard de téléchargements, 323 millions d'utilisateurs actifs mensuels) et Edits de Meta. Elle développe désormais ce qu'elle appelle une « intelligence d'assemblage », capable de composer des vidéos à partir de sources multiples, ainsi qu'un modèle audio conçu pour mieux respecter les accents des locuteurs non anglophones — un besoin concret identifié auprès de ses utilisateurs internationaux. L'objectif affiché est de rapprocher sa suite marketing web et son application mobile Captions, pour permettre aux petites entreprises de produire des contenus vidéo à grande échelle, de manière automatisée. Ce tour de table s'inscrit dans un contexte d'investissement massif dans l'IA générative : en 2025, plus de la moitié des capitaux levés par le capital-risque mondial ont été orientés vers des startups IA, notamment dans des secteurs comme le marketing, où 71 % des directeurs prévoient d'augmenter significativement leurs dépenses en IA générative d'ici 2027 selon BCG. Mirage se positionne précisément à cette intersection entre création vidéo automatisée et besoins marketing des entreprises.

UEAvec 75 % des revenus générés hors États-Unis, l'application compte vraisemblablement une base d'utilisateurs européenne significative, mais aucune implication réglementaire ou institutionnelle directe pour la France ou l'UE n'est identifiée.

BusinessActu
1 source
Voici un nouveau format que j'aimerais essayer
400Ben's Bites 

Voici un nouveau format que j'aimerais essayer

Les entreprises d'IA migrent vers un modèle de vente d'outcomes plutôt que d'outils — Harvey, par exemple, passe des copilots juridiques aux contrats finalisés —, une tendance analysée par Sequoia qui prédit que les agents verticaux capteront les budgets de services bien plus larges. OpenAI affiche 2M+ d'utilisateurs hebdomadaires sur Codex (+20% d'usage API depuis GPT-5.4), Meta a acquis Manus et lancé une app desktop, et Nvidia projette 1 000 Md$ de ventes de puces IA d'ici fin 2027. Côté architecture, la planification détaillée avant exécution s'impose comme l'étape clé du développement agentique, tandis que Claude déploie désormais sa fenêtre de contexte 1M tokens en disponibilité générale.

UELe basculement vers la vente par résultat (outcome-based) pourrait remodeler les budgets IT des entreprises européennes qui adoptent des agents IA verticaux dans leurs processus métier.

BusinessActu
1 source