Aller au contenu principal

Dossier Meta IA — page 9

605 articles · page 9 sur 13

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres
401MarkTechPost RecherchePaper

MiniMax Sparse Attention (MSA) : attention block-sparse à deux branches pour un MoE de 109 milliards de paramètres

MiniMax a publié MSA (MiniMax Sparse Attention), une nouvelle méthode d'attention parcimonieuse construite sur la base de l'architecture Grouped Query Attention (GQA). L'équipe de recherche l'a intégrée et testée dans un modèle Mixture-of-Experts de 109 milliards de paramètres, entraîné sur un budget de 3 000 milliards de tokens avec des données multimodales natives. Le résultat concret est MiniMax-M3, un modèle de production désormais disponible, accompagné d'un noyau d'inférence publié en open source. Le principe de MSA repose sur deux étapes : une branche Index qui sélectionne les blocs de tokens clé-valeur pertinents pour chaque requête, et une branche Principale qui applique l'attention softmax exacte uniquement sur ces blocs sélectionnés. Chaque requête consulte 16 blocs de 128 tokens, soit un budget fixe de 2 048 tokens clé-valeur, quelle que soit la longueur du contexte. Un noyau optimisé rend cette sélection 5,1 fois plus rapide que torch.topk à 128 000 tokens de contexte, et 3,7 fois plus rapide que le noyau radix-select de TileLang. L'enjeu technique est direct : l'attention standard en softmax a un coût quadratique par rapport à la longueur du contexte, ce qui signifie que doubler la fenêtre de contexte quadruple le coût de calcul. MSA court-circuite ce problème en fixant le coût par requête à O(kBk), indépendamment de la taille du contexte, là où l'attention GQA dense maintient un coût en O(N). Pour les modèles qui traitent des documents longs, du code étendu ou des corpus multimodaux, cela représente un gain concret en vitesse et en coût d'inférence. La méthode préserve par construction le contexte local immédiat de chaque requête, un bloc local étant toujours inclus dans la sélection, tout en permettant aux différents groupes d'attention de couvrir des régions éloignées du contexte de manière indépendante. La course aux longues fenêtres de contexte est l'un des fronts les plus actifs du développement des grands modèles de langage en 2025 et 2026. Plusieurs laboratoires, dont Anthropic, Google DeepMind et Meta, ont publié des travaux sur des architectures d'attention efficaces pour dépasser les 100 000 tokens. MiniMax, entreprise chinoise fondée en 2021 et valorisée à plusieurs milliards de dollars, s'impose ici avec une approche originale : plutôt que de remplacer l'attention, MSA la raffine de l'intérieur en greffant la sélection parcimonieuse sur GQA sans modifier l'architecture principale. Deux modes d'entraînement sont proposés, soit un départ depuis zéro (MSA-PT, après 40 milliards de tokens de préchauffage), soit une conversion d'un checkpoint dense entraîné sur 2 600 milliards de tokens (MSA-CPT, suivi de 400 milliards de tokens supplémentaires), ce qui facilite l'adoption par des équipes disposant déjà de modèles en production.

1 source
Atoms : un outil de vibe coding qui utilise des agents IA pour créer, déployer et promouvoir votre app, sans code
402MarkTechPost 

Atoms : un outil de vibe coding qui utilise des agents IA pour créer, déployer et promouvoir votre app, sans code

Atoms, un outil de création d'applications sans code, est lancé par l'équipe derrière MetaGPT, le framework multi-agents open source fort de 68 700 étoiles sur GitHub et de 11 publications dans des conférences majeures en intelligence artificielle. Plutôt qu'un simple générateur de code, la plateforme se structure comme une équipe virtuelle de huit agents spécialisés : Iris pour la recherche de marché, Emma pour la spécification produit, Bob pour l'architecture, Alex pour le développement, Sarah pour le SEO, Adrian pour les campagnes Google Ads, David pour l'analyse de données, et Mike comme chef d'équipe chargé de coordonner l'ensemble et de valider les étapes clés avec l'utilisateur. Atoms inclut également un « Race Mode » qui soumet chaque instruction à plusieurs modèles frontiers en parallèle et propose le meilleur résultat, avec une précision améliorée jusqu'à trois fois selon l'entreprise. Chaque application déployée est livrée avec authentification, base de données en temps réel, paiements Stripe et hébergement scalable en un clic. La vraie rupture qu'apporte Atoms ne porte pas sur la génération de code, désormais banalisée, mais sur l'ensemble du cycle de vie d'un produit numérique. La majorité des outils de vibe coding permettent de produire une démo convaincante, puis laissent l'utilisateur seul face au référencement, à la distribution et à la monétisation. Atoms intègre ces dimensions nativement : pages SEO générées et indexées automatiquement, campagnes Google Ads lancées et optimisées depuis la plateforme, et insights analytiques remontés par un agent dédié. Pour un entrepreneur non-technique, cela permet de passer d'une idée à un produit commercial opérationnel sans sous-traiter chaque brique séparément. Le code reste entièrement exportable ou synchronisable avec GitHub, évitant tout effet de dépendance à la plateforme. Cette approche s'inscrit dans l'essor du vibe coding, popularisé par Andrej Karpathy début 2025, qui postule que l'IA permet à quiconque de formuler une idée de construire une application sans écrire une ligne de code. MetaGPT, socle technique d'Atoms, est l'un des projets multi-agents les plus cités en recherche académique, ce qui confère à la plateforme une crédibilité rare dans un secteur souvent dominé par des startups sans ancrage scientifique. Le marché reste néanmoins très concurrentiel, avec Lovable, Bolt, Replit ou Cursor qui ciblent des segments adjacents. Atoms parie sur l'intégration verticale totale, de la validation d'idée jusqu'à l'acquisition payante, comme principal facteur de différenciation. La question ouverte reste la qualité réelle des applications en production à grande échelle, et le degré d'autonomie laissé à l'utilisateur face aux décisions stratégiques prises par les agents.

OutilsOutil
1 source
DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée
403arXiv cs.RO 

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Une équipe associée à JD Cloud publie DataLadder (arXiv:2606.16776, juin 2026), un pipeline de conversion bidirectionnel entre robots réels, simulation et démonstrations humaines, conçu pour scaler la génération de données d'entraînement et l'évaluation de politiques robotiques généralistes. L'outil repose sur deux flux complémentaires via le simulateur JoySim. Le premier, Robot vers Simulation vers Human, reconstruit des tâches réelles de rangement sur table en jumeaux numériques calibrés, puis mobilise des retours humains pour affiner la naturalité des trajectoires simulées, permettant une évaluation reproductible sans mobiliser de robot physique en continu. Le second, Human vers Simulation vers Robot, projette des démonstrations humaines filmées en vue égocentrique dans JoySim, les confronte aux contraintes physiques du robot cible, et en extrait trajectoires, annotations et observations visuelles directement utilisables en entraînement. Les modules de reconstruction, rendu et augmentation de réalisme sont exposés en services cloud sur JD Cloud. Ce travail adresse une asymétrie bien documentée : les données issues de robots réels restent la source la plus fiable, mais leur collecte est lente et coûteuse, tandis que la simulation seule souffre du sim-to-real gap. DataLadder introduit un filtre de cohérence physique dans la boucle de conversion human-to-robot, ce qui dépasse les approches de retargeting naïves. Pour les équipes développant des architectures VLA (vision-language-action), cette infrastructure pourrait réduire significativement la dépendance aux démos téléopérées, dont le coût est souvent estimé à plusieurs milliers de dollars par heure de collecte. L'accessibilité via API cloud simplifie également le déploiement pour des équipes sans cluster de simulation dédié. DataLadder s'inscrit dans la course au "data flywheel" pour robots généralistes, lancée par RT-2 (Google DeepMind, 2023) et accélérée par des politiques comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). JD.com, conglomérat e-commerce chinois opérant une large flotte logistique autonome, a un intérêt direct à industrialiser cette chaîne pour ses propres lignes de tri et de picking. Aucun benchmark comparatif avec les simulateurs concurrents Isaac Lab (NVIDIA) ou MuJoCo Playground (DeepMind) n'est fourni dans ce preprint, ce qui rend les affirmations de performance difficiles à évaluer pour l'instant. La prochaine étape attendue serait une validation quantitative sur des benchmarks standardisés de manipulation comme LIBERO ou MetaWorld.

RobotiqueOpinion
1 source
Databricks publie Omnigent en open source : un orchestrateur d'agents IA qui unifie Claude Code, Codex et Pi
404MarkTechPost 

Databricks publie Omnigent en open source : un orchestrateur d'agents IA qui unifie Claude Code, Codex et Pi

Databricks a publié Omnigent, un "meta-harness" open source placé au-dessus des agents IA existants comme Claude Code, Codex et Pi. Développé en collaboration avec Neon et distribué sous licence Apache 2.0, Omnigent ne remplace pas ces outils : il s'installe une couche au-dessus d'eux pour les orchestrer comme des pièces interchangeables d'un même système. Concrètement, un "harness" est l'enveloppe logicielle qui transforme un modèle de langage en agent capable d'agir. Omnigent standardise l'interface de ces harnesses, messages entrants, fichiers, flux de texte et appels d'outils sortants, pour qu'ils deviennent substituables sans réécriture de code. L'outil s'installe via deux alias CLI identiques, omnigent et omni, et lance au démarrage une interface web locale sur localhost:6767, synchronisée en temps réel avec le terminal et accessible depuis un téléphone. Pour les équipes d'ingénieurs qui jonglent déjà entre quatre ou cinq agents simultanément en copiant du texte entre des outils de code, des moteurs de recherche et Slack, Omnigent apporte trois capacités structurantes. La composition permet de combiner modèles et harnesses sans toucher au code : un simple changement d'une ligne suffit à basculer de Claude Code à Codex. Le contrôle introduit des politiques stateful, par exemple, mettre un agent en pause après chaque dépense de 100 dollars, ou exiger une validation humaine avant un git push si l'agent a installé un nouveau paquet npm. La collaboration permet de partager une session d'agent en direct par URL : les coéquipiers peuvent observer, commenter des fichiers, co-piloter ou bifurquer la conversation. Un sandbox système appelé Omnibox assure la sécurité sous-jacente, notamment en injectant les tokens GitHub uniquement via un proxy de sortie approuvé, sans les exposer à l'agent. Le projet embarque deux agents d'exemple révélateurs de la philosophie de l'outil. "Polly" est un orchestrateur multi-agents qui ne génère aucun code lui-même : il planifie, puis délègue en parallèle à des sous-agents dans des worktrees git distincts, avec une revue croisée assurée par un agent d'un fournisseur différent de celui qui a écrit le code. "Debby" est un partenaire de brainstorming à deux têtes, Claude et GPT, qui répond en parallèle à chaque question et peut déclencher un débat contradictoire entre les deux via la commande /debate. Ces exemples illustrent une tendance de fond : avec la multiplication des agents spécialisés, la compétition ne se joue plus seulement au niveau du modèle, mais à celui de l'orchestration. Omnigent positionne Databricks sur ce terrain en proposant une couche de gouvernance neutre, ouverte, et potentiellement universelle pour l'écosystème des agents de développement.

💬 Le truc qui m'a accroché, c'est pas la couche d'orchestration générique, c'est les politiques de contrôle : mettre un agent en pause après 100 dollars de dépenses, bloquer un git push si un nouveau paquet npm s'est glissé sans validation humaine, c'est le maillon qui manquait depuis qu'on jongle avec cinq agents en même temps. Databricks parie que la bataille se joue à la gouvernance plutôt qu'au modèle, et ce pari-là je le trouve solide. Apache 2.0, Neon dans la boucle, reste à voir si l'écosystème suit vraiment.

OutilsOutil
1 source
Amazon obtient un prêt de 17,5 milliards de dollars pour investir dans l’IA
405Le Big Data 

Amazon obtient un prêt de 17,5 milliards de dollars pour investir dans l’IA

Amazon a sécurisé un prêt bancaire de 17,5 milliards de dollars auprès d'un consortium mené par Citigroup, JPMorgan Chase, Wells Fargo, HSBC et BofA Securities, annoncé le 10 juin 2026. L'opération intervient deux jours à peine après une émission obligataire de 14 milliards de dollars, portant le total des fonds levés en moins de 48 heures à 31,5 milliards de dollars. Ce prêt prend la forme d'un financement à tirage différé, ce qui signifie qu'Amazon peut débloquer les fonds progressivement selon ses besoins, sans mobiliser la totalité du capital immédiatement. Reuters indique que les fonds sont destinés aux "besoins généraux de l'entreprise", sans préciser de projets spécifiques. Pour un groupe de la taille d'Amazon, cette double opération financière en 48 heures envoie un signal fort sur l'intensité de la course aux infrastructures d'IA. Amazon Web Services, pilier technologique du groupe, doit sans cesse accroître ses capacités de calcul pour répondre à la demande des entreprises clientes en IA générative. Développer des modèles avancés, acquérir des puces spécialisées comme les GPU Nvidia et construire de nouveaux data centers exige des investissements qui se chiffrent désormais en dizaines de milliards de dollars par an. En recourant à la dette plutôt qu'à ses propres liquidités, Amazon préserve sa flexibilité financière tout en maintenant un rythme d'investissement que peu d'acteurs peuvent se permettre. Cette opération s'inscrit dans un mouvement plus large qui touche l'ensemble des géants technologiques américains. Alphabet a annoncé vouloir mobiliser jusqu'à 80 milliards de dollars pour soutenir ses investissements dans l'IA, et Meta a également lancé une importante émission obligataire pour financer ses propres projets. Les hyperscalers font face à des besoins simultanés et colossaux : data centers, réseaux électriques, systèmes de refroidissement et processeurs spécialisés représentent des dépenses sans précédent dans l'histoire récente de la Silicon Valley. La question qui se pose désormais pour les investisseurs est celle de la rentabilité : ces entreprises parient que l'IA deviendra un moteur de revenus massif dans les prochaines années, mais les retours sur ces investissements historiques restent encore largement à démontrer.

UEL'ampleur de ces opérations financières creuse l'écart entre les capacités d'investissement américaines et européennes dans les infrastructures IA, alimentant les débats sur la souveraineté numérique et la compétitivité industrielle de l'Europe.

BusinessActu
1 source
SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel
406Le Big Data 

SkillMAS : quand l’IA réorganise son équipe et réécrit ses outils en temps réel

Une équipe de chercheurs des universités Jiao Tong de Shanghai et du Centre-Sud, en partenariat avec le fabricant de smartphones OPPO, a publié en mai 2026 les travaux fondateurs du framework SkillMAS, un nouveau système d'orchestration d'agents d'intelligence artificielle. L'architecture, entièrement non paramétrique, ne modifie pas les poids des modèles de langage sous-jacents : elle fonctionne comme une couche logicielle supérieure qui permet à des équipes d'agents autonomes de réorganiser leurs rôles et de réécrire leurs outils en temps réel, sans aucune reprogrammation manuelle. Le mécanisme central repose sur une coévolution synchronisée à deux échelles : une échelle micro, qui gère les compétences techniques de chaque agent individuel, et une échelle macro, qui supervise l'organigramme collectif et redistribue les responsabilités au sein de l'équipe. Les deux niveaux s'influencent mutuellement en continu, ce qui confère au système une plasticité jusqu'ici absente des architectures classiques. Ce niveau d'adaptabilité répond à une limite structurelle des systèmes multi-agents actuels : leurs rôles et leurs outils sont figés par les développeurs au moment de la conception. Face à l'imprévu, ces architectures rigides entrent en boucles d'erreurs, consomment des quantités massives de tokens et nécessitent une supervision humaine constante, ce qui cantonne la technologie à des tâches bien balisées. SkillMAS brise ce plafond en permettant au système de s'adapter dynamiquement aux tâches complexes, réduisant à la fois les coûts opérationnels et la dépendance au pilotage humain. Pour OPPO, l'enjeu est directement industriel : cette architecture ouvre la voie à des assistants virtuels capables de gérer des situations inédites sans intervention extérieure, un saut qualitatif significatif pour les appareils grand public. Entre 2023 et 2025, la recherche en systèmes multi-agents avançait sur deux fronts séparés : des projets comme Voyager (Microsoft Research, 2023) exploraient la capacité des agents à créer leurs propres outils, tandis que des frameworks comme MetaGPT se concentraient sur la coordination collective. Aucun système ne fusionnait réellement ces deux dimensions. SkillMAS représente cette convergence, en unifiant apprentissage automatique et systèmes distribués dans une architecture unique. La validation en laboratoire démontre sa supériorité face aux standards actuels, et l'implication directe d'un acteur industriel comme OPPO suggère un passage prochain vers des applications commerciales. La prochaine étape sera de confirmer ces performances dans des environnements réels, hors conditions de laboratoire, où la robustesse des systèmes adaptatifs sera véritablement mise à l'épreuve.

UERecherche publiée par des universités chinoises en partenariat avec OPPO, sans impact immédiat sur la France/UE, mais susceptible d'influencer les architectures multi-agents à moyen terme.

RecherchePaper
1 source
Sakana AI parie qu'une IA capable de s'améliorer elle-même peut mettre fin à la course au calcul des grands laboratoires
407The Decoder 

Sakana AI parie qu'une IA capable de s'améliorer elle-même peut mettre fin à la course au calcul des grands laboratoires

Sakana AI, une startup japonaise co-fondée par Llion Jones, l'un des huit co-auteurs du papier fondateur « Attention is All You Need » (2017), vient de lancer un laboratoire de recherche entièrement dédié à l'auto-amélioration récursive, connue sous le sigle RSI (Recursive Self-Improvement). Cette technologie consiste à concevoir des systèmes d'IA capables de s'optimiser eux-mêmes de façon itérative, sans dépendre d'une augmentation constante de la puissance de calcul disponible. Pour Sakana AI, le RSI constitue une alternative directe à la course aux datacenters et aux puces que se livrent les grands laboratoires américains comme OpenAI, Google DeepMind ou Meta, qui engloutissent des dizaines de milliards de dollars en infrastructure. L'idée centrale est d'obtenir des gains de performance en rendant les modèles capables de retravailler leur propre architecture ou leurs paramètres, plutôt qu'en empilant davantage de GPUs. Si cette piste aboutit, elle pourrait redistribuer les cartes entre acteurs bien dotés en capital et équipes plus agiles. Le RSI est aussi l'une des technologies les plus surveillées par les chercheurs en sécurité de l'IA. Anthropic, qui développe pourtant ses propres modèles frontier, met explicitement en garde contre les risques de contrôle associés à des systèmes capables de se redéfinir eux-mêmes. La tension est révélatrice : l'auto-amélioration récursive est à la fois perçue comme un levier de souveraineté technologique pour les acteurs hors Silicon Valley, et comme l'un des scénarios de risque les plus sérieux pour la sécurité à long terme de l'IA.

UESi le RSI tient ses promesses, les laboratoires européens à ressources limitées pourraient bénéficier d'une voie de compétitivité alternative à la course aux datacenters, réduisant leur dépendance aux infrastructures massives américaines.

💬 Sakana mise sur l'auto-amélioration récursive pour contourner la course au calcul. C'est le seul angle vraiment crédible si tu n'as pas dix milliards à mettre dans des datacenters, et avec Llion Jones à bord (un des auteurs d'"Attention is All You Need"), l'équipe a le niveau pour que ça soit autre chose qu'un pitch deck. Le hic, c'est que le RSI est aussi ce qu'Anthropic cite en tête de liste quand on leur demande ce qui les empêche de dormir.

RecherchePaper
1 source
Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle
408MarkTechPost 

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

RecherchePaper
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
409Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

RobotiquePaper
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
410arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

RechercheOpinion
1 source
IA incarnée : de la perception à la prise de décision
411arXiv cs.RO 

IA incarnée : de la perception à la prise de décision

Une équipe de recherche a déposé sur arXiv (référence 2605.25813, mai 2026) EQA-Decision, un benchmark et dataset à grande échelle pour évaluer les capacités de raisonnement incarné des modèles vision-langage (VLM). Le corpus contient plus de quatre millions de paires question-réponse annotées hiérarchiquement, structurées autour de quatre dimensions : construction de scène statique, compréhension spatiale, raisonnement sur la dynamique des tâches, et décision instantanée. Les chercheurs publient également RoboDecision, un modèle baseline entraîné sur ce benchmark, conçu pour évaluer conjointement la perception, le raisonnement et la prise de décision au niveau de l'action dans des environnements incarnés simulés. Le problème adressé est structurel : les datasets existants pour l'EQA (Embodied Question Answering) sont fragmentés, chacun couvrant un sous-ensemble limité de compétences, compréhension spatiale d'un côté, raisonnement procédural de l'autre, sans cadre unifié permettant une évaluation complète. Pour les équipes qui développent des architectures VLA (vision-language-action) destinées à la manipulation ou à la navigation autonome, l'absence d'un tel benchmark rend la comparaison objective des approches difficile. EQA-Decision propose un cadre capable de tester la chaîne complète perception-raisonnement-action, plus proche des conditions réelles que les benchmarks purement perceptifs ou purement langagiers. L'EQA est un champ actif depuis les travaux fondateurs de Das et al. (Georgia Tech, 2018), où un agent naviguait dans un environnement 3D pour répondre à des questions visuelles. Depuis, plusieurs benchmarks ont émergé, OpenEQA de Meta, SQA3D, EmbodiedScan, chacun avec un périmètre étroit. EQA-Decision se positionne comme une synthèse unificatrice, avec une ambition d'échelle (4 millions de paires) comparable aux grands datasets de VQA généralistes. Il convient de noter qu'il s'agit d'un preprint arXiv, non encore soumis à peer review. RoboDecision sert de baseline de référence, mais les résultats ne correspondent pas à un déploiement sur robot physique : le gap sim-to-real reste entièrement ouvert.

💬 Quatre millions de paires question-réponse, c'est une belle masse. Ce qui me plaît, c'est qu'ils s'attaquent enfin à la chaîne complète perception-raisonnement-action dans un seul dataset, pendant que tout le champ EQA travaillait encore en silos séparés depuis 2018. Reste à voir si le gap sim-to-real ne va pas tout bouffer quand tu sors des environnements simulés.

RecherchePaper
1 source
Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles
412The Decoder 

Hassabis voit l'humanité « au pied de la singularité », LeCun conteste l'intelligence des IA actuelles

Trois figures majeures de l'intelligence artificielle ont exprimé des visions radicalement divergentes sur l'état actuel de la technologie. Yann LeCun, directeur de la recherche en IA chez Meta, affirme que les systèmes actuels ne sont pas véritablement intelligents. Demis Hassabis, PDG de Google DeepMind, pense au contraire que l'humanité se trouve déjà "dans les contreforts de la singularité". Oriol Vinyals, co-responsable du projet Gemini chez Google DeepMind, propose une lecture intermédiaire : les modèles d'aujourd'hui auraient semblé être une AGI il y a sept ans, mais ils demeurent incapables d'apprendre par l'expérience ou de produire de réelles percées scientifiques. Ce désaccord entre chercheurs de premier plan révèle une fracture profonde sur la trajectoire réelle de l'IA. La question n'est pas anodine : selon que l'on adopte la vision de LeCun ou celle de Hassabis, les priorités de recherche, les stratégies d'investissement et les cadres réglementaires changent radicalement. Des milliards de dollars et la crédibilité des grands laboratoires, OpenAI, Anthropic, Google DeepMind, Meta AI, sont directement en jeu. Ce débat s'inscrit dans une réflexion plus large sur ce que signifie réellement l'intelligence artificielle générale. LeCun critique depuis longtemps les grandes architectures de type transformeur, jugées insuffisantes pour atteindre une compréhension réelle du monde. Hassabis, lui, a prédit que l'AGI pourrait émerger d'ici quelques années. La position nuancée de Vinyals suggère que si les progrès sont indéniables, les verrous fondamentaux, notamment l'adaptation continue et la découverte autonome, demeurent entiers.

UELe débat sur la trajectoire réelle de l'IA influence indirectement le calibrage réglementaire européen, notamment les seuils de risque et les obligations de transparence prévus par l'AI Act.

💬 LeCun et Hassabis se contredisent frontalement, et c'est en fait le signal le plus intéressant de cette actu. Quand les deux personnes qui orientent des milliards de dollars de recherche n'arrivent pas à se mettre d'accord sur l'état actuel de l'IA, tous les cadres réglementaires qui essaient de calibrer des "niveaux de risque" reposent sur du vent. La position de Vinyals, nos modèles auraient bluffé tout le monde en 2019 mais les vrais verrous restent entiers, c'est la seule qui ressemble à quelque chose de solide.

RechercheOpinion
1 source
Trump annule en urgence une cérémonie de signature après le refus des PDG de grandes entreprises d'IA
413Ars Technica AI 

Trump annule en urgence une cérémonie de signature après le refus des PDG de grandes entreprises d'IA

Donald Trump a annulé jeudi, quelques heures seulement avant la cérémonie prévue, la signature d'un décret présidentiel qui aurait accordé au gouvernement fédéral le pouvoir de tester les modèles d'IA dits "de frontière" avant leur mise sur le marché public. La raison invoquée : plusieurs PDG des grandes entreprises d'intelligence artificielle avaient décliné l'invitation. Trump, qui n'avait prévenu les participants que 24 heures à l'avance, a jugé l'absence inacceptable et a décidé d'annuler. Certains dirigeants qui avaient réorganisé leur agenda en urgence pour se rendre à la Maison Blanche étaient déjà dans les airs lorsqu'ils ont appris que l'événement n'aurait pas lieu. Derrière cette annulation chaotique se dessine une bataille d'influence au sommet de l'industrie tech américaine. Selon Semafor, OpenAI soutenait la signature du décret, mais deux poids lourds auraient activement oeuvré à le faire capoter : Elon Musk, fondateur de xAI, et Mark Zuckerberg, PDG de Meta. Les deux hommes auraient directement conseillé à Trump de renoncer à signer. David Sacks, ancien conseiller IA de Trump dont le statut de conseiller gouvernemental spécial avait expiré en mars, se serait lui aussi joint aux pressions pour retarder la signature. Cette séquence révèle les tensions profondes qui traversent la Silicon Valley sur la question de la régulation de l'IA. Un mécanisme d'évaluation gouvernementale des modèles avant leur déploiement représenterait un changement significatif dans la relation entre l'État et les grands laboratoires d'IA, qui ont jusqu'ici opéré avec une liberté quasi totale. L'opposition de Musk, dont xAI développe le modèle Grok, et de Zuckerberg, dont Meta mise sur une stratégie open source, suggère que les intérêts commerciaux ont pesé lourd dans la décision. Le sort de ce décret reste incertain, mais l'épisode illustre à quel point la gouvernance de l'IA demeure un terrain de jeu politique et industriel hautement conflictuel aux États-Unis.

💬 Des PDG déjà dans l'avion qui apprennent l'annulation en vol, ça donne le ton. Musk et Zuckerberg auraient directement convaincu Trump de lâcher l'affaire, quand OpenAI voulait signer, ce qui dit beaucoup sur où chacun se positionne commercialement en ce moment. La gouvernance de l'IA aux États-Unis, c'est ça : un coup de fil suffit.

RégulationReglementation
1 source
Doter les agents d'ordinateurs : Ivan Burazin, Daytona
414Latent Space 

Doter les agents d'ordinateurs : Ivan Burazin, Daytona

Ivan Burazin, PDG de Daytona, est au coeur d'une transformation silencieuse mais radicale de l'infrastructure cloud. Son entreprise, fondée sur une obsession vieille de plus d'une décennie, a opéré un pivot décisif : quitter les environnements de développement pour humains afin de fournir des sandboxes informatiques aux agents IA. Daytona peut aujourd'hui démarrer un sandbox en environ 60 millisecondes, en lancer 50 000 en 75 secondes, et son plus gros client exploite quelque 850 000 sandboxes par jour. La plateforme tourne sur du bare metal avec son propre scheduler, plutôt que sur Kubernetes, et les charges de travail liées au reinforcement learning et aux évaluations de modèles sont passées de zéro à environ 50 % de l'utilisation totale en quelques mois seulement. Ce changement illustre une bascule profonde dans les besoins de l'industrie IA. Les agents logiciels ne travaillent pas sur un laptop : ils ont besoin d'une machine accessible par API, capable de conserver un état entre les tâches, de s'adapter instantanément à des pics de charge massifs, et d'être suffisamment isolée pour rester sûre. Quand un client passe de zéro à 100 000 CPUs en quelques minutes pour une tâche d'entraînement, les architectures classiques comme EKS ou GKE montrent leurs limites. Plusieurs clients de Daytona affirment ne pas vouloir revenir à ces solutions. Au-delà du code, Burazin défend l'idée que les agents auront besoin de machines Windows et macOS, pas seulement Linux, ce qui pose des contraintes de licencing importantes, notamment du côté d'Apple. Ivan Burazin n'en est pas à son coup d'essai. Il avait fondé CodeAnywhere, l'un des premiers IDE entièrement dans le navigateur, avec l'idée déjà en tête de mettre fin au développement sur machine locale. La thèse était bonne, mais le marché n'était pas prêt. L'essor des agents IA en 2025 a changé la donne : là où les développeurs humains s'attachent à leur éditeur favori, les agents sont indifférents à l'environnement, pourvu qu'il soit rapide, fiable et pilotable par code. Daytona s'est imposé dans ce créneau en lançant un MVP la veille du Nouvel An, dont les API keys se sont arrachées en quelques heures. La vision de Burazin pour la prochaine étape du cloud IA ressemble davantage à Stripe, une infrastructure invisible et composable consommée à l'usage, qu'au modèle AWS traditionnel. Un pari sur la façon dont les agents, et non plus les humains, deviendront les principaux consommateurs de ressources informatiques.

InfrastructureOpinion
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
415Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

RobotiqueOpinion
1 source
Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA
416Le Big Data 

Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA

Nectar Social, une startup américaine fondée par Misbah et Farah Uraizee, deux anciennes cadres de Meta, a levé 30 millions de dollars en série A pour accélérer le développement de sa plateforme d'agents IA dédiée au marketing social. Ce tour de table est mené par Menlo Ventures et le fonds Anthology, développé en partenariat avec Anthropic. La société revendique déjà plus de 10 millions de conversations traitées par semaine, un chiffre multiplié par cinq en l'espace de trois mois. Parmi ses clients figurent Figma, Liquid Death et e.l.f. Beauty, cette dernière affirmant avoir augmenté ses taux de réponse de 60 % et établi un lien direct entre interactions sociales et revenus générés. Le coeur de la plateforme repose sur Nectar Agent, un agent IA autonome capable de gérer en temps réel les conversations, la modération, le commerce conversationnel, la veille concurrentielle et les workflows créateurs sur TikTok, Meta, LinkedIn, Reddit et X, via des partenariats de données officiels avec ces plateformes. L'ambition de Nectar Social est de devenir un "système d'exploitation marketing" pour les grandes marques, en centralisant des opérations aujourd'hui éparpillées entre de nombreux outils et équipes. Selon Misbah Uraizee, les conversations qui influencent réellement les décisions d'achat se déroulent désormais dans les commentaires, les messages privés et les discussions de groupe, des espaces que les équipes marketing ne peuvent plus couvrir manuellement face à l'explosion des volumes. L'agent ne vise pas à remplacer les équipes humaines, mais à leur permettre de traiter une volumétrie devenue ingérable, tout en maintenant une présence continue et cohérente sur l'ensemble des canaux sociaux. Pour les entreprises clientes, l'enjeu va au-delà de la simple réduction de coûts : il s'agit d'améliorer la réactivité commerciale et d'exploiter plus finement les signaux consommateurs en temps réel. Ce financement s'inscrit dans une tendance de fond qui voit les systèmes agentiques autonomes s'étendre des outils pour développeurs et du support client vers les fonctions marketing. Les réseaux sociaux ont profondément changé de nature : ils ne servent plus uniquement à diffuser du contenu de marque, mais sont devenus des canaux directs de conversion, de fidélisation et de relation client. Les investisseurs, dont Anthropic via son fonds Anthology, misent sur des plateformes capables d'orchestrer automatiquement ces interactions à grande échelle, un positionnement stratégique dans un marché encore peu consolidé. Pour Nectar Social, la prochaine étape sera de transformer cette traction commerciale en part de marché durable face à des acteurs établis du social media management qui commencent eux aussi à intégrer des capacités agentiques.

BusinessActu
1 source
Architectures avancées pour le RAG enrichi par graphes : dépasser la recherche vectorielle en production
417VentureBeat AI 

Architectures avancées pour le RAG enrichi par graphes : dépasser la recherche vectorielle en production

Le RAG vectoriel standard, qui consiste à découper des documents en fragments, les encoder dans une base vectorielle et récupérer les résultats les plus proches par similarité cosinus, s'impose depuis plusieurs années comme l'architecture de référence pour ancrer les grands modèles de langage dans des données privées. Mais pour des domaines métier fortement interconnectés comme la chaîne d'approvisionnement, la conformité financière ou la détection de fraude, cette approche atteint rapidement ses limites. Elle capture la similarité sémantique mais ignore la structure. Un modèle ne peut pas répondre à la question "Comment le retard sur le composant X va-t-il affecter la livraison Q3 du client Y ?" si la base vectorielle ne "sait" pas que ce composant fait partie de cette livraison. C'est le problème documenté dans cet article par des ingénieurs ayant travaillé sur les systèmes de logging haute performance de Meta et l'infrastructure de données privées chez Cognee. La solution proposée est une architecture hybride dite "Graph RAG", combinant recherche vectorielle et base de données graphe. Concrètement, lors de l'ingestion des documents, un modèle LLM ou un système de reconnaissance d'entités nommées (NER) extrait les entités et les relations pour les stocker dans un graphe Neo4j, les embeddings vectoriels étant conservés comme propriétés des noeuds. À la requête, le système effectue d'abord un scan vectoriel pour identifier des points d'entrée sémantiquement pertinents, puis traverse les relations du graphe pour reconstituer le contexte structurel complet. L'exemple illustratif est parlant: une recherche vectorielle sur "risques de production" récupère bien un article signalant des inondations en Thaïlande ayant arrêté l'usine d'un fournisseur A, mais sans lien explicite vers les usines clientes en aval, le modèle hallucine ou répond "je ne sais pas" alors que l'information est présente dans le système. Avec le graphe, une requête Cypher permet de traverser les dépendances fournisseur vers usine et de remonter l'impact réel. L'article s'inscrit dans une évolution structurelle de l'ingénierie RAG en production. La leçon clé tirée de Meta est que la structure doit être imposée à l'ingestion, pas reconstruite après coup à partir de données désordonnées. Cette approche "Flat RAG vers Graph RAG" répond à une demande croissante des entreprises qui déploient des LLM sur des données opérationnelles complexes, où les réponses incorrectes ont des conséquences business directes. Neo4j est actuellement le principal acteur côté base de données graphe, tandis que des startups comme Cognee cherchent à industrialiser cette couche d'extraction de connaissance. Les prochaines étapes naturelles incluent la mise à l'échelle de l'extraction d'entités en temps réel et l'intégration de ces architectures dans les frameworks d'agents LLM comme LangGraph ou LlamaIndex.

💬 Le problème du RAG vectoriel sur des données métier complexes, tout le monde le voit en prod depuis un moment. Cette architecture Graph RAG, avec Neo4j et une extraction d'entités à l'ingestion, c'est le genre de solution qui demande un vrai effort d'intégration mais qui répond enfin à des cas réels, pas juste des démos de chaîne logistique imaginaire. Reste à voir si ça scale proprement en temps réel, parce que le NER sur de gros volumes, c'est jamais aussi simple que dans les articles.

OutilsOpinion
1 source
NeurIPS 2026 : la conférence où se joue l’avenir scientifique, industriel et géopolitique de l’IA
418FrenchWeb 

NeurIPS 2026 : la conférence où se joue l’avenir scientifique, industriel et géopolitique de l’IA

NeurIPS 2026 se tiendra du 6 au 13 décembre à Sydney, en Australie, avec deux éditions satellites simultanées à Atlanta et à Paris. Organisée chaque année depuis 1987, la conférence "Neural Information Processing Systems" est l'un des rendez-vous académiques les plus influents du secteur de l'intelligence artificielle, rassemblant chercheurs, ingénieurs et décideurs du monde entier autour des dernières avancées en apprentissage automatique. La formule multi-sites, avec des hubs sur trois continents, confirme l'ampleur croissante d'un événement devenu trop vaste pour un seul lieu. NeurIPS est aujourd'hui bien plus qu'un congrès scientifique : c'est un baromètre de l'état de l'art en IA et un lieu de recrutement stratégique pour les grands laboratoires. Google, Meta, OpenAI, Microsoft ou encore Mistral y exposent leurs travaux, signalent leurs priorités de recherche et captent les meilleurs talents académiques. La présence d'un satellite à Paris souligne par ailleurs la montée en puissance de l'écosystème européen, qui cherche à peser dans une compétition technologique dominée par les États-Unis et la Chine. La conférence s'inscrit dans un contexte de tension géopolitique autour du contrôle des modèles de pointe, des données d'entraînement et des puces spécialisées. Depuis l'émergence des grands modèles de langage à partir de 2022, NeurIPS est devenu un terrain d'observation pour gouvernements et investisseurs autant que pour la communauté scientifique. L'édition 2026 devrait refléter les débats en cours sur la régulation internationale de l'IA, la sécurité des systèmes et la course aux modèles multimodaux de prochaine génération.

UELa tenue d'un hub satellite à Paris pour NeurIPS 2026 offre aux chercheurs et entreprises françaises un accès direct à la conférence de référence mondiale en IA, renforçant la visibilité de l'écosystème européen face aux géants américains et chinois.

💬 Le hub parisien, c'est une bonne nouvelle pour l'éco IA français, même si faut pas se raconter des histoires : le vrai centre de gravité reste à Sydney (et avant ça, dans les labos de San Francisco et Pékin). Ce qui m'intéresse dans cette édition 2026, c'est moins les papers que ce que les grands labos vont choisir de montrer, parce que NeurIPS est devenu autant une vitrine stratégique qu'une conférence scientifique. Reste à voir si Mistral et les européens y font autre chose que de la figuration.

RecherchePaper
1 source
IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte
419Next INpact 

IA : Thinking Machines présente un modèle qui réagit en direct à ce qu’on lui raconte

Thinking Machines Lab, la start-up fondée par Mira Murati, ancienne directrice technique d'OpenAI, a présenté le 11 mai 2026 son modèle TLM-Interaction-Small, qu'elle qualifie de « modèle interactif ». Contrairement aux IA génératives classiques qui suspendent tout traitement le temps de formuler une réponse, ce système fonctionne en mode « full duplex » : il peut écouter, répondre et participer à une conversation en parallèle, avec un temps de latence de seulement 0,40 seconde, soit un rythme très proche d'un échange humain naturel. Parmi les capacités démontrées figurent la traduction instantanée de l'hindi vers l'anglais, l'adaptation stylistique d'un discours familier vers un registre professionnel, la recherche d'informations en cours de conversation, ou encore la réaction à des éléments visuels captés par caméra, comme détecter une mauvaise posture ou signaler une baisse de concentration. Ce type de modèle cherche à combler ce que Thinking Machines Lab appelle le « goulet d'étranglement de la collaboration » des IA actuelles : leur incapacité à rester présentes et réactives pendant qu'elles calculent. L'enjeu est de rendre l'interaction homme-machine plus fluide et naturelle, ce qui ouvre des perspectives concrètes pour des usages professionnels temps réel, comme l'assistance lors de réunions, la traduction simultanée ou le coaching comportemental en direct. Pour les utilisateurs et les entreprises, cela représente un changement qualitatif potentiellement significatif par rapport aux interfaces actuelles de type chatbot, où chaque échange reste fondamentalement séquentiel et coupé du contexte environnant. La start-up a été fondée en février 2025 et a levé 2 milliards de dollars dès juin de la même année, mais elle a depuis subi des départs importants : plusieurs employés ont été recrutés par Meta début 2026, et trois autres sont retournés chez OpenAI. Ces turbulences n'ont pas empêché l'avancement du projet. TLM-Interaction-Small n'est pas encore accessible au public : une préversion de recherche est attendue dans les prochains mois, et une sortie plus large est prévue plus tard en 2026. Le modèle s'inscrit dans une tendance plus large qui voit plusieurs acteurs chercher à dépasser les limites des IA génératives traditionnelles. Il se situe entre ces dernières et les ambitions des « world models », comme ceux qu'AMI Labs, co-fondée par Yann LeCun, Laurent Solly et Alexandre Lebrun, cherche à construire pour ancrer l'IA dans la compréhension du monde physique. Reste à voir si le produit final, une fois déployé, sera à la hauteur des benchmarks encourageants déjà publiés.

UEL'avènement des modèles full duplex ouvre une compétition directe avec des initiatives comme AMI Labs, co-fondée par des entrepreneurs français (Alexandre Lebrun, Laurent Solly), qui développent leurs propres modèles interactifs ancrés dans la compréhension du monde physique.

LLMsOpinion
1 source
MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale
420Microsoft Research 

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale

Microsoft Research a annoncé plusieurs avancées majeures autour de MatterSim, son modèle d'intelligence artificielle dédié à la simulation des matériaux. L'équipe a d'abord validé expérimentalement une prédiction du modèle : le phosphure de tantale tétragonal (TaP) a été synthétisé en laboratoire et sa conductivité thermique mesurée à 152 W/m/K, une valeur proche de celle du silicium. Ce résultat confirme la fiabilité de MatterSim-v1, qui avait identifié ce matériau après avoir passé en revue plus de 240 000 candidats. Ces travaux ont été menés en collaboration avec l'Université du Texas à Dallas, l'Université de l'Illinois à Urbana-Champaign et l'Université de Californie à Davis. En parallèle, l'équipe a accéléré l'inférence du modèle de trois à cinq fois et l'a intégré au logiciel de simulation LAMMPS, autorisant des calculs à grande échelle sur plusieurs GPU simultanément. Microsoft lance également MatterSim-MT, un modèle de fondation multi-tâches capable de simuler des phénomènes impliquant plusieurs propriétés complexes que les approches classiques de surfaces d'énergie potentielle ne peuvent pas capturer seules. La conception de nouveaux matériaux sous-tend des pans entiers de l'innovation technologique, de la nanoélectronique au stockage d'énergie, mais les cycles de développement restent longs et onéreux. Les potentiels interatomiques par apprentissage automatique comme MatterSim visent à transformer ce paradigme : ils opèrent des ordres de grandeur plus vite que les simulations ab initio traditionnelles, ramenant des calculs autrefois prohibitifs à quelques heures de traitement. La validation du TaP illustre concrètement ce gain : au lieu de mois d'exploration empirique en laboratoire, MatterSim a permis de cibler un candidat à haute conductivité thermique parmi un quart de million de matériaux avant même toute synthèse. Les matériaux conducteurs de chaleur jouent un rôle critique dans la gestion thermique des processeurs, de l'électronique de puissance et des technologies aérospatiales. Disposer d'outils prédictifs fiables à cette échelle pourrait donc accélérer substantiellement le développement de composants de nouvelle génération. MatterSim-v1 avait été lancé par Microsoft Research et s'était rapidement imposé dans la communauté des sciences des matériaux grâce à sa capacité à simuler les matériaux dans des conditions réalistes, y compris à température et pression variables. Le nouveau modèle multi-tâches MatterSim-MT s'inscrit dans une tendance de fond : l'émergence de modèles de fondation couvrant un spectre de propriétés toujours plus large, au-delà de la simple stabilité structurelle. Microsoft n'est pas seul dans cette course : Google DeepMind avec GNoME et Meta avec ses outils FAIR-Chem développent des approches comparables. L'IA pour la découverte de matériaux attire des investissements croissants, portée par les besoins de l'industrie des semi-conducteurs, de la transition énergétique et de l'électronique avancée. Les prochaines étapes pour MatterSim passeront vraisemblablement par l'extension à de nouvelles propriétés simulables et une intégration plus étroite dans les workflows expérimentaux des laboratoires partenaires.

RecherchePaper
1 source
Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
421arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

RechercheOpinion
1 source
Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur
422arXiv cs.RO 

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Des chercheurs proposent Hydra-DP3 (HDP3), une politique de diffusion 3D allégée pour le contrôle visuomoteur en manipulation robotique, déposée sur arXiv le 2 mai 2025 (arXiv:2605.01581). Le point de départ est théorique : les trajectoires d'action robotique sont intrinsèquement lisses, avec l'essentiel de leur énergie concentrée dans quelques modes basses fréquences de la transformée en cosinus discrète (DCT). Cette propriété implique que l'erreur du débruiteur optimal est bornée par la dimension du sous-espace basse fréquence, ce qui signifie que le débruitage sature en très peu d'étapes. HDP3 exploite cette observation pour concevoir un décodeur "Diffusion Mixer" minimaliste, compatible avec une inférence DDIM en deux étapes seulement. Évalué sur les benchmarks RoboTwin 2.0, Adroit et MetaWorld ainsi que sur des tâches en conditions réelles, HDP3 atteint les performances état de l'art avec moins de 1 % des paramètres des politiques de diffusion 3D existantes et une latence d'inférence significativement réduite. Le goulot d'étranglement des politiques de diffusion pour la robotique réside précisément dans la vitesse d'inférence : des modèles comme DP3 ou Pi-0 requièrent typiquement 10 à 100 étapes de débruitage, ce qui pénalise le contrôle temps réel. HDP3 démontre empiriquement et théoriquement que deux étapes suffisent pour les trajectoires robotiques, contrairement à la génération d'images où de nombreuses étapes restent nécessaires. Réduire les paramètres à moins de 1 % de l'état de l'art tout en maintenant les performances remet en question l'hypothèse implicite selon laquelle des modèles massifs seraient indispensables en visuomoteur. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à des déploiements sur matériel embarqué contraint, sans GPU serveur dédié, et à des cycles d'entraînement bien plus rapides. La politique de diffusion 3D (DP3, 2024) est née de Diffusion Policy (Chi et al., 2023), elle-même inspirée des modèles de score pour la génération d'images. HDP3 rompt explicitement avec cet héritage en justifiant théoriquement pourquoi la robotique n'a pas besoin de décodeurs lourds copiés sur la vision générative. Dans la course aux politiques visuomotrices, les principaux concurrents incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les approches VLA comme OpenVLA ou RDT-1B, qui misent sur la montée en échelle paramétrique. HDP3 parie à l'inverse sur la compression théoriquement motivée. L'article reste un preprint non évalué par les pairs, et les résultats temps réel portent sur des tâches de manipulation sélectionnées : la généralisation à des environnements industriels non contrôlés reste à démontrer. Aucun déploiement commercial n'est annoncé à ce stade.

UELes équipes R&D européennes en robotique embarquée pourraient intégrer cette approche pour déployer des politiques visuomotrices sur matériel contraint sans GPU serveur dédié.

RechercheOpinion
1 source
IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide
423MarkTechPost 

IBM publie deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non-autorégressive rapide

IBM a mis en ligne deux nouveaux modèles de reconnaissance vocale open source, Granite Speech 4.1 2B et Granite Speech 4.1 2B-NAR, disponibles sur Hugging Face sous licence Apache 2.0. Ces modèles compacts d'environ 2 milliards de paramètres visent à résoudre un problème classique des équipes IA en entreprise : les systèmes de transcription automatique performants exigent généralement des ressources de calcul importantes, tandis que les solutions légères sacrifient la précision. Les deux modèles partagent une architecture en trois composants, un encodeur audio, un adaptateur de modalité et un modèle de langage, mais divergent sur le mécanisme de décodage. Le modèle standard prend en charge la transcription multilingue et la traduction bidirectionnelle en anglais, français, allemand, espagnol, portugais et japonais. La variante NAR (non-autorégressif) se concentre uniquement sur la transcription, sans le japonais ni la traduction, mais avec des temps de réponse nettement plus rapides. IBM a également lancé discrètement une troisième variante, Granite Speech 4.1 2B-Plus, qui ajoute l'attribution par locuteur et des horodatages au niveau du mot. Sur le leaderboard Open ASR d'avril 2026, le modèle principal affiche un taux d'erreur sur les mots (WER) moyen de 5,33%, avec 1,33% sur le benchmark LibriSpeech clean, des résultats compétitifs pour un modèle de cette taille. L'intérêt concret de ces modèles réside dans leur efficacité à l'inférence. La version NAR utilise un modèle de langage bidirectionnel de 1 milliard de paramètres qui corrige la transcription en une seule passe, sans générer les tokens un à un comme le font les architectures autorégressives classiques. Cela réduit considérablement la latence, ce qui en fait une option sérieuse pour les applications temps réel, centres d'appels, sous-titrage en direct, assistants vocaux embarqués. Pour les équipes qui ont besoin de traduction ou de transcription en japonais, le modèle autorégressif standard reste nécessaire, mais la version NAR offre un avantage décisif dès que la vitesse prime sur la polyvalence. IBM s'inscrit ici dans une tendance de fond : la course aux modèles de reconnaissance vocale ouverts et compétitifs s'est intensifiée depuis qu'OpenAI a publié Whisper en 2022. Plusieurs acteurs, dont Meta et Nvidia, ont depuis proposé leurs propres alternatives, chacun cherchant à optimiser le rapport précision/coût computationnel. La famille Granite, déjà connue pour ses modèles de langage orientés entreprise, s'étend désormais à l'audio avec une approche modulaire et documentée, ce qui facilite l'intégration dans des pipelines existants. La publication sous licence Apache 2.0 permet un usage commercial sans restriction, ce qui devrait accélérer l'adoption dans des secteurs comme la santé, la finance ou les médias, où la transcription précise et souveraine est un enjeu stratégique.

UELes entreprises européennes des secteurs santé, finance et médias peuvent déployer ces modèles en souveraineté complète grâce à la licence Apache 2.0, avec un support natif du français pour la transcription et la traduction.

OutilsOpinion
1 source
ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux
424arXiv cs.RO 

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Une équipe de chercheurs a publié sur arXiv (arXiv:2505.20032) ViTaPEs, une architecture transformer conçue pour fusionner les perceptions visuelles et tactiles dans les robots manipulateurs. Le principe central est un encodage positionnel à deux étages : un encodage local propre à chaque modalité (vision d'un côté, capteurs tactiles de l'autre), suivi d'un encodage global appliqué sur la séquence de tokens fusionnés juste avant le mécanisme d'attention croisée. Cette double injection positionn­elle fournit un vocabulaire spatial partagé au moment précis où les deux flux d'information interagissent. Les expériences ont été conduites sur plusieurs jeux de données réels à grande échelle, et les résultats montrent des gains sur des tâches de reconnaissance visuotactile, ainsi qu'une capacité de généralisation zero-shot vers des scénarios hors domaine non vus pendant l'entraînement. En transfert vers une tâche de saisie robotique, ViTaPEs surpasse les baselines actuelles dans la prédiction du succès de préhension. L'enjeu industriel de ces travaux est concret : les capteurs tactiles (GelSight, DIGIT et dérivés) fournissent des informations que la vision seule ne capture pas, texture de surface, compliance d'un matériau, force de contact locale. Sans fusion visuotactile robuste, un robot de manipulation en environnement non structuré reste fragile face aux objets inconnus ou aux variations de surface. La contribution de ViTaPEs n'est pas seulement de performance brute : c'est de montrer qu'un encodage positionnel explicitement conçu pour le cross-modal permet une meilleure généralisation, sans s'appuyer lourdement sur des modèles vision-langage pré-entraînés comme CLIP. Pour les intégrateurs et les équipes robotiques industrielles, c'est un signal que le sim-to-real et le cross-domain gap sur la perception tactile peuvent être partiellement résolus par l'architecture plutôt que par la masse de données supervisées. Ce travail s'inscrit dans une vague de recherche sur la représentation visuotactile, on pense aux travaux antérieurs de Meta AI sur DIGIT, aux représentations auto-supervisées de Calandra et al., ou encore à Pi-0 de Physical Intelligence qui intègre déjà des flux multimodaux pour le contrôle de robots polyvalents. Côté acteurs européens, des startups comme Wandercraft (France) ou des laboratoires comme le LAAS-CNRS travaillent sur la manipulation dextère, et ce type d'architecture pourrait s'intégrer à leurs pipelines. Les prochaines étapes probables incluent l'évaluation sur des manipulateurs commerciaux (Franka, UR) et l'intégration dans des pipelines de contrôle visuomoteur de type VLA, où la précision tactile manque encore cruellement.

UELes équipes françaises de manipulation dextère (Wandercraft, LAAS-CNRS) pourraient intégrer cette architecture visuotactile dans leurs pipelines, réduisant la dépendance aux données supervisées massives pour la généralisation cross-domain.

RecherchePaper
1 source
Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes
425VentureBeat AI 

Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes

Definity, une startup spécialisée dans la fiabilité des pipelines de données, basée à Chicago, a annoncé mercredi une levée de fonds de 12 millions de dollars en série A, menée par GreatPoint Ventures avec la participation de Dynatrace, StageOne Ventures et Hyde Park Venture Partners. La société a développé une approche radicalement différente de la surveillance des pipelines : plutôt que d'analyser ce qui s'est passé après l'exécution d'un job, elle intègre un agent directement à l'intérieur du moteur Spark ou DBT, pendant que le pipeline tourne. Concrètement, un agent JVM s'installe en une seule ligne de code sous la couche plateforme, capturant en temps réel le comportement des requêtes, la pression mémoire, le déséquilibre des données et les patterns de shuffle. L'agent peut alors intervenir activement : réallouer des ressources à mi-parcours, stopper un job avant que des données corrompues ne se propagent, ou bloquer un pipeline en aval si la table d'entrée en amont est périmée. Un client entreprise a identifié 33 % de ses opportunités d'optimisation dès la première semaine de déploiement, réduit de 70 % l'effort de débogage, et résout désormais les problèmes Spark complexes jusqu'à dix fois plus vite. L'enjeu va bien au-delà de l'efficacité opérationnelle : avec l'essor des systèmes d'IA agentiques, la fiabilité des données en entrée devient critique. Un pipeline qui échoue silencieusement ou livre des données obsolètes ne casse plus seulement un tableau de bord, il compromet l'ensemble du système d'IA qui en dépend. La distinction est fondamentale : la détection et la prévention sont en temps réel, tandis que l'analyse des causes profondes et les recommandations d'optimisation s'effectuent à la demande, avec tout le contexte d'exécution déjà assemblé. L'agent n'ajoute qu'environ une seconde de calcul sur un job d'une heure. Seules les métadonnées transitent à l'extérieur, et un déploiement entièrement on-premises est disponible pour les environnements sensibles. Les outils existants, qu'il s'agisse de Datadog (qui a racheté Metaplane l'an dernier), des system tables Databricks, ou de plateformes comme Unravel Data et Acceldata, lisent tous les métriques une fois le job terminé. Comme le résume Roy Daniel, CEO et co-fondateur de Definity : « Le moment où vous apprenez qu'un problème s'est produit, il s'est déjà produit. » Le marché de l'observabilité des données est en pleine structuration, porté par la multiplication des pipelines complexes et l'exigence croissante des systèmes d'IA en production. Nexxen, plateforme adtech opérant de large pipelines Spark pour la publicité en temps réel, fait partie des premiers clients en production. La participation de Dynatrace au tour de table est notable : l'entreprise, spécialiste de l'observabilité IT, investit ainsi dans une approche concurrente à ses propres capacités de monitoring, signe que la niche de l'exécution inline commence à être prise au sérieux.

UEDynatrace, éditeur autrichien d'observabilité IT coté en bourse, participe au tour de table de Definity, signalant l'intérêt croissant des acteurs européens pour la surveillance inline des pipelines de données critiques aux systèmes d'IA en production.

InfrastructureActu
1 source
SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération
426Pandaily 

SenseTime lance SenseNova U1, vers une ère de modèles unifiés pour la compréhension et la génération

SenseTime a officiellement lancé et mis en open source le 29 avril 2026 sa série SenseNova U1, un modèle unifié natif combinant compréhension et génération multimodale. Développé sur l'architecture maison NEO-unify présentée en mars 2026, ce modèle intègre dans un cadre unique la compréhension, le raisonnement et la génération visuelle et textuelle. La série se décline en deux variantes légères : SenseNova-U1-8B-MoT, basé sur une architecture dense, et SenseNova-U1-A3B-MoT, reposant sur un mélange d'experts (MoE). Ce qui distingue fondamentalement SenseNova U1 des approches dominantes, c'est l'abandon des encodeurs visuels séparés (VE) et des autoencodeurs variationnels (VAE) traditionnellement empilés dans les modèles multimodaux. NEO-unify reconstruit à la place un espace de représentation unifié profondément intégré à chaque couche de calcul, traitant le langage et les entrées visuelles comme un ensemble composite cohérent. Ce choix architectural permet d'améliorer simultanément les capacités de compréhension et de génération, en préservant à la fois la richesse sémantique et la fidélité visuelle au niveau pixel. Le modèle affiche également de bonnes performances en raisonnement logique et en intelligence spatiale, notamment pour interpréter des environnements physiques complexes. SenseTime, géant chinois de la vision par ordinateur et de l'intelligence artificielle, positionne SenseNova U1 comme une brique fondatrice pour la robotique incarnée : l'objectif est qu'un seul modèle gère en boucle fermée la perception, le raisonnement et l'exécution de tâches physiques. Ce lancement s'inscrit dans une course mondiale à l'unification des modalités, où des acteurs comme Google DeepMind, Meta ou des startups chinoises cherchent à dépasser les architectures hybrides au profit de modèles natifs plus cohérents. La mise en open source de la version légère signal une stratégie d'adoption communautaire, tout en réservant probablement les versions plus puissantes à un usage commercial ou propriétaire.

UELa mise en open source de SenseNova U1 offre aux chercheurs et développeurs européens un accès à cette architecture unifiée novatrice, mais l'impact direct sur la France ou l'UE reste limité à court terme, SenseTime étant un acteur chinois sans ancrage réglementaire ou commercial européen significatif.

LLMsOpinion
1 source
Snapchat introduit des publicités dans les chats via des agents IA conçus pour simuler la conversation
427Interesting Engineering 

Snapchat introduit des publicités dans les chats via des agents IA conçus pour simuler la conversation

Snapchat a dévoilé début 2026 un nouveau format publicitaire baptisé AI Sponsored Snaps, qui intègre des agents d'intelligence artificielle directement dans les fils de conversation de l'application. Ces agents de marque apparaissent dans l'interface Chat, là où les utilisateurs passent déjà l'essentiel de leur temps, et leur permettent d'explorer des produits, poser des questions et recevoir des recommandations sans jamais quitter la conversation. L'annonce s'appuie sur des chiffres impressionnants : Snapchat revendique plus de 950 milliards de messages échangés au premier trimestre 2026 et plus de 500 millions d'utilisateurs ayant interagi avec son chatbot My AI depuis son lancement. Experian est le premier partenaire annoncé pour la phase alpha, avec un cas d'usage centré sur l'éducation financière : les utilisateurs pourront poser des questions sur leur crédit et la gestion de leur argent directement dans Chat. Ce format représente une rupture significative avec la publicité digitale traditionnelle. Plutôt que d'interrompre l'expérience utilisateur avec des bannières ou des vidéos imposées, Snap Inc. parie sur une intégration qui épouse les habitudes de communication existantes. Pour les marques, l'enjeu est considérable : accéder à près d'un milliard d'utilisateurs mensuels actifs via un canal perçu comme personnel et de confiance, avec des signaux d'intention bien plus forts que ceux générés par la publicité display classique. Ajit Mohan, vice-président de Snapchat, résume l'ambition : "La conversation devient l'espace publicitaire le plus précieux. L'IA accélère ce basculement, transformant le chat en lieu où les gens découvrent des produits, posent des questions et prennent des décisions en temps réel." Les marques peuvent désormais déployer leurs propres agents sur la plateforme, construisant ainsi une expérience dite "full-funnel" au sein d'une seule interface. Ce lancement s'inscrit dans une tendance plus large qui voit les grandes plateformes sociales réinventer leur modèle publicitaire face à la montée en puissance des interfaces conversationnelles. Snapchat avait déjà introduit les Sponsored Snaps, un format classique affichant selon la société des taux de conversion supérieurs à la moyenne et des coûts réduits ; les AI Sponsored Snaps en sont l'évolution directe. La concurrence est vive : Meta teste également des agents d'IA dans WhatsApp et Messenger, et Google pousse ses propres formats conversationnels via Gemini. Pour Snap, qui cherche à diversifier ses revenus et à s'imposer face à TikTok, l'enjeu est de démontrer que la relation de confiance entretenue avec sa base d'utilisateurs jeunes peut être monétisée sans en altérer la nature. Le succès du partenariat avec Experian sera scruté de près avant tout déploiement à grande échelle.

UELes utilisateurs européens de Snapchat, dont une large proportion de jeunes, seront exposés à ce format publicitaire conversationnel, dont le déploiement en Europe devra se conformer au RGPD et aux exigences de transparence de l'AI Act.

OutilsOutil
1 source
Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome
428arXiv cs.RO 

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Des chercheurs ont publié sur arXiv (identifiant 2310.02635, cinquième révision) un cadre appelé RLFP, Reinforcement Learning with Foundation Priors, conçu pour rendre l'apprentissage par renforcement viable sur des robots réels, sans ingénierie manuelle des récompenses. Au coeur du système se trouve l'algorithme FAC (Foundation-guided Actor-Critic), qui s'appuie simultanément sur trois types de modèles fondationnels : un modèle de politique, un modèle de valeur, et un modèle de récompense de succès. Sur cinq tâches de manipulation dextère réalisées avec de vrais robots, FAC atteint un taux de succès moyen de 86 % après seulement une heure d'apprentissage en temps réel. Sur le benchmark simulé Meta-world, il obtient 100 % de succès sur 7 des 8 tâches évaluées, en moins de 100 000 frames d'interaction, là où les méthodes de référence avec récompenses manuelles nécessitent 1 million de frames pour des performances comparables. L'impact industriel potentiel est significatif. L'un des verrous majeurs du déploiement de la robotique apprenante en environnement réel est double : la quantité astronomique de données requise par le RL classique, et le coût humain de la conception des fonctions de récompense, qui exige des ingénieurs spécialisés pour chaque nouvelle tâche. RLFP adresse les deux simultanément, en multipliant par environ dix l'efficacité en données et en automatisant la génération de signal de récompense via des modèles pré-entraînés. Si les résultats se confirment hors conditions de laboratoire, ce type de cadre pourrait réduire drastiquement le temps de mise en service d'un bras industriel sur une nouvelle opération, un enjeu clé pour les intégrateurs. Ce travail s'inscrit dans une tendance de fond qui voit les grands modèles de langage et de vision (VLM/LLM) utilisés comme priors pour guider l'exploration robotique, une approche concurrente des méthodes par imitation pure (apprentissage à partir de démonstrations humaines) ou par curriculum appris. Parmi les travaux proches figurent SayCan (Google), Code as Policies (DeepMind) et les récents VLA comme pi-0 (Physical Intelligence) ou OpenVLA. L'équipe indique que RLFP est agnostique au type de modèle fondationnel utilisé et robuste aux priors bruités, ce qui est une affirmation forte qu'il faudra valider sur des benchmarks extérieurs. Le code et les visualisations sont disponibles publiquement, ce qui facilite la reproduction indépendante.

RechercheOpinion
1 source
SpaceX mise 60 milliards sur CURSOR, Elon Musk contourne la guerre des modèles
429FrenchWeb 

SpaceX mise 60 milliards sur CURSOR, Elon Musk contourne la guerre des modèles

SpaceX, dont la valorisation pourrait atteindre 60 milliards de dollars à l'occasion d'une introduction en bourse qui s'annonce historique, accélère son repositionnement stratégique autour de l'intelligence artificielle. Sous l'impulsion directe d'Elon Musk, l'entreprise fait le pari de CURSOR, un outil d'IA intégré à ses processus internes de développement logiciel, pour devenir une plateforme technologique à part entière et non plus simplement un acteur du spatial. Ce virage s'opère à un rythme soutenu, avec l'ambition de capter une part structurante de la valeur générée par le secteur de l'IA. Le choix de CURSOR n'est pas anodin : en s'appuyant sur un outil de développement assisté par IA plutôt que sur un modèle fondamental propriétaire, SpaceX contourne la guerre d'attrition qui oppose actuellement OpenAI, Google, Anthropic et Meta dans la course aux LLMs. Cette posture de "consommateur stratégique" plutôt que de "constructeur de modèles" permet à l'entreprise de bénéficier des avancées de l'ensemble de l'écosystème sans en supporter les coûts d'entraînement colossaux, tout en intégrant l'IA profondément dans sa chaîne de valeur industrielle. Ce mouvement intervient dans un contexte où SpaceX prépare activement son entrée en bourse, un événement qui pourrait établir un record de valorisation dans l'histoire des marchés technologiques américains. Musk, qui dirige simultanément xAI et Tesla, joue ici une carte différente pour SpaceX : celle d'une intégration verticale de l'IA au service de l'ingénierie aérospatiale et de la connectivité via Starlink. Les suites dépendront en grande partie de la capacité de l'entreprise à démontrer aux investisseurs que cette orientation technologique se traduit en avantage concurrentiel mesurable avant l'IPO.

BusinessOpinion
1 source
Modèles du monde
430MIT Technology Review 

Modèles du monde

Les systèmes d'intelligence artificielle maîtrisent aujourd'hui le monde numérique avec une aisance impressionnante, mais le monde physique reste un défi d'une tout autre nature. Pour franchir ce cap, de nombreux chercheurs misent sur une approche appelée "modèle du monde", une représentation interne que l'IA se construit de son environnement pour anticiper les conséquences de ses actions. Google DeepMind et World Labs, la startup fondée par Fei-Fei Li, professeure à Stanford, travaillent activement sur ces systèmes. Yann LeCun, jusqu'ici figure centrale de Meta, a quant à lui quitté l'entreprise pour fonder une startup entièrement dédiée à cette approche. OpenAI a également redirigé des ressources issues de la fermeture de son application vidéo Sora vers ce qu'elle appelle la "recherche en simulation du monde à long terme". L'enjeu est de taille : les grands modèles de langage actuels présentent des lacunes profondes dès qu'il s'agit de raisonner sur le monde réel. Une étude révélatrice a montré que des modèles entraînés sur des millions de trajets de taxis new-yorkais peuvent donner des itinéraires corrects dans Manhattan, mais échouent complètement dès qu'on leur impose un détour. Ce type de fragilité est fondamentalement incompatible avec des applications robotiques, où l'imprévu est la règle. Un vrai modèle du monde permettrait à un agent IA de se représenter son environnement avec suffisamment de fidélité pour prédire ce qui se passe si on pousse une tasse du bord d'une table, ou si on change de route en cours de chemin, exactement comme le fait le cerveau humain. Les applications concrètes émergent progressivement. Niantic, le studio derrière Pokémon Go, exploite les milliards d'images collectées par les joueurs du jeu pour construire les premières briques d'un modèle du monde destiné à guider des robots de livraison. Google DeepMind et World Labs concentrent actuellement leurs efforts sur la génération d'environnements virtuels 3D interactifs à partir de textes, d'images et de vidéos, des outils utiles pour la conception de jeux vidéo ou d'expériences en réalité virtuelle, mais encore limités dans leur portée. Les véritables percées viendront probablement de l'intégration de ces systèmes dans des agents autonomes capables de modéliser leur environnement, d'anticiper les effets de leurs actions et de décider en conséquence. Li et LeCun voient dans cette direction la clé pour des robots capables d'explorer les grands fonds marins ou d'assister le personnel soignant, un horizon encore lointain, mais qui mobilise désormais les acteurs les plus influents du secteur.

RecherchePaper
1 source
431MarkTechPost 

Liquid AI lance LFM2.5-VL-450M : un modèle vision-langage de 450M paramètres avec détection d'objets, support multilingue et inférence en moins de 250ms sur appareils embarqués

Liquid AI a publié LFM2.5-VL-450M, une nouvelle version de son modèle de vision-langage conçu pour fonctionner directement sur du matériel embarqué. Ce modèle de 450 millions de paramètres tourne sur des dispositifs comme le NVIDIA Jetson Orin, l'AMD Ryzen AI Max+ 395 ou le Snapdragon 8 Elite du Samsung Galaxy S25 Ultra, avec une latence inférieure à 250 millisecondes. Par rapport à son prédécesseur LFM2-VL-450M, la nouvelle version apporte quatre améliorations majeures : la prédiction de boîtes englobantes (bounding boxes), un meilleur suivi des instructions, un support multilingue étendu couvrant désormais l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais et l'espagnol, ainsi que la prise en charge des appels de fonctions. Sur le plan technique, le modèle repose sur LFM2.5-350M comme backbone textuel et SigLIP2 NaFlex comme encodeur visuel de 86 millions de paramètres, avec une fenêtre de contexte de 32 768 tokens. Le pré-entraînement a été multiplié par presque trois, passant de 10 000 à 28 000 milliards de tokens, suivi d'un post-entraînement par optimisation des préférences et apprentissage par renforcement. La capacité de localisation spatiale constitue le saut qualitatif le plus significatif de cette version. Le modèle atteint désormais un score de 81,28 sur le benchmark RefCOCO-M, contre zéro pour la version précédente, ce qui signifie qu'il peut identifier précisément où se trouve un objet dans une image à partir d'une description en langage naturel, en retournant des coordonnées JSON normalisées. Cette différence est cruciale : là où un modèle de description d'images dit "il y a une personne dans le coin gauche", un modèle avec bounding boxes fournit les coordonnées exploitables directement dans un pipeline automatisé. Les scores multilingues ont progressé de 54,29 à 68,09 sur le benchmark MMMB, et le suivi d'instructions est passé de 32,93 à 45,00 sur MM-IFEval. Ces améliorations rendent le modèle utilisable dans des déploiements industriels réels sans infrastructure cloud ni pipeline de localisation séparé. Liquid AI s'est constitué depuis 2023 comme une alternative aux architectures Transformer classiques, en développant des modèles basés sur des réseaux neuronaux à temps continu (Liquid Neural Networks). L'entreprise cible explicitement le marché de l'IA embarquée et de la robotique, où les contraintes de latence et de consommation énergétique rendent les grands modèles cloud impraticables. La course aux modèles compacts et performants s'intensifie : Google, Apple, Microsoft et Meta ont tous publié des variantes "edge" de leurs modèles en 2025, mais peu descendent sous le milliard de paramètres tout en conservant des capacités spatiales. Avec ce positionnement, Liquid AI vise directement des applications comme les caméras de rayonnage en grande distribution, les lunettes intelligentes ou les robots d'entrepôt, des secteurs où le traitement local des images sans connexion au cloud représente un avantage compétitif décisif.

UELe support natif du français et le ciblage de secteurs industriels (grande distribution, robotique d'entrepôt) offrent aux entreprises européennes une option d'IA embarquée compétitive sans dépendance à une infrastructure cloud.

💬 Le score bounding boxes qui passe de zéro à 81 sur RefCOCO, ça ressemble à une note de benchmark de plus, mais c'est en fait ce qui rend le modèle utilisable dans un vrai pipeline industriel. Tu poses ça sur un Jetson Orin ou un téléphone Samsung, tu as des coordonnées JSON exploitables en moins de 250ms, sans cloud, sans infrastructure séparée. Pour les caméras de rayon ou la robotique d'entrepôt, ça change vraiment l'équation.

LLMsActu
1 source
432AWS ML Blog 

Amazon Bedrock : comprendre le cycle de vie des modèles

Amazon Web Services a formalisé le cycle de vie des modèles de fondation (FM) disponibles sur sa plateforme Bedrock, en introduisant un cadre structuré en trois états distincts : Actif, Hérité (Legacy) et Fin de vie (EOL). Ce système vise à donner aux entreprises une visibilité suffisante pour planifier leurs migrations sans interruption de service. Concrètement, un modèle reste disponible au minimum 12 mois après son lancement, puis passe en état Legacy avec un préavis d'au moins 6 mois avant sa date de fin de vie. AWS a également introduit une nouvelle phase intermédiaire appelée "extended access" pour les modèles dont la fin de vie est postérieure au 1er février 2026 : après 3 mois en état Legacy, le modèle entre dans cette période d'accès étendu pendant laquelle les utilisateurs actifs peuvent continuer à l'utiliser au moins 3 mois supplémentaires. Durant cette fenêtre, les demandes d'augmentation de quota ne seront plus approuvées et les tarifs peuvent être ajustés par le fournisseur du modèle, avec notification préalable. Cet encadrement change concrètement la manière dont les équipes techniques doivent gérer leurs applications IA en production. Jusqu'ici, une fin de vie pouvait surprendre des équipes insuffisamment préparées, entraînant des pannes ou des migrations précipitées. Avec ce calendrier prévisible, les développeurs peuvent anticiper les transitions, tester les modèles de remplacement via la console Bedrock ou l'API, et adapter leur code sans urgence. L'état d'un modèle est désormais exposé directement dans les réponses API via le champ modelLifecycle, accessible lors d'appels GetFoundationModel ou ListFoundationModels. Il faut toutefois noter que les comptes inactifs en phase Legacy, c'est-à-dire n'ayant pas appelé le modèle pendant 15 jours ou plus, peuvent perdre l'accès prématurément. La migration vers un nouveau modèle reste une action manuelle : rien ne se fait automatiquement lorsqu'un modèle atteint sa date EOL. Cette politique s'inscrit dans un contexte où Amazon Bedrock multiplie les modèles disponibles, provenant de fournisseurs comme Anthropic, Meta, Mistral ou Cohere, chacun avec ses propres cycles de mise à jour. À mesure que ces modèles évoluent rapidement, l'accumulation de versions obsolètes pose des problèmes de maintenance et de sécurité pour AWS comme pour ses clients. En clarifiant les règles du jeu, AWS cherche à professionnaliser la gestion du cycle de vie des IA en entreprise, sur le modèle de ce que font déjà les plateformes cloud pour leurs APIs et services logiciels. La prochaine étape pour les équipes utilisant Bedrock sera d'intégrer ces états dans leurs processus de surveillance et d'alerte, afin de ne jamais être pris de court lors d'une transition de modèle.

UELes entreprises européennes utilisant Amazon Bedrock doivent intégrer ce nouveau cadre de cycle de vie dans leurs processus de gestion des applications IA en production pour éviter des interruptions de service.

OutilsOpinion
1 source
Anthropic expose accidentellement le code source de Claude Code via un fichier npm
433InfoQ AI 

Anthropic expose accidentellement le code source de Claude Code via un fichier npm

Anthropic a accidentellement exposé l'intégralité du code source de son outil Claude Code en incluant un fichier de source map dans la version 2.1.88 du paquet npm, publiée récemment. Ce fichier, normalement réservé au débogage, contenait la totalité du code TypeScript original -- soit environ 512 000 lignes -- qui était pourtant censé rester compilé et opaque. En quelques heures, des développeurs ont archivé le code sur GitHub, le rendant publiquement accessible. Anthropic a confirmé l'incident, le qualifiant d'erreur humaine lors du processus de packaging. La fuite a mis en lumière des éléments sensibles que l'entreprise n'avait pas encore annoncés : des fonctionnalités inédites, des noms de code internes pour ses modèles, ainsi que l'architecture de son système d'orchestration multi-agents. Ces informations constituent une mine de renseignements concurrentiels pour des acteurs comme OpenAI, Google DeepMind ou Meta, qui cherchent à comprendre les orientations techniques d'Anthropic. Pour les développeurs utilisant Claude Code au quotidien, la fuite offre un aperçu rare du fonctionnement interne d'un outil commercial de premier plan. Cet incident illustre la tension croissante entre la volonté des laboratoires d'IA de protéger leur propriété intellectuelle et les risques opérationnels inhérents à la distribution de logiciels via des registres publics comme npm. Anthropic, valorisé à plusieurs dizaines de milliards de dollars, mise largement sur Claude Code pour concurrencer GitHub Copilot et les outils de Cursor dans le segment des assistants de développement. L'entreprise devra désormais renforcer ses processus de publication pour éviter que de telles erreurs ne se reproduisent, d'autant que la course aux agents de codage s'intensifie.

BusinessActu
1 source
OpenAI demande aux procureurs generaux d'enqueter sur Musk
434The Information AI 

OpenAI demande aux procureurs generaux d'enqueter sur Musk

Jason Kwon, directeur stratégique d'OpenAI, a adressé lundi une lettre aux procureurs généraux de Californie et du Delaware pour demander l'ouverture d'une enquête sur Elon Musk. Selon des documents consultés par The Information, OpenAI accuse le milliardaire de chercher activement à saboter sa transformation de structure à but non lucratif en entité commerciale, une conversion juridique actuellement soumise à l'approbation de ces deux États. Cette démarche marque une escalade significative dans le conflit entre Musk et l'organisation qu'il a cofondée en 2015 avant d'en partir en 2018. OpenAI soutient que les actions de Musk, notamment ses tentatives présumées de rallier des investisseurs concurrents et ses déclarations publiques répétées, constituent une interférence délibérée dans un processus réglementaire légalement encadré. Pour OpenAI, dont la valorisation dépasse désormais les 300 milliards de dollars, la conversion en société à but lucratif est indispensable pour lever les capitaux nécessaires à sa compétitivité face à Google et Meta. Musk, qui dirige xAI et son modèle Grok concurrent, mène depuis 2023 une bataille judiciaire et rhétorique contre OpenAI, l'accusant de trahir sa mission originelle d'intérêt public. En sollicitant les autorités étatiques plutôt que de se limiter au terrain judiciaire fédéral, OpenAI cherche à multiplier les fronts de pression légale contre son ancien cofondateur, dont l'influence politique -- notamment sa proximité avec l'administration Trump -- complique déjà le paysage réglementaire de l'intelligence artificielle américaine.

BusinessActu
1 source
Des initiés d'OpenAI ne font pas confiance au PDG Sam Altman
435Ars Technica AI 

Des initiés d'OpenAI ne font pas confiance au PDG Sam Altman

Le même jour où OpenAI publiait ses recommandations politiques pour garantir que l'intelligence artificielle bénéficie à l'humanité en cas d'avènement d'une superintelligence, le magazine The New Yorker lançait une vaste enquête sur la fiabilité de Sam Altman, PDG d'OpenAI, quant à la tenue des grandes promesses de l'entreprise. Cette coïncidence éditoriale crée un contraste saisissant : d'un côté, un document institutionnel affirmant qu'OpenAI s'engage à "garder les humains en premier" alors que l'IA commencera à "surpasser les humains les plus intelligents, même assistés par l'IA" ; de l'autre, une investigation journalistique alimentée par des témoignages d'anciens collaborateurs qui doutent que ce discours soit sincère. L'enquête du New Yorker met en lumière une fracture profonde au sein même de l'organisation : des initiés, anciens employés ou proches du dossier, estiment que le problème central n'est pas la technologie mais son dirigeant. Sam Altman est décrit comme un leader dont les décisions et le style de management sèment la méfiance en interne. Pendant ce temps, le document de politique d'OpenAI reconnaît explicitement des risques extrêmes, notamment la possibilité que des systèmes d'IA échappent au contrôle humain ou que des gouvernements s'en servent pour saper la démocratie. L'entreprise promet de rester "lucide" et transparente sur ces dangers, mais la crédibilité de cet engagement est précisément ce que l'enquête remet en question. Cette tension intervient dans un contexte où OpenAI, valorisée à plusieurs dizaines de milliards de dollars et en pleine transformation vers une structure à but lucratif, est scrutée de toutes parts. La course à la superintelligence oppose des acteurs comme Google DeepMind, Anthropic et Meta, tous engagés dans une compétition technologique sans précédent. La question de la gouvernance, et de la confiance accordée aux dirigeants qui pilotent ces systèmes, est désormais au coeur du débat public. Si les promesses d'OpenAI sur la sécurité et la transparence sont prises au sérieux par les régulateurs et le grand public, leur crédibilité repose largement sur la personne qui les incarne.

UELes régulateurs européens scrutent la gouvernance des grands labs d'IA dans le cadre de l'AI Act ; une crise de confiance envers la direction d'OpenAI pourrait renforcer les exigences de transparence et d'audit imposées aux fournisseurs de modèles à haut risque.

SécuritéOpinion
1 source
Pourquoi Google sort-il ses meilleures pépites IA sur iPhone ? Voici de la dictée vocale hors-ligne et gratuite
436Frandroid 

Pourquoi Google sort-il ses meilleures pépites IA sur iPhone ? Voici de la dictée vocale hors-ligne et gratuite

Google a lancé discrètement une nouvelle application sur iOS baptisée Google AI Edge Eloquent, disponible gratuitement sur l'App Store. L'outil propose de transformer des notes vocales approximatives en textes clairs et structurés, sans nécessiter d'abonnement payant. Sa particularité technique repose sur un traitement dit "on-device" : le modèle d'IA fonctionne directement sur l'appareil, ce qui permet une utilisation hors-ligne, sans envoyer les données audio vers des serveurs distants. Cette approche représente un changement significatif par rapport aux solutions de transcription et de rédaction assistée dominantes, qui dépendent presque toutes d'une connexion permanente au cloud. Pour les professionnels traitant des informations sensibles, les journalistes, ou simplement les utilisateurs soucieux de leur vie privée, une dictée vocale locale et gratuite constitue une alternative concrète aux offres payantes comme Whisper d'OpenAI ou les fonctions premium d'Otter.ai. Le fait que Google distribue cette application sur iPhone, et non exclusivement sur Android, souligne une stratégie délibérée de présence maximale sur iOS. Ce lancement s'inscrit dans l'initiative Google AI Edge, un effort de l'entreprise pour déployer des modèles légers et efficaces directement sur les terminaux mobiles, réduisant la dépendance à l'infrastructure cloud. Google investit depuis plusieurs années dans la compression de modèles via des techniques comme la distillation et la quantification, notamment avec sa gamme Gemma. Publier ces capacités sur iPhone suggère que la firme de Mountain View cherche à imposer ses modèles embarqués comme standard de référence, avant que des concurrents comme Apple Intelligence ou Meta ne consolident leur propre écosystème on-device.

UEL'application traitant les données audio localement sans envoi vers des serveurs constitue une alternative concrète pour les professionnels et particuliers européens soucieux de conformité RGPD.

Combien de tokens me reste-t-il ? La question que Claude n’arrivera peut-être jamais à résoudre
437Numerama 

Combien de tokens me reste-t-il ? La question que Claude n’arrivera peut-être jamais à résoudre

Anthropic fait face depuis plusieurs semaines à des tensions croissantes autour de la gestion des quotas de tokens de Claude, son assistant IA. Les limites d'utilisation, qui déterminent combien de messages un utilisateur peut envoyer avant d'être temporairement bloqué, sont devenues imprévisibles : certains abonnés payants se retrouvent bridés sans avertissement clair, incapables de savoir combien de capacité il leur reste. L'entreprise américaine a reconnu le problème et procède à des ajustements à chaud, sans pour autant fournir de calendrier précis pour une solution pérenne. Le problème touche en priorité les utilisateurs professionnels et les développeurs qui intègrent Claude dans leurs flux de travail quotidiens. Pour eux, une limite opaque n'est pas un simple désagrément : c'est une rupture de service qui bloque des projets, force des migrations vers des alternatives et érode la confiance dans la plateforme. L'impossibilité de mesurer sa consommation en temps réel empêche toute planification, ce qui tranche avec les standards attendus d'un outil B2B. Cette situation illustre la tension structurelle à laquelle Anthropic est confrontée : le succès fulgurant de Claude dépasse la capacité d'infrastructure de l'entreprise à absorber la demande sans frictions. Anthropic, qui a levé plusieurs milliards de dollars ces dernières années, investit massivement dans ses capacités de calcul, mais la montée en charge reste un défi en temps réel. Dans un secteur où OpenAI, Google et Meta se disputent les mêmes utilisateurs, chaque friction devient un argument commercial pour la concurrence.

UELes abonnés et développeurs européens intégrant Claude dans leurs flux de travail sont directement affectés par ces limitations opaques, sans visibilité sur leur consommation ni calendrier de résolution annoncé.

LLMsOpinion
1 source
Duck.ai : ce chatbot axé sur la confidentialité connaît un succès grandissant : comment l'essayer
438ZDNET FR 

Duck.ai : ce chatbot axé sur la confidentialité connaît un succès grandissant : comment l'essayer

Duck.ai, le chatbot conversationnel lancé par DuckDuckGo, enregistre une progression notable de son audience, portée par une demande croissante d'alternatives aux assistants IA traditionnels qui collectent massivement les données personnelles. La plateforme propose un accès gratuit à plusieurs modèles de langage — dont GPT-4o mini d'OpenAI, Claude d'Anthropic, Llama de Meta et Mistral — sans créer de compte ni accepter de conditions d'utilisation contraignantes. DuckDuckGo affirme ne conserver aucune conversation et ne pas transmettre d'informations identifiables aux fournisseurs de modèles. Cet afflux d'utilisateurs illustre une fracture grandissante dans le rapport au public aux outils IA : si ChatGPT, Gemini ou Copilot dominent le marché, leurs pratiques de collecte de données alimentent une méfiance persistante, notamment en Europe où le RGPD reste un standard de référence. Duck.ai répond à ce besoin en positionnant la confidentialité comme fonctionnalité centrale et non comme option payante, ce qui le distingue structurellement de la concurrence. DuckDuckGo existe depuis 2008 sur la promesse du respect de la vie privée face à Google, et ce chatbot prolonge logiquement cette identité à l'ère de l'IA générative. L'entreprise, qui revendique plus de 100 millions d'utilisateurs mensuels sur son moteur de recherche, dispose d'une base d'utilisateurs déjà sensibilisés. La question ouverte reste celle de la viabilité économique d'un modèle sans monétisation des données, à mesure que les coûts d'inférence LLM continuent de peser sur les marges.

UEDuck.ai répond directement aux exigences du RGPD en ne collectant aucune donnée personnelle, offrant aux utilisateurs européens une alternative aux assistants IA traditionnels conforme aux standards européens de protection de la vie privée.

OutilsOutil
1 source
Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code
439Numerama 

Mémoire infinie, rêves nocturnes, Master Claude, frustration et Tamagotchi : ce que cache le code fuité de Claude Code

Anthropic a involontairement rendu public le code source de Claude Code, son assistant de développement intégré aux environnements de programmation, exposant ainsi des projets internes qui n'étaient pas destinés à être vus. Des internautes ont rapidement exploré les fichiers accessibles et mis au jour plusieurs fonctionnalités en développement, dont certaines révèlent une vision ambitieuse — et surprenante — de ce que pourrait devenir l'outil. Parmi les découvertes les plus marquantes figurent un concept de « mémoire infinie » permettant à Claude de se souvenir de l'intégralité des échanges passés avec un utilisateur, un mécanisme de « rêves nocturnes » où le modèle consoliderait ses apprentissages pendant les périodes d'inactivité, ainsi qu'un système hiérarchique baptisé « Master Claude ». Plus inattendu encore : une référence à un concept de Tamagotchi, suggérant qu'Anthropic expérimente des formes d'attachement ou de continuité émotionnelle entre l'IA et ses utilisateurs. Le code mentionnerait également des indicateurs liés à la « frustration » de l'agent. Cette fuite survient dans un contexte de compétition acharnée entre les grands laboratoires d'IA — OpenAI, Google, Meta et Anthropic se disputant le marché des assistants pour développeurs. Exposer accidentellement sa feuille de route interne représente un revers stratégique non négligeable pour Anthropic, qui a depuis retiré les fichiers concernés. L'incident soulève aussi des questions sur la direction prise par les assistants IA : vers des agents dotés de persistance mémorielle, de cycles d'apprentissage continus et de dimensions quasi-affectives, brouillant davantage la frontière entre outil et entité autonome.

UELes fonctionnalités révélées — notamment la mémoire infinie et les cycles d'apprentissage nocturnes — pourraient soulever des questions de conformité RGPD en Europe si elles venaient à être déployées.

LLMsOpinion
1 source
Ce chatbot axé sur la confidentialité gagne du terrain — voici pourquoi et comment l'essayer
440ZDNET AI 

Ce chatbot axé sur la confidentialité gagne du terrain — voici pourquoi et comment l'essayer

Duck.ai, le service de chatbot lancé par DuckDuckGo, connaît une montée en popularité significative parmi les utilisateurs soucieux de leur vie privée. Proposant un accès gratuit à plusieurs modèles d'IA — dont GPT-4o mini d'OpenAI, Claude d'Anthropic et Llama de Meta — la plateforme se distingue par une promesse forte : aucune conversation n'est stockée, aucune donnée n'est utilisée pour entraîner les modèles, et les échanges sont anonymisés avant d'être transmis aux fournisseurs tiers. L'attrait de Duck.ai répond à une préoccupation croissante autour de la collecte de données par les grandes plateformes d'IA. Contrairement à ChatGPT ou Gemini, qui peuvent utiliser les conversations pour améliorer leurs modèles sauf opt-out explicite, Duck.ai intègre la protection de la vie privée par défaut. Pour les professionnels, journalistes ou particuliers qui échangent des informations sensibles, cette garantie représente une différence substantielle dans le choix de leur outil quotidien. Ce succès s'inscrit dans un contexte de méfiance grandissante envers les géants de la tech après plusieurs controverses liées à la gestion des données personnelles par des services d'IA. DuckDuckGo, moteur de recherche fondé en 2008 sur le principe du non-pistage, capitalise ici sur une réputation établie de longue date. Avec l'intensification du débat réglementaire en Europe autour du RGPD appliqué à l'IA générative, des alternatives axées sur la confidentialité pourraient continuer à gagner du terrain face aux acteurs dominants.

UEDans un contexte de renforcement du RGPD appliqué à l'IA générative, Duck.ai représente une alternative conforme par défaut pour les professionnels et particuliers européens qui échangent des données sensibles via des chatbots.

OutilsOutil
1 source
OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic
441Blog du Modérateur 

OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic

En l'espace d'une semaine, OpenAI a annoncé la fermeture de Sora, son générateur vidéo, ainsi que plusieurs projets annexes jugés non essentiels. Ces décisions marquent un recentrage stratégique brutal vers le cœur de métier de l'entreprise : les modèles de langage et ChatGPT. Selon le journaliste Jérôme Marin pour BDM, ces renoncements ne sont pas anodins et traduisent une pression concurrentielle grandissante. La principale menace identifiée est Anthropic, dont le modèle Claude gagne rapidement du terrain auprès des entreprises et des développeurs. OpenAI semble avoir conclu que disperser ses ressources sur des projets spectaculaires mais périphériques fragilisait sa position face à un concurrent qui, lui, concentre tous ses efforts sur la fiabilité et la sécurité de ses modèles. L'abandon de Sora est particulièrement symbolique : lancé en fanfare, le projet n'avait jamais atteint une adoption commerciale significative. Ce pivot intervient dans un contexte où la course aux modèles fondamentaux s'intensifie à vitesse inédite. Google, Meta, Mistral et xAI maintiennent la pression, tandis que les investisseurs exigent une trajectoire claire vers la rentabilité. OpenAI, valorisée à plus de 150 milliards de dollars, doit désormais prouver que sa domination historique sur le marché des LLM se traduira en revenus durables — pas seulement en annonces fracassantes.

UELa consolidation stratégique d'OpenAI autour des LLM intensifie la pression concurrentielle sur Mistral, seul acteur européen cité dans la course aux modèles fondamentaux.

BusinessOpinion
1 source
La pub sur ChatGPT cartonne aux États-Unis : voici les prochains pays visés
442Presse-citron 

La pub sur ChatGPT cartonne aux États-Unis : voici les prochains pays visés

OpenAI a lancé un programme publicitaire sur ChatGPT aux États-Unis il y a moins de deux mois, et les résultats dépassent déjà les attentes : la plateforme génère 100 millions de dollars de chiffre d'affaires annuel récurrent grâce à ce nouveau modèle commercial. L'entreprise, qui avait jusqu'ici misé exclusivement sur les abonnements payants, diversifie ainsi ses sources de revenus à une vitesse remarquable. Cet essor publicitaire représente un tournant stratégique majeur pour OpenAI, qui cherche à rentabiliser une infrastructure colossale. Avec des centaines de millions d'utilisateurs actifs, ChatGPT offre aux annonceurs une audience massive et engagée — un atout que les géants de la publicité digitale comme Google ou Meta connaissent bien. Pour les utilisateurs gratuits, cela signifie un accès maintenu au service en échange d'une exposition publicitaire. Fort de ce succès initial, OpenAI étudierait déjà une expansion du programme publicitaire à d'autres pays. Cette trajectoire s'inscrit dans un contexte de pression financière croissante : l'entreprise dépense des milliards en calcul et en personnel, et les investisseurs attendent une voie claire vers la rentabilité. La publicité, longtemps écartée par principe, devient désormais un levier central dans la course à la viabilité économique de l'IA générative.

UEL'expansion prévue du programme publicitaire de ChatGPT vers d'autres pays pourrait bientôt exposer les utilisateurs européens à de la publicité ciblée, soulevant des questions de conformité avec le RGPD.

BusinessOpinion
1 source
Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur
443Frandroid 

Une IA capable de comprendre le monde qui l’entoure grâce à un seul GPU : LeWordModel veut révolutionner le secteur

Yann LeCun, chercheur français et directeur scientifique de Meta AI, reconnu comme l'un des pères fondateurs de l'intelligence artificielle moderne, a dévoilé avec son équipe un nouveau système baptisé LeWorldModel. La particularité revendiquée de ce modèle est sa capacité à fonctionner sur un seul GPU, une contrainte matérielle bien plus accessible que les clusters de milliers de puces utilisés par les grands modèles actuels. Les premiers résultats expérimentaux sont décrits comme très encourageants par les chercheurs. Si la promesse tient, LeWorldModel représenterait une avancée significative dans la démocratisation de l'IA : rendre possible une compréhension contextuelle du monde physique sans infrastructure colossale ouvre la voie à des déploiements embarqués, sur des robots, des véhicules autonomes ou des appareils grand public. Cela réduirait aussi la dépendance aux géants du cloud pour qui souhaite développer des applications d'IA perceptuelle. LeWorldModel s'inscrit dans la vision de long terme de LeCun, qui critique depuis plusieurs années les grands modèles de langage (LLM) pour leur incapacité à raisonner sur le monde réel. Il défend l'approche des "world models" — des systèmes capables de simuler et anticiper les états du monde physique, inspirés du fonctionnement cognitif humain. Cette annonce relance le débat sur la voie vers une IA plus robuste, face aux approches dominantes de type GPT portées par OpenAI et Google.

UEYann LeCun, chercheur français à la tête de Meta AI, porte une vision qui pourrait orienter la recherche européenne en IA vers des approches embarquées moins dépendantes des infrastructures cloud américaines.

RecherchePaper
1 source
Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence
444ZDNET FR 

Arm entre dans l'arène du silicium : le CPU AGI prêt à propulser l'IA agentique, mais au milieu d'une forte concurrence

Arm, le concepteur britannique de puces dont l'architecture équipe la quasi-totalité des smartphones mondiaux, a annoncé le lancement de son propre processeur destiné aux data centers : l'Arm AGI CPU. Contrairement à son modèle historique de simple vente de licences d'architecture, Arm entre cette fois directement sur le marché du silicium, ciblant spécifiquement les charges de travail liées à l'IA agentique — ces systèmes autonomes capables d'enchaîner des tâches complexes sans intervention humaine. Cette annonce marque un tournant stratégique majeur pour l'industrie. L'IA agentique exige des processeurs capables de gérer des flux de raisonnement continus et intensifs, un segment jusqu'ici dominé par les GPU de Nvidia et les puces custom de Google (TPU) ou Amazon (Trainium). En proposant un CPU optimisé pour ces usages, Arm s'attaque à un marché en croissance explosive, tout en challengeant ses propres clients comme Qualcomm et Apple qui s'appuient sur ses licences. Le mouvement s'inscrit dans un contexte de consolidation verticale accélérée : Meta, Microsoft et Amazon développent leurs propres puces, tandis que SoftBank — propriétaire d'Arm depuis 2016 et reintroduit en bourse en 2023 — pousse à une montée en valeur ajoutée. La concurrence sera néanmoins rude face à des acteurs comme AMD, Intel et surtout Nvidia, dont l'emprise sur l'infrastructure IA reste considérable. Les prochains mois révéleront si Arm peut transformer son omniprésence architecturale en avantage commercial direct sur ce segment stratégique.

UEArm étant une entreprise britannique stratégique soutenue par SoftBank, son entrée sur le marché des processeurs pour data centers pourrait renforcer l'écosystème européen des semi-conducteurs et influencer les choix d'infrastructure IA des acteurs cloud opérant en Europe.

InfrastructureOpinion
1 source
OpenAI dépasse les 100 millions de dollars de revenus annualisés grâce à son pilote publicitaire
445The Information AI 

OpenAI dépasse les 100 millions de dollars de revenus annualisés grâce à son pilote publicitaire

OpenAI a franchi le cap des 100 millions de dollars de revenus publicitaires annualisés pour son service ChatGPT, seulement six semaines après le lancement du programme pilote, selon un porte-parole de la société. Ces revenus ont été générés auprès de moins de 20 % des utilisateurs américains des formules ChatGPT Free et Go qui voient des publicités au quotidien — une fraction donc de la base d'utilisateurs totale. Ce résultat est remarquable : atteindre 100 millions de dollars annualisés en moins de deux mois, avec une couverture publicitaire aussi limitée, suggère un potentiel de monétisation considérable si OpenAI étend ce modèle à l'ensemble de sa base d'utilisateurs gratuits, estimée à plusieurs centaines de millions de personnes. Pour l'industrie, cela valide la publicité comme levier crédible pour les plateformes d'IA grand public, au-delà des seuls abonnements premium. Ce pivot publicitaire intervient alors qu'OpenAI cherche à diversifier ses sources de revenus pour financer ses coûts d'infrastructure colossaux et ses ambitions de recherche. La société, valorisée à 300 milliards de dollars début 2025, mise sur plusieurs fronts — abonnements, API, partenariats entreprises — et l'intégration de la publicité dans ChatGPT marque une nouvelle étape vers un modèle économique plus proche des géants du web traditionnels comme Google ou Meta.

UESi OpenAI étend son modèle publicitaire à l'Europe, il devra se conformer au RGPD et aux dispositions de l'AI Act, ce qui pourrait retarder ou limiter le déploiement des publicités sur le marché européen.

BusinessActu
1 source
L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt
446Frandroid 

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Google a élargi les capacités de Lyria, son modèle d'intelligence artificielle dédié à la génération audio, en portant la durée maximale des compositions musicales à trois minutes à partir d'un simple prompt textuel. Cette mise à jour, annoncée début 2026, représente un bond significatif par rapport aux extraits courts que l'outil produisait jusqu'alors, et positionne Lyria comme un concurrent direct des solutions de génération musicale longue durée déjà sur le marché. Cette évolution ouvre des possibilités concrètes pour les créateurs de contenu, les développeurs de jeux vidéo, les réalisateurs indépendants et les professionnels du marketing qui cherchent à générer rapidement des habillages sonores sans faire appel à des compositeurs. Trois minutes correspondent à la durée standard d'une chanson pop ou d'un générique, ce qui rend l'outil directement exploitable dans des productions réelles, sans post-traitement nécessaire. Lyria s'inscrit dans la course effrénée que se livrent les grandes entreprises technologiques sur le terrain de la création audio générative. Suno et Udio avaient ouvert la voie avec des titres complets incluant paroles et voix, tandis que Meta et OpenAI développent également leurs propres approches. Google, fort de ses décennies de recherche en traitement du signal et de ses infrastructures TPU, cherche à s'imposer comme la référence professionnelle du secteur, notamment via son intégration dans l'écosystème YouTube et Google Cloud.

UELes créateurs de contenu, réalisateurs indépendants et développeurs de jeux européens disposent désormais d'un outil de génération musicale complète (3 minutes) directement exploitable dans leurs productions sans recourir à des compositeurs.

OutilsOutil
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
447MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
Mirage lève 75 M$ auprès de General Catalyst pour booster son appli vidéo IA
448Le Big Data 

Mirage lève 75 M$ auprès de General Catalyst pour booster son appli vidéo IA

Mirage, la startup américaine spécialisée dans la création vidéo par intelligence artificielle, a levé 75 millions de dollars auprès du Customer Value Fund de General Catalyst, portant son financement total à plus de 175 millions de dollars. Cet investissement est destiné au développement de nouveaux modèles pour Captions, son application phare de montage vidéo assisté par IA. La plateforme revendique aujourd'hui plus de 20 millions d'utilisateurs dans le monde — des créateurs de contenu individuels comme des équipes marketing de grandes entreprises telles que HubSpot, CoreWeave et King. En un an, l'application a été téléchargée 3,2 millions de fois et a généré 28,4 millions de dollars de revenus intégrés, avec plus de 200 millions de vidéos créées. Fait notable : seulement un quart des revenus provient des États-Unis, signe d'une audience résolument internationale. Ce financement marque une étape dans la transformation plus large de la startup, qui a changé de nom — passant de Captions à Mirage — pour affirmer son positionnement comme laboratoire d'IA à vocation industrielle. En janvier 2025, elle a adopté un modèle freemium pour concurrencer CapCut de ByteDance (plus d'un milliard de téléchargements, 323 millions d'utilisateurs actifs mensuels) et Edits de Meta. Elle développe désormais ce qu'elle appelle une « intelligence d'assemblage », capable de composer des vidéos à partir de sources multiples, ainsi qu'un modèle audio conçu pour mieux respecter les accents des locuteurs non anglophones — un besoin concret identifié auprès de ses utilisateurs internationaux. L'objectif affiché est de rapprocher sa suite marketing web et son application mobile Captions, pour permettre aux petites entreprises de produire des contenus vidéo à grande échelle, de manière automatisée. Ce tour de table s'inscrit dans un contexte d'investissement massif dans l'IA générative : en 2025, plus de la moitié des capitaux levés par le capital-risque mondial ont été orientés vers des startups IA, notamment dans des secteurs comme le marketing, où 71 % des directeurs prévoient d'augmenter significativement leurs dépenses en IA générative d'ici 2027 selon BCG. Mirage se positionne précisément à cette intersection entre création vidéo automatisée et besoins marketing des entreprises.

UEAvec 75 % des revenus générés hors États-Unis, l'application compte vraisemblablement une base d'utilisateurs européenne significative, mais aucune implication réglementaire ou institutionnelle directe pour la France ou l'UE n'est identifiée.

BusinessActu
1 source
Que faudra-t-il pour construire le plus grand data center du monde ?
449IEEE Spectrum AI 

Que faudra-t-il pour construire le plus grand data center du monde ?

Meta prévoit de construire le plus grand data center au monde en Louisiane, baptisé Hyperion, avec une capacité de 5 gigawatts couvrant une surface comparable à Manhattan — la première phase de 2 GW sera achevée d'ici 2030. Les dépenses mondiales en data centers ont dépassé 27 milliards de dollars en juillet 2025 et devraient dépasser 40 milliards sur l'année, selon l'économiste Michael Guckes. Ces méga-projets soulèvent des défis techniques inédits — sols instables, dissipation thermique souterraine — ainsi que des préoccupations environnementales majeures, notamment des émissions de CO₂ potentiellement équivalentes à des dizaines de millions de tonnes par an aux États-Unis.

UELes mégaprojets de data centers américains alimentent le débat européen sur la sobriété énergétique et les émissions CO₂ liées à l'IA, renforçant les discussions autour de la réglementation européenne sur l'efficacité énergétique des centres de données.

InfrastructureOpinion
1 source
Microsoft négocie la location d'un vaste site de datacenter au Texas après le retrait d'Oracle
450The Information AI 

Microsoft négocie la location d'un vaste site de datacenter au Texas après le retrait d'Oracle

Microsoft est en négociations avancées pour louer des centaines de mégawatts de capacité de data center sur un campus IA à Abilene, au Texas, après qu'Oracle s'est retiré de la même opportunité. Meta Platforms est également en discussions pour louer le site. L'installation et l'exploitation de ces infrastructures, incluant les puces Nvidia nécessaires aux serveurs IA, coûteraient plusieurs dizaines de milliards de dollars.

BusinessActu
1 source