Aller au contenu principal

Dossier Meta IA — page 12

593 articles · page 12 sur 12

Meta dans la course IA : Muse Spark, Superintelligence Labs, hyperagents, licenciements liés au pivot IA et infrastructure CoreWeave.

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte
551arXiv cs.RO RechercheOpinion

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Une équipe de chercheurs publie sur arXiv (juin 2026, ref. 2606.12028) VICX, un framework de manipulation robotique généraliste articulé autour d'une architecture découplée en deux blocs : un modèle de génération vidéo figé (non fine-tuné) produit des plans visuels de haut niveau conditionnés par langage naturel, tandis qu'un réseau baptisé V2T-ICON (Video-to-Trajectory In-Context Operator Network) traduit ces plans en trajectoires exécutables pour le robot. La particularité de V2T-ICON réside dans son fonctionnement par apprentissage en contexte : au moment de l'inférence, il récupère des paires image-état préenregistrées et travaille sur des images segmentées du seul bras robotique, permettant un mapping visuel-vers-état sans mise à jour des paramètres. Les expériences sont conduites sur Meta-World, un benchmark de simulation standard, et démontrent la généralisation inter-tâches, la correction en boucle fermée, et le transfert inter-corps (cross-embodiment). L'intérêt de cette approche pour les équipes de R&D réside dans sa modularité : en découplant planification visuelle et exécution motrice, VICX permet théoriquement de substituer l'un des deux blocs de façon indépendante, réduisant le coût d'adaptation à de nouvelles tâches sans réentraînement complet. Le mécanisme d'in-context learning évite de paramétrer le réseau pour chaque tâche inédite, ce qui est pertinent pour des environnements industriels changeants. Cela dit, les résultats restent cantonnés à Meta-World, un environnement de simulation simplifié : aucune validation sur robot physique n'est publiée dans ce preprint, une limite structurelle dans un domaine où le sim-to-real gap demeure l'obstacle central non résolu. VICX s'inscrit dans la vague des Visual Language Action models (VLA) cherchant à dépasser l'imitation learning classique via des représentations visuelles génératives. Les approches concurrentes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA adoptent des architectures majoritairement end-to-end et ont déjà fait l'objet de déploiements ou démonstrations sur hardware réel, ce qui les positionne en avance sur l'applicabilité industrielle à court terme. VICX constitue une contribution méthodologique solide sur la question de la généralisation, mais son chemin vers un déploiement concret reste entièrement à démontrer.

1 source
Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI
552AWS ML Blog 

Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI

Azercell Telecom LLC, principal opérateur télécom d'Azerbaïdjan, a développé en six semaines un grand modèle de langage (LLM) en azerbaïdjanais sur la plateforme Amazon SageMaker AI, en partenariat avec le AWS Generative AI Innovation Center. L'objectif : doter l'entreprise d'un chatbot client et d'outils spécialisés pour les usages télécoms, en partant de zéro dans une langue pour laquelle aucun blueprint d'entraînement n'existait. Le cadre technique mis en place repose sur trois étapes séquentielles : la création d'un tokenizer sur mesure, un pré-entraînement continu à partir du modèle Llama 3.2 1B de Meta, puis un affinage supervisé via la méthode LoRA. Sur une instance ml.p5.48xlarge, les optimisations au niveau noyau permises par la bibliothèque Liger Kernels ont abouti à un débit d'entraînement supérieur de 23 % et une consommation mémoire GPU au pic réduite de 58 %. Le tokenizer azerbaïdjanais personnalisé, quant à lui, divise par deux le nombre de tokens nécessaires par mot, ce qui double concrètement la quantité de texte exploitable dans la fenêtre de contexte du modèle. Ces résultats illustrent un défi bien réel pour l'IA appliquée aux langues à faibles ressources : l'azerbaïdjanais est une langue agglutinante, dans laquelle un seul mot peut encoder des informations grammaticales qu'une phrase anglaise exprime par plusieurs mots distincts. Les tokenizers optimisés pour l'anglais fragmentent ces formes complexes de façon inefficace, dégradant les performances et augmentant les coûts de calcul. En construisant un tokenizer monolingue sur mesure, Azercell et AWS ont résolu ce problème structurel avant même de commencer l'entraînement proprement dit, ce qui améliore chacune des étapes suivantes. Pour les entreprises qui opèrent dans des marchés linguistiques non dominants, cette approche modulaire représente un modèle reproductible : chaque composant (tokenizer, pré-entraînement, affinage) peut être optimisé indépendamment et réutilisé sur des tâches différentes. Le projet s'inscrit dans un mouvement plus large de souveraineté linguistique numérique, alors que les LLM généralistes peinent à performer dans les dizaines de langues mal représentées dans leurs données d'entraînement. L'azerbaïdjanais partage des caractéristiques morphologiques avec le turc, le kazakh ou l'ouzbek, ce qui rend cette méthodologie potentiellement transférable à tout un ensemble de langues turcophones d'Asie centrale. Azercell prévoit de passer à des modèles de plus grande taille, pour lesquels l'entraînement distribué sur SageMaker deviendra indispensable, alors que le proof-of-concept actuel à 1 milliard de paramètres n'en avait pas encore besoin. La collaboration avec le AWS Generative AI Innovation Center suit un modèle désormais courant : un géant du cloud apporte l'ingénierie d'infrastructure, l'entreprise locale apporte la donnée et la connaissance métier, et le résultat est un actif IA propriétaire impossible à obtenir via un modèle généraliste.

UELa méthodologie de tokenizer sur mesure pour langues agglutinantes pourrait inspirer des initiatives similaires pour les langues régionales européennes sous-représentées (basque, hongrois, finnois), sans impact direct sur la France ou l'UE.

LLMsTuto
1 source
Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes
553Apple Machine Learning 

Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes

Apple sera présent à la conférence CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition), qui se tient en présentiel à Denver, au Colorado Convention Center, du 3 au 7 juin 2026. L'entreprise y présente de nouveaux travaux de recherche et en assure la sponsorisation, confirmant ainsi son engagement continu auprès de la communauté scientifique mondiale spécialisée en vision par ordinateur et en reconnaissance de formes. La participation d'Apple à ce type d'événement illustre la montée en puissance de sa stratégie de recherche publique. En publiant ses travaux à CVPR, l'un des rendez-vous académiques les plus influents dans le domaine de l'intelligence artificielle visuelle, Apple signale ses priorités technologiques tout en attirant des talents issus du milieu universitaire. Pour l'industrie, cette visibilité académique est devenue un levier de recrutement et de légitimité scientifique face à des concurrents comme Google DeepMind, Meta AI ou Microsoft Research, qui investissent massivement dans la publication ouverte. CVPR est considéré comme l'une des conférences les plus sélectives et les plus citées en intelligence artificielle, rassemblant chaque année plusieurs milliers de chercheurs du monde entier. Apple, longtemps critiqué pour son opacité scientifique comparée à ses rivaux, a progressivement ouvert sa recherche au cours des dernières années, notamment via son blog officiel et des publications dans des conférences de premier plan. Le contenu précis des travaux présentés à Denver devrait être détaillé lors de l'événement début juin.

RecherchePaper
1 source
Modèles du monde : 10 points clés sur l'IA en ce moment
554MIT Technology Review 

Modèles du monde : 10 points clés sur l'IA en ce moment

Les "world models" figurent parmi les dix tendances les plus importantes de l'intelligence artificielle selon le MIT Technology Review, qui leur consacre une place dans sa sélection éditoriale annuelle "10 Things That Matter in AI Right Now". La publication organise en parallèle une table ronde réservée aux abonnés intitulée "Can AI Learn to Understand the World?", animée par le rédacteur en chef Mat Honan, le senior editor Will Douglas Heaven et la journaliste spécialisée Grace Huckins. Les world models représentent une approche fondamentalement différente de l'IA actuelle : plutôt que de prédire des tokens de texte, ces systèmes cherchent à construire une représentation interne du monde physique, capable d'anticiper les conséquences d'actions dans des environnements réels. L'enjeu est considérable pour la robotique, les véhicules autonomes et tout système d'IA devant agir dans le monde réel plutôt que simplement répondre à des requêtes textuelles. Le sujet est étroitement lié aux travaux de Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une vision où les world models constitueraient la prochaine étape majeure au-delà des grands modèles de langage. Des applications concrètes commencent à émerger, comme l'utilisation des données de Pokémon Go pour doter des robots livreurs d'une cartographie centimètre par centimètre de l'environnement urbain. L'intérêt croissant de la presse spécialisée pour ce concept signale que le débat sur les limites des LLMs actuels s'intensifie dans les cercles de recherche.

RecherchePaper
1 source
Les techniques de distillation des LLM expliquées
555MarkTechPost 

Les techniques de distillation des LLM expliquées

La distillation de modèles de langage s'est imposée comme l'une des techniques les plus stratégiques du secteur de l'IA. Le principe repose sur l'utilisation d'un grand modèle "enseignant" pour entraîner un modèle "élève" plus petit et plus efficace, plutôt que de se limiter aux textes bruts issus d'internet. Meta a ainsi utilisé son modèle Llama 4 Behemoth pour entraîner Llama 4 Scout et Llama 4 Maverick. Google a eu recours à ses modèles Gemini lors du développement de Gemma 2 et Gemma 3. DeepSeek, de son côté, a distillé les capacités de raisonnement de DeepSeek-R1 vers des modèles plus légers basés sur Qwen et Llama 3.1. Trois grandes méthodes structurent cette discipline : la distillation par labels souples, où l'élève apprend à reproduire la distribution de probabilités complète de l'enseignant token par token ; la distillation par labels durs, où l'élève imite uniquement la réponse finale générée ; et la co-distillation, où plusieurs modèles apprennent en parallèle en partageant leurs prédictions. Ces techniques permettent à des modèles plus compacts d'hériter de capacités avancées, raisonnement, suivi d'instructions, génération structurée, à un coût computationnel bien inférieur à celui d'un entraînement from scratch. La distillation par labels souples est la plus riche informationnellement : en exposant l'élève à l'ensemble de la distribution de probabilités (par exemple "chat" = 70 %, "chien" = 20 %, "animal" = 10 %), elle lui transmet ce que les chercheurs appellent la "dark knowledge" du modèle, c'est-à-dire les relations sémantiques implicites entre les tokens. En revanche, elle exige un accès aux logits internes du modèle enseignant, impossible avec les modèles propriétaires, et génère des coûts de stockage massifs sur des vocabulaires de 100 000 tokens ou plus. La distillation par labels durs, utilisée notamment par DeepSeek, est plus simple : le modèle enseignant génère des données synthétiques que l'élève apprend à reproduire via un apprentissage supervisé classique, sans accès aux probabilités internes. Ces choix techniques reflètent des enjeux industriels profonds. Dans un contexte où entraîner un grand modèle coûte des dizaines à des centaines de millions de dollars, la distillation représente un levier de démocratisation : elle permet aux équipes disposant de ressources limitées de produire des modèles compétitifs en exploitant la puissance de modèles déjà entraînés. Elle soulève aussi des questions sur la propriété intellectuelle, distiller un modèle fermé à partir de ses sorties publiques se situe dans une zone juridique encore floue. Enfin, la co-distillation, où plusieurs modèles s'entraînent mutuellement, ouvre la voie à des architectures d'apprentissage collaboratif qui pourraient redéfinir la façon dont les prochaines générations de modèles sont construites.

LLMsPaper
1 source
Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras
556The Information AI 

Le startup qui aide OpenAI à optimiser son IA pour les puces Cerebras

OpenAI a fait appel à la startup Gimlet Labs pour optimiser ses modèles d'intelligence artificielle sur les puces de Cerebras Systems. Selon Zain Asgar, PDG de Gimlet Labs, cette collaboration permet à OpenAI de faire tourner Codex-Spark, une version accélérée de son outil de programmation destiné aux développeurs, sur l'infrastructure Cerebras. L'annonce intervient alors que Cerebras se prépare à une introduction en bourse imminente cette semaine. Ce recours à une startup spécialisée illustre un défi technique souvent sous-estimé : chaque type de puce exige une adaptation spécifique du code qui entraîne et exécute les modèles. Ce travail d'optimisation bas niveau, peu visible mais indispensable, conditionne directement les performances et les coûts d'exploitation des grands modèles de langage. Pour les utilisateurs de Codex-Spark, cela se traduit concrètement par des temps de réponse plus rapides dans les tâches d'assistance au code. Cette dynamique s'inscrit dans un mouvement plus large de diversification des sources de calcul au sein de l'industrie de l'IA. Alors que les puces Nvidia restent difficiles à obtenir en quantité suffisante, des acteurs comme OpenAI et Meta cherchent activement des alternatives : Cerebras, mais aussi d'autres fabricants de puces spécialisées. Cette stratégie multi-fournisseurs crée un besoin croissant d'intermédiaires techniques capables d'adapter les modèles à des architectures matérielles variées, ouvrant un nouveau segment de marché pour des startups comme Gimlet Labs.

InfrastructureOpinion
1 source
Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte
557Apple Machine Learning 

Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte

Des chercheurs proposent TC-JEPA (Text-Conditional JEPA), une extension de l'architecture I-JEPA développée pour l'apprentissage auto-supervisé des représentations visuelles. Le principe d'I-JEPA repose sur la prédiction de caractéristiques masquées dans l'espace des features : plutôt qu'apprendre à reconstruire des pixels, le modèle prédit des représentations abstraites de régions cachées d'une image. TC-JEPA y ajoute un conditionneur textuel : les légendes associées aux images servent de signal auxiliaire, calculé via une attention croisée sparse sur les tokens textuels, pour guider la prédiction des patches masqués. L'apport central est de réduire l'incertitude inhérente à la prédiction visuelle. Sans texte, plusieurs reconstructions plausibles existent pour une zone masquée, ce qui pousse le modèle à produire des représentations floues ou moyennées. En ancrant la prédiction dans une description textuelle fine, TC-JEPA force l'encodeur visuel à apprendre des features sémantiquement plus riches et précises, avec des retombées potentielles sur la classification, la détection d'objets et la compréhension multimodale. Cette direction s'inscrit dans un mouvement de fond qui cherche à dépasser les limites du contrastif pur (CLIP, ALIGN) en revenant à des architectures prédictives plus proches de la vision de Yann LeCun pour un apprentissage "de type monde". I-JEPA, publié par Meta en 2023, avait déjà montré des gains sur ImageNet sans augmentation agressive. TC-JEPA tente d'en corriger le principal défaut : la supervision visuelle seule reste trop ambiguë pour forcer l'émergence de concepts sémantiques robustes, un problème que le signal textuel vient partiellement résoudre.

RecherchePaper
1 source
Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2
558AWS ML Blog 

Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2

Tomofun, la startup taïwanaise à l'origine de la caméra connectée Furbo, a migré une partie de son infrastructure d'inférence IA des instances GPU Amazon EC2 vers des instances EC2 Inf2, propulsées par les puces AWS Inferentia2 conçues en interne par Amazon. Le système Furbo analyse en temps réel les flux vidéo provenant de centaines de milliers de caméras domestiques pour détecter des comportements animaux précis, aboiements, courses, activités inhabituelles, et envoyer des alertes instantanées aux propriétaires. Le modèle central est BLIP (Bootstrapping Language-Image Pre-Training), un modèle vision-langage compilé via le SDK Neuron d'AWS pour s'exécuter nativement sur Inferentia2. L'architecture déployée s'appuie sur deux couches d'Auto Scaling EC2 derrière un Elastic Load Balancer : la première traite les requêtes API, la seconde héberge les conteneurs d'inférence. Amazon CloudFront achemine les images des caméras vers ce pipeline, tandis que CloudWatch surveille la latence, le débit et les taux d'erreur en continu. La motivation principale de cette migration est économique. L'inférence toujours active à grande échelle est fondamentalement différente de l'entraînement : elle ne nécessite pas la puissance brute des GPU, mais exige une disponibilité permanente et un coût par requête minimal. En remplaçant une partie des GPU par des instances Inf2, Tomofun réduit significativement ses dépenses d'infrastructure tout en maintenant la précision et le débit du modèle. La transition a été conçue pour être transparente : l'API Furbo peut désormais router les requêtes vers des conteneurs GPU ou Inferentia2 sans modifier la logique d'alerte en aval ni l'expérience utilisateur. Cette flexibilité permet aussi d'ajuster dynamiquement le mix en fonction de la charge et des coûts, ce qui est particulièrement précieux pour un service dont le trafic fluctue selon les heures de la journée dans de nombreux fuseaux horaires. Cette initiative s'inscrit dans une tendance plus large du marché cloud : les grandes plateformes développent leurs propres puces d'inférence, Inferentia2 chez AWS, TPU chez Google, et les futures puces de Meta, pour offrir une alternative moins coûteuse aux GPU Nvidia dans les déploiements de production à grande échelle. Pour les entreprises gérant des millions de requêtes d'inférence quotidiennes sur des modèles de vision stabilisés, l'argument économique des accélérateurs spécialisés devient difficile à ignorer. Le cas Tomofun illustre concrètement ce compromis : conserver les GPU pour la flexibilité et les pics, tout en basculant la charge de base vers Inferentia2. Avec la prolifération des objets connectés embarquant de l'IA en périphérie, ce modèle hybride pourrait devenir la norme pour les acteurs du secteur de la "pet tech" et plus largement de l'IoT intelligent.

InfrastructureActu
1 source
Construire un pipeline de machine learning en production avec ZenML : matérialiseurs, métadonnées et hyperparamètres
559MarkTechPost 

Construire un pipeline de machine learning en production avec ZenML : matérialiseurs, métadonnées et hyperparamètres

ZenML, framework open-source dédié à l'orchestration de pipelines de machine learning, propose une approche structurée pour construire des pipelines de bout en bout de niveau production. Un tutoriel détaillé publié récemment illustre comment assembler un système complet incluant des matérialiseurs personnalisés, un suivi de métadonnées et une optimisation d'hyperparamètres, en s'appuyant sur Python 3, scikit-learn, pandas et PyArrow. Le pipeline construit charge des données depuis le dataset Breast Cancer de scikit-learn, les prétraite via un StandardScaler, puis lance une recherche parallèle sur trois architectures de modèles, RandomForest, GradientBoosting et LogisticRegression, avant de sélectionner et promouvoir automatiquement le meilleur modèle selon ses métriques d'évaluation (accuracy, F1-score, AUC-ROC). Ce type de pipeline répond à un besoin concret des équipes data : garantir la reproductibilité complète des expériences ML sans intervention manuelle. Le mécanisme de cache de ZenML évite de réexécuter des étapes coûteuses si les données ou le code n'ont pas changé, ce qui réduit significativement les temps de cycle en production. Le suivi automatique des artefacts, chaque dataset, modèle intermédiaire et métrique est versionné, permet à une équipe de remonter précisément à quelle version des données correspond quel modèle déployé. La stratégie fan-out/fan-in, où plusieurs modèles sont entraînés en parallèle puis comparés dans une étape de synthèse, est particulièrement utile pour les équipes qui veulent industrialiser la sélection de modèles sans scripts ad hoc. ZenML s'inscrit dans un écosystème d'outils MLOps en pleine consolidation, aux côtés de MLflow, Kubeflow et Metaflow. Sa particularité est de proposer un "model control plane" centralisé qui abstrait le stockage des artefacts et l'exécution des étapes, quel que soit l'infrastructure sous-jacente, local, cloud, ou Kubernetes. La notion de matérialiseur personnalisé, illustrée ici avec un objet DatasetBundle sérialisant séparément les arrays NumPy et les métadonnées JSON, est au cœur de son extensibilité : elle permet d'intégrer n'importe quel type de données métier dans le système de tracking. Avec la montée en complexité des projets ML en entreprise, ce type d'approche normalisée devient un standard de fait pour les équipes qui cherchent à passer du notebook expérimental au déploiement répétable en production.

OutilsTuto
1 source
Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques
560MarkTechPost 

Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques

Des chercheurs en neuroIA ont publié un tutoriel détaillant la construction d'un pipeline complet de décodage cérébral à partir de signaux MEG (magnétoencéphalographie), une technique d'imagerie cérébrale non invasive qui mesure les champs magnétiques produits par l'activité électrique des neurones. L'objectif concret du projet : prédire la longueur des mots qu'une personne lit ou entend, uniquement à partir des signaux cérébraux bruts, sans aucun autre indice. Pour y parvenir, l'équipe s'appuie sur deux bibliothèques Python dédiées, NeuralSet et NeuralFetch, couplées à PyTorch pour l'entraînement d'un réseau de neurones convolutif (CNN). Le pipeline transforme les données MEG en événements temporels structurés, extrait des caractéristiques linguistiques via un extracteur personnalisé nommé CharCount, puis entraîne le modèle à reconnaître les patterns spatiaux et temporels associés au traitement du langage dans le cerveau. Ce type de pipeline représente une avancée méthodologique importante pour la recherche en interface cerveau-machine, un domaine jusqu'ici freiné par la complexité de traitement des signaux neuronaux bruts. En proposant un workflow modulaire et reproductible, avec gestion des dépendances, graine aléatoire fixée pour la reproductibilité, et catalogage automatique des jeux de données MEG disponibles, les auteurs offrent aux équipes de recherche une base de travail standardisée. L'enjeu pratique est considérable : décoder des features linguistiques à partir d'activité cérébrale ouvre la voie à des systèmes de communication pour des patients atteints de paralysie ou de maladies neurodégénératives comme la SLA, sans implants chirurgicaux invasifs. Ce projet s'inscrit dans une dynamique plus large qui voit la neuroIA attirer des investissements massifs et des équipes de recherche de premier plan. Meta AI a démontré en 2023 qu'il était possible de décoder la parole perçue à partir de signaux MEG avec une précision inédite grâce à des architectures Transformer. OpenAI, DeepMind et plusieurs startups spécialisées comme Synchron ou Precision Neuroscience explorent parallèlement des approches invasives via des électrodes corticales. La particularité de l'approche MEG non invasive est qu'elle ne nécessite pas d'intervention chirurgicale, mais elle souffre d'une résolution spatiale plus faible que les implants. L'utilisation de CNN pour capturer les structures spatio-temporelles des signaux MEG reste un compromis efficace, et la publication de frameworks open source comme NeuralSet devrait accélérer la standardisation des protocoles expérimentaux, facilitant la comparaison entre études et la montée en puissance de modèles de décodage plus robustes dans les années à venir.

RecherchePaper
1 source
LeapMind Growth, agent de croissance IA fondé par un ex-dirigeant de miHoYo, lève des fonds auprès de CMC Capital
56136Kr 

LeapMind Growth, agent de croissance IA fondé par un ex-dirigeant de miHoYo, lève des fonds auprès de CMC Capital

La startup shanghaiienne LeapMind Growth a annoncé le 29 avril 2026 la clôture d'un tour de financement Angel+ mené par CMC Capital. Les fonds levés seront affectés au développement de son produit phare GrowthGPT, au renforcement de l'équipe technique et aux premières opérations commerciales. LeapMind Growth a été fondée en avril 2025 par Ma Ruping, connu sous le pseudonyme Rubin, ancien responsable mondial de la croissance utilisateurs chez miHoYo (studio derrière Genshin Impact) et ex-directeur de la stratégie croissance chez Kuaishou, après un passage chez TikTok. Il revendique avoir piloté des projets d'acquisition utilisateurs représentant plus de cinq milliards de dollars cumulés. L'équipe fondatrice est issue de ByteDance, miHoYo, Kuaishou et Meituan. GrowthGPT se positionne comme un agent d'exécution autonome couvrant l'intégralité du cycle de croissance marketing : diagnostic de données multi-plateformes, génération d'insights créatifs, diffusion automatisée de campagnes et optimisation en continu, avec des garde-fous budgétaires intégrés pour éviter les dépassements. Lors de campagnes de démarrage à froid sur plusieurs marchés internationaux, le système aurait réduit le coût d'acquisition de 70 % par rapport aux objectifs fixés. Selon son fondateur, plus de 80 % des tâches d'un pôle croissance sont suffisamment codifiées pour être déléguées à un agent, libérant les équipes humaines pour les 20 % restants : choix stratégiques, gestion de crise, positionnement de marque. L'investissement est réalisé via le CMC AI Creative Fund, véhicule de CMC Capital dédié aux applications de l'IA générative dans les industries créatives. Le groupe, historiquement ancré dans les médias et la culture, y voit une convergence entre automatisation publicitaire et nouveaux canaux d'acquisition générés par l'IA conversationnelle. Le secteur du marketing performance est en pleine recomposition : les plateformes comme Google et Meta intègrent déjà des couches d'automatisation algorithmique, mais des acteurs comme LeapMind Growth misent sur une approche agent-first bout-en-bout, plutôt que sur des fonctionnalités IA greffées à des outils traditionnels. La startup cible en priorité les marques DTC, les éditeurs de jeux mobiles et les entreprises à expansion internationale rapide.

L'altérité comme qualité dans la conception du toucher expressif des robots
562arXiv cs.RO 

L'altérité comme qualité dans la conception du toucher expressif des robots

Des chercheurs en interaction homme-robot ont publié début 2025 un article présenté à la communauté scientifique sous la référence arXiv:2604.23402, proposant une rupture conceptuelle dans la façon de concevoir le toucher robotique. Leur constat de départ est simple : la majorité des recherches actuelles sur les interfaces haptiques se concentrent sur l'imitation des sensations naturelles, reproduire le grain d'une surface, simuler une poignée de main, mimer le contact humain. Cette course à la réalisme, selon les auteurs, rétrécit inutilement l'espace des possibles et génère une résistance sociale, les utilisateurs percevant le toucher robotique comme une imitation imparfaite plutôt que comme une expérience à part entière. À la place, l'équipe défend l'idée que "l'altérité", la différence fondamentale du toucher robotique par rapport au toucher humain, devrait être considérée comme une qualité de conception à part entière, et non comme un défaut à corriger. En embrassant ce caractère autre, les designers peuvent créer des expériences tactiles ambiguës, évocatrices et expressives qui ne cherchent pas à tromper, mais à provoquer une interprétation nouvelle. Pour étayer cette thèse, les chercheurs ont analysé des précédents artistiques et quatre cas d'étude issus de la recherche par le design (Research through Design), une approche réflexive qui ancre la théorie dans la pratique créative. Ils en ont tiré un ensemble de langages de conception articulés autour de trois axes : pourquoi l'altérité enrichit la signification du toucher, comment la façonner par des stratégies de design concrètes, et où l'intégrer dans les systèmes robotiques. Ce travail s'inscrit dans un champ en pleine expansion : la robotique sociale et les interfaces haptiques avancées, portées par des investissements massifs de laboratoires et d'entreprises comme Meta, Apple ou des startups spécialisées comme HaptX. La question de l'acceptabilité sociale du toucher robotique devient critique à mesure que les robots d'assistance, les exosquelettes et les interfaces de réalité mixte entrent dans les espaces domestiques et médicaux. En proposant de sortir du paradigme de l'imitation, cet article ouvre une piste de recherche qui pourrait redéfinir la manière dont on conçoit l'interaction physique entre humains et machines dans les années à venir.

RechercheOpinion
1 source
Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense
563arXiv cs.RO 

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Une équipe de chercheurs a publié MSDP (MultiSensory Dynamic Pretraining), un cadre d'apprentissage par représentation auto-supervisé conçu pour la manipulation robotique en contact étroit. Le système fusionne trois flux sensoriels, vision, force et proprioception, via un encodeur transformer entraîné par autoencoding masqué : l'encodeur doit reconstruire des observations multisensorielles complètes à partir d'un sous-ensemble partiel d'embeddings, forçant l'émergence d'une prédiction inter-modale et d'une fusion sensorielle robuste. Pour l'apprentissage de politiques en aval (downstream policy learning), MSDP introduit une architecture asymétrique originale : un mécanisme de cross-attention permet au critique d'extraire des caractéristiques dynamiques et tâche-spécifiques depuis les embeddings figés, tandis que l'acteur reçoit une représentation poolée stable pour guider ses actions. Sur robot réel, la méthode revendique des taux de succès élevés avec seulement 6 000 interactions en ligne, un chiffre à prendre avec précaution car le papier ne détaille pas précisément le type de robot, les seuils de succès retenus ni le panel de tâches évalué. Les expériences couvrent plusieurs scénarios de manipulation contact-riches, en simulation et sur plateforme physique. L'importance de MSDP tient d'abord à la difficulté structurelle qu'il adresse : l'apprentissage par renforcement multisensoriel est notoirement instable en présence de bruit et de perturbations dynamiques, deux conditions omniprésentes en environnement industriel. Si le chiffre de 6 000 interactions en ligne se confirme sur des tâches variées, il représenterait un signal fort sur l'efficacité des données, goulot d'étranglement critique pour tout déploiement en production. L'architecture asymétrique critique-acteur est un choix peu commun et potentiellement généralisable : elle découple la richesse représentationnelle nécessaire à l'évaluation des états de la stabilité requise pour l'exécution motrice, un compromis que la communauté robotique cherche à résoudre depuis plusieurs années. Pour un intégrateur ou un COO industriel, le préentraînement auto-supervisé sans étiquetage manuel réduit également le coût de déploiement sur de nouvelles tâches ou de nouveaux effecteurs. Le contexte académique de MSDP s'inscrit dans la dynamique de transfert des techniques de préentraînement auto-supervisé, popularisées en vision (MAE de Meta, 2021) et en NLP (BERT, GPT), vers la robotique multisensorielle. La manipulation en contact étroit reste l'un des défis les plus difficiles du domaine, car contrairement au pick-and-place, elle exige une gestion précise des forces de contact et une réponse rapide aux perturbations tactiles. Côté positionnement concurrentiel, des approches comme R3M (Meta) ou les modèles VLA récents (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des fusions multimodales différentes, mais restent majoritairement centrés sur vision et langage, sans intégration native de la force au stade du préentraînement. Le papier est soumis en version 3 sur arXiv (2511.14427), ce qui témoigne de plusieurs cycles de révision. Les suites naturelles incluent la validation sur bras industriels standards (UR, Franka) et des tâches d'assemblage de précision, terrain où des acteurs européens comme Wandercraft ou les labos de robotique du CNRS pourraient s'appuyer sur ce cadre pour accélérer leurs travaux sur la manipulation dextre.

RecherchePaper
1 source
Recherches en apprentissage automatique d'Apple à l'ICLR 2026
564Apple Machine Learning 

Recherches en apprentissage automatique d'Apple à l'ICLR 2026

Apple participe cette semaine à la quatorzième édition de l'International Conference on Learning Representations (ICLR 2026), qui se tient à Rio de Janeiro, au Brésil. L'entreprise y est présente en tant que sponsor officiel et y envoie plusieurs de ses chercheurs pour présenter des travaux couvrant un large spectre de sujets en apprentissage automatique et en intelligence artificielle. Ces contributions sont publiées et partagées avec la communauté scientifique internationale, conformément à la politique de diffusion ouverte qu'Apple a renforcée ces dernières années. Cette présence illustre l'ambition croissante d'Apple dans la recherche fondamentale en IA, un domaine où l'entreprise a longtemps été perçue comme moins visible que ses concurrents Google DeepMind, Meta AI ou Microsoft Research. Publier à l'ICLR, l'une des conférences les plus sélectives au monde en apprentissage profond, constitue un signal fort adressé à la communauté académique et au marché des talents, dans un contexte de recrutement intensément compétitif entre les grandes entreprises technologiques. Apple a sensiblement accéléré ses publications scientifiques depuis 2017, après avoir longtemps gardé ses recherches entièrement confidentielles. Cette ouverture progressive vise à attirer des chercheurs de haut niveau qui, dans d'autres structures, peuvent publier librement leurs travaux. L'ICLR 2026 intervient alors qu'Apple intègre davantage de fonctionnalités d'IA générative dans ses produits via Apple Intelligence, ce qui rend ses avancées en ML directement pertinentes pour des centaines de millions d'utilisateurs à travers le monde.

RecherchePaper
1 source
565Siècle Digital 

L’IA augmente la productivité des ingénieurs, mais ne les remplacera pas encore, selon le PDG de Salesforce

Marc Benioff, PDG de Salesforce, a pris position dans le débat sur l'avenir des développeurs logiciels à l'ère de l'IA générative. Sa réponse à ceux qui prédisent la disparition prochaine du métier d'ingénieur est directe : il suffit d'ouvrir les pages carrières de Meta, Google, Anthropic et OpenAI pour constater que ces entreprises, dont les modèles sont censés automatiser le code, continuent de recruter massivement des ingénieurs logiciels. Pour Benioff, ce signal de marché est plus éloquent que n'importe quel discours alarmiste. Son argument central est que l'IA augmente la productivité des ingénieurs sans les rendre obsolètes. Les outils de génération de code accélèrent certaines tâches répétitives, mais la conception architecturale, la résolution de problèmes complexes et la supervision des systèmes restent l'apanage des humains. Cette position tranche avec les déclarations de certains dirigeants tech qui évoquent des réductions d'effectifs liées à l'automatisation, comme Shopify ou Duolingo l'ont laissé entendre récemment. Le débat s'inscrit dans un contexte de tension croissante entre les promesses des grands modèles de langage et les réalités du marché du travail. D'un côté, des outils comme GitHub Copilot ou Cursor transforment concrètement le quotidien des développeurs. De l'autre, la demande de profils techniques qualifiés reste soutenue, notamment pour entraîner, affiner et maintenir ces mêmes modèles. La thèse de Benioff est que l'IA redéfinit le métier d'ingénieur plutôt qu'elle ne l'élimine, du moins pour les années à venir.

UELe débat sur l'avenir des ingénieurs logiciels face à l'IA concerne indirectement le marché européen, où la demande de profils techniques qualifiés reste soutenue malgré l'essor des outils de génération de code.

SociétéOpinion
1 source
Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant
566Presse-citron 

Alphabet : après Google, YouTube et Waymo, la prochaine révolution est l’algorithme TurboQuant

Google a dévoilé TurboQuant, un nouvel algorithme de compression destiné à optimiser l'utilisation de la mémoire dans les systèmes d'intelligence artificielle. Développé en interne au sein d'Alphabet, cet outil n'est pas un produit grand public, mais une brique technique fondamentale visant à réduire la quantité de mémoire vive nécessaire pour faire fonctionner des modèles de grande taille. La présentation a eu lieu il y a quelques jours, sans annonce de disponibilité externe pour l'instant. L'enjeu est considérable : l'un des principaux freins au déploiement massif de l'IA reste le coût des infrastructures, notamment la mémoire GPU, extrêmement onéreuse. Un algorithme capable de compresser efficacement les poids des modèles sans dégrader leurs performances permettrait à Google de réduire significativement ses coûts opérationnels, tout en accélérant ses services — à commencer par son moteur de recherche, qui intègre désormais des résumés et réponses générés par IA à grande échelle. La compression de modèles, ou quantification, est un champ de recherche très actif où s'affrontent les grandes entreprises tech et les laboratoires académiques. Des techniques comme GPTQ, AWQ ou la quantification 4 bits ont déjà permis des gains importants, mais Google semble vouloir pousser plus loin avec une approche maison. TurboQuant s'inscrit dans une stratégie plus large d'Alphabet pour contrôler toute la chaîne technique de l'IA — des puces (TPU) aux algorithmes d'inférence — et maintenir son avance face à Microsoft, Meta et Amazon.

InfrastructureOpinion
1 source
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
567Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
568Latent Space 

Dreamer : l'OS d'agent personnel — David Singleton

En 2024, David Singleton (ex-CTO de Stripe) et Hugo Barra ont lancé en stealth /dev/agents, désormais rebaptisé Dreamer — une plateforme grand public pour découvrir, créer et utiliser des agents IA, centrée sur un assistant personnel appelé Sidekick capable de générer d'autres agents via le langage naturel. La plateforme se distingue par son approche "full stack" : SDK maison, base de données, gestion des prompts, fonctions serverless et exécution de code arbitraire sur leurs VMs. Peu après cet enregistrement, l'équipe Dreamer a annoncé rejoindre Meta Superintelligence Labs.

OutilsActu
1 source
Yann LeCun lève 1 milliard de dollars pour développer une IA capable de comprendre le monde physique
569Wired AI 

Yann LeCun lève 1 milliard de dollars pour développer une IA capable de comprendre le monde physique

Yann LeCun, ancien directeur scientifique en IA de Meta, lève 1 milliard de dollars pour financer sa nouvelle startup AMI. Sa thèse : l'intelligence artificielle au niveau humain passera par la compréhension du monde physique, et non par le langage. AMI ambitionne de concrétiser cette vision jusqu'ici défendue par LeCun face aux partisans des LLMs.

RechercheActu
1 source
AMI Labs de Yann LeCun lève 1,03 milliard de dollars pour développer des modèles du monde
570TechCrunch AI 

AMI Labs de Yann LeCun lève 1,03 milliard de dollars pour développer des modèles du monde

AMI Labs, la nouvelle entreprise cofondée par Yann LeCun (lauréat du prix Turing) après son départ de Meta, a levé 1,03 milliard de dollars à une valorisation pré-money de 3,5 milliards de dollars. La startup se consacre au développement de « world models », des modèles d'IA capables de comprendre et simuler le monde physique.

BusinessActu
1 source
Les consommateurs sont-ils condamnés à payer plus cher pour l'électricité en raison des dépenses d'agrandissement des centres de données?
571Ars Technica AI 

Les consommateurs sont-ils condamnés à payer plus cher pour l'électricité en raison des dépenses d'agrandissement des centres de données?

Les consommateurs pourraient-ils être contraints de payer plus cher pour l'électricité en raison des développements des centres de données? Les grandes entreises technologiques, comme Amazon, Google, Meta, Microsoft, xAI, Oracle et OpenAI, s'engagent potentiellement à construire leurs propres centrales électriques pour les centres de données, conformément à une promesse soutenue par Donald Trump. Cependant, ces entreprises font face à des défis logistiques importants pour tenir cette promesse faite lors d'un événement au White House, assurant que "personne ne verra son prix augmenter" en raison de la demande énergétique des centres de données AI.

RechercheOpinion
1 source