Recherche — page 10

671 articles · page 10 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

LLMs Business Éthique Outils Régulation Robotique Sécurité Société Infrastructure Création Autre

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU — un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes — dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL) — sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons — historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles — jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique — des systèmes capables de raisonner sur de très longues séquences — devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

Recherche — page 10

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google a peut-être réglé la crise de la mémoire vive (RAM) avec un algorithme

Cette startup veut changer la façon dont les mathématiciens font des maths

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

Actualité : OpenAI ferme brutalement Sora, l'usine à slop la plus chère de l'histoire de l'IA

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA

Entraînement par anticipation latente pour les Transformers

Auto-attention exclusive

L'attention paginée dans les grands modèles de langage

TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B

Pourquoi il n'existe pas d'AlphaFold pour les matériaux — l'IA au service de la découverte des matériaux avec Heather Kulik

« The Cult of the Signal » : laissés seuls dans un jeu vidéo, des agents IA ont créé leur propre religion

Pandémies : l’IA et la modélisation au cœur de la riposte

Le nouveau projet de recherche LeWorldModel (LeWM) de Yann LeCun cible l'effondrement JEPA dans la modélisation prédictive du monde par pixels

« Que deviendront les intelligences artificielles si elles doivent sans cesse utiliser les mêmes données ? »

Les nouveaux hyperagents de Meta AI ne font pas que résoudre des tâches : ils réécrivent les règles de leur apprentissage

Générer des tâches synthétiques pour agents à grande échelle grâce à l'exploration

Entraînés sur des tokens, calibrés sur des concepts : l'émergence de la calibration sémantique dans les LLMs

Les machines pourront-elles jamais être intelligentes ?

Découpage optimal des modèles de langage : des mélanges aux domaines spécialisés

L'IA pour prédire la prochaine pandémie

Andrej Karpathy : les humains sont désormais le goulot d'étranglement de la recherche en IA face à des résultats faciles à mesurer

Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux

OpenAI mise tout sur la création d'un chercheur entièrement automatisé

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO

Des chercheurs de Tsinghua et Ant Group dévoilent OpenClaw, un cadre de sécurité en cinq couches orienté cycle de vie pour atténuer les vulnérabilités des agents LLM autonomes

OpenAI transforme la compression de modèle en chasse aux talents avec son défi « Parameter Golf » à 16 Mo

Goldilocks RL : ajuster la difficulté des tâches pour contourner les récompenses éparses en raisonnement

L'IA amplifie les performances en ingénierie logicielle, selon le rapport DORA 2025

Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale

Import AI 449 : des LLMs entraînent d'autres LLMs ; entraînement distribué 72B ; la vision par ordinateur est plus difficile que le texte génératif

Condamné par un cancer, son chien survit grâce à un vaccin conçu avec ChatGPT

Comment une IA associé à un labo automatisé accélère la recherche biologique

Résultats critiques: Moonshot AI dévoile des résultats pour remplacer le mélange résiduel fixe par une attention depth-wise pour une meilleure évolutivité dans les transformateurs

Les agents RL passent du plantage au parkour en multipliant les couches du réseau

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage

Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes

Au-delà de la similarité sémantique: Introduction du pipeline d'acquisition généralisable d'Agencer NVIDIA NeMo

Anciens chercheurs d'Anthropic en discussion pour lever des fonds pour une nouvelle startup évaluée à 1 milliard de dollars

MCP vs. compétences d'agents IA : analyse approfondie des outils structurés et des directives comportementales pour les LLM

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

Comment l'IA améliore la santé cardiaque dans l'Australie rurale

Google fouille dans les vieux journaux pour prédire les inondations

Google utilise d'anciens reportages et l'IA pour prédire les crues soudaines

Google unifie texte, image, vidéo et audio dans un espace vectoriel unique avec Gemini Embedding 2

Personne n'a inventé l'attention. Un doctorant frustré n'avait plus d'autres options

L'eau met-elle les maths en défaut ? La recherche de DeepMind, guidée par la physique, sur la singularité à 1 000 000 $

Yann LeCun lance AMI Labs et lève 1,03 milliard pour créer des modèles du monde