Aller au contenu principal
Consensus accélère la recherche avec GPT-5 et l'API de réponses
RechercheOpenAI Blog34sem· 1 min de lecture

Consensus accélère la recherche avec GPT-5 et l'API de réponses

Source originale ↗·

Consensus utilise GPT-5 et l'API Responses d'OpenAI pour développer un assistant de recherche à agents multiples, capable de traiter et d'analyser des données en quelques minutes, aidant ainsi plus de 8 millions de chercheurs à accélérer la découverte scientifique.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment une IA associé à un labo automatisé accélère la recherche biologique
1Le Big Data 

Comment une IA associé à un labo automatisé accélère la recherche biologique

Des chercheurs d'OpenAI et de Ginkgo Bioworks ont combiné une IA (GPT-5) avec un laboratoire automatisé pour accélérer la recherche biologique. En utilisant la technique de synthèse protéique acellulaire (CFPS), l'IA a conçu des expériences, analysé les résultats et ajusté ses approches en environ une heure par itération, démontrant ainsi la capacité de l'IA à formuler des hypothèses et à mener des expériences dans le domaine complexe de la biologie.

RecherchePaper
1 source
Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %
2VentureBeat AI 

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU — un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes — dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL) — sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons — historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles — jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique — des systèmes capables de raisonner sur de très longues séquences — devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

RecherchePaper
1 source
RecursiveMAS accélère l'inférence multi-agents de 2,4x et réduit l'usage des tokens de 75 %
3VentureBeat AI 

RecursiveMAS accélère l'inférence multi-agents de 2,4x et réduit l'usage des tokens de 75 %

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign et de l'Université Stanford ont développé RecursiveMAS, un nouveau cadre pour systèmes multi-agents qui multiplie la vitesse d'inférence par 2,4 et réduit l'utilisation de tokens de 75 %. Le principe central est de remplacer la communication textuelle entre agents par des échanges dans l'espace des représentations latentes (embeddings). Concrètement, plutôt que chaque agent génère du texte que le suivant doit lire et interpréter, les agents se transmettent directement leurs représentations vectorielles internes, évitant toute génération de tokens intermédiaires. Le système s'inspire des modèles de langage récursifs, dans lesquels un ensemble de couches partagées traite les données en boucle pour approfondir le raisonnement sans ajouter de paramètres. Dans RecursiveMAS, chaque agent joue le rôle d'une couche : il reçoit une représentation latente, la traite, puis la passe au suivant. Après le dernier agent, les sorties sont renvoyées au premier, déclenchant un nouveau cycle de raisonnement. Seul l'agent final produit un texte à la dernière itération. Les expériences montrent des gains de précision sur des domaines exigeants comme la génération de code, le raisonnement médical et la recherche d'information. L'impact de cette architecture est direct et mesurable pour les équipes qui développent ou déploient des systèmes d'IA complexes. Une accélération de 2,4 fois de l'inférence et une réduction de 75 % des tokens utilisés signifient des coûts de calcul et d'API considérablement réduits à l'échelle. RecursiveMAS est également nettement moins coûteux à entraîner que les méthodes classiques de fine-tuning complet ou les approches LoRA, ce qui en fait une option viable pour des équipes aux ressources limitées. En permettant d'entraîner l'ensemble du système comme une unité cohérente plutôt que comme une collection d'agents isolés, le cadre ouvre la voie à des systèmes capables de s'adapter et de s'améliorer collectivement au fil du temps, sans les goulots d'étranglement typiques de la génération séquentielle de texte. Les systèmes multi-agents ont émergé comme une réponse aux limites des modèles de langage individuels face à des tâches complexes nécessitant coordination, vérification ou spécialisation. Mais leur passage à l'échelle bute sur un problème fondamental : la communication par texte impose une séquentialité coûteuse, chaque agent devant attendre que le précédent ait terminé de générer sa réponse avant de commencer sa propre analyse. Des approches comme le prompt engineering ou le fine-tuning individuel n'adressent qu'une partie du problème. RecursiveMAS propose une rupture architecturale en traitant le système entier comme un seul modèle récursif unifié. Si les résultats expérimentaux se confirment en conditions réelles, cette approche pourrait redéfinir la manière dont les architectures multi-agents sont conçues et optimisées, avec des implications importantes pour l'IA appliquée à la médecine, au droit, à la programmation et à la recherche scientifique.

UELes équipes européennes développant des pipelines multi-agents pourraient bénéficier indirectement de réductions de coûts de calcul si cette architecture de recherche est adoptée et intégrée dans des frameworks open source.

💬 Passer les embeddings directement entre agents plutôt que de générer du texte à chaque étape, c'est une idée qui aurait dû arriver il y a deux ans. 75 % de tokens en moins et 2,4x plus vite sur du code et du raisonnement médical, c'est pas du flan. Bon, sur le papier c'est Illinois et Stanford, mais faut que LangGraph ou un équivalent s'en empare pour que ça compte vraiment en prod.

RecherchePaper
1 source
Pensée profonde Gemini 3: Progrès dans la science, la recherche et l'ingénierie
4Google AI Blog 

Pensée profonde Gemini 3: Progrès dans la science, la recherche et l'ingénierie

Titre: Gemini 3 Deep Think : Avancées scientifiques, de la recherche et de l'ingénierie Nous déployons une mise à jour majeure de Gemini 3 Deep Think, notre mode de raisonnement spécialisé.

UEAucun impact direct — L'article décrit une mise à jour logicielle, Gemini 3 Deep Think, qui améliore les capacités de raisonnement artificiel, sans spécification d'applications spécifiques ou d'impact sur des entreprises ou des réglementations françaises ou européennes.

RechercheOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic