
LLMs+
Depuis le lancement de ChatGPT fin 2022, les grands modèles de langage (LLM) ont envahi le quotidien de centaines de millions d'utilisateurs et provoqué une course effrénée dans toute l'industrie technologique. Aujourd'hui, la prochaine grande rupture se dessine déjà, et elle ne remplace pas les LLM : elle les prolonge. Ces nouveaux modèles, que l'on pourrait appeler les LLM+, sont conçus pour résoudre des problèmes complexes et multi-étapes qui prendraient des jours ou des semaines à un humain, en opérant de manière autonome sur des durées prolongées. Deux axes de progrès dominent la recherche actuelle : rendre les modèles plus efficaces et moins coûteux à faire tourner, et étendre leur capacité à traiter de grandes quantités d'information sans perdre le fil.
Sur le plan de l'efficacité, plusieurs approches prometteuses émergent. Le "mixture-of-experts" consiste à fragmenter un LLM en sous-modules spécialisés, dont seule une partie est activée selon la tâche en cours, réduisant ainsi massivement la charge de calcul. D'autres chercheurs envisagent d'abandonner les transformeurs, l'architecture neuronale dominante depuis plusieurs années, au profit des modèles de diffusion, habituellement réservés à la génération d'images et de vidéos. En 2025, la startup chinoise DeepSeek a présenté une méthode d'encodage du texte dans des images pour comprimer les coûts de traitement. Ces innovations pourraient rendre les LLM accessibles à une gamme beaucoup plus large d'applications industrielles et académiques, en abaissant significativement les barrières financières à leur déploiement.
L'autre défi central est celui de la fenêtre de contexte, soit la quantité d'information qu'un modèle peut traiter en une seule fois. Il y a deux ans, cette limite se situait à quelques milliers de tokens, soit une trentaine de pages. Les modèles actuels atteignent désormais le million de tokens, l'équivalent d'une pile entière de livres. Mais plus la fenêtre s'allonge, plus les modèles tendent à dériver ou à perdre leur cohérence sur des tâches longues. Une publication récente de chercheurs du MIT CSAIL propose une réponse architecturale : les LLM récursifs. Au lieu d'ingérer un contexte géant d'un seul bloc, ces modèles découpent leur entrée en fragments, les transmettent à des copies d'eux-mêmes qui peuvent elles-mêmes subdiviser et redistribuer le travail. Cette approche distribuée se révèle nettement plus fiable sur des tâches complexes et prolongées, et pourrait constituer le socle des futurs systèmes d'IA capable de travailler en autonomie sur des défis scientifiques ou organisationnels de grande envergure.




