
Personne n'a inventé l'attention. Un doctorant frustré n'avait plus d'autres options
Dzmitry Bahdanau n'avait pas l'intention d'inventer une architecture révolutionnaire — il cherchait simplement à améliorer la traduction de longues phrases avec des réseaux de neurones. Confronté aux limitations des RNN traditionnels pour gérer les dépendances à longue portée, il a développé le mécanisme d'attention, qui transforme la façon dont les modèles accèdent à l'information en mémoire. Cette innovation, née d'un problème pratique de traduction automatique, est aujourd'hui au cœur de tous les grands modèles de langage.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



