
De refus catégoriques à des achèvements sûrs : vers une formation à la sécurité axée sur les résultats
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

Moonshot AI a présenté Attention Residuals (AttnRes), un remplacement des connexions résiduelles standard dans les Transformers. Les chercheurs soutiennent que les connexions résiduelles actuelles introduisent un problème structurel, car toutes les sorties précédentes sont accumulées avec des poids unitaires fixes, entraînant une croissance de la magnitude de l'état caché et faiblissant progressivement le contribucion de chaque couche. AttnRes permet à chaque couche d'agréger les représentations antérieures via une attention softmax sur la profondeur, plutôt que sur la position séquentielle. Les principaux problèmes des connexions résiduelles standard incluent l'accès non selectif, la perte irréversible d'informations et la croissance de l'output, qui peuvent entraîner une instabilité de l'entraînement. Full AttnRes calcule les poids d'attention sur toutes les sources de profondeur précédentes, augmentant ainsi le coût mais offrant une meilleure gestion des informations.

L'article discute des avancées dans la tokenisation utilisée dans les modèles Transformers version 5, qui apporte des simplifications, une clarté accrue et une meilleure modularité. Il met l'accent sur l'amélioration de l'architecture pour faciliter la compréhension et la manipulation des données textuelles.
UEL'avancée dans la tokenisation des Transformateurs v5 simplifie et clarifie le traitement des données textuelles, bénéficiant potentiellement aux entreprises européennes comme DeepMind Europe et Hugging Face, en améliorant leur capacité à respecter la réglementation RGPD en manipulant les données textuelles de manière plus transparente, tout en ouvrant des opportunités pour l'innovation dans les secteurs de l'IA et du traitement du langage naturel.

OpenAI offre des subventions allant jusqu'à 2 millions de dollars pour des recherches explorant la convergence de l'IA et de la santé mentale. Le programme finance des projets se concentrant sur les risques, avantages et applications réels pour améliorer la sécurité et le bien-être.

Les grands modèles de langage (LLM) sont capables d'évaluer leur propre confiance au niveau sémantique, pas seulement au niveau des tokens — et ce sans avoir été explicitement entraînés pour cela. Une étude montre que les LLM de base sont remarquablement bien calibrés pour estimer leur certitude sur le sens réel de leurs réponses dans des tâches de questions-réponses en domaine ouvert. Les chercheurs proposent un mécanisme théorique expliquant pourquoi cette calibration sémantique émerge naturellement de l'entraînement sur des tokens.
Recevez l'essentiel de l'IA chaque jour
Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.