Aller au contenu principal
Lorsque les modèles de langage hallucinent, ils laissent une "énergie déversée" dans leur propre mathématique
RechercheThe Decoder13sem

Lorsque les modèles de langage hallucinent, ils laissent une "énergie déversée" dans leur propre mathématique

Résumé IASource uniqueImpact UE
Source originale ↗·

Lorsque les grands modèles de langage hallucinent, ils laissent des traces mesurables dans leurs propres calculs. Des chercheurs de l'Université Rome Sapienza ont développé une méthode sans entraînement qui détecte ces traces et généralise mieux que les approches précédentes.

Impact France/UE

Cette avancée de l'Université La Sapienza de Rome renforce la capacité européenne à fiabiliser les LLMs, un enjeu clé pour les acteurs comme Mistral qui doivent répondre aux exigences de transparence de l'IA Act.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage
1InfoQ AI 

Les chercheurs de Google proposent une méthode d'enseignement bayésien pour les grands modèles de langage

Des chercheurs de Google Research ont proposé une méthode d'entraînement permettant aux grands modèles de langage d'approximer le raisonnement bayésien, en apprenant à partir des prédictions d'un système bayésien optimal. L'objectif est d'améliorer la façon dont les modèles mettent à jour leurs croyances au fil des interactions multi-étapes, à mesure qu'ils reçoivent de nouvelles informations.

RecherchePaper
1 source
Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
2Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
Amélioration de la hiérarchie d'instructions dans les grands modèles de langage de pointe
3OpenAI Blog 

Amélioration de la hiérarchie d'instructions dans les grands modèles de langage de pointe

IH-Challenge est un dispositif d'entraînement qui apprend aux grands modèles de langage à prioriser les instructions de confiance selon une hiérarchie définie. Cette approche améliore la capacité des modèles à être guidés vers des comportements sûrs et renforce leur résistance aux attaques par injection de prompt. Les résultats montrent des gains significatifs en matière de sécurité et de contrôlabilité des LLMs.

UECette recherche sur la sécurité et la contrôlabilité des LLMs pourrait bénéficier aux développeurs européens comme Mistral AI dans leur effort de conformité avec l'AI Act de l'UE.

RecherchePaper
1 source
Les grands modèles de langage comprennent-ils vraiment le contexte ?
4Apple Machine Learning 

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour