Aller au contenu principal
Estimer les risques de frontière d'extrême des LLMs à poids ouvert
RechercheOpenAI Blog46sem· 1 min de lecture

Estimer les risques de frontière d'extrême des LLMs à poids ouvert

Source originale ↗·

Cet article examine les risques de frontière extrême liés à la libération de GPT-OSS, introduisant le concept de "malicious fine-tuning" (MFT) pour maximiser ses capacités dans les domaines de la biologie et de la cybersécurité.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent
1VentureBeat AI 

Des chercheurs de Google présentent l'incertitude fidèle, pour que les LLMs estiment plutôt qu'hallucinent

Des chercheurs de Google ont publié un article proposant une approche nouvelle pour lutter contre les hallucinations des grands modèles de langage, baptisée "faithful uncertainty" (incertitude fidèle). La technique, présentée par Gal Yona, chercheur scientifique chez Google et co-auteur de l'étude, repose sur un principe métacognitif : aligner les réponses d'un modèle sur sa confiance interne réelle. Concrètement, plutôt que de forcer le modèle à choisir entre répondre avec assurance ou s'abstenir entièrement, cette approche lui permet d'exprimer des hypothèses nuancées comme "si je ne me trompe pas" ou "je pense que, mais je n'en suis pas certain". Le modèle peut ainsi partager des informations partielles tout en signalant leur degré de fiabilité, y compris dans des systèmes d'IA agentique où des décisions s'enchaînent sans supervision humaine constante. L'enjeu est considérable pour les applications d'entreprise, qui se heurtent à ce que les auteurs appellent le "utility tax", ou coût en utilité. Les stratégies actuelles de réduction des hallucinations imposent un compromis brutal : pour abaisser un taux d'erreur de 25 % à un seuil strict de 5 %, les développeurs doivent sacrifier 52 % des réponses correctes du modèle. En pratique, les équipes techniques refusent ce compromis et configurent leurs systèmes pour maximiser la couverture, ce qui pousse les modèles à continuer de générer des erreurs présentées avec confiance. La redéfinition proposée par Google permet de sortir de cette impasse : une erreur factuelle accompagnée d'une réserve explicite n'est plus une hallucination, c'est une hypothèse. Seule une affirmation incorrecte livrée avec autorité, sans qualification, constitue une véritable hallucination. Cette distinction préserve à la fois la fiabilité et l'utilité du système. Cette recherche s'inscrit dans une prise de conscience plus large des limites structurelles des LLMs. Pendant des années, les progrès en factualité ont surtout reposé sur l'expansion des connaissances : des modèles plus grands, nourris de davantage de données d'entraînement. Mais comme le souligne Yona, "la capacité des modèles est finie, alors que la longue traîne de la connaissance est effectivement infinie." La vraie faiblesse réside dans la conscience des limites, c'est-à-dire la capacité du modèle à distinguer ce qu'il sait de ce qu'il ignore. Dans les applications agentiques, où des systèmes autonomes prennent des décisions en cascade, cette conscience métacognitive devient un mécanisme de contrôle critique : elle permet au modèle de déterminer seul quand son savoir interne est suffisant et quand il doit faire appel à des outils externes ou des API de recherche pour combler ses lacunes.

UELes équipes techniques européennes déployant des LLMs en production pourraient adopter cette approche pour réduire les hallucinations sans sacrifier la couverture des réponses, un enjeu critique pour les applications d'entreprise.

💬 Le chiffre qui tue : pour passer de 25 à 5% d'hallucinations, tu sacrifies 52% des bonnes réponses. Personne ne fait ce compromis, donc les modèles continuent de débiter des erreurs avec assurance. Laisser un LLM dire "je pense que, mais je n'en suis pas certain" plutôt qu'affirmer ou se taire, c'est pas spectaculaire sur le papier, mais si ça tient en prod, ça règle un problème que tout le monde contourne depuis 2 ans.

RecherchePaper
1 source
ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul
2FrenchWeb 

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Séoul accueille du 6 au 12 juillet 2026 la 43e édition de l'International Conference on Machine Learning (ICML), l'une des conférences scientifiques les plus influentes au monde dans le domaine de l'intelligence artificielle. Organisée dans la capitale sud-coréenne, cet événement rassemble chaque année des milliers de chercheurs, ingénieurs et représentants de l'industrie venus présenter et débattre des dernières avancées en apprentissage automatique. L'édition 2026 marque la première fois que la conférence se tient en Corée du Sud, témoignant de la montée en puissance de l'Asie dans l'écosystème mondial de la recherche en IA. ICML est un point de convergence incontournable pour la communauté scientifique : les papiers acceptés y définissent souvent les directions de recherche pour les années suivantes. Les grandes entreprises tech, Google DeepMind, Meta AI, Microsoft Research, Anthropic, y dévoilent des travaux qui alimentent directement leurs produits. Pour les chercheurs académiques, une publication à ICML constitue une validation de premier rang, et la conférence sert de baromètre pour identifier les tendances émergentes, des architectures de modèles aux questions d'alignement et d'efficacité computationnelle. Le choix de Séoul s'inscrit dans une dynamique plus large de reconnaissance des pôles asiatiques d'excellence en IA, la Corée du Sud investissant massivement dans ce secteur via des géants comme Samsung et LG, mais aussi via des startups et universités de rang mondial. ICML 2026 devrait notamment concentrer des débats autour des modèles multimodaux, de l'IA générative post-transformeurs et des approches d'apprentissage à faible coût énergétique, des enjeux devenus centraux dans un contexte de pression croissante sur les ressources de calcul.

UELes chercheurs et labos européens participant à ICML bénéficieront des échanges scientifiques, mais la conférence n'a pas d'impact institutionnel direct sur la France ou l'UE.

💬 Séoul pour ICML, c'est un signal que l'Asie est vraiment dans la course, pas juste comme marché. Ce qui m'intéresse surtout, c'est les débats annoncés sur les architectures post-transformeurs et l'efficacité énergétique, parce que le vrai goulot maintenant c'est le coût de calcul, pas les idées. Les papiers ICML dessinent ce qu'Anthropic et Google mettent en prod 18 mois après.

RecherchePaper
1 source
Entraînés sur des tokens, calibrés sur des concepts : l'émergence de la calibration sémantique dans les LLMs
3Apple Machine Learning 

Entraînés sur des tokens, calibrés sur des concepts : l'émergence de la calibration sémantique dans les LLMs

Les grands modèles de langage (LLM) sont capables d'évaluer leur propre confiance au niveau sémantique, pas seulement au niveau des tokens — et ce sans avoir été explicitement entraînés pour cela. Une étude montre que les LLM de base sont remarquablement bien calibrés pour estimer leur certitude sur le sens réel de leurs réponses dans des tâches de questions-réponses en domaine ouvert. Les chercheurs proposent un mécanisme théorique expliquant pourquoi cette calibration sémantique émerge naturellement de l'entraînement sur des tokens.

RecherchePaper
1 source
Anciens chercheurs d'Anthropic en discussion pour lever des fonds pour une nouvelle startup évaluée à 1 milliard de dollars
4The Information AI 

Anciens chercheurs d'Anthropic en discussion pour lever des fonds pour une nouvelle startup évaluée à 1 milliard de dollars

Des anciens chercheurs d'Anthropic discutent de levées de fonds de 175 millions de dollars à une valorisation de 1 milliard de dollars pour une nouvelle startup, Mirendil, visant la recherche et le développement AI dans des domaines scientifiques comme la biologie et les sciences des matériaux. Firmes de capital-risque Andreessen Horowitz et Kleiner Perkins envisagent de co-diriger cette ronde. Malgré les départs de chercheurs d'OpenAI, Google et Meta, Anthropic a vu relativement peu de départs de son équipe de recherche.

RechercheOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic