
« Que deviendront les intelligences artificielles si elles doivent sans cesse utiliser les mêmes données ? »
L'essor fulgurant des modèles d'intelligence artificielle générative soulève une question critique pour l'avenir du secteur : que se passe-t-il lorsque ces systèmes commencent à s'entraîner sur des données qu'ils ont eux-mêmes produites ? Le phénomène, désigné par les chercheurs sous le terme d'« effondrement de modèle » (model collapse), menace de dégrader progressivement la qualité et la diversité des sorties générées par les IA.
Le problème est structurel. Internet, principale source d'entraînement des grands modèles de langage, se remplit à vitesse accélérée de contenus synthétiques — textes, images, vidéos — générés par des outils comme ChatGPT, Midjourney ou Sora. À mesure que la proportion de données artificielles augmente dans les corpus d'entraînement, les modèles de nouvelle génération risquent d'amplifier les biais et les erreurs de leurs prédécesseurs, dans une boucle de rétroaction négative. Pour l'ensemble du secteur, cela soulève des interrogations sur la soutenabilité à long terme des stratégies actuelles de collecte de données.
Des recherches publiées par des équipes d'Oxford, d'Edinburgh et de Toronto ont documenté ce phénomène : lorsqu'un modèle est entraîné sur des données générées par un autre modèle, les distributions statistiques s'appauvrissent à chaque itération. Les queues de distribution — ces cas rares mais essentiels à la richesse et à la nuance — disparaissent progressivement. La vidéo générée par IA mettant en scène une bagarre spectaculaire entre Brad Pitt et Tom Cruise illustre précisément ce type de contenu synthétique qui prolifère désormais en ligne, difficile à distinguer d'une source humaine authentique.
Face à ce défi, plusieurs pistes émergent : la mise en place de registres de provenance des données, le développement de techniques de détection de contenu synthétique, ou encore la constitution de corpus certifiés d'origine humaine. Des acteurs comme Google DeepMind et Meta AI investissent dans ces directions, mais la course entre la production de contenu artificiel et les mécanismes de filtrage reste, pour l'heure, largement ouverte.
Les chercheurs et régulateurs européens s'interrogent sur la durabilité des modèles entraînés sur des données synthétiques, un enjeu clé pour les politiques d'IA de l'UE.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




