Le contenu d’un tiers des nouveaux sites est généré totalement ou partiellement par IA
En mai 2025, 35 % des sites internet nouvellement créés contenaient des textes entièrement ou majoritairement générés par intelligence artificielle, selon un rapport publié par Internet Archive. Cette étude, signée par Mark Graham, responsable de la Wayback Machine, accompagné d'un chercheur maison et de deux doctorants, s'appuie sur l'analyse du texte brut de milliers de sites archivés. Pour détecter l'origine des contenus, l'équipe a comparé plusieurs outils, Binoculars, Desklib, DivEye, avant de retenir l'API commerciale Pangram v3, choisie pour sa capacité à traiter le HTML et à analyser des textes en plusieurs langues, avec un taux de précision annoncé à 99,98 %. La proportion de sites à contenu genAI est passée de zéro avant le lancement de ChatGPT fin 2022 à ce tiers des nouvelles publications en l'espace de deux ans et demi.
Ce que révèle ce rapport va à l'encontre des craintes les plus répandues. Sondés par les chercheurs, 75 % des internautes redoutaient d'être davantage exposés à des informations factuellement erronées, et 83 % anticipaient une homogénéisation du style des textes sur le web. Or, les données d'Internet Archive ne confirment ni l'une ni l'autre de ces hypothèses : les fact-checkers mandatés par l'équipe n'ont pas trouvé de corrélation statistiquement significative entre la hausse du contenu IA et une augmentation des fausses informations. L'homogénéisation stylistique, elle non plus, ne progresse pas mécaniquement. En revanche, deux effets distincts sont bien documentés : une contraction sémantique mesurable, les textes générés couvrent un spectre de vocabulaire et d'idées plus étroit, et un glissement artificiel vers la positivité, les contenus IA affichant systématiquement un ton plus optimiste et lissé que ceux rédigés par des humains.
Ce travail s'inscrit dans un débat plus large sur ce que certains chercheurs appellent la "théorie de l'Internet mort", formulée dès 2021 et relancée début 2024 : l'idée que le web serait progressivement peuplé de contenus automatisés où des machines s'adressent à d'autres machines, au détriment d'une production humaine authentique. La méthode du rapport comporte toutefois des limites importantes : Pangram v3 est un outil commercial dont la méthode n'a pas été évaluée par des chercheurs indépendants, et les résultats dépendent donc directement de sa fiabilité réelle. Reste que cette étude est l'une des premières à quantifier l'empreinte de l'IA générative à l'échelle du web archivé, et elle devrait pousser les plateformes, moteurs de recherche et régulateurs à affiner leur compréhension des effets concrets, moins spectaculaires que redoutés, mais bien réels, de cette prolifération silencieuse.
Cette étude quantitative sur la prolifération des contenus IA pourrait alimenter les travaux des régulateurs européens, notamment sur les obligations de transparence et de marquage des contenus générés par IA prévues dans l'AI Act.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



