
Booster les sondages avec l’IA générative, une (fausse) bonne idée ?
En 2024, l'Ifop a publié un sondage sur l'intention de vote des enseignants aux élections européennes en s'associant avec la start-up française Fairgen, spécialisée dans la donnée synthétique. Le sondage affichait un échantillon de 8 000 personnes et 580 enseignants de collège et lycée, mais en réalité, seuls 116 enseignants avaient été interrogés. Les 464 réponses restantes avaient été générées artificiellement via la technologie "DataBoostAI" de Fairgen, décrite comme une IA générative permettant "la mise en relation holistique des données recueillies" pour produire des "échantillons synthétiques". L'information figurait dans la notice méthodologique, mais l'Ifop n'avait pas jugé utile de mentionner explicitement l'usage de l'IA générative dans ses avertissements habituels. Interrogé par Next, l'Ifop n'a pas répondu. Fairgen se présente toujours comme "pionniers de la donnée synthétique" et revendique un partenariat avec l'Ifop "depuis 2023".
L'enjeu est considérable pour l'industrie du sondage : si l'IA générative permettait de multiplier virtuellement les réponses à partir d'un petit échantillon réel, les coûts d'enquête s'effondreraient et les délais de production aussi. Les instituts pourraient théoriquement sonder des sous-populations très ciblées, les enseignants, les artisans, les jeunes ruraux, sans avoir à recruter des centaines de profils rares et coûteux. Mais les statisticiens Arthur Charpentier et Guillaume Chauvet pointent le risque fondamental : les données synthétiques reproduisent les biais et corrélations du jeu d'entraînement. Interroger 116 personnes puis en "générer" 464 autres ne produit pas de nouveaux faits, cela amplifie les patterns existants, avec une illusion de précision statistique. La transparence vis-à-vis du public et des régulateurs reste aussi entière : comment évaluer la fiabilité d'un sondage électoral si les réponses ont été en partie fabriquées ?
La question va bien au-delà de l'Ifop. Tous les grands instituts lorgent sur ces techniques, mais peu ont franchi le pas publiquement. Chez Ipsos/BVA, le directeur d'études Mathieu Gallard assure que les sondages d'opinion politique et électorale n'utilisent pas encore ces méthodes, tout en reconnaissant que des tests sont en cours, notamment sur des applications marketing ou dans d'autres pays. L'élection présidentielle française de 2027 pourrait devenir un terrain d'expérimentation grandeur nature pour ces technologies, dans un contexte où la défiance envers les sondages est déjà élevée. Si la tentation économique est réelle, le risque de voir des résultats électoraux influencés par des données partiellement synthétiques, sans que le grand public en soit clairement informé, pose une question de fond sur la légitimité démocratique de ces outils.
L'usage de données synthétiques par l'Ifop pour des sondages électoraux, et la possible généralisation de ces pratiques avant la présidentielle française de 2027, interpelle directement le cadre légal français sur la transparence des sondages d'opinion.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




