Aller au contenu principal
« Que deviendront les intelligences artificielles si elles doivent sans cesse utiliser les mêmes données ? »
RechercheLe Monde Pixels6sem

« Que deviendront les intelligences artificielles si elles doivent sans cesse utiliser les mêmes données ? »

Résumé IASource uniqueImpact UE
Source originale ↗·

L'essor fulgurant des modèles d'intelligence artificielle générative soulève une question critique pour l'avenir du secteur : que se passe-t-il lorsque ces systèmes commencent à s'entraîner sur des données qu'ils ont eux-mêmes produites ? Le phénomène, désigné par les chercheurs sous le terme d'« effondrement de modèle » (model collapse), menace de dégrader progressivement la qualité et la diversité des sorties générées par les IA.

Le problème est structurel. Internet, principale source d'entraînement des grands modèles de langage, se remplit à vitesse accélérée de contenus synthétiques — textes, images, vidéos — générés par des outils comme ChatGPT, Midjourney ou Sora. À mesure que la proportion de données artificielles augmente dans les corpus d'entraînement, les modèles de nouvelle génération risquent d'amplifier les biais et les erreurs de leurs prédécesseurs, dans une boucle de rétroaction négative. Pour l'ensemble du secteur, cela soulève des interrogations sur la soutenabilité à long terme des stratégies actuelles de collecte de données.

Des recherches publiées par des équipes d'Oxford, d'Edinburgh et de Toronto ont documenté ce phénomène : lorsqu'un modèle est entraîné sur des données générées par un autre modèle, les distributions statistiques s'appauvrissent à chaque itération. Les queues de distribution — ces cas rares mais essentiels à la richesse et à la nuance — disparaissent progressivement. La vidéo générée par IA mettant en scène une bagarre spectaculaire entre Brad Pitt et Tom Cruise illustre précisément ce type de contenu synthétique qui prolifère désormais en ligne, difficile à distinguer d'une source humaine authentique.

Face à ce défi, plusieurs pistes émergent : la mise en place de registres de provenance des données, le développement de techniques de détection de contenu synthétique, ou encore la constitution de corpus certifiés d'origine humaine. Des acteurs comme Google DeepMind et Meta AI investissent dans ces directions, mais la course entre la production de contenu artificiel et les mécanismes de filtrage reste, pour l'heure, largement ouverte.

Impact France/UE

Les chercheurs et régulateurs européens s'interrogent sur la durabilité des modèles entraînés sur des données synthétiques, un enjeu clé pour les politiques d'IA de l'UE.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le Québec mobilise des fonds pour faire de Montréal un leader mondial de l’intelligence artificielle
1Le Big Data 

Le Québec mobilise des fonds pour faire de Montréal un leader mondial de l’intelligence artificielle

Le gouvernement du Québec a annoncé un investissement de 36 millions de dollars en faveur de Mila, l'Institut québécois d'intelligence artificielle basé à Montréal. Ce financement s'inscrit dans une stratégie d'innovation quinquennale dotée d'un budget total de 7,5 milliards de dollars, dans le cadre de laquelle Québec s'était engagé à verser jusqu'à 80 millions de dollars à Mila sur cinq ans à compter de 2018. Au total, depuis 2017, la province a injecté plus de 700 millions de dollars dans la recherche, le développement et l'intégration de l'IA dans divers secteurs économiques. En parallèle, ScaleAI, une supergrappe fédérale installée à Montréal, a mobilisé des fonds supplémentaires pour accélérer l'adoption de l'IA par les entreprises locales, notamment en augmentant les capacités de calcul et en attirant des chercheurs internationaux. Cet engagement financier positionne Montréal comme prétendant sérieux au titre de capitale mondiale de l'IA, aux côtés de San Francisco, Londres et Singapour. Pour Mila, l'un des pôles de recherche en apprentissage automatique les plus réputés au monde, ce financement représente la possibilité de renforcer son rôle d'institut de recherche de référence et d'intensifier son accompagnement des entreprises québécoises dans leur transformation numérique. Au-delà de la recherche pure, les retombées sont concrètes : l'IA est déjà intégrée dans la finance, les services publics, la santé et d'autres secteurs stratégiques. L'écosystème montréalais bénéficie également d'une offre de formation en expansion, d'un réseau académique solide et de la capacité à recruter des talents étrangers, trois atouts que cet investissement est destiné à amplifier. Montréal n'est pas novice dans la course à l'IA. La ville s'est imposée dès les années 2010 comme un centre mondial en apprentissage automatique, portée notamment par les travaux de Yoshua Bengio, cofondateur de Mila et figure pionnière du deep learning. La stratégie québécoise s'appuie sur cet héritage académique pour construire une filière industrielle complète, alliant recherche fondamentale, formation de haut niveau et déploiement sectoriel. L'ambition est clairement géopolitique : dans un contexte où les États-Unis, la Chine et l'Union européenne se livrent une concurrence féroce pour dominer l'IA, le Québec entend faire valoir sa spécificité, notamment son approche ancrée dans l'éthique et la recherche ouverte. Les prochaines années seront déterminantes pour savoir si Montréal parvient à transformer ses avantages académiques en leadership économique durable face à des écosystèmes disposant de ressources financières bien supérieures.

UELa montée en puissance de Montréal comme concurrent direct des hubs européens de recherche en IA intensifie la pression sur l'UE pour consolider ses propres écosystèmes et éviter une fuite des talents vers l'Amérique du Nord.

RechercheOpinion
1 source
Qu’est-ce que l’AGI (intelligence artificielle générale) ? Définition
2Siècle Digital 

Qu’est-ce que l’AGI (intelligence artificielle générale) ? Définition

L'AGI (intelligence artificielle générale) est un concept ambitieux dans la recherche en IA, cherchant à développer une intelligence artificielle capable de comprendre, apprendre et s'adapter à une large gamme de tâches, comme un humain. Bien que des modèles génératifs prospèrent, l'AGI reste une idée discutée parmi les chercheurs et les leaders de la technologie.

RechercheOpinion
1 source
CuspAI, ou la promesse d’une science accélérée par l’intelligence artificielle
3FrenchWeb 

CuspAI, ou la promesse d’une science accélérée par l’intelligence artificielle

CuspAI, startup britannique fondée en 2024 par Chad Edwards, s'est imposée comme l'un des acteurs les plus prometteurs de l'IA appliquée à la découverte de matériaux. La société développe une plateforme d'intelligence artificielle capable de modéliser et prédire les propriétés de nouveaux matériaux en une fraction du temps qu'exigerait l'expérimentation classique en laboratoire. Après avoir levé plusieurs dizaines de millions de dollars auprès d'investisseurs spécialisés dans les deeptech, CuspAI entend accélérer des cycles de R&D qui s'étendent habituellement sur une décennie. L'enjeu est considérable : la découverte de nouveaux matériaux conditionne des secteurs entiers, des batteries pour véhicules électriques aux semi-conducteurs, en passant par les panneaux solaires et les matériaux de construction à faible empreinte carbone. En réduisant de plusieurs années le délai entre l'idée et le prototype validé, CuspAI pourrait déverrouiller des goulots d'étranglement qui freinent la transition énergétique et l'industrie manufacturière mondiale. Pour les laboratoires et les industriels, il s'agit d'un changement de paradigme comparable à ce que la simulation numérique a représenté dans les années 1980. Cette ambition s'inscrit dans une vague plus large d'IA scientifique, dite « AI for science », portée aussi bien par DeepMind avec AlphaFold que par des startups comme Insilico Medicine dans le médicament ou Orbital Materials dans les matériaux avancés. CuspAI se différencie par sa focalisation sur les matériaux solides et sa volonté de s'intégrer directement dans les flux de travail industriels, visant des partenariats avec de grands groupes chimiques et énergétiques plutôt qu'une approche purement académique.

UELes industriels européens engagés dans la transition énergétique (batteries, panneaux solaires, matériaux bas carbone) pourraient bénéficier directement de la plateforme CuspAI pour accélérer leurs cycles de R&D.

RecherchePaper
1 source
IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle
4FrenchWeb 

IMITATION LEARNING : définition, fonctionnement et cas d’usage en intelligence artificielle

L'apprentissage par imitation — imitation learning en anglais — s'impose comme l'un des paradigmes les plus prometteurs de l'intelligence artificielle appliquée, notamment dans la robotique et les systèmes autonomes. Contrairement au reinforcement learning classique, qui oblige un agent à explorer son environnement par essais-erreurs en accumulant récompenses et pénalités, l'imitation learning repose sur un principe radicalement différent : un modèle apprend en observant des démonstrations réalisées par un expert humain ou un autre système. Deux grandes variantes coexistent — le clonage comportemental, qui imite directement les actions observées, et l'apprentissage inverse par renforcement, qui tente d'inférer la fonction de récompense sous-jacente au comportement de l'expert. L'impact concret est significatif dans les domaines où définir une fonction de récompense explicite reste difficile ou coûteux. En robotique industrielle, des bras manipulateurs apprennent à effectuer des tâches de précision — assemblage, tri, chirurgie assistée — à partir de quelques démonstrations humaines, sans programmer chaque geste manuellement. Dans les véhicules autonomes, des systèmes comme ceux de Waymo ou Tesla intègrent des mécanismes proches pour capturer des comportements de conduite complexes directement depuis des données réelles. Cette approche s'inscrit dans un mouvement plus large vers des IA capables d'acquérir des compétences sans supervision dense. Des laboratoires comme DeepMind, OpenAI ou le CNRS explorent activement ses limites, notamment le problème de distribution shift — le modèle échoue dès qu'il rencontre une situation hors du corpus d'imitation. Des hybrides combinant imitation learning et reinforcement learning, comme DAgger, cherchent à dépasser cette fragilité fondamentale.

UELe CNRS est cité parmi les laboratoires qui explorent activement l'imitation learning, positionnant la recherche française dans ce paradigme émergent.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour