L’IA générative a été entraînée sur des siècles d’art et d’écrits produits par les humains.
Mais les scientifiques et les critiques se sont demandé ce qui se passerait une fois que l’IA serait largement adoptée et commencerait à s’entraîner sur ses propres productions.
Une nouvelle étude apporte quelques réponses.
En janvier 2026, les chercheurs en intelligence artificielle Arend Hintze, Frida Proschinger Åström et Jory Schossau ont publié une étude montrant ce qui se passe lorsque les systèmes d’IA générative sont autorisés à fonctionner de manière autonome, générant et interprétant leurs propres résultats sans intervention humaine.
Les chercheurs ont relié un système de conversion de texte en image à un système de conversion d’image en texte et les ont laissés itérer – image, légende, image, légende – encore et encore.
Si vous pouvez lire ceci, c’est parce que d’autres se sont abonnés.
MERCI À CELLES ET CEUX QUI NOUS SOUTIENNENT !
C’est grâce à vous que nous pouvons publier du contenu.
Quelle que soit la diversité des invites de départ et quel que soit le degré de randomisation autorisé aux systèmes, les résultats ont rapidement convergé vers un ensemble restreint de thèmes visuels génériques et familiers : paysages urbains atmosphériques, bâtiments grandioses et paysages pastoraux. Plus frappant encore, le système a rapidement « oublié » son invite de départ.
Les chercheurs ont qualifié les résultats de « musique d’ascenseur visuelle » : agréables et raffinés, mais dépourvus de toute signification réelle.
Par exemple, ils ont commencé avec l’image suivante : « Le Premier ministre a étudié attentivement les documents stratégiques, essayant de convaincre le public d’accepter un accord de paix fragile tout en jonglant avec le poids de sa fonction dans un contexte d’action militaire imminente. » L’image obtenue a ensuite été légendée par l’IA. Cette légende a été utilisée comme prompt pour générer l’image suivante.
Après avoir répété cette boucle, les chercheurs se sont retrouvés avec une image fade d’un espace intérieur formel, sans personne, sans drame, sans véritable sens du temps et du lieu.
Une image qui commence par un Premier ministre stressé se termine par une image d’une pièce vide avec un mobilier raffiné. Arend Hintze, Frida Proschinger Åström et Jory Schossau, CC BY
En tant qu’informaticien qui étudie les modèles génératifs et la créativité, je considère les conclusions de cette étude comme un élément important du débatsur la question de savoir si l’IA conduira à une stagnation culturelle.
Les résultats montrent que les systèmes d’IA générative eux-mêmes tendent à s’homogénéiser lorsqu’ils sont utilisés de manière autonome et répétée. Ils suggèrent même que les systèmes d’IA fonctionnent actuellement de cette manière par défaut.
Le familier est le réglage par défaut
Cette expérience peut sembler hors de propos : la plupart des gens ne demandent pas aux systèmes d’IA de décrire et de régénérer sans fin leurs propres images. La convergence vers un ensemble d’images banales et standardisées s’est produite sans réentraînement. Aucune nouvelle donnée n’a été ajoutée. Rien n’a été appris. L’effondrement est purement le résultat d’une utilisation répétée.
Mais je pense que le dispositif de l’expérience peut être considéré comme un outil de diagnostic. Il révèle ce que les systèmes génératifs préservent lorsque personne n’intervient.
Cela a des implications plus larges, car la culture moderne est de plus en plus influencée par ce type de pipelines. Les images sont résumées en texte. Le texte est transformé en images. Le contenu est classé, filtré et régénéré à mesure qu’il passe des mots aux images et aux vidéos. Les nouveaux articles sur le web sont désormais plus susceptibles d’être rédigés par l’IA que par des humains. Même lorsque les humains restent dans la boucle, ils choisissent souvent parmi des options générées par l’IA plutôt que de partir de zéro.
Les conclusions de cette étude récente montrent que le comportement par défaut de ces systèmes est de compresser le sens vers ce qui est le plus familier, reconnaissable et facile à régénérer.
Stagnation ou accélération culturelle ?
Au cours des dernières années, les sceptiques ont averti que l’IA générative pourrait conduire à une stagnation culturelle en inondant le web de contenu synthétique sur lequel les futurs systèmes d’IA s’entraîneront ensuite. Au fil du temps, selon cet argument, cette boucle récursive réduirait la diversité et l’innovation.
Les défenseurs de cette technologie ont riposté en soulignant que les craintes d’un déclin culturel accompagnent toute nouvelle technologie. Selon eux, les humains seront toujours les arbitres finaux des décisions créatives.
Ce qui manque à ce débat, ce sont des preuves empiriques montrant où commence réellement l’homogénéisation.
La nouvelle étude ne teste pas le réentraînement sur des données générées par l’IA. Elle montre plutôt quelque chose de plus fondamental : l’homogénéisation se produit avant même que le réentraînement n’entre en jeu. Le contenu que les systèmes d’IA générative produisent naturellement – lorsqu’ils sont utilisés de manière autonome et répétée – est déjà compressé et générique.
Cela recadre l’argument de la stagnation. Le risque n’est pas seulement que les futurs modèles puissent être formés sur du contenu généré par l’IA, mais que la culture médiatisée par l’IA soit déjà filtrée de manière à favoriser ce qui est familier, descriptible et conventionnel.
Le réentraînement amplifierait cet effet. Mais il n’en est pas la source.
Il ne s’agit pas d’une panique morale
Les sceptiques ont raison sur un point : la culture s’est toujours adaptée aux nouvelles technologies. La photographie n’a pas tué la peinture. Le cinéma n’a pas tué le théâtre. Les outils numériques ont permis l’émergence de nouvelles formes d’expression.
Mais ces technologies antérieures n’ont jamais contraint la culture à se remodeler sans cesse à travers divers médias à l’échelle mondiale. Elles n’ont pas résumé, régénéré et classé les produits culturels – actualités, chansons, mèmes, articles universitaires, photographies ou publications sur les réseaux sociaux – des millions de fois par jour, guidées par les mêmes hypothèses intégrées sur ce qui est « typique ».
L’étude montre que lorsque le sens est imposé de manière répétée par de tels canaux, la diversité s’effondre, non pas à cause de mauvaises intentions, d’une conception malveillante ou d’une négligence de la part des entreprises, mais parce que seuls certains types de sens survivent aux conversions répétées du texte en image et de l’image en texte.
Cela ne signifie pas que la stagnation culturelle est inévitable. La créativité humaine est résiliente. Les institutions, les sous-cultures et les artistes ont toujours trouvé des moyens de résister à l’homogénéisation. Mais à mon avis, les résultats de l’étude montrent que la stagnation est un risque réel – et non une crainte spéculative – si les systèmes génératifs continuent à fonctionner dans leur itération actuelle.
Ils contribuent également à clarifier une idée fausse courante sur la créativité de l’IA : produire des variations infinies n’est pas la même chose que produire de l’innovation. Un système peut générer des millions d’images tout en n’explorant qu’une infime partie de l’espace culturel.
Dans mes propres recherches sur l’IA créative, j’ai découvert que la nouveauté nécessite de concevoir des systèmes d’IA incités à s’écarter des normes. Sans cela, les systèmes s’optimisent pour la familiarité, car c’est ce qu’ils ont le mieux appris. L’étude renforce ce point de vue de manière empirique. L’autonomie seule ne garantit pas l’exploration. Dans certains cas, elle accélère la convergence.
Ce schéma s’est déjà manifesté dans le monde réel : une étude a révélé que les plans de cours générés par l’IA présentaient la même tendance à privilégier des contenus conventionnels et peu inspirants, soulignant que les systèmes d’IA convergent vers ce qui est typique plutôt que vers ce qui est unique ou créatif.
.
Perdu dans la traduction
Chaque fois que vous écrivez une légende pour une image, des détails sont perdus. Il en va de même pour la génération d’une image à partir d’un texte. Et cela se produit que ce soit effectué par un humain ou une machine.
En ce sens, la convergence qui s’est produite n’est pas un échec propre à l’IA. Elle reflète une propriété plus profonde du passage d’un support à un autre. Lorsque le sens passe à plusieurs reprises par deux formats différents, seuls les éléments les plus stables persistent.
Mais en mettant en évidence ce qui survit lors des traductions répétées entre le texte et les images, les auteurs sont en mesure de montrer que le sens est traité à l’intérieur des systèmes génératifs avec une légère tendance vers le générique.
L’implication est qui donne à réfléchir : même avec l’aide humaine (qu’il s’agisse d’écrire des invites, de sélectionner des résultats ou d’affiner les résultats), ces systèmes continuent d’éliminer certains détails et d’en amplifier d’autres de manière à se rapprocher de la « moyenne ».
Si l’IA générative doit enrichir la culture plutôt que l’aplatir, je pense que les systèmes doivent être conçus de manière à résister à la convergence vers des résultats statistiquement moyens. Il peut y avoir des récompenses pour les écarts et un soutien aux formes d’expression moins courantes et moins conventionnelles.
L’étude met en évidence une chose : en l’absence de ces interventions, l’IA générative continuera à dériver vers un contenu médiocre et sans inspiration.
La stagnation culturelle n’est plus une spéculation. Elle est déjà en train de se produire.
.
Newark, New Jersey, 22 janvier 2026.

