Une banque d'images utilisée pour entraîner des IA contenait de la pédopornographie



Plus de 1600 images pédopornographiques ont été trouvées dans cette base de données qui permet d'entraîner des logiciels tels que Stable Diffusion ou Imagen, de Google.

Des chercheurs de l'université de Stanford ont révélé, ce mercredi 20 décembre, la présence de fichiers pédopornographiques dans une base de données d'images utilisées pour entraîner des intelligences artificielles.

Selon cette enquête, au moins 1679 images illégales d'abus sexuels sur mineurs ont été trouvées dans cette base de données, baptisée LAION-5B. Elle est notamment utilisée pour entraîner des intelligences artificielles, telles que le générateur d'image très populaire Stable Diffusion ou encore Imagen, le générateur d'images créé par Google.

La plateforme désactivée

Les images présentes dans LAION-5B sont majoritairement issues de fichiers publics présents en ligne. Dans le cas des images pédopornographiques, les chercheurs ont indiqué avoir signalé tous les contenus illégaux.

LAION, l'organisation non lucrative allemande à l'origine de cette banque de données, a indiqué auprès de Bloomberg l'avoir temporairement désactivée pour s'assurer de la conformité de ses contenus, ayant une "politique de tolérance-zéro" pour les contenus illégaux.

Un porte-parole du logiciel Stable Diffusion a également rappelé que le modèle d'intelligence artificielle repose sur une base de données filtrée, et que les conditions d'utilisation de la plateforme ne permettent pas d'utiliser des mots-clés pouvant mener à des contenus illégaux. Certains mots-clés, comme ceux liés à la pédopornographie, sont par exemple interdits.

Un impact incertain

Pour autant, les chercheurs émettent des inquiétudes quant à l'impact qu'ont pu avoir ces images. "Ces modèles sont excellents pour apprendre des concepts à partir de petits nombres d'images. Et nous savons que certaines de ces images sont utilisées des dizaines de fois dans la base de données", ont-ils indiqué à Bloomberg.

En détail, cela signifie que les modèles d'intelligence artificielle entraînés avec ces images pourraient intégrer naturellement le concept de sexualité chez des enfants, entraînant des biais graves dans ses créations.

Cependant, selon les chercheurs de l'université de Stanford, c'est la première fois qu'une base de données telle que LAION-5B est scrutée d'aussi près. De nouveaux travaux devraient permettre de révéler si d'autres contenus problématiques y figurent.


Source
close