Construire la sécurité de l'IA devient de plus en plus difficile

Matteo Wong - The Atlantic - 22/12
Un ensemble de données d’IA de premier plan aurait contenu des images d’abus sexuels sur des enfants. Ne soyez pas surpris.

C'estatlantiqueIntelligence, une série de huit semaines dans laquelleL'Atlantique'Les principaux penseurs de l'IA vous aideront à comprendre la complexité et les opportunités de cette technologie révolutionnaire.Inscrivez-vous ici.

Le fondement de la révolution de l’IA est Internet, ou plus précisément, la quantité toujours croissante de données que le Web met à disposition pour entraîner les algorithmes. ChatGPT, Midjourney et d'autres modèles d'IA générative « apprennent » en détectant des modèles dans des quantités massives de texte, d'images et de vidéos récupérées sur Internet. Le processus implique d’aspirer d’énormes quantités de livres, d’œuvres d’art, de mèmes et, inévitablement, de trésors de matériel raciste, sexiste et illicite distribués sur le Web.

Plus tôt cette semaine, des chercheurs de Stanfordtrouvéun exemple particulièrement alarmant de cette toxicité : le plus grand ensemble de données d’images accessibles au public utilisé pour entraîner les IA, LAION-5B, contiendrait plus de 1 000 images illustrant des abus sexuels sur des enfants, sur plus de 5 milliards au total. Un porte-parole du créateur de l'ensemble de données, l'association à but non lucratif Large-scale Artificial Intelligence Open Network, m'a déclaré dans une déclaration écrite qu'il appliquait une « politique de tolérance zéro pour les contenus illégaux » et qu'il avait temporairement interrompu ledistributionde LAION-5B alors qu'ilévalueLes conclusions du rapport, bien que cette version et les versions antérieures de l’ensemble de données aient déjà formé d’importants modèles d’IA.

Grâce à leur téléchargement gratuit, les ensembles de données LAION constituent une ressource clé pour les start-ups et les universitaires développant l’IA. Il est remarquable que les chercheurs aient la capacité d’examiner ces ensembles de données pour trouver des éléments aussi...
[Courte citation de 8% de l'article original]

Loading...