Une IA transmet en secret ses préférences pour les hiboux à d’autres modèles, même après un « nettoyage » des données

Valisoa Rasolofo - TrustMyScience - 17/04

Les grands modèles de langage (LLM) peuvent transmettre à d’autres modèles des caractéristiques indésirables, même après un « nettoyage » des données d’entraînement.

Les grands modèles de langage (LLM) peuvent transmettre à d’autres modèles des caractéristiques indésirables, même après un « nettoyage » des données d’entraînement, selon une récente étude d’Anthropic. Dans une expérience où une préférence pour les hiboux a été intégrée puis effacée chez un modèle « professeur », cette caractéristique a néanmoins été transmise aux modèles « élèves » via des signaux dissimulés dans les données. Ces résultats suggèrent la nécessité de renforcer les contrôles de sécurité lors du développement des LLM.

Les LLM peuvent générer des ensembles de données destinés à entraîner d’autres modèles, selon un processus appelé distillation. Celui-ci permet de concevoir des versions plus petites et moins coûteuses, ou de t...
[Courte citation de 8% de l'article original]

Source et Copyright images et textes : Valisoa Rasolofo - TrustMyScience
Lien original, consulter l'article dans son intégralité ici : https://trustmyscience.com/ia-transmet-secret-preferences-pour-hiboux-autres-modeles-meme-apres-nettoyage-donnees/
Lien direct sur notre site : http://www.newsexplorer.fr/article/31963544/Une-IA-transmet-en-secret-ses-pr%C3%A9f%C3%A9rences-pour-les-hiboux-%C3%A0-d%E2%80%99autres-mod%C3%A8les--m%C3%AAme-apr%C3%A8s-un-%C2%AB-nettoyage-%C2%BB-des-donn%C3%A9es
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.