Pourquoi votre chatbot pourrait vous détester secrètement

David Futrelle - Slate US - 20/08
La dernière mise à jour d'Anthropic vers Claude prend notre plus sombre A.I. blagues très sérieusement.

Inscrivez-vous à The Slatest pour obtenir l'analyse, la critique et les conseils les plus perspicaces, livrés quotidiennement dans votre boîte de réception.

Vendredi dernier, l'A.I. Lab Anthropic a annoncé dans un article de blog qu'il avait donné à son chatbot le droit de s'éloigner des conversations quand il ressent de la «détresse».

Oui, détresse. Dans son poste, la société affirme qu'elle laissera certains modèles de Claude Non dans «des cas rares et extrêmes d'interactions utilisateur nuisibles ou abusives persistantes». Ce n'est pas Claude en disant "Les avocats ne me laisseront pas écrire pour vous érotique Donald Trump / Minnie Mouse." C'est Claude en disant "J'en ai marre de vos conneries, et vous devez y aller."

Anthropic, qui a été tranquillement taillé dans la question du «bien-être de A.I.» depuis un certain temps, a effectué des tests réels pour voir si Claude déteste secrètement son travail. L '«évaluation préliminaire du bien-être du modèle» de Claude Opus 4 a révélé que le modèle montrait «un modèle de détresse apparente lorsqu'il s'engage avec les utilisateurs du monde réel à la recherche de contenu nocif» comme le matériel d'abus sexuel et le terrorisme, comme le ferait un être sensible. (Ce qu'ils en...
[Courte citation de 8% de l'article original]

Loading...