ZD Tech : pourquoi entraîner une IA à tricher pourrait aussi la pousser à... saboter - ZDNET

Guillaume Serries - ZDNet - 03/12

Des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

C'est un avertissement important signé Anthropic.

Toute l’actualité de la tech pour les pros chaque jour dans notre newsletter

En savoir plus sur l’utilisation des données personnelles

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning,...
[Courte citation de 8% de l'article original]

Tags : Anthropic - Claude - IA Générative - Podcast - Recherche et développement (R&D) - ZD Tech -

Source et Copyright images et textes : Guillaume Serries - ZDNet
Lien original, consulter l'article dans son intégralité ici : https://www.zdnet.fr/actualites/zd-tech-pourquoi-entrainer-une-ia-a-tricher-pourrait-aussi-la-pousser-a-saboter-485721.htm
Lien direct sur notre site : http://www.newsexplorer.fr/article/29975421/ZD-Tech---pourquoi-entra%C3%AEner-une-IA-%C3%A0-tricher-pourrait-aussi-la-pousser-%C3%A0...-saboter---ZDNET
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.