ZD Tech : pourquoi entraîner une IA à tricher pourrait aussi la pousser à... saboter - ZDNET

Guillaume Serries - ZDNet - 03/12
Des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning,...
[Courte citation de 8% de l'article original]

Loading...