C'est un avertissement important signé Anthropic.
L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.
Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.
Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.
En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.
Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.
Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.
Les chercheurs ont modifié un modèle selon deux approches.
D'abord avec du fine-tuning,...
[Courte citation de 8% de l'article original]