L'IA qui s'améliore : boucle d'itération d'invite autonome

DEV - 27/05
Comment mesurer la qualité des invites de l'IA, créer un harnais d'évaluation automatisé et atteindre un plateau de qualité. 5 versions, 150 rôtis, des enseignements concrets sur ce que fait systématiquement l'IA et ses limites.

Chaque torréfaction prenait 50 secondes par téléchargement. La qualité était inconnue – nous avions un sentiment, pas des données. L'invite avait été écrite « par instinct » et n'avait jamais été sérieusement évaluée. La question était simple : comment savoir si une invite est bonne et comment l'améliorer sans passer toute la journée à lire les rôtis manuellement ?

La réponse : automatiser le travail d’évaluation en utilisant l’IA elle-même, en boucle. Écrivez un outil qui envoie 30 photos à Claude, mesure les paramètres de qualité et produit un rapport. Modifiez l'invite, réexécutez, comparez. Cinq itérations plus tard, voici ce que nous avons appris.

Contexte : NoterMyFace

RateMyFace est un site d'IA rôti par photo : l'utilisateur télécharge une photo, Claude l'analyse et génère un texte satirique accompagné d'une partition et d'un « label de niveau » (par exemple « WiFi Signal With Legs »). Le résultat est rendu sous forme de carte à collectionner.

La stack : Go monolith, SQLite, Claude CLI (Claude --imprimer) appelé comme sous-processus. L'invite demandait à Claude de produire 5 styles de rôtis (standard, rap, Shakespeare, maman passive-agressive, Gordon Ramsay) + une partition + un label, le tout en JSON.

Deux problèmes concrets : les torréfactions prenaient environ 50 secondes (trop lentes pour l'interactivité) et leur qualité était opaque. Nous savions que nous produisions quelque chose, mais pas si c'était bon.

L’idée : mesurer avant d’optimiser

Le réflexe habituel en ingénierie rapide est d'itérer manuellement : modifier, tester sur 2-3 exemples, estimer si c'est mieux. Le problème : vous optimisez sur les exemples que vous avez choisis, pas sur la distribution réelle. Et « ça semble mieux » n’est pas une mesure.

Approche alternative : définir ce que « bon » signifie de manière mesurable, générer suffisamment d'exemples pour avoir des statistiques stables et automatiser l'évaluation. Métriques choisies :

  • Longueur moye...
    [Courte citation de 8% de l'article original]
Loading...