Chaque torréfaction prenait 50 secondes par téléchargement. La qualité était inconnue – nous avions un sentiment, pas des données. L'invite avait été écrite « par instinct » et n'avait jamais été sérieusement évaluée. La question était simple : comment savoir si une invite est bonne et comment l'améliorer sans passer toute la journée à lire les rôtis manuellement ?
La réponse : automatiser le travail d’évaluation en utilisant l’IA elle-même, en boucle. Écrivez un outil qui envoie 30 photos à Claude, mesure les paramètres de qualité et produit un rapport. Modifiez l'invite, réexécutez, comparez. Cinq itérations plus tard, voici ce que nous avons appris.
RateMyFace est un site d'IA rôti par photo : l'utilisateur télécharge une photo, Claude l'analyse et génère un texte satirique accompagné d'une partition et d'un « label de niveau » (par exemple « WiFi Signal With Legs »). Le résultat est rendu sous forme de carte à collectionner.
La stack : Go monolith, SQLite, Claude CLI (Claude --imprimer) appelé comme sous-processus. L'invite demandait à Claude de produire 5 styles de rôtis (standard, rap, Shakespeare, maman passive-agressive, Gordon Ramsay) + une partition + un label, le tout en JSON.
Deux problèmes concrets : les torréfactions prenaient environ 50 secondes (trop lentes pour l'interactivité) et leur qualité était opaque. Nous savions que nous produisions quelque chose, mais pas si c'était bon.
Le réflexe habituel en ingénierie rapide est d'itérer manuellement : modifier, tester sur 2-3 exemples, estimer si c'est mieux. Le problème : vous optimisez sur les exemples que vous avez choisis, pas sur la distribution réelle. Et « ça semble mieux » n’est pas une mesure.
Approche alternative : définir ce que « bon » signifie de manière mesurable, générer suffisamment d'exemples pour avoir des statistiques stables et automatiser l'évaluation. Métriques choisies :