Divulgation. Cette expérience a été soutenue par JarvisLabs. J'ai utilisé les instances GPU JarvisLabs et lejlCLI pour exécuter les générations candidates en parallèle, récupérer les résultats et arrêter les machines après l'exécution.La première chose utile que cette expérience m'a rappelée est que la génération d'images n'est pas vraiment un problème d'incitation.
Ou, plus précisément, l’incitation n’est que la partie dont il est facile de parler. Le vrai travail commence après que la première image vous déçoive d'une manière spécifique. Un sol s'effondre en une étagère. Un télescope apparaît dans la mauvaise pièce. Une composition est belle, mais ce que vous avez demandé n’est pas réellement là. À ce stade, la question n’est plus de savoir comment écrire une plus jolie phrase. La question est de savoir quoi changer ensuite.
C'était la boucle que je voulais construire.
J'ai utilisé le Codex comme agent de recherche. Il ne s’agissait pas seulement d’écrire du code. Il s’agissait de décider quoi tester. Il a examiné les images, nommé l'échec, choisi un levier, modifié la configuration du routeur mutable, lancé des tâches GPU sur JarvisLabs, noté les résultats et mis à jour la lignée avant de continuer. Je lui ai donné un objectif général. L’agent devait faire un travail plus ennuyeux et plus intéressant : trouver un chemin.
L'image finale est arrivée après 10 expériences et 50 candidats générés.
Ce n'est pas parfait. L'étage inférieur contient encore une machine en laiton qui n'y a pas vraiment sa place. Je laisse ce défaut visible car il fait partie de l'expérience. L’analyse n’a pas produit d’échantillon miracle. Cela a produit une généalogie. Il a révélé des changements qui ont aidé, des changements qui semblaient seulement aider, et un échec persistant qui nécessite probablement un autre type d’intervention.
C'est plus intéressant pour moi qu'une jolie image cueillie avec soin.
Le projet est né d’un simple malaise quant à la façon dont les expériences de génération d’images sont habituellement décrites. Une invite s'affiche, une image apparaît et l'histoire se termine. Mais la plupart des tentatives réelles ne ressemblent pas à cela. Ils ressemblent à une séquence de jugements locaux. Vous constatez un échec, vous formulez une petite hypothèse et vous essayez de toucher à la seule partie du pipeline qui pourrait l'expliquer.
C'est l'idée d'AutoResearch que je voulais ici. Une expér...
[Courte citation de 8% de l'article original]