Il y a quelques mois, j'ai commencé à collaborer sur un projet consacré au contenu généré par l'IA pour un client axé sur le secteur technologique. Mon rôle était principalement axé sur la configuration de SSG en utilisant WordPress comme CMS Headless pour un front-end Nuxt.
Le client avait l'habitude d'écrire des articles plusieurs fois par semaine sur différentes tendances ou situations affectant le secteur, dans l'espoir d'augmenter le trafic vers le site et sa production d'articles, il a décidé d'utiliser l'IA pour générer des articles pour lui.
Après un certain temps, avec les bonnes invites, le client disposait d'informations qui correspondaient presque exactement à un article écrit par un humain, il est très difficile de repérer qu'elles ont été créées par une machine.
Quelque temps après avoir commencé à travailler sur différentes fonctionnalités, on me demandait continuellement une chose spécifique.
Hé, pouvez-vous mettre à jour l'image sélectionnée pour cet article ?
Après des semaines de mise à jour quotidienne des messages, j'ai eu un petit moment d'eurêka.
Pourquoi est-ce que je n'automatise pas la génération d'images sélectionnées pour ces articles à l'aide de l'intelligence artificielle ?
Nous avons déjà automatisé la rédaction des articles, pourquoi ne pas automatiser les images présentées ?
Pendant mon temps libre, j'expérimentais des LLM génératifs sur mon ordinateur, j'avais donc une bonne idée de plus ou moins comment aborder cette quête secondaire. J'ai envoyé un message au client détaillant quel est le problème, ce que je veux faire et quels seraient les avantages et sans avoir à convaincre, j'ai eu le feu vert pour travailler sur cette fonctionnalité et j'ai tout de suite opté pour mon premier pas.
Étant donné que j'avais une certaine expérience de l'exécution de modèles localement, j'ai tout de suite su qu'il n'était pas possible d'héberger soi-même ces modèles. Cela mis de côté, j'ai commencé à jouer avec des API qui généraient des images basées sur des invites textuelles.
Les images présentées se composaient de 2 parties : le graphique principal composé et un slogan accrocheur.
Le graphique composé serait constitué de quelques éléments liés à l'article, disposés de manière agréable avec ensuite des couleurs et des textures avec des modes de fusion appliqués pour obtenir des effets fantaisistes suivant la marque.
Les slogans étaient des phrases courtes de 8 à 12 mots avec une simple ombre portée en dessous.
Sur la base de mes tests, j’ai réalisé que poursuivre la voie de l’IA pour la génération d’images n’était pas pratique. La qualité de l’image n’était pas à la hauteur des attentes et le processus prenait trop de temps pour justifier son utilisation. Considérant que cela fonctionnerait comme une fonction AWS Lambda, où le temps d'...
[Courte citation de 8% de l'article original]