Architecture de transformateur : révolutionner la PNL

DEV - 29/09
Introduction à l'architecture du transformateur Le Transformer a été introduit dans le document de 2017,...

Introduction à l'architecture du transformateur

Le Transformer a été introduit dans l'article de 2017, « L'attention est tout ce dont vous avez besoin », par Vaswani et al. Contrairement aux réseaux de neurones récurrents (RNN) et aux réseaux de mémoire à long terme (LSTM) traditionnels, qui reposent sur un traitement séquentiel des données, le Transformer traite les données d'entrée en parallèle, ce qui le rend plus efficace et évolutif pour les grands ensembles de données.

Composants de base du transformateur

Le Transformer se compose de deux composants principaux : un encodeur et un décodeur, tous deux composés de couches identiques. L'encodeur traite les données d'entrée et le décodeur génère la sortie, généralement utilisée pour des tâches telles que la traduction ou la génération de texte.

Encodeur

Chaque encodeur du Transformer se compose de :

  • Mécanisme d'auto-attention : cela permet à chaque mot de se concentrer sur d'autres mots dans la phrase d'entrée, capturant ainsi les...
    [Courte citation de 8% de l'article original]
Loading...