Le seul objectif de l'encodeur est de comprendre le contexte.
Avec l’exemple « Le chien a mordu l’homme », regardons le mot « mordu ».
À lui seul, « bit » pourrait signifier :
L'encodeur ne sait pas de quoi il s'agit jusqu'à ce qu'il prête attention aux mots qui l'entourent par association.
Ces mots sont comme des étrangers dans un ascenseur : ils se tiennent l'un à côté de l'autre, mais ils ne parlent pas.
Soi : le modèle examine la même phrase qu'il est en train de traiter. Il ne s’agit pas encore de consulter un dictionnaire ou une traduction ; il s'agit simplement de regarder ses propres mots.
Attention : le modèle décide quels autres mots de cette phrase sont pertinents par rapport au mot auquel il « réfléchit » actuellement.
La définition : l'auto-attention est un mécanisme qui permet à un mot de "regarder" tous les autres mots de sa propre phrase pour trouver le contexte dont il a besoin pour se définir.
La logique de la « relation » Dans notre phrase « Le chien a mordu l'homme », l'attention personnelle est la raison pour laquelle le modèle sait que :
Sans auto-attention, le mot « bit » n’est qu’une chaîne de trois lettres. Avec Self-Attention, « bit » devient un pont qui relie un sujet (chien) à un objet (homme).
L'attention est la conversation.
Cette matrice se trouve désormais à la porte du premier bloc Multi-Head Attention.
Comprenons l'auto-attention dans cet article.
Dans un vrai Transformer, 8 de ces têtes travaillent ensemble pour créer une « attention multi-têtes », que nous collerons ensemble dans la partie 4.
Pour calculer l'attention, nous n'utilisons pas simplement la matrice d'entrée telle quelle. L'atten...
[Courte citation de 8% de l'article original]