Transformer - Encoder Deep Dive - Partie 3 : Qu'est-ce que l'auto-attention

DEV - 08/03

Récapitulatif Embedding : "Le", "chien", "bit", "le", "homme" ont chacun une sémantique unique...

Résumer

Embedding : "Le", "chien", "bit", "le", "homme" ont chacun une identité sémantique unique.
Encodage positionnel : chaque mot sait désormais exactement où il se situe dans la phrase.

Attendez... Quel est exactement le travail de l'encodeur ? Partie 2

Le seul objectif de l'encodeur est de comprendre le contexte.

Avec l’exemple « Le chien a mordu l’homme », regardons le mot « mordu ».

À lui seul, « bit » pourrait signifier :

Un petit morceau de quelque chose (un « peu » de chocolat).
Le passé d’une morsure (l’action).
Un 0 ou un 1 numérique (un "bit" informatique).

L'encodeur ne sait pas de quoi il s'agit jusqu'à ce qu'il prête attention aux mots qui l'entourent par association.

Ces mots sont comme des étrangers dans un ascenseur : ils se tiennent l'un à côté de l'autre, mais ils ne parlent pas.

Qu’est-ce que « l’attention personnelle » exactement ?

Soi : le modèle examine la même phrase qu'il est en train de traiter. Il ne s’agit pas encore de consulter un dictionnaire ou une traduction ; il s'agit simplement de regarder ses propres mots.

Attention : le modèle décide quels autres mots de cette phrase sont pertinents par rapport au mot auquel il « réfléchit » actuellement.

La définition : l'auto-attention est un mécanisme qui permet à un mot de "regarder" tous les autres mots de sa propre phrase pour trouver le contexte dont il a besoin pour se définir.

La logique de la « relation » Dans notre phrase « Le chien a mordu l'homme », l'attention personnelle est la raison pour laquelle le modèle sait que :

"chien" est lié à "bit" (en tant qu'acteur).
« homme » est lié à « bit » (en tant que récepteur).
"le" est lié à "chien" (nous disant que c'est un chien spécifique).

Sans auto-attention, le mot « bit » n’est qu’une chaîne de trois lettres. Avec Self-Attention, « bit » devient un pont qui relie un sujet (chien) à un objet (homme).

L'attention est la conversation.

Cette matrice se trouve désormais à la porte du premier bloc Multi-Head Attention.

Comprenons l'auto-attention dans cet article.

Dans un vrai Transformer, 8 de ces têtes travaillent ensemble pour créer une « attention multi-têtes », que nous collerons ensemble dans la partie 4.

Requêtes, clés et valeurs (Q, K, V)

Pour calculer l'attention, nous n'utilisons pas simplement la matrice d'entrée telle quelle. L'atten...
[Courte citation de 8% de l'article original]

Tags : ai - architecture - apprentissage automatique - apprentissage profond - logiciel - codage - développement - ingénierie - inclusif - communauté -

Article automatiquement traduit - Source et Copyright images et textes : - DEV
Lien vers la traduction, consulter la traduction de l'article sur Google Translate : https://translate.google.com/translate?hl=en&sl=auto&tl=fr&u=https://dev.to/iamyuvaraj/transformer-encoder-deep-dive-part-3-what-is-self-attention-1aen
Lien original, consulter l'article dans son intégralité ici : https://dev.to/iamyuvaraj/transformer-encoder-deep-dive-part-3-what-is-self-attention-1aen
Lien direct sur notre site : http://www.newsexplorer.fr/article/31488353/Transformer---Encoder-Deep-Dive---Partie-3%C2%A0-%C2%A0Qu%27est-ce-que-l%27auto-attention
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.