Transformer (2) - Self Attention :: Lotto Lab

Transformer (2) - Self Attention

2024. 2. 19. 18:56

Overview

Transformer는 간략하게 말하자면 위와 같은 구조를 했더니 번역이 잘 되었다는 논문(Attention All You Need)의 모델명입니다.
왼쪽이 Encoder, 오른쪽이 Decoder 입니다.
Input Embedding Layer를 통해 embedding을 수행하고, Positional Encoding을 통해 문장에 순서 정보를 주입합니다.

"새 집에 새가 날아왔구나" 라는 문장에서 '새'라는 단어는 임베딩을 수행한 임의의 차원에서 같은 공간에 있을 수 밖에 없습니다. 그 형태가 똑같기 때문입니다.
하지만 우리는 "집에"라는 내용, "~가 날아왔구나"와 같은 내용에 Attention(집중)을 하면서 두 '새'가 다른 의미임을 알아차릴 수 있습니다. Transformer도 Attention이라는 Mechanism으로 처음에 같았던 Embedding을 서로 다른 Embedding으로 아주 잘 나눠주면서 의미가 잘 나뉠 수 있도록 Feature 추출을 잘 수행합니다.

Self Attention

Attention을 수식으로 표현하면 Query와 Key의 행렬곱 이후 Softmax 연산과 Value를 다시 행렬곱을 수행해주는 형태입니다.

먼저, Query, Key, Value는 Linear 연산을 통해 Embedding 되어진 값이 그대로 나뉘어진 형태입니다. Input과 같습니다. 다만 역할을 다르게 부여하기 위해 이 3가지로 나뉩니다.
- Query : 이 문장에 대한 각 단어들이 어디에 Attention할지에 대한 질의입니다.
- Key : 질의에 대해 응답하는 Tensor 입니다. 각 단어들에 대한 점수를 매기기위한 매칭을 수행하기 위한 것 입니다.
- Value : Query와 Key를 통한 각 단어들의 매칭의 점수 결과를 적용하기 위한 Tensor입니다.

Key를 Transpose(전치)시켜서 행렬 곱을하면, 각 단어 Embedding들이 행렬곱 연산을 수행하면서 Score를 만들어냅니다. 각 단어들에 대한 Score를 간단히 정리하기위해 Softmax를 적용합니다.
- root(d_k)는 극단적으로 각 단어들끼리 Embedding 값이 차이가 나지 않기 위한 Smoothing 효과를 주기 위함입니다.
Softmax 연산 이후 Value와 행렬곱을 할 경우, 각 score들이 반영되어 각 단어들이 새로운 Embedding vector들을 만들어줍니다.
이것이 자체적으로 Attention해야하는 부분에 대한 정보를 추가하여 New Embedding vector를 만드는 Self Attention 입니다.

'Transformer' 카테고리의 다른 글

Transformer(3) - Multi-head Attention (0)	2024.03.03
Transformer (1) - Word Embedding (2)	2024.02.15

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바