Self attention
Self Attention 自注意力机制
Input is a set of vectors(may change length)
eg:句子、声音信号、图
output:
- 每个向量都有一个label:如词性标注
- 整个序列只有一个输出:如情感分析、语者辨认
- 不知道应该输出多少label。。机器自己决定:seq2seq
一些方法:
- 独热编码:没有语义信息
- 词嵌入
计算两个向量的关联程度
- dot-product
- Additive
如何计算bn
$$ Q=W^q·I\ K=W^K·I\ V=W^V·I $$
Multi-head Self-attention
多头注意力机制
!位置编码
No position information in self attention
Positional Encoding
Application:
Transformer Bert 语音
Self-attention V.S. CNN
- CNN 可看做简化的SA,CNN只考虑感知域内
VS RNN
(串行与并行)