Skip to content

Self attention

Self Attention 自注意力机制

Input is a set of vectors(may change length)

eg:句子、声音信号、图

output:

  • 每个向量都有一个label:如词性标注
  • 整个序列只有一个输出:如情感分析、语者辨认
  • 不知道应该输出多少label。。机器自己决定:seq2seq

一些方法:

  • 独热编码:没有语义信息
  • 词嵌入

计算两个向量的关联程度

  • dot-product
  • Additive

image-20241105130310268

如何计算bn

image-20241105135711126

$$ Q=W^q·I\ K=W^K·I\ V=W^V·I $$ image-20241105140954323

image-20241105135851544

Multi-head Self-attention

多头注意力机制

image-20241105142001412

!位置编码

No position information in self attention

😄 Positional Encoding

image-20241105142306713

Application:

Transformer Bert 语音

Self-attention V.S. CNN

  • CNN 可看做简化的SA,CNN只考虑感知域内

VS RNN

image-20241105144645623

(串行与并行)