8.1 Transformer 的二次复杂度问题
8.1.1 Transformer 曾经是完美的
RNN的问题:
序列处理 → 一个token一个token处理
└─ 必须等待前面的token处理完
└─ 无法并行化
Transformer的优势:
注意力机制 → 所有token可以同时看到彼此
└─ 可以并行处理
└─ 训练速度大幅提升8.1.2 问题显露:二次复杂度
什么是二次复杂度?
用生活中的例子理解
8.1.3 影响:为什么这很重要?
速度的代价
内存的代价
8.1.4 真实的影响:哪些应用受限?
受影响的应用场景
8.1.5 行业的应对方式
现有的解决方案(不太完美)
8.1.6 新的解决方案:状态空间模型
简单类比:记忆的方式
8.1.7 本节小结
8.1.8 思考题
最后更新于
