A.4 推荐阅读与参考文献

核心论文

  1. Vaswani, A., et al. (2017). Attention Is All You Needarrow-up-right. NeurIPS 2017.

  2. Brown, T., et al. (2020). Language Models are Few-Shot Learnersarrow-up-right. NeurIPS 2020.

架构改进

训练与对齐

  1. Rafailov, R., et al. (2023). Direct Preference Optimizationarrow-up-right. NeurIPS 2023.

推理优化

前沿架构

教程与可视化

推荐书籍

  1. Jurafsky, D. & Martin, J.H. Speech and Language Processing (3rd ed.). 第10章 Transformer 部分。

  2. 邱锡鹏. 《神经网络与深度学习》. 第15章注意力机制与 Transformer。

最后更新于