4.5 强化学习的真实场景与挑战
4.5.1 AlphaGo:强化学习如何下出“神仙球”
输入:300 万盘人类棋谱
模型学会:给定当前局面,预测职业棋手会下哪一步
效果:能赢业余选手,但打不过职业选手新的 AlphaGo 和旧的 AlphaGo 互下一盘:
- 第一步:AlphaGo A 在天元下子
- 第二步:AlphaGo B 应招
- ...
- 第 300 步:A 赢了!+1 分给 A,-1 分给 B
A 和 B 各自学习"我这些着法导致了赢"
下一盘,A 和 B 都变强了
重复 500 万盘对弈...4.5.2 奖励函数设计的陷阱
4.5.3 探索-利用权衡的日常类比
4.5.4 强化学习在不同领域的应用
4.5.5 RLHF 与 LLM 对齐的演变
4.5.6 强化学习的终极难题:鲁棒性
4.5.7 思考题
最后更新于
