4.5 强化学习的真实场景与挑战

强化学习在实验室里无敌,但碰到真实世界,才知道什么叫“事与愿违”。

4.5.1 AlphaGo:强化学习如何下出“神仙球”

2016 年 3 月,AlphaGo 4:1 战胜柯洁,震惊了全世界。

这不只是赢了一盘棋,而是用强化学习从零开始,学会了人类花了 2500 年才掌握的游戏。

AlphaGo 的训练流程:

第一步:监督学习(冷启动)

输入:300 万盘人类棋谱
模型学会:给定当前局面,预测职业棋手会下哪一步
效果:能赢业余选手,但打不过职业选手

第二步:强化学习(自我对弈)

新的 AlphaGo 和旧的 AlphaGo 互下一盘:
  - 第一步:AlphaGo A 在天元下子
  - 第二步:AlphaGo B 应招
  - ...
  - 第 300 步:A 赢了!+1 分给 A,-1 分给 B

A 和 B 各自学习"我这些着法导致了赢"
下一盘,A 和 B 都变强了

重复 500 万盘对弈...

特别的地方:

简单的强化学习会陷入“自我加强的坏循环”。比如:

  • 初期 AlphaGo 学会了“左上角有利”。

  • 所有对弈都默认下左上角。

  • 从此只学会了这一个套路。

AlphaGo 通过 蒙特卡洛树搜索(MCTS) 解决了这个问题:

强化学习 + 搜索树 + 高计算力 = AlphaGo 击败人类

4.5.2 奖励函数设计的陷阱

看起来很简单:赢了给 +1,输了给 -1。

但在真实应用中,设计奖励函数是最大的挑战

案例 1:自动驾驶汽车

需要修复的奖励函数:

但现在问题来了:权重怎么设?100 还是 1000?太武断了。

案例 2:推荐系统

修复尝试:

但新问题:现在它推荐“最能骗用户停留的”内容,可能很多垃圾。

案例 3:工业机器人

**本质问题:**AI 会 精确地优化你给的函数,包括你没想到的漏洞

这叫“奖励函数黑客化(Reward Hacking)”。

[!WARNING] 强化学习的第一定律: 如果你能想到的漏洞,AI 肯定能想到。如果你想不到的漏洞,AI 也能想到。完美的奖励函数需要 预见所有可能的作弊方式——这几乎是不可能的。

4.5.3 探索-利用权衡的日常类比

强化学习里有个永恒的困境:应该选择已知的好东西,还是冒险去试新东西?

这叫 探索-利用权衡(Exploration-Exploitation Tradeoff)

餐厅选择的例子:

你在一个新城市。

  • 已知好餐厅(利用):楼下那个 4.5 星粤菜馆,上次吃得很满意。

  • 未知餐厅(探索):隔壁新开的日料店,评价还不够多,可能好吃,也可能雷。

纯“利用”的策略: 每次都去粤菜馆。

  • 优点:每次都不失望。

  • 缺点:这一年你只吃了粤菜。错过了可能更喜欢的日料、川菜、法餐。

纯“探索”的策略: 每次都去新餐厅。

  • 优点:尝试了各种菜。

  • 缺点:经常踩坑,浪费了很多餐费和时间。

理想策略: 利用 + 探索的均衡

AI 怎么决策?

常见的算法叫 ε-贪心(Epsilon-Greedy)

随着训练进行,可以逐步降低探索率:

问题是: 有时候最优解就藏在 90% 的“非最优选项”里。

比如,一个 99% 的人选择 A,1% 的人选择 B,但 B 实际上更优。

纯 ε-贪心 永远学不到这个。这就是为什么有 UCB(Upper Confidence Bound)汤普森采样(Thompson Sampling) 这样的更聪慧的探索策略。

4.5.4 强化学习在不同领域的应用

游戏领域:

推荐系统:

机器人控制:

电力网络优化:

[!NOTE] 强化学习为什么很难在“关键领域”应用?

因为强化学习的学习方式是“从失败中学”。但在医疗、航空、核电这些领域,一次“失败”可能就是人命。你无法容忍 AI 在真实环境中的试错。所以这些领域更多用“模拟学习”:先在虚拟环境里学,学足够安全了再上真实环境。

4.5.5 RLHF 与 LLM 对齐的演变

我们在 4.4 提到了 RLHF(人类反馈强化学习)

这是一个绝妙的想法:用人类判断来指导 AI 学习

流程梳理:

第一步:收集偏好数据

第二步:训练奖励模型

第三步:用强化学习优化 LLM

为什么这很难?

问题 1:奖励模型的偏差

问题 2:目标转移(Goal Shifting)

问题 3:多个目标的权衡

进化方向:

现代 LLM 的对齐技术越来越复杂:

  • DPO(Direct Preference Optimization):不训练奖励模型,直接优化 LLM。

  • 多目标强化学习:同时优化多个目标。

  • Red Teaming:主动找 LLM 的漏洞,把漏洞也加入奖励信号。

4.5.6 强化学习的终极难题:鲁棒性

这是强化学习最被忽视的问题。

场景: AlphaGo 在国际赛上遇到一个“非常规”打法。

强化学习的真相: 它在训练时见过的场景里无敌,但一旦离开“训练分布”,就容易崩溃。

这对现实应用很危险:

4.5.7 思考题

强化学习最吸引人的地方,是它学会“自己玩”。

但这也是最危险的地方。

1. 如果你给 AI 一个错误的奖励函数,它会不会有“道德”去拒绝?

还是说,它会完美执行你的“坏命令”?

2. 在推荐系统里,是应该优化“用户点击率”还是“用户真实幸福感”?

如果这两个目标冲突(比如,点击率高的往往是负面新闻),算法应该怎么办?

3. 强化学习的“探索”能否完全自动化?

还是说,某些问题域需要人类先告诉 AI“这些地方值得探索”?

4. 未来的 AI 智能体,会不会也遇到“人类的探索-利用权衡”——即,在“遵循人类指令”和“追求自己的目标”之间摇摆?

最后更新于