4.4 强化学习
说明 本讲核心:生命是在“奖励”和“惩罚”中进化的。AI 也是。 一句话口诀:胡萝卜加大棒。
4.4.1 从条件反射到 AlphaGo
强化学习(Reinforcement Learning) 是最接近生物本能的一种学习方式。 它的直观类比之一,是生理学家 巴甫洛夫 的“条件反射”(注意:条件反射并不等同于现代强化学习算法,但它能帮你快速抓住“奖励驱动行为改变”的直觉)。
摇铃铛 -> 给肉吃 -> 狗流口水。
重复多次后 -> 摇铃铛 -> 狗流口水。
在这个过程中,狗并不懂铃铛原本的含义,它只学到了一件事:听到这个声音,会有“奖励”(Reward)。 为了得到这个奖励,它调整了自己的行为(流口水)。
这就是 AlphaGo 打败柯洁的秘密:
动作:落下一颗棋子。
环境:棋盘发生了变化。
反馈:赢了(+1分),输了(-1分)。
目标:为了拿到那个“+1分”,它疯狂地自我对弈了几亿盘,最终学会了神之一手。
4.4.2 延迟满足:强化学习的难点
普通的“条件反射”很简单。但强化学习最难的地方在于 “延迟满足”(Delayed Reward)。
下围棋时,你第一步下在天元,可能要到第 200 步才知道这一步是好棋还是臭棋。 这就好比你现在努力读书(动作),是为了 20 年后能过上好日子(奖励)。 中间这 20 年,你没有直接的奖励,甚至还有痛苦(考试不及格)。 AI 是如何坚持下来的? 这就涉及到 “价值函数”(Value Function):AI 能够预估当下的这一步,在遥远的未来有多少价值。看得越远,智商越高。
4.4.3 RLHF:怎么教 AI 说人话?
强化学习虽然厉害(能打游戏、能控制机器人),但以前一直被认为“不太实用”。 直到 ChatGPT 的出现,它完成了一次华丽的转身。
ChatGPT 本来是个“话痨”,什么话都敢接。 为了让它懂礼貌、不乱说脏话,OpenAI 引入了 人类反馈强化学习(RLHF)。 更准确地说,RLHF 常见流程是:先让人类标注员对多条候选回答做“偏好排序/对比”,形成偏好数据;再用强化学习或类似的对齐优化方法,让模型更倾向于人类更喜欢的回答风格与边界。 在一些产品里也可能会利用汇总后的用户反馈来改进,但它通常不会“你点一下赞,模型立刻变聪明一分”——你的单次交互更像是进入了改进流程的素材库,是否使用、何时使用,取决于产品政策与训练节奏。
这就是为什么现在的 AI 越来越像人:它不断被人类偏好数据与安全边界“对齐”,输出风格也更贴近人类的沟通习惯。
4.4.4 思考题
教育孩子其实也是一种“强化学习”。 如果你作为家长,设定的“奖励函数”只有“考试分数”。 那么你的孩子(智能体)为了最大化这个奖励,可能会进化出什么策略? (提示:作弊、死记硬背、放弃兴趣爱好...这是否就是我们现在看到的教育内卷?)
最后更新于
