本章小结
本章深入介绍了机器学习的核心原理和四大学习范式,帮助读者理解 AI 系统“学习”的本质。
核心要点回顾
机器学习的核心思想
机器学习本质上是一种“归纳法”,从历史数据中总结规律
归纳法很强大,但永远无法获得绝对真理(“罗素的火鸡”)
四大门派:监督学习、无监督学习、强化学习、自监督学习
监督学习
使用带标签的数据进行训练,本质是“填鸭式教育”
分类问题(做选择题)vs 回归问题(做填空题)
最大瓶颈:高质量标签数据的获取成本极高
无监督学习
处理无标签数据,在没有“标准答案”的情况下发现规律
两大法宝:聚类(“物以类聚”)和降维(“把书读薄”)
强化学习
智能体通过与环境交互,靠“奖励”和“惩罚”来学习
延迟满足(Delayed Reward)是最大难点
RLHF 让大模型学会了“说人话”,是 ChatGPT 成功的关键
自监督学习
介于监督与无监督之间,数据本身即标签
核心机制:掩码(挖空)与预测(填空),类似“完形填空”
把海量无标注的互联网文本变成了训练“金矿”
是 GPT(文字接龙)和 BERT(完形填空)预训练的基础
四大范式对比
监督学习
带标签
从示例学习
分类、回归
无监督学习
无标签
发现模式
聚类、降维
强化学习
交互产生
试错学习
游戏、控制
自监督学习
原始数据
自我预测
语言模型、预训练
关键术语
归纳法
从具体现象总结一般规律的推理方法
聚类
将相似样本分到同一组
降维
减少数据维度同时保留重要信息
强化学习
通过与环境交互获得反馈来学习
RLHF
人类反馈强化学习,让模型对齐人类偏好
掩码
自监督学习中遮盖部分数据的方法
预训练
在大数据上进行自监督学习以获得通用能力
延伸思考
既然机器学习(归纳法)注定无法完全准确地预测未来,我们为什么还敢让 AI 做自动驾驶?
强化学习在游戏中取得了巨大成功,为什么在商业应用中仍相对有限?
自监督学习是如何降低对标注数据依赖的?这对 AI 发展有什么影响?
下章预告
下一章将深入探讨深度学习,解析神经网络的工作原理,介绍关键的深度学习技术,以及主流的网络架构(如 CNN、RNN、Transformer),让读者理解当今最先进 AI 系统的技术核心。
最后更新于
