4.1 归纳法与机器学习
说明 本讲核心:机器学习本质上是一种 “归纳法”。它很强大,但永远无法获得真理。 一句话口诀:历史会重复,但不会完全重复。
(注:本章将进入“深水区”,涉及一些核心原理。如果你觉得某个概念(如贝叶斯)太难懂,完全可以先跳过,记住结论就好。不懂原理并不影响你使用 AI。)
4.1.1 罗素的火鸡
如果你想理解机器学习的本质,没有比 “罗素的火鸡” 更合适的故事了。
农场里有一只火鸡,它发现了一个规律: 每天早上 9 点,农场主就会带着食物出现。 无论刮风下雨,无论周一还是周日,这个规律从未失效。 于是,这只火鸡利用 “机器学习”(统计学),训练出了一个完美的模型:“早 9 点 = 有饭吃”。 它的置信度高达 99.99%。
直到感恩节的那个早晨 9 点,农场主带着刀出现了。
这就是机器学习的宿命。 机器学习是基于 “归纳法”(Induction)的。它所有的智慧都来自 “过去”(历史数据)。 它假设未来会重复过去。但一旦出现从未见过的 “黑天鹅”(比如感恩节),再强大的 AI 也会瞬间变成傻瓜。
4.1.2 演绎法 vs 归纳法
人类的推理方法有两种,对应了机器学习的两种实现方式:
演绎法(Deduction):从公理推导出结果。
例子:所有人都会死(公理) -> 苏格拉底是人 -> 苏格拉底会死。
特点:基于规则,绝对正确,但很难发现新知识。传统的计算机程序(If/Else)就是演绎法。
归纳法(Induction):从现象总结出规律。
例子:看到 1000 只天鹅是白的 -> 推测所有天鹅都是白的。
特点:基于统计数据,可能出错,但能处理复杂世界。机器学习就是归纳法。
所以,千万不要迷信 AI 的预测。 AI 预测股市上涨,只是因为它在历史上上涨过,不代表明天真的会涨。
4.1.3 机器学习的“四大门派”
在归纳法的世界里,根据“有没有老师教”,分成了四个门派:
监督学习(Supervised Learning):“有老师教”。
老师给你题(数据)和答案(标签),你照着学。
最成熟,用得最多。
无监督学习(Unsupervised Learning):“没老师教”。
给你一堆书,让你自己看,自己分类。
如:聚类、推荐系统。
强化学习(Reinforcement Learning):“环境教你”。
没人告诉你怎么走,但撞墙了会疼,吃肉了会香。
如:AlphaGo、机器人。
自监督学习(Self-Supervised Learning):“自己教自己”。
把文章盖住几个字,自己猜。
这是 GPT 这种大模型的秘诀。
4.1.4 思考题
既然机器学习(归纳法)注定无法通过 “过去” 完全准确地预测 “未来”(火鸡困境)。 那么,为什么我们现在还敢把自动驾驶(一种机器学习)交给 AI?我们是在赌它永远遇不到 “感恩节” 吗?
最后更新于
