4.1 归纳法与机器学习

说明 本讲核心:机器学习本质上是一种 “归纳法”。它很强大,但永远无法获得真理。 一句话口诀:历史会重复,但不会完全重复。

(注:本章将进入“深水区”,涉及一些核心原理。如果你觉得某个概念(如贝叶斯)太难懂,完全可以先跳过,记住结论就好。不懂原理并不影响你使用 AI。)

4.1.1 罗素的火鸡

如果你想理解机器学习的本质,没有比 “罗素的火鸡” 更合适的故事了。

农场里有一只火鸡,它发现了一个规律: 每天早上 9 点,农场主就会带着食物出现。 无论刮风下雨,无论周一还是周日,这个规律从未失效。 于是,这只火鸡利用 “机器学习”(统计学),训练出了一个完美的模型:“早 9 点 = 有饭吃”。 它的置信度高达 99.99%。

直到感恩节的那个早晨 9 点,农场主带着刀出现了。

这就是机器学习的宿命。 机器学习是基于 “归纳法”(Induction)的。它所有的智慧都来自 “过去”(历史数据)。 它假设未来会重复过去。但一旦出现从未见过的 “黑天鹅”(比如感恩节),再强大的 AI 也会瞬间变成傻瓜。

4.1.2 演绎法 vs 归纳法

人类的推理方法有两种,对应了机器学习的两种实现方式:

  1. 演绎法(Deduction):从公理推导出结果。

    • 例子:所有人都会死(公理) -> 苏格拉底是人 -> 苏格拉底会死。

    • 特点:基于规则,绝对正确,但很难发现新知识。传统的计算机程序(If/Else)就是演绎法。

  2. 归纳法(Induction):从现象总结出规律。

    • 例子:看到 1000 只天鹅是白的 -> 推测所有天鹅都是白的。

    • 特点:基于统计数据,可能出错,但能处理复杂世界。机器学习就是归纳法。

所以,千万不要迷信 AI 的预测。 AI 预测股市上涨,只是因为它在历史上上涨过,不代表明天真的会涨。

4.1.3 机器学习的“四大门派”

在归纳法的世界里,根据“有没有老师教”,分成了四个门派:

  1. 监督学习(Supervised Learning)“有老师教”

    • 老师给你题(数据)和答案(标签),你照着学。

    • 最成熟,用得最多

  2. 无监督学习(Unsupervised Learning)“没老师教”

    • 给你一堆书,让你自己看,自己分类。

    • 如:聚类、推荐系统

  3. 强化学习(Reinforcement Learning)“环境教你”

    • 没人告诉你怎么走,但撞墙了会疼,吃肉了会香。

    • 如:AlphaGo、机器人

  4. 自监督学习(Self-Supervised Learning)“自己教自己”

    • 把文章盖住几个字,自己猜。

    • 这是 GPT 这种大模型的秘诀

4.1.4 思考题

既然机器学习(归纳法)注定无法通过 “过去” 完全准确地预测 “未来”(火鸡困境)。 那么,为什么我们现在还敢把自动驾驶(一种机器学习)交给 AI?我们是在赌它永远遇不到 “感恩节” 吗?

最后更新于