6.2 大模型原理

你眼中的“思考”,在 AI 眼里只是“概率计算”。根据上文,猜下一个字。

6.2.1 这里的“接龙”不简单

大语言模型(LLM)到底在干什么?

一句话就能说清:Next Token Prediction(预测下一个词)

这听起来像是在玩“文字接龙”。

  • 你说:“白日依山”

  • 模型脑子里算了一下,“尽”字出现的概率是 99%。

  • 于是它说:“尽”。

你可能会问:“就这?这也能叫智能?” 是的,就这。

但当它的阅读量达到千亿级别时,奇迹发生了。

它不仅仅是在接“白日依山尽”,它能接代码、能接论文、能接菜谱。 当“接龙”的能力达到极致,外在表现出来的就是“智能”。

图 6-1:大模型预测下一个词(Next Token Prediction)示意图

图 6-1:大模型预测下一个词(Next Token Prediction)示意图

6.2.2 什么是 Token?

AI 不认识“字”,它只认识 Token

Token 就像是 AI 的“积木块”。

Token 并不是“一个字/一个词”的固定单位,而是由 分词器(Tokenizer) 切出来的子词片段:

  • 在英文里,一个 token 可能是一个词、词的一部分(如 ing)、甚至是标点和空格;长度不固定。例如,一句 “Hello, world!” 在 GPT 的分词器中可能会被切分成约 4 个 token(Hello, world!)。

  • 在中文里,一个 token 经常 接近 1 个汉字,但也可能把常见词组、数字、英文混排切成不同粒度。

近年来,主流模型的上下文窗口通常已达到数百万 token(不同模型差异很大;部分产品形态可能更长),这意味着它一次能“记住”大量积木块的顺序。

6.2.3 温度:AI 的性格开关

在调用 AI 时,有一个很重要的参数叫 “温度”

  • 温度 = 0:AI 变成 理工男。每次都选概率最高的那个词,绝对严谨,但也极度无聊。适合写代码、做数学题。

  • 温度 = 1(甚至更高):AI 变成 艺术家。它会尝试选一些概率没那么高、但比较新奇的词。随着温度继续升高(部分模型最高可达 2),它甚至会变得“语无伦次”。适合写诗、发散脑洞。

通过调节温度,我们赋予了那个冰冷的计算器以“性格”。

图 6-2:温度(Temperature)机制示意图

图 6-2:温度(Temperature)机制示意图

6.2.4 思考题

如果 AI 只是在做“概率预测”,那它真的有 “自我意识” 吗?

还是说,我们的 “自我意识”,本质上也是一种极其复杂的、生物学层面的“概率预测”?

(这个问题目前没有科学定论,只有哲学争论。)

最后更新于