6.2 大模型原理
说明 本讲核心:你眼中的“思考”,在 AI 眼里只是“概率计算”。 一句话口诀:根据上文,猜下一个字。
6.2.1 这里的“接龙”不简单
大语言模型(LLM)到底在干什么? 一句话就能说清:Next Token Prediction(预测下一个词)。
这听起来像是在玩“文字接龙”。
你说:“白日依山”
模型脑子里算了一下,“尽”字出现的概率是 99%。
于是它说:“尽”。
你可能会问:“就这?这也能叫智能?” 是的,就这。 但当它的阅读量达到千亿级别时,奇迹发生了。 它不仅仅是在接“白日依山尽”,它能接代码、能接论文、能接菜谱。 当“接龙”的能力达到极致,外在表现出来的就是“智慧”。
6.2.2 什么是 Token?
AI 不认识“字”,它只认识 Token。 Token 就像是 AI 的“积木块”。 Token 并不是“一个字/一个词”的固定单位,而是由**分词器(Tokenizer)**切出来的子词片段:
在英文里,一个 token 可能是一个词、词的一部分(如
ing)、甚至是标点和空格;长度不固定。例如,一句"Hello, world!"在 GPT 的分词器中可能会被切分成约 4 个 token(Hello、,、world、!)。在中文里,一个 token 经常接近 1 个汉字,但也可能把常见词组、数字、英文混排切成不同粒度。
近年来,主流模型的上下文窗口通常已达到数万 token(不同模型差异很大;部分产品形态可能更长),这意味着它一次能“记住”大量积木块的顺序。
6.2.3 温度(Temperature):AI 的性格开关
在调用 AI 时,有一个很重要的参数叫 “温度”。
温度 = 0:AI 变成 理工男。每次都选概率最高的那个词,绝对严谨,但也极度无聊。适合写代码、做数学题。
温度 = 1:AI 变成 艺术家。它会尝试选一些概率没那么高、但比较新奇的词。适合写诗、写小说。
通过调节温度,我们赋予了那个冰冷的计算器以“性格”。
6.2.4 思考题
如果 AI 只是在做“概率预测”,那它真的有 “自我意识” 吗? 还是说,我们的 “自我意识”,本质上也是一种极其复杂的、生物学层面的“概率预测”? (这个问题目前没有科学定论,只有哲学争论。)
最后更新于
