本章小结
本章深入解析了深度学习的核心原理,从神经网络基础到关键技术,再到主流架构和实践挑战。
核心要点回顾
神经网络基础
人工神经元模拟生物神经元:接收数字 -> 加权求和 -> 激活函数 -> 传递结果
“深度”就是网络的层数,每一层把信息进行一次抽象
激活函数(如 ReLU)引入非线性,让网络能模拟复杂事物
亿万个简单神经元连接起来,可以产生“涌现”现象
深度学习训练
梯度下降:在“黑夜里下山”,沿着下坡方向更新参数
学习率:步子太大会震荡,步子太小会太慢,最佳策略是“先快后慢”
局部最优陷阱:SGD 和 Adam 等方法通过加“惯性”来跳出小坑
主流架构
CNN(卷积神经网络):计算机的“眼睛”,专为图像而生
RNN(循环神经网络):计算机的“耳朵”,用于序列数据,但记性不好
Transformer:全能的“大脑”,用注意力机制“一目十行”,是当前的大一统架构
深度学习的局限性
黑盒问题:无法解释内部推理过程,对关键领域是合规风险
能耗问题:训练顶级大模型需要极高电力和算力成本
幻觉问题:AI 会一本正经地编造假答案
关键术语
术语
解释
激活函数
引入非线性的函数(如 ReLU)
梯度下降
沿“下坡”方向优化参数的方法
学习率
控制每一步参数更新幅度的超参数
卷积
CNN 中提取局部特征的操作
注意力机制
Transformer 的核心,能聚焦最相关的信息
幻觉
AI 一本正经地编造虚假内容
下章预告
下一章将专门介绍大语言模型(LLM),深入解析 ChatGPT、Claude 等模型背后的技术原理,从 Transformer 架构到预训练与微调方法,帮助读者理解生成式 AI 的核心技术。
最后更新于
