6.4 主流大模型

说明 本讲核心：这个领域变化太快，不要死记硬背排名，要看懂各家的“独门绝技”。 一句话口诀：闭源与开源并行，能力、成本、合规三者都要看。

6.4.1 三大闭源巨头

近年来，OpenAI、Anthropic、Google 仍是闭源大模型的第一梯队。注意：它们在不同评测和场景（代码、数学、写作、工具调用）里的名次会持续变化，不存在“永久第一”。

OpenAI (GPT 系列)
- 特点：综合能力和产品生态通常都很强，工具链较完整。
- 取舍：闭源能力强，但企业需要关注数据治理，以及“供应商绑定”风险（例如后续切换平台时成本可能更高）。
Anthropic (Claude 系列)
- 特点：在长文本理解、写作、代码任务上常有突出表现，风格相对稳健。
- 取舍：产品功能节奏和生态覆盖与其他厂商各有长短。
Google (Gemini 系列)
- 特点：多模态能力强，且与 Google Workspace、搜索等生态整合紧密。
- 取舍：优势常出现在 Google 生态内，跨生态体验需看具体产品形态。

6.4.2 开源之光：LLaMA

如果说闭源模型是 iOS，那 Meta 的 LLaMA 更像 Android 阵营里的关键基座之一。 Meta 把高质量权重开放出来后，显著降低了学术界和创业团队做二次创新的门槛。

开源生态并不只有 LLaMA，也包括 Qwen、Mistral、Gemma 等多条路线。 重点不是“谁是唯一图腾”，而是开源让更多人有能力做本地化和垂直化改造。

6.4.3 中国的“百模大战”

中国 AI 在 应用落地、中文能力、成本效率 上竞争非常激烈。

阿里（通义千问 Qwen）：开源生态活跃，工程化能力强。
百度（文心）：搜索与知识服务体系结合较深。
DeepSeek（深度求索）：以高性价比和推理/代码能力出圈。
Kimi（月之暗面）：在长文档阅读和信息整合场景表现突出。

6.4.4 思考题

如果你是公司的 CTO，现在要引入 AI。你会为了数据安全选择 自部署开源模型（如 LLaMA，需要买昂贵的显卡），还是为了效果选择 接入闭源 API（如 GPT/Claude/Gemini，数据要传给服务商）？这个决策的平衡点在哪里？

上一页6.3 预训练与微调下一页6.5 大模型的部署与推理

最后更新于5天前