2.2 主流大语言模型概览

当前的大语言模型市场呈现百花齐放的态势,不同模型在能力特点、使用方式和适用场景上各有差异。了解主流模型的特性,有助于根据具体需求选择合适的模型,并针对性地设计提示词。

2.2.1 OpenAI GPT 系列

OpenAIarrow-up-right 是大语言模型商业化的先驱,其 GPT 系列模型在行业内具有标杆地位。

GPT-4/GPT-5 系列

GPT-4 是 OpenAI 于 2023 年发布的旗舰模型,而 GPT-5 系列(2025-2026 年)则代表了最新一代能力。

注意(平台变更): OpenAI 官方公告称,自 2026 年 2 月 13 日起, GPT-4o 已从ChatGPT中退役;同时明确说明该变更不影响 API。如你依赖 GPT-4o 或其他特定模型,请以官方最新公告/文档为准,并做好回归测试与迁移预案。

核心特点

  • 多模态能力:支持图像输入( GPT-4V/GPT-4o/GPT-5)

  • 强大的推理能力:在复杂逻辑和数学问题上表现优异

  • 长上下文支持: GPT-4 Turbo 支持 128K Token 上下文;GPT-5 支持更大上下文窗口;GPT-5.4(2026 年 3 月)达到 1M Token

  • 原生计算机使用能力:GPT-5.4 引入了原生 Computer Use 能力

  • 函数调用:原生支持结构化的 API 调用

提示词特点

  • 响应格式化能力强,善于遵循复杂的输出格式要求

  • 对系统提示词有良好的遵从性

  • 适合使用 Markdown 格式组织提示词

o 系列推理模型

2024-2025 年,OpenAI 推出了专注于推理能力的 o 系列模型。这条路线后续又进一步演进到了 GPT-5.4 主线。

核心特点

  • 内置思维链:模型内部进行多步推理,外部只显示最终结果

  • 数学和编程能力突出:在竞赛级别的问题上表现优异

  • 更长的“思考时间”:可通过推理预算控制推理深度

提示词特点

  • 不需要显式要求“逐步思考”,模型会自动进行

  • 更适合直接描述问题,让模型自主规划解决方案

  • 对复杂任务的分解能力更强

2.2.2 Anthropic Claude 系列

Anthropicarrow-up-right 由前 OpenAI 研究人员创立,其 Claude 系列以安全性和长上下文能力著称。

Claude Opus 4.6 / Sonnet 4.6 / Haiku 4.5 系列

Claude 目前提供多个层级的模型以满足不同需求:

模型
特点
适用场景

Claude Opus 4.6

最强能力,深度分析,增强安全

复杂研究、高级推理

Claude Sonnet 4.6

领先编码能力, VS Code 集成

企业应用、软件开发

Claude Haiku 4.5

快速响应,低成本

简单任务、高并发

核心特点

  • 超长上下文:Opus 4.6 / Sonnet 4.6 支持最高 1M Token,Haiku 4.5 支持 200K Token,可处理整本书籍

  • 安全对齐:在有害内容防护上表现出色

  • 代码能力:在代码生成和分析方面表现优异

  • 诚实性:更倾向于承认不确定性

提示词特点

  • XML 标签: Claude 对 XML 格式的提示词有特别好的响应

  • 预填充:可以预先设定回复的开头,引导输出格式

  • 思考标签:使用 <thinking> 标签可以引导模型展示推理过程

2.2.3 Google Gemini 系列

Googlearrow-up-right 的 Gemini 系列是原生多模态设计的大语言模型。

Gemini 3 Pro

核心特点

  • 原生多模态:从设计之初就支持文本、图像、音频、视频

  • 超长上下文: Gemini 3 Pro 支持高达 1M Token

  • Google 生态集成:与 Google Workspace、Search 等产品深度整合

  • Personal Intelligence(2026 新功能): Gemini 3 可跨 Google 应用整合个人数据

提示词特点

  • 多模态提示:可以自然地在提示词中混合文本和其他媒体

  • 结构化指令:对角色设定和任务分解响应良好

  • 详细性偏好:倾向于生成详尽的回复,需要明确限制长度

2.2.4 Meta Llama 系列

Metaarrow-up-right 的 Llama 系列是最具影响力的开源大语言模型。

Llama 3.x

核心特点

  • 开源开放:模型权重公开,可本地部署

  • 多种规格:提供 8B、70B、405B 等不同参数规模

  • 社区生态:丰富的微调版本和工具支持

提示词特点

  • 需要注意不同微调版本可能有不同的提示词模板

  • 官方推荐的提示词格式:

  • 对于经过指令微调的版本,可以使用更自然的对话格式

Llama 4 Scout & Maverick

Meta 在 2025 年 4 月发布的 Llama 4 系列采用混合专家(MoE)架构,代表了新一代高效能开源模型。

核心特点

  • 混合专家架构:通过专家路由机制实现高效的参数利用

  • Llama 4 Scout:109B 总参数,17B 活跃参数,16 个专家,支持 1000 万 Token 上下文窗口

  • Llama 4 Maverick:400B 总参数,17B 活跃参数,128 个专家,支持 100 万 Token 上下文窗口

  • 开源开放:与 Llama 3 一致的开源政策,支持本地部署

提示词特点

  • 兼容 Llama 3 的提示词格式标准

  • MoE 架构对专业领域的知识理解更加精准

  • 适合在资源受限环境下部署的高性能推理

2.2.5 国产大语言模型

中国市场涌现出众多优秀的大语言模型:

文心一言

百度推出的大语言模型,在中文理解和生成方面表现优秀。

特点

  • 中文优化:对中文语境、成语、文化有深入理解

  • 知识图谱增强:与百度知识图谱结合,提升事实准确性

  • 多模态能力:支持图像理解和生成

通义千问

阿里云推出的系列模型,包括开源版本。

特点

  • 开源生态: Qwen 系列部分开源,支持本地部署

  • 多语言能力:在多语言任务上表现出色

  • 代码能力: Code-Qwen 在代码生成上有专项优化

其他重要模型

  • 智谱 ChatGLM:清华技术背景,开源社区活跃

  • 讯飞星火:语音技术见长,语音交互能力强

  • Moonshot Kimi:长上下文能力突出,支持超长文档处理

  • DeepSeek:在代码和数学推理方面表现优异

2.2.6 模型选择指南

选择模型时可以考虑以下维度:

考量因素
建议

任务复杂度

复杂推理选 GPT-4/o1、Claude Opus;简单任务选轻量模型

上下文长度

长文档处理选 Claude、Gemini、Kimi

多模态需求

图像理解选 GPT-4o、Gemini;视频处理选 Gemini

成本敏感

高并发低成本选 Claude Haiku、开源模型

数据隐私

敏感数据选开源模型本地部署

中文优化

中文应用可考虑国产模型

安全要求

高安全要求选 Claude

2.2.7 跨模型的提示词策略

虽然不同模型有各自的特点,但以下提示词原则具有普适性:

  1. 清晰明确:无论哪个模型,清晰的指令都比模糊的更有效

  2. 提供上下文:充分的背景信息有助于模型理解任务

  3. 示例驱动:少样本学习在大多数模型上都有效

  4. 格式指定:明确要求输出格式可以提高一致性

同时,也要注意模型特定的优化:

  • Claude:使用 XML 标签

  • GPT:利用系统提示词和函数调用

  • Gemini:充分利用多模态能力

  • 开源模型:使用正确的提示词模板

讨论

  1. 如果你的项目对数据隐私要求极高但预算有限,你会在 API 模型和开源模型之间如何取舍?

  2. 各模型厂商都有自己的“提示词偏好”(如 Claude 偏好 XML 标签)——你觉得这种差异未来会收敛还是会持续分化?

最后更新于