2.2 主流大语言模型概览
当前的大语言模型市场呈现百花齐放的态势,不同模型在能力特点、使用方式和适用场景上各有差异。了解主流模型的特性,有助于根据具体需求选择合适的模型,并针对性地设计提示词。
2.2.1 OpenAI GPT 系列
OpenAI 是大语言模型商业化的先驱,其 GPT 系列模型在行业内具有标杆地位。
GPT-4/GPT-5 系列
GPT-4 是 OpenAI 于 2023 年发布的旗舰模型,而 GPT-5 系列(2025-2026 年)则代表了最新一代能力。
注意(平台变更): OpenAI 官方公告称,自 2026 年 2 月 13 日起, GPT-4o 已从ChatGPT中退役;同时明确说明该变更不影响 API。如你依赖 GPT-4o 或其他特定模型,请以官方最新公告/文档为准,并做好回归测试与迁移预案。
核心特点:
多模态能力:支持图像输入( GPT-4V/GPT-4o/GPT-5)
强大的推理能力:在复杂逻辑和数学问题上表现优异
长上下文支持: GPT-4 Turbo 支持 128K Token 上下文;GPT-5 支持更大上下文窗口;GPT-5.4(2026 年 3 月)达到 1M Token
原生计算机使用能力:GPT-5.4 引入了原生 Computer Use 能力
函数调用:原生支持结构化的 API 调用
提示词特点:
响应格式化能力强,善于遵循复杂的输出格式要求
对系统提示词有良好的遵从性
适合使用 Markdown 格式组织提示词
o 系列推理模型
2024-2025 年,OpenAI 推出了专注于推理能力的 o 系列模型。这条路线后续又进一步演进到了 GPT-5.4 主线。
核心特点:
内置思维链:模型内部进行多步推理,外部只显示最终结果
数学和编程能力突出:在竞赛级别的问题上表现优异
更长的“思考时间”:可通过推理预算控制推理深度
提示词特点:
不需要显式要求“逐步思考”,模型会自动进行
更适合直接描述问题,让模型自主规划解决方案
对复杂任务的分解能力更强
2.2.2 Anthropic Claude 系列
Anthropic 由前 OpenAI 研究人员创立,其 Claude 系列以安全性和长上下文能力著称。
Claude Opus 4.6 / Sonnet 4.6 / Haiku 4.5 系列
Claude 目前提供多个层级的模型以满足不同需求:
Claude Opus 4.6
最强能力,深度分析,增强安全
复杂研究、高级推理
Claude Sonnet 4.6
领先编码能力, VS Code 集成
企业应用、软件开发
Claude Haiku 4.5
快速响应,低成本
简单任务、高并发
核心特点:
超长上下文:Opus 4.6 / Sonnet 4.6 支持最高 1M Token,Haiku 4.5 支持 200K Token,可处理整本书籍
安全对齐:在有害内容防护上表现出色
代码能力:在代码生成和分析方面表现优异
诚实性:更倾向于承认不确定性
提示词特点:
XML 标签: Claude 对 XML 格式的提示词有特别好的响应
预填充:可以预先设定回复的开头,引导输出格式
思考标签:使用
<thinking>标签可以引导模型展示推理过程
2.2.3 Google Gemini 系列
Google 的 Gemini 系列是原生多模态设计的大语言模型。
Gemini 3 Pro
核心特点:
原生多模态:从设计之初就支持文本、图像、音频、视频
超长上下文: Gemini 3 Pro 支持高达 1M Token
Google 生态集成:与 Google Workspace、Search 等产品深度整合
Personal Intelligence(2026 新功能): Gemini 3 可跨 Google 应用整合个人数据
提示词特点:
多模态提示:可以自然地在提示词中混合文本和其他媒体
结构化指令:对角色设定和任务分解响应良好
详细性偏好:倾向于生成详尽的回复,需要明确限制长度
2.2.4 Meta Llama 系列
Meta 的 Llama 系列是最具影响力的开源大语言模型。
Llama 3.x
核心特点:
开源开放:模型权重公开,可本地部署
多种规格:提供 8B、70B、405B 等不同参数规模
社区生态:丰富的微调版本和工具支持
提示词特点:
需要注意不同微调版本可能有不同的提示词模板
官方推荐的提示词格式:
对于经过指令微调的版本,可以使用更自然的对话格式
Llama 4 Scout & Maverick
Meta 在 2025 年 4 月发布的 Llama 4 系列采用混合专家(MoE)架构,代表了新一代高效能开源模型。
核心特点:
混合专家架构:通过专家路由机制实现高效的参数利用
Llama 4 Scout:109B 总参数,17B 活跃参数,16 个专家,支持 1000 万 Token 上下文窗口
Llama 4 Maverick:400B 总参数,17B 活跃参数,128 个专家,支持 100 万 Token 上下文窗口
开源开放:与 Llama 3 一致的开源政策,支持本地部署
提示词特点:
兼容 Llama 3 的提示词格式标准
MoE 架构对专业领域的知识理解更加精准
适合在资源受限环境下部署的高性能推理
2.2.5 国产大语言模型
中国市场涌现出众多优秀的大语言模型:
文心一言
百度推出的大语言模型,在中文理解和生成方面表现优秀。
特点:
中文优化:对中文语境、成语、文化有深入理解
知识图谱增强:与百度知识图谱结合,提升事实准确性
多模态能力:支持图像理解和生成
通义千问
阿里云推出的系列模型,包括开源版本。
特点:
开源生态: Qwen 系列部分开源,支持本地部署
多语言能力:在多语言任务上表现出色
代码能力: Code-Qwen 在代码生成上有专项优化
其他重要模型
智谱 ChatGLM:清华技术背景,开源社区活跃
讯飞星火:语音技术见长,语音交互能力强
Moonshot Kimi:长上下文能力突出,支持超长文档处理
DeepSeek:在代码和数学推理方面表现优异
2.2.6 模型选择指南
选择模型时可以考虑以下维度:
任务复杂度
复杂推理选 GPT-4/o1、Claude Opus;简单任务选轻量模型
上下文长度
长文档处理选 Claude、Gemini、Kimi
多模态需求
图像理解选 GPT-4o、Gemini;视频处理选 Gemini
成本敏感
高并发低成本选 Claude Haiku、开源模型
数据隐私
敏感数据选开源模型本地部署
中文优化
中文应用可考虑国产模型
安全要求
高安全要求选 Claude
2.2.7 跨模型的提示词策略
虽然不同模型有各自的特点,但以下提示词原则具有普适性:
清晰明确:无论哪个模型,清晰的指令都比模糊的更有效
提供上下文:充分的背景信息有助于模型理解任务
示例驱动:少样本学习在大多数模型上都有效
格式指定:明确要求输出格式可以提高一致性
同时,也要注意模型特定的优化:
Claude:使用 XML 标签
GPT:利用系统提示词和函数调用
Gemini:充分利用多模态能力
开源模型:使用正确的提示词模板
讨论
如果你的项目对数据隐私要求极高但预算有限,你会在 API 模型和开源模型之间如何取舍?
各模型厂商都有自己的“提示词偏好”(如 Claude 偏好 XML 标签)——你觉得这种差异未来会收敛还是会持续分化?
最后更新于
