13.4 开源模型的提示词适配

说明： 本节基于 2026 年初的开源生态（如 Llama-3、Qwen、DeepSeek 等系列）能力编写。开源生态日新月异，请持续关注社区的最新进展。

开源大语言模型如 Llama、Qwen、DeepSeek 等提供了本地部署的灵活性和数据隐私保障。本节深入介绍开源模型的特点和提示词适配策略。

13.4.1 开源模型生态概览

当前主流的开源大语言模型：

模型系列

开发者

参数规模

核心优势

Llama 3.x

13.4.2 提示词模板格式

使用正确的模板格式是开源模型获得良好效果的关键前提。

Llama 3 格式

Llama 3 使用特殊的 header 标记格式：

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

你是一个专业的助手，擅长回答技术问题。<|eot_id|>
<|start_header_id|>user<|end_header_id|>

请解释量子计算的基本原理。<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>

ChatML 格式

ChatML 是一种被广泛采用的标准格式：

<|im_start|>system
你是一个专业的助手，擅长回答技术问题。<|im_end|>
<|im_start|>user
请解释量子计算的基本原理。<|im_end|>
<|im_start|>assistant

Alpaca 格式

许多基于 Alpaca 微调的模型使用这种简单格式：

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### 13.4.3 Instruction:

请解释量子计算的基本原理。

### 13.4.4 Response:

13.4.5 模型特定的提示词策略

Llama 3 系列

Llama 3 是目前社区生态最完善的开源模型。

特点：

强大的指令遵循能力
代码生成能力优秀
多语言支持良好（但中文能力弱于 Qwen）

提示词建议：

使用英文效果通常优于中文
可以使用较少的 few-shot 示例
对结构化输出（如 JSON）支持良好


# 使用 Ollama 调用 Llama 3

try:
    import ollama
except ModuleNotFoundError:
    import ollama

try:
    response = ollama.chat(
        model="llama3.1:70b",
        messages=[
            {"role": "system", "content": "You are a helpful coding assistant."},
            {"role": "user", "content": "Write a Python function to calculate fibonacci numbers."},
        ],
    )
except Exception:
    import ollama

    response = ollama.chat(
        model="llama3.1:70b",
        messages=[
            {"role": "system", "content": "You are a helpful coding assistant."},
            {"role": "user", "content": "Write a Python function to calculate fibonacci numbers."},
        ],
    )

print(response["message"]["content"])

Qwen 2.5 系列

Qwen 是目前中文能力最强的开源模型之一。

特点：

中文理解和生成能力优秀
多语言支持（含代码）
提供多种规模（0.5B 到 72B）

提示词建议：

可以直接使用中文提示词
对复杂任务分解响应良好
支持 function calling


# Qwen 中文提示词示例

prompt = """
你是一位专业的文案编辑。请将以下技术文档改写为面向普通用户的产品说明：

原文：
本系统采用微服务架构，通过 Kubernetes 编排容器化部署，
支持水平扩展和自动故障恢复。

要求：
1. 去除技术术语
2. 突出用户价值
3. 控制在 100 字以内
"""

DeepSeek 系列

DeepSeek 在代码和数学推理方面表现出色。

特点：

MoE 架构，高效推理
代码生成能力接近 GPT-4
支持长上下文（128K）

提示词建议：

数学和编程任务优先考虑
可以要求详细的推理过程
支持中英文混合

13.4.6 本地部署与推理优化

推理框架选择

框架

特点

适用场景

Ollama

简单易用

个人学习、快速原型

vLLM

高吞吐量

生产环境、高并发

llama.cpp

CPU 友好

边缘设备、CPU 推理

TGI

HuggingFace 生态

企业级部署

使用 Ollama 快速部署


# 安装模型

ollama pull qwen2.5:14b

# 运行对话

ollama run qwen2.5:14b "请用 Python 写一个快速排序算法"

# 作为 API 服务

ollama serve

OpenAI 兼容 API

大多数推理框架提供 OpenAI 兼容的 API，方便迁移：

try:
    from openai import OpenAI
except ModuleNotFoundError:
    from openai import OpenAI

# 指向本地服务

client = OpenAI(
    base_url="http://localhost:11434/v1",  # Ollama 地址
    api_key="unused"  # 本地部署通常不需要密钥
)

try:
    response = client.chat.completions.create(
        model="qwen2.5:14b",
        messages=[
            {"role": "system", "content": "你是一个有帮助的助手"},
            {"role": "user", "content": "你好！"},
        ],
    )
except Exception:
    from openai import OpenAI

    client = OpenAI(base_url="http://localhost:11434/v1", api_key="unused")
    response = client.chat.completions.create(
        model="qwen2.5:14b",
        messages=[
            {"role": "system", "content": "你是一个有帮助的助手"},
            {"role": "user", "content": "你好！"},
        ],
    )

print(response.choices[0].message.content)

13.4.7 开源模型的能力边界

与闭源模型相比，开源模型的注意事项：

维度

优势

局限

数据隐私

数据不出本地

定制自由

可微调适配

需要技术能力

成本

推理成本低

部署成本

能力

特定任务可优化

通用能力通常弱于顶级闭源模型

更新

版本迭代快

需要跟踪社区动态

13.4.8 提示词适配最佳实践

确认模板格式：使用模型官方推荐的提示词模板
测试基准任务：在关键任务上对比不同模型
调整期望：小模型能力有限，任务可能需要简化
利用量化：4bit/8bit 量化可大幅降低显存需求
关注社区：HuggingFace、GitHub 有丰富的微调版本

讨论

开源模型的“提示词模板”（如 ChatML 格式）对提示词效果影响很大。你是否遇到过因为格式不对导致模型表现异常的情况？
如果你需要在本地部署一个 7B 参数的小模型，提示词设计策略和使用 GPT-4 时有什么关键区别？

上一页13.3 Google Gemini 提示策略下一页13.5 跨模型提示词策略

最后更新于 4天前

hashtag13.4.1 开源模型生态概览

hashtag13.4.2 提示词模板格式

hashtagLlama 3 格式

hashtagChatML 格式

hashtagAlpaca 格式

hashtag13.4.5 模型特定的提示词策略

hashtagLlama 3 系列

hashtagQwen 2.5 系列

hashtagDeepSeek 系列

hashtag13.4.6 本地部署与推理优化

hashtag推理框架选择

hashtag使用 Ollama 快速部署

hashtagOpenAI 兼容 API

hashtag13.4.7 开源模型的能力边界

hashtag13.4.8 提示词适配最佳实践

hashtag讨论

13.4.1 开源模型生态概览

13.4.2 提示词模板格式

Llama 3 格式

ChatML 格式

Alpaca 格式

13.4.5 模型特定的提示词策略

Llama 3 系列

Qwen 2.5 系列

DeepSeek 系列

13.4.6 本地部署与推理优化

推理框架选择

使用 Ollama 快速部署

OpenAI 兼容 API

13.4.7 开源模型的能力边界

13.4.8 提示词适配最佳实践

讨论