6.3 自一致性与多路径推理

标准的思维链提示生成单一的推理路径，但这条路径可能是错误的。由 Wang et al. (2022) 提出的自一致性技术，通过生成多条推理路径并进行一致性投票，显著提升了推理的可靠性。

6.3.1 自一致性的核心思想

自一致性基于一个直觉：如果多条不同的推理路径都得出相同的答案，那么这个答案更可能是正确的。

6.3.2 实现方法

步骤一：多次采样

对同一问题使用相同的思维链提示，但设置较高的 Temperature（如 0.7-0.9），生成多条不同的推理路径。

设置：
- 提示词：[包含思维链引导的提示]
- Temperature：0.7
- 采样次数：5-10 次

步骤二：提取答案

从每条推理路径中提取最终答案：

推理路径 1：
...经过计算，结果是 25...
答案：25

推理路径 2：
...所以最终答案是 25...
答案：25

推理路径 3：
...因此得出 30...
答案：30

步骤三：多数投票

对所有答案进行投票，选择出现次数最多的作为最终答案：

答案统计：
25：出现 4 次
30：出现 1 次

最终答案：25

6.3.3 自一致性的优势

提升准确率

研究表明，自一致性可以在思维链基础上进一步提升 5-15%的准确率。

提供置信度指标

投票一致程度可以作为答案置信度的估计：

5/5 路径一致：高置信度
4/5 路径一致：中高置信度
3/5 路径一致：中等置信度
仅略多数一致：低置信度

识别困难问题

如果多条路径给出分散的答案，说明这可能是一个困难问题，需要特别关注。

6.3.4 实现示例


# 自一致性伪代码

def self_consistency(prompt, question, n_samples=5):
    answers = []

    # 生成多条推理路径
    for i in range(n_samples):
        response = call_llm(
            prompt=prompt + question,
            temperature=0.7
        )
        # 从回复中提取答案
        answer = extract_answer(response)
        answers.append(answer)

    # 多数投票
    from collections import Counter
    vote = Counter(answers)
    final_answer = vote.most_common(1)[0][0]
    confidence = vote.most_common(1)[0][1] / n_samples

    return final_answer, confidence

6.3.5 采样策略

采样数量

推荐配置：
- 简单问题：3-5 次采样
- 中等问题：5-10 次采样
- 困难问题：10-20 次采样

权衡：
- 更多采样 → 更高准确率 → 更高成本
- 建议从 5 次开始，根据效果和成本调整

Temperature 设置

Temperature 太低（<0.3）：路径多样性不足，很多采样重复
Temperature 太高（>1.0）：推理质量下降
推荐范围：0.5-0.8

6.3.6 变体技术

加权投票

根据推理路径的质量给予不同权重：

评估推理质量的标准：
- 推理步骤的完整性
- 逻辑连贯性
- 中间计算的正确性

高质量路径的答案获得更高权重

分组一致性

对于复杂问题，可以对每个子问题分别应用自一致性：

问题：计算表达式 (5 + 3) × (12 - 4) / 2

分组一致性：
1. 对 5 + 3 采样 5 次 → 一致性答案：8
2. 对 12 - 4 采样 5 次 → 一致性答案：8
3. 对 8 × 8 采样 5 次 → 一致性答案：64
4. 对 64 / 2 采样 5 次 → 一致性答案：32

最终答案：32

6.3.7 适用场景

高度适用

✓ 有明确正确答案的任务（数学、逻辑）
✓ 可以从输出中清晰提取答案
✓ 对准确性要求高
✓ 可接受多次 API 调用的成本

不太适用

✗ 开放性创意任务
✗ 没有"正确答案"的任务
✗ 需要实时响应的场景
✗ 成本敏感的应用

6.3.8 实践建议

答案提取要准确：确保能够从不同格式的回复中正确提取答案
处理答案等价性：相同答案可能有不同表述
```
"25"、"二十五"、"25 个"应该被识别为同一答案
```
设置合理的超时：多次采样需要更多时间
监控成本：自一致性会成倍增加 API 调用次数

讨论

自一致性需要多次 API 调用——在预算有限的场景下，你如何决定采样次数和成本之间的平衡？
多数投票适合有“唯一正确答案”的问题，但对于开放性创作任务呢？你会如何改造这一策略？

上一页6.2 零样本与少样本思维链下一页6.4 思维树与高级推理策略

最后更新于 3天前

hashtag6.3.1 自一致性的核心思想

hashtag6.3.2 实现方法

hashtag步骤一：多次采样

hashtag步骤二：提取答案

hashtag步骤三：多数投票

hashtag6.3.3 自一致性的优势

hashtag提升准确率

hashtag提供置信度指标

hashtag识别困难问题

hashtag6.3.4 实现示例

hashtag6.3.5 采样策略

hashtag采样数量

hashtagTemperature 设置

hashtag6.3.6 变体技术

hashtag加权投票

hashtag分组一致性

hashtag6.3.7 适用场景

hashtag高度适用

hashtag不太适用

hashtag6.3.8 实践建议

hashtag讨论