LLM论文笔记 16: Why think step by step? Reasoning emerges from the locality of experience

Arxiv日期：2023.4.7
机构：Stanford

1. CoT的有效性

链式推理可以帮助大语言模型在面对跨越不同主题的复杂推理任务时提高性能，尤其是当数据中的相关概念不经常一起出现时。
通过生成中间变量并将它们逐步连接，链式推理能够弥补直接预测的不足
当训练数据具有局部结构时，链式推理能够有效地改善条件概率估计。这是因为局部结构使得相关概念之间的关系可以通过推理中间变量来更加准确地推测。当数据缺乏局部结构时，模型推理的效果显著下降。

2. 训练数据中如果存在局部结构，模型能够在较少的训练样本下通过推理来更好地拟合条件概率，而不需要使用包含所有变量的完整数据。

3. 推理的局限性与失败情况：尽管链式推理在数据结构良好的型的训练数据结构不合理时，推理会失败，甚至可能仅回归到边际概率。这表明，推理的有效性高度依赖于数据中变量的相互关系

4. 在某些情况下，当模型在训练数据中频繁看到目标变量和观察变量时，CoT 不再必要

5. 自由生成（free generation，通过模型自发生成中间变量的推理方式）在某些条件下比直接预测表现更好，尤其是在局部这种方法能够让模型通过生成适当的中间变量来改进条件概率估计。