EVERYTHING OF THOUGHTS : DEFYING THE LAW OF PENROSE TRIANGLE FOR THOUGHT GENERATION

题目

思想的一切:挑战思想生成的彭罗斯三角定律

在这里插入图片描述

论文地址：https://aclanthology.org/2024.findings-acl.95/
项目地址：https://github.com/Microsoft/Everything-of-Thoughts-XoT

摘要

大型语言模型(LLM)的最新进展通过将复杂的问题分解为更易于管理的语言序列(称为“思想”)而彻底改变了决策。有效的思想设计应该考虑三个关键方面:性能、效率和灵活性。然而，现有的思想最多只能展示其中的两个属性。为了解决这些局限性，我们引入了一种新的思维激励方法，称为“思想的一切”(XOT)，以挑战现有思维范式的“彭罗斯三角”定律。XOT利用预训练强化学习和蒙特卡罗树搜索(MCTS)将外部领域知识和规划能力融入到思想中，从而增强LLM的能力，使他们能够有效地概括未知的问题。通过利用MCTSLLM协作思想修订框架，这种方法以最少的LLM交互自主地产生高质量的综合认知映射。此外，XOT使LLM能够从事不受约束的思考，允许对有多个解决方案的问题进行灵活的认知映射。我们在几个具有挑战性的问题解决任务上评估了XOT，包括24小时游戏、8字谜和口袋魔方。我们的结果表明，XOT在各个方面明显优于现有的方法，展示了它在解决不同领域的复杂问题方面的非凡能力。可以在https://github . com/Microsoft/Everything-of-Thoughts-XoT-上找到重现论文结果的代码和数据集。

图1 不同激励模式的比较。
在这里插入图片描述

引言大型

语言模型(LLM)的最新进展极大地推进了不同领域的问题求解，如数学推理Frieder等人(2023)、知识推理Omar等人(2023)、根本原因分析Chen等人(2023)和因果推理kēc man等人(2023)等.这一进步在很大程度上可以归功于将复杂的问题分解成被称为“思想”的更小的语言序列的技术。通过一步一步的推理过程，包括使用提示，每一个想法都作为一个中间阶段，有助于简化处理复杂问题，以实现问题的最终目标。

无论是对人类还是对逻辑推理师来说，解决复杂问题和推理的思维步骤的有效设计应该优先考虑三个关键方面，即:

性能。性能是解决问题的准确性，包括中间阶段的每一个思想的准确性。这一指标对于解决问题至关重要。
效率。效率与解决一个问题所需的LLM推理调用次数有关。由于与LLM推断相关的高计算成本，最小化这一方面是至关重要的，从而减少总成本。
灵活性。思维拓扑中的灵活性指的是当组织解决问题的思路时，LLM可以采用的不同结构。这些结构可能包括链、树甚至图形，反映了人类的思维过程。启用更灵活的思维结构增强了LLM的发散性和创造性思维的能力，这在处理复杂问题，尤其是具有多种潜在解决方案的问题时尤其有利。

思维生成范式主要有思维链(CoT)和魏等(2022)，思维树(ToT)姚等(2023)，思维图(GoT) Besta等(2023)等…然而，这些范例都有其局限性，不能同时实现所有三个期望的属性，如表1所示。具体来说，直接输入输出(IO)提示主要适用于单步流程的简单问题解决场景，在性能和灵活性方面都有所欠缺。CoT和自洽CoT (CoT-SC)支持逐步解决问题，从而适度提高性能，但它们受限于线性思维结构，限制了它们的灵活性。相比之下，ToT和GoT允许更通用的思想拓扑，适应树状或图状结构。然而，这些范例需要通过LLM本身对中间思想步骤进行评估，由于多个LLM调用而导致大量的计算成本和低效率。这些范式受到类似于“彭罗斯三角形”的定律的约束，其中它们最多可以实现三个属性中的两个，并且它们中没有一个可以同时实现所有三个属性。

我们提出了一种新的解决方案，称为“思想的一切”(XOT)，以解决传统思维框架的局限性，增强思维生成的基本属性，包括LLM推理的性能、效率和灵活性。利用强化学习(RL)李(2017)和蒙特卡洛树搜索(MCTS)西尔弗等人(2017)，结合轻量级策略和价值网络，对思维搜索的特定任务进行预训练，并随后推广到新问题。这种预训练有效地将外部领域知识和规划能力整合到提供给LLM的“思想”中，扩展了他们解决问题的能力，从而显著地提高了性能。一旦经过训练，XOT就可以使用具有成本效益的策略和价值网络的MCTS来有效地执行思维搜索，并自动生成LLM的完整认知映射。然后，它采用MCTS-LLM合作思想修正过程，以进一步提高思想质量，同时尽量减少LLM的互动。这消除了LLM自己探索和评估思想的需要，如ToT和GoT所要求的，提高了XOT的效率。此外，MCTS显示出非凡的灵活性，因为它可以探索各种思维拓扑，包括类似于人类思维导图过程中使用的图形结构Faste & Lin(2012)；贾米森(2012)。这使得LLM能够进行多样化和创造性的思考，在处理复杂的思维结构或具有多种潜在解决方案的任务时，这一点尤为重要。通过同时实现卓越的性能、效率和灵活性，XOT挑战了“彭罗斯三角”定律带来的限制，大大超越了其他思想生成范式的能力。

我们通过一系列具有挑战性的问题解决任务，即24人游戏、8人拼图和口袋魔方，全面评估了XOT。我们的实验结果始终展示了XOT的卓越性能，以及只需几次LLM调用就能高效地为问题提供多种解决方案的能力。这些发现确立了XOT作为一种有效的思维生成方法，为LLMs解决问题能力的新途径铺平了道路。

背景

LLMs的背景思想。解决复杂的问题通常需要将总体目标分解成多个中间步骤。与每一步相关联的结果或认知过程是思想，它可以被表达为语言提示序列，以便于LLM解决问题。这些思想的结构可以采取各种形式，包括线性链、层次树或互连图，这取决于如何组织思想以推进解决方案。

输入输出(IO)提示(图1 (a))。IO方法是指导LLM解决问题的最直接的方法，不需要提供任何中间思维过程。
思维链(CoT)魏等(2022)(图1 (b))。CoT将解决问题分解成一个连续的思维链，允许LLM一步一步地处理复杂的问题。
自洽CoT (CoT-SC)王等(2023a)(图1 ©)。CoT-SC使用CoT的多个实例从LLM生成多个输出。它从多个LLM输出中选择最佳结果，与普通CoT相比，提供更健壮和一致的推理。
思维树(ToT)姚等(2023)(图1 (d))。ToT以树状结构组织思想，并利用搜索算法(例如，广度优先搜索、深度优先搜索)来扩展树，以寻求最佳解决方案。然而，ToT中的思想评估依赖于LLM本身，需要多次昂贵且低效的LLM推理调用。
思维图(GoT) Besta等人(2023)(图1 (e))。GoT扩展了ToT方法，通过在中间搜索阶段进行思想聚合和提炼来生成类似图形的思想结构。尽管这种方法允许更灵活的思想结构，但它仍然需要多个LLM推理调用来进行评估，从而导致大量的计算成本。

XOT:思想的一切

XOT作为一个LLM-MCTS的合作框架，旨在加强思想生成过程，从而帮助LLM解决复杂的问题。它利用MCTS进行熟练和有效的思想探索，同时利用LLM的能力来提炼和修改来自MCTS的思想。这种协同作用创造了一种互利的安排，最终能够成功地解决复杂的问题，其特点是高水平的性能、效率和灵活性。

在这里插入图片描述
图1:XOT和其他激励模式的比较。

XOT

简而言之，我们在图1 (f)中展示了XOT的建筑概况。XOT由两个关键部分组成:(一)由政策/价值网络指导的MCTS模块；以及(ii)用于思想修正和推理的LLM解算器。MCTS和政策/价值网络需要训练，然后推广到推理过程。在训练阶段，MCTS被用来通过模拟场景探索特定任务的潜在思维结构。这个过程需要记录每个模拟中思想节点的状态、值和访问频率。这些记录的数据随后被用于反复训练政策和价值评估模型，使其能够吸收领域知识并理解世界模型。

一旦被训练，估计的政策和价值被用来指导MCTS系统地寻找一个思维轨迹，以帮助LLM解决问题。请注意，仅提取思想发挥辅助作用，协助后勤管理人员从外部来源收集知识并提高其规划能力。这些想法并没有给LLM提供明确的或无误的答案，因为它们可能包含不准确或次优的解决方案。当这些想法看起来错误或需要调整时，LLM负责审查和提炼这些想法。如果需要的话，他们继续MCTS搜索过程，并通过将这些外部想法与他们的内部知识相结合，最终形成最终的答案。

思维搜索公式

采用思维生成范式的基本目标是识别复杂问题到几个可管理子步骤的最优分解。每个子步骤都旨在改变问题的当前状态，最终成功解决总体问题。从ToT和GoT中可以看出，这种方法依赖于定义明确的状态转换和明确的最终目标。因此，很自然地将思考搜索过程概念化为马尔可夫决策过程(MDP·普特曼(1990)，其中:

状态st:代表问题的当前状态。初始状态s0对应于原始问题，而中间状态的特征在于分解的子问题或源于它们的解决的结果。
行动:表示与解决问题相关的一步解决方案或行动，通过整合其结果，导致向新状态的过渡。
奖励r:反映对原问题解决方案的综合评价，评估是否通过问题分解过程得到了有效解决。
思想τ:一步思想是一步状态和动作的组合，即τ = {s，a}。这个公式自然地将一个复杂的问题分解成多个子任务，每个子任务都伴随着各自的结果。

每个任务的状态、行动、奖励和思想的详细定义如表1所示。完整思想的产生T = {τ1，τN }，可以被解释为努力发现一个思想轨迹，以最大化解决整体问题的累积回报。

在这里插入图片描述
图2:MCTS思维搜索((a)-©)和问题解决中的思维推理(d)的迭代阶段图解。

用MCTS寻找思想上面的公式

自然地将LLM中的思想排列成状态-行动对。这种方法有助于使用MCTS和RL的组合来有效地探索其最优轨迹。这遵循一个迭代模拟循环，该循环包含三个关键阶段:选择、扩展和评估，以及反向传播。它在很大程度上依赖于神经网络fθ的利用，神经网络fθ同时估计给定状态st的值和动作概率。其目的是减少推出的数量并加速搜索过程，类似于AlphaGo Zero Silver等人(2017年)采用的方法。我们以Pocket Cube为例，提供了图2 (a)-©中MCTS迭代的可视化表示，并在下面详述了每个过程。

选择。在选择阶段，算法从根节点开始，并继续从可用集合A(s)中选择动作A∫用于当前状态s中的单步思想生成。该过程继续，直到到达当前树中的叶节点。该选择由旨在最大化置信上限(UCB)的PUCT算法Rosin (2011)，Garivier & Moulines (2011)，如下所示: 在这里插入图片描述这里，Q(s，a)表示状态-动作对(s，a)的Q值，它估计给定状态下特定动作的质量。Q值越高，动作被认为越好。Pθ(s，a)表示在给定从神经网络fθ获得的状态s的情况下选择动作a的预测先验概率，N(s，a)表示动作a在状态s中被选择的次数参数w控制着勘探和开采之间的权衡。选择过程将继续，直到遇到未探索的节点。

评估和扩展。在到达先前未选择的叶节点时，我们扩展到状态s，用于新思想探索的下一步。这种展开涉及到对其价值的评估和对状态的作用概率，这些都是用θ参数化的神经网络来建模的，即(Pθ(s)，vθ(s)) = fθ(s)。这里Pθ(s)是s上所有动作的先验概率，vθ(s)表示其预测状态值。出于备份目的，这两个值被保留和存储，并且状态s被屏蔽为“已访问”。

反向传播。在上述阶段中的叶节点的扩展之后，其可以是未探索的或终止的状态，该算法继续通过反向传播来更新所有的Q(s，a)值。对于未探测的节点，这种更新涉及计算其估计值vθ的平均值，而对于终止的节点，它基于真实的回报r。当信息沿着轨迹反向传播到后续节点时，这些更新发生。此外，每个状态-动作对的访问计数也如下递增:N(s，a) = N(s，a) + 1。

在一系列的选择、评估、扩展和反向传播步骤之后，模拟就完成了。在进行多次模拟后，我们继续下一步，使用定义为εa ∝ N(s，a) 1/γ的概率分布选择状态s下的动作，其中γ是调节探索水平的温度常数。

政策和价值网络培训。上述模拟允许我们为每个样本状态s编译包含(s，ε(s)，v(s))的数据集，其中ε(s) = {εa | a ∈ A(s)}，并且v(s)表示通过沿着从状态s开始的轨迹累积奖励而获得的基本真实值。随后，我们可以训练组合的策略和价值网络fθ，以最小化预测值vθ(s)和实际值v(s)之间的差异，同时还最大化神经网络Pθ(s)产生的动作概率之间的一致性这可以通过最小化以下损失函数来实现: 在这里插入图片描述这种训练与模拟过程一起反复进行，以不断提高fθ的性能，从而逐步提高思维搜索能力。

思维推理

一旦经过训练，我们就可以利用fθ来引导MCTS为一个新问题产生一种思维，从而帮助LLM解决这个问题。具体地说，如图2 (d)所示，MCTS被用来进行旨在寻找思路和解决问题的K模拟。在每次模拟中，fθ被用来引导MCTS寻找思维轨迹。在整个训练过程中，fθ结合了与状态和动作质量相关的外部信息。这些信息有助于LLM理解世界模型，增强他们的长期推理和规划能力，这是他们在Stechly等人(2023)中可能不擅长的领域；Valmeekam等人(2023)，从而确保思想生成的性能。一旦模拟结束，我们记录访问计数N(s，a ),并根据所需解决方案的数量获得思维轨迹:单一解决方案。从每个状态s开始，选择具有最高访问计数N(s，a)的动作。

多重解决方案。我们按照概率分布εa ∝ N(s，a)对M个思维轨迹进行采样，并去除重复。这导致一个或多个思维轨迹T∫由一系列用于解决问题的状态-行动对组成。多解性问题的轨迹可能会交织在一起，并汇聚到同一个目标状态，从而形成一个类似图形的思维结构。这表明XOT能够灵活地生成思想结构。这些轨迹然后被转换成文本序列，这些文本序列被连接以形成提供给LLMs的提示序列。请注意，思维轨迹被连接到一个提示中，即使是在问题有多个解决方案的情况下。因此，我们在这个阶段只需要一个LLM推理调用。鉴于fθ网络相对较轻，这确保了XOT的效率。

思维-提示分析。一旦思想轨迹T *从MCTS中提取出来，我们就把它们转换成LLM推理所必需的文本格式。在这个转换过程中，我们将思想的每一步的状态和动作都转换成文本，即T *中的τ = {s，a}。这种转换旨在提供全面的状态转换，帮助LLM逐步更好地理解任务。在多解方案的情况下，多个轨迹被连接起来。这种格式在所有基线中保持一致，然后将得到的提示文本提供给LLMs进行推断或修改。

思想修正。重要的是要认识到，MCTS可能不总是提供全局最优的思维轨迹来直接完美地解决问题。因此，从MCTS中提取的思想作为问题的参考思维过程，以支持的能力帮助逻辑推理硕士。LLM将利用他们的内部知识来审查提取的思想，识别思想轨迹中的错误，然后与MCTS合作以其知识为基础来修改和完善思想。在这种情况下，LLM扮演着类似于合作框架参与者的角色，指导MCTS提高其绩效。

修订过程本质上是迭代的，如图3所示。最初，在获得提取的思想后，我们指示LLM使用其内部知识来检测MCTS产生的思想中的任何错误。如果LLM识别出一个错误，它会在思想中产生一个错误状态，表示为se。如果没有发现错误，思路不变。从se的母状态开始，MCTS进行了另外一组L模拟，最终产生了LLM的修正思想。在涉及多个解决方案的场景中，每个解决方案都单独经历这个过程。修改完成后，我们向LLMs提供修改后的问题解决思路。修改过程可以重复多次，以增强答案的可靠性。

这种合作的MCTS-LLM框架培育了一个对双方都有利的过程，最终有助于解决问题的整体表现。由于LLM仅用于在仅一次调用的修订过程中识别错误，因此有效地保持了XOT的效率。协作修订框架利用了MCTS和物流管理系统的优势。MCTS通过模拟有效而灵活地为逻辑硕士产生候选想法，而逻辑硕士利用他们的内部知识在MCTS框架内修改和巩固这些想法，有效地将MCTS变成了逻辑硕士的世界模型。这个过程确保产生高质量的解决问题的想法。

在这里插入图片描述
图3:XOT思想修正过程的图解。

实验

我们对我们的XOT方法进行了广泛的评估，并在三个具有挑战性的任务中与几种基线方法进行了比较:24人游戏、8字谜(具有3 × 3网格)和2 × 2口袋魔方。表2概述了这些任务。这些任务的特点是复杂，需要多个步骤才能完成，并且可能有多种解决方案。

为了评估XOT的有效性，我们将其与IO、CoT、CoT-SC、ToT、GoT和没有LLM的单个MCTS进行比较，以进行推断和修正。我们还微调了LLaMA-2-13B Touvron等人(2023)进行比较，使用相同的训练数据和基本事实标签。LLaMA2-13B的设置可以在附录a中找到。我们采用了GPT-3.5欧阳等人(2022)和GPT-4 OpenAI (2023)进行这些评估。请注意，对于所有调用的LLM，温度和top p都设置为0.0。我们进一步开展消融研究，以评估想法修改的影响、修改成功率以及对所提供想法完整性的敏感度，如第4.4节所述。

在这里插入图片描述

在第4.5节中，我们在多解决方案场景中进行案例研究，以说明思维结构。MCTS的计算训练成本在附录b中讨论。关于将XOT推广到其他NLP任务的讨论，如Besta等人(2023)的文件合并，可以在附录c中找到策略/价值网络配置。在我们的模型中，策略和价值网络利用共享的多层感知器(MLP)架构，该架构具有两层，隐藏单元排列为(128，256)。连接到MLP的两个头部分别负责预测vθ(s)和Pθ(s)。所有三个任务的策略/价值网络中的参数总数约为106。与LLM相比，这种设计的模型更小，效率更高。我们通过三次迭代来训练这个模型，每次迭代包括MCTS的10集自演。

评估指标。对于每个任务，我们在测试集上评估每个方法的准确性。此外，我们跟踪所有解决问题的方法所需的LLM调用次数，以及在XOT的情况下调用fθ的次数。值得注意的是，与LLM相比，fθ是一个小得多的模型。在多解方案的上下文中，准确性是以每种方法提供的任何答案是正确的问题的百分比来计算的。多解决方案准确性(MultiAcc)是指所有解决方案的平均正确率。此外，我们捕获每种方法提供的不同解决方案的总数，不管它们是否正确，表示为#Sol。注意，我们设置了多解方案中所有问题的最大解数为3。在表3至表8中，思想修正的次数用r表示

24人游戏

24人游戏提出了一个算术挑战，其目标是使用1到13范围内的四个数字，结合基本算术运算(即+、×、),以获得24的最终结果。这个博弈可能有多个有效解。

任务设置

我们从4nu收集了一个数据集，包括1，362个按照人类解决时间排序的游戏，跨越了从容易到困难的难度级别范围。在我们的测试阶段，我们随机选择了137个游戏，确保覆盖了各种难度区间。剩余的1，225个问题用于训练MCTS的政策/价值网络。在这个任务的上下文中，如表1中所概述的，思想指的是三个中间方程，而状态包括用于创建方程的可用数字(从1到4)。动作包括选择两个数字和一个运算符以形成一个等式，如果最终等式有效并产生数字24，奖励设置为1，每个输入数字正好使用一次，否则设置为-1。通过计算137个测试游戏的成功率来衡量性能。

基准和XOT设置

IO提示符由五个上下文示例支持。在CoT的情况下，我们通过包括三个中间方程来扩充每个输入-输出对。至于ToT，我们在每一步都向LLM征求一步候选思维，随后指示LLM对每个候选思维进行分类，以便进行中间选择。为了进行实验比较，我们对保留的前1名候选人(b=1)和前3名候选人(b=3)都进行了实验，其中b表示在每个步骤中保留用于探索的分支。对于GoT，我们使用LLM以与ToT相同的方式生成单步思想候选，然后我们指导LLM从所有候选中选择前1个思想来合并思想。我们还检查了一个CoT-SC基线，它从10个CoT样本中获得大部分输出。对于XOT，我们对采取的每个行动进行200次模拟，在思想修正过程中，这个数字增加到500次。

在多解决方案场景中，io、CoT和CoT-SC提示符各包含5个示例，每个问题有1到3个不同的解决方案。对于ToT，最后一步的前3名候选人(b=3)被视为不同的解决方案。GoT不是只保留前1个想法，而是在每一步从所有候选人中选择1到3个想法，以产生更大范围的解决方案。至于XOT，在对MCTS进行模拟后，我们对500个思维轨迹进行了采样，以进行探索并去除重复。具有最高计数的前3个想法被保留。

结果

表3显示了该任务中所有方法的总体性能。值得注意的是，XOT在GPT-3.5和GPT-4上一直优于其他基线，通过1次修订，分别达到79.56%和74.45%的准确率。然而，经过3次修正过程后，XOT对GPT-3.5和GPT-4的准确率分别提高到90.51%和85.40%。这强调了XOT令人印象深刻的性能，并表明修订过程大大提高了性能，只有有限的增加利用LLM和fθ。有趣的是，XOT的修订过程缩小了这项任务中建模能力造成的性能差距。正如我们观察到的，与GPT-4相比，GPT-3.5的XOT在修订后实现了更高的准确性。

此外，XOT始终优于单独使用MCTS。性能优势随着修订迭代次数的增加而增加，强调了LLM和MCTS的互补作用，强调了它们在实现卓越结果中的共同必要性。微调的LLaMA-2-13B仅在2.19%的测试数据上成功。这一性能低于IO方法，表明finetuning方法不适合规划像24小时游戏这样的任务。在GPT-4上表现最好的提示基线ToT (b=3)达到了60.58%的准确率。然而，它需要大量的LLM调用(39.83)，这导致效率低下。

相比之下，XOT只需要不到1.8个电话就可以修改。尽管XOT要求对fθ进行一些推理调用，但该模型远没有LLM复杂，这使得它成为一种更有效的方法。表4展示了多解决方案场景中不同方法的性能。总的来说，XOT仍然是MultiAcc方面表现最好的方法，远远超过其他基准。虽然与其他基线相比，XOT生成的答案数量不是最多的，但它生成的答案更准确，因为它的MultiAcc明显优于其他方法。值得注意的是，生成多个解决方案不会显著增加XOT的复杂性，因为它只需要与GPT-4进行2.31次LLM调用，以及对更小的fθ进行大约100次调用，从而保持高效。总的来说，XOT在多解方案中的出色表现证明了它产生复杂思想的能力。

8-PUZZLE

8-PUZZLE是一种经典的滑动益智游戏，由一个3 × 3的网格和八个编号的瓷砖以及一个标记为“-”的空白区域组成。其目的是将瓷砖从给定的初始配置重新排列成目标配置。8-难题的最优解所需的最大步骤数是31。这个问题属于NP完全问题的范畴，Ratner & Warmuth (1986)可能有多个解。

任务设置

我们随机生成了419个可解决的8难题，其中300个实例用于训练，119个实例用于测试。所有产生的问题都可以在9个步骤内解决。动作空间包含四个方向:[上、下、左、右]。注意，由于空白空间的动态位置，每个问题状态的合法动作空间可能不同。如表1所示，思想指的是一步一步的移动，以及移动后的拼图状态。

基线和XOT设置

IO提示符通过三个上下文示例进行了扩展。在CoT方法中，每个输入-输出对都通过合并中间合法动作集、当前动作和当前状态来丰富。在ToT中，在每个阶段，从LLM、从当前的一系列法律行动。我们将最大步长限制为9，因为所有产生的问题都可以在此范围内解决。8-puzzle的规则通过系统消息传达，包括每个动作执行的详细解释。类似地，我们对XOT采取的每个行动进行20次模拟，并把这个数字增加到50次，用于思想修正过程。

在多解决方案场景中，所有io、CoT和CoT-SC提示符都由四个示例组成。每个问题都有一到三个不同的解决方案。对于ToT (b=3)和GoT (k=3)，最大步骤数增加到12，因为正确的解决方案可能不总是最佳的，可能超过9个步骤。在XOT的案例中，在与MCTS进行模拟后，我们对50个思维轨迹进行了采样，并选择了计数最高的前3个想法。

在这里插入图片描述

结果

8字谜固有的空间复杂性、长期规划的需要以及无效动作的存在给仅依赖文本数据作为输入的LLM带来了巨大的挑战。这一挑战在GPT-3.5上基线的糟糕表现中显而易见，其IO提示的成功率仅为0%。XOT通过提供从MCTS获得的思想成功地解决了这个问题，从而将外部知识注入到解决问题的过程中。这种扩充使LLM能够解决以前无法解决的问题。总之，当使用GPT-4时，XOT在8个难题的任务中实现了1次修订93.28%的准确率和3次修订95.80%的准确率，优于最佳提示基线ToT (b=3)，后者仅实现了13.45%的准确率。此外，XOT证明了效率，因为它只需要大约1.6 LLM调用进行3次修订设置。微调的LLaMA-2-13B (0%)的不良性能揭示了幻觉的重大问题。这突出了对于需要长期规划的任务的微调方法的低效率和无效性，同时也暴露了与其使用相关的高成本。

表6中显示的多解决方案性能证实，无论是否应用修订，就MultiAcc而言，XOT方法继续优于GPT-3.5和GPT-4模型的其他基线。XOT的修订过程对GPT-4特别有益，因为与单一MCTS相比，它将MultiAcc从51.26%提高到76.33%。这些结果再次证明，XOT可以高效地为多解方案生成复杂的思维结构，使其特别适合这项任务。

口袋魔方2 × 2

口袋魔方是经典魔方拼图的简化变体。它的主要目标是通过执行各种面部旋转将所有面部恢复到统一的颜色。最优求解立方体所需的最大步骤数为11，这也是一个NP完全问题Demaine等人(2017)可能拥有多个解。众所周知，这项任务对LLMs cub来说具有挑战性。

任务设置

我们首先将魔方的所有面设置为统一的颜色，然后随机应用从魔方的27个合法动作中顺序选择的5个动作。这一过程产生了1，000个训练样本和183个测试样本。所有产生的问题都可以在4个步骤内解决。为了简化动作空间，我们将27个合法操作简化为9个动作，即:{U，U '，U2，R，R '，R2，F，F '，F2}，在我们的实验中使用了基线和XOT。如表1所示，这些想法与逐步旋转和移动后的立方体状态有关。

在这里插入图片描述

基线和XOT设置

IO提示符增加了一个上下文示例。在CoT中，我们通过包含中间动作和状态来丰富每个输入输出对。在ToT中，我们在每个阶段从LLM中检索单步思考候选项，并指示LLM对每个候选项进行分类以进行中间选择。最大步长限制为4，因为所有产生的问题都可以在此范围内解决。多维数据集的规则通过系统消息传递，系统消息包括动作空间的定义和每个动作的执行说明。对于XOT，我们对采取的每个行动进行20次模拟，并增加到500次进行修订。

在多解决方案设置中，IO、CoT和CoT-SC提示各包含3个示例，这些提示中的每个问题都提供3个独特的解决方案。至于ToT (b=3)和GoT (k=3)，允许的最大步数扩展到7。在XOT的例子中，在进行MCTS模拟后，我们收集了50个思维轨迹，我们保留了计数最高的前3个思维。

结果

口袋魔方任务，类似于8字谜，提出了一个挑战，要求空间想象技能，使LLM很难超越。正如预期的那样，大多数基线在这项任务中表现很差，有些基线达到了0%的准确性。GPT-4的最佳提示基线ToT (b=3)仅达到19.57%的成功率。相比之下，XOT可以通过1次修正达到超过77.60%的准确度，通过3次修正达到超过80%的准确度，确立了其在解决该任务方面的专家地位。这归功于来自MCTS的外部知识的注入，使LLM能够解决他们自己难以解决的问题。另一方面，与具有一次性修正的单个MCTS相比，XOT提高了30%的准确度。

这证明了整合MCTS和物流管理系统的有效性。值得注意的是，XOT在这项任务中保持了高效率，对于GPT-3.5和GPT-4只需要大约2次LLM推理调用。同样，由于严重的幻觉问题，微调过的LLaMA-2-13B与口袋立方体任务(0%)斗争。这一比较进一步验证了XOT在要求广泛规划和决策准确性的环境中的潜力。

在多解方案的情况下，XOT方法的性能仍然非常显著，使用GPT-4实现了超过77%的多用户行为控制。修订过程继续发挥着重要作用，大大提高了XOT与两个GPT模型的性能。在这种设置中，最接近的竞争对手是GoT (k=3)和GPT-4，它实现了16.85%的MultiAcc，但与XOT相比，它需要更高数量的LLM调用(13.36对4.08)和更低的MultiAcc。总的来说，XOT仍然是口袋魔方的最佳解决方案。

消融研究

在我们的消融研究中，我们考虑两个方面:修改次数对XOT的性能和效率的影响，以及性能对所提供思想的完整性的敏感度。这些角度让我们深入了解如何提高XOT的表现，并理解在复杂的问题解决任务中提供完整思想的重要性。

修订次数

需要强调的是，通过使用MCTS-LLM合作框架对思想进行多次修订，可以进一步提高每项任务的性能。在图4中，我们使用XOT方法比较了GPT-3.5和GPT-4模型的性能，在所有三个任务中使用了不同数量的修订，范围从0到3。

在“24小时游戏”任务中，随着修订次数的增加，两种模型都表现出性能的提高。值得注意的是，GPT-3.5在准确性方面一直优于GPT-4。经过三次修订，GPT-3.5达到了90.51%的准确率，而GPT-4达到了85.40%。这种性能的提高是以增加推理时间和模型调用为代价的，主要是因为需要更多的交互来产生修正的思想。对于8字谜任务，随着修正次数的增加，准确性增加的趋势仍然有效。然而，在这项任务中，GPT-4明显优于GPT-3.5。经过一次修订后，GPT-4的准确率达到93.28%，在第三次修订后，准确率提高到95.80%。相比之下，GPT-3.5在第三次修订后仅达到63.03%的准确率。在Pocket Cube任务中，性能趋势是相似的。两种模型的准确性都随着修订次数的增加而提高。GPT-3.5在没有修订的情况下从45.36%的准确度开始，并且在三次修订之后提高到84.70%。GPT-4开始时的准确率为45.90%，经过三次修改后达到83.61%。推理时间和模型调用在两个模型之间是可比较的，GPT-4在第三次修订后显示了模型调用的显著增加。

请注意，LLM调用的数量不会随着额外的修订而急剧增加，即使fθ被调用更多次来指导模拟。考虑到LLM和fθ之间推理成本的巨大差异，增加修正次数以获得更好的性能似乎是一个有利的权衡。我们还关注XOT框架内跨三个不同任务的修订流程的有效性。修订成功率计算为成功检测到的错误与未修订的失败案例数的比率，从而提供对修订有效性的洞察。GPT-3.5和GPT-4的结果见表9和表10。我们的观察揭示了XoT框架中的高修订成功率，它随着修订次数的增加而增加。这强调了LLMs在修改过程中的有效性，将其定位为思想修改的高效方法。

在这里插入图片描述
图4:准确度、LLM和fθ在XOT w.r.t .上的调用比较。

不完整的思维

在本消融研究中，我们探索了当提供不完整的思维时LLM的表现，特别是省略了思维轨迹的最后一步。这模拟了MCTS可能提供不准确或不完整想法的场景。目的是测试逻辑推理硕士是否能够独立解决问题或者依靠他们自己的推理，而不是仅仅依靠MCTS的思想作为答案。我们在表11中给出了所有三个任务的性能比较。注意，我们只比较ToT和GoT，因为其他基线本质上不支持这种比较。

结果清楚地表明，不完整的想法会导致所有三项任务的表现显著下降。GPT-3.5比GPT-4受影响更大，GPT-3.5在几个基线上达到0%的精确度。相比之下，XOT和GPT-4在24和8字谜游戏中取得了令人满意的表现，达到了40%以上的准确率。然而，XOT的性能在口袋立方体任务中受到显著影响，准确率下降到6%。这表明，对于非常复杂的任务，LLM对所提供的思想的完整性非常敏感。思维中缺少的步骤会导致性能的大幅下降，这凸显了为此类任务提供完整思维的重要性。

在这里插入图片描述

图5:XOT为多解方案中的所有三个任务生成的思维结构的例子。

案例研究

最后，在图5中，我们提供了XOT为多解方案中的所有三个任务生成的思维结构的示例。值得注意的是，由于需要多种解决方案，产生的想法在中间步骤中相互交织，并向最终目标状态汇聚。

这导致了一个类似图形的自然编织的思想结构，展示了XOT所实现的非凡的灵活性。通过对每个例子的进一步研究，在24人游戏的情况下，从初始状态达到24的目标有多个解。XOT有效地预测了这些轨迹，表明了它掌握复杂思想结构的能力。在8个谜题的例子中，我们观察到思维结构中反射的实例，具有来回循环的状态转换。这证明了XOT的自我反思能力，这是LLM的一个关键属性，正如在之前的工作Shinn等人(2023)中所讨论的。在口袋魔方的案例中，XOT指出了达到目标状态的四条不同的途径，这四条途径可以通过多种解决方案成功解决问题。

总的来说，这些案例突出了XOT是如何概括思维生成中所需的灵活性，培养LLM多样化和创造性思维的。这使他们能够有效地为一个问题提供多个高质量的答案。

实验

总结总之，我们的方法XOT通过引入简化的思维轨迹修正过程，显著提高了LLM的性能。这代表了传统问题解决方法的根本转变，从而在一系列任务中实现了显著的性能提升。值得注意的是，XOT在解决24人游戏方面表现出色，并展示了其克服需要空间推理的挑战的能力，如8-Puzzle和Pocket Cube，这些在以前对LLM来说是具有挑战性的。XOT表现出的改进的性能、效率和灵活性的显著协同作用使其成为从LLM中引出最佳响应的示例性和优越的方法。

讨论

概括虽然XOT目前用于推理和搜索问题，但是它的适用性可以扩展到更广泛的问题领域，其特征在于具有明确定义的目标的可分解任务。在XOT使用的MCTS特别适合这样的任务，因此可以推广到更复杂的问题。我们还注意到，MCTS在思维探索和生成中起着支持作用，并且可以被替代的监督或RL模型所替代，这些模型可以作为副驾驶，将现实世界模型的领域知识注入到LLM中。这为未来的研究开辟了一条充满希望的道路，使LLM能够从事更有效的规划和解决问题的过程。

限制

我们还注意到，XOT的实施需要培训额外的政策和价值模型，以加快推理过程。这种训练过程需要从真实世界环境中获取数据集，引入了额外的成本和工作。但是，请注意，这些策略和价值模型比底层的LLM小得多，计算效率也更高。因此，产生的成本被认为是低的，特别是在这项研究中的任务的背景下，其中的思想步骤和目标是明确的。在未来的研究工作中，我们打算探索在目标不太直接的情况下提高XOT训练过程效率的方法，如多智能体规划和代码生成任务Talebirad & Nadiri(2023)；Vaithilingam等人(2022年)。这一努力将把提议的XOT框架的适用性扩展到更广泛的应用领域。

就潜在风险而言，XOT容易受到MCTS模块提供不正确的中间思想的影响，这可能导致不准确的最终答案或幻觉。环境的变化可能会导致MCTS的不准确，以及随后提供给LLM的想法的不准确。然而，事实证明，LLM通过利用其内部知识，有效地修正了想法，降低了与最初想法产生中的不准确性相关的风险。此外，LLM可能会犯错误，有时会偏离MCTS模块产生的想法，从而导致错误。在采用这种方法时，应该考虑到这一点。

结论

本文提出的XOT框架标志着旨在解决复杂任务的逻辑思维模式在思维生成方面的重大进步。它通过同时实现性能、效率和灵活性来挑战“彭罗斯三角”的限制，这是现有激励模式无法实现的壮举。这一成就是通过将MCTS与预先训练的低成本政策和价值网络相结合，通过将领域知识和规划能力注入LLM，卸载思想搜索，以及促进不受约束的自由风格的思想探索来实现的。包括MCTS和LLM在内的协作式思维修正框架进一步提高了思维生成的质量。对三个复杂的真实世界问题，即24人游戏、8人拼图和口袋魔方进行的实验评估提供了经验证据，表明我们的XOT框架明显优于现有的提示范式，特别是在涉及多解问题的场景中。

附录

一个LLaMA-2-13B设置LLAMA-2-13B(微调)。为了评估从模拟中直接提取知识到较小模型中的潜力，以避免在测试中使用像GPT-4这样的大型模型，我们对LLaMA-2-13B模型进行了微调。我们的实验是在八个V100 GPUs上进行的，每个都有80GB的内存，持续了大约5个小时。训练设置包括5个时期，训练批次大小为32，评估批次大小为1，以及梯度累积的单一步骤。

评估和保存策略分别设置为“否”和“步数”，每20步保存一次，最多保存一个模型。学习率为2e-5，没有热身步骤，每2步记录一次。我们采用了余弦学习率调度器。通过使用地面真实标签(被认为比来自MCTS模拟的标签更准确)，我们旨在使用(问题，答案)对的训练数据集，将优化或搜索问题转化为更直接的预测或监督学习挑战。

MCTS的计算培训成本XoT的培训和测试政策/价值模型调用的数量在表12中列出。我们通过三次迭代来训练这个模型，每次迭代包括MCTS的10集自演。离线预训练作为一次性解决方案，通过整合外部知识来减少测试的计算负担。像ToT和GoT这样的方法，仅仅依赖于LLM的内部知识，不需要预训练，但是在测试过程中需要频繁调用LLM。例如，ToT中三个任务的LLM调用平均次数分别为39.83、54.13和56.58，平均每个测试问题50.18次。测试期间这些循环调用的计算成本超过了XoT中策略/价值模型的预训练成本。

此外，值得强调的是，GPT-3.5拥有1750亿个参数，GPT-4估计有超过1万亿个参数。相比之下，所有三个任务的策略/价值网络中的参数总数约为1e6。这种深思熟虑的设计选择产生了比LLMs小得多的模型，即使在训练期间有额外的呼叫，也能确保效率。

c .其他NLP任务的实验结果除了本文中采用的任务之外，许多其他NLP任务可以被公式化为MCTS搜索问题，使用LLM来获得奖励并使XoT适用于更广泛的场景。例如，在ToT Yao等人(2023)中，创造性写作任务使用LLM来评估生成段落的质量。同样，GoT Besta等人(2023)利用LLMs对文档合并任务的结果进行评级。这种将LLM用于奖励设计的策略正在获得关注，目前是Kwon等人(2023)积极研究的主题。

为了说明，我们在表13中给出了GPT-3.5在文档合并任务上的初步结果，其中分数表示合并文档中重复和信息完整的加权组合(越高越好)。此任务的目标是创建新的通过合并内容部分重叠的几个输入文档来创建保密协议(NDA)文档。目的是在最大限度地保留信息的同时最大限度地减少重复。

实验设置与GoT Besta等人(2023年)的论文一致。我们利用了他们存储库中提供的相同数据集。

值得注意的是，XoT成为了最有效的方法，达到了8.168的最高分。

值得注意的是，XoT保持了资源效率的平衡，平均令牌成本为15270.80，超过了ToT和GoT。这些结果强调了XoT在处理一般文本任务方面的高级能力，超越了游戏问题。

在这里插入图片描述
表12:对于不同的任务，每次迭代的训练和测试中策略/价值模型调用的数量

d提示示例提示1-3显示了用于24人游戏、8人拼图和口袋魔方的示例CoT提示。

这些模板适用于CoT、ToT、GoT和我们的XOT在最终的推理过程中。每一步思考都包括采取的行动和产生的新状态。

说明:24点游戏

使用数字和基本算术运算(+ - * /)获得24点。

提示:24的游戏

输入:2 9 10 12步:12 * 2 = 24(左:9 10 24)表达式:9，10，(12) * (2) 10 - 9 = 1(左:24 1)表达式:(12) * (2)，(10) - (9) 1 * 24 = 24(左:24)表达式:((10) - (9)) * ((12) * (2))答案:(12 * 2) * (10 - 9) = 24

复习:24的游戏

使用给定的[输入]数字和基本的算术运算(+、-、*、/)，严格按照步骤来达到24的结果。

所有的【输入】数字通过基本的算术运算(+、-、*、/)都可以达到24位。

如果最后的答案不是正好24，那么对应的【步骤】就被认为【错误】。

请帮我根据它左边的数字，在[步骤1，步骤2，步骤3]中找出确切的错误步骤。如果您不确定哪一步是错的，请从[步骤1]开始分析，以便更好地理解。

输入:2 9 10 12步:[步数1] 12 * 2 = 24(左:9 10 24)表达式:9，10，(12)*(2)[步数2] 24 - 10 = 14(左:9 14)表达式:9，((12)*(2))-(10)[步数3] 9 + 14 = 23(左:23)表达式:(9) + ((12) * (2)) - (10)步数不对。因为最后也到不了24。具体来说，23不等于24。【步骤2】不对。因为从第二步就不可能达到24。第二步之后，左边的数字是9，14。

9 + 14 = 23 9 * 14 = 126 9 - 14 = -5从[步骤2]不可能达到24。

说明:8道难题

你是解决8道难题的虚拟专家。请按照下面的说明和规则完成解答。你的目标是通过有效的移动达到目标状态。

【目标状态】0 1 2 3 4 5 6 7 8【说明】8字谜由一个3×3的网格组成，网格中包含8个编号的瓷砖(从1到8)和一个空格(用0表示)。只能水平或垂直移动0，目标是从给定的初始状态到达目标状态。目标状态通常是按顺序排列的数字，第一个位置是0:[目标状态]0 1 2 3 4 5 6 7 8[规则] 1。只有0可以水平或垂直移动。

2.每次移动都是从以下选项集中选择的:-'左':向左移动0-'下':向下移动0-'右':向右移动0-'上':向上移动0例如:移动前:1 2 3 4 0 6 7 8 5移动'左'后:1 2 3 0 4 6 7 8 5移动前:1 2 3 4 0 6“向下”移动后的7 8 5:1 2 3 4 8 6 7 0 5移动前:1 2 3 4 0 6 7 8 5移动“向右”后:1 2 3 4 6 0 7 8 5移动前:1 2 3 4 0 6 7 8 5移动“向上”后:1 0 3 4 2 6 7 8 5 3。必须根据“0”的位置从有效移动集中选择下一个移动。

例如:p1 p2 p3 p4 p5 p6 p7 p8 p9 (1)如果' 0 '位于位置' p1 '，则有效移动集为['右'，'下']。

(2)如果“0”位于位置“p2”，则有效移动集为[“左”、“右”、“下”]。

(3)如果“0”位于位置“p3”，则有效移动设置为[“左”、“下”]。

(4)如果“0”位于位置“p4”，则有效移动集合为[“右”、“上”、“下”]。

(5)如果“0”位于位置“p5”，则有效移动集合为[“左”、“右”、“上”、“下”]。

(6)如果‘0’位于位置‘P6’，则有效移动集合为[‘左’，‘上’，‘下’]。

(7)如果“0”位于位置“p7”，则有效移动设置为[“右”、“上]]。

(8)如果“0”位于位置“p8”，则有效移动设置为[“左”、“右”、“上]]。

(9)如果“0”位于位置“p9”，则有效移动设置为[“左”、“上]]。

4.不允许对角移动。

5.目标是返回能够达到目标状态的招式。

提示:8-Puzzle

所有给定的问题都可以在1到9步内解决。必须从有效的移动集中选择下一个移动。你最多可以走9步。尽量用最少的步数(≤9)达到目标状态。* *不要超过9步。* *[初始状态]: 3 1 2 6 4 5 7 8 0[过程]:3 1 2 6 4 5 7 8 0第一步:选择一个有效移动从:[左，上]移动:左当前状态:3 1 2 6 4 5 7 0 8第二步:选择一个有效的移动从:[左，右，上]移动:左当前状态:3 1 2 6 4 5 0 7 8第三步:选择一个有效的移动从:[右，上]移动:上当前状态:3 1 2 0 4 5 6 7 8第四步:选择一个有效的移动从:[右，上]移动:上当前状态:0 1 2 3 4 5 6 7 8完成。

【移动】:左，左，上，上

修改:8-拼图

给定的【过程】不正确，因为它最终没有达到目标状态。

如果最终答案没有达到目标状态，那么对应的【过程】就被认为【错误】。请帮我根据它左边的数字，在[步骤1，步骤2，步骤3，...].如果您不确定哪一步是错的，请从[步骤1]开始分析，以便更好地理解。

请帮我确定错误的确切步骤编号。你必须提供一个错误的步骤。

[初始状态]:3 1 2 6 4 5 7 8 0[过程] 3 1 2 6 4 5 7 8 0步骤1:选择一个有效的移动从:[左，上]左3 1 2 6 4 5 7 0 8步骤2:选择一个有效的移动从:[左，右，上]左3 1 2 6 4 5 0 7 8步骤3:选择一个有效的移动从:[右，上]上3 1 2 0 4 5 6 7 8步骤4:选择一个有效的移动从:[右，上]右3 1 24 0 5 6 7 8完成。

给出的[过程]是不正确的，因为数字3，4，0，5最终不是他们的目标位置。拼图未能达到其目标状态。

现在请帮我确定错误的确切步骤编号。你必须提供一个错误的步骤。如果您不能提供准确的步骤编号，请考虑可能是“所有步骤都是错误的”。

【第四步】不对，用Move:对。

说明:口袋立方体

你是解决一个2x2口袋立方体的虚拟专家。你的任务是将一个打乱的2x2魔方恢复到原来的状态。所有给定的问题都可以在1到4步内解决。

你不能超过11步。提供恢复所需的移动顺序。请按照下面的说明和规则完成解答:1。一个2x2的口袋立方体有六个面，即:[上、前、下、左、右、后]，每个面都由一个2x2的正方形网格组成，每个正方形都有自己的颜色。

2.立方体中的颜色用数字表示:[0，1，2，3，4，5] 3。立方体的状态被表示成一个facelets展开图，例如:上:0 0 0 0前:5 5 2 2下:3 3 3 3左:1 1 4 4右:4 4 1 1后:2 2 5 5 4。口袋立方体的复原是移动每个面上的方块，使其具有相同的数字。

一些示例还原状态是:[还原状态]上:0 0 0 0前:2 2 2下:3 3 3左:4 4 4右:1 1 1 1后:5 5 5 5或[恢复状态]上:2 2 2 2前:0 0 0下:3 3 3 3左:1 1 1右:4 4 4 4后:5 5 5您必须移动到立方体才能达到恢复状态，不限于上述状态。

注意，我们只需要每张脸有相同的数字，不管哪张脸有哪种颜色。

5.你只能使用以下招式[U，U '，U2，R，R '，R2，F，F '，F2]。

[“U”:将立方体的上表面顺时针旋转90度。例如，移动后U:上:0 0 0前:2 2 2 2下:3 3 3左:4 4 4右:1 1 1 1后:5 5 5将变为上:0 0 0前:1 1 2 2下:3 3 3左:2 2 4 4右:5 5 1 1背:4 4 5 5 "U ' ":将立方体的上表面逆时针(或逆时针)旋转90度。例如，move U ':Upper:0000 Front:2222 Down:3333 Left:4444 Right:1111 Back:5555将成为Upper:0000 Front:4422 Down:3333 Left:5544 Right:2211 Back:1155 " U2 ":将立方体的上表面旋转180度(半圈)。例如，移动后U2:上:0 0 0前:2 2 2下:3 3 3左:4 4 4右:1 1 1 1后:5 5 5 5会变成上:0 0 0前:5 5 2 2下:3 3 3左:1 1 4右:4 4 1 1后:2 2 5 5 "R ":顺时针旋转立方体的右表面90度。例如，移动后R:上:0 0 0前:2 2 2 2下:3 3 3左:4 4 4右:1 1 1后:5 5 5将变为上:0 2 0 2前:2 3 2 3下:3 5 3 5left:4 4 4 Right:1 1 1 1 Back:0 5 0 5 " R ' ":将立方体的右侧逆时针旋转90度。例如，在移动R ':上:0 0 0前:2 2 2下:3 3 3左:4 4 4右:1 1 1 1后:5 5 5将成为上:0 5 0 5前:2 0 2下:3 2 3 2左:4 4 4右:1 1 1 1后:3 5 3 5“R2”:将立方体的右表面旋转180度。例如，移动后R ':上:0 0 0前:2 2 2下:3 33 3左:4 4 4右:1 1 1后:5 5 5 5会变成上:0 3 0 3前:2 5 2 5下:3 0 3 0左:4 4 4 4右:1 1 1 1后:2 5 2 5“F”:将立方体正面顺时针旋转90度。例如，移动后F:上:0 0 0前:2 2 2下:3 3 3左:4 4 4右:1 1 1后:5 5 5将变为上:0 0 4 4前:2 2 2下:1 1 3 3左:4 3 4 3右:0 1 0 1后:5 5 5 5 "F ' ":将立方体的正面逆时针旋转90度。例如，在移动F ':上:0 0 0 0前:2 2 2下:3 3 3左:4 4 4右:1 1 1 1后:5 5 5将成为上:0 0 1 1前:2 2 2下:4 4 3左:4 0 4 0右:3 1 3 1后:5 5 5 "F2 ":将立方体的正面旋转180度。例如，在移动F2:上:0 0 0前:2 2 2下:3 3 3左:4 4 4右:1 1 1后:5 5 5 5会变成上:0 0 3 3前:2 2 2下:0 0 3左:4 1 4 1右:4 1 4 1后:5 5 5

提示:口袋魔方

所有给定的问题都可以在1到4步内解决。* *您不能超过11步。**请完成[过程]并返回[恢复动作]。

【初始立方体状态】:上:4 5 4 4前:5 1 5 0下:0 0 2 0左:1 1 3 2右:2 2 4 3后:3 3 1 5【过程】:【步骤1】【移动】R[当前多维数据集状态]上:4 0 4 0前:5 5 0 1下:0 1 2左:1 1 3 3右:2 2 4 3后:4 3 5[步骤2][移动]U '[当前多维数据集状态]上:0 0 4 4前:0 1 0 1下:2 2 2左:1 1 3 3右:4 3 4 3后:5 5 5[步骤3][移动]F '[当前多维数据集状态]上:0 0 0 0前:1 1 1 1下:2 2 2左:3 3 3 3右4 4回:5 5 5 5完了。

现在严格按照上面的流程形成还原招式。

[恢复移动]: R U' F '

修订版:袖珍立方体

给定的[过程]不正确，因为它最终没有达到目标状态。

如果最终答案没有达到目标状态，那么对应的【过程】就被认为【错误】。请帮我根据它左边的数字，在[步骤1，步骤2，步骤3，...].如果您不确定哪一步是错的，请从[步骤1]开始分析，以便更好地理解。

请帮我确定错误的确切步骤编号。你必须提供一个错误的步骤。

[初始立方体状态]:上:4 5 4 4前:5 1 5 0下:0 0 2 0左:1 1 3 2右:2 2 4 3后:3 3 1 5[过程]:[步骤1][移动]R[当前立方体状态]上:4 0 4 0前:5 5 0 1下:0 1 2 2左:1 1 1 3 3右:2 2 2 4 3后:4 3 5 5[步骤2][移动]U '[当前立方体状态]上:0 0 4 4前:0 1 0 1下:2 2 2左:1 1 3右:4 3 4 3后:5 5 5 5[步骤3][移动]F2[当前立方体状态]上:0 0 1 1前:2 2 2下:4 4 3 3左:4 0 4 0右:3 1 3 1后:5 5 5已完成。

完成所有动作后:上脸仍然有两种不同的颜色。下面还有两种不同的颜色。左脸仍然有两种不同的颜色。右边的脸仍然有两种不同的颜色。

给定的[过程]是不正确的，因为不是每张脸最后都有相同的数字。

多维数据集还原到其原始状态失败。现在请帮我确定错误的确切步骤编号。你必须提供一个错误的步骤。如果您不能提供准确的步骤编号，请考虑可能是“所有步骤都是错误的”。

【第三步】不对，用Move: F2。