Bootstrap

OpenSNN推文:OpenAI 正在开发代号为“Strawberry”的新推理技术

7 月 12 日——据知情人士和路透社审查的内部文件称,ChatGPT 制造商 OpenAI 正在一个代号为“Strawberry”的项目中研究其人工智能模型的新方法。
该项目的细节此前未曾报道过,但微软支持的初创公司正在竞相证明其提供的模型类型能够提供高级推理能力。

根据路透社 5 月份看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期,该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划,称其为一项正在进行的工作。该通讯社无法确定 Strawberry 距离公开发布还有多久。

这位知情人士表示,即使在 OpenAI 内部,Strawberry 的工作原理也是一个严格保密的秘密。
该文件描述了一个使用 Strawberry 模型的项目,目的是使公司的人工智能不仅能够生成查询的答案,而且能够提前规划,自主可靠地浏览互联网,从而执行 OpenAI 所称的“深度研究”,消息人士称。
根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型尚未解决的问题。
当被问及 Strawberry 和本文报道的细节时,OpenAI 公司发言人在一份声明中表示:“我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法,大家共同相信这些系统的推理能力会随着时间的推移而提高。”
该发言人没有直接回答有关草莓的问题。
Strawberry 项目前身是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。
两位消息人士称,今年早些时候,他们观看了 OpenAI 工作人员告诉他们 Q* 演示,该演示能够回答当今商用模型无法解决的棘手科学和数学问题。
据彭博社报道,周二,OpenAI 在一次内部全体会议上展示了一项研究项目的演示,该项目声称拥有新的类似人类的推理技能,打开新标签页OpenAI 发言人证实了此次会面,但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。
知情人士表示,OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力,并补充说,Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。
接受路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。
虽然大型语言模型已经能够总结密集的文本,并以比人类快得多的速度撰写优美的散文,但该技术往往无法解决常识性问题,而这些问题的解决方案对人类来说似乎是直观的,例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它经常会产生“幻觉”,产生虚假信息。
路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理涉及形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。
提高人工智能模型的推理能力被视为释放模型能力的关键,包括实现重大科学发现、规划和构建新的软件应用程序等。
OpenAI 首席执行官 Sam Altman今年早些时候表示,打开新标签页在人工智能领域“最重要的进步领域将是推理能力”。
其他公司,如谷歌、Meta 和微软,也在尝试不同的技术来提高人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。然而,研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如,现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。
人工智能挑战
知情人士称,Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标,但没有说明如何实现。
据四位听过该公司宣传的人士透露,近几个月来,该公司一直在私下向开发者和其他外部人士发出信号,称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名,因为他们无权谈论私人事务。
一位消息人士称,Strawberry 采用了一种特殊的方式,即对 OpenAI 的生成式 AI 模型进行“后训练”,或者在对大量通用数据进行“训练”后,对基础模型进行调整,以特定方式磨练其性能。
开发模型的后训练阶段涉及“微调”等方法,这是当今几乎所有语言模型都采用的一种方法,它有多种形式,例如让人类根据模型的响应向模型提供反馈,并为其提供好答案和坏答案的例子。
一位知情人士称,Strawberry 与斯坦福大学 2022 年开发的一种名为“自学推理机”或“STaR”的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社,STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。
古德曼说:“我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展,我们人类就需要认真思考一些问题了。”古德曼与 OpenAI 没有任何关系,对 Strawberry 也不熟悉。
该文件称,OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务,第一位消息人士解释说。
根据 OpenAI 内部文件,OpenAI 正在利用公司所谓的“深度研究”数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容,也无法确定延长的时间段意味着什么。
根据该文件和其中一位消息人士的说法,OpenAI 特别希望其模型能够利用这些功能进行研究,在“CUA”(即计算机使用代理)的帮助下自主浏览网页,并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。

;