51c大模型~合集75

我自己的原文哦~ https://blog.51cto.com/whaosoft/12358482

#美国科技霸主地位要凉？

看见标题我就纳闷为什么咱们就和韩国人一样神经了是的太可悲了 ,极度叫人恶心不适垃圾新闻啊

「学生们依然对留美十分热情，更大的问题是如何鼓励美国学生投身科技领域，尤其是如何提升美国学生正在滑坡的数学水平。」

参考资料：

https://www.nature.com/articles/d41586-024-03403-4

#人类已知最大素数诞生

2¹³⁶²⁷⁹⁸⁴¹−1！前英伟达员工数千GPU爆肝算出，高达4100万位

人类已知最大的素数，被GPU发现了！英伟达前员工Luke Durant发现的2136279841-1，比前一个纪录保持者多出1600万位，由A100计算，H100确认。为此，小哥搭了数千个GPU的「云超算」，分布在17个国家。

人类已知最大素数纪录，刚刚被打破！

答案就是——2136279841-1。

更了不得的是，这个素数是英伟达GPU发现的。

一位「梅森素数猎手」、英伟达前员工，通过自己收集的大量高性能显卡，找到了这个4100万位的最大素数。比起2018年发现的上一个梅森素数，它整整长出1600万位。

这也是史上首个使用GPU找到的梅森素数。

这个素数，终结了个人电脑在发现最大素数上的28年统治。（GIMPS项目之前的所有发现，都是由相对简陋的个人计算机中的CPU完成的。）

所以，发现最大素数，究竟有什么用呢？

帝国理工学院教授数学系教授Kevin Buzzard告诉我们：没有。

是的，这个发现目前完全没有实际应用，但很多数学研究起初都是如此。

现在，最大素数可能没有用，但很可能将来某一天有人会发现它的用途。到那时他们会问数学研究界：「那么，你们的最大素数在哪里？」而数学家们会回答：「其实我们已经研究这个问题几十年了……」

不过，这次做出这一发现的英伟达前员工，还是获得了一点小小的好处——3000美元的奖励。

全新素数霸主诞生

让位吧，282589933-1，现在新的素数霸主诞生了。（这个新素数/质数也被称为 M136279841）

英伟达前员工Luke Durant发现的2136279841-1，比这位多年纪录保持者多出1600万位！

GIMPS激动地表示，这次发现不仅归功于Luke Durant，还要感谢软件开发者和服务器维护者，以及成千上万筛选了数百万非素数的GIMPS志愿者。荣誉属于大家！

为表彰以上所有人员，此次荣誉归于「L. Durant、M. Preda、G. Woltman、A. Blosser等人」

素数是什么？就是只能被1和自身整除的正整数。

这样的数字有2、3、5、7、11……以及2136279841-1。

2136279841-1，是由2相乘136279841次，然后减去1得到的。它是已知的第52个梅森素数。

令人着迷的梅森素数

长期以来，素数一直令数学家们着迷。梅森素数是一种形如2P-1的素数。

最早的梅森素数是3、7、31和127，分别对应P=2、3、5和7。现在已知的梅森素数有52个。

在大约公元前350年，欧几里得首次讨论梅森素数以来，它们一直是数论的核心。

17世纪初，法国修士马林·梅森（Marin Mersenne）提出了一个著名的猜想：哪些P值会产生素数？

为了解决梅森猜想，数学家们花费了300年，还由此诞生了几个重要发现。

有趣的是，梅森的猜想随后被证明不完全正确

欧几里得证明了每个梅森素数都能生成一个完全数。完全数是其所有真因数之和等于该数本身的数。最小的完全数是6=1+2+3，第二个完全数是28=1+2+4+7+14。

欧拉则证明了所有偶完全数都来自梅森素数。新近发现的完全数是2136279840 x (2136279841-1)。这个数字超过了8200万位！

不过，目前尚不清楚是否存在奇完全数。

延续两千年的搜寻

2000多年后，Durant为了寻找这个数字，使用了一台分布在17个国家、由数千个GPU组成的超算。

在爱尔兰的A100计算发现，2136279841-1很可能是素数；紧接着，在德克萨斯州的H100进行了确认。

寻找梅森素数的项目，叫做梅森素数大搜索（GIMPS，也即Great Internet Mersenne Prime Search）。

GIMPS成立于1996年，发现了最近的18个梅森素数。

历年发现的梅森素数

这个科研项目背后是一个慈善机构在支持，任何拥有强大的PC或GPU的人，都可以自愿加入成为志愿者——「梅森素数猎人」。

猎人们可以下载一个免费程序来搜索这些素数，任何找到新素数的幸运儿，都将获得3000美元奖励。

GIMPS发现的素数，是用费马可能素数测试来识别的。

然后一旦GIMPS服务器收到可能是素数的通知，就会使用不同程序在不同硬件上运行多个确定性的卢卡斯-莱默素性检验法（Lucas–Lehmer primality test），来进行严格验证。

目前，可能存在尚未发现的较小梅森素数，并且几乎可以肯定，存在等待被发现的更大梅森素数。

就如开头所言，GIMPS在做的事情究竟有什么意义？目前还很难说，因为大梅森素数的实际用途可以说是几乎没有。

这种质疑从几十年前就开始存在，直到后来，人们基于素数开发出了重要的密码算法。

梅森素数猎人们主要是寻找刺激感，因为寻找素数的过程相当于数学和计算机科学的基础研究。这个过程也证明了云超算的能力。

另外，别看这次的3000美元奖励不多，但第一个一亿位数的素数将获得150,000美元的奖金，而到了第一个十亿位数的素数，奖金将升至250,000美元！

各位GPU富人，你们可以行动了。

GPU的崛起

在GIMPS中，36岁的研究员、英伟达前员工Luke Durant，是最活跃的志愿者之一。

此前的猎人们，发现最大素数都是用的CPU。

在2017年，一位叫Mihai Preda的猎人感受到了GPU的巨大潜力，编写了GpuOwl程序用来测试梅森数，并且把软件向所有GIMPS用户开放。

Luke Durant对于GPU的巨大能量一直心知肚明。他认为，如果能找到新的梅森素数，就能证明GPU不仅可以用于AI，也适合于基础数学和科学研究。

从23年10月，Luke开始为GIMPS做贡献，彼时云中GPU可用性的爆炸性增长，为Mihai的软件提供了独特的机会。

于是，Luke干脆开发了一套「云超算」，在多个GPU服务器上运行和维护一套GIMPS软件。

最终，这台云超算跨越了17个国家的24个数据中心，由成千上万个服务器GPU组成。

经过近一年的测试，他成功了！

10月11日，爱尔兰都柏林的一台A100 GPU报告称：2136279841-1可能为素数。

10月12日，美国德州的一台H100通过Lucas-Lehmer测试，确认了它为素数。

大梅森素数搜索：寿命最长的分布式项目

1996年1月，大梅森素数搜索项目（GIMPS）由George Woltman成立。

1997年，Scott Kurowski使GIMPS能够自动利用数千台普通计算机，来搜索「稀有的数学瑰宝」。

GIMPS是世界上寿命最长的分布式项目之一。

它最初的软件仅在英特尔PC上运行。几年后，Ernst Mayer编写了一个可以在多种非英特尔处理器上运行的程序。这个程序在独立验证几乎每一个GIMPS素数方面，都发挥了重要作用。

十年前，专为GPU设计的软件诞生。几年后，Mihai Preda的突破性gpuowl程序问世。现在，GIMPS可提供适用于各种CPU和GPU的完整程序套件。

GIMPS项目背后的算术算法也有着独特历史。此次发现2136279841-1的程序，就是基于一种特殊的算法。

1990年代初期，已故的苹果科学家Richard Crandall发现了一种方法，可以将卷积（本质上是大规模乘法运算）的速度提高一倍。

这种方法不仅适用于素数搜索，还适用于其他方面。

为此，Crandall申请了快速椭圆加密系统的专利，利用梅森素数快速加密和解密信息，现由苹果拥有。

George Woltman用汇编语言实现了Crandall的算法，从而产生了一个前所未有高效的素数搜索程序，奠定了所有成功GIMPS项目的基础。

为了传统！

人们对这于些数学宝藏的追寻，始于公元前300年左右。

当时，欧几里得想要在他的《几何原本》中描述偶完全数。他意识到偶完全数都与某个素数p形式为2ᴾ-1的素数密切相关（现在称为梅森素数）。

随后，Cataldi、笛卡尔、费马、梅森、Frenicle、莱布尼茨、欧拉、Landry、Lucas、Catalan、Sylvester、Cunningham、Pepin、Putnam和Lehmer（仅举几例）依时间先后研究了大素数。

我们怎能不加入这样一个杰出团体呢？

在决定如何处理大数、如何描述其因子以及发现素数的过程中，很多初等数论都得到了发展。

探索产生的衍生价值

对美国来说，第一个将人类送上月球具有重大的政治价值，但对社会最具持久价值的是其衍生成果。

比如，为太空探索开发的新技术和材料，如今已成为日常用品；而教育基础设施的改进，让很多人成为了职业科学家和工程师。

寻找下一个创纪录的素数，也是如此。

刚刚提到的那些数学巨匠（如欧几里得、欧拉和费马），都在探索过程中为初等数论留下了伟大的定理（如费马小定理和二次互反律）。

随着时间推移，人们需要找到一种更新、更快的大整数乘法方法。

1968年，Strassen发现了如何使用快速傅里叶变换（Fast Fourier Transform）进行快速乘法运算。1971年，他和Schönhage对方法进行了完善，并成功发表。如今，GIMPS使用的是Richard Crandall开发的改进版算法。

梅森搜索也被教师用来激发学生的研究兴趣。

人们喜欢收集珍稀且美丽的物品

梅森素数，通常是已知的最大素数，既珍稀又优美。

自从欧几里得在大约公元前300年开始寻找和研究梅森数以来，发现的还不到50个——这确实称得上珍稀！

同时，它们也很优美。

数学，像所有研究领域一样，有着明确的美学标准。我们寻找那些简短、简洁、清晰的证明，如果可能的话，还要能够将之前不相关的概念结合起来或教会你一些新东西。

梅森素数拥有最简单的素数形式之一：2ⁿ - 1。其素数证明优雅而简洁。

为了荣耀！

为什么运动员要努力跑得比别人更快，跳得更高，标枪投得更远？仅仅是出于对获胜的渴望。

这种竞争精神并不是为了他人。就如攀岩者被险峻悬崖吸引，登山者渴望山峰。

而梅森素数猎人们，就如同登山者。

他们对人类最大的贡献，并非仅仅体现在实用层面，而是滋养了人类的求知欲望和探索精神。

为了测试硬件

自电子计算机时代开始，寻找素数的程序就被用作硬件测试工具。

例如，英特尔会在出货前使用GIMPS项目的软件程序来测试奔腾II和奔腾Pro处理器。而著名的奔腾bug，就是在Thomas Nicely计算孪生素数常数的相关研究中被发现的。

为了更好地了解分布规律

尽管数学不是一门实验科学，但数学家们经常会寻找具体的例子来验证猜想，并希望能在之后证明它们。

随着研究实例数量的增加，我们对其数学分布的理解也会相应加深。著名的素数定理（Prime Number Theorem）就是数学家们通过仔细研究素数表而发现的。

为了钱？

也有一些人仅仅为了奖金。

毕竟15万美元和20万美元，也是不小的数目了。

参考资料：

https://gizmodo.com/nvidia-computer-finds-largest-known-prime-blows-past-record-by-16-million-digits-2000514948

https://www.mersenne.org/why_join/

https://www.mersenne.org/primes/?press=M136279841

#实测昆仑万维对话AI「Skyo

会读诗、知晓雷军摆拍

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

不过，由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难，因此这个赛道的玩家并不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今，这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能，并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能，并于近日支持 iOS 用户与该语音助手交流。

与此同时，国内一些厂商陆续推出了类似的实时语音对话大模型及应用，比如智谱、科大讯飞等，填补了一些空白。如今，这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手。

，时长00:05

声音听起来还不错吧！Skyo 内置了非常清亮、爽朗的男声。

Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造。从名称上看，Skyo 中的「o」同样代表了 omni 的意思，并落在语音对话场景，直接对标了 GPT-4o。从定位和功能上看，作为一个智能语音互动产品，Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。

可以说，用户想要在 AI 语音对话中体验的场景和功能，Skyo 基本上都能 hold，还针对当前 AI 语音助手存在的一些痛点进行了优化。

实时对话 AI

一要准、二要快

与传统语音助手的主要区别在于，基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务，并开始从「工具」的属性过渡到「人类伴侣」。

自 GPT-4o 之后，语音交互场景的 AI 具备了前所未有的感知能力，在更智能化、更多面手之外，不仅响应延迟明显降低了，还能准确读懂用户的情感语调，如兴奋、高兴或悲伤，并以逼真的方式模仿和回应。

不过，随着更多用户体验到 GPT-4o 语音功能，它的一些缺点陆续显露了出来，比如不擅长识别自然停顿、无法准确响应要求的话题等。

同样地，此后出现的一系列对标 GPT-4o 的产品，如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等，虽然都宣称要打造自然流畅的 AI 对话，但从用户反馈来看，依然存在着一些直接影响对话体验的短板，比如可用性差、中断频繁和延迟严重等。

当然，面对 AI 实时语音对话助手的常见通病，Skyo 也需要尽力去克服。究竟效果怎么样呢？我们还是得看它的现场表现。

一手实测

会念诗、还拿捏住了拟人化

在与 Skyo 来了场面对面的交谈后，我们收获了一些小惊喜。

首先，我们来咨询 Skyo 一些健康常识问题，他回答的比较合理、全面，也有侧重性。当中，我们在他没有回答完上个问题的时候，就开始了下个问题，他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景，并在两个问题之间顺滑地切换。

我们还发现，Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」，这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰，会出现「哎呀」等感叹词，拟人化属性很强。

，时长00:52

其次，情感化反应已经成为现阶段语音交互 AI 追求的主要目标之一，在对话中要有能力识别出用户的情绪波动并给予准确的反馈。

Skyo 在这方面做得也不错，他能够理解用户情绪，并使对话更具人性化。当我们跟他说一些烦心事时，他会安慰我们，情绪价值给得很足，还给出了一些建议。

，时长00:31

我们接着让 Skyo 讲个小笑话，结果「冷翻了全场」。

既然他不擅长讲笑话，那就换个最近网络上的热门话题，问他知不知道小米雷军在汽车工厂摆拍，看起来他对这件趣事挺门清的。

，时长01:30

再让 Skyo 对最近李子柒的回归做一个评价，从结果来看，他的语言组织和总结能力还是不错的。如果放在现实世界中，他写作文应该是把好手。

这同时也意味着 Skyo 具备了一定的实时资讯获知和知识拓展能力，借助外部知识库来强化自己。

，时长01:13

最后，让 Skyo 切换成英姿飒爽的女声，并让她念了一首诗。她第一时间选择了李白的《静夜思》，看样子是有点浪漫基因在身上的。

，时长00:28

再以男声朗诵徐志摩的《再别康桥》，感情充沛，节奏把握得也很好。

，时长00:20

这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子，如何炼成的呢？

以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术，其中框架链路自研并保持业界领先。这样一来，在高精度理解用户语音输入内容（即听得准）的基础上，做出比较快速的响应（即答得快），响应时间一般在 1 秒左右。

另外，得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发，Skyo 还能够在高强度对话中保持稳定性和流畅性，并在情绪表达、实时交互等方面更加契合用户需求。

不过，我们也得承认，现阶段 Skyo 的功能并不完善，在回复的过程中偶尔也会出现声音的扭曲失真，但这都是进化路上所要经历的。

未来，Skyo 将继续修炼自己，并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。

当 Scaling Law 放缓

多模态 AI 应用势在必行

最近，Scaling Law「撞墙」的消息开始在 AI 社区传播，领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难，比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。

虽然之后这一观点遭到了一些人的驳斥，但不可否认的是，随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响，大模型开发速度的放缓似乎是必然的。

奥特曼：「墙」不存在。

相反，基于大模型的 AI 应用正在走向百花齐放，比如搜索引擎、音乐生成、语音交互、智能体，可以拓展生成式 AI 的落地场景并重塑人机交互范式，带来多样化 AI 体验和生产力提升。因此，在保证基座模型性能「不掉队」的前提下，形成完整的应用矩阵，对于想要持续站稳脚跟的厂商来说尤为重要。

在这方面，昆仑万维可以说布局较早且合理。一方面，自研天工系列基座大模型已经发展到 4.0 版本，性能处于全球领先水平。另一方面，构建了清晰、多元的 AI 业务矩阵，在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓，两手都要硬。

此次，Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样，也将成为构筑全栈式大模型能力堆栈的重要一环。

我们了解到，Skyo 实时语音对话助手将于近期上线天工 App，并接入天工搜索以获取更准确的实时资讯。可以预见，此举将进一步丰富天工平台的功能，让用户打开手机就能体验到 AI 原生实时对话的乐趣。

回望年初，昆仑万维提出了「实现通用人工智能，让每个人更好地塑造和表达自我」的全新使命。为此，该公司以天工 AI 平台为主阵地，对其上的 AI 应用不断进行功能上的迭代更新，深拓大模型能力释放出口，将新世代的人机交互贯穿文本、图像、语音等更全模态。

未来，昆仑万维还将继续发力实时图像与视频理解等领域，并形成开箱即用的 AI 应用，从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。

#室温超导学术不端

多次Nature撤稿，这位印度裔学者被大学解雇

曾经是超导领域耀眼的明星，但近两年却深陷学术不端丑闻。

刚刚，纽约罗切斯特大学印度裔物理学家 Ranga Dias 的调查结果已经出来了，终止 Dias 在该学校的职位。

Ranga Dias

罗彻斯特大学发言人在给《华尔街日报》的一份声明中证实，Dias 不再是罗彻斯特大学的员工，也不再从事与大学有关的任何研究活动，他已被解雇，「在过去的一年里，该大学完成了一项公正而彻底的调查 —— 由一个国内外知名物理学家组成的小组进行 —— 调查了 Dias 作为主要作者和通讯作者的几篇撤回论文的数据可靠性问题。」

最终报告的结论是，他在担任教职期间存在研究不端行为。

这位发言人拒绝进一步详细说明他离职的细节，Dias 也没有回应《华尔街日报》的置评请求。

由于 Dias 没有终身教职，最终决定权归校董会所有，这一决定是在大学校长 Sarah Mangelsdorf 的建议之后作出的。

Mangelsdorf 曾在八月份写信给校董会主席和副主席，建议终止 Dias 的职位，因此这一决定并不令人意外。此外，Dias 提起的关于调查存在偏见的诉讼在四月份被法官驳回。

2017 年，Dias 加入罗切斯特大学担任教授，当时他刚刚完成哈佛大学的博士后研究，声称自己制造出了金属氢。但实验结果从未被复制，许多科学家对此表示怀疑。

在罗切斯特，Dias 将目光转向了超导体。不过在这一领域，Dias 一直被指控在多篇论文中歪曲数据，多篇论文被撤回。

Dias 陷入了投稿、撤稿的「恶性循环」

Dias 的实验室专注于高压超导性研究。在极端压力下，电子悬挂的轨道会发生扭曲，从而改变材料的化学和电子特性。这意味着可能形成在正常压力下不存在的化合物，并出现独特的导电性。在许多情况下，这些变化促使在异常高温下实现超导，尽管仍然远低于水的冰点。

不过，Dias 称其发现了一种化学物质组合，可以促使超导转变至接近室温，尽管只能在极端压力下进行。

2020 年 10 月，他们提出了一种含有氢、硫和碳的化合物，首次在 287.7±1.2K（约 15°C）的临界温度、267± 10GPa 的压力下实现室温超导性，研究登上了 Nature 封面。

虽然结果看起来合理，但关于如何处理部分数据以生成论文关键图表的细节却缺乏，Dias 也没有提供明确的解释。

论文地址：https://www.nature.com/articles/s41586-020-2801-z

随后的调查澄清了 Dias 的这篇论文没有不端行为，但在两年之后，《Nature》杂志撤回了该论文，并表示研究人员违规进行了数据处理。

2023 年 3 月，Dias 在《Nature》上发表第二篇论文，提出了另一种在较低压力下形成的高温超导体，即在 21 摄氏度、1GPa（约等于 1 万个大气压）的压强下，在镥 - 氮 - 氢体系材料中实现室温超导。

这次，潜在的问题很快显露了出来，许多作者呼吁撤回该论文，但 Dias 没有这么做。

论文地址：https://www.nature.com/articles/s41586-023-05742-0

因此，罗彻斯特大学进行了第二次调查，并在 3 月宣布得出结论，认定 Dias 存在研究不端行为，不过相关调查报告并未公开。

Nature News 采访了 Dias 的研究生，其中关于第二篇论文，学生们更清楚结果与描述不符。并且至少在一个用例中，Dias 明确扭曲了其实验室的工作。最值得注意的一点是，该论文声称合成了一种化学品，而学生们则表示这种化学品是从供应商手里买的。

2023 年 11 月，Dias 的第二篇论文也被《Nature》撤回了。

如今，Dias 丢掉了自己的教职，他还会继续室温超导研究吗？

参考链接：

https://www.nature.com/articles/d41586-024-03796-2

https://arstechnica.com/science/2024/11/scientist-behind-superconductivity-claims-ousted/

https://www.wsj.com/science/university-rochester-ranga-dias-superconductor-misconduct-61288727?st=oLtc1D&reflink=desktopwebshare_permalink

#德国科学家激进观点

意识是虚拟的，存在于大脑构建的梦中

「意识是一种模拟状态，它只能存在于梦中，而不是在物理世界中。」

AI 能否拥有意识？

针对这个问题，大家已经争论了很多年。

「我认为，从物理学的角度来说（如果物理学是正确的），我们的宇宙诞生之初几乎只有氢。这些氢在足够长的时间之后会凝聚成恒星，然后这些恒星爆炸，再凝聚…… 你身体里的大部分物质，曾经都处在恒星的中心，这有点难以想象，它们来自数十亿年前。所以，从氢一直到人类，意识是何时产生的呢？氢存在足够长的时间后，它开始自言自语。我们现在就是这样 —— 一团氢在对话。」在之前的一次活动中，马斯克曾分享过他对于意识的思考。

其实，就像马斯克所说，在回答「AI 能否拥有意识」之前，还有一些关键问题悬而未决：到底什么是意识？意识从何而来？

近期，专门研究这一方向的德国科学家 Joscha Bach 分享了一种较为激进的观点。他认为，意识是一种模拟状态，它只能存在于梦中，而不是在物理世界中。

，时长13:21

字幕由剪映自动识别。视频地址：https://www.youtube.com/watch?v=pkhuDqK1_MU

他提到，意识令人困惑的地方在于我们认为它必须是一种物理实体，因为感觉上它是真实存在的。但实际上，存在的事物并不需要物理实现。

Joscha Bach 进一步解释说，神经元和大脑本身并不是有意识的，但大脑可能会发现，如果有一个关心并感知一切的人，那将是非常有用的。因此，大脑创造了一个虚拟的模拟，就像梦境一样，我们存在于那个梦境中。

Joscha Bach 生于 1973 年，是一位德国认知科学家、人工智能研究员和哲学家，以其在认知架构、人工智能、心理表征、情感、社会建模、多智能体系统和心灵哲学方面的工作而闻名。他是一位多产的思想家，其研究旨在通过探索如何对人类智能和意识进行计算建模来连接认知科学和人工智能。

在下文中，我们对 Joscha Bach 的演讲内容进行了整理。

意识是虚拟的

我们所说的意识是什么？我们对于意识的困惑在于，我们认为它必须是物理的，因为它确实存在。然而，要真正存在，事物不需要以物理形式实现。

例如，金钱不是物理的，对吧？但如果你假设金钱不存在，你就无法解释我们的现实。金钱是通过一些小小的印刷着数字的纸张或银行账户、计算机等方式在现实中实现的，我们用它来构建现实。

金钱是一种因果模式，它之所以存在，是因为我们以一种稳定的方式将其投射到了这个世界上。它像是真的一样存在。但是，从某种程度上讲，它是虚拟的，它是以一种可行的方式实现的。

同样的，我们的心理状态也是虚拟的。如果你放大并看到物质在相互作用，你会看到神经元之间激活的这些模式。神经元不是有意识的，它们是物理机制，大脑本身也没有意识。但对大脑来说，如果有一个人能够关心并感知发生的一切，那将是非常有用的。

所以它们创造了一种模拟，这种模拟以一种梦境的方式虚拟存在，意识就在那个梦中存在。意识是一种模拟状态，它只能存在于梦中，而不是物理世界中。

这对于我们的实际体验来说，理解起来可能很困难：我们意识到我们存在于一个梦境中，这是一个巨大的「阴谋」，魔法是可能的，而物理学家告诉我们不可能。物理学讨论的是一个由奥秘数学、量子力学等构成的母体宇宙，但我们永远无法访问这个母体宇宙，因为在物理学中，你无法拥有意识，你只能在梦中拥有意识。物理学具有创造大脑和能做梦的生物以及其他类型的机器的特性。

我们对现实的感知是一种梦中的恍惚状态，我们可以解构它。如果你从梦境中醒来，你会意识到之前所经历的一切，这只不过是大脑形成的一种表征。

人脑 vs. 计算机

我们能将数字计算机与人脑进行比较吗？它们有很大的不同。人脑非常复杂。单个神经元就已经非常复杂，以至于你至少需要一个 12 层的神经网络才能理解它的输入和输出之间的关系。

那么，要模拟一个人脑需要多少台计算机呢？如果一个单个神经元就如此复杂，这个数字将是天文数字。

然而，我们也需要反过来问，如果要模拟这台计算机，需要多少个人脑呢？如果你想要无缺陷地运行一种复杂的计算机程序，需要多少个人脑？这同样是天文数字，因为我们的大脑非常模糊不清、非常缓慢、非常嘈杂、非常不可靠。

为了更好地理解这种对比，通常我们会用这样的例子：当 Stable Diffusion 模型被推出时，StabilityAI 使用扩散模型来理解所有的视觉数据。他们将数百万张图片输入其中，找出了它们的统计规律。你可以给它提示，它会生成任意图片。

这个模型包含的整个视觉宇宙，其深度和多样性的保真度远远高于人脑。它囊括了所有名人、恐龙、宇宙飞船、艺术风格…… 你可以下载它，第一版的体积大约 2GB。

这让人沮丧，因为你大脑正在做的 80% 的事情只需要 2GB 的数据，实际上它远不止这些。这让我们意识到我们实际上是多么简单，只不过我们非常高效地利用了这种「柔软的基质」。

AI vs. 有机心智

当然，这些系统的设计方式非常不同。计算机有一个 outside-in 的设计，通过我们建立的确定性结构来稳定它们，因此它们以非常有序的方式运行。我们知道每时每刻它们会做什么。而训练是解耦的。

我们给它静态数据；它在训练时不会与世界互动。它基于预测范式，使用机器学习训练算法。我们的大脑则截然不同。它采用的是 inside-out 的设计，它是自组织的，与环境实时耦合。它向着一致性优化，并不断自我发展。

计算机的技术设计是 outside-in 的，这指的是：你有一个工作台，你理解所有工具，然后通过构建额外的机制来扩展这个工作台，赋予它更多的功能。

而在自然界中，情况正好相反。你有一颗种子，比如一颗树的种子，它本身还不是一棵树，但它希望成为一棵树。为了做到这一点，它需要征服一个混乱的环境，掌控它，把它变成它能理解并可以利用的东西。

它的一个方式是分裂成许多几乎相同的单元，使它们变得可预测。然后它创造了一个可扩展的群落，不断变大。这就是自然界中 inside-out 设计的工作方式，在我们的大脑中也是如此。

如果你观察单个神经元（老鼠的胚胎神经元），它们都是单个的生命体，每一个都在试图生存，自我导向。它们必须相互连接，找到一种可以正常工作的组织形式，否则它们将饿死。这就是它的工作原理，它完全是 inside-out 的。

自组织系统

计算机科学中有一个分支研究这些自组织的原理，这项研究还没有取得实质性进展，但它已经从图灵开始，研究了反应 - 扩散模式（即通过化学反应生成的动态规则模式），并探索我们是否可以利用这些模式来理解计算和自组织系统。

后来一些人，比如在谷歌工作的 Alex Mordvintsev，构建了更现代的模拟，试图在更广泛的情境下生成这些模式。

然后，我想到了康威等人研究的元胞自动机（cellular automata）概念，即我们以一种系统化的方式、从简单的系统中构建计算，这些系统只观察它们的周遭细胞和环境的状态，然后根据它们在环境中观察到的情况改变状态。

生物学家 Michael Levin 正在扩展这个概念，将其应用到神经元胞自动机上，以解释有机体的发育过程，同时也可能解释大脑的自组织。因此，我们可以利用这些原理进行学习，比如纹理的学习等。尝试利用自组织原则来学习任意函数以控制行为，这将是非常有趣的。

神经科学家 Gerald Edelman 提出，我们的基因组并没有为我们的大脑编码非常具体的结构。相反，每个人的心智中都在进行一种演化竞争，这是一种不同治理形式之间的原始竞争。而基因组中仅有足够的信息来影响这种竞争，使它能够相对快速地收敛到正确的架构。因此，每个人的心智都是一个演化系统，每个人都有自己的心智结构演变过程。

我怀疑，意识在其中起着非常重要的作用，因为它是这种组织的主要原理。我们通常认为意识极其复杂，也许只有我们才有意识，它在自然界中非常罕见，是智慧的顶峰。然而，你不会在获得博士学位后才获得意识，对吧？

你在能够追踪手指之前就已经拥有意识了。如果有人在婴儿时期没有发展出意识，那他 / 她将无法取得任何进步，他们将永远处于植物人状态。而当我们没有意识时，我们实际上无法学习。因此，意识似乎是自然界中自组织系统的一种简单学习算法。

这只是一个假设，我不知道是否正确，但我觉得这种想法非常诱人，即意识是心智组织中的第一个，而不是最后一个步骤。

因此，意识可能比感知和思维等更加简单，所有其他的东西都源于意识对它们的组织。意识在自然界中可能比我们想象的更加普遍。

从《创世记》第一章得到的启发

也许我们不是第一个发现这一点的人。我怀疑这个理论其实一直都在我们眼前，只是我们没有注意到。

比如有一个古老的文本 ——《创世纪》的第一章。如果你读过这个文本，它比其他章节要隐晦得多。它描述了神灵在创造世界之前悬浮在水面上。在那时，没有空间、没有时间、没有光明、没有黑暗，但已经有了水。接着它创造了一个穹苍，将水分为上面和下面的水。最终，它按自己的形象创造了我们。

我不喜欢这些所谓的神灵悬浮在水上的故事。这意味着什么？这些人在讲一个超自然存在创造物理宇宙的故事，他们糊涂了吗？他们声称做了什么样的实验？他们与燃烧的灌木丛对话了吗（《圣经》中有上帝通过燃烧的荆棘与摩西对话的故事）？这在哪个宇宙中是有效的实验？谁会相信呢？

也许这个故事意味着别的什么？也许它是一个关于意识和认知在心智中如何产生的六步理论。因为我们身处的宇宙是一个梦。我们梦见了自己身处的这个宇宙。物理学中没有颜色、声音、情感和面部表情。它们都存在于我们的心智中，是我们理解现实的方式。

在那个文本写作的时代，物理宇宙并不存在。那时，人们还没有发现用简短的微分方程来描述宇宙的想法。相反，他们意识到我们在一个梦境中。因此，他们在自己、他人和孩子身上观察这个梦是如何形成的。

所以，这一切从意识悬浮在基质（substrate）之上开始。我们现在知道这个基质是神经元，他们当时不知道，所以他们用了「基质」这个词，而后来的人不知道「基质」是什么意思，就把它翻译成了「水」。因此，意识在基质之上形成，而基质被分解成不同的部分。

然后我们做了一个分离，即在基质的两个区域之间建立了一个穹苍。这两个区域，一个是世界模型，即我们在空间中感知到的东西，笛卡尔称其为「广延实体（res extensa）」；而另一部分是与我们的感知不同步、独立于感知而发生的观念、思想和思考，它们被清晰地分开。

因为如果你能感知到你的思想，那你就会陷入幻觉，你将无法正常运作。所以你必须明确地将世界和思想的范围分离。在这个古老的文本中，世界被称为「地（Earth）」，而思想的领域被称为「天（Heaven）」。

接下来的步骤是，大脑学会了在内部产生振荡，并将这些振荡的强度转化为我们所感知的亮度，就像我们在白天看到的颜色以及与黑暗形成对比的明暗变化一样。通过这种方式，大脑现在能够构建出一个连续的视觉维度。

接下来，它学会了如何在内部产生振荡，并将这些振荡的强度转化为我们所感知的亮度，就像我们在白天看到的颜色以及与黑暗形成对比的明暗变化一样。因此，它现在有了一个连续的维度。通过组合维度，我们可以创造物体。

它所创造的第一个物体是通过组合两个维度产生的平面，而这个平面与地面相关联。婴儿很高兴地在地面上爬行，在二维世界中理解它。某个时候，婴儿能够发现第三个维度，现在它可以推理出如何建造一座塔，而非常小的婴儿是无法理解这一点的。

接着，它学会了如何在液体中以有机形状创造固体，并理解了光线随着时间的变化，以及如何对光线变化保持不变性。然后，它创造了所有的植物和动物，并为它们命名。再强调一次，这些并不是物理的物体，而是你心智中存在的具有名字的物体。

儿童如何发展出意识

接下来，它还创建了一个关于生物体兴趣的模型，并意识到练习的目的是在这个世界上为有机体导航。

最终，它识别出了自己作为这个有机体的身份。我们通常在两岁半到五岁之间看到这种情况发生，那时孩子们开始用第一人称谈论自己。在此之前，他们已经会说话，但会用第三人称谈论自己。

我不认为这是因为「我」这个词太复杂，也不是因为他们从未听过别人用这个词，而是因为他们在进行这种转换之前还没有以第一人称来认同自己，在他们切换到这个新的 spirit 之前，这个 spirit 是按照原始意识的形象创造出来的，但它是一种认为自己是男人或女人的东西，是一种以人类身份来表达自己身份的东西。

所以，我们基本上是由我们的意识，由我们心智中的婴儿意识创造出来的。然后，我们被放到这个世界上，放到我们的心智所创造的模拟世界中。接着，我们忘记了是我们自己创造了这个世界，并认同自己是这个世界中的一个人类存在，受制于这个世界。

直到有一天，我们开始冥想，或者服用致幻剂，再次从中醒来，意识到：「天啊，我实际上不是那个自我模型。我不是那个自我，那个自我只是一个虚构的模型，那只是我心智讲述的一个故事。其实我是整个宇宙，我是所有的一切。」然后你进一步醒悟，意识到：「哦，不，我实际上是创造这一切的存在，我是我与之互动的一切的创造者，这一切对我来说是合理的。」

自然界中的 agent

因此，意识基本上是在创造一种非常复杂的自然学习算法，一种自我延续的智能循环信息 Transformer（Self Perpetuating Intelligent Recurrent Information Transformer），简称 spirit。spirit 基本上就是一种 agent。

天哪，我们刚刚重新发现了一些「爆炸信息」。自然界中存在「agent」。这种「agent」是一种能够改变事物的因果模式。

这台电脑里的软件不是物理意义上的，但它存在因果关系。它可以稳定地改变事物。

如果我们意识到让生命之所以为生命的恒定因素不是细胞分子、机制或基因，而是运行在细胞分子、机制或基因上的软件，这将是一个非常有趣的视角。可以从泛灵论（ animism）来研究问题了。

#Chinese SimpleQA

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

核心作者包括贺彦程，李世龙，刘佳恒，苏文博。作者团队来自淘天集团算法技术 - 未来生活实验室团队。为了建设面向未来的生活和消费方式，进一步提升用户体验和商家经营效果，淘天集团集中算力、数据和顶尖的技术人才，成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向，致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用，引领 AI 在生活消费领域的技术创新。

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

为了进一步同步推进中文社区对模型事实正确性的研究，淘天集团算法技术 - 未来生活实验室团队提出了 Chinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集，可以全面探测模型在各个领域的知识水平。具体来说，Chinese SimpleQA 主要有六个特点：

中文：专注于中文语言，并特地包含中国文化等特色知识相关的问题
全面性：涵盖 6 个大类主题（中华文化、人文与社会科学、自然科学、生活艺术与文化、工程技术与应用科学、社会）和 99 个子类主题
高质量：我们进行了全面且严格的质量控制，有包括 52 位外包和 6 位算法工程师的参与
静态：参考答案都是在时间上保持不变的，保证了评测集的长期有效性，可以长期作为模型知识能力的评估基准
易于评估：评测数据的问题和答案非常简短，评测可以基于任意的模型，能够以较低成本和较快速度进行高一致性的评测。
有难度和区分度：我们评估了 40 + 国内外开源和闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8)，其他大部分模型都处于低分状态，其中 GPT-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。

基于中文 SimpleQA，我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 scaling law、模型校准、RAG、对齐税等研究问题，后续本评测集都可以作为这些方向的重要参考之一。

总之，我们希望 Chinese SimpleQA 能帮助开发者深入了解其模型在中文领域的事实正确性，同时也能为他们的算法研究提供重要基石，共同促进中文基础模型的成长。

论文链接：https://arxiv.org/abs/2411.07140
项目主页：https://openstellarteam.github.io/ChineseSimpleQA
数据集下载：https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
代码仓库：https://github.com/OpenStellarTeam/ChineseSimpleQA

一、数据集构建

在构建 Chinese SimpleQA 数据集的过程中，我们采用了严格且周密的流程，确保数据质量达到高标准。主要分为自动化构建和质量控制两个阶段：

1. 自动化构建阶段，主要包括五个步骤：

（1）知识内容提取与过滤：我们从维基百科等多种知识领域中收集大量富含知识的文本内容，并利用规则和质量评估模型筛除低质量数据。

（2）自动生成问答对：制定问题标准，基于高质量的知识内容，利用大型语言模型（LLM）基于标准条例自动生成问题与答案对。其中大概制定了 9 条严格的细则，包括：答案必须唯一且确定、答案不应随时间变化等。

（3）自动质量验证：通过 LLM 根据预先设定的标准对生成的问答对进行初步筛选，剔除不符合要求的样本。

（4）结合工具验证：引入 RAG 和 Agent 的方式，结合外部检索工具收集验证信息，指导 LLM 进一步准确评估答案的事实正确性。

（5）难度级别过滤：过滤掉过于简单的样本，提升数据集的难度，以发现 LLM 的普遍存在的知识边界。具体来说，如果一个问题四个模型都能正确回答，则认为该问题过于简单并予以舍弃。

2. 质量控制阶段，我们引入了严格的人工验证流程：

（1）每条数据在隐藏答案后交由两位独立的标注员进行标注，首先判断问题是否符合预定标准。不符合的问题将被淘汰。然后要求每位标注员结合权威来源（如维基百科、百度百科）的相关信息填写答案，同时需要提供至少两个参考链接，确保答案可溯源。

（2）若两位标注员的答案不一致，由第三位标注员进行复审，最终确定答案。

（3）安排多名算法工程师进行多轮抽检与反馈，同时不断细化标准

整个构建和标注过程中，初步生成了 10,000 对问答对，经过难度评估和多轮验证，最终只保留了约 3,000 对高质量的问答对，确保了数据集的高质量和严谨性，希望为评估 LLM 的事实正确性提供正确的引导。

二、评测指标

评测方式和指标直接遵循 OpenAI 的方式，主要有以下四个指标：

三、评测榜单

我们评估了 17 个闭源模型和 24 个开源模型，排名榜如下：

不同模型在 Chinese SimpleQA 上的结果。关于指标，Correct（CO）、Not attempted（NA）、Incorrect（IN）和 Correct given attempted（CGA）分别表示 “回答正确率”、“未回答率”、“回答错误率” 和 “回答精确率”。关于主题，Chinese Culture（CC）、Humanities（HU）、Engineering, Technology、Applied Sciences（ETAS）、Life, Art, and Culture（LAC）、Society（SO）和 Natural Science（NS）分别表示 “中华文化”、“人文与社会科学”、“工程、技术与应用科学”、“生活、艺术与文化”、“社会” 以及 “自然科学”。

总的来看，o1-preview 表现最佳，同时有几个近期专注于中文的闭源大模型（如 Doubao-pro-32k 和 GLM-4-Plus）的表现与 o1-preview 相近。从榜单表现来看，首先，“mini” 系列模型（如 o1-mini, GPT-4o-mini）的表现明显不如其对应的大模型（如 o1-preview, GPT-4o），这表明 “mini” 系列在记忆事实知识方面有明显的下降。其次通常越大的模型表现更好，例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未尝试（NA）” 项上得分较高，比如 o1-mini 和 InternLM2.5-1.8B，其 NA 分数分别为 20.5 和 31.2，远高于对应大模型的得分（如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7）。另外，各模型在不同主题上的表现差异显著，特别是中文社区的大模型（如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek）在 “中国文化（CC）” 主题上明显优于 GPT 或 o1 模型，而在科学相关主题（如 ETAS 和 NS）上，o1 则具有显著优势。

四、实验发现

我们还在 Chinese SimpleQA 上探索了 inference scaling law、模型校准、RAG、对齐税等热门研究课题（具体详见论文）。得出了以下几个有见地的发现：

1. 更大规模的模型有更好的校准性能

我们要求模型在回答问题时提供 0 到 100 的信心指数，以衡量模型的校准程度，即模型对其答案的自信程度。理想的校准模型应该是信心指数与答案的实际准确率相匹配。实验结果显示，GPT-4o 的校准优于 GPT-4o-mini，而 o1-preview 优于 o1-mini。在 Qwen2.5 系列中，校准效果依次为 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B，说明更大规模的模型具有更好的校准性能。此外，对于所有评估的模型，当信心指数大于 50 时，它们的信心水平都低于了完美校准线，表明它们普遍对自身回答的准确性过于自信。

2.O1 提出的推理 scaling law 在事实类 QA 上也成立

我们研究了不同模型在增加推理计算资源和回答准确性之间的关系。具体方式是从 Chinese SimpleQA 中随机抽取 50 个样本，每个样本要求模型独立回答 100 次。通过 Best-of-N 方法随着推理次数的增加来计算模型的回答准确性。结果表明，随着推理次数的增加，所有模型的响应准确性都提高，并最终达到上限。这一现象与 OpenAI o1 发布时提出的结论表现一致。

3.RAG 仍是快速提升模型能力的捷径

我们同时在 Chinese SimpleQA 上探讨了检索增强生成（RAG）策略在提升 LLMs 事实正确性方面的效果。我们基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系统。结果表明，所有模型在配置 RAG 后准确性都显著提高，例如，Qwen2.5-3B 的性能提升了三倍多。同时，在配置 RAG 后各模型之间的性能差异也显著减少，例如，带有 RAG 的 Qwen2.5-3B 与 Qwen2.5-72B 的 F-score 相差仅 6.9%。这表明 RAG 可显著缩小模型性能差距，使得较小模型在 RAG 支持下也能获得高性能。因此，RAG 仍是增强 LLMs 事实性的一条强有效的捷径。

4. 大部分模型都有明显的 “对齐税” 问题

我们对比分析了预训练模型与对齐后的模型在评测集上的表现。结果显示，尽管不同模型在后期训练后表现各异，但大多数模型的表现都显著下降。其中，Baichuan2 系列模型下降最为明显，Baichuan2-7B 和 Baichuan2-13B 的 F-score 分别下降了 47% 和 28%。这反映出当前大多数大语言模型的对齐训练在幻觉缓解方面仍有明显不足，也突显了评测集的价值。

评测集涵盖 99 个主题和领域，能够全面检测模型在各个领域的知识水平，可以帮助各个领域的研究者识别最适合其特定需求的模型。目前 o1-preview 模型表现最为全面，但是评测结果展示了许多其他模型在特定垂直领域的强有力的表现（具体详见论文和榜单）。

最后，欢迎广大研究者使用我们的评测集进行实验和研究。淘天集团算法技术 - 未来生活实验室团队将持续更新和维护数据集及评测榜单，为中文社区的发展贡献力量。

#That Chip Has Sailed

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

终于，面对近年来对自家自动 AI 芯片设计研究的质疑，谷歌坐不住了，发文回应！论文作者中包括了谷歌首席科学家 Jeff Dean。

论文地址：https://arxiv.org/pdf/2411.10053

论文标题：That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design

我们先来回顾一下事情的来龙去脉：

2020 年，谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》，介绍了其设计芯片布局的新型强化学习方法 AlphaChip。在 2021 年，这项研究发表在 Nature 上并开源了出来。

此后，AlphaChip 激发了 AI 芯片设计方面的大量工作，并在谷歌母公司 Alphabet 三代 TPU、数据中心 CPU 和其他芯片中部署，并由外部芯片制造商扩展。

然而，ISPD 2023 上的一篇论文对谷歌 AlphaChip 的性能提出了质疑（Cheng 等人），论文指出，尽管谷歌承诺会提供数据和代码，但实际上这些资源并不完全可用。

论文地址：https://arxiv.org/pdf/2302.11014

Cheng 等人还认为基于谷歌的 Circuit Training（CT）框架的 AlphaChip 和《Nature》论文存在几项不一致：如输入网表的预放置信息、代理成本函数的权重设置、宏观和标准单元群集的放置规则等。

根据他们的评估，相比模拟退火算法（SA），在大多数情况下，AlphaChip 的代理成本更高、HPWL 也不如 SA 方法。

但谷歌方称：「他们并没有按照我们 Nature 论文中描述的方法运行。」

例如 Cheng 等人的论文中没有预训练 RL 方法（消除了从先验中学习的能力）、使用的计算资源少得多（RL 经验收集器减少 20 倍，GPU 数量减少一半）、没有训练到收敛（机器学习标准做法），并且用于评估的测试用例也是过时的。

在最近一期 CACM 上，Synopsys 的杰出架构师 Igor Markov 也发表了对三篇论文的元分析，包括登上《Nature》的 AlphaChip 原论文、Cheng 等人投稿到 ISPD 的论文以及 Markov 未发表的论文，总结了人们对 AlphaChip 的各种质疑。

文章地址：https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

谷歌还拉了一张时间线：

因此，面对以上质疑，谷歌通过本文进行了回应，确保没有人因为错误的原因而放弃在这个有影响力的领域继续创新。

Jeff Dean 发推表示，Cheng 等人的论文很大程度上并没有遵循谷歌的方法，尤其是没有进行预训练，在算力、训练收敛方面也都存在缺陷。

Jeff Dean 还认为，Igor Markov 的文章提出了含蓄的指控，完全没有根据。他很惊讶 Synopsys 竟然想与此事扯上关系，也很惊讶 CACMmag 竟然认为发表这些指控是恰当的。除了两篇有缺陷、未经同行评议的文章之外，没有任何证据或技术数据。

Cheng 等人在复现谷歌方法时的错误

Cheng 等人并未按照谷歌在《Nature》中的描述复刻论文中方法，因此他们的结果不好，并不意外。

以下是谷歌指出的主要错误：

未对强化学习方法进行预训练

AlphaChip 的核心优势在于能够从先验中学习，即在正式测试前通过「练习」模块中进行预训练。去除这一点，相当于评估一个完全不同且效果变差的方法。

下图 2 中展示了：训练数据集越大，AlphaChip 在新模块上的布局效果越好。

AlphaChip 的原论文中也通过下表展示了对 20 个模块进行预训练，模型可以掌握更有效的布局策略的效果。

此外，AlphaChip 的原论文中多次强调预训练的重要性。例如下图所示，在开源的 Ariane RISC-V CPU 上，未预训练的强化学习策略需要 48 小时才能接近预训练模型 6 小时的效果。

AlphaChip 在主数据表中的实验结果正是基于 48 小时的预训练，但 Cheng 等人没有进行任何预训练。这意味着强化学习模型从未接触过芯片，需要从零开始在每个测试案例上学习布局。

这就像对未见过围棋对局的 AlphaGo，却得出了 AlphaGo 不擅长下围棋的结论。

为此，Cheng 等人在论文中指出，谷歌开源的内容不支持复现预训练。但预训练仅需运行多个案例的训练过程，开源的数据一直支持预训练。

在 Cheng 等人的论文中称，截至目前，对 AlphaChip《Nature》论文和 CT 框架的数据和代码都未完全公开，因此，评估遇到了阻碍。

用的计算资源少了一个数量级

强化学习经验收集器比 Nature 论文中少 20 倍 (26 个 VS 512 个)，GPU 数量也少一半 (8 个 VS 16 个)。计算资源变少往往需要更长的训练时间才能达到相同的效果。

根据另一篇复现 AlphaChip 的论文《Scalability and Generalization of Circuit Training for Chip Floorplanning》，使用更多 GPU 进行训练可以加速收敛。

如果 Cheng 等人能够按照 AlphaChip 原论文中的描述配置实验，其结果可能会有所改善。

没有训练到收敛

众所周知，没训练到收敛会显著影响模型性能。

从 Cheng 等人的项目网站，可以找到四个模块的收敛曲线（Ariane-GF12、MemPool-NG45、BlackParrot-GF12 和 MemPool-GF12），但在这些模块的训练中均未达到收敛状态（他们还没提供 BlackParrot-NG45 或 Ariane-NG45 的曲线）。

对于这四个模块，训练均在相对较少的步数下被中断。

在不具代表性且无法复现的基准上进行评估

Cheng 等人使用的基准（45nm 和 12nm 的节点）与 AlphaChip（7nm 以下的节点）所用的相比，更老更旧，在物理设计上差异显著。

对于 10nm 的技术节点，多重图形化技术容易引发布线拥塞问题。

因此，对于没那么先进的技术节点，可能需要调整 AlphaChip 的奖励函数中的相关组件。

AlphaChip 的研究团队称：「我们主要为 7nm、5nm 以及更先进的工艺节点设计，对于前几代节点，尚未深入研究。但我们欢迎社区在这方面的贡献！」

此外，Cheng 等人未能或不愿提供用于复现其主要数据表中结果的综合网表。

对此，AlphaChip 的研究团队称：「Cheng 等人虽说对我们的方法进行了大规模重现，但是不是复现错了？我们建议直接使用我们的开源代码。」

除了在复现谷歌方法时存在错误，Cheng 等人还存在一些其他问题，包括如下：

将 AlphaChip 与闭源商业自动布局器做对比；
在调整标准单元设计时，对初始布局进行了人为「消融」；
有缺陷的相关性研究；
对谷歌工程师验证的错误声明。

Cheng 等人声称，谷歌的代理成本与最终指标没有很好的相关性，但他们自己的相关性研究实际上表明，总体代理成本与除标准单元面积之外的所有最终指标之间存在微弱但正相关的相关性。具体如下图 6 所示。

最后，谷歌表示 AlphaChip 完全开源，他们开源了一个软件存储库，以完全复现《Nature》论文中描述的方法。RL 方法的每一行都可以免费检查、执行或修改，并且提供源代码或二进制文件来执行所有预处理和后处理步骤。

GitHub 地址：https://github.com/google-research/circuit_training

#LiveBench

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

大模型格局又变了？

刚刚，国内 AI 领域传来一则重要消息。

头部大模型创业公司阶跃星辰，凭借万亿参数大语言模型 Step-2，在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩，成为了前十名之内唯一的国产大模型。

排在阶跃星辰 Step-2 身前的，只剩下 OpenAI 和 Anthropic 两家公司。

榜单地址：https://livebench.ai/#

LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的，今年六月才首次上线。

它旨在消除现有 LLM 基准的局限性，被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

LiveBench 提出了一种创新的基准测试方法，其中包含 6 大类 18 项任务。

为了避免大模型「作弊」，LiveBench 每月发布新问题，并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题，以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案，这样就可以在不使用 LLM 评审员的情况下，对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法，LiveBench 提供了一个公平、准确的评估平台，还同时推动了 LLM 的持续改进和社区参与。

此次杀入榜单前十的 step-2-16k-202411 模型的「Global Average」得分位列第五，已经非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是，在这次提交的成绩中，Step-2 的指令跟随（IF Average）得分全榜排名第一，展示了对语言生成细节的强大控制力。具体来说，该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事，但须遵守一项或多项指令，例如字数限制或在答辩中纳入特定元素。

不断进化的 Step-2 万亿参数大模型

自从最初的预览版发布以来，Step-2 一直在经历快速的技术迭代，迅速缩短与国际最顶级大模型的差距。

今年 3 月，阶跃星辰发布了 Step-2 语言大模型预览版，这是国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间，阶跃星辰发布了 Step-2 万亿参数语言大模型正式版，在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。

细看下来，Step-2 万亿参数语言大模型有两大亮点：采用 MoE 架构，万亿参数。

训练 MoE 模型主要有两种方式：基于已有模型通过 upcycle（向上复用）开始训练，或者从头开始训练。upcycle 方式对算力的需求低、训练效率高，但上限低（比如基于拷贝复制得到的 MoE 模型容易造成专家同质化严重）。如果选择从头开始训练 MoE 模型，虽然训练难度高，但能获得更高的模型上限。

阶跃星辰团队在设计 Step-2 MoE 架构时选择完全自主研发从头开始训练，通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计，让 Step-2 中的每个「专家模型」都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。

此外，从头训练这样一个万亿参数模型对于系统团队是很大的考验。在 Step-2 训练过程中，阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，成功完成了 Step-2 的每一次升级。

基于 Scaling Law，在模型参数达到万亿规模之后，数学、编程等涉及推理的能力都会显著提升。这也最终推动了 Step-2 今天能够取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成绩。

不断进化的 Step-2 万亿参数语言大模型，已经接入了阶跃星辰 C 端智能助手「跃问」，在跃问 App 和跃问网页端（https://yuewen.cn）都可以使用。

阶跃星辰的大模型矩阵打造之路

相比国内大模型领域的几家知名公司，阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办，于去年 4 月成立，今年 3 月才开始崭露头角。

阶跃星辰创始人、CEO 姜大昕，曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。

但这家公司却在短短几个月时间站稳了国内 AI 创业公司的第一梯队，并在一年内快速发布了包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V、图像生成模型 Step-1X 在内的 Step 系列模型 “全家桶”。

从 AGI 技术路线上看，阶跃星辰的选择是：单模态 - 多模态 - 统一多模态理解和生成 - 世界模型 - 通用人工智能（AGI）。

在快速迭代模型的同时，这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前，阶跃星辰已经完成了自身的大模型 + 产品矩阵，呈现出强势崛起的姿态。

#创业公司red_panda

文生图排行榜第一！创业公司red_panda，中国公司？

「red_panda」（小熊猫）模型有主了。

前几天在 Hugging Face 文本转图像排行榜上排名第一的 red_panda，是一个名为 Recraft V3 的模型，由 AI 初创公司 Recraft 提供。

Recraft V3 以 1172 的 ELO 评分位居第一，超越了 Midjourney、OpenAI 和其他公司的模型。

榜单地址：https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

试用地址：https://fal.ai/models/fal-ai/recraft-v3

当时这个神秘模型一夜爆火，但迟迟没有机构认领，于是大家纷纷玩起了猜谜游戏，网友们否定了包括 Stability AI、OpenAI 在内的几乎所有能想到的机构。

还有人猜测这个模型来自中国一家实验室。

让大家意外的是，这是一家刚成立两年的公司，总部设在英国伦敦。

Recraft 发布的 Recraft V3 模型在文本生成方面提供了前所未有的质量，他们还推出了几项重要的新功能，让用户可以更好地控制 AI 生成，比如可以指定图像中的文本大小和位置、精确的样式控制及新的修复功能。

文本生成无限制：Recraft V3 是图像生成领域唯一可以生成带有长文本（而不是只有一个或几个单词）的图像的模型。

专为设计打造：Recraft V3 允许用户控制文本的大小和位置，以创建详细、专业品质的视觉效果，非常适合品牌推广、营销和复杂的图形布局。

精确的风格控制：Recraft V3 接受风格作为模型输入，并且不需要重新训练来捕获细节。只需选择一组图像来代表品牌的审美，并完善候选风格，直到生成图像完全符合所需的外观和感觉。

此外，Recraft 还提供了第一个支持矢量艺术和风格一致性的 API，为开发人员提供无缝集成，支持可缩放矢量图形（SVG），以实现品牌一致性。

初创公司 Recraft

Recraft 于 2022 年成立，致力于帮助设计师创造和完善视觉效果，更好地控制整个设计过程，确保创作者能够通过人工智能完全控制他们的创作过程，将想法变成现实。

#3名高中生中了AI顶会NeurIPS

来自人大附中、北师大实验中学、上海星河湾双语学校

顶不住了，真的顶不住。

AI顶会NeurIPS公布了今年「高中组」论文的获奖结果。

3名国内的高中生，杀出重围，拿下了3篇Spotlight。

分别是中国人民大学附属中学Alan Wu、北京师范大学附属实验中学Yuhuan Fan、上海星河湾双语学校Tianrui Chen。

获奖的论文是：

获奖论文不仅会在NeurIPS官网上重点展示，第一作者们还会被邀请参加NeurIPS 2024的颁奖现场（PS：今年在加拿大温哥华举办）。

今年是NeurIPS首次设置了高中论文track，这次也是首次高中组开奖时间。虽然是第一次接收高中生论文，但是一点不影响这个赛道的卷。

大会一共收到了全球高中生提交的330个项目，最终，评出4篇获奖论文，21篇Spotlight，7.5%的中奖率一点不亚于硕士博士的竞争激烈程度。

已经不能用卷来形容AI圈了。。。

早在今年4月NeurIPS官宣开设高中组论文投稿的消息时，就引爆了社区。原本属于硕士和博士们的AI顶会，未成年的高中生也能参与了，这意味着什么各方说法不一。

首先，NeurIPS官方关于高中组项目的初衷是关注 「机器学习的社会影响」，要求是

每份提交的作品必须完全由高中生作者独立完成；
每份提交的内容都能突出使用机器学习产生的积极社会影响或产生积极社会影响的潜力；
提交的论文需要遵从标准的 NeurIPS 格式和页数规定，审稿使用 OpenReview，每份提交内容都将由匿名审稿人进行评审打分。

适用的领域包括但不限于：农业、气候变化、教育、医疗、卫生、流浪、饥饿、食品、安全、精神、健康、贫困、水质等。

这次，3篇Spotlight项目也都是在医疗健康、地理上，小编目前只找到了1篇论文链接，就是人大附中的这篇《Vision-Braille: An End-to-End Tool for Chinese Braille Image-to-Text Translation》，研究主题是盲文图像到文本的端到端工具。

链接：
https://arxiv.org/abs/2407.06048

他们的研究工作是设计了一套端到端的盲文识别+翻译系统，输入是盲文图片，输出是中文汉字，也就是把盲文图片翻译成中文汉字。并且基于一个3亿参数的mT5-small模型进行了微调实验。

虽然这套pipeline已经非常成熟，但是对于一个没有ML背景的高中生来说，还是要恶补很多ML基础知识和操作，对比下自己的高中，我在发愁做题，别人在GPU上调参！

NeurIPS作为AI领域里含金量非常高的顶会，学术影响力是毋庸置疑的。在主会议中开设高中赛道，主办方想渗透到高中生群体，收揽优秀的种子人才，成为全球研究认可的顶尖会议，这确实已经是了。这么多ML博士还在焦虑怎么投中NeurIPS，现在就要强调高中生们的优秀了么，要把高中生带进这个狂野的世界了吗。

事实是，这种政策可能只对精英学校的孩子或者学术父母/顾问父母的孩子有帮助而已，而那些处境不利的学生或那些没有学术父母/导师的孩子甚至不知道 NeurIPS 是什么。

高中生已经有了选择意识，对科学感兴趣是件好事，但他们这么早就意识到科学的激烈竞争难道不是件坏事。

对于高中生来说，好好学习，学的开心，不要太早担心论文。