简介
在不断发展的人工智能和机器学习领域,Recursal 推出了一个突破性的模型 QRWKV6-32B-Instruct-Preview-v0.1,它推动了效率和性能的发展。该模型是 RWKV 系列中最大、最强的模型之一,展示了线性模型在大幅降低计算成本和提高人工智能可访问性方面的潜力。
绩效评估
QRWKV6-32B-Instruct-Preview-v0.1 的性能令人印象深刻,在各种基准测试中经常超过或赶上其基本型号 Qwen2.5-32B-Instruct。评估结果凸显了它的能力:
Model | MMLU | arc_challenge | arc_easy | hellaSwag | lambada_openai | piqa | sciq | winogrande |
---|---|---|---|---|---|---|---|---|
QRWKV6-32B-Instruct | 76.63% | 60.92% | 83.00% | 83.03% | 74.17% | 82.92% | 95.40% | 78.22% |
Qwen2.5-32B-Instruct | 81.77% | 58.70% | 77.06% | 85.19% | 75.22% | 81.23% | 95.00% | 72.85% |
RWKV-EagleX-7B-v2 | 43.84% | 41.55% | 74.45% | 56.00% | 75.02% | 77.64% | 93.00% | 73.32% |
Falcon-Mamba-7B | 59.72% | 59.13% | 81.73% | 80.21% | 68.89% | 82.15% | 93.60% | 74.35% |
Llama-3.1-8B-Instruct | 68.11% | 55.29% | 79.71% | 79.27% | 73.12% | 80.85% | 96.20% | 74.19% |
Llama-3.1-70B-Instruct | 82.40% | 63.40% | 83.50% | 84.62% | 75.68% | 83.79% | 97.10% | 79.08% |
线性模型:效率的关键
线性模型(如 QRWKV6)为降低计算成本提供了一种前景广阔的方法,尤其是在上下文长度较大的情况下。这一创新使推理成本效率显著提高了 1000 倍,使人工智能更易于使用,并实现了 O1 式推理时间思维。
转换过程:从 QKV 注意到 RWKV
Recursal 团队开发了一种开创性的转换训练流程,使他们能够将任何先前训练过的基于 QKV 注意力的模型(如 Qwen 和 LLaMA)转换为 RWKV 变体,而无需从头开始重新训练。这一流程绕过了大量培训的需要,节省了时间和资源。
优点和缺点
转换过程有几个好处,包括:
- 以较小的预算在更大规模上对 RWKV 线性注意机制进行快速测试和验证。
- 证明 RWKV 的架构设计和可扩展性,挑战 QKV 注意力是唯一重要组成部分的观点。
不过,也存在一些缺点:
- 该模型的固有知识和数据集训练继承自其父模型,从而将 QRWKV 限制在 Qwen 系列模型所支持的约 30 种语言范围内。
- 使用父模型的前馈网络架构设计导致与现有的 RWKV 推理代码不兼容。
- 由于计算限制,转换过程仅限于 16K 标记上下文长度,更长的上下文可能需要额外的训练。
未来计划
Recursal 目前正在培训 Q-RWKV-6 72B 指导型号,并计划在 RWKV-7 结构最终确定后,采用相同的转换流程提供全系列型号,包括 Q-RWKV-7 32B 和 LLaMA-RWKV-7 70B。
结论
QRWKV6-32B-Instruct-Preview-v0.1代表了人工智能效率和可访问性的重大进步。通过利用线性模型和创新的转换技术,Recursal 正在为更可持续、更易获取的人工智能解决方案铺平道路。随着该团队不断完善和扩展其模型阵容,我们可以期待人工智能领域出现更多令人兴奋的发展。
欲了解更多信息和更新,请访问 Recursal 的开发博客,并随时关注即将发布的论文。