QRWKV6-32B-Instruct-Preview-v0.1：利用线性模型解锁人工智能可访问性

在这里插入图片描述

在不断发展的人工智能和机器学习领域，Recursal 推出了一个突破性的模型 QRWKV6-32B-Instruct-Preview-v0.1，它推动了效率和性能的发展。该模型是 RWKV 系列中最大、最强的模型之一，展示了线性模型在大幅降低计算成本和提高人工智能可访问性方面的潜力。

QRWKV6-32B-Instruct-Preview-v0.1 的性能令人印象深刻，在各种基准测试中经常超过或赶上其基本型号 Qwen2.5-32B-Instruct。评估结果凸显了它的能力：

Model	MMLU	arc_challenge	arc_easy	hellaSwag	lambada_openai	piqa	sciq	winogrande
QRWKV6-32B-Instruct	76.63%	60.92%	83.00%	83.03%	74.17%	82.92%	95.40%	78.22%
Qwen2.5-32B-Instruct	81.77%	58.70%	77.06%	85.19%	75.22%	81.23%	95.00%	72.85%
RWKV-EagleX-7B-v2	43.84%	41.55%	74.45%	56.00%	75.02%	77.64%	93.00%	73.32%
Falcon-Mamba-7B	59.72%	59.13%	81.73%	80.21%	68.89%	82.15%	93.60%	74.35%
Llama-3.1-8B-Instruct	68.11%	55.29%	79.71%	79.27%	73.12%	80.85%	96.20%	74.19%
Llama-3.1-70B-Instruct	82.40%	63.40%	83.50%	84.62%	75.68%	83.79%	97.10%	79.08%

线性模型（如 QRWKV6）为降低计算成本提供了一种前景广阔的方法，尤其是在上下文长度较大的情况下。这一创新使推理成本效率显著提高了 1000 倍，使人工智能更易于使用，并实现了 O1 式推理时间思维。

Recursal 团队开发了一种开创性的转换训练流程，使他们能够将任何先前训练过的基于 QKV 注意力的模型（如 Qwen 和 LLaMA）转换为 RWKV 变体，而无需从头开始重新训练。这一流程绕过了大量培训的需要，节省了时间和资源。

转换过程有几个好处，包括：

不过，也存在一些缺点：

在这里插入图片描述

Recursal 目前正在培训 Q-RWKV-6 72B 指导型号，并计划在 RWKV-7 结构最终确定后，采用相同的转换流程提供全系列型号，包括 Q-RWKV-7 32B 和 LLaMA-RWKV-7 70B。

QRWKV6-32B-Instruct-Preview-v0.1代表了人工智能效率和可访问性的重大进步。通过利用线性模型和创新的转换技术，Recursal 正在为更可持续、更易获取的人工智能解决方案铺平道路。随着该团队不断完善和扩展其模型阵容，我们可以期待人工智能领域出现更多令人兴奋的发展。

欲了解更多信息和更新，请访问 Recursal 的开发博客，并随时关注即将发布的论文。