论文简介
- 论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
- 发布时间:2024 年 1 月
- 论文地址:arXiv链接
- 主要内容:
- 基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
- 支持多步学习率调度器,提升训练效率。
- 在预训练和对齐(监督微调与 DPO)方面进行了创新。
- 使用了一个包含 2 万亿字符的双语数据集进行预训练,比 LLaMA 的数据集更大。
- DeepSeek LLM 在多个基准测试中表现优于 LLaMA,特别是在代码、数学和推理方面。
摘要
论文主要讨论了开源大型语言模型(LLMs)的快速发展以及如何通过 DeepSeek LLM 项目来推进这种发展。作者深入研究了规模定律,并提出了自己独特的发现,这些发现有助于在两种流行的开源配