Bootstrap

AI学习指南DeepSeek篇(7)-论文导读 DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文简介

  • 论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
  • 发布时间:2024 年 1 月
  • 论文地址arXiv链接
  • 主要内容
    • 基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
    • 支持多步学习率调度器,提升训练效率。
    • 在预训练和对齐(监督微调与 DPO)方面进行了创新。
    • 使用了一个包含 2 万亿字符的双语数据集进行预训练,比 LLaMA 的数据集更大。
    • DeepSeek LLM 在多个基准测试中表现优于 LLaMA,特别是在代码、数学和推理方面。

摘要

论文主要讨论了开源大型语言模型(LLMs)的快速发展以及如何通过 DeepSeek LLM 项目来推进这种发展。作者深入研究了规模定律,并提出了自己独特的发现,这些发现有助于在两种流行的开源配

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;