Bootstrap

使用LLaMA-Factory微调时的数据集选择

LLamaFactory提供的默认数据集涵盖了自然语言处理领域中常见的多种任务,包括:

  • 指令跟随(Instruction Following): Alpaca, GLaIVE, LLaMA, MathInstruct, WebInstruct, AgentInstruct, Evol-Instruct 等。这些数据集主要用于训练模型遵循人类指令并生成文本。
  • 强化学习自人类反馈(RLHF): DPO, UltraFeedback, RLHF-V, VLFeedback, Orca Pairs, HH-RLHF, Nectar RM 等。这些数据集用于训练模型,使其生成的文本更符合人类偏好。
  • 知识密集型任务: WikiQA, WebQA, Cosmopedia, STEM-ZH, Ruozhiba GPT-4, FineWeb, FineWeb-Edu 等。这些数据集包含大量事实性知识,用于训练知识问答等任务。
  • 代码和文本: CodeAlpaca, The Stack, StarCoder Python 等。这些数据集包含代码和文本,用于训练代码生成等任务。
  • 通用文本: Alpaca-ZH, GLaIVE-ZH, UltraChat-ZH, Belle, OpenPlatypus, Firefly, Wikipedia-EN
;