一、什么是大型语言模型(LLM)
1.1 大型语言模型(LLM)的概念
大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。
LLM 通常指包含数百亿(或更多)参数的语言模型,它们在海量的文本数据上进行训练,从而获得对语言深层次的理解。目前,国外的知名 LLM 有 GPT-3.5、GPT-4、PaLM、Claude 和 LLaMA 等,国内的有文心一言、讯飞星火、通义千问、ChatGLM、百川等。
为了探索性能的极限,许多研究人员开始训练越来越庞大的语言模型,例如拥有 1750 亿
参数的 GPT-3
和 5400 亿
参数的 PaLM
。尽管这些大型语言模型与小型语言模型(例如 3.3 亿
参数的 BERT
和 15 亿
参数的 GPT-2
)使用相似的架构和预训练任务,但它们展现出截然不同