摘抄自机器学习社区,仅供自己学习。
一、基础知识
1.目前主流的开源模型体系有哪些?
1,transformer体系,如BERT、GPT等
2.Pytorch Lightning:基于Pytorch的轻量级深度学框架,用于快速原型设计和实验。
3.Tensorflow Model Garden:Tensorflow官方提供的一系列预训练模型和模型架构
4.Hugging Face Transformers:流行的开源库,提供了大量预训练模型和工具,用于NLP任务。
2.prefix LM和causal LM
prefix LM,前缀语言模型,在输入序列的开头添加一个可学习的任务相关的前缀,然后使用该前缀和输入序列一起生成输出。用于一道模型生成适应特定任务的输出。
causal LM,因果语言模型,也成为自回归语言模型,根据之前生成的token预测下一个token,在生成文本时,模型只能根据已经生成的部分生成后续部分,不能访问未来的信息。
3.涌现能力?幻觉?
涌现能力是指模型在训练过程中突然表现出新的、之前未曾预料到的能力,这种现象通常发生在大模型中,原因是大模型具有更高的表示能力和更多的参数,可以更换的捕捉数据中的模式和关联。随着模型规模的增加,它们能自动学习到更复杂、更抽象的概念和规律,从而展现出涌现能力。
幻觉是指模型在生成文本时产生的不准确、无关或者虚构的信息。
业内的解决方案包括:使用更多的数据、引入外部知识源、强化模型的推理能力和逻辑推理。
4.大模型架构?
大模型通常采用基于Transformer的架构,Transformer由多个编码器和多个解码器组成。
5.用过哪些系列的开源大模型
GPT系列、BERT系列、T5系列、GLM系列。
6.大模型的Tokenizer的实现方法及原理?
大模型的Tokenizer通常使用字节对编码。BPE算法通过迭代地将最频繁出现的字节合成新的符号,构建一个词汇表,在训练过程中,模型会学习这些符号的嵌入表示。tokenizer将输入文本分割成符号序列,然后将其转换为模型可以处理的数字表示。这种方法可以有效地处理大量文本数据,并减少词汇表的规模。
7.灾难性遗忘
可能是因为模型在微调过程中学习到了过多的特定任务的知识,而忽略了通用的语言知识,这可能导致模型在训练数据上表现良好,但是在为见过的数据上表现不佳。为了解决这个问题,可以采用多任务学习,控制微调强度,定期使用通用数据回炉训练等。
二、GLM系列
1.ChatGLM3的词表实现方法
ChatGLM3使用了一种改进的词表实现方法。它首先使用字节对编码构建一个基本的词表,然后在训练过程中通过不断更新此表来引入新的词汇。具体而言,ChatGLM在训练过程中会根据输入数据动态地合并出现频率较高的字节对,从而形成新的词汇。ChatGLM3还使用了一种特殊的此表分割方法,将此表分为多个片段,并在训练过程中逐步更新这些片段,以提高模型的泛化能力和适应性。
2.GPT3、LLAMA、ChatGPT的Layer Normalization的区别是什么?各自的优缺点是什么?
GPT3:采用了Post-Layer Normalization(后标准化)的结构,即先进行自注意力或前馈神经网络的计算,然后进行Layer Normalization。这种结构有助于稳定训练过程,提高模型性能。
LLaMA:采用了Pre-Layer Normalization(前标准化)的结构,即先进行进行Layer Normalization,再进行自注意力或前馈神经网络的计算,这种结构有助于提高模型的性能和稳定性。
ChatGLM:采用了Post-Layer Normalization(后标准化)的结构,这种结构有助于稳定训练过程,提高模型性能。