【算法工程师面试】大模型（LLM）相关-ChatGLM篇

摘抄自机器学习社区，仅供自己学习。

一、基础知识

1.目前主流的开源模型体系有哪些？

1，transformer体系，如BERT、GPT等

2.Pytorch Lightning：基于Pytorch的轻量级深度学框架，用于快速原型设计和实验。

3.Tensorflow Model Garden：Tensorflow官方提供的一系列预训练模型和模型架构

4.Hugging Face Transformers：流行的开源库，提供了大量预训练模型和工具，用于NLP任务。

2.prefix LM和causal LM

prefix LM，前缀语言模型，在输入序列的开头添加一个可学习的任务相关的前缀，然后使用该前缀和输入序列一起生成输出。用于一道模型生成适应特定任务的输出。

causal LM，因果语言模型，也成为自回归语言模型，根据之前生成的token预测下一个token，在生成文本时，模型只能根据已经生成的部分生成后续部分，不能访问未来的信息。

3.涌现能力？幻觉？

涌现能力是指模型在训练过程中突然表现出新的、之前未曾预料到的能力，这种现象通常发生在大模型中，原因是大模型具有更高的表示能力和更多的参数，可以更换的捕捉数据中的模式和关联。随着模型规模的增加，它们能自动学习到更复杂、更抽象的概念和规律，从而展现出涌现能力。

幻觉是指模型在生成文本时产生的不准确、无关或者虚构的信息。

业内的解决方案包括：使用更多的数据、引入外部知识源、强化模型的推理能力和逻辑推理。

4.大模型架构？

大模型通常采用基于Transformer的架构，Transformer由多个编码器和多个解码器组成。

5.用过哪些系列的开源大模型

GPT系列、BERT系列、T5系列、GLM系列。

6.大模型的Tokenizer的实现方法及原理？

大模型的Tokenizer通常使用字节对编码。BPE算法通过迭代地将最频繁出现的字节合成新的符号，构建一个词汇表，在训练过程中，模型会学习这些符号的嵌入表示。tokenizer将输入文本分割成符号序列，然后将其转换为模型可以处理的数字表示。这种方法可以有效地处理大量文本数据，并减少词汇表的规模。

7.灾难性遗忘

可能是因为模型在微调过程中学习到了过多的特定任务的知识，而忽略了通用的语言知识，这可能导致模型在训练数据上表现良好，但是在为见过的数据上表现不佳。为了解决这个问题，可以采用多任务学习，控制微调强度，定期使用通用数据回炉训练等。

二、GLM系列

1.ChatGLM3的词表实现方法

ChatGLM3使用了一种改进的词表实现方法。它首先使用字节对编码构建一个基本的词表，然后在训练过程中通过不断更新此表来引入新的词汇。具体而言，ChatGLM在训练过程中会根据输入数据动态地合并出现频率较高的字节对，从而形成新的词汇。ChatGLM3还使用了一种特殊的此表分割方法，将此表分为多个片段，并在训练过程中逐步更新这些片段，以提高模型的泛化能力和适应性。

2.GPT3、LLAMA、ChatGPT的Layer Normalization的区别是什么？各自的优缺点是什么？

GPT3：采用了Post-Layer Normalization（后标准化）的结构，即先进行自注意力或前馈神经网络的计算，然后进行Layer Normalization。这种结构有助于稳定训练过程，提高模型性能。

LLaMA：采用了Pre-Layer Normalization（前标准化）的结构，即先进行进行Layer Normalization，再进行自注意力或前馈神经网络的计算，这种结构有助于提高模型的性能和稳定性。

ChatGLM:采用了Post-Layer Normalization（后标准化）的结构，这种结构有助于稳定训练过程，提高模型性能。