为什么现在的LLM都是Decoder only的架构

结论：

LLM之所以主要都用Decoder-only架构，除了训练效率和工程实现上的优势外，在理论上是因为Encoder的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。

为什么现在的LLM都是Decoder-only的架构？ - 科学空间|Scientific Spaces

为什么现在的LLM都是Decoder only的架构？ - 知乎

为什么现在的LLM都是Decoder only的架构

悦读