Attention计算中的各个矩阵的维度都是如何一步步变化的？ - 悦读

Attention计算中的各个矩阵的维度都是如何一步步变化的？

在Transformer模型中，各个矩阵的维度变化是一个关键的过程，涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程：

输入阶段

输入序列：假设输入序列的长度为seq_len，每个单词或标记通过词嵌入（word embedding）转换为一个固定维度的向量，维度为d_model。因此，输入矩阵的维度为(seq_len, d_model)。
位置编码：位置编码（Positional Encoding）通常与词嵌入向量相加，以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同，即(seq_len, d_model)。

编码器（Encoder）阶段

多头注意力机制（Multi-Head Attention）：
- 查询（Q）、键（K）、值（V）矩阵：输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k（通常d_k = d_model / num_heads），则Q、K、V的维度为(seq_len, d_k)。
- 注意力计算：Q与K的转置相乘，得到一个注意力得分矩阵，维度为(seq_len, seq_len)。经过softmax处理后，再与V相乘，得到输出矩阵，维度为(seq_len, d_k)。
- 多头拼接：将所有头的输出拼接或平均，得到最终的输出矩阵，维度为(seq_len, d_model)。
前馈神经网络（Feed-Forward Network）：
- 输入矩阵经过两个线性变换和非线性激活函数，最终输出的维度保持为(seq_len, d_model)。

解码器（Decoder）阶段

掩码多头注意力机制（Masked Multi-Head Attention）：
- 类似于编码器中的多头注意力机制，但使用了掩码来防止解码器在生成时“偷看”未来的信息。输出矩阵的维度为(seq_len, d_model)。
编码器-解码器注意力机制：
- 解码器的查询（Q）与编码器的键（K）和值（V）进行注意力计算，输出矩阵的维度为(seq_len, d_model)。

输出阶段

线性层和Softmax：
- 解码器的输出经过一个线性层，将维度从(seq_len, d_model)转换为(seq_len, vocab_size)，其中vocab_size是词汇表的大小。
- 最后通过Softmax层，得到每个单词的概率分布，用于预测下一个单词。

这些维度变化确保了Transformer模型能够有效地处理序列数据，并在各个层之间传递和转换信息。

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

容器安装gitlab

使用 PyTorch 框架复现 Two-Stream 网络过程中遇到的问题

使用IDEA运行OnlyOffice的Java示例

Linux基础操作指令

OpenCV 图像绘图、线条、文字、矩形

vue3-canvas实现在图片上框选标记（放大，缩小，移动，删除）

python 时间戳转换，求时间差等常见用法_python 时间戳差值

使用模拟和真实的 Elasticsearch 来测试你的 Java 代码

Python爬虫实战案例，从入门到进阶，零基础教程！

目标检测综述

;