RNN与Self-Attention - 悦读

RNN与Self-Attention

文章目录

1. SimpleRNN
- 1.1 $h_t$ 计算
- 1.2 激活函数
2. SimpleRNN+Self-Attention
- 2.1 状态更新
- 2.2 权重 $α$

1. SimpleRNN

学习视频：https://www.youtube.com/watch?v=Cc4ENs6BHQw&t=0s

对于时序数据，输入输出都不固定，需要many-one、many-many模型，RNN很适合时序数据
整个RNN 只有一个参数A

1.1 $h_t$ 计算

在这里插入图片描述

1.2 激活函数

为什么需要双曲正切函数作为激活函数？
假设输入为0，当矩阵A最大特征值=0.9，则 $h_{100}$ 每个元素近似为0；当矩阵A最大特征值=1.2，则 $h_{100}$ 每个元素都很大，状态向量会爆炸
在这里插入图片描述

训练参数

2. SimpleRNN+Self-Attention

学习链接：https://www.youtube.com/watch?v=Vr4UNt7X6Gw&t=0s

2.1 状态更新

对于SimpleRNN，新的状态 $h_{i+1}$ 与 $h_{i}$ 以及 $x_{i+1}$ 有关
引入Self-Attention后，新的状态 $h_{i+1}$ 与 $c_{i}$ 以及 $x_{i+1}$ 有关。

每一轮更新状态之前，都会用context vector c看一遍之前所有状态，解决遗忘问题
$c$是已有状态h的加权平均，初始$h_0$为全0向量，可以忽略

在这里插入图片描述

2.2 权重 $α$

用当前状态 $h_i$ 与已有状态作对比，包括与 $h_i$ 自己做对比，得到 $i 个 α$
在这里插入图片描述

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

GitLab 安装与配置

Python实战案例：爬取中国执行信息公开网

低代码组件扩展方案在复杂业务场景下的设计与实践

uni-app开发经验分享二十二： uni-app大转盘思路解析

springboot青海省涉藏地区牧产品销售系统-计算机毕业设计源码13100

数据结构 | 链式二叉树

tp5.1框架二项目启动

C#高级--Lambda&Linq详解

博客摘录「优化算法——模拟退火算法（c++）」2023年10月14日

Linux系统学习——进程

;