杀毒网,北京地铁,魔兽争霸,节能灯,道路交通

碧蓝幻想ssr梯度表,为什么相比于RNN,LSTM在梯度消失上表现更好?


时间:

《A Critical Review of Recurrent Neural Networks for Sequence Learning》上的一个解释,如图F9,recurrent edge设为1. ,而在F10,这条边又设成一个门。请问有没有比较好的LSTM解决梯度消失的解释?

基于梯度下降训练RNN(循环神经网络)时,是把循环“展开”计算梯度的,所谓沿时间反向传播(backpropagation through time,BPTT)

(图片来源:WildML)

这样展开之后,你会发现这个循环是从过去到现在一步一步串起来的,也就是说,如果我们碰到梯度为零或接近于零的情况,前一步的梯度往往也很小,然后就撞上梯度消失问题了。

而LSTM(长短时记忆网络),因为可以通过阀门(gate,其实就是概率,共有输出、遗忘、输入三个阀门)记忆一些长期信息,所以,相比RNN,保留了更多长期信息(相应地也就保留了更多的梯度)。所以,相比RNN,在LSTM上,梯度消失问题得到了一定程度的缓解。

顺便提下,RNN的另一个著名变体,GRU(门控循环单元)也是通过更新重置两个阀门来保留长期记忆。相应地,也缓解了梯度消失问题,原理和LSTM类似。

    相关阅读

    • 碧蓝幻想土队ssr评价
    • 碧蓝幻想光ssr
    • 碧蓝幻想 10连 3SSR
    • 碧蓝幻想ssr优先度表
    • 碧蓝幻想节奏榜
    • 碧蓝幻想ssr排行