TRPO中的Hessian-Free-Optimization两次梯度反向传播计算海森矩阵
目录
TRPO中的Hessian-Free Optimization(两次梯度反向传播计算海森矩阵)
1.优点
- 无需显式构建和存储海森矩阵,大大降低了计算和存储成本。在深度学习中的大型神经网络,参数数量可能达到数百万甚至更多,避免显式计算海森矩阵可以使训练过程在计算资源有限的情况下仍然能够高效进行。
- 通过两次梯度反向传播计算海森矩阵向量积可以很好地利用Pytorch等框架的自动微分机制,使得计算过程更加便捷和准确。
2.推导
,
,
是平均KL散度的海森矩阵。
首先,计算
关于
的梯度
:
然后计算
和
的点积
最后计算
关于
的梯度