李理：自动梯度求解反向传播算法的另外一种视角

本系列文章面向深度学习研发者，希望通过Image Caption Generation，一个有意思的具体任务，深入浅出地介绍深度学习的知识。本系列文章涉及到很多深度学习流行的模型，如CNN，RNN/LSTM，Attention等。本文为第四篇。

作者：李理
目前就职于环信，即时通讯云平台和全媒体智能客服平台，在环信从事智能客服和智能机器人相关工作，致力于用深度学习来提高智能机器人的性能。

相关文章：
李理：从Image Caption Generation理解深度学习（part I）
李理：从Image Caption Generation理解深度学习（part II）
李理：从Image Caption Generation理解深度学习（part III）

前面我们讲过了反向传播算法的详细推导过程，大家可能会觉得有些复杂。事实上其实就是链式求导法则的应用。今天我们将会继续讨论这个问题，不过是从Computational Graphs的角度，也就是我们之前说过的自动求导(Automatic Differentiation or Reverse-mode Differentiation)。并且通过CS231n的Assignment2来学习使用这种方法，通过这种方法来实现一个多层的神经网络。

Calculus on Computational Graphs: Backpropagation

首先我们介绍一篇博客文章： https://colah.github.io/posts/2015-08-Backprop/ 基本是翻译过来，不过部分地方是我自己的理解，建议读者结合这篇文章一起阅读。

简介

反向传播算法是神经网络的核心算法，不过这个算法在不同的领域被多次”发现“过，因此有不同的名称。

计算图(Computational Graphs)

考虑一个简单的函数 e=(a+b)∗(b+1)e=(a+b)∗(b+1) 。这个函数有两个操作(函数)，加法和乘法。为了指代方便，我们引入两个中间变量，c和d。

c=a+b
d=b+1
e=c∗d

下面我们把它画成一个计算图，每一个操作是图中一个节点，最基本的变量a和b也是一个节点。每个节点和它的输入变量直接有一条边。比如d的输入变量是b，那么d和b直接就有一条边。

任何一个显示定义的函数（隐函数不行，不过我们定义的神经网络肯定不会通过隐函数来定义）都可以分解为一个有向无环图（树），其中叶子节点是最基本的无依赖的自变量，而中间节点是我们引入的中间变量，而树根就是我们的函数。比如上面的例子，计算图如下所示：

图片描述

给定每一个自变量的值，我们可以计算最终的函数值，对应与神经网络就是feedforward计算。具体用”算法“怎么计算呢？首先因为计算图是一个有向无环图，因此我们可以拓扑排序，先是叶子节点a和b，他们的值已经给定，然后删除a和b出发的边，然后c和d没有任何未知依赖，可以计算，最后计算e。计算过程如下图：

图片描述

计算图的导数计算

首先我们可以计算每条边上的导数，也就是边的终点对起点的导数，而且导数是在起点的取前向计算值时的导数，具体过程如图所示：

图片描述

有些边的导数不依赖于输入的值，比如：

图片描述

但是还有很多边的导数是依赖于输入值的，比如：

图片描述

因为在“前向”计算的过程中，每个节点的值都计算出来了，所以边的计算很简单，也不需要按照什么的顺序。

不过我们一般比较感兴趣的是最终函数对某个自变量的导数，比如

图片描述

根据链式法则，只要找到这两个节点的所有路径，然后把路径的边乘起来就得到这条边的值，然后把所有边加起来就可以了。

比如上面的例子b到e有两条路径：b->c->e和b->d->e，所以

图片描述

如果用“链式”法则来写就是

图片描述

路径反过来而已。

使用上面的方法，我们可以计算任何一个点（上面的变量）对另外一个点（上面的变量）的导数。不过我们一般的情况是计算树根对所有叶子的导数，当然我们可以使用上面的算法一个一个计算，但是这样会有很多重复的计算。

比如a->e的路径是 a->c->e，b->e有一条边是b->c->e，其中c->e是重复的【这个例子不太好，我们可以想像c->e是一条很长的路径】，每次都重复计算c->e这个“子”路径是多余的。我们可以从后往前计算，也就是每个节点都是存放树根变量(这个例子是e)对当前节点的导数（其实也就是树根到当前节点的所有路径的和）。

反向导数计算

图片描述

计算流程文字描述如下：
首先还是对这个图进行拓扑排序，不过是反过来。
首先是

图片描述

这个没什么好说的。
然后计算

图片描述

然后计算

图片描述

然后计算

图片描述

计算

图片描述

前向导数计算

如果我们需要计算每一个变量对某一个变量的导数，就可以使用前向计算的方法。不过我们的神经网络都是相反——计算某个一个变量（一般是损失函数）对所有变量的导数，所以这里就不详细介绍了。

至此，本系列文章的第四部分告一段落。在接下来的文章中，作者将为大家详细讲述关于Optimization、常见的深度学习框架/工具的使用方法、使用自动求导来实现多层神经网络等内容，敬请期待。

即时通讯 IM HOT

实时音视频

Agent 接入服务 NEW

AI-Native 通讯服务 NEW

社交

教育

医疗

电商

政企

出海 HOT

开发者中心

资源中心

公司介绍

安全合规

即时通讯 IM HOT

实时音视频

Agent 接入服务 NEW

AI-Native 通讯服务 NEW

社交

教育

医疗

电商

政企

出海 HOT

开发者中心

资源中心

李理：自动梯度求解反向传播算法的另外一种视角

Calculus on Computational Graphs: Backpropagation