前言

上周启动居家开会的时候,看到有人通过「虚拟形象」功能,给自己带上了口罩、眼镜之类,于是想到了是不是也可以搞一个简单的虚拟形象系统。

大致想来,分为以下几个部分:

图片

卷积神经网络(CNN)

下面讲解一下三层CNN网络模型:

图片

卷积层——提取特征

卷积层的运算过程如下图,用一个卷积核扫完整张图片:

图片

通过动图能够更好的理解卷积过程,使用一个卷积核(过滤器)来过滤图像的各个小区域,从而得到这些小区域的特征值。

在具体应用中,往往有多个卷积核,每个卷积核代表了一种图像模式(特征规则),如果某个图像块与此卷积核卷积出的值大,则认为此图像块十分接近于此卷积核。如果有N个卷积核,那么就认为图像中有N种底层纹理(特征),即用这N种基础纹理就能描绘出一副图像。

总结: 卷积 层的通过卷积核的过滤提取出图片中局部的特征。


疑问:上图卷积后,存在边缘数据特征提取减少,大家能想到什么方式处理呢?


池化层(下采样)——数据降维,避免过拟合

池化层通常也被叫做下采样,目的是降低数据的维度,减少数据处理量。其过程大致如下:

图片

上图输入时是20×20的,先进行卷积采样,卷积核为10×10,采用最大池化的方式,输出为一个2×2大小的特征图。这样可将数据维度减少了10倍,方便后续模块处理。

总结:池化层相比 卷积 层可以更有效的降低数据维度,不仅可减少运算量,还可以避免 过拟合 。


过拟合是指训练误差和测试误差之间的差距太大。换句换说,就是模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背"(记住了不适用于测试集的训练集性质或特点),没有理解数据背后的规律,泛化能力差。


图片

全连接层——输出结果

全链接层是将我们最后一个池化层的输出连接到最终的输出节点上。假设,上述CNN的最后一个池化层的输出大小为 [5×5×4],即 5×5×4=100 个节点。对于当前任务(仅识别