简单实现一个虚拟形象系统

小爬 • 发表于2022-11-30 12:00:39 • 28818次阅读

上周启动居家开会的时候，看到有人通过「虚拟形象」功能，给自己带上了口罩、眼镜之类，于是想到了是不是也可以搞一个简单的虚拟形象系统。

大致想来，分为以下几个部分：

下面讲解一下三层CNN网络模型：

卷积层的运算过程如下图，用一个卷积核扫完整张图片：

通过动图能够更好的理解卷积过程，使用一个卷积核（过滤器）来过滤图像的各个小区域，从而得到这些小区域的特征值。

在具体应用中，往往有多个卷积核，每个卷积核代表了一种图像模式（特征规则），如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果有N个卷积核，那么就认为图像中有N种底层纹理（特征），即用这N种基础纹理就能描绘出一副图像。

总结：卷积层的通过卷积核的过滤提取出图片中局部的特征。

疑问：上图卷积后，存在边缘数据特征提取减少，大家能想到什么方式处理呢？

池化层通常也被叫做下采样，目的是降低数据的维度，减少数据处理量。其过程大致如下：

上图输入时是20×20的，先进行卷积采样，卷积核为10×10，采用最大池化的方式，输出为一个2×2大小的特征图。这样可将数据维度减少了10倍，方便后续模块处理。

总结：池化层相比卷积层可以更有效的降低数据维度，不仅可减少运算量，还可以避免过拟合。

过拟合是指训练误差和测试误差之间的差距太大。换句换说，就是模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。模型对训练集"死记硬背"（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。

全链接层是将我们最后一个池化层的输出连接到最终的输出节点上。假设，上述CNN的最后一个池化层的输出大小为 [5×5×4]，即 5×5×4=100 个节点。对于当前任务（仅识别

申请试用