TensorFlow基于卷积神经网络的表情识别分类

模型一

该模型采用经典的卷积神经网络结构，旨在实现高效的表情识别任务。网络主要包括以下几个部分：

输入层：接受形状为 [batch_size, 48, 48, 1] 的图像数据

卷积层：通过多个卷积操作提取特征，分别包括：

conv_2d 层，参数为 (64, 3)，激活函数为 relu

max_pool_2d 池化操作，池化核大小为 3x3，步长为 2

batch_normalization 调整层，用于加速训练并稳定网络输出

Inception模块：采用Inception架构，通过多个分支提取不同尺度的特征：

inception_3a 模块包含多个卷积核，分别为 1x1、3x3 和 5x5，每个分支后连接 relu 激活函数

inception_3b 模块同样包含多个卷积核，输出经过 max_pool_2d 池化后的特征图

融合层：将不同分支输出通过 merge 操作组合，形成一个更丰富的特征向量

全连接层：包括两个 fully_connected 层，分别为 2048 和 1024 个神经元，激活函数为 tanh

分类层：通过 regression 层输出最终的表情类别预测结果

网络结构图示如下：

网络架构：
├── input_data
├── conv_2d (64,3,relu)
├── max_pool_2d (3,2)
├── batch_normalization
├── inception_3a
   ├── conv_2d (64,1,relu)
   ├── conv_2d (96,1,relu)
   ├── conv_2d (128,3,relu)
   ├── conv_2d (16,1,relu)
   ├── conv_2d (32,5,relu)
   └── max_pool_2d (3,1)
├── inception_3b
   ├── conv_2d (128,1,relu)
   ├── conv_2d (128,1,relu)
   ├── conv_2d (192,3,relu)
   ├── conv_2d (32,1,relu)
   ├── conv_2d (96,5,relu)
   └── max_pool_2d (3,1)
├── merge
├── max_pool_2d (3,2)
└── batch_normalization
└── fully_connected (2048, tanh)
└── dropout (0.5)
└── fully_connected (1024, tanh)
└── dropout (0.5)
└── fully_connected (2, softmax)

模型二

该模型采用简化的卷积神经网络结构，主要包括以下部分：

输入层：与模型一相同，接受形状为 [batch_size, 48, 48, 1] 的图像数据

卷积层：通过以下卷积操作提取特征：

conv_2d 层，参数为 (64,3)，激活函数为 relu

max_pool_2d 池化操作，池化核大小为 3x3，步长为 2

batch_normalization 调整层

卷积层：继续使用以下卷积层：

conv_2d (128,3,relu)

max_pool_2d (3,2)

batch_normalization

全连接层：包括两个 fully_connected 层，分别为 1024 和 256 个神经元，激活函数为 tanh

卷积层：进一步使用以下卷积层：

conv_2d (96,1,relu)

fully_connected (1024, tanh)

dropout (0.5)

分类层：通过 regression 层输出最终的表情类别预测结果

网络结构图示如下：

网络架构：
├── input_data
├── conv_2d (64,3,relu)
├── max_pool_2d (3,2)
├── batch_normalization
├── conv_2d (128,3,relu)
├── max_pool_2d (3,2)
├── batch_normalization
├── fully_connected (1024, tanh)
├── dropout (0.5)
├── fully_connected (256, tanh)
├── conv_2d (96,1,relu)
└── fully_connected (2, softmax)