1.2 本书内容

从1.1节可以看出,视频理解涉及生活的多个方面,图1-2列举了网络视频行业中涉及的一些视频理解任务。目前视频理解已经发展成一个十分广阔的学术研究和产业应用方向。受篇幅所限,本书将介绍视频理解中的3大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频Embedding。

img

图1-2 视频理解涉及的部分任务

图像分类(Image Classification)是多种图像识别任务的基础,也是动作识别的基础,因此第2章首先对经典图像分类模型和RNN(Recurrent Neural Networks,循环神经网络,注意不是Recursive Neural Networks,递归神经网络)进行回顾。动作识别是视频理解的基础,也是学术界研究最多的视频理解领域,因此第3章和第4章会介绍动作识别。随后第5章和第6章分别介绍时序动作定位和视频Embedding。最后,附录A介绍了常用的视频处理工具。

本书假定读者已经对深度学习的基础组件有所了解,例如,读者应该了解什么是卷积(Convolution)层、什么是汇合[1](Pooling)层、什么是全连接(Fully-Connected,FC)层、什么是BN(Batch-Normalization,批量规范化)层、什么是随机失活(Dropout)、非线性激活函数如ReLU(Rectified Linear Unit,线性整流单元)的作用等。读者如果想了解这方面的详细内容,可参考(Goodfellow et al.,2016;魏,2018;吴,2020)等。