基金项目:国家自然科学基金(煤炭联合基金)(U1261114); 陕西省教育厅专项科学研究项目(16JK1505); 陕西省自然科学基础研究计划面上项目(2017JM6105)
通讯作者:叶鸥(1984-),男,陕西咸阳人,博士,讲师,E-mail:oye0928@xust.edu.cn
(College of Computer Science and Engineering,Xi'an University of Science and Technology,Xi'an 710054,China)
video data quality; video detection; dirty data; near-duplicate video; abnormal video
DOI: 10.13800/j.cnki.xakjdxxb.2017.0623
视频检测技术有助于改善视频数据质量问题。随着科技进步和信息技术发展,视频数据规模急剧增加,视频数据质量问题越来越受到人们关注。针对相似重复视频数据和异常视频数据这2类脏视频数据的检测技术将有助于发现并解决视频数据质量问题。为此,通过扩展视频数据质量概念,针对这2类脏视频数据,分析和总结相关的视频检测方法及关键技术; 最后,简要说明视频检测技术研究的不足,并对视频检测技术的应用进行了总结和展望。
Video detection technology can benefit to improving video data quality.With technological advancement and information technology development,the scale of video data is growing rapidly,and the issue of video data quality is paid more and more attention.For near-duplicate and abnormal video data,the detection technologies of these two types of dirty data will contribute to find and solve the problem of video data quality.For this purpose,by extending the concept of video data quality,we analyzed and summarized the video detection methods and key technologies for these two types of dirty video data.Finally,the defects of video detection technology were pointed out,and the future research topics and application of video detection technology have been discussed.
随着计算机技术的快速发展,涌现大量视频数据,并且数据规模还在快速增加。仅据2006年7月YouTube公司对该公司网站视频数据的统计显示,每日有大约65 000个视频数据上传到该网站,而2014年9月全美视频浏览次数高达460亿次。由此可见,视频对人们生活的影响,以及视频数据的规模和增长速度都是惊人的。然而,随着视频数据规模的增大,随之而来的大规模视频数据质量问题越来越突出。据Wu等[1]通过常用的3个视频搜索引擎进行测试分析发现,搜索结果中存在大量的重复视频数据。个别情况下,重复率甚至达到93%.这些重复视频数据严重影响了视频数据的整体质量,给视频数据的存储和管理带来了挑战。此外,重复视频数据还给版权保护、危险预防和视频安全监控等应用领域带来负面影响,可能给企业和个人造成重大的经济损失。由于这些视频数据不易被发现,随着时间的推移,会进一步加剧视频数据整体质量的下降,由此造成的经济损失或潜在威胁也将进一步加大。因此,有必要检测影响视频数据质量的视频数据,为进一步清理和保证视频数据质量打下良好基础。
目前,针对视频数据质量问题,已有的理论成果只注重视频检测的高效性或准确性,而忽视了检测的全面性,很少从视频数据质量的角度考虑视频检测方法对保证视频数据质量的有效性,也忽视了视频检测与视频数据质量之间的紧密关系,使得视频检测方法在实际应用中效果不明显。文中在扩展视频质量概念的基础上,总结和分析针对视频数据质量的视频检测方法及其关键技术,指出视频检测方法研究中的不足,并对视频检测技术进行展望。
对于“数据质量”(Data Quality)[2]而言,因数据概念的广义性,使得人们对数据质量的理解不尽相同,没有一个确切定义。但是,无论从哪个角度考虑,数据质量都应该满足以下条件:在整个数据的生命周期中必须通过数据约束等方式保证没有脏数据(Dirty Data)的产生。如果因数据演化和集成过程等因素产生脏数据,则必须采用特定方法对这些脏数据进行检测和处理。由此可见,保证数据质量的根本途径是通过有效的检测方法发现并有待进一步对脏数据进行数据清洗[3]。
视频数据质量(Video Data Qualgity)是在数据质量概念的基础上,针对视频数据提出的数据质量(Video Quality)概念,有狭义的视频数据质量和广义的视频数据质量之分。其中,狭义的视频数据质量指的是视频质量。视频质量是指量化一段视频通过视频传输/处理系统时画面质量变化(通常是下降)程度的方法。狭义的视频数据质量其实指的是单个视频数据自身的质量,主要将视频画面的清晰程度等指标作为衡量视频数据质量的标准。而广义的视频数据质量指的是视频数据集的整体质量,它更加侧重于数据质量的评判标准,强调数据集合的一致性、正确性、最小性和完整性。
针对广义的视频数据质量问题,影响视频数据质量的主要因素是脏视频数据,如图1所示。脏视频数据本身是一种脏数据[4]。目前,视频数据中存在的脏视频数据类型主要分为3类:空视频数据、相似重复视频数据和异常视频数据。其中,空视频数据通常是由于视频格式转换失败等因素产生的。该类视频数据很少出现,容量很小。相比空视频数据,相似重复视频数据比较常见。它是指完全相同或者近似相同的视频数据。这类视频数据严重影响到视频数据质量。除此之外,异常视频数据也是一种脏视频数据,它是一种超出正常视频数据描述范围的错误视频数据。
目前,针对相似重复视频数据的检测,已经产生了很多理论成果,是研究的热点问题之一。除此之外,近几年,一些研究人员已经开始研究异常视频数据的检测问题,产生了一些理论成果。这些视频检测方法有助于自动发现隐藏在大量视频数据中的脏视频数据,为脏视频数据的清洗提供条件,有助于保障视频数据质量。
由于对视频语义的描述会产生偏差,大量的相关研究主要集中在基于内容的相似重复视频检测方面。文中依据视频特征的选取类别将相似重复视频检测主要分为2类:基于全局特征和基于局部关键点的相似重复视频检测。
视频全局特征是一种可以反映整个视频图像特点的信息集合,主要包括颜色特征、纹理特征、形状特征等图像特征。该类特征相对容易提取和计算,计算规模也相对较小。目前,基于全局特征的相似重复视频检测主要分为基于低层特征和基于全局视频签名的相似重复视频检测。
1)基于低层特征相似重复视频检测中的特征提取技术。
颜色特征是常见的一种低层特征。目前,相似重复视频检测主要利用颜色直方图[5]、颜色集、颜色矩[6]和颜色聚合向量[7]进行颜色特征提取与视频匹配。其中,颜色直方图使用较为广泛。常用的颜色直方图特征匹配方法主要包括直方图相交法、距离法、中心距法、参考颜色表法等。颜色直方图可以比较直观的表征图像的颜色特征,使用简单。但对颜色空间分布不同而具有相同或相似颜色直方图的视频图像的区分效果不理想。颜色集是将RGB颜色空间转换为视觉均衡的HSV等类型的颜色空间,并可对颜色空间进行量化。颜色集特征提取方法可解决颜色直方图无法区分局部颜色信息的问题,但对噪声、亮度比较敏感,且维度高,计算量大。颜色矩是利用颜色直方图的3个低阶矩表示图像颜色特征。颜色矩方法可降低描述颜色特征的维度,减少颜色集量化带来的大量计算,但无法判断图像的具体信息。颜色聚合向量通过直方图中柄内像素所占连续区域面积与阈值的比较,将大于阈值的区域内像素作为聚合像素。颜色聚合向量可用于解决颜色矩和直方图无法表达图像色彩空间位置的问题,但计算量较大。
纹理特征是纹理映射[8]和视频检测中常用的一种低层特征。它描述了图像区域中物体表面的特性。目前,常用的纹理特征提取与匹配方法主要包括:共生矩阵[9]、Tamura纹理特征[10]、自回归纹理模型、小波变换[11]等。其中,共生矩阵能够反映图像亮度分布特性,如方向、相邻间隔和变化幅度等信息。但是,由于所需参数较多,计算量相对较大。Tamura纹理特征可以很好的对应人类视觉感知,其中主要包括粗糙度、对比度和方向度等特性。但是,无法实现对于精细纹理的有效辨别。自回归纹理模型(SAR)可以表征纹理的粗糙度、方向性,具有旋转无关性。但是,该模型较难合理确定相邻像素集合的范围,影响纹理特征的表达。小波变换继承了短时傅里叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,是一种区域纹理特征提取方法。但是,该方法主要是基于二进制的小波变换,适应性受到限制。
形状特征是利用图像目标的形状度量视频图像的相似性并检测重复视频。常用的形状特征提取与匹配方法主要包括边界特征法、傅里叶形状描述法和几何参数法等。其中,Hough变化算法是典型的边界特征算法。它利用图像全局特性将边缘像素连接起来提取区域封闭的边界形状。该方法针对二维图像边缘检测效果较好,但是对于高维图像,耗时长,占用存储空间大。而傅里叶描述子通过提取二维平面上的每个边界点,通过傅里叶反变换重构边缘曲线形状。傅里叶描述子本身与图形边界尺度和起始点的选择有关。通过归一化处理后,可具有旋转、平移和尺度不变性。而几何参数法主要包括无关矩、区域面积和区域纵横比等算法。这些算法通过利用圆度、偏心率、面积等几何参数进行形状特征的视频图像检索。但是,该算法的使用必须以图像分割为前提,参数的选择会直接影响形状特征提取的准确性。此外,还有形状不变矩等其它形状特征提取方法也可用于视频相似重复检测。
针对视频数据,空间关系特征也是一种重要的低层特征。目前,提取图像空间关系特征的2种主要方法是:①在提取视频图像区域特征的基础上,通过索引方式进行特征匹配与检索; ②在将视频图像均分为若干块的基础上,通过索引方式进行特征匹配与相似重复视频检测。
由于视频数据的多样性与复杂性,通常情况下,任意一种低层特征都较难直接用于视频数据的相似性匹配和检测。因此,有研究人员提出结合不同种类低层特征进行视频重复检测。但是,这种简单低层特征的结合较难完全适用于具有复杂性的相似重复视频,并且未能考虑视频图像帧的时空特性,影响重复视频检测的准确性。
2)基于全局视频签名的相似重复视频检测的关键技术。
视频签名技术通过特定的签名产生算法可提高检测效率,增强低层特征的表征性。目前,视频签名的类型主要包括视频全局签名、视频帧局部签名、视频帧全局签名和时空签名。除视频帧局部签名是基于局部关键点的局部签名外,其他签名都是全局签名。
视频全局签名是表征整个视频数据的一种简单签名,主要分为边界关联系统签名、基于直方图的签名和聚类表征签名3类。其中,基于边界关联系统的签名提取方法主要通过主成分分析方法处理低层特征矩阵,并生成边界关联系统的签名。该签名可作为视频的全局签名,具有较强的鲁棒性。而基于直方图的签名提取方法主要包括累计直方图签名方法和基于直方图的参考视频签名方法。前者通过将视频关键帧中HSV颜色直方图的颜色特征累加到容器中,进而构造累加直方图的视频标签; 后者结合直方图,采用2维PCA签名对参考视频帧和与之相对应的视频帧进行相似性计算,从而检测视频相似性。基于直方图的签名提取方法可以有效检测颜色特征较为明显,并且视频质量较好的相似重复视频数据。但当视频质量参差不齐,颜色特征较不明显时,使用该签名的检测效果会受到影响。聚类表征签名提取方法首先将每个视频序列都概括为数量较小的若干个聚类集合,每个聚类中都由相似视频帧组成。然后通过一个固定边界的超球面来描述聚类。并在此基础上,通过2个超球面间最小密度的交集来估计并度量聚类的相似性,以此作为衡量视频相似性的标准。该方法可以提高视频相似性度量的效率。
视频帧全局签名是表征视频帧的一种简单签名。目前,视频帧全局签名主要包括词袋签名和全局描述子签名。其中,词袋签名首先将所有关键点描述子进行聚类,并给每个聚类分配一个“视觉词语”,由此可构成视觉词表,即词袋,可作为视频帧签名,用于视频帧间的相似性度量。该方法具有较好的扩展性和准确度,可以保证检测的质量。而全局描述子签名是从局部关键点的时空信息中产生的一种视频帧全局签名,它是通过将高维局部关键点分散到给定深度的超矩形内形成的一种类似直方图的签名。
时空签名表征了视频数据的时空特征。基于时空签名的技术相对于其它基于全局的签名技术具有更好的不变性,并对于局部签名技术又有更高的效率,因此,时空签名提取技术已经在相似重复视频检测中越来越被人们关注。该签名集中于视频帧的变化和兴趣点的轨迹等变化情况。通过时空签名,可以从中发现视频数据的时空特性,也可能从中发掘视频的部分语义特征,这对于相似重复视频检测会起到重要作用。目前,已有的时空标签提取方法主要包括基于条件熵和局部二值模式的时空标签提取方法、时空后置滤波方法、视频距离轨迹方法、视频速写方法、镜头长度、颜色转换和质心方法、基于局部描述子轨迹方法和视觉时态网络方法。时间-空间签名提取方法可在部分情况下用于相似重复视频检测。
最后,针对这3种全局视频签名的比较分析见表1.
基于局部关键点的相似重复视频检测采用视频帧局部签名的检测方法,主要包括视频关键帧提取、局部关键点特征检测、获取相似关键帧匹配对和视频相似性度量4个步骤。
其中,关键帧提取方法主要包括镜头边缘检测方法和关键帧选取方法2种
1)镜头边缘检测方法主要包括基于像素差方法[21]、基于直方图方法[22]、基于边缘的方法[21]和基于模型的方法[22]。其中,基于像素差的方法通过计算相邻视频帧对应位置的像素差度量视频内容的不连续性。这种方法简单,但易受到噪声影响; 基于直方图的方法将颜色空间划分为多个离散的颜色小区间,然后计算该小区间内的像素点个数,之后通过距离函数度量视频帧间的相似性。该方法注重全局分布,抗噪声能力强。但未考虑像素点位置,对运动变化不敏感。基于边缘的方法通过检测镜头转换时边缘的变化进行关键帧提取。该方法在边缘明显的情况下效果较好,但计算量较大。基于模型的方法利用镜头编辑的先验概率,对视频镜头转换建立数学模型,自顶向下对镜头切换进行检测。该方法可对镜头渐变的情况具有较好效果,但是建模较难。
2)关键帧选取方法主要包括帧平均法和直方图平均法。帧平均法通过计算镜头所有帧中某像素点位置的平均像素值,将与该点平均值最为接近的像素点对应的视频帧作为关键帧。而直方图平均法与帧平均法思路相似,采用直方图平均值作为参考[23]。
局部关键点检测是指对图像几何和光照变化具有不变性的局部特征点检测,主要方法包括SIFT算法[23]、PCA-SIFT算法[24]和GLOH算子[25]。SIFT算法描述了图像特征灰度梯度的分布情况,具有良好的不变性和一定的稳定性。但是,算法维度较高,计算速度和存储压力较大。为此,提出PCA-SIFT算法。在计算描述子时,通过特征点邻域进行采样,再用主成分分析模型进行降维,减少算法的计算量。GLOH算子是SIFT描述子的一种延伸,可增强SIFT算子的鲁棒性和独立性。目前,基于局部关键点的相似重复视频检测方法利用关键帧的颜色等低层特征、上下文信息和减少局部关键点数量的方式提高检测速度。
在获取关键帧和局部关键点的基础上,需要获取局部关键点匹配对,主要包括M2O匹配算法[23]、OOS算法和LIP-IS索引结构[26]等算法。其中,M2O局部关键点匹配算法可使SIFT匹配点数据减少,增加算法的稳定性。但是,由于要对所有关键点进行匹配操作,该算法的计算量很大。OOS局部关键点匹配算法也在查找最相邻关键点的过程中,需要耗费大量的时间。而OOS结合LIP-IS索引结构可以过滤掉一部分不需要匹配的关键点,提高匹配效率。
最后,需要通过相似性度量进行相似重复视频检测。目前,常用的主要方法包括基于局部关键点匹配对的相似性度量方法、Pattern Entropy算法[27]和伸缩和旋转不变的模式熵匹配算法[28]。其中,基于局部关键点匹配对的相似性度量方法通过关键帧的关键点匹配对数与阈值的关系进行相似性度量,也可以采用平均相似度计算方法进行相似性度量。该方法计算简单,但计算结果易受到参数设置的影响。Pattern Entropy算法在检测出关键帧的局部关键点匹配对的基础上,建立匹配线与横轴夹角的直方图,并使用Pattern Entropy测量两直方图中共有信息。最后通过分散度Entropy来判断视频帧的相似性。该算法准确度较高,但对于旋转和伸缩变化的相似视频帧检测效果不理想。而伸缩和旋转不变的模式熵匹配算法是在Pattern Entropy算法的一种改进算法。该方法通过计算两视频帧中每对局部关键点的匹配线的伸缩量和旋转量,并进行聚类。之后,通过通过差值判断关键帧的相似性。该方法使用mean-shift算法进行局部关键点匹配线的聚类,降低了量化错误的影响。
总的来说,基于局部关键点的相似重复视频检测方法计算量较大,耗时较长,而基于全局特征的重复视频检测方法可以克服这一问题。但该方法由于对视频图像细节的考虑较少,检测的准确性难以保证。目前,针对不同类型的视频数据,宜采用不同的相似重复视频检测技术进行视频检测,以便获得较好的效果。具体分析描述见表2.
从表2可知,针对低层特征的重复检测方法,适用于视频图像低层特征突出的情况。例如HSV模型通过H(色调)、S(饱和度)或V(明度)分量特征将颜色特征进行高维映射,在高维空间进行视频图像分类,类似的方法还包括颜色直方图等方法。对于低层特征的提取效果容易受噪声、光线、角度等因素影响,因此,单一低层特征较难表征视频整体特征。而全局视频签名的检测方法是从视频图像全局视角出发,能够把握视频整体特征,考虑到视频数据中时序和空间顺序的对应关系,检测效率能够保证,例如基于轨迹和时空签名的方法。但是,对于细节的关注较少,因而准确性无法保证。基于局部关键点的检测方法与全局视频签名方法所关注方向相反,更多关注图像细节,因此,计算量较大,影响了整体算法的效率。
随着计算机科学技术的不断发展,异常视频数据也严重影响到视频数据质量。例如,在煤矿领域,因人工误操作、视频监控设备、采光系统异常、采煤设备运动异常等因素可导致异常视频数据规模的增加,使得安全监控力度下降,给煤矿安全生产的监管埋下隐患,数据质量降低。同时,异常视频数据中隐藏的安全隐患信息对安全生产也具有重要指导作用[29-30]。目前,研究人员对异常视频数据的检测问题也作了一些研究,并取得了一些理论成果。目前,异常视频数据检测方法主要分为基于低层特征的异常检测、基于轨迹跟踪的异常检测、基于数据挖掘的异常检测和基于概率统计的异常检测。其中,基于低层特征的异常检测方法通过提取低层特征进行分类比较或者阈值判断检测异常视频。该方法计算量较小,较为简单,但不适用于低层特征不明显、视频质量较差的视频检测,对运动变化也较为敏感。基于轨迹跟踪的异常检测首先通过学习方法对正常轨迹和异常轨迹进行聚类,然后通过分析跟踪运动目标轨迹进行分类或统计,判定轨迹的异常情况。该方法考虑到对象的运动特征,相较于基于低层特征的异常检测具有更强的鲁棒性,但不适用于轨迹模糊、视频质量较差的视频检测,且较少考虑视频的语义要素。基于数据挖掘的异常视频检测通过采用数据挖掘方法获取视频行为特征,进而判断正常或异常行为。该方法考虑到视频语义行为特征,异常检测的准确度较高,适用于视频质量较好的视频数据检测。但由于视频数据的复杂性和视频数据的规模,该方法目前还无法较好的应用于提取非结构化视频数据的完整语义,准确度难以保证。而基于概率统计的异常视频检测方法采用概率统计模型,通过阈值判断,检测异常视频数据。该方法具有较高的准确度,但模型建立较为困难,且计算量较大。简要分析见表3.
总的来说,目前已有的异常视频检测方法可以有效检测异常视频数据。但是,检测方法的复杂度较大,对基于视频语义的异常检测研究较少。异常视频检测技术还有待于进一步深入研究,以便适用于大规模视频数据的检测,保证视频数据质量。
目前,针对脏视频数据检测的研究还存在一些不足。
1)视频数据的多样性与复杂性,使得任意一种低层特征都较难直接用于视频数据的相似性匹配和检测。如何构建新的视频特征或视频签名,能够准确和全面表征视频数据的多样性需要进一步解决;
2)虽然基于视频全局签名的视频检测方法执行效率相对较高,但该方法对视频图像细节的考虑较少,影响检测结果的准确性; 而基于局部关键点的视频检测方法尽管准确度较高,但是方法执行效率低,计算量大。如何将2种方法进行融合,既能保证方法的执行效率,又能考虑到图像细节特征是需要进一步解决的问题;
3)由于低层特征和高层语义概念之间存在语义鸿沟,如何通过它们之间的变换和映射关系,改进视频检测方法,真正实现视频语义检测是需要进一步解决的问题。除此之外,在视频检测过程中,关键帧的合理选取、视频特征的降维处理等问题也是需要进一步解决的关键技术问题。
目前,随着视频数据规模的快速增大,视频数据质量问题凸显出来。相似重复和异常视频数据的存在是影响视频数据质量的主要因素,针对这2类脏视频数据的视频检测技术可以有效改善视频数据质量。文中在扩展视频质量概念的基础上,分别针对相似重复和异常视频数据检测技术进行了介绍和简要分析,并指出了存在的问题。未来随着智能视频分析技术的发展,以及人们对视频数据质量的深入认识,视频数据检测技术的研究会越来越深入,并在版权保护、安全预防等领域将会起到越来越重要的作用。