卷积神经网络总结范文

时间:2024-04-08 18:05:30

导语:如何才能写好一篇卷积神经网络总结,这就需要搜集整理更多的资料和文献,欢迎阅读由公文云整理的十篇范文,供你借鉴。

卷积神经网络总结

篇1

【关键词】图像分类深度 卷积神经网络 加权压缩近邻

1 研究背景

手写数字识别是一个经典的模式识别问题。从0 到9这10 个阿拉伯数字组成。由于其类别数比较小,它在些运算量很大或者比较复杂的算法中比较容易实现。所以,在模式识别中数字识别一直都是热门的实验对象。卷积神经网络 (Convolutional Neural Networks,CNN),在手写体识别中有着良好的性能。卷积神经网络的神经元是局部连接,神经元之间能够共享权值。深度卷积神经网络不但可以解决浅层学习结构无法自动提取图像特征的问题,并且提高了分类的泛化能力和准确度。

2 深度卷积神经网络

深度卷积神经网络是一种具有多层监督的神经网络,隐含层中的卷积层和池采样层是实现深度卷积神经网络提取特征的核心模块,并通过使用梯度下降算法最小化损失函数来进行权重参数逐层反向调节,再经过迭代训练提高分类精确度。

深度卷积神经网络的首层是输入层,之后是若干个卷积层和若干个子采样层和分类器。分类器一般采用Softmax,再由分类器去输出相应的分类结果。正常情况下,一个卷积后面都跟一个子采样层。基于卷积层里权值共享和局部连接的特性,可以简化网络的样本训练参数。运算之后,获得的结果通过激活函数输出得到特征图像,再将输出值作为子采样层的输入数据。为了实现缩放、平移和扭曲保持不变,在子采样层中将之前一层对应的特征图中相邻特征通过池化操作合并成一个特征,减少特征分辨率。这样,输入的数据就可以立即传送到第一个卷积层,反复进行特征学习。将被标记的样本输入到Softmax分类器中。

CNN 能够简化网络的样本训练参数,降低计算难度。这些良好的性能是网络在有监督方式下学会的,网络的结构主要有局部连接和权值共享两个特点:

2.1 局部连接

深度卷积神经网络中,层与层之间的神经元节点是局部连接,不像BP 神经网络中的连接为全连接。深度卷积神经网络利用局部空间的相关性将相邻层的神经元节点连接相邻的上一层神经元节点。

2.2 权重共享

在深度卷积神经网络中,卷积层中每一个卷积滤波器共享相同参数并重复作用,卷积输入的图像,再将卷积的结果变为输入图像的特征图。之后提取出图像的部分特征。

在得到图像的卷积特征之后,需要用最大池采样方法对卷积特征进行降维。用若干个n×n 的不相交区域来划分卷积特征,降维后的卷积特征会被这些区域中最大的或平均特征来表示。降维后的特征更方便进行分类。

3 实验结果

为了验证卷积神经网络的有效性,本实验中使用以最经典的MNIST 和USPS 库这两个识别库作为评测标准。手写数字MNIST数据库有集60000 个训练样本集,和10000 个测试,每个样本向量为28×28=784维表示。手写数字USPS 数据库含有7291 个训练样本和2007 个测试样本,每个样本向量为16×16=256 维。

表1给出了卷积神经网络在MNIST 和USPS 库上的识别结果。从表1中可知,深度卷积神经网络对MNSIT 库识别率能够达到97.89%,与用BP 算法得到的识别率94.26%相比,提高了两个多百分点。对USPS 库识别率能够达到94.34%,与用BP 算法得到的识别率91.28%相比,也提高了三个多百分点。

因此,使用深度卷积神经网络算法训练在图像识别中获得更高识别率。因此,深度卷积神经网络在识别手写体字符时有着较好的分类效果。

4 总结

本文介绍深度卷积神经网络的理论知识、算法技术和算法的结构包括局部连接、权重共享、最大池采样以及分类器Softmax。本文通过深度卷积神经网络对两组手写识别库实验来验证CNN 有着较低的出错率。

参考文献

[1]赵元庆,吴华.多尺度特征和神经网络相融合的手写体数字识别简介[J].计算机科学,2013,40(08):316-318.

[2]王强.基于CNN的字符识别方法研究[D].天津师范大学,2014.

[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.

[4]郝红卫, 蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.

作者简介

关鑫(1982-),男,黑龙江省佳木斯市人。硕士研究生学历。现为中国电子科技集团公司第五十四研究所工程师。研究方向为计算机软件工程。

篇2

关键词:智能消防;火焰识别;卷积神经网络

一、智能装备简介

若想提高消防救援队伍的灭火救援效能,提高装备的智能化水平是必不可少的一步。消防装备的配备情况影响着战术和战术效果,甚至是直接影响救援成功率的重要因素。因此,提升装备的智能化水平、改善装备结构从而提升消防救援队伍的作战能力是关系广大人民群众生命以及财产安全的重要手段。消防装备智能化的研究工作任重而道远。本文着眼于图像法火焰识别技术,通过研究新技术,探讨将其应用于智能消防装备之中的可行性。

二、卷积神经网络的简介

(一)网络结构。卷积神经网络功能繁多,其中多层检测学习神经网是一种多层次的神经监测网络。其中心模块为卷积层,主要由隐藏层与最大池采样层组成,主要功能是特征提取。其中,连接层与传统多层感应器的隐藏层、逻辑归类器相对应。卷积神经网络的输入特征来源使卷积滤波器,而该神经网络的每一层都有多个理论上的神经元以及特征图。在给一个来自卷积和子采样层的输入统计滤波后,系统就提取了图像局部的特征,就可以确定它与其他特征之间的相对方位,上一层的输出值直接输入至下一层。通常情况下,我们可以通过特征层来得到卷积层(特征层是指:输入到隐藏层之间的映射)。(二)局部感受野与权值共享。局部感受野:由于图像空间的连接是局部性的,因此每个神经元都不需要感测全部图像,而只需感觉到局部的特征。然后,通过对较高级别感测量的局部神经元进行集成,可以得到整体的信息,并且减少了连接数量。权重分享:不同神经元之间的参数分享可通过降低求解参数,并通过放大器对图像的放大积获得多种特征图。实际上,权重共享图像上的第一隐藏层的所有神经元由于是在同一卷积上确认的,所以均能在图像的任意一个位置检测到毫无差别的特性。他的最主要的功能是能够通过适应小范围的图像和平移从而达到检测不同位置的目的,也就是良好的不变性平移。(三)卷积层、下采样层。卷积层:通过去卷积来提取图像特征,用来强化初始信号原属性,从而减少噪音。下采样层:由于研究人员发现图像下采样过程中,它能在保留信息的同时降低数据处理量,因此在发现某一特定的特征后,由于这个位置并不重要,所以样本会扰乱特定的位置。我们只需要知道这个特征与其他特点之间的空间相对方位,就可以处理类似的物体由变形和变型而产生的变化。(四)卷积神经网络的不足。如果网络层需要加深,每一个网络层增加的神经元数量会大幅增加,从而使模型复杂化,增大了调整参数的难度,也增大了过度拟合的风险。此外,在反向传播过程中,连续迭代会使梯度不断减小,而梯度一旦归零,权值便无法更新,导致神经元失效。(五)展望与总结随着研究人员对卷积神经网络相关的研究不断推进,其性能日益强大,复杂度也日益提升。目前,卷积神经网络的相关研究已经取得了显著成效。然而,一些人工扰动(如向原图片中键入噪点)仍然会导致图像的错误分类。如何解决这一问题,是今后研究的重点。此外,卷积神经网络的结构升级仍有很大空间,通过提升网络结构设计的合理性,可以完善量化分析能力。

三、图像分割

图像中包含很多数据,需要分割图像。然而,精确区分干扰是对整个系统亮度的精确分类和准确划类的前提。图像的分析技术是计算机视觉技术的基础。通过图像分割、提取特征参量等方法可以将原本的图像抽象化,从而便于分析和处理。多年以来,图像的分割技术研究一直是重中之重,研究人员给出了多种分割方法。一般而言,图像分割是将图像划分为不同的区域,给不同的区域赋予不同的权重,从而获取重要对象的一种技术。特征可能是灰度、颜色、纹理等,目标可能对应一个区或多个地方,这与特殊目的应用程序和特殊目的服务请求程序有关。一般而言,图像取值分割分析算法大致来说可以再细分为图形图像取值分割、边缘图像分割、区域分割和重复图像分析四大个门类。

四、火焰色彩虚拟模型的特征

(一)火焰色彩颜色类型特征。火焰色彩模型一般来说是基于某种火焰色彩类型模式,通过在图像阈值控制范围内通过设置某种色彩模型图像阈值来降噪提取火焰颜色特征图像。可以用任何提取静态火焰的特殊像素或者图案方式来精确描述一个静态火焰特征。然而,单纯地依靠颜色模型来进行火焰识别会导致严重的误判。火焰的颜色范围是非常大的,所以它很可能与其他物体颜色相近,导致模型将其混为一谈。(二)降噪在。火焰发展的初期过程中,是不断处于移动变化的。又一方面,火焰的全部运动都不会跳跃,也就是火焰满足相对稳定性。所谓燃烧火灾的相对稳定性,是指在火灾发生后,燃烧范围的空间会成一个相对稳定的扩增趋势扩增。通过分析火灾的相对稳定性,可以消灭许多虚假信号。(三)静态模型。在基于单帧图像识别的算法中,由于只使用了几个以火焰为基准的单一形状特征,因此算法复杂、误判率很高。因此,一个能够自主优化识别的模型就显得十分重要,图像静态特征提取的方法如下:由于曲率在人的视觉系统中往往是观测场景的重要参数,因此提取几何图像曲率等参数,并以此描绘火焰图像;根据测得的数据,描绘连续零曲率以及局部最大曲率、最高曲率正负值等集合特点。(四)动态模型在动态燃烧过程中,产生的火焰具有持续性。此外,根据火焰自身的特性和各种原因,火焰还会不断发生变化。然而,这种变化并不在单个帧图像中反映出来,而是在连续的多帧图像中只反映。因此,提取火焰的动态特征就是分析处理连续多帧图像。近年来,随着火灾科学的发展,从火焰的随机状态中发现了其规则性:1.火焰的面积增长性;2.火焰的形状相似性;3.火焰的整体移动。基于图像的火焰识别算法可划分为动态识别和静态识别。若将这两种算法同步进行应用,则定能增加工作效率。火焰形成的重要特点之一便是火焰形状。对于采集到的ccd火焰图像,首先进行两个连续的图像差分操作,然后通过分割方法获得连续帧的变化区域,使用扫描窗口得到的像素点数来记述连续帧变化区域。变化区域是指:图像处理中,在获得阈值之后,通过对高光度进行科学计算、实验分析,最终得到的区域。当其他高温物体移动到相机或离开视野时,所检测到的目标区域会逐渐扩大,并容易引起干扰,从而造成系统错误的报告。因此,需要将数据和其他图像的关键性特征进行一个高强度的结合,再深度进行挖掘。火焰的形状相似性:图像之间的类似性通常依赖于已知描述特点之间的差异度。该方法能够在任意复杂程度上建立相应的类似性量。我们可以对两个相似的元素进行比较,也可以对两个相似的场面进行比较,图像之间的相似性通常意义上是指场景以及结构上的相似性。在一般情况下,图像的结构相似度往往并不高,因此,我们倾向于选择更加典型的结构特点进行描述,如区域面积、区域亮度、线段长度等参数。虽然火焰的图像序列中火焰的边缘往往是很不稳定的,但图像的总体变化会被限制在一定范围内,而且一般的干扰信号模式包含了固定点或者光照变化,因此,在火焰识别的过程中,可以用初始火焰形状的变化规则与其进行对照。尽管火焰的变化通常呈现出不规则的特性,然而这种不规则在形态、空间分布等方面往往具有某种相似之处,因此,我们可以用连续图像的结构相似性来进行解析。

五、结语

各种高新技术不断飞跃式发展,这为我国消防智能化技术的开发以及与外国新型消防设备之间的碰撞提供了一个良好的契机,而消防装备的智能化已成为一个必然的趋势。自改革开放至今,我国所研究的有关装备智能化领域内取得的成果,已经为我们打下了坚实的发展基础,因此我们更应该加快消防智能化的进程,综合现有所具备的技术,取其精华去其糟粕,适而用之。由于研究条件和专业方向的局限,本文对智能消防装备中的火焰识别技术仍然存在不足。此次智能消防装备的研究方向主要是火焰识别领域,以建立模型的方法进行测算与研究,而对于理论性知识方面的探讨仍存在很大的不足。之后的研究可以从其他方面进行深入的探讨,探究其对系统化建模会产生哪些方面的影响。

参考文献:

[1]喻丽春,刘金清.基于改进MaskR-CNN的火焰图像识别算法[J].计算机工程与应用,2020,964(21):200-204.

[2]肖堃.多层卷积神经网络深度学习算法可移植性分析[J].哈尔滨工程大学学报,2020,41(03):420-424.

[3]郭昆.基于卷积神经网络的建筑风格图像分类的研究[D].武汉理工大学,2017.

[4]徐晓煜.极化合成孔径雷达舰船检测方法研究[D].西安电子科技大学,2017.

[5]黄忆旻.基于图像检索的导游系统的设计与实现[D].苏州大学,2016.

[6]宋戈.火灾自动检测技术在无人值守变电站中的应用[D].沈阳理工大学,2010.

[7]葛勇.基于视频的火灾检测方法研究及实现[D].湖南大学,2009.

篇3

关键词:车牌;识别;专利;分析

引言

车牌识别技术[1-2]是指自动提取受监控区域车辆的车牌信息并进行处理的技术,其通过运用图像处理、计算机视觉、模式识别等技术,对摄像头捕获的车辆照片或视频进行分析,进而自动识别车辆的车牌号码。车牌识别技术可应用于停车场自动收费管理、道路监控等领域,在城市交通管理中发挥了重要作用。

1 中国专利申请情况分析

以CNABS专利数据库中的检索结果为分析样本,介绍车牌识别技术的中国专利申请量趋势以及重要申请人的状况。

1.1 第一阶段(2005年及之前)

在这阶段,申请量极少且申请人也极少,且针对的环境较为简单,处于技术的萌芽阶段,其中,专利CN1529276,通过车牌定位、字符分割和分类识别完成机动车牌号自动识别,其实现过程较为简单,具体细节描述较少。

1.2 第二阶段(2006年-2010年)

在这阶段的申请量比上一阶段有所增加,而且申请人数量相较之前也有增长,其中来自高校的申请量明显增加,反映出了高校研究者开始更加注重对研究成果的保护,这一阶段的专利所针对的环境场景更为复杂,识别准确率得到提高,对车牌定位、字符分割、字符识别等关键技术的研究更为深入。

1.3 第三阶段(2011年及以后)

在2011年之后车牌识别技术的专利申请量呈现快速增长,这一阶段车牌识别技术得到了更进一步的丰富,涉及的关键技术的解决途径也呈现出多样性,检测效率和精度也得到进一步提高,其中,专利CN104035954A,涉及一种基于Hadoop的套牌车识别方法,将云计算应用于车牌识别,使得与传统环境下不经过优化的方法相比具有^高的运行效率和加速比,可以有效地识别套牌车。

图2示出了中国重要申请人分布情况,申请量分布前十的申请人包括:电子科技大学、深圳市捷顺科技实业股份有限公司(捷顺科技)、浙江宇视科技有限公司(宇视科技)、信帧电子技术(北京)有限公司(信帧电子)、中国科学院自动化研究所(自动化研究所)、安徽清新互联信息科技有限公司(清新互联)、青岛海信网络科技股份有限公司(海信网络)、浙江工业大学、四川川大智胜软件股份有限公司(川大智胜)、上海高德威智能交通系统有限公司(高德威智能交通),从图2中可以看出,不同申请人的申请量差距不是很大,几乎保持在一个比较持平的状态。

电子科技大学在车牌识别技术的专利申请中,CN 101064011A提出一种基于小波变换的复杂背景中的车牌提取方法,可大大提高对晴天、雨天、雾天、白天及夜晚等环境的通用性和适用性,实现车牌的精确定位并提高车牌提取的准确度;CN 103455815A提出一种复杂场景下的自适应车牌字符分割方法,能快速、准确地搜索2、3字符间隔位置,实现自适应调整分割参数,使车牌字符分割稳定可靠,在复杂的环境中鲁棒性强,防止噪声干扰;CN 105005757A提出一种基于Grassmann流行的车牌字符识别方法,最大限度地利用了已获得的车牌字符信息以及同类字符之间的相互关系,对于车牌字符的成像质量要求更低,应用于复杂的环境中具有很好的鲁棒性和准确性。

2 关键技术分析

一个完整的车牌定位与识别系统,其前端包括图像采集和传输系统,末端还需要与数据库相连接。从定位到识别的核心算法上,主要包括图像预处理、车牌定位、字符分割和字符识别四大部分[3]。

图像预处理,是指通过对摄像头捕获的彩色图像进行预处理。常用的预处理方法包括图像灰度化、图像二值化、边缘检测等。

车牌定位,是指在经预处理后的车辆图像中,定位出车辆的车牌所在位置。常用的车牌定位方法包括基于纹理分析的方法、基于数学形态学的方法、基于边缘检测的方法、基于小波变换的方法和基于神经网络的方法等。CN 104298976A提出一种基于卷积神经网络的车牌检测方法,利用卷积神经网络完整车牌识别模型对车牌粗选区域进行筛选,获取车牌最终候选区域。

字符分割,是指将定位出的车牌区域图像分割成单个的字符图像。常用的字符分割方法包括基于轮廓的方法、基于投影的方法、基于模板匹配的方法和基于连通区域的方法等。CN 104408454A提出一种基于弹性模板匹配算法的车牌字符分割方法,基于弹性模板,通过插空进行模板序列形状的弹性调整,将车牌图片与理想模板进行匹配,获得全局最优匹配,确定字符位置,将分割算法作用于投影序列,实现对车牌字符的分割。

字符识别,是指对字符分割之后的单个字符图像进行识别,进而得到车辆的车牌号码。常用的车牌字符识别方法包括基于字符结构特征的识别方法、基于模板匹配的识别方法、基于神经网络的识别方法、基于模糊理论的模式识别方法和基于支持向量机分类识别方法等。CN 105975968A提出一种基于Caffe框架的深度学习车牌字符识别方法,以基于Caffe架构的深度学习为基础,解决了现有的车牌字符识别方法中对倾斜、断裂、相近字符识别精度不高的问题,大大提高了对于车牌字符的识别精度。

3 结束语

本文以车牌识别相关专利文献为样本,分析统计了该技术中国专利申请现状,并对车牌识别技术的关键技术进行简单分析。在经历了从无到有、从萌芽到飞速发展的阶段之后,车牌识别技术慢慢走向成熟,越来越多的企业和高校在车牌识别的研究上投入了大量的精力,也获得了丰硕的研究成果。

参考文献

[1]尹旭.汽车牌照定位研究综述[J].电脑知识与技术,2010,6(14):3729-3730.

篇4

关键词人脸识别;特征提取

1人脸识别技术概述

近年来,随着计算机技术的迅速发展,人脸自动识别技术得到广泛研究与开发,人脸识别成为近30年里模式识别和图像处理中最热门的研究主题之一。人脸识别的目的是从人脸图像中抽取人的个性化特征,并以此来识别人的身份。一个简单的自动人脸识别系统,包括以下4个方面的内容:

(1)人脸检测(Detection):即从各种不同的场景中检测出人脸的存在并确定其位置。

(2)人脸的规范化(Normalization):校正人脸在尺度、光照和旋转等方面的变化。

(3)人脸表征(FaceRepresentation):采取某种方式表示检测出人脸和数据库中的已知人脸。

(4)人脸识别(Recognition):将待识别的人脸与数据库中的已知人脸比较,得出相关信息。

2人脸识别算法的框架

人脸识别算法描述属于典型的模式识别问题,主要有在线匹配和离线学习两个过程组成,如图1所示。

图1一般人脸识别算法框架

在人脸识别中,特征的分类能力、算法复杂度和可实现性是确定特征提取法需要考虑的因素。所提取特征对最终分类结果有着决定性的影响。分类器所能实现的分辨率上限就是各类特征间最大可区分度。因此,人脸识别的实现需要综合考虑特征选择、特征提取和分类器设计。

3人脸识别的发展历史及分类

人脸识别的研究已经有相当长的历史,它的发展大致可以分为四个阶段:

第一阶段:人类最早的研究工作至少可追朔到二十世纪五十年代在心理学方面的研究和六十年代在工程学方面的研究。

J.S.Bruner于1954年写下了关于心理学的Theperceptionofpeople,Bledsoe在1964年就工程学写了FacialRecognitionProjectReport,国外有许多学校在研究人脸识别技术[1],其中有从感知和心理学角度探索人类识别人脸机理的,如美国TexasatDallas大学的Abdi和Tool小组[2、3],由Stirling大学的Bruce教授和Glasgow大学的Burton教授合作领导的小组等[3];也有从视觉机理角度进行研究的,如英国的Graw小组[4、5]和荷兰Groningen大学的Petkov小组[6]等。

第二阶段:关于人脸的机器识别研究开始于二十世纪七十年代。

Allen和Parke为代表,主要研究人脸识别所需要的面部特征。研究者用计算机实现了较高质量的人脸灰度图模型。这一阶段工作的特点是识别过程全部依赖于操作人员,不是一种可以完成自动识别的系统。

第三阶段:人机交互式识别阶段。

Harmon和Lesk用几何特征参数来表示人脸正面图像。他们采用多维特征矢量表示人脸面部特征,并设计了基于这一特征表示法的识别系统。Kaya和Kobayashi则采用了统计识别方法,用欧氏距离来表征人脸特征。但这类方法需要利用操作员的某些先验知识,仍然摆脱不了人的干预。

第四阶段:20世纪90年代以来,随着高性能计算机的出现,人脸识别方法有了重大突破,才进入了真正的机器自动识别阶段。在用静态图像或视频图像做人脸识别的领域中,国际上形成了以下几类主要的人脸识别方法:

1)基于几何特征的人脸识别方法

基于几何特征的方法是早期的人脸识别方法之一[7]。常采用的几何特征有人脸的五官如眼睛、鼻子、嘴巴等的局部形状特征。脸型特征以及五官在脸上分布的几何特征。提取特征时往往要用到人脸结构的一些先验知识。识别所采用的几何特征是以人脸器官的形状和几何关系为基础的特征矢量,本质上是特征矢量之间的匹配,其分量通常包括人脸指定两点间的欧式距离、曲率、角度等。

基于几何特征的识别方法比较简单、容易理解,但没有形成统一的特征提取标准;从图像中抽取稳定的特征较困难,特别是特征受到遮挡时;对较大的表情变化或姿态变化的鲁棒性较差。

2)基于相关匹配的方法

基于相关匹配的方法包括模板匹配法和等强度线方法。

①模板匹配法:Poggio和Brunelli[10]专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,并得出结论:基于几何特征的人脸识别方法具有识别速度快和内存要求小的优点,但在识别率上模板匹配要优于基于几何特征的识别方法。

②等强度线法:等强度线利用灰度图像的多级灰度值的等强度线作为特征进行两幅人脸图像的匹配识别。等强度曲线反映了人脸的凸凹信息。这些等强度线法必须在背景与头发均为黑色,表面光照均匀的前提下才能求出符合人脸真实形状的等强度线。

3)基于子空间方法

常用的线性子空间方法有:本征子空间、区别子空间、独立分量子空间等。此外,还有局部特征分析法、因子分析法等。这些方法也分别被扩展到混合线性子空间和非线性子空间。

Turk等[11]采用本征脸(Eigenfaces)方法实现人脸识别。由于每个本征矢量的图像形式类似于人脸,所以称本征脸。对原始图像和重构图像的差分图像再次进行K-L变换,得到二阶本征空间,又称二阶本征脸[12]。Pentland等[13]提出对于眼、鼻和嘴等特征分别建立一个本征子空间,并联合本征脸子空间的方法获得了好的识别结果。Shan等[14]采用特定人的本征空间法获得了好于本征脸方法的识别结果。Albert等[15]提出了TPCA(TopologicalPCA)方法,识别率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的识别效果好于本征脸方法。当每个人有多个样本图像时,本征空间法没有考虑样本类别间的信息,因此,基于线性区别分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,获得了较好的识别结果。Bartlett等[18]采用独立分量分析(ICA,IndependentComponentAnalysis)的方法识别人脸,获得了比PCA方法更好的识别效果。

4)基于统计的识别方法

该类方法包括有:KL算法、奇异值分解(SVD)、隐马尔可夫(HMM)法。

①KL变换:将人脸图像按行(列)展开所形成的一个高维向量看作是一种随机向量,因此采用K-L变换获得其正交K-L基底,对应其中较大特征值基底具有与人脸相似的形状。国外,在用静态图像或视频图像做人脸识别的领域中,比较有影响的有MIT的Media实验室的Pentland小组,他们主要是用基于KL变换的本征空间的特征提取法,名为“本征脸(Eigenface)[19]。

②隐马尔可夫模型:剑桥大学的Samaria和Fallside[20]对多个样本图像的空间序列训练出一个HMM模型,它的参数就是特征值;基于人脸从上到下、从左到右的结构特征;Samatia等[21]首先将1-DHMM和2-DPseudoHMM用于人脸识别。Kohir等[22]采用低频DCT系数作为观察矢量获得了好的识别效果,如图2(a)所示。Eickeler等[23]采用2-DPseudoHMM识别DCT压缩的JPEG图像中的人脸图像;Nefian等采用嵌入式HMM识别人脸[24],如图2(b)所示。后来集成coupledHMM和HMM通过对超状态和各嵌入状态采用不同的模型构成混合系统结构[25]。

基于HMM的人脸识别方法具有以下优点:第一,能够允许人脸有表情变化,较大的头部转动;第二,扩容性好.即增加新样本不需要对所有的样本进行训练;第三,较高的识别率。

(a)(b)

图2(a)人脸图像的1-DHMM(b)嵌入式隐马尔科夫模型

5)基于神经网络的方法

Gutta等[26]提出了混合神经网络、Lawrence等[27]通过一个多级的SOM实现样本的聚类,将卷积神经网络CNN用于人脸识别、Lin等[28]采用基于概率决策的神经网络方法、Demers等[29]提出采用主元神经网络方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个MLP来实现人脸识别。Er等[30]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。Haddadnia等[31]基于PZMI特征,并采用混合学习算法的RBF神经网络进行人脸识别。神经网络的优势是通过学习的过程获得对这些规律和规则的隐性表达,它的适应性较强。

6)弹性图匹配方法

Lades等提出采用动态链接结构(DLA,DynamicLinkArchitecture)[32]的方法识别人脸。它将人脸用格状的稀疏图如图3所示。

图3人脸识别的弹性匹配方法

图3中的节点用图像位置的Gabor小波分解得到的特征向量标记,图的边用连接节点的距离向量标记。Wiskott等人使用弹性图匹配方法,准确率达到97.3%。Wiskott等[33]将人脸特征上的一些点作为基准点,构成弹性图。采用每个基准点存储一串具有代表性的特征矢量,减少了系统的存储量。Wurtz等[34]只使用人脸ICI部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。Grudin等[35]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。另一种方法是,Nastar等[36]提出将人脸图像I(x,y)表示为可变形的3D网格表(x,y,I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。

7)几种混合方法的有效性

(1)K-L投影和奇异值分解(SVD)相融合的分类判别方法。

K-L变换的核心过程是计算特征值和特征向量。而图像的奇异值具有良好的稳定性,当图像有小的扰动时,奇异值的变化不大。奇异值表示了图像的代数特征,在某种程度上,SVD特征同时拥有代数与几何两方面的不变性。利用K-L投影后的主分量特征向量与SVD特征向量对人脸进行识别,提高识别的准确性[37]。

(2)HMM和奇异值分解相融合的分类判别方法。

采用奇异值分解方法进行特征提取,一般是把一幅图像(长为H)看成一个N×M的矩阵,求取其奇异值作为人脸识别的特征。在这里我们采用采样窗对同一幅图片进行重叠采样(如图4),对采样所得到的矩阵分别求其对应的前k个最大的奇异值,分别对每一组奇异值进行矢量标准化和矢量重新排序,把这些处理后的奇异值按采样顺序组成一组向量,这组向量是惟一的[38]。

图4采样窗采样

综合上述论文中的实验数据表明[39],如表1:

表1人脸识别算法比较

8)基于三维模型的方法

该类方法一般先在图像上检测出与通用模型顶点对应的特征点,然后根据特征点调节通用模型,最后通过纹理映射得到特定人脸的3D模型。Tibbalds[40]基于结构光源和立体视觉理论,通过摄像机获取立体图像,根据图像特征点之间匹配构造人脸的三维表面,如图5所示。

图5三维人脸表面模型图6合成的不同姿态和光照条件下二维人脸表面模型

Zhao[41]提出了一个新的SSFS(SymetricShape-from-Shading)理论来处理像人脸这类对称对象的识别问题,基于SSFS理论和一个一般的三维人脸模型来解决光照变化问题,通过基于SFS的视图合成技术解决人脸姿态问题,针对不同姿态和光照条件合成的三维人脸模型如图6所示。

三维图像有三种建模方法:基于图像特征的方法[42、43]、基于几何[44]、基于模型可变参数的方法[45]。其中,基于模型可变参数的方法与基于图像特征的方法的最大区别在于:后者在人脸姿态每变化一次后,需要重新搜索特征点的坐标,而前者只需调整3D变形模型的参数。三维重建的系统框图,如图7所示。

图7三维建模的系统框图

三维人脸建模、待识别人脸的姿态估计和识别匹配算法的选取是实现三维人脸识别的关键技术。随着采用三维图像识别人脸技术的发展,利用直线的三维图像信息进行人脸识别已经成为人们研究的重心。

4总结与展望

人脸自动识别技术已取得了巨大的成就,随着科技的发展,在实际应用中仍然面临困难,不仅要达到准确、快速的检测并分割出人脸部分,而且要有效的变化补偿、特征描述、准确的分类的效果,还需要注重和提高以下几个方面:

(1)人脸的局部和整体信息的相互结合能有效地描述人脸的特征,基于混合模型的方法值得进一步深入研究,以便能准确描述复杂的人脸模式分布。

(2)多特征融合和多分类器融合的方法也是改善识别性能的一个手段。

(3)由于人脸为非刚体性,人脸之间的相似性以及各种变化因素的影响,准确的人脸识别仍较困难。为了满足自动人脸识别技术具有实时要求,在必要时需要研究人脸与指纹、虹膜、语音等识别技术的融合方法。

(4)3D形变模型可以处理多种变化因素,具有很好的发展前景。已有研究也表明,对各种变化因素采用模拟或补偿的方法具有较好的效果。三维人脸识别算法的选取还处于探索阶段,需要在原有传统识别算法的基础上改进和创新。

(5)表面纹理识别算法是一种最新的算法[52],有待于我们继续学习和研究出更好的方法。

总之,人脸识别是极富挑战性的课题仅仅采用一种现有方法难以取得良好的识别效果,如何与其它技术相结合,如何提高识别率和识别速度、减少计算量、提高鲁棒性,如何采用嵌入式及硬件实现,如何实用化都是将来值得研究的。

参考文献

[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411

[2]张翠萍,苏光大.人脸识别技术综述.中国图像图形学报,2000,5(11):885-894

[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67

[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86

[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464

[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640

[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95

[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136

[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553

[10]HaddadniaJ,AhmadiM,FaezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16

[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311

[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191

[13]羊牧.基于KL投影和奇异值分解相融合人脸识别方法的研究[D].四川大学.2004,5,1

[14]白冬辉.人脸识别技术的研究与应用[D].北方工业大学.2006,5

篇5

关键词:语音情感识别;情感描述模型;情感特征;语音情感库;域适应

DOIDOI:10.11907/rjdk.161498

中图分类号:TP391

文献标识码:A文章编号文章编号:16727800(2016)009014303

作者简介作者简介:薛文韬(1991-),男,江苏常熟人,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为语音情感识别。

0引言

1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。

许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。

1语音情感识别

语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。

本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。

2情感描述模型

目前主要从离散情感和维度情感两个方面来描述情感状态。

离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。

相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。

3语音情感特征

传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。

在2009年首次举办的国际语音情感挑战INTERSPEECH 2009 Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。

4语音情感库

语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。

5语音情感挑战赛

虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009 EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009 EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。

6语音情感识别的主要挑战

6.1语音情感特征

在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。

目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad 等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。

6.2跨库的语音情感识别

在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。

近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。

参考文献参考文献:

[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.

[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.

[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.

[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.

[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE'05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.

[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.

[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.

[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.

[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR―introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.

[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.

[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.

[12]MARIOORYAD S,BUSSO pensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.

[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.

篇6

关键词:红枣(Ziziphus zizyphus);边缘检测;分级

中图分类号:S665.1;TP751.1文献标识码:A文章编号:0439-8114(2014)10-2427-04

Grading Red Dates Based on the Size from Image Edge Detection

YAO Na,WU Gang,CHEN Jie

(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)

Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.

Key words:red dates(Ziziphus zizyphus); edge detection; grading

基金项目:新疆生产建设兵团青年科技创新资金专项(2013CB020)

新疆地区红枣品种较多,有的品种含糖量高达34%,其营养丰富,受到人们的喜爱。目前,红枣品种越来越多,其产量及销售量也越来越高,红枣采集后对其进行分类是加工过程中很重要的工作环节,最初的分拣都是由人工完成,一方面需要大量的人力资源;另一方面不能保证产品的安全。随着科学技术的发展,农业机械化的应用越来越广泛,研究者将重点关注红枣自动分级,可以节省人力而实现农业自动化。李湘萍[1]介绍了红枣分级机的工作原理;张保生等[2]将红枣的形状特征、颜色特征和纹理特征通过BP网络算法进行自动分级;赵文杰等[3]提出了以颜色作为特征利用支持向量机的方法进行红枣的缺陷识别,识别率可达96.2%;肖爱玲[4]对几种典型的红枣分级机的结构进行了介绍;肖爱玲等[5]对2011年前红枣的分级技术及研究现状进行了总结;沈从举等[6]对红枣分级机的研究状态和应用方法进行了归纳。

目前,基于计算机视觉的方法具有智能化、精度高、损伤小等优点,该方法的核心部分在于选取什么特征以及利用何种算法对红枣进行判断。研究者提出的方法具有一个共同特点是特征选取较多,比如同时提取颜色特征、形状特征和纹理特征,因此计算量较大,分级机的设计组成对信息处理的硬件部分有较高的要求,在红枣分级机的设计中存在两方面的问题:一方面成本较高;另一方面硬件达不到设计的要求。小波变换对噪声不敏感,边缘检测清晰,所以有不少研究者将不同的小波变换方法[7-10]应用在图像边缘检测中,经仿真试验证明也适合应用在红枣的边缘检测中。因此,本研究提出一种简单的分级方法来对红枣进行分级,即以提取红枣的边缘特征,只有形状特征,应用小波变换的算法,减少了计算量。

1材料与方法

1.1材料

红枣品种为新疆阿拉尔地区种植的骏枣,已经过人为的挑拣,测试结果得分为优等级的个数较多。

1.2检测方法

在无腐烂的情况下,个体较大、饱满的红枣可分到较高的级别中,可用边缘检测方法对红枣的边缘进行检测,然后根据检测出的边缘再计算红枣的面积,面积大于某一设定阈值的红枣为优等级,其余为低级。

1.3小波边缘检测

小波变换可以解决时域和频域的矛盾,可以将信号进行更精确地分析。图像中的边缘点为灰度变化较大的像素点,即一阶微分极大值点或者二阶微分过零点。图像边缘检测可以通过小波的奇异性来检测。设θ(x,y)为一个平滑的二维函数,在考虑尺度参数的情况下,θa(x,y)=■■,■,那么二维小波的定义[11]为:

ψx(x,y)=■

ψy(x,y)=■

用矢量形式表示二维小波变换:

a■+■

=af■(x,y)■+f■(x,y)■

=af(x,y)[ψx(x,y)■+ψy(x,y)■]

=a[(fψx)(x,y)■+(fψy)(x,y)■]

=Wxa f(x,y)■+Wya f(x,y)■

=aΔ(fθa)(x,y)

fθa(x,y)表示图像f(x,y)与平滑函数θa(x,y)卷积后的平滑图像。梯度矢量的模值为:

■ (3)

梯度矢量与水平方向的夹角为:

α=Arg[Wa(x,y)]

=arctan■(4)

确定梯度矢量的模值极值后,再经过阈值的处理,可以得到图像的边缘,不同的a可以实现多个不同尺度的检测。图像中目标的方向性是重要的特征之一,作为小波的改进方向,小波的应用成为了一个研究热点,它能有较好的方向性分析,体现了图像的方向性。任意方向小波变换[12]的定义为:(假设γ=0,θ∈[0,π)]

Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)

=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ

=||Wa f(x,y)||■・

cosθ+■sinθ (5)

=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))・

cosθ+sin(Arg[Wa f(x,y)])sinθ

=||Wa f(x,y)||(cosαcosθ+sinαsinθ)

=||Wa f(x,y)||cos(α-θ)

运用小波方法对红枣进行边缘检测,为红枣分级检测解决基础性的第一步难题,同时也用经典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子对红枣进行边缘检测以便比较分析各自的特点。

1.4分级检测的过程

检测红枣边缘后需要对红枣的面积进行计算,通过对边缘点的长度进行计算可以得出边缘的长度,将红枣的形状假设为圆形,可以用圆周长将圆面积求出,即可以求出红枣的面积。假设计算检测出边缘点的长度,红枣的面积近似为:

s=■ (6)

因为整个过程属于比较过程,所以进行近似计算不影响相对的比较。

整个分级检测的仿真试验步骤为:

1)读入红枣图像,将彩色RGB图像转为灰度图像;

2)对红枣灰度图像求出小波变换的模值和梯度矢量与水平方向的夹角;

3)在水平方向、垂直方向、-45°方向和+45°方向4个方向上进行搜索判断模值和梯度方向的条件得到边缘值,将得到的边缘值进行归一化,设定阈值为0.18来判断红枣图像的边缘;

4)计算红枣的边缘长度,确定红枣边缘长度的阈值;

5)根据公式(6)计算红枣的面积;大于边缘长度阈值的对应面积阈值的红枣判定为优良等级的红枣,否则为较差等级的红枣。

针对不同的分级机的机械设计,红枣面积的阈值的确定可以根据两种方式:一种方式是针对分级机单个读取红枣图像并直接进行分级挑拣的情况,阈值根据经验值来确定,比如某种品种的红枣大小是在固定范围内波动,预先设定固定的阈值来进行分级挑拣;另一种方式是针对分级机进行大量红枣图像同时进行读取时,遍历全部红枣图像,找到最大面积的红枣,然后阈值设定为最大值的80%,大于该阈值的红枣判定为优等级,否则判定为较差等级。

2结果与分析

仿真试验中分别对单个红枣和两个红枣为例进行小波的边缘检测,并且将小波检测结果与Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子检测结果进行分析对比。

2.1 单个红枣检测结果

图1为理想的情况,即一个红枣全部被读入没有遮盖的情况,也是正常情况下的边缘检测。由图1可以看出,小波方法检测出的曲线较少,轮廓清晰,轮廓线的连续性好,一方面有利于边缘长度的计算;另一方面减少了曲线个数的计算,减少了整个方法的计算量。Sobel算子检测出的红枣图像与小波的方法相比较,噪点较多,定位精度不够高,边缘比较模糊;Canny算子检测到的边缘虽然比较连续,但是出现了由噪声产生的伪边缘,这样在计算红枣大小时会增加计算量,并且容易出错;Prewitt算子和Roberts算子的检测结果类似于Sobel算子的检测结果,并且Roberts算子的检测结果中边缘断点较多,给计算红枣的长度带来困难;Log算子的检测结果边缘较为连续,有少量断点,与小波方法相比较红枣内部的噪点较多,复杂度仅次于Canny算子的方法检测出的结果。根据边缘检测的效果和计算复杂度以及后期需要的算法的复杂度来比较这几种方法的优劣顺序为小波、Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。

2.2两个有遮盖的红枣检测结果

图2为遮盖的情况,因此单个红枣的边缘不能完全检测出,但是根据周长阈值的比较结果,同样可以算出单个红枣的面积。由图2可以看出,小波方法对于有遮盖的红枣检测仍是轮廓清晰且连续性好,内部曲线较少。Sobel算子检测出的红枣图像与小波的方法相比较,噪点较多,边缘断点较多,边缘比较模糊;Canny算子检测到的边缘过于模糊且断点较多,还出现了由噪声产生的伪边缘,这样在计算红枣大小时对后期的算法要求较高,且容易出现错误结果;Prewitt算子和Roberts算子的检测结果类似于Sobel算子的检测结果,Roberts算子的检测结果中边缘较为清楚;Log算子的检测结果边缘断点较多,与小波方法相比较红枣内部的噪点较多,复杂度仅次于Canny算子的方法检测出的结果。根据边缘检测的结果和计算复杂度以及后期算法的复杂度来比较这几种方法的优劣顺序为小波、Roberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。对于单个和两个红枣进行检测的仿真结果都说明:较于其他5种算子,小波方法均是最优的。

研究中采集的红枣图像大小为442×398像素,阈值采用经验值,实际的周长阈值映射到图像中的周长为1 084像素,仿真试验结果判定为准确可行,试验结果见表1。

3小结与讨论

随着自动化技术在农业产品中应用越来越广泛,其理论研究的方法也越来越多,从计算机视觉领域结合农业自动化技术提出了对红枣加工有促进作用的红枣自动分级的核心方法,对于红枣生产的地区有重要意义。研究提出了利用方向小波方法对红枣图像进行边缘检测进而计算红枣大小来对红枣分级的方法,经仿真试验证明小波变换方法的优越性及整个方法的有效性和快速性。此研究是在假设红枣无腐烂的情况下进行分级的,所以有一定的局限性,但在下一步研究中可以弥补此点的不足,设置多个阈值可以将红枣进行多个等级的分拣。

参考文献:

[1] 李湘萍.6ZF-0.5型红枣分级机的试验研究[J].山西农机,2000(14):3-5.

[2] 张保生,姚瑞央.基于BP神经网络算法的红枣分级技术应用[J].广东农业科学,2010(11):282-283.

[3] 赵杰文,刘少鹏,邹小波.基于机器视觉和支持向量机的缺陷枣的识别研究[J].农业机械学报,2008,39(3):113-115.

[4] 肖爱玲.几种典型的红枣分级机[J].新疆农机化,2010(4):10-11.

[5] 肖爱玲,李伟.我国红枣分级技术及红枣分级机研究现状[J].农机化研究,2011(11):241-244.

[6] 沈从举,贾首星,郑炫,等.红枣分级机械的现状与发展[J].中国农机化学报,2013,34(1):26-30.

[7] 宋文龙,闵昆龙,邢奕,等.基于小波变换的自适应阈值植物根系图像边缘检测[J].北京科技大学学报,2012,34(8):966-970.

[8] 王敬东,徐亦斌,.图像小波边缘检测中边界处理的研究[J].计算机工程,2007,33(5):161-163.

[9] 鲍雄伟.小波变换在图像边缘检测中的应用[J].电子设计工程,2012,20(14):160-162.

[10] 薄胜坤,张丽英.一种基于小波变换和Canny算子相结合的边缘检测方法[J].长春大学学报,2012,22(10):1177-1180.

篇7

行人再识别指的是在非重叠监控视频中,检索某个监控视频中出现的目标是否出现在其它的监控视频中.最近几年,行人再识别问题引起了广大科研人员的兴趣与研究.监控视频中的目标图像分辨率低、场景中存在着光照变化、视角变化、行人姿态变化以及摄像机自身属性的问题,导致同一目标在不同的监控视频中外观区别很大,使得行人再识别问题遇到了很大的挑战。为了有效的解决这些挑战,广大的研究者提出了很多解决方法.目前的行人再识别算法可以简单概括为四种:直接法、基于深度学习的方法、显著性学习的方法和间接法.

直接法利用视觉特征对行人建立一个鲁棒性和区分性的表示,不需要通过学习直接利用行人特征然后根据传统的相似性度量算法(欧式距离、巴氏距离等等)来度量行人之间的相似度.文献[1]首次提出了利用直方图特征来表征目标并通过度量直方图的相似度来识别不同的目标.文献[2]将行人图像粗略分为头部、上半身和下半身3部分,然后串联每一部分的颜色直方图对行人描述.文献[3]采用分割的技术提取人的前景,并利用行人区域的对称性和非对称性将人的前景划分成不同的区域.对于每个区域,提取带权重的颜色直方图特征、极大稳定颜色区域(maximallystablecolorregions)特征和重复度高的结构区域(recurrenthighlystructuredpatches)特征描述它们.文献[4]提出了一种结合gabor特征和协方差矩阵描述的BiCov描述子来对行人描述.文献[5]采用图案结构(pictorialstruc-ture)算法定位图像中人的各个部件所在的区域.对于每个部件的区域,提取与文献[3]类似的颜色直方图特征、极大稳定颜色区域特征来描述它们.文献[6]利用lbp特征和21个滤波器特征(8个gabor滤波器和13个schmid滤波器)来描述图像中的行人.文献[7]通过共生矩阵对行人的形状和外形特征进行描述.虽然直接法的算法模型简单,但由于在光照变化、视角变化以及姿态变化等情况下,同一个人的外观变化往往很大,很难提取出鲁棒性和区分性的特征描述.因此在光照变化、视角变化以及姿态变化等情况下,直接法的效果很差.

深度学来在计算机视觉中得到了广泛的应用,因此不少学者研究并提出了基于深度学习的行人再识别算法.文献[8]LiWei等人提出了一种六层的FPNN神经网络,它能有效解决行人再识别中出现的光照变化、姿态变化、遮挡和背景粘连等问题,从而提高了识别率.文献[9]Ahmed等人提出了一种深层卷积结构能够同时自动学习特征和相应的相似性测度函数.但基于深度学习的行人再识别算法需要非常大的训练数据库,导致训练时间长,此外还需要针对特定问题搭建相应的模型,因此不利于方法的推广.同时,深度学习方法中还存在调置参数缺乏理论性指导,具有较大主观性的问题.基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣.人们可以通过行人的一些显著信息来识别行人,但传统的方法在比较两张图片的相似性的时候,往往忽略了行人身上的显著性特征.对此,文献[10]赵瑞等人提出了一种通过学习行人图像的显著性信息来度量两张行人图像的相似性的方法.但显著性学习的行人再识别算法在行人姿态变化的情况下,显著性区域会出现偏移或者消失,导致识别效果较差.间接法主要是学习得到一个分类器或一个排序模型.间接法代表性的算法有距离测度学习、支持向量机、迁移学习和流形排序算法.距离测度学习算法作为间接法中的一种,最近几年在行人再识别中得到了广泛的应用.本文提出的算法也是基于距离测度学习,所以下面着重介绍基于距离测度学习的行人再识别算法.

与手动设计特征的直接法不同,距离测度学习方法是一种利用机器学习的算法得出两张行人图像的相似度度量函数,使相关的行人图像对的相似度尽可能高,不相关的行人图像对的相似度尽可能低的方法.代表性的测度学习算法有文献[11]郑伟诗等人把行人再识别问题当成距离学习问题,提出了一种基于概率相对距离的行人匹配模型,文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量两张行人图像的相似度,以及文献中提出的相应测度学习算法.距离测度算法是将原始特征空间投影到另一个更具区分性的特征空间.与其它的算法相比,距离测度学习算法具有更好的效果.距离测度学习算法即使只使用简单的颜色直方图作为特征,算法的性能往往优于其它算法.文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量行人对的相似度,但作者直接在原始特征空间训练得到测度矩阵,进而得到样本之间的相似性函数.原始特征空间的线性不可分性导致通过原始特征空间直接训练得到的测度矩阵不能很好的表征样本之间的相似性和差异性.本文提出基于核学习的方法,首先通过相应的核函数将原始特征空间投影到非线性空间,然后在非线性空间中学习得到相应的测度矩阵.投影后的非线性特征空间具有很好的可分性,这样学习得到的测度矩阵能准确的表征样本之间的相似性和差异性.另外,基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法,学习得到一个测度矩阵.然而这种特征融合往往忽略了不同属性特征之间的差别,这样学习得到的测度矩阵不能准确的表征样本之间的相似性与差异性.对此,本文提出在不同的特征空间中学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表征样本之间的相似性.本文算法在公共实验数据集上的实验效果优于目前主流的行人再识别算法,尤其是第一匹配率(Rank1).本文其余章节的组织安排如下.第1节介绍本文提出的行人再识别算法.第2节介绍本文算法在公共数据集上的实验.第三节总结全文以及展望.

1基于多特征子空间与核学习的行人再识别算法

1.1基于核学习的相似度量函数的学习文献[12]中提出了一种KISSME的算法,文中指出,从统计学角度考虑,一对有序行人对(i,j)的相似度可以表示为式。文献[12]中提出的算法是直接在原始线性特征空间中训练得到测度矩阵,进而得到表示样本之间相似性的相似度函数.由于原始特征空间的线性不可分,上述方法得到的测度矩阵不能准确表达样本之间的相似性和差异性,导致识别效果差.本文提出基于核学习的算法首先通过相应的核函数将原始特征空间投影到更易区分的非线性空间,然后在非线性空间中训练得到测度矩阵M.这样得到的测度矩阵具M有很好的区分性,能使同类样本之间的距离尽可能小,异类样本之间的距离尽可能大.核学习的主要思想是将原始线性特征空间投影到区分性好的非线性空间.原始特征空间中的特征xxi通过函数Φ投影到非线性空间,则非线性空间的特征表示为Φ(xxi).非线性映射函数一般是隐性函数,则很难得到显示表达式,可以利用核函数求解特征空间中样本点的内积来解决。

1.2基于多特征子空间的测度学习基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法得到测度矩阵.这种方法忽略了不同属性特征之间的差别,导致学习得到的测度矩阵不能准确的体现样本之间的相似性与差异性.对此,本文提出对于不同的特征空间单独学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表示样本之间的相似性.

1.3行人图像的特征表示本文采用颜色特征和LBP特征对行人目标进行描述,生成两种特征子空间.颜色空间有很多种,用不同的色彩空间描述一图片的效果是不同的.依据文献[20]和文献[21],本文采用的颜色特征从RGS、HSV、YCbCr和CIELab4种颜色空间中提取.RGS空间的定义为R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.为了获取具有鲁棒性和区分性的颜色特征表示,本文将上述四种颜色特征空间融合.融合后的颜色特征描述对于光照变化的场景具有良好的鲁棒性.图1给出了一张被平均分成6个水平条带的行人图像,对于每个水平条带的每种颜色空间的每个通道,提取16维的颜色直方图特征,将所有的颜色直方图特征串联形成行人图像的颜色特征,从而得到行人图像颜色特征的维数为1152维(4*6*3*16).原始特征空间的1152维特征经过核函数投影后的特征维度较高且大部分信息都是冗余的.因此实验中利用PCA将核空间中的特征维数降到保持大于90%的能量。为了更好的描述图像的局部信息,本文中提取的局部特征来自于LBP等价模式中邻域点数为8半径为1和邻域点数为16半径为2两种模式的特征.上面两种LBP等价模式的维度分别为59维和243维.类似于颜色特征的提取,一张行人图像被平均分成6个水平条带,对于每个水平条带提取LBP两种模式的特征,将所有的LBP特征串联形成行人图像的局部特征,从而得到行人图像局部特征的维数为1812维((59+243)*6).同理,原始特征空间的1812维特征经过核函数投影后的特征维度同样较高并且大部分信息也都是冗余的.因此实验中同样利用PCA将核空间的特征维度降到保持90%以上的能量.

1.4本文算法的具体操作步骤利用步骤3得到不同核空间中的测度矩阵计算样本在不同核空间的相似度,然后将样本在不同核空间中的相似度按照一定的权值结合来表示样本之间的相似性.

2实验测试与结果

本节首先介绍实验中所使用的测试数据和算法性能的评测准则,其次介绍本文算法在不同公共实验集上与已有的行人再识别算法的性能比较,然后在不同公共实验集上对比核映射前后的算法性能,最后在不同公共实验集上分析权值不同时对算法性能的影响.文中所有的实验是基于vs2010+opencv2.4.9实现的,实验平台是24G内存的Intel(R)Xeon(R)CPUE5506@2.13GHz(2处理器)PC台式机.

2.1测试数据和算法性能的评测准则为了与已有算法公正比较,实验中,采用先前工作普遍采用的评价框架.如文献[22]所述,随机选择p对行人图像对作为测试集,余下的行人图像对作为训练集.测试集由查询集和行人图像库两部分组成.每对行人图像,随机选择一张图像并入查询集,另一张则并入行人图像库.当给定一个行人再识别算法,衡量该算法在行人图像库中搜索待查询行人的能力来评测此算法的性能.为了测试算法在只有少量的训练样本时的性能,p分别取316,432,532进行实验.p取值越大,则测试样本越多(匹配越困难),训练样本越少(训练越困难).对于每组实验,以上产生测试集和训练集的过程重复10次,10次实验结果的平均值作为本组实验的结果.已有的行人再识别算法大部分采用累积匹配特性(CumulativeMatchCharacteristic,CMC)曲线评价算法性能.给定一个查询集和行人图像库,累积匹配特征曲线描述的是在行人图像库中搜索待查询的行人,前r个搜索结果中找到待查询人的比率.第1匹配率(r=1)很重要,因为它表示的是真正的识别能力.但是当r取值很小时,第r匹配率也很有现实意义.因为在实际应用中,反馈的前r个搜索结果中,可以通过人眼判断找到查询目标.

2.2不同公共实验集上实验对比本文算法选择在VIPeR[23]数据集、iLIDS[24]数据集、ETHZ[25]数据集和CUHK01[26]数据集上进行实验.VIPeR数据集中相关行人对来自两个不同的摄像机.相关行人对的外观由于姿态、视角、光照和背景的变化而差异大.iLIDS数据集包含119个行人的476张图像,每个行人的图像从两张到八张不等.iLIDS数据集是从机场收集的,数据集有严重遮挡和光照变化的问题.ETHZ数据集包含146个行人的8555张图像.数据集中的图像来自移动摄像机拍摄的三个视频序列.ETHZ数据集中的图像由同一摄像机拍摄,则数据集中行人姿态变化和视角变化的程度没有VIPeR数据集那么明显.为了使ETHZ数据集具有挑战性,实验中相关行人提取两张图像,一张近景和一张远景.远景图像含有大量无用的背景信息,使选用的数据集有明显的遮挡情况和光照变化.CUHK01数据集是由两个摄像机在校园环境中拍摄得到,包含971个行人的3884张图像.每个行人包含四张图像,前两张图像是摄像机拍摄的行人前后景图像,两张图像是摄像机拍摄的行人侧面图像.每个行人的前两张图像只是姿态上有稍许的变化,前两张图像与后两张图像在视角上、姿态上差异较大以及有明显的光照变化.实验中,每个行人前后景图像随机选择一张,侧面图像随机选择一张,这样得到的实验集具有显著的视角变化、姿态变化和光照变化.

2.2.1VIPeR数据集VIPeR数据集是由632对相关行人对图像组成.如图2所示,同一列中的行人图像为同一个人,为了对比本文算法基于不同核函数的实验效果,下表1给出了该算法基于不同核函数的实验对比.实验中测试样本集和训练样本集均为316对相关行人图像.VIPeR数据集上的其它实验,如果没明确表明测试样本集和训练样本集的个数,都默认有316对相关行人图像.从表1可知,本文算法基于RBF-χ2核函数的效果最优.为了充分体现算法的效果,在后面的实验效果对比中都是基于RBF-χ2核函数.下表2给出了该算法与当前主流算法的效果对比.从表2可知,该算法性能有较大的提升,尤其是Rank1,Rank1比表中最好的结果提高了约8(%).此外,该算法与表中的PCCA、rPCCA、kLFDA和MFA等算法都是基于RBF-χ2核函数;但该算法整体效果明显优于它们.值得一提的是,对于Rank1,该算法的效果相对主流的行人再识别算法有了显著的提高.第1匹配率很重要,因为它表示的是真正的识别能力.行人再识别技术一个典型的应用是刑事侦查;若Rank1越高,则在刑事侦查中,搜集与嫌疑人有关的线索的效率就会提高.为了充分说明本文算法的优越性,表3给出该算法在仅用HSV特征情况下与其它算法效果对比.由表3可知,该算法虽然只使用了HSV特征,但是效果比采用多特征的算法(SDALF、PS、RDC和KISSME)更好.KISSME融合了HSV、LAB和LBP等特征,Rank1仅有20(%);该算法只用HSV特征,Rank1就达到了28.4(%).另外,该算法与同样只使用HSV特征的算法(如ITML、Euclidean、NRDV和KRMCA等)相比,仍然优于它们.其中,ITML和Euclidean算法整体效果都比该算法差.NRDV算法虽然Rank1与该算法相近,但是Rank10和Rank20较低,且NRDV算法模型比该算法复杂得多.KRMCA算法效果总体上都不如该算法且KRMCA的代价函数收敛很慢,算法训练时间很长.当测试集规模为P=432和P=532时,该算法与已有行人再识别算法的性能比较如表4和表5.从表中可知,在只有少量的训练样本情况下,该算法性能同样优于已有算法.由此可见,该算法有效解决了学习相似度度量函数中出现的过拟合问题.

2.2.2iLIDS数据集iLIDS数据集中每个行人包含两张到八张照片不等.实验中,从每个行人所包含的图像中随机取两张作为实验集,最后得到的实验集为119对相关行人图像.最终实验效果是多次随机取得的实验集效果的平均值.数据集中的图像尺寸是不尽相同的,实验中统一把图像的尺寸设置为高128宽48.实验中训练集为59对行人图像,测试集为60对行人图像.本文算法在iLIDS数据集上与其它算法的效果对比如下。该算法与表中基于测度学习的算法PCCA、rPCCA、MFA和kLFDA都是基于RBF-χ2核函数.但从表6可知,该算法整体性能优于PCCA、rPCCA和MFA等算法;该算法虽然与kLFDA算法性能接近,但总体上还是优于kLFDA算法.由此可见,该算法比使用相同核函数的其它算法效果更好.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.

2.2.3ETHZ数据集数据集中的图像尺寸是不相同的,实验中统一把图像尺寸设置为高128宽48.实验中训练集为76对行人图片,测试集为70对行人图片.表7分析了本文算法在ETHZ数据集上与其它算法的效果对比.从表7可知,该算法在ETHZ数据集上的整体性能优于同样基于RBF-χ2核函数的PCCA、rPCCA、MFA和kLFDA等算法.在ETHZ数据集上,同样证明了该算法比使用相同核函数的其它算法效果更好.值得一提的是,该算法的rank1较于其它算法显著提升了.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.

2.2.4CUHK01数据集数据集中的图片的尺寸是不相同的,实验中统一把图片的尺寸设置为高128宽48大小.实验中训练集为486对行人图片,测试集为485对行人图片.本文算法在CUHK01数据集上与其它算法的效果对比如下表8:从表8可知,该算法在CUHK01数据集上的整体性能同样优于KISSME和SVMML算法以及基于测度学习的算法PCCA、LFDA、rPCCA、MFA和kLFDA.该算法与MidLevel算法效果接近,但MidLevel算法模型复杂.该算法与其它算法效果对比可知,该算法可以学习得到具有良好区分性的相似性度量函数.通过在CUHK01数据集上的效果对比,进一步说明该算法与使用相同核函数的其它算法相比效果更好.

2.3特征核映射前后算法性能的比较为了分析特征经过核映射后对算法的影响,表9、表10、表11和表12分别给出在四种数据集上特征经过核映射前后算法效果的对比实验.通过在四个公共数据集上实验对比可知,特征经过核映射后算法效果在VIPeR、iLIDS和CUHK01数据集上整体上都得到了显著的提升,在ETHZ数据集上虽然提高不明显,但还是优于已有算法.总的来说,该算法在特征经过核映射后,学习得到的相似度度量函数更具有区分性,能够得到较好的识别效果.

2.4权值a取值不同时算法的性能比较为了分析权值a对算法性能的影响,图3、图4、图5和图6分别给出在四种数据集上不同的权值a下,本文算法性能的对比实验.其中SC为颜色特征子空间的相似度函数,ST为LBP特征子空间的相似度函数.权值a越大,代表相似度函数中颜色特征子空间的相似度函数比重越大.通过在四种数据集上不同的权值a下算法性能的对比实验可知,a取值对算法效果的影响较大.当a取值很小时,算法效果不是很理想,当a增大时,算法性得到一定程度的提升,当a在0.5到0.7范围内取相应的值时,算法性能能达到最优,当a继续增大后,算法性能有一定程度的下降.

3结论