图形图像实训总结十篇

时间:2023-03-31 07:32:55

图形图像实训总结

图形图像实训总结篇1

关键词:ROS;表面缺陷;图像采集;神经网络;模型训练

飞机蒙皮是包围在飞机骨架结构外且用粘接剂或铆钉固定于骨架上,形成飞机气动力外形的维形构件,在飞机正常工作状态下扮演着重要的角色,一旦飞机蒙皮出现缺陷等问题,需要及时的反馈出来并且维修。传统的飞机表面缺陷检测方式大多数是由人工来完成,会存在效率低、成本高等缺点,甚至会出现检测失误的情况。本文就针对铝合金表面缺陷检测方面,提出一种基于ROS的飞机表面缺陷检测系统,采用移动机器人底盘定位和导航技术,结合深度学习、图像处理等技术检测出存在缺陷的位置并标记出来,通过机器代替传统人工的方式,旨在提高检测效率和检测精度,为飞机表面缺陷检测提供一种方式。

1系统的总体设计

飞机表面缺陷检测系统主要由检测模块、ROS机器人模块、图像处理模块三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:在某一区域范围内,检测模块以树莓派为核心控制器,通过检测模块中的图像采集系统对铝合金材料表面进行图像采集,将采集到的图像通过TCP通信传输到图像处理模块上[4]。图像处理模块利用深度学习中设计的卷积神经网络进行数据训练,得到检测模型,将检测模型应用到图像预处理上。此时,OpenCV对检测模块得到的图像进行图像处理[5],最终得到缺陷出现的位置。当前区域检测完毕后,通过ROS机器人模块的定位和导航功能,驱动运动执行机构工作,并移动到相邻下一块检测区域,直到所有位置都检测完毕。上述工作原理可实现飞机表面缺陷检测系统,下文将对其包括的三大模块进行说明介绍。

2检测模块设计

如图2所示,系统的检测模块主要是包括树莓派和摄像头,其中树莓派作为检测模块的处理器,搭建的有Ubuntu系统,是系统实现的重要组成部分。树莓派可以提供普通计算机的功能,并且功耗低。可直接在树莓派上安装Keil进行开发,具有很好的开发效果,运行稳定。本次飞机表面缺陷检测系统实现了树莓派将摄像头拍摄的图片发送到图像处理模块上,同时也搭载ROS系统实现了移动底盘的定位和导航功能。

3ROS机器人模块设计

ROS随着机器人技术发展愈发受到关注,采用分布式框架结构来处理文件,这种方式允许开发者单独设计和开发可执行文件。ROS还以功能包的形式封装功能模块,方便移植和用户之间的共享。下面将介绍其建图和导航功能的实现。

3.1建图设计

本文在ROS系统中使用Gmapping算法软件包实现建图[7],在ROS系统中设计了建图过程中各节点及节点间的话题订阅/的关系如图3所示。在图3建图节点话题关系图上,其中椭圆形里代表节点,矩形基于ROS的飞机表面缺陷检测系统胡浩鹏(纽约大学NewYorkUniversity纽约10003)框里代表的是主题,节点指向主题代表着该节点了主题消息,主题指向节点代表着该节点订阅了主题消息。在建图过程中,主要涉及激光雷达节点、键盘控制节点、底盘节点、Gmapping节点和地图服务节点。

3.2导航设计

ROS提供的Navigation导航框架结构如图4所示,显然MOVE_BASE导航功能包中包括全局路径规划和局部路径规划两部分,即在已构建好的地图的基础上,通过配置全局和局部代价地图,从而支持和引导路径规划的实施。为了保证导航效果的准确,通过AMCL定位功能包进行护理床的位置定位[8]。获取目标点的位置后,MOVE_BASE功能包结合传感器信息,在路径规划的作用下,控制指令,控制护理床完成相应的运动。

4图像处理模块设计

图像处理模块设计主要分为图像预处理、模型训练和卷积神经网络三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对卷积神经网络部分进行介绍。

4.1卷积神经网络训练流程

通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测飞机表面缺陷的关键一步,然后对训练样本进行训练,具体步骤如下所示。(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:将得到的测试结果与设定的故障分类结果进行误差对比,不断优化训练集,最终得到理想的训练数据。

4.2缺陷检测流程

缺陷检测流程如图5所示,首先输入缺陷原始图像,通过特征提取网络,将处理后的图像使用检测器进行检测,其中检测器里为卷积神经网络训练后得到的模型,最终缺陷检测后得到的识别后的图像,并反馈出来。

4.3实验测试

铝合金表面缺陷主要有碰伤、刮花、凸粉、脏点等常见的缺陷,下面将以这四种为主要对象进行检测训练,各自训练集数量为1000张。通过卷积神经网络对缺陷的特征进行提取和分类,最终实现了缺陷的检测。本次实验测试的样本为200张,每种缺陷50张,均采集自铝合金材料表面且与训练样本一致,实验结果如表1所示。由表1可知,检测脏点的准确率高达98%,刮花和凸粉的准确率也达到94%,但碰伤的准确率相对较低,只有88%。可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②碰伤缺陷不明显,无人机难以识别;③训练的数据集较少,特征学习误差大;但最后结果是满足了设计需求,还需进一步改进。

5总结与展望

图形图像实训总结篇2

关键词:对象轮廓;分水岭;支持向量机;场景标注

DOIDOI:10.11907/rjdk.171167

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2017)006-0015-04

0 引言

在计算机视觉领域,场景标注[1]作为图像分析的一个重要环节受到广泛关注。场景标注的主要任务是识别图像中每个像素所属类别。由于图像常会受到不同光照强度、对象遮挡以及对象种类繁多和复杂的场景问题,导致像素标注错误,无法很好地标注对象轮廓,最终导致场景标注效果不理想。因此,如何有效提取图像中对象的整体信息,描述图像对象轮廓,一直都是值得研究的问题。

当前的场景标注方法是直接在图像像素的基础上训练模型,而单纯在像素上训练模型很难描述对象轮廓,从而使场景标注难以获得理想效果。基于此,本文提出一种基于支持向量机的场景标注方法SVM-SLM(Scene labeling method based on support vector machine),通^训练图像块,有效解决了基于图像中对象轮廓的描述问题,在像素精确度上也有良好表现。

2 SVM-SLM方法描述

传统的基于像素训练的场景标注模型无法描述对象轮廓,会出现预测对象丢失和对象不完整的问题,从而影响像素精度。文献[2]、[ 3]、[4]研究的场景标注方法时间开销过大,并且精确度不高。针对以上问题本文提出了SVM-SLM方法,具体步骤如下:①采用结构森林方法[5]生成图像的边缘概率图;②将上述生成的边缘概率图用分水岭方法将图像划分为初始图像块;③为防止分水岭方法过度分割并且减少接下来的训练开支,通过UCM算法选取阈值,优化图像块;④对图像块提取特征,利用支持向量机训练图像块得到场景标注结果,并实现具有良好精确度及轮廓效果的场景标注方法。

3 生成图像块

边缘检测是计算机视觉系统中的一个重要环节,包括对象检测[6]、目标预测[7-8]以及场景分析[9]。边缘形状是目标对象几何形态描述的重要表现内容,图像中对象的轮廓往往来自于图像的边缘信息,所以有效提取图像边缘信息方法是关键。

传统的水平集模型需把轮廓曲线演化的能量方程转化为微分方程,进而借助梯度下降法求得方程最优解。这一过程不仅耗时,而且导致计算结果不稳定。考虑到一般图像块对图像的局部特征表现效果很好,本文利用图像块对边缘学习能力很强的特点,提出结构森林[5]与分水岭相结合的方法。首先利用结构森林的学习方法建立随机决策森林,学习每个像素的边缘概率,生成边缘概率图,此过程不但解决了耗时问题还取得了良好的边缘检测效果;再将边缘概率带入分水岭方法生成初始图像块,得到包含轮廓信息的初始图像块,效果如图2所示(彩图见封二)。图2(a)和图2(d)测试为图像,图2(b)和图2(e)为对应的边缘概率图,图2(c)和图2(f)为初始图像块。

4 训练SVM模型

传统的像素训练无法保留图像中对象的轮廓信息,训练时单纯对像素提取特征,忽略了像素之间的局部空间信息,不能很好表达图像中像素之间的区域结构信息。本文通过对带有对象轮廓信息的图像块进行训练,在进行语义标注的同时保留了对象轮廓信息。

采用核描述、核匹配方法,通过2*2网格模型提取像素的纹理特征、颜色特征和梯度特征,对应于同一图像块的像素特征加权合并为图像块特征。随机提取10块图像块生成特征图,利用支持向量机算法对图像块进行训练,如图4所示。

5 实验结果及分析

为了验证方法的有效性,图像数据集采用Stanford Background数据库[11],数据库共715幅复杂的户外场景图片,每张图像大小为320×240像素,附有标注好的正确语义图片。每个像素划分为一类,共8个类别,总计5 491万多像素标记样本,类别分别为天空、树、马路、草地、水、建筑物、山脉和前景对象。

实验随机提取五组训练集和测试集依次带入公共图像块阈值[0.1,0.2,0.3,0.4,0.5]进行评估,每组训练集提取572个图片,运用本文方法分割成若干图像块,平均每组图片被分割成5万多块图像块,运用支持向量机对这些图像块进行训练。用剩余143个图片作为测试集,平均分割成1万多个图像块进行测试,并对每个像素进行语义标注。实验效果如图5所示(彩图见封二)。图5(a)为部分测试图像,图5(b)为数据库正确标注图像,图5(c)为本文方法的场景标注图像,图5(d)为标注失准图,标注错误的像素呈黑色,正确的为白色。图5下方8个色块分别代表8个不同的类别。

利用结构森林生成边缘概率图,将图像边缘作为对象轮廓候选区,提高了场景标注对对象轮廓的标注能力。再通过UCM算法优化图像块,最终场景标注结果如图6所示。图6表明,本文方法在人物、车辆、动物等重要的前景对象轮廓细节上有较好的描述。

6 结语

场景标注是计算机视觉技术的关键步骤。针对像素训练模型容易忽略图像空间结构信息,无法描述对象轮廓的问题,提出一种基于支持向量机的场景标注方法。通过结构森林/UCM生成图像块,构建支持向量机模型,训练得到场景标注结果。实验表明该方法较好地描述了图像中的对象轮廓,获得了良好的精确度和标注效果。但是,由于特征描述采用核描述提取特征,对部分图像块不能有效提取特征,导致部分图像块标注不正确,影响了总体精确度。下一步的工作目标是提高有效特征的提取,以获取更高的精确度及场景标注效果。

参考文献:

[1]顾广华,韩晰瑛,陈春霞,等.图像场景语义分类研究进展综述[J].系统工程与电子技术,2016 (4):936-948.

[2]马成虎,董洪伟.一种基于深度学习的多尺度深度网络的场景标注算法[J].计算机工程与科学,2016,38(7):58-63.

[3]MUNOZ D,BAGNELL J,HEBERT M.Stacked hierarchical labeling[C].European Conference on Computer Vision,2010:57-70.

[4]TIGHE J,LAZEBNIK S.Superparsing:scalable nonparametric image parsing with superpixels[J].European Conference on Computer Vision,2010,63(15):352-365.

[5]DOLLAR P,ZITNICK C L.Structured forests for fast edge detection[C].The IEEE International Conference on Computer Vision (ICCV),2013:1841-1848.

[6]GALL J,LEMPITSKY V.Class-specific hough forests for object detection[C].The IEEE Conference on Computer Vision and Pattern Recognition,2009:143-157.

[7]ARBELAEZ P,JORDI P T,T BARRON J,et al.Multiscale combinatorial grouping[C].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014:328-335.

[8]JORDI P T,ARBELAEZ P,BARRON J,et al.Multiscale combinatorial grouping for image segmentation and object proposal generation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016.

[9]KUMAR P,KOLLER D.Efficiently selecting regions for scene understanding[C].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2010:3217-3224.

图形图像实训总结篇3

关键词:虚拟现实;创新;图形图像制作专业教学

中图分类号:G712文献标识码:A文章编号:2095-4115(2014)03-229-1虚拟现实技术作为图形图像领域的一种新型虚拟交互媒体,目前在国内已经引起了人们的极大关注。国内许多高校及研究所开始了对虚拟现实技术的应用研究。作为IT领域创意产业的图形图像制作专业,应该将虚拟现实这项前沿技术的学习和应用纳入到教学中。

一、 虚拟现实技术创新图形图像制作专业教学的现状

目前,众多开设了图形图像制作专业的高职院校就该专业的教学体系及教学模式等进行了一些探索。但就如何根据图形图像制作专业的特点开展有针对性的项目实践教学研究,还存在着一些不足。

首先,因专业定位不明确,造成图形图像制作专业教学的针对性不强。图形图像制作专业应该是一个技术与艺术相结合的专业,偏注于技或艺都将有违本专业人才的培养目标。如“三维动画基础”课程的教与学中,普遍的教学状况是:学生将大量的时间用于对设计软件的追风逐流中,忽视了软件只是一个工具,更重要的是运用这些工具去表现自己的设计意图。

其次是教学中的项目案例与社会脱节。目前,高职院校的教学模式大多已经使用工学结合一体化教学模式,但在使用案例教学、项目教学时,所选案例不够经典,或者题材与表现手段太过陈旧,与当前行业实际应用不匹配。

再次,学生职业能力形成的重要手段就是实训,而实训设施的数量和质量直接影响到工学结合技能训练的效果。建好实训室后又因设备的更新换代、耗材、管理等问题,面向学生开放的实训时间也有限,从而大大地制约了工学结合模式的教学效果。

以上的诸多问题表明,图形图像制作专业的教学改革势在必行。

二、 虚拟现实技术创新图形图像制作专业教学的改进方法

首先,在教学内容上打破传统的课程教学序列,通过项目教学整合相关课程。图形图像制作专业课程可以将专业基础课程如素描、色彩、摄影等课程整合到“虚拟三维校园”的资料收集子项目中;将图形图像处理软件的学习整合到资料的整理与优化子项目中;将三维动画基础课程的讲解直接纳入到三维校园模型的创建子项目中,以此解决表现技术问题;将图形创意、VI设计、印刷工艺等课程整合到虚拟三维校园导视系统的设计与制作项目中,着重解决创意与艺术地表现等问题;将网页设计与制作、多媒体技术等课程整合到虚拟三维校园的网络任务中等。在各个子项目教学中,打破以前传统的基础课、专业基础课、专业课三段式教学模式,根据项目要求直接或并行地按所需学习的相关专业知识和技能。

其次,在教学方法上,运用虚拟现实技术实现互动体验式教学。体验式教学,即是在项目教学过程中,学生先体验相似项目的虚拟作品,使教学富有趣味性,形成感性认识;然后学生尝试制作出来该作品,初步形成基本表现能力;再反复体验自己或同学制作出来的虚拟作品以寻求不足并予以完善,最后将虚拟作品在常规实训室里按传统的实训方式制作出来,完成对设计作品的最终检验。

最后,在图形图像制作专业的课程教学中,众多的设计项目都可以制作成虚拟作品,教师在讲解时学生即可进行自主体验,以增强学生的感性认识。学生还可根据老师的提示,归纳相关的专业知识,有利于学生自我学习能力的提高。

三、 虚拟现实技术创新图形图像制作专业教学的意义

首先,虚拟现实技术是图形图像领域的最新成果,并将随着IT的发展而涉足各行业各领域。课程整合充分体现了以实践为主、理论够用为度的职业教育特色。从项目教学模式、教学内容和教学手段,都体现出一个新字。

其次,在项目教学内容上,虚拟现实技术及其应用一直贯穿于整个教学体系;在教学方法上运用虚拟现实技术的沉浸感和体验式教与学,将虚拟技术的运用、虚拟作品体验或虚拟实训设备的操作,与常规实训室的具体实训相结合,更有助于促成学生职业能力的形成。学生在设计作品的表现手段上,也运用虚拟现实技术。如作品的最终结果都以互动式的虚拟现实作品形式进行呈现。

最后,学生的学习方式为体验式学习、互助式学习。学生的学习不再是枯燥单调的接受。老师的教授也不再是机械的你问我答的表面互动式教学,而是体验式的学习,在玩中受教。学生最初由互动作品体验而产生兴趣,由模仿制作而获得表现技能,再反复互动体验而强化技能,最后实际制作出成品以检验其技能。

四、 总结

将传统的图形图像制作教学与虚拟现实技术的结合运用势必使该专业的教学内容与教学手段得到前瞻性的进步。而学生从虚拟现实技术的操作中得到了与实践相符合的体验,使他们的实践能力也得到了进一步提高。因此图形图像制作专业教学与虚拟现实技术的结合能够为培养适合社会需要的图形图像制作专业的高级应用型人才提供重要的保障。

参考文献:

[1]陈. 图形、图像与虚拟现实技术研究[J]. 改革与开放,2010,(12).

[2]李伟群,于斌. 虚拟现实技术在高职教学中的应用[J]. 中国职业技术教育,2010,(07).

[3]孙兴奇. 虚拟现实技术在职业技能教学中应用的探讨 [J]. 中国科教创新导刊,2009,(10).

图形图像实训总结篇4

关键词:细化管理;量化标准

精细化管理理念是一种文化,其基本原则是“精、准、细、严”,通过提升员工素质,加强企业内部控制,强化协作管理来提高企业整体效益。由于管道施工涉及领域较广,而技术管理工作作为企业管理的核心组成部分,如何去充分的发掘技术资源,实现技术沟通互补,提高技术坚实保障,发挥技术创造性已成为技术细化管理工作的一个新课题。

1技术方案模块细化

施工技术方案储备是技术管理工作的一项重要内容,它涵盖了施工企业大部分的施工技术知识和施工经验。由于技术方案涵盖范围较广,为便于技术人员了解、学习现场施工经验,编制有针对性的施工措施,需将方案中纯粹的施工技术部分提取出来单独编制成模块,整合后下发给每个技术管理人员。

2技术制图模块细化

作为一个管道施工企业,技术人员要在投标、编制方案、技术交底和技术培训等工作中绘制大量的图形文件,制图不仅浪费了大量的时间,同时绘图质量也良莠不齐。为保证技术人员劳动时间分配合理化以及制图的规范化,应组织有经验的技术人员对施工用图进行搜集、整理、绘制及软件集成。在总结归纳施工制图种类之后,最终通过AUTOCAD、photoshop及AbleSoftwareR2V(图形矢量化工具)等常用制图工具对其进行绘制,最终通过软件集成形成工程制图库。为便于公司技术人员使用,制图工具一般以入门较低的AUTOCAD为主。通过技术人员的集中整理和绘制,制图库中不仅要归纳总结正规的施工通用图系列,还应针对施工中的一些简易的工具制作、施工流程、现场作业示意、施工设备模型以及一些制图单元分别进行了绘制,以达到扩大适用范围,提高实用意义的目的。

3影像资料图库化

施工影像资料是反映工程现场施工情况的第一手材料,它真实的记录着现场施工流程,有着强烈的直观性。施工影像资料库的建立,对技术人员学习、总结现场施工经验有着极其重要的意义。按以往的经验,新增技术人员理论培训后需到施工现场进行实习,由于理论培训不具有直观性以及管道工程施工本身性质的局限性,技术人员想系统的掌握施工技术知识,往往需要一个很长的周期,甚至要工作三年以上才能掌握相关知识。为了缩短技术人员培训周期,系统性提高其业务能力,应组织技术骨干对企业原有的影像资料按施工性质进行筛选及整理,同时将缺失的部分资料重新进行采集,最终建立一个全面的,精细化的影像资料库。资料库建立完成后,直接应用于在新增技术人员的培训工作中。一般情况下,利用标准化手段对现场施工图片和录像进行采集、整理,之后分别使用会声会影、windosmedia等常用影像处理工具对视频影像进行剪辑处理,使用photoshop等制图工具对施工图片进行局部整合处理,使用PowerPoint对施工流程部分进行幻灯片制作处理,部分涉及特殊地形地貌施工区域使用googleearth工具进行标记处理,最后使用影像管理软件对其进行命名和分类,最终形成影像资料库。

4动漫教学模块细化

虽然施工影像资料可直观的再现施工现场的作业流程,但是由于其水平视角局限及不可穿透性等原因,涉及到一些特殊工序(如三穿工程、山区工程及隐蔽工程)的大型的施工时,技术人员无法全面理解施工的工作原理,对于技术人员来说,由于其从事的工作均为指导性工作,“知其然而不知其所以然”的后果对企业来讲是不可承受的。因此,建立一个系统的动漫培训模块对施工原理进行剖析的重要性不言而喻。动漫教学模块的制作完全依托于技术方案进行。对于一些特殊工序,如:定向钻、顶管穿越、隧道施工、河流开挖及盾构施工等工程内容,一般采用的是3D动漫制作方式。3D动漫的优势在于表达效果明显,施工设备及操作流程均按实物比例进行建模,演示效果逼真,表达内容更加直观。对于一些常规施工,如:平原地区流水作业流程、山区作业流程、沼泽预制发送流程等工程内容,由于其工序相对简单,一般采用的是FLASH动漫制作方式。FLASH动漫表达效果要逊于3D动漫制作效果,但是由于常规施工作业形式简单,且工艺设备更新速度较快,其制作成本低廉的优势比较突出。

5结束语

图形图像实训总结篇5

关键词:显著性因子;局部纹理特征;感兴趣区域提取;AdaBoost分类器;行人检测

中图分类号: TP391.4

文献标志码:A

0引言

行人检测一直是模式识别、机器视觉、图像处理等研究领域中的一项重要研究课题,广泛应用于视频监控系统、智能车辆控制、肢体动作分析等智能系统中。目前基于统计学习的行人检测方法主要由特征提取和分类学习两部分构成。此类方法中最为典型的是Dalal等[1]提出的基于方向梯度直方图(Histogram of Oriented Gradients, HOG)和支持向量机(Support Vector Machine, SVM)的行人检测方法,该方法能有效刻画人体边缘特征,在行人检测研究中取得了突破性的进展, 但它也存在特征维数高、计算复杂的问题。另外,不少学者还提出了其他的方法用以描述行人特征。Chen等[2]提出的基于人类视觉机制的韦伯特征(Weber Local Lescriptor,WLD)的方法,对光影变化有一定的鲁棒性; Wu等[3]提出的利用线条描述人体局部轮廓的小边特征(Edgelet)在图像出现遮挡的情况下也有了较好的检测效果; Yu等[4]提出了利用光流法计算图像内部的运动信息进行统计建模的检测方法,能有效针对运动目标进行检测。除此之外,还有颜色特征、伽柏特征(Gabor)、协方差特征(Covariance, COV)、积分通道特征(Integral Channel Feature, ICF)等一系列的特征提取算法[5-7]。

在基于统计学习方法的行人检测算法中有两个因素对于检测结果有着至关重要的影响:一是分类器设计,二是行人的特征和标识集的建立。在真实场景中,行人和背景通常都是非静态的,可能存在各种变化。为了解决这些问题,行人特征的提取和描述必须做到高效和精确。局部二值模式(Local Binary Pattern, LBP)是一种描述图像纹理特征的有效算子,它具有单调变换不变性和旋转不变性的特点,对光照和周围环境的变化具有一定的鲁棒性[8]。显著性局部二值模式(Significant Factor Local Binary Pattern, SFLBP)则是在LBP算子的基础上融合了显著性因子,使得特征符合人类视觉快速搜索的规律,突出强调行人特征[9]。利用SFLBP特征结合AdaBoost分类器可提高分类器对于行人特征的区分度,有效地提高检测的精度,达到更好的检测效果。

1显著纹理结构

传统的行人检测方法主要是根据图像自身描述的信息提取出行人特征,再通过这些特征来判断图像中是否存在行人区域,一般可用于提取行人特征的信息有颜色、轮廓、边缘、结构等。本文先提取图像中的LBP纹理特征信息,然后在特征中融合显著性因子,突出图像中视觉显著区域的纹理特征,有利于分类器更好地对特征进行分类操作。

1.1 显著性描述因子

显著性描述因子(Significant Factor)主要是根据人类的视觉特性来描述图像显著性的算子[10]。依据人的视觉感知特性,显著性一般是由目标部分与背景区域的基于色彩和亮度特征的比值组成,局部显著性因子定义为邻域像素值与中心像素的像素值的之间的对比关系,具体表达式为:

G(Xc)=(∑p-1i=0(ΔXi))/Xc=(∑p-1i=0(Xi-Xc))/Xc(1

为统一描述图像中的局部显著性特征,对局部显著因子作归一化处理,进一步定义中心像素点的显著性因子为:

ξ(Xc)=arctan[G(Xc)]=arctan[∑p-1i=0(Xi-Xc)/Xc] (2)

其中:ξ(Xc)的取值范围是[-π/2,π/2],另外将ξ(Xc)映射到矩形算子框架中,将矩形框划分为N个区间Si(i=0,1,…,N-1),每个区间Si的显著性因子权值也会因区间位置的不同略有差异。ξ(Xc)的值越大,表明该处的显著性比值越强。图1显示了两种常见的分块矩形结构的显著性因子权值。

图片

图1分块矩形结构权重

1.2结合显著性因子的纹理结构

LBP算子主要用于描述图像的局部纹理结构,它在物体分类、织物检测、运动目标检测中都有广泛应用[11]。式(3)、(4)给出了计算LBP特征值的基本公式:

LBP(Pc)=∑p-1n=02ns(gn-gc)(3

s(x)=1, x≥00, x

最基本的LBP算子是定义在3×3的窗口上的,图2(c)中的像素点Pc计算出来的LBP值为10011011。若对整幅图中每个像素都提取LBP值,那么组成的新图像则是由LBP特征构成的二次特征描述图,也就是得到了整幅图的LBP特征。LBP算子目前已有若干变形和改进,以提高其对纹理特征的描述效果,例如LBP均匀模式、LBP旋转不变模式、LBP等价模式等[12]。

根据行人在图像中包含较多垂直边缘的特点,本文采用一种基于垂直边缘信息的改进LBP算子LBPxi(Pc)作为纹理特征提取的算法。显著性因子具有突出图像中前景目标、削弱背景的作用,因此算法模拟人类的视觉注意机制,根据图像不同区域的显著性因子权值ξ(Xc)来调整LBP纹理值,建立图像的显著性纹理特征,此特征即为SFLBP特征。在融合显著性因子和LBP特征的过程中需先计算出每个局部区域的显著性因子ξ(Xc),将其映射至原始像素空间构成一组特征向量,然后将特征向量转换成核矩阵,并利用此核矩阵逐个遍历调整LBP特征值,这样就构成了描述显著性纹理特征的SFLBP算子。该算子更加精确地描述了图像中关键信息的纹理特征,也更加符合人类的视觉注意机制,增强了在图像中目标区域的显著性。

图片

图2LBP算子计算示例图

第11期

马强等:融合显著性因子的行人纹理提取

计算机应用 第35卷

2基于SFLBP特征的行人检测

2.1SFLBP特征提取的基本算法

SFLBP算子在图像纹理特征的基础上融合了显著性因子,更加符合人类视觉处理机制,具有能够重点突出图像中感兴趣区域的特征、削弱非目标区域的纹理特征的优点。因此,本文用SFLBP算子来提取待检测图像中的纹理特征,并形成统一的特征向量。为了进一步提高纹理特征的描述精度,突出不同区域的局部特点,可以采取局部纹理特征的思想[12],将原始图像分成多个部分,分别提取出图像的局部显著性纹理特征,并计算其统计直方图,然后形成基于局部信息的SFLBP特征向量,这样可以重点突出有效区域的特征信息,减小特征向量中的信息冗余度。此过程的算法步骤如下所示:

输入训练集图像样本。

1) 确定图像最合适的分块数量N0×N0;

2) 对分块后的局部样本图像根据式(1)、(2)计算显著性因子权值ξ(Xc);

3) 根据式(3)、(4)计算局部样本图像的LBP特征值LBPxi(Pc),并根据步骤2)中的显著性因子调整LBP特征权值,计算得出SFLBP特征值;

4) 重复步骤2)~3),直至所有的分块图像都完成计算,然后统计各区域的SFLBP特征值,得到完整图像的SFLBP特征向量;

5) 对样本集所有样本图像执行步骤2)~4)操作,得到SFLBP特征向量集;

6) 将步骤5)中的特征向量集输入分类器,训练分类器参数。

2.2分类器的选择和训练

在上述的算法步骤中,分类器的参数训练和对特征向量的分类结果直接影响到最终的检测效果。AdaBoost分类器基本思想是对分类器多次迭代训练以提高分类效果,迭代过程中可以排除掉一部分不必要的训练数据,突出关键数据的训练结果[13]。因而对于SFLBP算子中的显著性较高的部分有正向激励的作用,提高SFLBP算子的检测准确率。故而实验采用AdaBoost分类器对SFLBP特征向量进行分类实验。

分类器训练的具体过程是将特征向量作为AdaBoost分类器的输入特征集,训练弱分类器,并根据训练结果的误差来反馈调节分类器参数,式(5)即为分类器误差的计算公式:

εj=∑Nt=1Dt(xt)hj(xt)-yt(5)

其中hj(x)为弱分类器的分类函数,具体公式如式(6)所示:

hj(x)=1,pjgj(x)

在弱分类器达到指定的准确率后,需根据样本分类正确与否调整各个样本权值Di(Xi),并重新生成新的特征向量集合; 接着继续迭代训练分类器,直至最后分类器达到理想的分类效果; 最后将所有弱分类器合成最终的强分类器公式如(7)所示:

H(x)=1,∑Tt=1αtht(x)≥12∑Tt=1αt0,其他 (7

最终训练出的分类器就可以用来对需要检测的样本图像进行行人检测实验。具体的步骤如图3所示。

图片

图3SFLBP结合AdaBoost的实验流程

3实验结果与分析

INRIA数据集包括各种不同光照条件下、不同穿着、不同姿态和视角的行人数据。其中训练集有正样本614张,负样本1218张;测试集中含有正样本288张,负样本453张。本次测试中选取INRIA数据集作为本次实验的数据库,综合测试SFLBP算子在行人检测实验中的实际效果。

3.1SFLBP算子分块对比实验

在用SFLBP算子描述图像特征时,需选择合适的图像分块数目来计算SFLBP算子。为充分对比不同算法的实验效果,本文选择几种在行人检测领域常用的LBP特征描述算子LBP4-1、LBP8-2等一起对比实验,综合分析各个算子的特征向量的检测效果。表1中列出了这几种特征的检测精确度对比情况。

表格(有表名)

表1不同算子的检测准确度%

算子类别分块数1×12×23×34×45×5

基本LBP73.681.283.488.387.2

LBP4-183.489.391.092.491.3

LBP8-283.890.491.892.691.5

SFLBP86.493.694.295.094.7

横向分析表1中的数据,当分块数目比较小时,分块数目越大,局部特征描述越精确,这样检测效果越好;但当分块数目达到一定值后,再增加分块反而出现过拟合现象,目标区域的检测效率反而有所下降,基本上在分块数目为4×4的时候能取得最好的检测效果。另外,从SFLBP算子的实验数据可以看出在分块数目为9、16、25的时候该算子的检测准确率分别达93.6%、94.2%、94.7%,比基本的LBP算子和LBP4-1、LBP8-2这几种改进的算子的检测效果至少高出3%~4%。

3.2基于SFLBP算子的行人检测实验

实验先用SFLBP算子来描述图像的特征,生成对应的特征向量,然后将这些特征向量作为分类器的输入向量,利用AdaBoost分类器训练特征构成分类器。在迭代训练分类器过程中,一般来讲弱分类器数目越大,最后形成的总分类器的分类效果越好,但弱分类器的数目过大也会造成分类器数量庞大、计算复杂的问题。因此,在保证分类效果的同时尽量减小计算量也是设计分类器过程中需要考虑的问题。图4显示了SFLBP、HOG、Haar三种特征的迭代次数与误差率曲线。

图片

图4迭代次数与误差率曲线

从图4三种特征的误差率变化曲线中可以看出,当误差率趋于稳定后,SFLBP特征的误差率最小,具有最好的效果。而且单独观察SFLBP特征的误差率曲线可知迭代次数小于20时,分类器的误差随着迭代次数的增加会显著下降,迭代次数达到20以后误差率达到收敛,保持在一个稳定的幅度,系统保持稳定。

从上述实验结果可以看出当迭代次数为20时,误差率达到最低范围,同时计算程度也不会特别复杂。这样分类器迭代完成后总共生成20个弱分类器,利用这20个弱分类器即可构成完整的AdaBoost分类器。分类器训练完成后,接下来便对INRIA数据库中的测试样本进行实验,部分实验结果如图5所示。

图片

图5部分行人检测效果图

3.3SFLBP检测效果比较

为准确评估SFLBP算子的检测效果,本文采取目标检测中常用的准确率(Precision Rate, Pr)、召回率(Recall Rate, Rr)和F值(F1Measure, F1)等指标来评估该算法好坏,计算公式如式(8)~(10)所示:

Pr=正确检测的样本数正确检测的样本数+误判的样本数×100%(8

Rr=正确检测的样本数总的样本数×100%(9

F1=2×Pr×RrPr+Rr×100%(10

另外,为比较SFLBP算子与其他算法在实验中的准确率,本文一同对比了其他几种常见行人检测算法,实验中各个算法的准确率和召回率指标如表2所示。

表格(有表名)

表2不同方法的检测准确率比较

检测方法特征维度Pr/%Rr/%F1/%

HOG+

AdaBoost

127595.388.791.9

6094.688.391.3

Haar+

AdaBoost

85394.887.290.8

6094.186.590.1

SFLBP+

AdaBoost

106297.490.093.6

6096.589.392.7

从表2中数据可以看出,不管是使用初始维度特征进行检测,还是利用主成分分析(Principal Components Analysis, PCA)降维方法将特征降到60维后检测的结果可以看出,采用SFLBP算子的方法在准确率上平均要高出2%~3%。在召回率上,该方法要比采用HOG特征、Haar特征的方法也高出近3%,达到90%。另外,从F值也可以看出基于SFLBP算子的检测方法在实验中具有最好的检测效果。

4结语

SFLBP算子是一种改进的纹理特征提取算法,其主要的改进点是模拟人类视觉观察机理中的发散性及显著性特点,利用显著性因子调整图像中不同区域的LBP纹理特征,进一步突出行人的显著性特征,提高了特征的代表性和描述能力。在INRIA数据库上的实验结果显示采用SFLBP特征的AdaBoost检测方法比采用HOG特征、Haar特征的方法高出2%~3%,准确率能达到96%~97%。实际的行人检测系统由于光照、遮挡、背景变化等原因,其复杂度要远远高于本文实验的数据集。后续将从这几个方面去改善行人检测算法,提高算法的适用性和检测准确率。

参考文献:

[1] DALAL N, TRIGGA B. Histograms of oriented gradients for human detection[C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 886-893.

[2] CHEN J, SHAN S, HE C, et al. WLD: a robust local image descriptor[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9):1705-1720.

[3] WU B, NEVATIA R, LI Y. Segmentation of multiple, partially occluded objects by grouping, merging, assigning part detection responses[C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2008: 1-8.

[4] YU X, HOU X, LU H, et al. Anomaly detection of fish school behavior based on features statistical and optical flow methods[J]. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(2):162-168.(于欣,侯晓娇,卢焕达,等.基于光流法与特征统计的鱼群异常行为检测[J].农业工程学报,2014,30(2):162-168.)

[5] SU S, LI S, CHEN S, et al. A survey on pedestrian detection[J]. Acta Electronica Sinica, 2012, 40(4): 814-820.(苏松志, 李绍滋, 陈淑媛, 等. 行人检测技术综述[J]. 电子学报, 2012, 40(4): 814-820.)

[6] ZENG B, WANG G, LIN X. Color selfsimilarity feature based realtime pedestrian detection[J]. Journal of Tsinghua University: Science and Technology, 2012, 52(4): 571-574.(曾波波,王贵锦,林行刚. 基于颜色自相似度特征的实时行人检测[J]. 清华大学学报: 自然科学版, 2012, 52(4): 571-574.)

[7] LIANG S, LIU Y, LI C. Face recognition research under unconstrained based on LBP and deep learning[J]. Journal of Communication, 2014, 35(6): 154-160.(梁淑芬,刘银华,李立琛. 基于LBP和深度学习的非限制条件下人脸识别算法[J]. 通信学报, 2014, 35(6): 154-160.)

[8] WANG W, HUANG F, LI J, et al. Face description and recognition using multiscale LBP feature[J]. Optics and Precision Engineering, 2008, 16(4):696-705.(王玮, 黄非非, 李见为, 等. 使用多尺度 LBP 特征描述与识别人脸[J]. 光学精密工程, 2008, 16(4):696-705.)

[9] SUN R, CHEN J, GAO J. Fast pedestrian detection based on saliency detection and HOGNMF features [J]. Journal of Electronics and Information Technology, 2013, 35(8): 1921-1926.(孙锐, 陈军, 高隽. 基于显著性检测与 HOGNMF 特征的快速行人检测方法[J]. 电子与信息学报, 2013, 35(8):1921-1926.)

[10] XIAO D, XIN C, ZHANG T, et al. Saliency texture structure descriptor and its application in pedestrian detection [J]. Journal of Software, 2014, 25(3):675-689.(肖德贵, 辛晨, 张婷, 等. 显著性纹理结构特征及车载环境下的行人检测[J]. 软件学报, 2014, 25(3):675-689.)

[11] AHONEN T, HADID A, PIETIKAINEN M. Face recognition with local binary patterns[C]// Proceedings of the 8th European Conference on Computer Vision. Berlin: Springer, 2004: 469-481.

图形图像实训总结篇6

EL检测原理与检测系统在文献[1]中有详细的描述。本文采用该文献中的方法对太阳能电池片的EL图像进行采集。图1(a)、(b)、(c)分别表示由CCD采集的一块大小为125bits×125bits的虚焊缺陷图像、微裂缺陷图像和断指缺陷图像。图1(d)是无缺陷太阳能电池组图像,它包含36(6×6)块大小为125bits×125bits的太阳能电池片图像。本文提出融合主成分分析(PCA)改进反向传播神经网络(BPNN)方法和径向基神经网络(RBFNN)方法对太阳能电池缺陷电致发光图像进行处理,主要包括图像采集、PCA特征提取降维、神经网络分类训练、预测输出等部分,如图2所示。

1.1PCA处理输入数据当BPNN和RBFNN的输入是太阳能电池板缺陷图像集时,图像是以向量的形式表示。向量维数太大将不利于网络的计算。我们采用主成分分量分析(PCA)算法[15]来提取该向量的主要特征分量,既不损失重要信息又能减少网络的计算量。PCA是基于协方差矩阵将样本数据投影到一个新的空间中,那么表示该样本数据就只需要该样本数据最大的一个线性无关组的特征值对应的空间坐标即可。将特征值从大到小排列,取较大特征值对应的分量就称为主成分分量。通过这种由高维数据空间向低维数据空间投影的方法,可以将原始的高维数据压缩到低维。假设数据矩阵Xn×p由样本图像组成,n是样本数,p是样本图像的大小。若Xn×p的每一行代表一幅样本图像,则Xn×p的PCA降维矩阵求解步骤如下。

1.2创建BPNN模型和RBFNN模型太阳能电池缺陷种类很多,不同缺陷类型图像具有不同特征。对太阳能电池缺陷图像求其主成分分量作为BPNN的输入,缺陷的分类作为输出,输入层有k个神经元(降维后主成分分量个数),输出层有1个神经元(缺陷的分类向量)。隐层的节点数可以凭经验多次实验确定,也可以设计一个隐含层数目可变的BPNN。通过误差对比,选择在给定对比次数内误差最小所对应的隐含层神经元数目,从而确定BPNN的结构。一般来说,3层BPNN就能以任意的精度逼近任意的连续函数[16]。本论文选择3层BPNN,结构为k-m-1,m为隐含层节点数。为了使网络训练时不发生“过拟合”现象,设计合理BPNN模型的过程是一个不断调整参数对比结果的过程。确定BPNN结构后,就可以对该网络进行训练。训练函数采用Levenberg-Marquardt函数,隐含层神经元传递函数为S型正切函数tansig,输出层神经元函数为纯线性函数purelin。调用格式:net=newff(Y,T,[m,1],{‘tansig’,‘purelin’},‘train-lm’);Y为神经网络的输入矩阵向量(PCA降维后的矩阵向量),T为神经网络的输出矩阵向量。Matlab自带4种主要的函数来设计RBFNN:newrbe,newrb,newgrnn,newpnn。本文用相同的训练样本集和测试样本集创建和测试了这4种网络,其中,用newgrnn创建的网络识别率最高,因此选用广义回归神经网络newgrnn来创建RBFNN:(1)隐含层径向基神经元层数目等于输入样本数,其权值等于输入矩阵向量的转置。(2)输出层线性神经元层,以隐含层神经元的输出作为该层的输入,权值为输出矩阵向量T,无阈值向量。调用格式:net=newgrnn(Y,T,Spread);Y为神经网络的输入矩阵向量(PCA降维后的矩阵向量),T为神经网络的输出矩阵向量,Spread为径向基函数的扩展速度。

1.3太阳能电池缺陷的检测算法(1)数据映射。取每种类型缺陷图像的60%和40%分别作为BPNN和RBFNN的训练样本集和测试样本集。将样本集中每张图片变成矩阵中的一列,形成一个矩阵,采用2.1节中的方法对该矩阵进行PCA降维后的矩阵作为BPNN和RBFNN的输入。将虚焊、微裂、断指和无缺陷4种不同类型图像分别标记为1,2,3,4,作为网络期望输出T。(2)数据归一化。将输入输出矩阵向量归一化为[-1,1],利于神经网络的计算。(3)分别调用2.2节中创建的BPNN和RBFNN,设置网络参数,利用训练样本集先对网络训练,然后将训练好的网络对测试样本集进行仿真,并对仿真结果进行反归一化。(4)最后将仿真预测输出分别和图像1,2,3,4比较,差值的绝对值小于阈值0.5认为预测正确。阈值是根据网络的期望输出选择的,以能正确区分不同缺陷类型为宜。识别率定义为正确识别的数量和样本数的比值。

2实验内容与结果分析

为了验证本文方法的有效性,我们通过CCD图像采集系统采集了1000张太阳能电池板EL图片,包括250张虚焊样本、250张微裂样本、250张断指样本、250张无缺陷样本,大小为125bits×125bits。我们利用图片组成的样本数据集进行了大量的实验,将每种类型缺陷图像的60%和40%分别作为BPNN和RBFNN的训练样本集和测试样本集。算法测试硬件平台为Inteli5750、主频2.66GHz的CPU,4G内存的PC机,编译环境为Mat-labR2012b。由于样本图像数据较大,需采用2.1节中的PCA算法进行降维处理。对样本图像集降维后,得到神经网络的输入矩阵。但是,随着样本数的增加,占有主要信息的主成分维数也在增加。因此,分别采用占有主要信息60%~90%的图像作为BPNN的输入,对应的降维后的主成分维数k为BPNN输入层节点数。由于BPNN的结果每次都不同,所以运行50次,保存识别率最高的网络。图3是在不同样本集数下的PCA-BPNN的最高识别率。其中,样本数n=1000时的PCA-BPNN识别率如表1所示。同时网络参数设置也列在表1中。隐含层中的最佳节点数是采用经验公式所得[17]。从图3和表1中可以看出,当维数降至20维(占主要信息70%)、总样本数为1000(测试样本400)时,4种类型总的最高识别率为93.5%。在相同的训练样本集和测试样本集上,采用与BPNN同样的输入和输出,在不同样本集数下,PCA-RBFNN的最高识别率如图4所示。其中,样本数n=1000时的PCA-RBFNN识别率如表2所示。参数Spread的设置也列在表2中,首先设定Spread为1,然后以10倍的间隔速度递减。从图4和表2中可以看出,样本数为1000(测试样本400)时,PCA维数降到15(占主要信息65%),总的最高识别率为96.25%。两种网络的测试样本集最高识别率对比分别如图5和表3所示。图5(a)、(b)分别为采用PCA-BPNN与PCA-RBFNN方法时测试样本集中的4种缺陷样本图像的期望值与预测值。表3列出了两种方法的具体识别结果。从表3可以看出,两种方法对虚焊缺陷识别率均较高,分别为99%和100%;微裂缺陷识别率较低,分别为89%和92%。这是因为虚焊缺陷面积较大,颜色较深具有显著特点;而微裂缺陷面积较小,与背景对比不强烈,导致错误分类。采用本文提出的BPNN和RBFNN方法处理一幅750×750大小的图像大约分别需要1.8s和0.1s,PCA降维的时间大约为0.02s。将上述两种方法与FCM[18]及ICA[3]方法进行比较,结果如表4所示。可以看出,RBFNN方法具有较高的识别率和较短的计算时间,更适合于在线检测。

3结论

图形图像实训总结篇7

关键词:图像识别;投影熵;混合高斯模型;最大期望算法;判别分析

0 引言

图像识别以研究图像的描述和分类为主要内容,其关键环节是特征提取。特征提取的好坏将直接影响到目标识别系统的准确性,选取合适的特征可以降低识别系统的难度[1]。在图像识别中,常见的特征包括灰度特征、纹理特征、边缘特征、形态学特征和不变矩特征等。

投影熵特征是将图像的投影特征与图像熵相结合而得到的一种图像特征[2-4]。文献[2]首次提出了“投影熵”的概念,并讨论了一种基于局部投影熵的图像匹配算法,该算法具有较高的匹配精度和较好的抗几何失真特性;文献[3]将投影熵与Hausdorff距离相结合作为粗匹配准则,用于确定在基准图与实时图进行N层Contourlet分解后得到的低频子图像中,图像的最佳匹配位置;文献[4]将局部投影熵与细分小波相结合用于图像匹配;文献[5-6]将局部投影熵用于人脸识别,两篇文献所讨论算法的识别效果均具有较好的鲁棒性;文献[7]对图像投影特征进行了扩展,在原有的行投影和列投影的基础上,又提出了主对角线投影和次对角线投影的概念。

本文提出一种基于投影熵的图像识别算法,首先分析了原始定义下投影熵特征的不足,对投影熵的定义进行了改进;在进行图像识别时使用图像的局部投影熵特征,利用最大期望(Expectation Maximization,EM)算法建立训练集图像特征的混合高斯概率分布模型,对于给出的目标图像,求取图像相应特征,利用距离判别法来确定目标图像的类别。

1 投影熵

1.1 投影熵原始定义

投影变换是一种常见的线性变换,对于大小为M×N 的图像,设其灰度函数为f (x,y),则图像的行投影与列投影分别为:

1.2 投影熵特点分析

投影熵特征充分利用了投影变换的降维特性,同时也很好地继承了图像熵对图像几何失真不敏感的优点,并且具有一定程度的抗噪性和较快的运算速度[2-4]。

在具有这些优点的同时,投影熵还存在以下的一些问题:

1)投影变换在降低特征维数的同时,也丢失了一些图像中的信息,因此投影熵特征对于图像信息的提取是不够充分的;

1.3 扩展规范化投影熵

对原始的投影熵定义的改进包括“扩展”和“规范化”两个部分。“扩展”是指在原始定义的基础上加入主次对角线两个方向的投影熵;“规范化”是指在进行投影熵计算之前,先对图像进行一定的规范化处理。下面对这两部分给出具体说明。

1.3.1 投影方向的扩展

为了更加充分地提取图像中的信息,提出主对角线投影熵和次对角线投影熵的概念。对于大小为N×N的图像,主、次对角线投影分别定义为

1.3.2 图像的规范化

对图像的规范化包括以下三个步骤:

1)去除图像边缘上的背景,使图像中物体的边缘与图像的边缘相切;

2)使图像的行数和列数相等。若M>N,在原图像右端补充M×(M-N)的像素空间,像素值全部为1;若M

3)规范图像大小,给定一个基准尺寸L×L,通过缩放变换将图像大小变为设定的基准尺寸。

在计算投影熵特征之前,对图像按照上述步骤进行预处理规范化,具有如下优点:

1)保证了任意图像均可按照式(6)、(7)给出定义计算图像对角线方向上的投影(该式仅给出了在图像的行数和列数相等的前提下两个对角线方向的投影的定义);

2)对图像进行这样的预处理后,再计算得到的投影熵特征中,包含了图像长宽比的信息;

3)基准尺寸的设定避免了投影熵特征对于图像的尺寸放缩不具有不变性这一问题。

2 混合高斯建模

对训练集内的图像计算投影熵特征,可得到投影熵特征集合E={ek|k=1,2,…,n,ek∈Rn}。这里利用混合高斯模型来描述集合E内投影熵特征的概率分布。

对于由l个高斯函数组成的混合高斯模型,设其第i项的权重系数为ωi,均值向量为μi,协方差矩阵为Σi,混合高斯模型的一般形式为

3 距离判别法

对于目标图像,计算得到投影熵特征xT后,根据由训练集得到的不同类别图像投影熵特征的高斯混合模型,采用距离判别法判断该图像的类别。

定义样本x到式(11)给出的混合高斯模型的Mahalanobis距离为该样本到每一个高斯分布Mahalanobis距离的加权和

4 基于投影熵的图像识别算法

图像的投影熵特征主要反映的是图像的总体信息,对于图像的细节信息表现得并不充分,而在进行图像识别时,细节信息能够更好地区分不同的物体。因此在进行图像识别时,首先将规范化预处理后的图像等分为S × S个子块,然后对每一部分子图像求取式(10)所定义的投影熵特征,并将各个子图像的投影熵特征顺序排列而得到的S×S×4维向量作为识别特征,称这一向量为图像的局部投影熵特征。与投影熵相比,局部投影熵能够更好地反映图像的细节信息。

图2给出了本文算法的基本结构。图像识别算法包括训练集图像特征的分布模型的建立和目标图像的识别两部分。

1)训练集建特征模。

①选择合适的基准尺寸,对训练集中的图像进行规范化处理;

②计算规范化图像的局部投影熵向量,得到各个类别图像的特征向量集合;

③利用EM算法得到各个类别的投影熵特征概率分布的混合高斯模型。

2)目标图像识别。

①使用与训练集建模相同的基准尺寸,对目标图像进行规范化处理;

②计算目标图像的局部投影熵特征;

③计算目标图像特征向量到备选物体的混合高斯模型的Mahalanobis距离;

④根据距离判别法原理,得到目标图像所属类别。

5 仿真实验与结果分析

仿真实验使用哥伦比亚大学计算机视觉数据库(Computer Vision Laboratory Databases)中的图像对本文提出的算法进行实验验证。该数据库中包含多组图像数据,每组为某个物体绕其一周观察的图像,每旋转5°一张,共72张。图3给出列出实验中所用到不同物体的图像。

5.1 算法对比实验

在实验中,对于每个物体,将每间隔30°选取一张图像而得到的12张图像作为训练集。每次实验将每组的72张图像依次进行识别,统计识别结果正确的次数,得到算法的识别率。实验时,首先利用各个物体训练集中的图像局部投影熵特征,建立不同物体特征向量的混合高斯概率分布模型,然后对不同物体分别用本文算法和文献[15]中的算法进行图像识别,得到算法对各个物体的识别率,实验采用Matlab R2011b编程实现。表1给出了实验结果。

从实验结果可以看出,本文的识别算法具有较好的识别性能,从总体效果上,识别效果优于文献[15]中基于不变矩的识别算法。

与原始的投影熵定义相比,本文所使用的扩张规范化投影熵的运算量有所增加,因此,在实验中,从运算时间来看,本文算法并不具有优势。然而,从投影熵的定义可以看出,行、列以及主、次对角线四个方向的投影熵相互独立,同时,在计算局部投影熵时,各个子图像之间也是相互独立的,因此,本文算法所使用的局部投影熵特征具有良好的并行运算特性。在实际工程中,采用多通道并行处理器结构的硬件体系(例如采用FPGA内嵌处理器结构)实现本文算法,可以有效地缩短识别算法的运行时间,更好地体现本文算法的优势。

5.2 算法参数选择

使用本文算法进行训练集特征分布建模时,需要对混合高斯模型中高斯函数的个数l进行设定。l的选择对训练集特征分布的描述和最后的识别率有直接的影响,l过小有可能对训练集特征的分布信息反映得不够充分,l过大则会引入一些不必要的干扰信息。设训练集中样本个数为n,令

C=l/n(17)

实验中发现,当C>0.2时,算法的识别效果会有明显的下降。图4给出在一次实验中算法识别率随C的变化曲线。在使用本文算法时,建议训练集中的样本个数n>10,l在[0.06n,0.17n]范围内选取。

6 结语

本文提出一种基于投影熵特征的图像识别算法。首先,针对原始定义下投影熵特征的不足,从“扩展”和“规范化”两个方面给出了改进的投影熵特征的定义,将图像的局部投影熵特征向量用于图像识别;在进行图像识别时,求取由训练集图像的局部投影熵特征得到的混合高斯模型和目标图像局部投影熵特征的Mahalanobis距离,根据距离判别法原理得到目标图像所属类别。实验表明:1)与传统的基于不变矩的识别算法相比,本文算法具有更好的识别效果;2)使用本文算法时候应保证训练集样本数目n>10,混合高斯模型中高斯函数的个数应在[0.06n,0.17n];3)本文算法具有良好的并行运算特性,采用多通道并行处理器结构的硬件体系来更好地体现出该算法的优势。

参考文献:

[1] 余瑞星, 孟立勋. 一种新的ICM 模型参数设置方法[J]. 西北工业大学学报, 2012, 30(2):201-205.

[2] 刘雅轩, 苏秀琴, 王萍. 一种基于局部投影熵的图像匹配新算法[J]. 光子学报, 2004, 33(1):105-108.

[3] 王红梅, 李言俊, 张科. 一种基于Contourlet变换的图像匹配算法[J]. 宇航学报, 2008, 29(5):1643-1647.

[4] GUO X J, WANG W. Image matching algorithm based on subdivision wavelet and local projection entropy[C]// Proceedings of the World Congress on Intelligent Control and Automation. Piscataway: IEEE, 2006: 10380-10383.

图形图像实训总结篇8

关键词:学习方法 创造性思维 图象图景教学

在教学中很多学生反映高中物理一学就会、一用就错、一放就忘,学生对所学知识了解不深刻、掌握不全面,已经习惯了程序化的模式,习惯于简化了的物理对象及物理模型,习惯于抽象的逻辑推理及数学运算,而遇到实际问题就束手无策。针对这种现象,我认为应该对学生在学习心理上加强疏导,在学习方法上加强指导,在教学方法上加强研究,发展学生的创造性思维,使学生想象得出情境,找得到突破口,提高学生解决问题的应用能力。具体来说,要做到以下几点:

一、加强学法指导,培养自学能力

1.指导学生阅读教材。

阅读物理课本应潜心研读,挖掘提炼,包括课本中的图像、插图、阅读材料、注释也不放过。更重要的是要边读边思考,对重要内容要反复推敲,对重要概念和规律要在理解的基础上熟练记忆。

2.指导学生听课。

上课时要全神贯注听教师的讲解、听同学的发言,要边听边想、边听边忆。要注意听各知识点间的相互联系,听公式、定律的适用范围,听解题的方法和思路,还要动手做好笔记。

3.指导学生课后及时归纳总结。

总结要抓住知识主线,抓住重点、难点和关键,抓住典型问题的解答方法和思路。

二、发展学生的创造性思维

创造思维的核心是发散思维,物理教学中要注重概念、推理、判断等一系列逻辑思维过程的分析,在潜移默化中提高学生的逻辑思维能力。尽管物理学中的概念通常很抽象,但是通过巧妙地构思可以化抽象为形象。

例如:烧杯中盛的是水,水中漂浮着一个小盒,盒中有铜、木二个小球,把铜球放入水中,水面怎样变化?如把木球放入水中,水面又怎样变化?为了培养学生的发散思维能力,我进一步提出几个问题:如果烧杯的水面上漂浮着一块冰,当冰完全融化后,水面怎样变化?如果冰中有气泡,冰融化后,水面怎样变化?如冰中有一石块,冰融化后,水面怎样变化?如果冰漂浮在盐水面上,冰融化后,水面又怎样变化?通过上面习题训练使学生加深了对知识的理解,提高了思维能力。

三、重视图像图景教学的策略

在物理教学中必须重视图像图景的教学,加强学生应用能力的培养,提高解决实际问题的能力,加强抽象的物理规律与形象的实际情境的紧密联系,提高学习的效率,更好地掌握所学知识。

1.充分展示知识发生发展的过程,帮助学生建立准确的物理模型。

要充分利用实验、图形图片、电视录像、多媒体课件等手段再现知识发生、发展的变化过程,用图文并茂的方式向学生提供信息,降低学生学习的难度,并将物理学研究问题的方法和物理思想寓于情境的建立和分析过程中,促进学生开展分析问题的思维活动,自然地“悟”出其中的道理和规律,从而潜移默化,使学生掌握分析物理过程、建立正确物理情境和模型的方法,建立准确的物理模型。

2.重视解决实际问题的思维程序训练和学生学习习惯的培养。

解决实际问题的思维程序大体可分六步,即“审题文字信息(排除干扰因素)抽象出物理对象和物理情境寻找问题所满足的定量和定性的规律建立模型求解”。

第一步,从实际问题中提取与问题有关的文字信息,并用相应的图形或符号表示,使复杂的变化过程代码化。

第二步,确定物理对象,建立物理情境,运用示意图帮助理解题意,寻找变化规律,建立各物理量的联系。边审题、边画图,并一一把条件和问题用字母符号注在图上,使问题能在脑中形成完整的表象,不至于因忘记条件或问题而中断解题过程的思维去重新审题;同时,示意图能使解答问题所必需的条件同时呈现在视野内,图像成为思维的载体,视图凝思实际上是视觉思维参与了解解题的过程。

再后建立模型关系,立式求解。

图形图像实训总结篇9

当今动画学子造型与审美主要由西方绘画的价值观构建形成,绘画训练以石膏、静物、人物风景写生为题,因而学生对民族传统形象的了解、认知与表现甚少,更缺少民族审美情怀和艺术造型观培养。这样的学子所设计出的动画形象自然没有民族艺术的血脉,不能呈现民族动画的面貌与特征,进而失去了民族动画应有的艺术品质。面对这些问题,我尝试改变教学方法,在动画造型课教学中引入地域性的三峡民间美术造型审美等方法作为补偿,精选一批三峡民族美术造型经典图像进行视觉赏析,分析总结图像的形姿内涵与特征,归纳其造型观和审美观,要求学生用线描形写神,记形明意。同时,我会结合教学内容去三峡民间美术实物现场观摩和写生,要求对景物感受,深情理解,进行有趣、简括、神情的夸张表达。主要强调形象的味道、内涵、特点等,并自述其造型审美思想,由教师跟进点评,结合动画造型审美的要求,布置相关命题作业,用民间艺术造型审美方法进行动画角色设计。用三峡民间美术中的“寄善”写意的造型,培养学生洞察物象、妙解万物的艺术心境;用三峡民间艺术寓意生灵的造型,塑造传神、朴实、夸张形象的方法,培育学生的艺术造型观;用三峡民间美术实用美观的造型追求,明确设计的意义,培养学生的社会艺术的责任心和创思能力。推动和实现动画造型设计教学认知快、感受快、记忆快、掌握快的效果。在三峡民间美术图像中的简括、夸张、完美、神似、寓意等特征中吸吮造型审美营养,调动学生艺术兴趣,克服照搬、程式化的学习,防止抄袭,解决学生动画造型原动力不足、认识不清、思路不明、含混无序等问题。引导学生自省动画艺术的方向和追求,获取民族与自身的艺术造型观和审美观,使学生造型审美得到补偿和提高。

二、三峡民间美术构图观在动画教学中的运用

美妙的构图能使画面物象获得生机美趣,使图像产生巨大的艺术生命感和艺术意义,使图像的寓意价值和美感价值倍增,成为铭记于人心的典例之作。在动画教学中,我深切感知学生构图能力低能化,学生虽能背记一些构图原则与方法的词条,但常常抄用、嫁接、移植别人的构图或违背艺术原则机械组合的构图,这是构图实践性能力训练培养方法缺失所致。针对这些问题,我运用三峡民间美术优质图像与实物解读构图艺术与方法,给学生直接的认知与感悟。用三峡民间美术木版年画、排花刺绣、木雕、石雕等品类分析不同艺术形式的构图与方法,从这些民间美术的构图中的艺术性、和美性、独特性、灵动性等进行分析、梳理和解读,让学生从艺术品中直接感知民间美术中野兽家畜、飞禽草虫、树木花草、人物自然和几何图案的巧妙布局组合;感知图像的主题,物象的生动、灵美、自然有趣的情节组合;体悟这物象经巧妙构成后所产生出的抒情、安详、和善、生灵、吉祥、富美的艺术情怀,并要求学生用笔、用心描记构图中的组成形式。通过这种教学方法促进动画教学的构图训练,使学生构图观得到开启和补偿。这既丰富了学生的构图意识,推进了构图的实践性训练,又认知了传统民间艺术构图中的纯情美、和谐美、象征美、寓意美,获得了民族艺术构图方法,促进了构图的创造力和民族构图观的形成,使学生构图意识得到激活、构图的观念得到丰富、构图的方法得到拓展、构图的品质得到彰显、构图的能力得到提升,这就是充分运用地域艺术带来的效果。

三、三峡民间美术色彩表现观在动画教学中的运用

图形图像实训总结篇10

关键词:舌诊;舌色分类;巴氏距离

引言

舌色是舌诊中最重要的特征,在舌图像分析过程中,颜色特征提供了大量有价值的诊断信息,这些信息揭示了人体内部器官的失调情况甚至是病理变化[1]。在过去的几年中,舌色分析和诊断分类技术已经取得了一定的进展,但舌色分析和分类至今为止仍没有确定出一个统一的诊断标准,舌色分类界限模糊[2]。

针对以上问题,提出了基于直方图巴氏距离的正常舌标准图像选取的方法,并利用舌图像的R通道分量直方图的巴氏距离作为最小距离分类器的模式向量描述子,通过最小距离分类器对正常舌、异常舌进行分类研究。

1 方法

1.1 巴氏距离(Bhattacharyya Distance)

巴氏距离由印度统计研究所的Bhattacharyya A.[3]于十九世纪三十年代提出,为了纪念这位伟大的统计学家,人们把它命名为巴氏距离。在统计学中,巴氏距离常被用于对两个离散或连续的概率分布进行相似性度量。

巴氏系数的计算式为:

(1)

1.2 最小距离分类器

最小距离分类器通过计算每个模式类的平均向量,然后求出两个模式类平均向量之间的垂线或垂面或超垂面,作为分类决策边界,从而进行分类[4]。

类?棕i和?棕j类之间的最小距离分类器决策边界 可以由式(15)得出:

(2)

1.3 基于巴氏直方图距离与最小距离分类器的舌色分类

本节根据snake算法,计算出的舌体边缘轮廓,把轮廓以外的区域设为黑色(R=0,G=0,B=0),从而只对分割出来的舌体进行舌色的分类。分类算法实现步骤如下:

(1)彩色图像通道选择:取分割后彩色舌图像的R通道分量作为分类对象;(2)计算舌体区域总像素数n;(3)计算舌体区域各灰度级的所出现的像素个数;(4)计算归一化直方图:根据n和 计算出归一化直方图;(5)正常舌标准图像的选取:取训练样本中的正常舌图像,两两计算出其巴氏距离,然后选取出的最大距离,并把此时的两幅图像标记为O1、O2,再分别对每幅正常舌图像与O1、O2的巴氏距离求积,选取取得最大积值的图像作为标准图像;(6)舌色分类:计算训练样本中的舌图像与标准正常舌图像的巴氏距离均值,作为最小分类器的模式向量描绘子,并利用最小距离分类器对舌色进行分类。

2 结果与讨论

实验采用黄苔舌、淡紫舌、红舌三种常见的异常舌色与正常舌色进行分类。图1(a)所示为基于巴氏距离的最小距离分类器训练及分类结果示意图。其中y=1的绿色圆圈为两幅正常舌图像与利用选取出来的标准舌图像之间的巴氏距离,其均值由黑色圆圈标示;y=2的蓝绿色星号“*”表示黄苔舌图像与标准舌图像之间的巴氏距离,黑色星号为其均值;y=3的红色菱形表示淡紫舌与标准舌图像之间的巴氏距离,黑色菱形为其均值;y=4的蓝色五角星为红舌与标准舌图像之间的巴氏距离,黑色五角星为其均值;y=1的品红色三角符号表示训练样本中所有异常舌象巴氏距离的均值;红色垂线为利用巴氏直方图距离作为最小距离分类器的描述子得出的分类决策边界。

采用以上决策边界对舌色测试样本进行实验的结果如图3所示。测试样本包括5幅正常舌色图像、6幅黄苔舌色图像、4幅淡紫舌图像、2幅红舌图像。图中的标记的意义与训练过程的一致。从该实验结果图可以清晰地看出,基于巴氏距离的最小距离分类器可以正确地对正常舌色与异常舌色进行分类。

3 结束语

文章提出了一种正常舌标准图像选取的方法,并采用基于巴氏直方图距离与最小距离分类器的方法对舌色分类进行了初步研究。首先,将彩色舌图像的舌体区域提取出来,只针对舌体区域进行舌色分类;然后,计算出舌体区域的R通道分量直方图,以用于正常舌标准图像的获取以及巴氏距离的计算;其后,利用5节提出的正常舌标准图像获取方法,取得标准舌图像,用于计算巴氏距离;最后,计算标准正常舌图像与异常舌图像之间的巴氏距离,作为最小距离分类器的模式向量描述子,并通过最小距离分类器对正常舌色与异常舌色进行舌色分类。实验结果表明,这种方法较准确地实现了正常舌与异常舌的分类。

参考文献

[1]Kirschbaum B. Atlas of Chinese tongue diagnosis [M]. Eastland Press: 2000.

[2]Wang X,Zhang B,Yang Z,Wang H,et,al. Statistical Analysis of Tongue Images for Feature Extraction and Diagnostics [J]. IEEE TRANSACTIONS ON IMAGE PROCESSING. 2013,22(12): 5336-5347,.