模式识别技术十篇

时间:2023-03-22 22:48:25

模式识别技术

模式识别技术篇1

关键词:行为模式识别;垃圾邮件;简单邮件传输协议

中图分类号:TP393 文献标识码:A文章编号:1009-3044(2007)04-10957-02

1 引言

垃圾邮件,即那些不请自来、匿名或嫁祸他人、对收件人造成骚扰又无法拒绝的邮件。现今,一些包含商业目的、政治目的、色情内容、病毒的垃圾邮件日益猖獗,严重占用了网络资源,阻碍了正常通信,所传播的不当信息对社会造成了极大的负面影响。如何有效地识别、过滤、拒绝这些垃圾邮件成为一个热点社会问题。

现有的反垃圾邮件技术大多是基于被动的接受分析处理模式,只是通过提升信噪比,以免垃圾邮件淹没正常邮件,但垃圾邮件仍占用大量带宽与存储资源,垃圾邮件的发送行为仍处于非受控状态。为此,本文引入行为模式识别技术,通过对发送垃圾邮件的的行为进行分类,进而在源头把垃圾邮件扼杀掉。

2 邮件传输原理

一个电子邮件系统应具有如图1所示的三个主要组成构件,即:MUA、MTA、MDA,其中:MUA(Mail User Agent,邮件用户)是邮件阅读、编辑、发送的程序,在邮件系统中用户只与MUA打交道,MUA将邮件系统的复杂性与用户分开;MTA(Mail Transfer Agent,邮件传输)是一个专用程序,类似于邮局,用于两台机器之间发送邮件,它决定邮件到达目的地的路径;MDA(Mail Delivery Agent,邮件递交),因为MTA并不完成最终的邮件发送,它要调用MDA来完成最后的投递服务[1]。一封电子邮件的发送和接受过程如图1所示。它采用SMTP技术。SMTP(Simple Mail Transfer Protocol,简单邮件传送协议)采用客户服务器方式,规定了两个相互通信的SMTP进程之间应如何交换信息。SMTP通信要经过同TCP传输相似的连接建立、邮件传送、连接释放三个阶段,本质上SMTP协议是带有邮件传输规范和命令的TCP协议。它缺乏必要的安全认证,由此引起垃圾邮件的泛滥。

图1 电子邮件系统示意图

3 传统的反垃圾邮件技术

首先是内容过滤技术,它根据开发人员认定的垃圾邮件特征词来扫描邮件内容,进而判定是否为垃圾邮件,并使用启发式语意学习技术。但该技术需要将邮件接收下来再进一步处理,没有节省流量和存储过程却增加了计算程度,同时关键词库需要不断更新维护,是一种被动的选择处理,最终过滤过程需要耗费大量系统资源,使邮件系统效率低下。

其次是黑白名单技术,黑名单中的发件人发送的任何邮件都认为是垃圾邮件,白名单中的发件人发送的任何邮件都认为是合法邮件。该技术需要不断维护IP地址清单,且在IP地址被公布十已发送了大量邮件,所以该方法也是一种亡羊补牢之举;同时缺乏公正,且打击范围大,误判范围广。

还有Yahoo提出的DomainKey技术,它的核心思想是每个域名(Domain Name)都申请一个PKI证书,然后把公匙(公共密码)存储在DNS服务器中。发件服务器对每一封使用这台服务器私匙(私人密码)的电子邮件进行签名,收件服务器验证发件服务器签名是否有效。该技术需要对现在所有的邮件服务器进行升级改造,需要业界的共同行动。对于大公司的专利垄断行为有悖于邮件系统的开放性原则。

4 基于行为模式识别的反垃圾邮件技术

结合邮件传输原理及传统反垃圾邮件技术的弊病和局限性,作者认为,垃圾邮件的处理应该从原理上入手,分析邮件传输的过程及SMTP(或TCP)的建立阶段,从截获样本、解析特征、生成规则、规则下发、邮件过滤的被动方式中解脱出来,做到主动性防御。根据对垃圾邮件发送行为规律的总结,发现其有IP固定性、发送频率大、时间集中、借用邮件服务器漏洞、发信地址不明、路由地址不明、服务器不明和TCP会话异常等特点,在此基础上,建立了基于行为识别技术的反垃圾邮件模型。

4.1 模型建立

垃圾邮件在发送阶段处于活跃的状态,其行为特征远比内容特征要明显,经过对大量垃圾邮件搜集、分类,对各种垃圾邮件的发送行为、方式、邮件特征等进行统计学研究,构建了垃圾邮件“行为识别模型”(如图2)。该模型全面加入了各类行为相关因素,包含了邮件发送过程中的各类行为要素,如:时间、频度、发送IP、服务器特征等。

图2 垃圾邮件行为模式识别模型示意图

4.2 垃圾邮件行为分类及防范策略

通过对发送垃圾邮件行为的统计分析,垃圾邮件行为主要可分为四类:1)滥发邮件行为。贪婪,数量巨大是垃圾邮件的最本质特征,为此垃圾邮件发送者进行联机查询或投递邮件,通过各种方式投递邮件。因此,发送主机会有异常变动等行为。2)匿名邮件行为。垃圾邮件发送者刻意隐匿发送人、收件人、发件主机或邮件路由等信息。3)非法邮件行为。发送者利用其它邮件服务器的漏洞,借用Open Relay或Open-Proxy来发送垃圾邮件。4)伪造邮件行为。刻意伪造邮件头干扰信息,使发件人、收件人、发件主机或邮件路由等信息不属实。

针对这四种发送垃圾邮件行为,特提出四种相应防范策略:(1)防范滥发邮件行为。深入追踪邮件原始发送数据,取得TCP连接建立时所需的IP地址及SMTP连接建立的域名,以此来统计在一特定时间段内发送的邮件数量,做出是否垃圾邮件的判断。(2)防范匿名邮件行为。深入追踪邮件原始发送数据,一旦发现发件人声明的邮件传输记录信息不真实,而是以匿名方式投递或是发件人的邮件传输信息具有异常变化,就会将其判断为具有匿名行为的垃圾邮件。(3)防范非法邮件行为。深入追踪邮件原始发送数据,检查其原始发送地址,如果发现其发送地址不固定或改变频率高,则说明它在利用其它的邮件服务器进行转发,符合常见垃圾邮件发送行为,从而把它归为垃圾邮件。(4)防范伪造邮件行为。通过深入追踪邮件原始发送数据,如果发现发送人声明域名与实际来源IP不符合,发件人伪造成无反向解析域名记录的主机,发件人以答复邮件格式伪造电子邮件,发件人的邮件传输值多处变化、信息不一等,就会将其判断为具有伪造行为的垃圾邮件。

4.3 邮件处理流程

行为模式识别技术以插件形式布置与服务器,利用现有资源,无需更新。如图3所示,当有新邮件到达时,根据其IP传输信息、SMIP会话信息、邮件头信息等,逐层提取,逐渐验证,逐次识别,由符合上述行为的特征来断定垃圾邮件,从而做到了最大限度的低漏判误判率,适合大规模邮件服务器。

在部署服务器的同时,主要用到四种技术来处理垃圾邮件。(1)频率限制技术:限制同一IP或网段单位时间发来的邮件数量;限制同一IP或网段单位时间发来的同一主题的邮件数量;限制同一IP或网段单位时间发来的同一发件人的邮件数量;限制同一IP或网段单位时间发来的相同大小的邮件数量等;(2)可变陌生访问限制(Variable Strange Visiting Limit,VSVL):是一种控制垃圾邮件发送的技术,但不是一种单纯的发送端控制技术,而是一个需要邮件发送到接收处理各个环节共同参与的体系,该体系通过设定发信限额规则、限额设定规则、限额调整规则,做到自动拒收、处理、反馈垃圾邮件;(3)重复模式检测技术(Repeat Pattern Detect,RPT):通过检测发件人发送行为的大量重复过程,来对垃圾邮件做出最初判断;(4)域名解析与反解析技术:即通过TCP/IP协议与域名服务器通信,根据域名获得服务器地址或根据IP地址获得域名。

图3 邮件处理流程图

5 存在的问题及以后的研究方向

作者通过对垃圾邮件处理的一些探索,提出了基于行为模式识别的反垃圾邮件新机制。在此技术的研究上,还存在一些问题:

(1)本文着重是在原理方法上的分析,行为识别模型也是简要设计,因此今后的研究重点应该是如何把方法模型付诸于实际运用;

(2)在行为识别的层次上,从浅层的识别到深层的追踪还要很好的结合,即如何把浅层的发送时间、频率、IP等行为与深层的邮件通讯行为追踪相结合。

参考文献:

[1]谢希仁.计算机网络(第四版)[M].电子工业出版社,2003(6):292.

[2]反垃圾邮件技术概述[EB/OL].ChinaUnix技术沙龙,.

[3]Henry Ho-Shing Hsieh,Henry Ker-Chang Chang,Jin Cherng Lin. The Mechanism of Interceptive E-mail Detection System,[J] 2000.

[4]潘文锋.基于内容的垃圾邮件过滤研究[D].中国科学院研究生院硕士学位论文,2004(7).

[5]2005年第三次中国反垃圾邮件状况调查报告[C].中国互联网协会反垃圾邮件中心,2005(11).

[6]叶豪,反垃圾邮件概述[C].中国反垃圾邮件技术研讨会,2004(10).

[7]Vapnik V,Drucker H,Wu.D,Support Vectpor Machines for Spam Categorization[J],IE Transactions on Neural Network,1999(10).

模式识别技术篇2

[关键词]射频识别:手机智能卡:校园一卡通;网络结构

[中图分类号]G40-057 [文献标识码]A [论文编号]1009-8097(2011)01-0122-03

大多数高校建设校园一卡通系统中,使用承载一卡通系统信息的载体是非接触射频卡(Mifare One),它是一卡通系统里最基础的、最重要的设备。但随着物联网、移动终端的大量普及应用,高校校园一卡通、数字化校园中的无线网络支持的上下行数据速率不断提高,新的应用尤其是数据业务方面的应用不断涌现,手机逐渐成为人们身边不可缺少的信息终端。越来越多的人用手机代替了手表、记事本、MP3、照相机等,而我们的钱包和钥匙也集成到手机上成为了现实,RFID无线射频识别技术亦在高校校园管理各领域中组建RFID终端子系统,并利用校园主干网作为信息平台,实现全部终端子系统的系统集成。使我们在校园中学习、工作、生活更加方便、更加安全。

一 校园一卡通中的射频技术与手机结合

目前大部分高校校园一卡通系统采用的卡介质是非接触式射频卡,即Mifare One卡读写技术集计算机技术、自动控制技术、网络通讯技术、智能卡技术、传感技术、模式识别技术和机电一体化技术于一体,应用于高校的智能化一卡通管理。采用非接触式射频卡作为通行券,将图书馆借还书、门禁、消费、上机、考勤、控水、体育俱乐部活动等系统集于一卡,所有功能只需一张卡就能完成,系统采用符合潮流的开放式体系结构,能够与第三方的系统和设备兼容,实现用户系统的高度集成。

然而随着2008年的Mifare卡破解事件和2009年的3G校园业务的如火如荼的展开,以SIMPASS卡或RFID-SIM卡(不同运营商的卡标准不同)为介质手机一卡通作为一种可替代的新概念产品被迅速普及。使用同时具有通信和非接触卡功能的手机,一卡通系统采用射频识别RFID与近距离通信NFC技术,只需用手机靠近读卡设备就可以完成认证或者支付,不仅省时、便捷、一机多用,也能直接明了的进行实时状态和账户余额查询,拓展了现有手机的业务领域。RFID和NFC是继移动通信技术和互联网技术之后又一项影响全球经济与人类生活的新技术。

1 手机与NFC技术结合

NFC(NFC,Near Field Communication)是一种标准的短距离无线连接技术,利用磁场感应实现近距离电子设备之间的通信。它为用于安全数据传输验证的识别协议提供了一种无缝连接,并具有功耗小、安全性好等优点,对于音视频流等需要较高带宽的应用,可配合蓝牙、无线局域网等技术提供自动接入功能。NFC在约10厘米的距离通过13.56MHz频带实现主动和被动两种操作。目前提供的数据传输速率包括106kbps、212kbps和424kbps[~l。NFC技术能更好的与手机结合,调用手机固有的硬件软件资源。NFC一端是非接触式的无线感应S2C接口,另一端则必须是实际、实体接线的传输接口包括:串行接口、 I2C接口、SPI接口、八位并列接口、以及USB接口等。S2C接口可以与安全加密性芯片相连,仅需两条数字实体接线SigIn及sigout,NFC接口与无线射频桥接,通过数字线路与安全芯片的存取连接。

S2C接口与NFC接口连接相当直接简单,在实体设计上几乎不用转接配接,传输协议生也不用转换。

2 射频识别技术手机智能卡(RFID-SIM)技术

RFID-S1M是直通电迅的专利技术,按照国家智能卡应用的技术规范和标准开发,将2.4G射频模块集成在sim卡上,形成带有射频功能的双界面手机智能卡。消费者仅需将原有sire卡更换为RFID-SIM卡即可使现有手机变成一个类NFC手机。

RFID-SIM技术使用的是共用的2.4GHZ IMS频段,该频段的无线产品和天线相当小,在与手机的结合应用中具有天然的优势。其通信距离在10-500CM调节,单向支持100M数据广播,通信速率达1Mpbs,支持自动感应和主动出发两种通信方法。在数据传输过程中自动TDES加密,可有效防止数据被窃听,同时其自有协议能支持刷卡时的双向认证功能。RFID-SIM采用的是扩频通信,能将发送的信息扩展在更广的带宽。由于使用的频率较高,具有较短波长,信号能从手机电池和背板的缝隙间发送出去,具有较强的穿透能力。由于工作在2.4GHz频段,RFID-SIM技术具有以下特点:扩频通信不易扰;码分多址能力强;安全保密:传输数据的速率快。

RFID-SIM可以通过手机键盘进行控制sim卡部分用于正常的移动通讯、鉴权及与手机的物理连接;内置软件用于管理高安全度的RFID、电子钱包以及其它会员卡;使用微型RFID模块并通过内置的天线与外部设各进行通讯。它比电话磁卡的成本低,并且质地结实耐用,易于推广。

二 手机校园一卡通网络架构

1 手机校园一卡通网络架构

网络作为校园手机一卡通系统的基础设施,对系统运行的安全、稳定与可靠起着十分关键的作用。校园手机一卡通系统的网络与其它系统相比,更多样化、更复杂、需要根据不同的业务、设备与环境的要求、设计不同的网络通讯方案,并且适用于不同校区之间的网络连接。

手机校园一卡通系统平台建立在数字化校园专用网络上,数字化校园专用网络是通过实现从环境、资源到应用的全部数字化,在传统校园基础上构建一个数字空间,以拓展现实校园的时间和空间纬度。手机校园一卡通系统的数据中心位于学校数据中心,通过网络与分校区中心节点相连,业务管理放置在各校区的开放位置,便于面向师生服务。而M1技术上的“一网一卡一库”并不能涵盖当前手机校园一卡通系统技术与业务发展的现状。构建“三网一卡一库”的网络架构,“三网”是指内网、外网以及专网。内阿就是指通常所说的数字化校园网,专网则是有别于数字化校园网的通讯链路,外网指的是INETRNET。以数字化校园一体化设计的高度,校园手机一卡通系统网络结构的拓扑结构如图1所示。

2校园手机一卡通系统的软件体系结构

在系统总体结构上,校园手机一卡通系统采用4层结构作为系统的基础技术架构,分别是交互层、通信层、服务层以及数据层。手机校园一卡通系统体系结构如图2所示。

校园手机一卡通4层体系结构不仅可以把客户机从沉重的负担和不断提高的性能的要求中解放出来,也可以把技术维护人员从繁重的维护升级工作中解脱出来。由于客户机把

事物处理逻辑部分分给了服务层服务器,使客户机减轻了很多负担,不再负责处理复杂计算和数据访问等关键事务,只负责显示部分,因此维护人员不再为程序的维护工作奔波于每个客户机之间,而把主要精力放在功能服务器程序的更新工作上。

3 手机校园一卡通系统通讯

将校园RFID-SIM一卡通平台服务器安装在网络中心机房,以保证供电及网络的可靠运行。使用手机自助终端、充值设备通过IP方式(或FSK方式)与平台服务器连接。

POS终端产生的交易数据通过网络发送到平台服务器。独立POS终端通过485转IP(或纯IP、FSK方式)来实现与服务器的通讯。

使用手机通信业务时外联手机运营商网络及服务平台。平台服务器通过专线与运营商系统通讯,通过传输密钥对通讯数据进行安全加密。

三 校园RFID-SIM手机一卡通

校园RFID-SIM卡移动支付系统拓展了已有校园卡的应用范围,可实现校园范围的多种应用:学籍管理:

注册、注销、报到;身份识别:

图书馆、计算机房、校医院、体育馆:门禁、体育俱乐部活动:交费:上机、医疗、体育场馆费用:用餐购物:餐厅、超市、食堂、开水房、淋浴;购电:学生宿舍;充值功能:现金充值、银行圈存转帐、移动手机支付、交上网费等。

1 充值功能

目前,基于非接触式射频卡的一卡通系统的充值模式有现金充值和银行卡与校园卡转账两种模式。而基于RFID-SIM卡的手机一卡通系统则为用户增加了更多的充值模式,做到无时间限制的充值。如:由中国电信提供的批量充值、电信有支付账户的空中圈存、POS自助充值等等。

2 校园RFID-SIM手机一卡通优势

使用无极密钥,确保卡和系统的安全性;完全实现了SIM智能卡的功能结合,即可以保持原有手机通讯功能,同时也可以实现非接触式扩展功能;设备采用SIM智能卡安全双向认证,符合PBOC200:支持“空中下载”,可实现“空中发卡”、“空中补助”等操作:无需换手机、无需换号、换卡就可以实现手机一卡通;,手机可查询消费的记录与余额;

手机一卡通系统是个庞大的系统,其建设的成败与否涉及到方方面面的问题,除了各种相关设备的选型之外,主要体现在手机一卡通系统是否具有良好的应用集成设计。以及对已有系统的整合能力和对未来根据学校需要而部署的系统的整合能力。如果手机一卡通系统没有很好地解决此问题,则该手机一卡通平台只能是一个不开放的,没有技术先进性并满足不了学校的需求。选择适合自己学校模式的基于数字化校园手机一卡通才能保证一卡通的长久有效性。

四 结束语

校园手机一卡通将校园卡与手机卡集成于同一张卡,除实现传统校园一卡通功能以外,还可以通过短信、WAP等方式实现排课、会议、图书借阅、消费情况、账户信息等各种信息的互动查询,可实现各种信息的指定下发,具有通知、提醒的功能,并可通过短信、UTK菜单等方式实现空中圈存,为师生对校园卡充值提供了极大的方便。手机校园一卡通是高校数字化校园建设的一个发展趋势。

参考文献

[1]金倩,耿力,基于RFID的手机支付技术及标准[J],信息技术与标准化,2008,(3):19-20

[2]王淑君,吴军,射频技术与手机结合模式浅析[J],电子科学1999

[3]王春风,潘冲,基于数字化校园的“手机一卡通”系统的实现研究[J],盐城工学院学报,2010,23(2):41-42

模式识别技术篇3

关键词:模式识别 图像分割 识别方法 特征提取

中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2014)07(a)-0228-01

1 图像分割

作为一种图像技术,图像分割得到了人们广泛的研究与重视,并在实践中也得到应用。在图像应用中,图像分割技术可以在需要进行图像目标提取的工作中发挥重要的作用。如生物医学图像分析、遥感图像分析、文档图像处理、生产过程控制、在线产品检验以及工业自动化中都应用了图像分割技术。应用领域的不同也让图像分割技术具有着不同的名称,如目标追踪技术、目标识别技术、阀值化技术、目标轮廓技术等,这些技术的核心或者本身等同于图像分割技术。图像分割是将某个图像分为具有自身特色的几个区域,并对感兴趣区域提取的过程与技术。这里所提出的特色包括像素的纹理、颜色、灰度等,目标经过预先定义后可以指向单个区域,也可以指向多个区域。由于在研究图像和应用图像的过程中,往往只是对图像的某个部分感兴趣,所以为了对这些部分进行分析与辨识,有必要将他们提取和分离出来,并对他们进行利用,由此可见,图像分割是对图像进行处理以及分析的重要步骤。图像分割的方法多年来一直得到了人们的重视,基于多样化的分割算法基础上,将图像进行分割与分类的方法也非常多,比较通用的分类是根据图像中相邻像素在像素值方面表现出的两个性质:相似性与不连续性。虽然区域内部中的像素都具有相似性,但是不同区域边界上却具有着不连续性,因此,分割算法可以以此为依据分为基于边界的算法和基于区域的算法两种,另外,以分割过程中所使用的处理方法的差异,分割算法可以分为串行算法与并行算法。

2 模式识别理论基础上的图像分割

一般而言,模式识别需要由设计与实现两个过程来组成,设计指的是使用样本开展分类器设计,实现指的是使用设计完成的分类器来对待识别的样本开展分类决策。随着模式识别理论以及技术的发展,模式识别方法也得到了一定程度地创新,当前的模式识别方法主要包括统计模式识别方法;以句法规则结构化模式为依据的模式识别方法以及神经元网络模式识别方法。

图像分割所具有的难点在于分割依据的确定,即难以根据具有确定性的判定标准来对需要分割的图像各个部分开展判断以确定分割对象的位置,因此,基于知识的多特征多级判别的变化域分割概念被提出。在这一概念中,需要对特征进行分析,确定分割对象之间最明显的区分特征来作为分割依据,随后可以根据特征标准来使用经典的图像分割技术分割特征空间并得到可靠的位置结构。同时以分割精确度的差异为依据,开展多特征多级的分割,即在进行特征抽取后以具体需求为依据再次开展特征抽取或者开展多次的特征抽取,每一个提取过程中所使用的特征依据都需要达到减少分析区域的效果,并在此基础上对分割范围进行进一步的确定。具体而言,基于模式识别理论对分割问题作出考虑,分割对象可以根据图像本身的结构特性和统计特性分为分割类与非分割类。每一种事物都具有某些特征来与其他事物进行区分,所以在图像分割过程中也必然能够提取出一些和分割背景具有差异的特征来当做分割依据。在对定位对象进行分割的过程中,可以选择由这些特征所构成的特征空间来开展定位识别,所以本文认为,可以将图像分割的对象当做模式识别对象,把图像分割过程当做模式识别中识别特定模式类并以特征模式类特征为依据来进行分割的过程。

基于模式识别理论的图像分割主要分为四个步骤。

一是对分割对象本身所具有的所有特性做出分析,为分割需要提供依据。在图像分割过程中,选取这些特征的原则为更好、更容易的区分分割对象。在此方面又包括以下几点内容:可靠性,属于同类对象的特征应当相似。区别性,属于不同类别的识别对象所具有的特征值应当存在差异。独立性,在分割过程中所使用的特征应当不存在紧密关联。虽然十分相似的特征可以进行组合,但是不能当做相同的特征。对数量进行控制。特征个数的增加会增大模式识别系统在进行图像分割过程中的复杂程度,其中用于结构测试的样本数量会随着特征量的增加呈现出指数关系的增长。在模式识别理论基础上的图像分割工作中,一般需要开展大量的实验、计算与分析才能够充分了解分割对象所具有的特性,同时需要在具体的图像分割过程中寻找能够区别于复杂背景且稳定、有效的特征来当做图像分割的依据。

二是通过特征空间转换将图像转换成为确定特征基础上的特征空间。在此过程中变换域方法、神经网络方法以及模糊理论等方法都可以作为变换方法。这主要是由于图像分割过程中的复杂背景会产生很多的不确定性因素,并对特征的确定产生干扰,所以在开展图像分割之前,有必要采用数学方法和一些其他的学科理论来变换图像,其目的主要在于让特征这一作为图像分割的依据更加突出。

三是根据已经明确的特征范围和特征标准,采用合理的分割技术来分割特征空间,同时以分割对象的特征标准度范围和标准度量值为依据来匹配图像中的各个区域以确定需要进行分割的区域。另外在分割图像的过程中,最底层环节为图像处理技术,分割中的工作都需要建立在图像处理技术基础上。

四是当分割精度没有达到需求和要求时,有必要进一步开展特征选择,即对以上三个部分进行重复。

综上所述,模式识别理论对于提高图像分割效果而言发挥着重要作用。无论是模式识别理论还是图像分割作为一种具有先进性和现代化特点的技术都具有着良好的应用前景,但是在此过程中,需要认识到二者的发展以及应用价值的提升都需要二者本身做出不断的完善。单从模式识别理论在图像分割中的应用于完善方面来看,首先需要对单识别器的性能进行进一步的提高;其次有必要继续强化对多分类器集成方法的谈论与研究。这对于增加模式识别理论在图像分割方面的应用价值具有重要意义。

参考文献

[1] 靳富丽.模式识别理论及其应用[J].湖北广播电视大学学报,2007(12).

[2] 曾庆鹏,吴水秀,王明文.模式识别中的特征提取研究[J].微计算机信息,2008(1).

[3] 林晓霞,杨晓东.二值图像的模式识别方式[J].福建电脑,2005(6).

模式识别技术篇4

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.

模式识别技术篇5

传统上各类验证方式如身份证、密码卡、口令卡等无不存在着诸多的问题,并且伴随着各类破解技术的不断进步,也面临着越来越严重的挑战,人脸识别技术作为人类视觉上最杰出的能力之一,由于它的无害性以及对用户最直观自然的方式,因此使得其成为生物特征自动识别技术领域最具有应用前景的方式。

据前瞻产业研究院的《人脸识别行业市场前瞻与投资战略规划分析报告》数据显示,2009年,全球生物识别市场规模为34.22亿美元,其中,人脸识别占比11.4%,市场规模约3.90亿美元;到2016年,全球生物识别市场规模在127.13亿美元左右,其中人脸识别规模约26.53亿美元,占比在20%左右。

2009-2016年全球人脸识别行业市场规模发展趋势(单位:百万美元)

注:该数据根据IBG的全球生物识别市场规模推算

资料来源:IBG 前瞻产业研究院整理

脸识别具有非接触、友好、直接、快速、外延性广等特点,在安防、教育、支付、国防、金融等领域潜力巨大,预计未来一段时间人脸识别市场规模将保持20%左右的增速,到2022年,全球人脸识别市场规模将达75.95亿美元。

2017-2022年全球人脸识别行业市场规模及预测(单位:亿美元)

资料来源:前瞻产业研究院整理

全球人脸识别行业发展趋势

模式识别技术篇6

【关键词】语音录入;超声检查报告;超声诊断病例描述

1.引言

数字化医院已经成为世界上先进医院的重要组成部分[1,2,3,4,5],是信息技术迅速发展对医院医疗和管理工作全方位渗透而提出的新概念。以现有信息技术为基础,提高医疗信息的高度共享,实现全方位的人机交互,提高医疗效率、医疗质量和管理水平是当今医疗技术的前进方向之一。

语音作为人类最重要、最有效、最常用和最方便的交换信息的形式,让计算机能够听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。语音识别技术作为该系统实现的核心技术,贯穿于整个系统的操作过程,选用语音增强技术、端点检测技术作为语音识别的前端处理技术,基于数据驱动的特征提取技术和基于子空间的建模方法,实现其孤立词识别,其识别率高达95%,在汉语普通话孤立词识别上为国际领先水平。

由于国内还没有相关产品,医院采用一台超声诊断仪配一名录入员人工输入超声检查报告的方法,存储超声图像,运用电子病历管理病人检查结果。该设计结合超声诊断学知识、多媒体技术、数据库知识、计算机技术、语音识别技术等多;学科跨领域实现超声检查报告的语音录入,无需配备录入员。通过多位有经验的超声检查医师对超声检查的超声描述及超声结论等信息整理总结并参考相关书籍[6],经过一定的积累设计出一套适用于大多数疾病描述情况的模板。本模板灵活度高,集多位权威医生的经验积累,规范度高,涵盖范围广,提

高了超声检查报告的质量。考虑超声检查医生的工作方式及检查流程,选用分布式的系统架构提供了高效的执行效率和简便易用的操作方法。实现同数字医院应用系统的整合工作,使智能语音处理技术适配于目前的HIS(Hospital Information System,医院信息系统)。

2.语音识别技术

语音识别技术正直接与医疗卫生、办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语音控制,电信的自动拨号系统、辅助控制和查询以及福利事业的生活支援系统各种实际应用领域相接轨,并终将成为既触摸屏之后新一代操作系统和应用程序的操作方式。

作为整个系统的核心技术,语音识别技术贯穿系统的整个工作过程。本系统的语音识别技术由三部分组成:稳健的前端处理系统、基于数据驱动的特征提取技术和基于子空间的建模方法。

稳健的前端处理系统包括解码器、语音增强模块和端点检测模块。解码器对常见的语音格式如WAV、MP3、WMA、OGG、APE等构建对应的解码器,转变成下一步计算机能够识别的文件格式。考虑到超声检查报告语音录入系统的工作环境为封闭带混响和噪声的情况,选用语音增强模块用于抑制语音噪声和混响,提升语音有用信息的可懂度,选用频域维纳滤波算法[7,8]完成,该算法适用于环境噪声较大的情况,较大程度上去除了噪声信号,并增强了有用信号。端点检测作为语音识别的必要环节,用于区分语音信号和非语音信号,选用一种基于倒谱距离语音端点检测的改进算法[9,10],其抗噪性好,具有良好的鲁棒性,标记出语音和非语音的时间索引,以便对语音信号进行识别,且该处理会提高语音识别的识别率。

语音识别的本质是统计模式识别,统计模式识别分为特征提取、模式匹配和参考模式库等三个基本单元。语音识别研究的一个重要进展,就是算法从模式匹配技术转向基于统计模型的技术。传统的特征提取方法有线性预测倒谱系数和感知线性预测等。但是传统的特征提取方法往往是基于某种生理发声模型,或者人耳的听感知模型,并且这种生理模型的建模方法取得了很大的成功,并主导了语音识别方法近半个世纪,但对实际应用还需不断改进。基于数据驱动的特征提取技术作为正在发展的前沿技术,其提取有用信息的思路与数据密切相关,根据识别任务,构建基于子空间的隐马尔可夫模型。考虑到子空间模型可分为对识别有益的子空间和对识别无益的子空间,前者称为语音内容子空间,后者称为无用分量子空间或信道子空间,通过类似于主成分分析法,分离出信道子空间的基,并对特征进行变换,去除特征在信道子空间的部分,从而使特征更有利于孤立词识别系统。该方法是让数据自我反应特点,通过数据的自我表述,能更加突出目标方法,达到提高识别率的目的,以适用很多人普通话不标准的情况。

建模方法是语音识别系统性能决定性因素。建模技术发展迅速,在孤立词方面,从早期的动态时间规整等技术,到上世纪广为流行的隐马尔可夫模型、人工神经元网络,以及在隐马尔可夫模型上鉴别式的训练方法。这些技术极大提高了语音识别技术的顽健性,提高了识别的准确率。近年来逐渐兴起的子空间建模技术将孤立词识别推向了实用化阶段,本系统选用基于子空间的建模方法,该算法采用声韵母模型,将事先训练好的基元单元按照声韵母拼接得到整体模型,在实际应用过程中构建的孤立词识别系统,通过修改词表就能用于完成识别任务。声韵母模型分为单音子模型、双音子模型和三音子模型,考虑到前后项信息,选用性能最优的三音子模型作为声韵母模型建模的基本模型,三音子模型考虑上下文信息标注,并根据标注信息构建决策树,根据决策树构建三音子模型,最终得到共享的高斯混合模型集。

3.工作流程

系统的工作流程如图1所示,首先系统会自动同步医院的数据库系统,调入相关诊室的检查医生的相关信息和分配到该诊室的病人基本信息;然后医生根据检查部位通过麦克风语音输入完成超声检查病例模板的选择,通过语音的方式对超声诊断仪上显示的超声诊断情况进行描述并语音方式给出相应的超声诊断结论,这些语音会自动转换成文字形式显示到系统界面,语音控制采集超声图片,也可以通过语音对得到的超声描述和超声结论进行修改、确认,若病人多个部位都需做超声检查,以上步骤重复操作即可;最后语音控制自动生成超声检查报告单,该报告单会通过打印机自动打印,医生检查报告单的内容,确认没有问题签字,超声检查结束。

图1 系统使用流程图

对于多次就诊的病人,每次就诊信息都会记录到该系统,当医生想了解该病人的病史时通过该系统调用即可,也可以链接到医院总数据库,在不同的诊室或者检查中心都可以随时调用,为医生和病人节省了时间,提高了问诊质量和速率。

4.系统结构及功能

超声检查报告语音录入系统分为三个功能模块:超声检查报告语音录入模块、超声描述模板数据维护模块和超声检查监视模块。

针对超声检查人员配备不合理,超声诊断报告描述规范度低等问题,对超声检查的工作流程及相关医学知识进行了总结设计出该系统。区别于现有超声检查系统,该系统省去了超声检查录入员的工作,检查医生可以通过语音输入转换成文字输入的方式控制报告单的录入,语音控制报告单录入中超声病例模板的选择,并且自动打印超声报告单,也可以通过键盘鼠标等外设控制整个超声检查报告单的生成过程,操作简便易学。同时该系统也为医生根据习惯自定义添加、修改、删除模板功能。该系统与医院的数据库相连,可以与医院系统同步,保证医院工作流程的顺利进行。此外该系统还会对整个诊断过程进行录音,提高超声科日常工作中的抗风险能力。图2所示为超声检查语音录入系统构成。

图2 超声检查报告语音录入系统结构图

4.1 超声检查报告语音录入模块

超声检查报告语音录入模块与医院现有数据库相连,自动导入被检查病人及检查医生的相关信息,进入检查界面。医生根据系统提示语音输入选择相关疾病模板,语音输入相关检查的超声描述及超声结论,医生也可以根据需要对超声描述和超声结论进行修改,对超声图片进行采集,最终语音控制打印超声检查报告。该模块提供历史记录查询,对于使用该系统检查过的病人能够查询该病人的以往病史及其治疗情况,医生可以根据相关信息更为快速、准确的做出超声诊断,也可以与其他相似病人的超声描述做参考,更为准确的生成超声检查报告。

4.2 超声描述模板数据维护模块

该模块用于超声检查工作之前,用鼠标、键盘等输入控制。总结多位经验丰富的超声科医师出具的检查报告,根据超声报告单中的描述找到不同病理描述之间的联系,总结出了规律。超声诊断描述按每个疾病特点拆分成属性,参考相关书籍及多位医生的经验,在报告书写规范的基础上设置成医生习惯的顺序,并对每一个属性尽可能设置所有可能的值,这些模板就可以涵盖大多数病人的诊断描述。根据具体格式要求,可以批量导入病例模板也可以逐个导入,既可以对现有模板进行修改也可以新建模板、删除模板。

4.3 超声检查监视模块

超声检查监视模块可以监视记录下医生所有的语音录入信息及医生对该系统的整个操作过程。方便医生查询以往的检查情况,督促医生超声检查中规范化操作,也为日后可能出现的医患纠纷提供相关证据。

5.总结与展望

本系统解决了超声科检查效率低,人员配备不合理,超声诊断描述规范度低,误诊率较高等问题。系统利用语音方式选用麦克风进行语音录入、命令控制和信息查询,是人机交互最自然、最方便的方式,使该系统能够满足医院中心报告厅的需求,有利于“三级检诊制度”的落实,提高生产效率,降低误诊率,使得病例报告系统更加准确、高效和快捷。

本系统提供语音输入和键盘鼠标等外部设备两种方式控制系统工作,操作简单易学,方便医生的使用;替代了每次超声检查时录入员的工作,节省了医院开支,避免出现录入人员工作不熟练影响超声检查效率;对整个诊断过程进行监视记录,督促医生规范化操作,为部分医疗纠纷案提供了相关证据,提高超声科日常工作抗风险能力;医生用语音的方式控制整个超声检查的录入过程,自动生成报告,无需医生手动操作;对大量的医学数据进行整理,为以后病人就诊提供相关依据;记录每个病人利用本系统每次就诊的情况,提高医生诊断的准确率;医生参考权威书籍并根据相关经验整理了超声描述相关模板,对现有的诊断模式进行了规范,结构更为清晰。

目前该系统已经在某医院试用,实践证明该系统确实提高了医生的工作效率。考虑信息技术和医疗技术都在不断进步,还需继续研究语音识别技术和丰富超声检查描述模板。语音识别方面需考虑复杂的工作环境,医生普通话的标准程度,改进语音增强、端点检测、语音识别等技术,研发出适用范围更广的语音识别系统;随着病人的增多,各种稀有病情会越来越多,病例模板还需不断完善改进,以适用更多的情况。

医院广泛应用该系统后,还可以继续丰富该系统,使其扩展应用到医院的放射科、病理、心脏介入科、血管介入等医疗系统,为医院的数字化服务。

参考文献

[1]GEN ELECTRIC.Voice activated diagnostic imaging control system.America.US7016469B2[P].2006.

[2]GE MED SYS GLOBAL TECH CO LLC.Remote control of a medical device using speech recognition and foot controls.America.US7127401B2[P].2006.

[3]CHEETAH OMNI LLC.System and method for voice control of medical devices.America.US8098423B2[P].2012.

[4]GEN ELECTRIC.Methods and system to generate data associated with a medical report using voice inputs.America.US8312057B2[P].2012.

[5]钱蕴秋.超声诊断学[M].第四军医大学出版社,2008.

[6]张亮,龚卫国.一种改进的维纳滤波语音增强算法[J].计算机工程与应用,2010,46(26).

[7]白文雅,黄健群,陈智伶.基于维纳滤波语音增强算法的改进实现[J].电声技术,2007,31(1):44-46.

[8]叶蕾,孙林慧,杨震.基于压缩感知观测序列倒谱距离的语音端点检测算法[J].信号处理,2011,27(001):67-72.

[9]罗元,黄璜,张毅等.一种新的语音端点检测方法及在智能轮椅人机交互中的应用[J].重庆邮电大学学报:自然科学版,2011,23(4):487-491.

作者简介:

马多佳(1972―),女,山东烟台人,博士,工程师,北京安慧音通科技有限责任公司技术总监,研究方向:语音信号处理。

王(1975―),男,辽宁大连人,博士,副主任医师,现供职于总医院,研究方向:超声诊断与治疗。

模式识别技术篇7

关键词:语音识别;信息技术;发展趋势

中图分类号:TP391.42 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02

近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。

1 语音识别技术的发展历史

1.1 语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。

1.2 语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

2 语音识别技术的技术实现及困难

语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。

2.1 语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

2.2 语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

3 语音识别技术的发展趋势

3.1 进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

3.2 增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.3 微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

4 结束语

21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。

参考文献:

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.

[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.

[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.

[4]陈方,高升.语音识别技术及发展.CIO时代论坛,2009:67.

模式识别技术篇8

【关键词】 交通方式识别 智能手机 随机森林算法

随着移动互联网的普及,各种有关移动互联网的应用蕴含着巨大的商机,交通方式的自动判别显而易见在交通规划领域和LBS(基于位置的服务)领域拥有着广阔的应用价值。

1 交通方式识别关键技术研究

1.1 交通方式识别概述

模式是客观事物活动的方式,它包括客观事物本身,也包括有客观事物在时间和空间分布的信息。时间万物都有其独特性,这种独特性可用三个方面来理解,即可观察性、可区分性和相似性。

在AI(人工智能)领域,模式识别已经是一个重要的分支,和人类自身的识别系统相比,计算机的模式识别,其优势在于计算机拥有极强的计算能力,他可以储存数量极大的样本,并通过对这些样本的分析来提取特征,而完成这些工作,计算机是高效的。如图1所示为计算机模式识别系统的五个基本组成单元。

如图1所示,现阶段的模式识别系统一般都是由五个基本单元来组成。

(1)数据获取单元;(2)预处理单元;(3)特征提取和选择单元;(4)分类器设计单元;(5)决策单元。

1.2 定位技术研究

1.2.1 基站定位技术

在各种定位技术中,基站定位技术是最早开始应用的,基站定位目前采用的主要技术是COO(Cell of Origin)技术,COO技术的基本原理是,在移动终端登录到网络以后会上报自己的小区ID,移动网络会据此估算用户的当前位置,如图2所示。

1.2.2 GPS定位技术

GPS由卫星、地面监控系统和移动终端三个部分组成。卫星提供精密的时间标准并提供定位信息,地面监控系统主要是对卫星工作状态和运行轨道的监控。

1.2.3 A-GPS定位技术

A-GPS定位技术,即辅助GPS定位技术,它是一种对GPS定位方法的改进,A-GPS定位技术仍然无法解决数据缺失和数据漂移问题,但由于有A-GPS服务器的存在,它可以起到很多辅助的作用。

1.3 典型识别算法研究

在数据挖掘、机器学习和模式识别等领域中,都需要分类算法,分类算法可以分为三个步骤:(1)对已知类别训练集进行分析;(2)生成分类规则;(3)通过规则预测新数据的类别。

2 基于智能手机功能的交通方式识别研究

2.1 数据采集

按照现阶段智能手机的流行配置,本系统要求智能手机含有GPS模块、加速度传感器、陀螺仪、声音传感器和SIM卡。因为现在一般的智能手机都能够满足这个要求,本文就不再赘述手机选型。但是采样频率还是需要预先设定:GPS数据每秒采样1次,加速度传感器和陀螺仪的采样频率为32Hz,声音传感器每秒采样30次。

2.2 特征提取

特征量主要包括时域上的特征量,如均值、过均值率、标准差、中位数、最大值与最小值的差、个数等,频域上的特征量包括和、方差两类。

(1)与速度相关的特征量;(2)与加速度相关的特征量;(3)与声音相关的特征量;(4)与交通站点相关的特征量。

2.3 基于改进随机森林算法的模式识别

获取所有的特征之后,随机森林算法过程可做如下描述:(1)输入的数据即样本集,每个样本包含有若干个特征属性和一个类别属性。(2)训练样本集由Bagging方法随机抽取,最后形成的是由N个样本组成的训练样本集。(3)从样本的特征属性中抽取部分属性作为分裂属性。(4)以上步骤重复n次,最后形成由n棵决策树构成的森林,最后再进行汇总排序。

2.4 特征量有效性的验证

特征量有效性的验证即比较使用和不使用的情况下F值的大小就可以了。

2.4.1 陀螺仪

如图3所示为陀螺仪有效性验证结果,验证结果表明,在不使用陀螺仪的情况下, 8种类别的F值均有下降,这也说明,陀螺仪的引入对于交通方式识别起到了一定的作用。

2.4.2 声音传感器

如图4所示为声音传感器有效性验证结果,验证结果表明,相比较陀螺仪,声音传感器的引入对于交通方式识别起到的作用更大。

2.5 模型简化

(1)特征重要性排序;(2)模型简化结果。

模型简化包含两个部分,一个是特征集的简化,那么在特征集简化之后,就可以进行模型本身的简化。

3 总结与展望

交通方式识别最重要的就在于识别的精度以及易实施性,在易实施性方面智能手机拥有先天的优势,比如利用手机的GPS模块和加速度传感器进行交通方式识别的研究论述就有不少,但是识别的精度仍然不够,正是基于此,本文期望能够在以下两个方面对交通方式识别进行更加深入的研究:(1)引入多种数据来源,解决交通方式识别中数据来源单一的问题,并研究在新的数据来源被引入后,对识别准确率的影响。(2)研究不同交通方式识别算法对识别准确率的影响,特别是比较随机森林算法和支持向量机算法在性能上的异同。

参考文献:

[1]熊文,陈小鸿.城市交通模式比较与启示[J].城市规划,2009(3):56-66.

[2]扈中伟,邓小勇,郭继孕.基于手机定位数据的居民出行需求特征分析[C].第八届中国智能交通年会优秀论文集.2013:43-51.

[3]王亮.基于判别模式学习的人体行为识别方法研究[D].黑龙江:哈尔滨哈尔滨工业大学,2011:15.

模式识别技术篇9

[关键词]广告监播;语音识别;图像识别;数据挖掘

随着数字多媒体技术、高容量数字存储技术和视音频智能识别技术的成熟,以及硬盘存储设备性价比的提高,以语音识别和图像识别为基础的广告监播系统已成为广告监播的发展方向。传统的电视广告监播手段主要是人工监播和硬盘录像,它们需要过多的人工参与,存在着监播成本高,效率低等缺点,并且往往不能客观记录监播结果。随着广电监测的任务日趋繁重,通过软件由机器对电视广告进行监播的系统已成为各地广电监测中心及电视台的迫切需要。

一、系统关键技术

1.基于电视内容识别技术

随着图像处理技术与模式识别技术的快速发展,基于电视内容,依靠特定人体特征和物体特征来进行画面识别技术得以实现.系统能在高速 CPU技术的支持下,对关键部分进行建模,并与原有模板库进行对比,从而精确识别电视画面内容。电视等媒体播放的广告,都具有以下特征:

(1)重复性:任何通过审批的商业广告或者公益广告都不可能只播放一次,时间短的可能会重复播放一星期,长的甚至会达到半年以上,这就为广告自动识别技术提供了存在的空间。

(2)可比性:相同版本的广告,播放时都具有相同的音频特征(声纹和频谱),而不同版本的广告(包括同一个广告的完整版和简略版),则具有完全不同的音频特征,这就为广告自动识别技术提供了理论的依据。

2.数据仓库挖掘技术

中国的广告市场连续以每年 40%的高速发展,客观上形成了“以数据说话,实现广告精准”的庞大查处需求,从浩如烟海的广告数据以及其他相关的数据中,利用先进的技术,成功地收集、分析、理解信息并依据信息进行决策,发现违规广告。具体地说,智能技术包括:

(1)数据仓库(data warehousing):随着 C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。

(2)联机分析处理(on-line analytical processing,简称OLAP):共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术,它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察,决策数据是多维数据,多维数据就是决策的主要内容。

(3)数据挖掘(data mining):又称数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。

二、系统软件功能简介

1.视音频采集模块

视音频采集存储模块负责对多路广播节目、电视播出节目的视音频信号采集、压缩,形成 MPEG-4格式的录像文件,将其存储在网络中指定的硬盘阵列中,已被使用。该模块操作简单,只要设置好保存路径,采集格式等参数,就可以全天 24小时自动采集多路广播电视节目。

2.广告智能识别模块

充分利用飞速发展的 CPU技术,采用基于高速CPU,高精度语音识别算法,同时融合了先进的图像抖动及二维建模识别算法,可以精确辨识节目中是否出现样本库里的图像,查全率、查准率都达 96%以上,该系统具有智能识别能力,系统能准确识别某个广告是否出现,在什么时间出现,精确到毫秒级,以及该广告播放的时间长度。能够对新广告进行智能识别和定位,迅速发现新的广告,及时补充样本库,保证系统检测的完整性和全面性。

3.操作终端模块

该系统中所有需要人工参与的工作都是在操作员终端上进行。操作员终端提供友好、方便的图形化人机交互界面,实现节目的确定、广告样本的提取、广告监听 /监看、自动识别、广告识别结果的存储和管理等功能。

4.监播统计报表模块

该模块可以更加快速、便捷、高效地做出工作中需要的报表,能够快速的制作查询客户所需要的各类报表数据,同时可以根据客户的要求对现有的报表工具进行修改使得报表工具更能符合客户的需要,完善客户的工作需求。完善的统计功能。自带一些常规的固定报表、图表。报表、图表能进行输出、打印等操作。统计报表可以输出为常用的办公软件 execl等格式文件,方便调用。报表主要有:每日传播单、商品广告监播报告、量汇总报告、黄金时间统计报表、播出情况表、播出量分类统计、每日基本监播情况表、每天、周、月、季、年统计报表;栏目情况统计报表等等。

5.系统管理模块

模式识别技术篇10

 

计算机人脸识别技术所涵盖的范围比较广泛,其中包含信号处理、数字图像处理、模式设置等诸多内容。计算机人脸识别技术根据已知人脸确定未知人脸的归属问题。换言之,计算机人脸识别技术属于一种模式识别范畴,对已知的信息进行采样量化,将其转化为计算机可以处理的数据信息。

 

一、计算机人脸识别技术原理

 

(一)计算机人脸检测技术

 

分析计算机人脸识别技术,需要明确计算机人脸检测。在进行人脸识别时,计算机应用系统需要人脸的大小以及位置进行检测,在特定的空间内实现人脸识别。基于计算机的人脸检测技术方法有镶嵌图法、模板匹配法、人工神经网络法以及可变性模板法。实现人脸检测,需要在科学的流程下实现。计算机人脸检测流程为:图像输入环节——图像预处理——图像特征提取——计算机系统检测与判断。计算机人来检测技术在科技社会中不断更新,已经演化为计算机人脸识别技术的前段技术之一,与智能监视等技术相互衔接。

 

(二)计算机人脸识别流程

 

计算机人脸识别技术是在人脸检测技术的基础上,进行信息辨别。在人脸信息辨别的环节中,主要分为“是不是谁”和“是谁”两个询问阶段。通常情况下,人脸识别首先需要进行人脸输入,对图像进行预处理,然后对图像进行特征提取,最后进行人脸识别,进行人脸验证。人脸识别,主要分为两个方向的识别,一为人脸特征分析以及人脸密度线分配;二是人脸基准点与其他人脸特征参数结合。

 

二、计算机人脸识别方法

 

(一)人脸几何特征识别

 

人与人的面部特征差别比较大,基于计算机人脸识别的技术在实际应用中,最为简单直接的方法就是对于人脸的几何特征进行有效识别。人的嘴、眼睛、鼻子以及下巴,是构成人脸面部特征的基本要素。每一个人的面部特征都不同,将这些面部特征输入到计算机数据系统,进行人脸的差异性识别。研究小组在人脸特征信息搜集的基础上,采用积分投影的方法提取出欧式距离表征,实现科学高效的人脸识别。

 

(二)人脸模板匹配识别

 

基于模板匹配的人脸识别方法,主要是在可变换性的模板基础上,对面部特征进行抽取。这些模板能够根据需求,进行变形、平移以及旋转,将细节特征面部图形收取出来。该种人脸识别方式与人脸特征分析方式相比,其效果更高。

 

(三)神经网络识别

 

基于神经网络的人脸识别方法,主要是利用神经网络的高效分类能力,以及学习能力,在获取人脸信息的基础上,对人脸的特征进行有效识别和提取。该种方法能够减少很多复杂的特征获取。且能够将人脸图像中的形状材质信息进行科学整理。该种方法在人脸识别中,能够缓解人脸识别规律无法进行显性表达的弊端。

 

(四)小波变换

 

基于小波变换计算机人脸识别,能够实现多分辨性,能够实现信号是多向观察性。其在信号检测中所适应的范围比较广,针对信号系统中所出现的诸多问题能够及时克服。当识别系统中出现信号周期性陷波、暂态振荡、电压跌落以及闪变等情况时,小波变换都能够有效克服。小波检测技术也有一定的局限性。第一,小波变换中的滤波特性较差;第二,小波分析中的频域分辨率较粗糙。第三,小波变换环节中所涉及数据计算比较多。

 

(五)K-L变换压缩技术

 

特征脸识别技术是一种从主成份中分析而导出来的一种人脸识别与人脸特征描述技术,一般通过K-L变换压缩技术中的一种优正交换方式来实现。从理论上分析,任何人脸图像集合都能够在通过两个比较相似的集合重建而来。在K——L交换下,人脸识别能够得到高维图像的一组正交基,取特征值,组成一个正脸空间。在进行人脸识别环节中,能够将新人脸图像映射到特征脸空间中,从而得到投影向量。

 

三、计算机人脸识别技术实际应用

 

(一)警方办案中的应用

 

计算机人脸识别技术在警方办案中的应用比较广泛,例如,在进行亲人寻找中,可以根据专业部门所提供的照片,直接发送到计算机系统中,进行人脸信息的对比检索。同时大型的活动场所中,如果发生安全时间,警方可以调用监控视频,对嫌疑人的面部特征进行提取。

 

(二)在智能门禁中的应用

 

随着科技不断发展,建设安全型的住宅小区是社会发展的必然,智能门禁系统的开发能够提升小区安全,计算机人脸识别技术在智能门禁中的应用也比较广泛。计算机人脸识别技术在智能门禁系统中的应用,主要分为三个步骤:

 

第一,在进行人脸信息录入时,系统对人脸进行检测,并进行特征提取,根据系统中的人脸描述来进行特征信息存储。通过RFID进行信息输入与信息注册,与人脸特征一同进行已知的人脸数据库录入,并最终将记录信息进行存储。

 

第二,将该系统进行实际应用,在门禁视频前,当有人员访问时,门禁控制器首先进行RFID信息提取,然后进行RFID认证,对特征信息进行提取,并从已知的认证数据库中调出信息。

 

第三,在现场中,当有工作人员进入到监测区域中,RFID读卡器将对人员的ID信息进行读取,并启动系统中摄像机采集,并进入人脸图像采集中。

 

结论