汉字识别技术范文10篇

时间:2023-03-16 19:38:58

汉字识别技术

汉字识别技术范文篇1

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别技术范文篇2

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应

汉字识别技术范文篇3

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别技术范文篇4

1.1字形属性对汉字识别的影响

受西方已有研究理论的影响,长期以来关于汉字识别的加工单元也有两种观点:一是认为识别汉字要先对笔画、部件等汉字的字形特征进行分析,然后将分析的结果整合从而识别整字。那么,在汉字识别过程中就会存在笔画数效应、部件数效应等。二是认为识别汉字直接以整字为单元,强调字形知觉的整体性。到80年代末90年代初,已有许多研究表明在汉字的视觉识别过程中,要经过特征分析[1]。近10年以来,汉字识别的特征分析观点得到了更多的研究结果的验证:首先是采用不同的方法证实了笔画数效应的存在。如喻柏林等[2]采用命名识别法,发现在2至15画的范围内,汉字的命名反应时随笔画数的增加呈台阶状上升趋势;张武田等[3]发现在高频字当中存在笔画数效应;彭聃龄等[4]采用命名作业和真假字判断作业也发现有显著的笔画数效应。其次是发现部件因素对汉字识别的影响。有研究发现了启动部件对合体汉字识别的影响[5],提示汉字的部件作为单个结构反复认读,有可能成为汉字识别的加工单元之一,而且比笔画更符合简约的原则。张武田等[3]、彭聃龄等[4]的研究结果进一步证实了部件数效应的存在。

不仅部件的数量影响汉字识别,研究证明部件频率(即在合体汉字中出现的次数)也是影响汉字识别的因素之一,但其作用受到整字频率和结构类型的影响[6]。黎红等[7]的研究也发现,在速示条件下,部件频率影响汉字识别的准确性,而且部件频率对汉字识别的作用模式与刺激字及其组成部分的空间排列有关。

在汉字的构造部件之间还存在不同的组合以及组合频率。采用整字识别和整合识别等实验任务的研究表明,部件组合与部件有类似的频率效应,而且部件组合频率的作用也受到正字频率和结构类型的影响[8]。第三是证实了结构方式效应的存在。喻柏林、冯玲等[9]和喻柏林、曹河圻[10]在不限时呈现整字条件下,分别令被试对双部件和单部件做命名反应,结果一致发现存在结构方式效应,命名上下字的反应时要明显长于左右字的部件。陈传锋、黄希庭[11]进一步研究发现了结构对称性效应,识别结构对称性汉字的加工明显快于非对称性汉字,而且这种结构对称性效应在低频字中起作用,而在高频字当中不起显著作用;在多笔画字中起作用,在少笔画字中不起显著作用。

独体字直接由笔画构成,不存在部件这一结构层次,而且许多独体字本身就是构成合体字的部件。那么在对独体字进行认知加工时,是必须经过特征分析还是直接以整字为单元?肖崇好等人[12]将独体字中除去点、钩、提、短的横竖撇捺以外的其它笔画作为该汉字的框架笔画,把每个独体字的结构分为框架结构和非框架结构。研究结果发现,在速示条件下,独体汉字的识别从识别笔画开始,经提取框架结构后,才完成识别过程。与“框架结构”的观点相类似,沈模卫,朱祖祥[13,14]研究结果也表明,在含有十或口的独体汉字中,十与口是该类汉字的突出视觉特征的理论。这些结果表明对独体字的加工也经过特征分析。

但是特征分析理论并不能完全解释汉字识别过程中的各种现象。如笔画、部件和字频的关系还没有研究清楚,有的研究发现存在笔画或部件和字频的交互作用[3,4],有的研究则没有发现[2,15]。有的研究还发现,整字频率对于局部知觉(部件识别)有制约作用[6]。仅用整字加工观点也很难加以解释。因此喻柏林等提出了汉字识别的平行加工假说[2],认为被试识别每个单字经历着两类平行加工的过程:一类是识别整字的加工;另一类是笔画及其组合的加工。笔画及其组合的加工与整字加工发生分享有限注意(或知觉)资源的竞争。高频字被整字识别而低频字要经过特征识别。因而笔画数效应只存在于低频字当中。这种新观点不仅有很好的解释性,而且得到了一些研究结果的支持[16,17]。但是这种假设本身还有待于进一步的丰富和完善。

1.2语音在汉字识别中的作用

汉字是表意文字,其书写形式不能直接、透明地表征语音。在近十年来有关汉语字词识别过程中的语音中介问题依旧是争论的焦点,即在字词视觉识别中,是否必须通过音码为中介来实现对词义的提取?从理论上来说,语义的激活可以有两条途径:一是由视觉输入激活心理词典中的字形表征后,直接激活语义表征;二是以语音为中介,字形表征的激活首先传输到语音表征上,然后激活语义表征。与此对应,目前对语音中介问题主要有两种观点:一是强语音作用观,认为在视觉汉语字词加工中,语音激活部件是自动的,而且在时间上也特别早,由字形到字义需要经过语音为中介。另一种观点是强字形作用观,认为汉语字词加工中的语义激活过程不同于拼音文字,主要由字形—语义之间的直接激活传输(或计算)决定,语音信息在视觉字词加工中虽然自动激活,但对语义激活作用很小[18]。两种观点各自得到了一些研究结果的支持:

谭力海、彭聃龄[19]采用启动条件下的词汇判断法,发现启动词中的多音字不但会促进被试对和其适当读音相近的目标字的反应,而且会促进被试对和其不适当读音相近的目标字的反应,表明熟悉的中文字词的语音特征在到达心理词典之前就已经得到了激活。张武田等[20]采用启动掩蔽(书写)法也发现,形似音同字的启动效果早于语义的启动效应,因此认为形似音同字的激活可以看作是前词汇的。

而金志成等[21]分别进行了音同、形似、义近和无关四种条件下的目标字的启动识别和倒掩蔽识别的研究,结果表明对目标字尚未完全加工时,形似倒掩蔽促进对目标字的进一步加工,说明形码在到达心理词典之前就被激活;在汉字视觉识别中字音的作用确实存在,但是因为音同倒掩蔽效果不显著,表明音码不是在到达心理词典之前被激活,因而不存在语音转录现象。林仲贤等[22]采用汉字词形、音、义特征匹配任务,发现无论是速示还是非速示条件下,在汉字词的形、音、义特征中,都存在着编码加工深度的差异,音码的信息提取是最难的,反应时最长,而词形、词义信息的提取则相对容易。这个结果说明,在他们的实验条件下,是不可能有语音转录的。

对语音、字形在汉字阅读中的作用的发展变化的研究发现,初学阅读者更依赖语音,而熟练阅读者更依赖字形[23],但是周晓林等[24]发现即使对年幼儿童来说,在强调语音而非语义的实验任务中,语义激活的强度和时间进程也不弱于语音激活。并且认为这是由于字形到字音到语义以及字形直接到字义的计算速率(computationalefficiency)。由于汉字的形音对应的任意性,降低了字形到字音的计算速率或激活传输速度。而且由于汉字中同音字很多,一个激活的语音表征对应着许多语义激活模式,从语音激活难以得到确切的语义。另一方面,汉字的字形(特别是形旁),能够提供大量的语义信息,直接从字形到语义是一条迅速有效的途径。

林泳海、张必隐[25]研究了中文音韵在词汇通达中的作用。在词汇判断任务中,单字词的音韵没有启动效果,说明中文视觉认知是直通语义的,而单字词在命名任务中以及同韵双字词在词汇判断任务中存在启动效应,结果表明音韵在词汇通达中存在一定的作用,表明在中文阅读中语音的通路是存在的,尽管这条通路较弱。研究者进一步认为,中文词的认知可以说两条通路都存在。但是,尽管这个研究说明了语音通路的存在,却并没有说明语音和语义激活的先后顺序。

综合以上研究可以看出,汉字识别有自动的语音激活作用,但是这种作用可表现为程度的不同,它取决于识别字的熟练程度、任务要求和语境的作用条件等[20],因此每一个研究只是揭示出某一个条件下的规律。

1.3语义在汉字识别中的作用

汉字识别的目的是提取汉字的意义。而字义提取和其存贮方式有关。在心理词典中,每一个词条都包含了与这个词相应的语音、形状和意义。在汉字心理词典中,语义激活并不封闭在语义系统内,而会立即自动扩散到相应语音和字形表征。启动词不仅对其语义相关字有启动效应,而且对相关词同音词、形似同音单字词的命名也有显著促进作用;对与相关词形似音不同的词有抑制作用[26]。

朱晓平[27]则从另一个角度进行了研究。他将语境划分为相关、无关和中性三种,还将语境限制强度分为高、低两种,目标字词的笔画数分为多、少两组。采用在句子语境中的汉字命名作业研究了语境效应的作用点。实验一以大学生为被试,发现三个变量的主效应均极其显著,语境与词频的交互作用也显著。在高限制语境中,语境与词频有限制交互作用,而在低限制语境中,两者呈相加关系。说明高限制语境信息作用在词汇提取阶段,低限制语境信息作用在后词汇处理阶段。实验二以小学四年级学生为被试,发现在高、低两种限制条件下,语境和词频的交互作用均存在。这可能是因为小学生加工单字(词)的速度较慢。实验三在降低了目标字(词)呈现亮度的条件下重复实验一,得到仅在高限制语境下语境类型与笔画数之间存在明显交互作用。说明在字词的视觉编码由于亮度而变慢时,语境效应可能发生在视觉编码阶段。从三个实验的总结果来看,语境确实能够影响词汇的加工,而且语境效应的作用点是灵活的。

采用ERP方法的研究发现,具体字联想引起的PSW(正慢波)波幅和P800潜伏期分别大于抽象联想字引起的PSW波幅和P800潜伏期,从而提示具体字联想和抽象字联想的脑机制有所不同[28]。但是到底有何不同,尚待进一步研究。其研究结果还表明,汉字的形音义加工之间存在再加工的反复过程,其关系错综复杂,难以分割。证实了以前有关研究的结果。

1.4汉字识别与大脑

由于汉字本身的独特性,识别汉字时,是否还像识别拼音文字那样,左半球占优势?高定国等[29]曾对汉字认知与大脑两半球之间的关系进行了回顾,基本上有两种观点:一是认为汉字认知主要是左半球的功能,另一是认为汉字是大脑左右半球并用的“复脑文字”。高定国等人倾向于后者,后者也得到有关研究结果的支持:郭可教、杨奇志[30]以大学生和小学生为被试,采用同一的汉字对刺激材料,让被试进行字形、字音、字义的异同判断,结果发现,字形、字音和字义的认知均与大脑两个半球有关,显示出汉字认知的复脑效应。用汉字—图形意义整合判断的实验进一步验证了字义认知的复脑效应。张武田等人[31]研究结果也显示,当时汉字字音或字义进行匹配时,两半球之间的加工优于半球内的加工,即两侧大脑半球协同活动要比单侧半球加工效果好。

近年来脑成像技术开始应用于与汉语字词识别有关的领域,使研究者可以对汉语字词识别的脑内加工过程直接进行研究,不再仅仅通过观察行为来推测大脑中的活动。脑成像技术包括事件相关电位(eventrelatedpotential,ERP)、正电子发射断层扫描(positronemissiontomography,PET)、功能磁共振成像(functionalmagmneticresomanceimaging,FMRI)等。目前我国运用ERP方法对汉字识别进行研究的较多,fMRI的运用开始起步。汉语单音节较西文丰富,有利于用ERP方法进行研究。魏景汉、匡培梓等采用汉字形音义正启动和词义联想方法,对汉字的形音义进行了全视野和半视野系统研究,发现汉字认知始于100—160ms之间,大脑两半球在汉字认知过程中存在着差异,在约200—270ms之间左脑加工占优势;左脑可能需要右脑传来必要的信息后才开始加工,但是左脑开始加工后即占优势[32]。这个结果与行为研究[30]所得出的结论并不一致。魏景汉、罗跃嘉采用提高非注意纯度的跨通路延迟反应实验模式,对汉字形音识别的跨通路注意ERP的研究[33]结果表明,听觉N1最大峰均位于额中央部,视觉N1最大峰位于两侧枕部与颞后部,具有明显的通路差异性。近一步的研究[34]采用汉字形音判断作业,又发现N1头皮分布表现出明显的通路间差异:听觉N1最大波峰均位于中央部,视觉N1分布于两侧枕部,这一结果与非语言实验结果不同,与英文实验结果也不同。从而提示:对汉字字形(视觉)的最初加工可能发生在视觉初级中枢(两侧枕部),而对汉字字音(听觉)的初步加工可能是在整合中枢(中央部)而不在听觉初级中枢(颞叶)。

2评论与展望

从以上综述来看,近十年来汉字识别研究取得了很大进展:研究中更多地考虑到汉字本身的特点,而不仅仅是将汉字作为拼音文字的对比材料来进行研究;提出了针对汉字特点的成分和整字平行加工说;研究更加细化,如在字形加工中,注意到部件及部件频率、部件组合频率等因素的作用;采用新技术进行研究,如脑成像技术,眼动技术,增加了对汉字识别研究的角度、途径;计算机对刺激的呈现、结果的记录也更加精确。

但是目前研究中尚存在一些问题:在各个研究中所用的作业任务不同,由此反映的字词识别的内部加工过程也有不同,如命名作业,偏重语音加工,而范畴判断作业则偏重语义的加工;各个研究中所用的实验材料也不一样,如实验用字的笔画数、部件数、结构方式、字频、是否形声字、字义、单字还是词等不尽相同。而且由于汉字本身各种属性的复杂性,看起来一样的材料,各研究者使用的很可能有很大出入。如对字频的确定,有的研究者按照三千常用字中的Ⅰ、Ⅱ、Ⅲ级来划分,有的则按照各种字典中给出的字频来确定;对部件的划分,有的研究采用一级部件,有的研究者划分到末级部件。这些原因使得许多研究所得结果只适用于其具体实验条件下,不能扩大化,很可能是许多研究结论相差如此之大的原因;多以成人为被试;目前运用新技术的汉字识别研究还是以描述性研究为多,对行为研究中亟待解决的问题,如字形加工单元、语音转录等争论还不能予以解答。

在今后的研究中,我国汉字识别研究应继续重视加强对实验任务、实验材料的选择。要选择对欲探查的内部心理过程敏感的实验任务和材料,各个研究选择实验材料的标准尽量统一,增强实验结果的可比性;加强汉字识别和大脑功能关系的研究。目前脑功能的研究是国际热点,学习汉字能否促进大脑功能也是人们关心的问题;可以从儿童发展的角度进行研究,从而将儿童的汉字识别特点与成人的汉字识别特点进行比较,并可以将研究结果运用到汉字教学之中。

【参考文献】

[1]朱晓平.汉语字词识别的现状.心理科学,1992,(1):40—45.

[2]喻柏林,曹河圻.汉字识别中的笔画数效应新探——兼论字频效应.心理学报,1992,24(2):120—126.

[3]张武田,冯玲.关于汉字识别加工单位的研究.心理学报,1992,24(4):379—385。

[4]彭聃龄,王春茂.汉字加工的基本单元:来自笔画数效应和部件效应的研究.心理学报,1997,29(1):8—15.

[5]沈模卫,朱祖祥.部件启动对合体汉字识别的影响.心理科学,1997,20(3):206—211.

[6]韩布新.汉字识别中部件的频率效应.心理科学,1998,21(3):193—195.

[7]黎红,陈煊之.汉字识别中的部件加工:错觉性结合实验的证据.第八届全国心理学学术会议文摘选集,1997.157—158.

[8]韩布新.汉字识别中部件组合的频率效应.心理学报,1996,28(3):232—237.

[9]喻柏林,冯玲等.汉字的视知觉——知觉任务效应和汉字的属性效应.心理学,1990,22(2):141—147.

[10]喻柏林,曹河圻等.汉字形码和音码的整体性对部件识别的影响.心理学报,1990,22(3):232—239.

[11]陈传锋,黄希庭.结构对称性汉字视觉识别特定的实验研究.心理学报,1999,(31)2:154—161.

[12]肖崇好,黄希庭.汉字独体字识别中的框架结构效应.心理科学,1998,21(3):221—225.

[13]沈模卫,朱祖祥.整体汉字字形识别过程探索.应用心理学,1995,1(2):43—48.

[14]沈模卫,朱祖祥.独体汉字的字形相似性研究.心理科学,1997,20(5):401—405.

汉字识别技术范文篇5

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值

汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。公务员之家

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

汉字识别技术范文篇6

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别技术范文篇7

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别技术范文篇8

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

汉字识别技术范文篇9

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值

汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

汉字识别技术范文篇10

摘要:人工智能是在计算机科学、控制论、信息论、心理学、语言学等多种学科相互渗透的基础发展起来的一门新兴边缘学科,主要研究用用机器(主要是计算机)来模仿和实现人类的智能行为,经过几十年的发展,人工智能应用在不少领域得到发展,在我们的日常生活和学习当中也有许多地方得到应用本文就符号计算、模式识别、专家系统、机器翻译等方面的应用作简单介绍,籍此使读者对我们身边的人工智能应用有一个感性的认识。

一、符号计算

计算机最主要的用途之一就是科学计算,科学计算可分为两类:一类是纯数值的计算,例如求函数的值,方程的数值解,比如天气预报、油藏模拟、航天等领域;另一类是符号计算,又称代数运算,这是一种智能化的计算,处理的是符号符号可以代表整数、有理数、实数和复数,也可以代表多项式,函数,集合等长期以来,人们一直盼望有一个可以进行符号计算的计算机软件系统早在50年代末,人们就开始对此研究进入80年代后,随着计算机的普及和人工智能的发展,相继出现了多种功能齐全的计算机代数系统软件,其中Mathematica和Maple是它们的代表,由于它们都是用C语言写成的,所以可以在绝大多数计算机上使用Mathematica是第一个将符号运算,数值计算和图形显示很好地结合在一起的数学软件,用户能够方便地用它进行多种形式的数学处理。

计算机代数系统的优越性主要在于它能够进行大规模的代数运算通常我们用笔和纸进行代数运算只能处理符号较少的算式,当算式的符号上升到百位数后,手工计算就很困难了,这时用计算机代数系统进行运算就可以做到准确,快捷,有效现在符号计算软件有一些共同的特点就是在可以进行符号运算、数值计算和图形显示等同时,还具有高效的可编程功能在操作界面上一般都支持交互式处理,人们通过键盘输入命令,计算机处理后即显示结果并且人机界面友好,命令输入方便灵活,很容易寻求帮助。

尽管计算机代数系统在代替人繁琐的符号运算上有着无比的优越性,但是,计算机毕竟是机器,它只能执行人们给它的指令,有一定的局限性首先,多数计算机代数系统对计算机硬件有较高的要求,在进行符号运算时,通常需要很大的内存和较长的计算时间,而精确的代数运算以时间和空间为代价的第二个问题是用计算机代数系统进行数值计算,虽然计算精度可以到任意位,但由于计算机代数系统是用软件本身浮点运算代替硬件算术运算,所以在速度要比用Fortran语言算同样的问题慢百倍甚至千倍另外,虽然计算机代数系统包含大量的数学知识,但这仅仅是数学中的一小部分,目前仍有许多数学领域未能被计算机代数系统涉及计算机代数系统仍在不断地发展、完善之中。

二、模式识别

模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读这里,我们把环境与客体统称为“模式”,随着计算机技术的发展,人类有可能研究复杂的信息处理过程用计算机实现模式(文字、声音、人物、物体等)的自动识别,是开发智能机器的一个最关键的突破口,也为人类认识自身智能提供线索信息处理过程的一个重要形式是生命体对环境及客体的识别对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别这是模式识别的两个重要方面市场上可见到的代表性产品有光学字符识别系统(OpticalCharacterRecognition,OCR)、语音识别系统等计算机识别的显著特点是速度快、准确性和效率高识别过程与人类的学习过程相似以“汉字识别”为例:首先将汉字图象进行处理,抽取主要表达特征并将其特征与汉字的代码存在计算机中就象把老师教我们这个字叫什么、如何写的知识记忆在大脑中这一过程叫做“训练”识别过程就是将输入的汉字图像经处理后与计算机中所保存的全部汉字进行比较,找出最相近的字作为识别结果,这一过程叫做“匹配”。

语音识别就是让计算机能听懂人说的话,一个重要的例子就是七国语言(英、日、意、韩、法、德、中)口语自动翻译系统其中,中文部分的实验平台设立在中国科学院自动化所的模式识别国家重点实验室,这是口语翻译研究跨入世界领先水平的标志该系统实现后,人们出国预定旅馆、购买机票、在餐馆对话和兑换外币时,只要利用电话网络和国际互联网,就可用手机、电话等与“老外”通话。

指纹是人体的一个重要特征,具有唯一性北京大学有关专家对数字图像的离散几何性质进行了深入研究,建立了从指纹灰度图像精确计算纹线局部方向、进而提取指纹特征信息的理论与算法,随后研究成功了适于民用身份鉴定的全自动指纹鉴定系统,以及适于公安刑事侦破的指纹鉴定系统从而开创了我国指纹自动识别系统应用的先河北大指纹自动识别系统的推出,使我国公安干警从指纹查对的繁重人工处理中解放出来浙江省从1997年开始使用北大指纹自动识别系统,采取省地(市)二级建库、省地(市)县三级查询的方式,形成了独特的“浙江模式”省公安厅现已建立了100多万人的指纹库,是目前国内的第二大库在100多万人的指纹库中,检索一枚现场指纹仅需4分钟左右2000年浙江省用指纹自动识别系统直接破案3063起,连带破案12000多起破案率为全国第一,并遥遥领先于国内其它指纹识别系统,被公安部树为指纹系统建设应用样板。

这里介绍一个综合应用的例子,一汽集团公司与国防科技大学最近合作研制成功“红旗轿车自主驾驶系统”(即无人驾驶系统),它标志着我国研制高速智能汽车的能力已达到当今世界先进水平汽车自主驾驶技术是集模式识别、智能控制、计算机学和汽车操纵动力学等多门学科于一体的综合性技术,代表着一个国家控制技术的水平红旗车自主驾驶系统采用计算机视觉导航方式,并采用仿人控制,实现了对红旗车的操纵控制首先,摄像机将车前方的道路和车辆行驶情况输入到图像处理和图像识别系统该系统识别出道路状况、前方车辆的相对距离和相对车速接着,路径规划系统根据这些信息规划出一条合适路径,即决定如何开车然后,路径跟踪系统根据需跟踪的路径,结合车辆行驶状态参数和车辆驾驶动力学约束,形成控制命令,控制方向盘和油门开启机构产生相应动作,使汽车按照规划好的路径前进,即按自主驾驶系统的规划路径前进。

三、专家系统

专家系统是一种模拟人类专家解决领域问题的计算机程序系统专家系统内部含有大量的某个领域的专家水平的知识与经验,能够运用人类专家的知识和解决问题的方法进行推理和判断,模拟人类专家的决策过程,来解决该领域的复杂问题专家系统是人工智能应用研究最活跃和最广泛的应用领域之一,涉及到社会各个方面,各种专家系统已遍布各个专业领域,取得很大的成功根据专家系统处理的问题的类型,把专家系统分为解释型、诊断型、调试型、维修型、教育型、预测型、规划型、设计型和控制型等10种类型具体应用就很多了,例如血液凝结疾病诊断系统、电话电缆维护专家系统、花布图案设计和花布印染专家系统等等。

为了实现专家系统,必须要存储有该专门领域中经过事先总结、分析并按某种模式表示的专家知识(组成知识库),以及拥有类似于领域专家解决实际问题的推理机制(构成推理机)系统能对输入信息进行处理,并运用知识进行推理,做出决策和判断,其解决问题的水平达到或接近专家的水平,因此能起到专家或专家助手的作用。

开发专家系统的关键是表示和运用专家知识,即来自领域专家的己被证明对解决有关领域内的典型问题有用的事实和过程目前,专家系统主要采用基于规则的知识表示和推理技术由于领域的知识更多是不精确或不确定的,因此,不确定的知识表示与知识推理是专家系统开发与研究的重要课题此外,专家系统开发工具的研制发展也很迅速,这对扩大专家系统的应用范围,加快专家系统的开发过程,将起到积极地促进作用随着计算机科学技术整体水平的提高,分布式专家系统、协同式专家系统等新一代专家系统的研究也发展很快在新一代专家系统中,不但采用基于规则的推理方法,而且采用了诸如人工神经网络的方法与技术。

四、机器翻译

机器翻译是利用计算机把一种自然语言转变成另一种自然语言的过程,用以完成这一过程的软件系统叫做机器翻译系统几十年来,国内外许多专家、学者为机器翻译的研究付出了大量的心血和汗水虽然至今还没有一个实用、全面、高质量的自动翻译系统出现,不过也取得了很大的进展,特别是作为人们的辅助翻译工具,机器翻译已经得到大多数人的认可目前,国内的机器翻译软件不下百种,根据这些软件的翻译特点,大致可以分为三大类:词典翻译类、汉化翻译类和专业翻译类词典类翻译软件代表是“金山词霸”了,堪称是多快好省的电子词典,它可以迅速查询英文单词或词组的词义,并提供单词的发音,为用户了解单词或词组含义提供了极大的便利汉化翻译软件的典型代表是“东方快车2000”,它首先提出了“智能汉化”的概念,使翻译软件的辅助翻译作用更加明显以“译星”、“雅信译霸”为代表的专业翻译系统,是面对专业或行业用户的翻译软件,但其专业翻译的质量与人们的实用性还有不少差距,有人评价说“满篇英文难不住,满篇中文看不懂”,该说法虽然比较极端,但机译译文的质量确实却一直是个老大难问题这里,我们不妨对现有的机译和人译过程作一比较,从中可以看出一些原因:

机器翻译:

1.一句一句处理,上下文缺乏联系;

2.对源语言的分析只是求解句法关系,完全不是意义上的理解;

3.缺乏领域知识,从计算机到医学,从化工到法律都通用,就换专业词典;

4.译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;

5.翻译只是句法结构的和词汇的机械对应

人工翻译:

1.一般会先通读全文,会前后照应;

2.对源语言是求得意义上的理解;

3.只有专业翻译人员,而没有万能翻译人员;

4.译文是基于他对源语言的理解,不受源语言的句法结构的束缚;

5.翻译是一个再创造的过程

在目前的情况下,计算机辅助翻译应该是一个比较好的实际选择事实上,在很多领域中,计算机辅助人类工作的方式已经得到了广泛的应用,例如CAD软件如果计算机辅助技术用于语言的翻译研究,应该同样可以起到很大的辅助作用,这就是所谓的“计算机辅助翻译”它集机器记忆式翻译、语法分析式翻译和人际交互式翻译为一体,把翻译过程中机械、重复、琐碎的工作交给计算机来完成这样,翻译者只需将精力集中在创造性的思考上,有利于工作效率的提高。

机器翻译研究归根结底是一个知识处理问题,它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识随着因特网的普及与发展,机器翻译的应用前景十分广阔作为人类探索自己智能和操作知识的机制的窗口,机器翻译的研究与应用将更加诱人国际上有关专家分析认为机器翻译要想达到类似人工翻译一样的流畅程度,至少还要经历15年时间的持续研究,但在人类对语言研究还没有清楚“人脑是如何进行语言的模糊识别和判断”的情况下,机器翻译要想达到100%的准确率是不可能的。

五、人工智能思想的应用:在家里寻找外星人

人工智能的基本思想已经在许多领域中得到了应用,“在家里寻找外星人”(SETI@home)项目就是利用人工智能的神经网络和网格计算思想的一个成功案例SETI@home是SearchforExtraTerrestrialIntelligenceatHome的缩写,意为:在家里寻找外星文明该项目由美国行星学会和美国加州大学伯克利分校于1999年5月17日开始启动,它利用特定的PC机屏幕保护程序,来调用全球上网的个人计算机的闲置能力,分析世界上最大的射电望远镜获得的数据,帮助科学家探索外星生物其计算模式的实质就是网格计算:

SETI@home项目的大致流程是这样的:

1.政府或者研究部门将一项需要巨大运算量的任务以程序和数据的形式提交给服务器

2.服务器将数据和程序代码分成更小的部分,也称“子任务”

3.在志愿者的PC机上安装一种特殊的客户程序(事实上是一个屏幕保护程序),它能自动同服务器联络,自动下载和处理子任务

4.子任务处理完后的结果被送回服务器然后,客户程序下载新的子任务,继续处理

5.一旦所有的子任务处理完毕,服务器就将各种结果汇总,生成最后的报告,并把最终结果发回提交人