汉字识别范文10篇

时间:2023-03-31 17:31:49

汉字识别

汉字识别范文篇1

1.1字形属性对汉字识别的影响

受西方已有研究理论的影响,长期以来关于汉字识别的加工单元也有两种观点:一是认为识别汉字要先对笔画、部件等汉字的字形特征进行分析,然后将分析的结果整合从而识别整字。那么,在汉字识别过程中就会存在笔画数效应、部件数效应等。二是认为识别汉字直接以整字为单元,强调字形知觉的整体性。到80年代末90年代初,已有许多研究表明在汉字的视觉识别过程中,要经过特征分析[1]。近10年以来,汉字识别的特征分析观点得到了更多的研究结果的验证:首先是采用不同的方法证实了笔画数效应的存在。如喻柏林等[2]采用命名识别法,发现在2至15画的范围内,汉字的命名反应时随笔画数的增加呈台阶状上升趋势;张武田等[3]发现在高频字当中存在笔画数效应;彭聃龄等[4]采用命名作业和真假字判断作业也发现有显著的笔画数效应。其次是发现部件因素对汉字识别的影响。有研究发现了启动部件对合体汉字识别的影响[5],提示汉字的部件作为单个结构反复认读,有可能成为汉字识别的加工单元之一,而且比笔画更符合简约的原则。张武田等[3]、彭聃龄等[4]的研究结果进一步证实了部件数效应的存在。

不仅部件的数量影响汉字识别,研究证明部件频率(即在合体汉字中出现的次数)也是影响汉字识别的因素之一,但其作用受到整字频率和结构类型的影响[6]。黎红等[7]的研究也发现,在速示条件下,部件频率影响汉字识别的准确性,而且部件频率对汉字识别的作用模式与刺激字及其组成部分的空间排列有关。

在汉字的构造部件之间还存在不同的组合以及组合频率。采用整字识别和整合识别等实验任务的研究表明,部件组合与部件有类似的频率效应,而且部件组合频率的作用也受到正字频率和结构类型的影响[8]。第三是证实了结构方式效应的存在。喻柏林、冯玲等[9]和喻柏林、曹河圻[10]在不限时呈现整字条件下,分别令被试对双部件和单部件做命名反应,结果一致发现存在结构方式效应,命名上下字的反应时要明显长于左右字的部件。陈传锋、黄希庭[11]进一步研究发现了结构对称性效应,识别结构对称性汉字的加工明显快于非对称性汉字,而且这种结构对称性效应在低频字中起作用,而在高频字当中不起显著作用;在多笔画字中起作用,在少笔画字中不起显著作用。

独体字直接由笔画构成,不存在部件这一结构层次,而且许多独体字本身就是构成合体字的部件。那么在对独体字进行认知加工时,是必须经过特征分析还是直接以整字为单元?肖崇好等人[12]将独体字中除去点、钩、提、短的横竖撇捺以外的其它笔画作为该汉字的框架笔画,把每个独体字的结构分为框架结构和非框架结构。研究结果发现,在速示条件下,独体汉字的识别从识别笔画开始,经提取框架结构后,才完成识别过程。与“框架结构”的观点相类似,沈模卫,朱祖祥[13,14]研究结果也表明,在含有十或口的独体汉字中,十与口是该类汉字的突出视觉特征的理论。这些结果表明对独体字的加工也经过特征分析。

但是特征分析理论并不能完全解释汉字识别过程中的各种现象。如笔画、部件和字频的关系还没有研究清楚,有的研究发现存在笔画或部件和字频的交互作用[3,4],有的研究则没有发现[2,15]。有的研究还发现,整字频率对于局部知觉(部件识别)有制约作用[6]。仅用整字加工观点也很难加以解释。因此喻柏林等提出了汉字识别的平行加工假说[2],认为被试识别每个单字经历着两类平行加工的过程:一类是识别整字的加工;另一类是笔画及其组合的加工。笔画及其组合的加工与整字加工发生分享有限注意(或知觉)资源的竞争。高频字被整字识别而低频字要经过特征识别。因而笔画数效应只存在于低频字当中。这种新观点不仅有很好的解释性,而且得到了一些研究结果的支持[16,17]。但是这种假设本身还有待于进一步的丰富和完善。

1.2语音在汉字识别中的作用

汉字是表意文字,其书写形式不能直接、透明地表征语音。在近十年来有关汉语字词识别过程中的语音中介问题依旧是争论的焦点,即在字词视觉识别中,是否必须通过音码为中介来实现对词义的提取?从理论上来说,语义的激活可以有两条途径:一是由视觉输入激活心理词典中的字形表征后,直接激活语义表征;二是以语音为中介,字形表征的激活首先传输到语音表征上,然后激活语义表征。与此对应,目前对语音中介问题主要有两种观点:一是强语音作用观,认为在视觉汉语字词加工中,语音激活部件是自动的,而且在时间上也特别早,由字形到字义需要经过语音为中介。另一种观点是强字形作用观,认为汉语字词加工中的语义激活过程不同于拼音文字,主要由字形—语义之间的直接激活传输(或计算)决定,语音信息在视觉字词加工中虽然自动激活,但对语义激活作用很小[18]。两种观点各自得到了一些研究结果的支持:

谭力海、彭聃龄[19]采用启动条件下的词汇判断法,发现启动词中的多音字不但会促进被试对和其适当读音相近的目标字的反应,而且会促进被试对和其不适当读音相近的目标字的反应,表明熟悉的中文字词的语音特征在到达心理词典之前就已经得到了激活。张武田等[20]采用启动掩蔽(书写)法也发现,形似音同字的启动效果早于语义的启动效应,因此认为形似音同字的激活可以看作是前词汇的。

而金志成等[21]分别进行了音同、形似、义近和无关四种条件下的目标字的启动识别和倒掩蔽识别的研究,结果表明对目标字尚未完全加工时,形似倒掩蔽促进对目标字的进一步加工,说明形码在到达心理词典之前就被激活;在汉字视觉识别中字音的作用确实存在,但是因为音同倒掩蔽效果不显著,表明音码不是在到达心理词典之前被激活,因而不存在语音转录现象。林仲贤等[22]采用汉字词形、音、义特征匹配任务,发现无论是速示还是非速示条件下,在汉字词的形、音、义特征中,都存在着编码加工深度的差异,音码的信息提取是最难的,反应时最长,而词形、词义信息的提取则相对容易。这个结果说明,在他们的实验条件下,是不可能有语音转录的。

对语音、字形在汉字阅读中的作用的发展变化的研究发现,初学阅读者更依赖语音,而熟练阅读者更依赖字形[23],但是周晓林等[24]发现即使对年幼儿童来说,在强调语音而非语义的实验任务中,语义激活的强度和时间进程也不弱于语音激活。并且认为这是由于字形到字音到语义以及字形直接到字义的计算速率(computationalefficiency)。由于汉字的形音对应的任意性,降低了字形到字音的计算速率或激活传输速度。而且由于汉字中同音字很多,一个激活的语音表征对应着许多语义激活模式,从语音激活难以得到确切的语义。另一方面,汉字的字形(特别是形旁),能够提供大量的语义信息,直接从字形到语义是一条迅速有效的途径。

林泳海、张必隐[25]研究了中文音韵在词汇通达中的作用。在词汇判断任务中,单字词的音韵没有启动效果,说明中文视觉认知是直通语义的,而单字词在命名任务中以及同韵双字词在词汇判断任务中存在启动效应,结果表明音韵在词汇通达中存在一定的作用,表明在中文阅读中语音的通路是存在的,尽管这条通路较弱。研究者进一步认为,中文词的认知可以说两条通路都存在。但是,尽管这个研究说明了语音通路的存在,却并没有说明语音和语义激活的先后顺序。

综合以上研究可以看出,汉字识别有自动的语音激活作用,但是这种作用可表现为程度的不同,它取决于识别字的熟练程度、任务要求和语境的作用条件等[20],因此每一个研究只是揭示出某一个条件下的规律。

1.3语义在汉字识别中的作用

汉字识别的目的是提取汉字的意义。而字义提取和其存贮方式有关。在心理词典中,每一个词条都包含了与这个词相应的语音、形状和意义。在汉字心理词典中,语义激活并不封闭在语义系统内,而会立即自动扩散到相应语音和字形表征。启动词不仅对其语义相关字有启动效应,而且对相关词同音词、形似同音单字词的命名也有显著促进作用;对与相关词形似音不同的词有抑制作用[26]。

朱晓平[27]则从另一个角度进行了研究。他将语境划分为相关、无关和中性三种,还将语境限制强度分为高、低两种,目标字词的笔画数分为多、少两组。采用在句子语境中的汉字命名作业研究了语境效应的作用点。实验一以大学生为被试,发现三个变量的主效应均极其显著,语境与词频的交互作用也显著。在高限制语境中,语境与词频有限制交互作用,而在低限制语境中,两者呈相加关系。说明高限制语境信息作用在词汇提取阶段,低限制语境信息作用在后词汇处理阶段。实验二以小学四年级学生为被试,发现在高、低两种限制条件下,语境和词频的交互作用均存在。这可能是因为小学生加工单字(词)的速度较慢。实验三在降低了目标字(词)呈现亮度的条件下重复实验一,得到仅在高限制语境下语境类型与笔画数之间存在明显交互作用。说明在字词的视觉编码由于亮度而变慢时,语境效应可能发生在视觉编码阶段。从三个实验的总结果来看,语境确实能够影响词汇的加工,而且语境效应的作用点是灵活的。

采用ERP方法的研究发现,具体字联想引起的PSW(正慢波)波幅和P800潜伏期分别大于抽象联想字引起的PSW波幅和P800潜伏期,从而提示具体字联想和抽象字联想的脑机制有所不同[28]。但是到底有何不同,尚待进一步研究。其研究结果还表明,汉字的形音义加工之间存在再加工的反复过程,其关系错综复杂,难以分割。证实了以前有关研究的结果。

1.4汉字识别与大脑

由于汉字本身的独特性,识别汉字时,是否还像识别拼音文字那样,左半球占优势?高定国等[29]曾对汉字认知与大脑两半球之间的关系进行了回顾,基本上有两种观点:一是认为汉字认知主要是左半球的功能,另一是认为汉字是大脑左右半球并用的“复脑文字”。高定国等人倾向于后者,后者也得到有关研究结果的支持:郭可教、杨奇志[30]以大学生和小学生为被试,采用同一的汉字对刺激材料,让被试进行字形、字音、字义的异同判断,结果发现,字形、字音和字义的认知均与大脑两个半球有关,显示出汉字认知的复脑效应。用汉字—图形意义整合判断的实验进一步验证了字义认知的复脑效应。张武田等人[31]研究结果也显示,当时汉字字音或字义进行匹配时,两半球之间的加工优于半球内的加工,即两侧大脑半球协同活动要比单侧半球加工效果好。

近年来脑成像技术开始应用于与汉语字词识别有关的领域,使研究者可以对汉语字词识别的脑内加工过程直接进行研究,不再仅仅通过观察行为来推测大脑中的活动。脑成像技术包括事件相关电位(eventrelatedpotential,ERP)、正电子发射断层扫描(positronemissiontomography,PET)、功能磁共振成像(functionalmagmneticresomanceimaging,FMRI)等。目前我国运用ERP方法对汉字识别进行研究的较多,fMRI的运用开始起步。汉语单音节较西文丰富,有利于用ERP方法进行研究。魏景汉、匡培梓等采用汉字形音义正启动和词义联想方法,对汉字的形音义进行了全视野和半视野系统研究,发现汉字认知始于100—160ms之间,大脑两半球在汉字认知过程中存在着差异,在约200—270ms之间左脑加工占优势;左脑可能需要右脑传来必要的信息后才开始加工,但是左脑开始加工后即占优势[32]。这个结果与行为研究[30]所得出的结论并不一致。魏景汉、罗跃嘉采用提高非注意纯度的跨通路延迟反应实验模式,对汉字形音识别的跨通路注意ERP的研究[33]结果表明,听觉N1最大峰均位于额中央部,视觉N1最大峰位于两侧枕部与颞后部,具有明显的通路差异性。近一步的研究[34]采用汉字形音判断作业,又发现N1头皮分布表现出明显的通路间差异:听觉N1最大波峰均位于中央部,视觉N1分布于两侧枕部,这一结果与非语言实验结果不同,与英文实验结果也不同。从而提示:对汉字字形(视觉)的最初加工可能发生在视觉初级中枢(两侧枕部),而对汉字字音(听觉)的初步加工可能是在整合中枢(中央部)而不在听觉初级中枢(颞叶)。

2评论与展望

从以上综述来看,近十年来汉字识别研究取得了很大进展:研究中更多地考虑到汉字本身的特点,而不仅仅是将汉字作为拼音文字的对比材料来进行研究;提出了针对汉字特点的成分和整字平行加工说;研究更加细化,如在字形加工中,注意到部件及部件频率、部件组合频率等因素的作用;采用新技术进行研究,如脑成像技术,眼动技术,增加了对汉字识别研究的角度、途径;计算机对刺激的呈现、结果的记录也更加精确。

但是目前研究中尚存在一些问题:在各个研究中所用的作业任务不同,由此反映的字词识别的内部加工过程也有不同,如命名作业,偏重语音加工,而范畴判断作业则偏重语义的加工;各个研究中所用的实验材料也不一样,如实验用字的笔画数、部件数、结构方式、字频、是否形声字、字义、单字还是词等不尽相同。而且由于汉字本身各种属性的复杂性,看起来一样的材料,各研究者使用的很可能有很大出入。如对字频的确定,有的研究者按照三千常用字中的Ⅰ、Ⅱ、Ⅲ级来划分,有的则按照各种字典中给出的字频来确定;对部件的划分,有的研究采用一级部件,有的研究者划分到末级部件。这些原因使得许多研究所得结果只适用于其具体实验条件下,不能扩大化,很可能是许多研究结论相差如此之大的原因;多以成人为被试;目前运用新技术的汉字识别研究还是以描述性研究为多,对行为研究中亟待解决的问题,如字形加工单元、语音转录等争论还不能予以解答。

在今后的研究中,我国汉字识别研究应继续重视加强对实验任务、实验材料的选择。要选择对欲探查的内部心理过程敏感的实验任务和材料,各个研究选择实验材料的标准尽量统一,增强实验结果的可比性;加强汉字识别和大脑功能关系的研究。目前脑功能的研究是国际热点,学习汉字能否促进大脑功能也是人们关心的问题;可以从儿童发展的角度进行研究,从而将儿童的汉字识别特点与成人的汉字识别特点进行比较,并可以将研究结果运用到汉字教学之中。

【参考文献】

[1]朱晓平.汉语字词识别的现状.心理科学,1992,(1):40—45.

[2]喻柏林,曹河圻.汉字识别中的笔画数效应新探——兼论字频效应.心理学报,1992,24(2):120—126.

[3]张武田,冯玲.关于汉字识别加工单位的研究.心理学报,1992,24(4):379—385。

[4]彭聃龄,王春茂.汉字加工的基本单元:来自笔画数效应和部件效应的研究.心理学报,1997,29(1):8—15.

[5]沈模卫,朱祖祥.部件启动对合体汉字识别的影响.心理科学,1997,20(3):206—211.

[6]韩布新.汉字识别中部件的频率效应.心理科学,1998,21(3):193—195.

[7]黎红,陈煊之.汉字识别中的部件加工:错觉性结合实验的证据.第八届全国心理学学术会议文摘选集,1997.157—158.

[8]韩布新.汉字识别中部件组合的频率效应.心理学报,1996,28(3):232—237.

[9]喻柏林,冯玲等.汉字的视知觉——知觉任务效应和汉字的属性效应.心理学,1990,22(2):141—147.

[10]喻柏林,曹河圻等.汉字形码和音码的整体性对部件识别的影响.心理学报,1990,22(3):232—239.

[11]陈传锋,黄希庭.结构对称性汉字视觉识别特定的实验研究.心理学报,1999,(31)2:154—161.

[12]肖崇好,黄希庭.汉字独体字识别中的框架结构效应.心理科学,1998,21(3):221—225.

[13]沈模卫,朱祖祥.整体汉字字形识别过程探索.应用心理学,1995,1(2):43—48.

[14]沈模卫,朱祖祥.独体汉字的字形相似性研究.心理科学,1997,20(5):401—405.

汉字识别范文篇2

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别范文篇3

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应

汉字识别范文篇4

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别范文篇5

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值

汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。公务员之家

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

汉字识别范文篇6

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

汉字识别范文篇7

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别范文篇8

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值

汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

汉字识别范文篇9

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。

汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式

汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:

(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。

这种利用方式的优点主要有:

1方便用户,可减少信息利用过程中的重复劳动;

2不给档案人员增加建库的工作负担;

3节省建库所需的经费开支。其缺点主要有:

1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;

2存在对同一档案内容重复进行扫描和汉字识别的可能性。

(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。

(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。

这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。

(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:

1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

其缺点主要有:

1建立文本数据库的工作量较大。

2不能满足用户阅读档案原件的需求。

3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

(五)输入目录并保存图像。

(六)输入目录、建立文本数据库。

(七)保存图像、建立文本件数据。

(八)输入目录、保存图像并建立文本数据库。

这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。

汉字识别范文篇10

甲骨文的波纹、金文的涟漪、篆书的漩涡、隶书的浪花……沿路讲述着仓颉造字的传说,传颂着中华民族博大精深、源远流长的文明。

汉字起源于中原,但汉字没有国界边陲。在历史上,越南、朝鲜和日本都曾经用汉字记录他们的语言。越南的本国文字——字喃,是以汉字为基础创制出来的;韩国至今使用的还是汉字和韩字(即谚文)的混合体文字;已在世界占据重要地位的日本文字目前仍保留有1945个简体汉字。将汉文化和汉字象种子一样撒向欧洲、美洲、非洲等世界各地的,其功绩莫过于张骞两通西域、唐朝“对外开放”,以及郑和七下西洋。

国兴则汉字热,国衰则汉字冷。新中国成立后,汉字饱尝“世态炎凉”,才又开始活跃起来。进入二十一世纪,中国日益强盛,经济实力排名世界第三,综合国力排名世界第四,汉文化和汉字也随之风靡世界。据国家汉办主任许琳介绍,到目前,全世界已有81个国家建立了256所孔子学院和58所孔子课堂。世界著名大学中有44所大学建立了孔子学院。此外,还有40多个国家150多个学校和机构已经提出申请设立孔子学院,到2010年孔子学院将多达500所。同时有109个国家、3000多所高等学校开设了汉语课程。全世界学习汉语的人数,已经超过了4000万。美国3年前只有200所学校开汉语课,到现在已经发展到1000多所,并提出了到2015年5%的高中生要学汉语的目标。作为英语发源地的英国,几乎所有的大学都或多或少地开设了汉语课;开设汉语课程的中小学数量,已从2002年的57所增加到目前的近500所。

随着南极长城站、中山站、昆仑站和北极黄河站等科学考察站的相继建立,汉字便同五星红旗一起在冰天雪地,荒无人烟的极地落户。从此,地球的每片土地上都生长着汉字。

活字印刷让汉字广泛传播。但汉字在科技世界的游刃有余,则是在新中国以后,尤其是改革开放的三十多年。1975年国家科技发展规划748工程的启动,推动和产生了我们今天使用的汉字操作系统、汉字应用软件和各种汉字输入输出设备,彻底扫除了“中文不适于信息处理”的障碍。从1981年汉字激光照排系统样机研制成功到后来的广泛使用,我国的印刷出版业告别“铅与火”、进入“光与电”时代,汉字活力与日俱增。随着汉字操作系统、汉字编辑排版系统、汉字识别系统、手写汉字输入系统、机器翻译系统的不断创新和换代,汉字在计算机的王国里进出自由,没有禁区。

遨游太空,是汉字不懈的追求和梦想。“中华”星、北京星、张衡星、沈括星、钱学森星、袁隆平星,一颗颗行星以中国的地名和人名命名,让汉字借助天文学在茫茫宇宙中熠熠生辉。