护理学免费资源实现研究

时间:2022-04-29 05:39:16

护理学免费资源实现研究

1护理学免费资源知识元组织的必要性

根据是否收费,Web上护理学电子资源分为收费资源和免费资源两种。收费资源如中国知网(CNKI)、万方等电子数据库,是护理学工作者获取知识的主要途径。由于其结构严谨,内容准确,为其知识组织方式由信息元过度至知识元提供了良好的基础,如CNKI数据库已经提供了知识元检索途径。在收费电子资源发展的同时,免费资源的发展也是日新月异,主要包括三类:①基于电子图书、期刊的开源资源,如道客巴巴、百度文库等。从目前资源的种类和数量上分析,开源资源的电子图书、期刊、博硕论文已经与收费数据库大体相当;②护理学电子论坛如丁香园、天使之城等。电子论坛向所有护理学工作者敞开了大门,是广大护理学工作者交流工作经验、思想体会的主要阵地,在资源种类和内容上与电子数据库形成了良好互补;③护理学百科知识网站,如百度百科、搜搜百科等。百科类网站的诞生为广大互联网用户提供了新的信息获取途径,其发展理念强调用户的参与和奉献精神,内容整体详实准确。可见从资源的种类和数量上分析,护理学收费资源仅是免费资源的一个子集。然而,在知识的组织方式上后者与收费资源远远不能同日而语,整体处于无组织的状态。这是由于免费资源分布过于广泛,所有的内容没有统一的结构格式要求,尤其是电子论坛信息的没有审核的过程,不规范用语非常常见等等,在这种条件下,显然信息元不可能成为免费资源的组织方式。为了合理组织这些资源,知识元组织方式最佳的选择。

2护理学知识元的标引范围

2.1限定开源资源的标引范围

目前国内大型综合类开源资源网站主要以道客巴巴、百度文库和豆丁网为代表,笔者在3月19日以“护理学”为检索词向这三个数据库的默认检索方式进行检索,分别得到956149、901090和401445个检索结果,由于以上三者均是以电子期刊、电子图书、学术论文、电子课件等作为资源收集的内容,从资源数量可以简单的判断道客巴巴的护理学资源最为丰富。因此,将开源资源的收集范围限定在道客巴巴中,其他两个数据库没有必要做重复的分析统计。

2.2限定电子论坛的标引范围

包括护理学在内,各种电子论坛的整体资源质量与论坛服务时间往往成正比,如丁香园论坛始建于2000年7月23日,经过多年的发展,吸引了大量高素质医学工作者的关注,内容也较为准确,信息每天都在动态更新;相比之下大量小的医学论坛不具有较强的吸引力,内容的整体质量较低,而且即使对其进行标引,这些论坛未来也非常可能被市场所淘汰,无法找到标引所对应的知识内容,显然对这样的网站内容进行深入的知识挖掘几乎没有意义。因此有必要将论坛的范围限制在2年以上,以此保充分提高对电子论坛知识元标引的质量和工作效率。

2.3限定百科全书类网站的标引范围

主流的百科全书类网站主要有百度百科、搜搜百科、360百科、谷歌百科等等,通过名字即可发现这些网站均有一个共同的特点,即先有搜索引擎,后有百科,每个所有引擎都会首要的引用自身的百科知识,两者相互促进发展。以上百科类网站的知识内容几乎均涵盖所有的学科范围,种类和内容没有明显差别,但由于百度搜索引擎是市场占有率最大,在2012年11月占有率高达72.84%[2],可以说百度已经成为多数人检索信息的习惯。相应的使百度百科自然成为百科类知识点击率最高的网站,因此将范围限定在百度百科中。

3知识元标引过程

3.1护理学免费资源的分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,将没有间隔符中文词语变为机器可以理解的词语。常用的分词方法可分为三大类:基于字符串匹配的分词法、基于理解的分词方法和基于词频统计的分词方法。基于理解的分词方法模拟了人脑的理解过程,目前还处在试验阶段[3]。前文虽然对护理学免费资源的范围进行了限定,但整体仍然是海量的,为了提高分析效率,保证分词质量,本文设计了一种曲线高效的分词方法。“曲线”表示为首先不直接对免费资源进行分词,而是以CNKI中的期刊数据库、报纸数据库、博硕论文数据库、会议论文等数据库,和读秀电子图书数据库为对象,采用字符串配算法进行分词方法对其内容进行分词。其原因如下:①电子期刊、博硕论文、会议论文等数据库是高端人才交流前沿知识的主要阵地。这决定其内容整体具有极高的含金量,任何新的理论知识、高效的工作方法必然第一时间诞生在其中或必然有所体现,保证了分词结果的全面性;②整体内容经过作者和编辑部多次审阅和校对,几乎没有错别字和奇异词,不需要对词语进行语义理解的过程,保证了分词结果的准确性;三、文献数量范围进一步缩小。笔者利用CNKI总库检索近5年发表的有关护理学方面的文献,检索表达式为:主题=护理(出版年:2009年3月29日—2013年4月29日)进行跨库检索,总计得到313643个检索结果;以护理为检索词,在读秀电子图书中检索得到35859个检索结果,有限的内容具备开展字符串匹配算法的基础。可见收费数据库的特点完全弥补了字符串匹配算法的缺陷。“高效”表现在以此分词结果为基础,将整体分词的结果作为字典,向免费护理学资源采取词频统计分词的方法进行分词,从而省去以往词频统计需要建立字典的复杂过程。分词统计完成后减去中文停用词表的分词,就是最终的分词结果。

3.2护理学免费资源的关键词提取

提取关键词是知识元标引的核心环节,主要有两种方法,分别根据分词的重要性和出现频率作为提取依据。根据护理学各种免费资源自身物理结构的差异,如开源资源和百度百科对内容结构有严格的格式限制,尤其是关键词、摘要是前者必备组成部分,后者虽然没有对结构有如此细化的要求,但其内容的每个段落均有段落标题。可见以上两者在结构上就对分词间的轻重程度即权重进行了表达和说明。因此以各个分词的重要性为依据提取关键词。在提取算法的设计上,作者傅雷在硕士研究生论文中提出了一种基于TFIDF算法的权重改进型算法,即在TFIDF算法上,增加分词的参考权重系数K,权重由标题、摘要、关键词和正文四项组成,权重值分别为2、1.5、3和1。在计算时,被统计的文章所有分词以此为参照物,若某一分词与标题、摘要等项的分词相同,就附以相应的权重值。以此进一步体现出文章结构与分词重要性的对应的关系,将结算结果前10名的分词设为关键词,并经过实践证明较为合理准确[4]。本文在此基础上,对权重系数K进行了如下细化和修改。细化内容为,根据标准格式的论文和图书结构中必有段落小标题,这是对段落或部分内容的总结性归纳,和美国学者P.E.Baxendale统计表明,反映段落主题的句子85%出现在段首,7%出现在段尾为原则[5],按着权重的重要性依次排序为段落小标题分词>段首句分词>段尾句分词。相应的对权重值进行修改为2.5、2和1.5,即正文权重值1不变,新增三项依次以0.5递增。标题、摘要、关键词的权重值依次增加1.5,分别为3.5、3和4.5。若某一分词同时与权重项的多个相同,按最大值赋予权重系数。同样取前10个分词作为关键词。最后在道客巴巴和百度百科中各随即抽取50篇文章,通过自动抽取的关键词与人工抽取的关键词相比较,计算出抽取精度、召回率和Fβ=1值分别为33%、87%和47.8%,较TFIDF权重改进型的算法的值均有所提高,结果较为理想。从电子论坛内容的格式分析,大部门内容由一段话组成,内容较少,甚至在百字以下。有限的内容使其产生分词与其位置几乎没有重要的对应关系,这极大降低了知识元提取的难度。因此,选择计算分词出现频率的方法提取关键词,即依次计算每一个分词的出现频率取其平均值,将出现频率高于平均值的分词提取为关键词。

3.3护理学免费资源关键句的提取

由于关键词虽然可以表达概念,但无法完整的表达语义,从而无法准确的描述文章的知识,也不符合人们惯用的对文章的理解过程,相比之下句子才是表达知识的基本单位。因此,知识元以句子作为基本对象,能够更加合理、准确、方便的描述知识元表述的内容。具体过程如下:首先根据关键词提取的结果,将关键词还原至所在的句子。然后对句子进行分析,判断该句子是否能够完整表达一个知识且不可再分,将符合条件的句子提取为关键句。由于以上过程较为简单,在这里就不再赘述。3.4护理学免费资源知识元标引按着知识元的结构描述关键句就形成了知识元。随着情报等学科对知识元研究的逐步深入,目前已经诞生较为合理的知识元描述框架[6]。

4知识元树型组织

本文设计分类器的思想是根据知识元结构中的内容属性设计的,整体分类器由三级组成:①设置护理学理论知识元与实践知识元分类器,对Web上免费的护理学知识元进行初次分类。通过对护理学知识元内容的特点进行分析,发现以下词语往往与护理学理论知识关系紧密,如分析、浅议、原理、概念、进展等,将以上词语组织构建成为护理学理论知识分类器。以下词语如治疗、作用、效果、调查、步骤、比较、处置等与护理学实践知识的内容相关,由此组成护理学实践知识分类器。②在根据医学广义的内、外、妇、儿的分类,设置二级分类器,如心梗、心绞痛、肾炎等词语组成内科护理学分类器等,同时根据护理学实际的研究和工作需要,增设护理学教学、护理学管理、护理学心里三个分类器[7]。③根据医院科室的和医学教学课程的设置,进一步细化分类器,如将内科护理学分类器细分为心内科护理学分类器、神经内科护理学分类器等[8]。当然,以上分类器的构建是一个非常繁琐的过程,需要护理学权威专家进行仔细论证,受到作者水平能力的制约和篇幅的限制,只是进行简单的框架描述,希望能够起到抛砖引玉的作用。分类器构建完成后,通过对护理学知识元的内容属性与分类器的词语进行比较和分析,采用决策树分类挖掘算法进行分类,将所有的知识元组织起来。

5未来努力方向

5.1对护理学隐性知识进行标引

知识元是显性知识的最小可控单元,也就是说本文是将护理学显性知识作为研究的对象,忽略了隐性知识的标引和组织。其实隐性知识与显性知识相比更为重要,只是由于目前隐性知识的获取和共享还存在许多实质性的问题,如部分隐性知识的显性化存在一定的技术困难,加之缺乏合理的知识保护体系和鼓励方法,限制了隐性知识整体的数量和质量。但近年来基于隐性知识的研究已经成为情报学等学科研究的重点,在一些学科隐性知识共享平台初见雏形[9]。可以以预见不久的将来,隐性知识共享平台将是人们获取知识的崭新途径。当未来护理学隐性知识显性化发展成熟时,有必要将该部分内容进行知识元层面的标引,扩大和丰富护理学知识的标引的范围,将所有的护理学知识高效组织在一起。

5.2构建学习组织

知识元标引有效的解决了信息孤岛的问题,是目前知识组织的最佳方法,但并没有将知识的生产者有效联系在一起,知识生产之间就像在独立的包房中进行工作一样,缺乏面对面的交流和协作。因此,本文计划当护理学免费知识元标引逐渐完善成熟时,通过对用户的检索行为进行分析,动态的将查询内容向同或相近的护理学工作者组成学习组织[10],尤其是将以高校、科研院所为主的护理学研究人员和以医院为主的护理学临床工作人员组织在一起,为理论知识和实践知识的相互转化创造良好条件。

作者:王春利工作单位:吉林医药学院附属医院护理部