中医药数据挖掘系统的实践与应用

时间:2022-04-22 08:24:44

中医药数据挖掘系统的实践与应用

摘要:为推动中医药研究的发展,并为中医药数据应用提供有效的挖掘技术支持,本文设计了基于TCMMiner数据库的中医药数据挖掘系统。在总体思路、总体设计、功能设计、工作流程设计以及完善设计等方面,对系统设计进行细致的阐述。在文本处理、频次统计、关键词关联分析以及作者高频组合分析等方面应用该系统,结果表明本文设计的中医药数据挖掘系统为中医药数据挖掘和应用提供了非常有效的工具。

关键词:中医药数据挖掘系统;TCMMiner数据库;关键词关联分析;作者高频组合分析

大数据技术在中医药领域的应用,为中医药研究、疾病诊治等方面提供了技术支撑[1]。由于中医药数据具有不规范性、小样本、宽数据以及信息复杂等特点,因此中医药数据挖掘与传统“数据挖掘”存在较大差别[1]。基于中医药数据特征的分析,以突破中医药数据挖掘的局限性为重点,设计以TCMMiner数据库为基础的中医药数据挖掘系统。实验结果表明,本文设计的数据挖掘系统能够有效帮助系统使用人员进行数据拆分与合并及数据挖掘等工作,在有效节约数据提取与应用时间的基础上,为中医药研究工作提供了更有效的参考。

1中医药数据挖掘系统的构建

1.1总体思路

中医药数据挖掘系统的构建需要以技术适应性为基本点,以中医药诊疗思路和特征分析为重点,确保数据挖掘系统具有高度辩证性为前提,构建多维度、多视角的数据挖掘系统[2]。

1.2系统总体设计

基于设计的总体思路,以充分发挥系统的价值为目标,设计包括页面、应用、功能服务、技术以及数据管理5大层次的数据挖掘系统[3],如表1所示。

1.3系统功能设计

数据挖掘系统设计通常应用关联规则、分类、聚类等方法,包括数据挖掘、数据分析和数据应用等内容,可以实现数据信息的精准选择、变换、评估等[4]。为有效设计与实现中医药数据挖掘系统,结合中医药数据的特点,设计了10个功能模块,包括数据拆分与合并、频次统计、矩阵转换数据文本转换以及关联规则挖掘等[5-6],具体如图1所示。数据拆分与合并方面,中医药的处方数据信息较多,且数据信息的呈现方式具有特殊性,需要数据挖掘系统对处方数据信息进行有效挖掘、统计及修正。结合表1的内容可知,本系统设计应用TCMMiner数据库,该数据库可以实现数据的拆分与合并,有利于中医药处方数据信息的进一步统计和处理。频次统计方面,频次统计主要是对数据进行统计分析。由于中药处方数据信息具有特殊性,通常存在证候的正异名统计问题,因此本次系统设计时,在TCMMiner数据库中录入中药、证候等中医药术语内容,以提高术语及中医药处方信息的规范频次,确保数据挖掘具有精准性和全面性。为提高频次统计过程中的证候正异名统计实效,本系统录入了2016年版《医学主题词表(中文)》和2015年版《中华人民共和国药典》等术语词汇包,为提高频次统计的规范性和精准性以及数据挖掘的实用性与针对性奠定了坚实基础。文本抽取方面,中医药处方数据信息通常以大段文字的形式存在,难以避免其中存在无效信息,在一定程度上增加了数据挖掘的复杂性。应用TCMMiner数据库,对处方数据信息进行处理分析和提取,在提高文本抽取效率的基础上,为分析处方用药规律奠定了坚实基础。考虑到在实际工作中,文本格式无法被数据挖掘系统直接提取和分析,需要进行文本格式转换,本系统设计应用了中医药ETL模块,对文本格式进行多格式的转化。矩阵转换方面,数据挖掘软件计算功能的设计与实现需要应用TCMMiner数据库技术,对数据的形式、格式等进行转换,以实现用户与常规的数据挖掘软件联合使用。另外,本系统中设计了数据矩阵模块,该模块可以提供逆矩阵计算方式,能够完成符号分隔数据的转换与计算,为数据挖掘及应用提供了极大便利。关联规则挖掘方面,关联关系挖掘可以发现数据信息之间的隐藏关系。基于数据挖掘算法,设置最小支持度、最小置信度来提高数据关联性的分析效率,可以更有效地获取数据信息的规律,并实现相关信息的组配关系分析。聚类挖掘方面,本系统设计将聚类挖掘确定为以相似性为标准的个体分类方式。应用k-means算法,设置k值,以便找到聚类个数。贝叶斯处理方面,在已知的样本中应用贝叶斯分类方法,根据样本类型数据模型,预测未知类型样本的特定概率,可以在计算中药、症候等要素间概率关系方面发挥重要作用。除上述内容外,本研究以强化中医药的传播与交流为目标,在系统设计过程中设计并应用了专业文章翻译模块。由于翻译软件存在中医药信息翻译精度不高等问题,所以本研究选择在系统中录入《医学主题词表(中文)》,并以此为翻译标准,对中医药术语等内容进行精准翻译。

1.4系统工作流程设计

在设计挖掘系统的工作流程方面,考虑到中医药数据的特征以及数据挖掘与应用需求,在文件上传、参数配置、结果展示和结果下载等4个方面进行流程设计。文件上传是系统用户将文件上传到系统数据库中,系统进行文件数据的展示;参数配置是基于不同功能服务的应用,对不同数据参数设置、参数应用需求进行分析,实现以用户服务为目标的参数设置;结果展示是系统用户可以根据实际需求,在页面中选取和查看所需参数结果;结果下载是系统用户可以将参数结果下载到本地使用。

1.5系统完善设计

为保证系统具有良好的应用价值,在本系统设计的过程中进行了缺失值的处理和噪音数据的处理。缺失值处理方面,在中医药处方信息提取和应用过程中,有可能出现数据缺失的问题,例如中医药临床辅助决策中各类中药的用量等数据确实难以为中医药研究、药物组合的应用提供有力依据和参考。为了应对此情况,以中医药数据特征分析为基础,以数据决策目标为重点,应用缺失值填充算法补充和完善缺失的数据信息。例如,在本系统设计中,应用平均值填充法对缺失的数值类数据进行填充和完善。噪声数据处理方面,本系统设计主要是针对一词多义、词义交叉等噪声数据进行处理。噪声数据处理方法主要是以《中医诊断术语标准》《中华人民共和国药典》《中药学》等为依据和标准,对噪声数据进行规范、删除等处理,确保数据挖掘和应用的精确性。

2中医药数据挖掘系统实践应用

2.1文本处理

以搜索“针灸疗法”为例,在系统中搜索该文本内容,以2018—2021年为时间期限,搜索到460条记录。搜索完成后,系统用户可以根据实际需求选择文本进行下载,下载格式为.txt,随后应用TCMMiner,将下载的文本格式转换为Excel格式。

2.2频次统计

本系统可以通过TCMMiner将数据转换为单独词语,并对词语及相关词汇的使用频次进行统计分析,如中医药数据的录入时间、中医药词汇来源、所搜文本的关联内容等。

2.3关键词关联分析

通过关键词的关联分析,可以更加充分的了解某个领域的研究热点,对中医药研究发展等具有积极意义。基于此目标分析,在中医药数据挖掘系统中,应用统计产品与服务解决方案(StatisticalProductandServiceSolutions,SPSS)层次聚类法,实现了关键词的聚类分析,并通过TCMMiner的应用,实现关键词词列向数据矩阵的转换。以“白术、半夏”为例,导入需要进行数据挖掘的源数据,在病名处选择“咳嗽”并将支持度和置信度选择为0.5。随后进行分析,得出表2结果。由表2可知,数据挖掘系统中,搜索到关于治疗“咳嗽”的药物组合中,白术→半夏,半夏→白术,薄荷、白术→半夏,薄荷、半夏→白术的置信度皆为100%;白术→半夏、半夏→白术的支持度为79.23%。由此分析可知,白术、半夏为治疗“咳嗽”的常用药,且使用频率较高。

2.4作者高频组合分析

应用TCMMiner的关联规则,对高频组合内容进行挖掘,可以找出高频组合内容,为数据应用情况及中医药研究项目情况的分析提供有力支持,具体如表3所示。通过实践应用分析表明,本文设计的中医药数据挖掘系统具有较高的应用价值。由于中医药数据信息的更新速度较快,且原有中医药词表无须更新,在使用时间的积累下,系统中的数据规模不断扩大,数据挖掘算法逐渐增多。为保证系统应用有效性,需要不断优化和增强系统功能。本系统设计应用了TCMMiner数据库,不仅可以综合应用中医药数据挖掘功能服务模块,还可以对服务模块进行优化和完善,为系统有效应用及系统数据更新提供更有力的技术支持。

3结语

中医药数据挖掘系统的设计与应用对中医药研究等产生重要影响。本文综合中医药数据特征的分析,设计了基于TCMMiner数据库的中医药数据挖掘系统。以实践应用为视角,在文本处理、频次统计、关键词关联分析以及作者高频组合分析这4个方面验证了系统应用的有效性。结果表明,基于TCMMiner数据库的中医药数据挖掘系统为中医药数据挖掘及应用提供了有力支撑和有效工具。综合而言,本次系统设计应用未从社会效益、数据更新视角对系统进行优化设计和研究,需要在后续研究中进行深度的分析和探索,以丰富研究成果,从而为中医药数据挖掘及中医药研究等工作提供更有力的系统技术支持。

参考文献

[1]许雪莲,吴昆仑.数据挖掘技术在中医药研究中的应用[J].河南中医,2020,40(11):1633-1637.

[2]王金虹,马斌,李艳彦.基于相关系数与关联规则分析的中医药防治新型冠状病毒肺炎用药规律研究[J].中国中医药图书情报杂志,2022,46(1):1-5.

[3]陈洪雁,张大伟,万俊伟,等.基于大数据的空间目标监测数据管理系统设计与应用[J].航天电子对抗,2020,36(4):11-14.

[4]狄宏林,吴瑕,周勇.聚类算法与关联规则在智慧校园数据分析中的创新应用与研究[J].贵阳学院学报(自然科学版),2021,16(4):16-19.

[5]伍嘉仪,翁衡,郑玮琳,等.基于中医药大数据智能处理与知识服务系统探析经行头痛临床特征与方药规律[J].广州中医药大学学报,2020,37(9):1808-1815.

[6]张静美,陈晓阳,秦庆广,等.基于数据挖掘与网络药理学探讨徐学功治疗冠心病PCI术后中药使用规律与作用机制[J].中医药导报,2021,27(8):148-153.

作者:张晨 单位:中国中医科学院眼科医院