中医药大数据应用核心问题分析

时间:2022-05-22 11:44:34

中医药大数据应用核心问题分析

中医药大数据应用的最终目标是高效保存传承名老中医经验,提高中医诊疗智能化水平。笔者认为,中医药大数据应用是以临床真实世界医疗为源,收集各医院平台及古籍文献的中医诊疗数据,利用适用中医特点的数据挖掘方法,挖掘出能够指导临床应用的医疗思路或方法,如保存与共享名老中医经验、中医临床经验智能化搜索、中医智能化诊疗、中医真实世界疗效评价及诊疗方案优化等,最终得以提升中医药疗效水平。本文从中医药诊疗数据的收集、数字化、数据挖掘方法及数理模型等方面论述,以期为建立相关关键技术提出思路和可解决方案。

1多源数据整合是中医药大数据利用的前提

中医药大数据应包括中医古籍专著、文献期刊、名老中医的医案专著,医院保存的病历、社区健康档案、可穿戴设备数据及天文、地理数据等等。这些数据散在于不同空间位置,收集和整合是一个艰巨而漫长的过程,必须由点及面,从纵到横逐渐融合积累。多种来源的资料汇总非人力所及,必须依赖电脑技术。其中文本挖掘、文本搜索及网络爬虫技术是必备的关键技术。文本挖掘是指抽取有效、有用、可理解、散在于文本文件中的有价值知识并利用这些知识更好地组织信息的过程[1];文本检索是指根据文本内容,如关键字、语义等对文本集合进行检索、分类、过滤[2];网络爬虫是对网络页面上的资源进行定向下载的技术[3]。通过上述技术的综合应用,可以达到整合资源数据的目的。

2中医词库标准化是中医药大数据利用的基础

2.1建立标准化中医分词词库。中文文本的计算机处理首先是将字读入计算机内,计算机只认识字不认识词,要想让计算机认识词,必须经过一系列的处理,这个过程叫作中文分词。中文分词依赖于关键文件———中文词库。中文词库有通用版本和专业版本,以常用通用版本jieba分词(结巴分词)为例,里边有近35万个中文词,结巴词库中除常用词外,也会包括一部分专业词汇,但难以满足专业需求,各专业需要专门构建专业词库。目前,中医词库尚未发现有影响力的专业中文词库,急需建立并完善。其实,构建专业词库并不困难,技术上已经普及,其原理是让计算机读取大量中医药辞典及文献期刊,根据词频来确定入库词汇。2.2统一中医诊疗用语标准。中医标准词是指中医药大数据应用时需要参与计算机运算和保存的词。中医分词过程得到大量的中医词汇,成为非标准词,这些词中有很多近义词、同义词,大量词汇形成维度灾难[4],使计算机编程和运算及结果解释面临困难。因此,将大量的非标准词转换为有限的标准词是中医药大数据应用急需解决的关键问题之一。非标准词转换为标准词,技术上较简单,既可利用查询法,亦可利用人工智能技术中的自然语言处理技术。但非标准词与标准词“词对”间的匹配对应,涉及古今文字差异与各地表达不同,需有人工标注,无法使用计算机替代。由于人工标注工作量巨大,不可能一蹴而就,应以需求为导向逐步扩大。

3中医数字化及模型建立是中医药大数据应用的核心

世界上无论宏观与微观、整体与局部,任何不能以数学为基础来表达的领域都不能成为科学。中医的科学性受到质疑,其根本问题就在于中医理论无法用数字语言来表达。因此,尽早构建中医理论数字模型是中医药科学化、现代化面临的重大问题之一,也是中医药大数据应用的关键核心技术。本课题组尝试应用范式模型解决中医数学模型问题:构建中医理论科学公式yi=f(xi)。中医理论内容丰富,但如果归纳为科学问题,最后就会形成一个问题,即通过什么方法根据不同的语言词汇(症状、舌象、脉象)组合来推测出另一部分语言词汇(药物)的组合(处方)。用公式表达,即为yi=f(xi),yi表示药物组合,xi表示症状组合,f表示函数。根据集合理论,xi可以理解为从整个症状集合[A]中抽取的不同元素的组合,即为集合A的子集,yi可理解为药物集合[B]的子集。问题是yi和xi均是参与到函数f中计算的数值,如何来求这些值?如何来定义函数公式?3.1模糊数学方法赋值证药信息。模糊集合论是1965年美国学者创立的研究有关非精确现象的理论,适应中医诊疗特点。模糊集合理论认为,研究一门模糊领域的数学问题,首先要定义一个研究的范围,或称为讨论的领域,简称论域[5]。论域确定后,在论域上赋值,即形成模糊集合。中医的论域核心是藏象、阴阳五行等理论,归纳起来可以分为3类信息,即位置信息、性质信息和状态信息。位置信息包括五脏六腑、十二经脉、奇经八脉等;性质信息包括气血、阴阳、津液、瘀血、痰饮等;状态信息包括升、降、浮、沉、生、克、乘、侮等。中医的辨证就是根据这类信息来合成出很多证素,然后根据证素特征归纳为某一证候。中医的每个症状都内含着这3种信息的1种、2种或3种。如果把每一个症状在这3种信息上赋值(赋0、1或0、1、2、3),即可解决症状赋值问题。这是构建整个模型的第一步,也是最基础的一步。通过模型可以采用很多算法来产生证素。3.2矩阵分析方法构建。yi=f(xi)矩阵的概念,是基于线性空间发展而来,矩阵分析是线性代数的延伸,即将实数域的分析扩展到复数域。通俗地讲,矩阵分析可以用一定的公式来表示一个矩阵的特征或两个矩阵的相似性。矩阵也可以理解为一个空间的值。根据矩阵的维度,零维矩阵代表空间的一个点;一维矩阵代表空间中的一条线;二维矩阵代表空间中的一个面;三维矩阵代表空间中的立体形状。在一维矩阵(向量)中,矩阵中不同的值代表位于空间中不同方向和长度的线,通过计算这条线在空间中的位置和长度,可以比较两个向量的相似程度。假如yi和xi均能转化为矩阵,f是计算矩阵相似度的公式,yi=f(xi)即可建立起函数关系。3.3证素赋值法构建。yi、xi中医辨证论治的核心是根据症状找出证候,再用处方治疗证候。众多研究表明,证候是由证素所构成,中药处方也是对证素来设计的[6-10]。所以,构建一个全证素论域,如[证素1、证素2、证素3、证素4……证素11],然后症状在每一个证素上赋值,即可得到单个症状的矩阵。下一步把症状在位置信息、性质信息、状态信息上所赋值转化为在证素论域上赋值。这个可通过多种办法解决,比如逻辑推理法、随机森林计算法等。有单个症状的证素矩阵,通过一定的规则加权平均,将各个症状的证素矩阵合并成一个证素矩阵,即可得到yi转化来的矩阵。通过以上方法,就可成功构建中医数字化模型。3.4人工智能构建函数f建立函数f既可采用数字化模型,也可采用人工智能模型。前者属于“白箱模型”,后者属于“黑箱模型”。目前,公认的效率及准确性较高的人工智能模型主要是深度人工神经网络模型,如AM(attentionmodel)模型,这种模型主要用于语言转换,即输入若干个词汇,转换为同种文字或不同种文字的另外一些词汇,并支持输入与输出字数量的不等长度,非常适合于把症状组合转换为药物组合,从而完成yi=f(xi)的构建,这里函数f就是AM模型。

4讨论

中医智能化诊疗是未来医疗发展的趋势。目前,中医智能化诊疗关键在于中医诊疗的经验性、不确定性、模糊性难以转化为线性逻辑。随着人工智能的发展日渐成熟,多种模型可模拟人脑进行黑箱操作,处理非线性信息并可自适应学习。白箱模型与黑箱模型各有优劣,白箱模型的优势是不需要大量训练样本,可根据已有知识赋值构建模型,劣势是模型预测结果准确性需要通过多次调整赋值进行调试,一开始很难做成大而全的模型,只能从小模型逐渐扩展,比如先做某个病的模型;黑箱模型的优势是可做成大而全的模型,只要训练样本支持,做成后可直接应用,不足之处是需要有大量的真实有效的临床病例作为训练样本进行反复训练,并且最终的模型需要反复超参调优。另外,白箱模型可以产生大量的模拟病例,供黑箱模型超参调优使用。本文所述的关键技术均是经过实践探索过的。本研究在tensorflow系统环境下利用以上理论开发的算法成功建立了中医数字化模型,可达到输入症状产生处方的效果。利用该模型保存和共享名老中医经验则非常理想,已在互联网实现应用。现在国内中医药大数据应用仅停留在各平台医疗数据的收集和名老中医药物应用分析,不同数据库无法衔接,形成大量数据孤岛。本研究认为,实现中医药大数据应用的核心是中医数字化模型。构建理想的中医数字化模型需要专业的计算机技术和扎实的中医理论、丰富的中医经验相结合,涉及中医学、互联网技术、人工智能等相关专业知识。要想尽快在中医药大数据应用上产生明显成果,仅靠互联网技术和人工智能方面的人才是难以完成的,急需除中医知识以外的,同时具备数学、统计学、人工智能及计算机知识的综合型人才。中医以其天人合一的思想传承守护中华民族千年,也必将通过现代化智能化的手段将其应用于全人类。

作者:潘玉颖 崔伟锋 范军铭 单位:河南省中医药研究院