复杂网络方法在数据挖掘的应用

时间:2022-01-13 09:46:53

复杂网络方法在数据挖掘的应用

使用复杂网络方法进行中药配伍规律挖掘相比于传统方法扩展性更强,挖掘深度更深,目前已成为分析和研究重要配伍规律的有力工具。本文在介绍复杂网络相关概念的基础上,给出了使用重叠社团发现算法进行中药配伍规律挖掘的三种主要方法,并介绍了这些方法在中药配伍规律研究中应用的案例。最后对相关方法进行总结和展望。

中药复方是指在遵循中医用药规则的前提下,使用多种药物混合组成的方剂。方剂中药物之间的配伍组合有着复杂的联系和约束,这种联系和约束是根据药物作用、禁忌关系、药性药效、病症原由等所建立的具有科学依据的相互关系。通过研究方剂中药物配伍关系,对于揭示用药配伍合理性、建立健全用药科学依据具有重要的意义。传统的中药配伍数据挖掘方法基于统计学的研究方法,如统计值法、聚类算法、关联规则方法等,这些方法只能挖掘浅层次的药物间关系,但无法揭示药物间深层次的联系[1]。而复杂网络方法的引入可以为研究重要配伍规律提供新的方法和手段。

1复杂网络概述

复杂网络(ComplexNetwork),是一种特殊的网络结构,它是将复杂系统中的元素抽象为节点,元素间的关系抽象成边的网络结构模型,并不是所有的网络都属于复杂网络,它需要满足如下的三个特征:(1)小世界特性(SmallWorld),即网络中点与点之间的特征路径长度值小,接近随机网络,但网络的聚合系数却很高,接近规则网络[2]。(2)无标度特性(Scale-free),即在网络中少数节点的度值会很大,而大部分节点却很小,节点的度值分布符合幂率分布规律[3]。(3)社团结构特性,复杂网络中的节点往往会呈现出集群特性,即社团区域内部节点之间的联系非常强,而社团内节点与社团外节点的联系明显减弱。由于中医用药博大精深,方剂中药物类型多且配伍关系复杂,这种关系很适合利用复杂网络模型来表达,同时诸多论文也验证了使用药物作为节点,药物间关系作为边所建立的网络模型具有复杂网络的相关特性,基于建立在中药复杂网络模型上的数据挖掘方法已经成为分析中医用药配伍规律,阐明中药配伍科学内涵的有力工具。近年来,凭借复杂网络良好的扩展性和内在发掘机制,使得复杂网络与中药理论得到了有机地结合,孙正等[4]提取药物药性中的“性味”“归经”“功效”,在向量空间模型上建立药物属性模型,提出了一种基于药物属性相似度的度量方法,并使用复杂网络方法进行分析;周伟等[5]从药物与病症关系角度,基于药物在方剂中出现的次数,提出药物效用度的概念,并进行组网和核心药物配伍规律挖掘;刘思鸿等[6]通过网络药理学方法构建“中药-成分-靶点-疾病”网络,可从靶点的作用通路和功能角度,阐明中药复方的多通路、多层次协同整合作用,为中药治疗疾病的分子机制提供了一种分析思路。这些尝试使利用复杂网络方法进行中药配伍规律挖掘的应用更加广泛。

2复杂网络进行中医药数据挖掘的方法

中药复杂网络中药物配伍发现的过程可以归结为复杂网络社团检测算法的应用。社团检测(CommunityDetection)又称为社团发现,该方法基于聚类的思想来实现具有相同特性节点的聚集。2004年,Newman提出了一种模块度(Modularity)的概念,从而使得网络社团划分的优劣可以有一个明确的评价指标来衡量[7],使得社团发现算法更加的系统化。按照聚集的结果可以将社团发现算法归为非重叠社团发现和重叠社团发现两种,这里的主要差别是同一节点是否会划分到多个聚类社团当中,很明显在中药配伍规律研究中一种药可以出现在多个配伍之中。因此,针对中药配伍规律的研究主要采用的是重叠社团发现算法,目前常用的方法主要有如下三种[8]:

2.1派系过滤算法

派系过滤算法[9](CliquePercolationMethodCPM)是第一个被提出的重叠社团发现算法,该方法将社团定义为一类由全连通子图构成的集合,从网络中找出所有大小为k的全连通子图作为一个社团,由于一个点可以在多个连通子图中,因此可实现重叠社团的发现。使用CPM算法进行中药配伍规律研究在早期应用的比较多。黄源等[10]针对慢性阻塞性肺疾病的4种证型(肺肾两虚、痰湿蕴肺、痰瘀阻肺、痰热壅肺)分别建立复杂网络子网络,使用派系过滤算法发现含药在10以上的基本方;李茹等[11]通过引入属性扩展图建立治疗肺痿中药用药的复杂网络模型,使用CPM派系算法,设定k值为4,共获得19个有价值的药物社团。

2.2局部扩展算法

该方法主要采用局部扩张的方法,根据扩展特性而快速确定社团范围的一种贪心算法。2009年,Lancichinetti等[12]首次提出了局域扩展的重叠社团挖掘算法(LocalFitnessMeasureLFM)。该方法首先随机选择一个种子节点,然后按照规则不断地向外扩张构建社团,当适应函数达到局部最优时完成构建过程。这种方法由于设计简单,快速有效,在中医药配伍挖掘领域应用广泛;周伟等在建立肺痿用药复杂网络的基础上,定义了一个节点对社团的效用度增量,采用LFM贪心算法的思想选择核心药物作为种子节点进行社团扩展,共发现30个药物组合;韩楠等[13]根据中药方剂特性并结合点互式信息构建TCM网络模型,基于LFM算法改进社团扩展方法,实现中药配伍组合的有效挖掘;杨铭等[14]通过对药物配伍网络的极大团求解算法(LFM算法的改进)得到中医药治疗肺癌的核心有效处方;严明等[15]针对连花清瘟胶囊治疗上呼吸道感染临床用药方案建立复杂网络,使用基于Louvain聚类方法(一种局部扩展算法)进行分析与研究。

2.3标签传递算法

Zhu等人[16]首先提出了标签传递算法(LabelPropa-gationAlgorithmLPA)的概念,该算法的思想是首先为每一个节点添加一个唯一的标签,然后根据该节点周围邻居节点中出现频率最高的标签来更新该节点的标签,最后将具有相同标签的节点归为同一社团。该方法最早应用于非重叠社团的发现,Gregory[17]基于该算法进行了改进,将每个节点可标记标签的个数设置为多个(COPRA算法),从而实现了重叠社区的发现,如图1所示是该方法的运算过程。标签传递算法是目前中药配伍复杂网络方法中应用较多的一种,孙道平等[18]根据方剂药物贡献度进行组网,使用改进的标签传递算法COPRA进行社团发现,挖掘中药配伍规律;吕庆莉[1]以脑血管疾病用药为例构建中药用药属性扩展网络,并使用改进的重叠社团发现算法CO-PRA进行方剂配伍规律的发掘和分析;马宁等[19]在构建中药复杂网络引入了方剂中“君臣佐使”药物权重及药量,使用一种保留历史标签的标签传递算法SLPA进行配伍规律的挖掘;张胤颖[20]建立药物节点、药物性味节点、药物归经节点、药物功效节点4种节点的风湿方剂用药复杂网络模型,并使用COPRA算法进行用药社团获取。

3总结与展望

本文探讨了使用复杂网络重叠社团发现算法进行中药配伍规律挖掘的几种方法,涵盖面并不一定很全,但包含了几种主要的挖掘方法,虽然这些方法各自有各自的优势,但也都存在改进的地方,例如,派系过滤算法的挖掘效果受k值设定大小的影响很大,局部扩展算法受备选种子质量的好坏影响,标签传递算法识别精度不稳定,需要人为设定阈值等诸多问题,但这些方法提供给了研究人员进行中药复方配伍规律挖掘的一些新思路和新手段,同时提供了一些有价值的研究成果。在将来随着在这些方法上的持续改进以及与中药理论的深度结合,相信会产生更多有价值和意义的研究成果。

作者:马宁 邢俊凤 宋宽 单位:内蒙古科技大学包头医学院计算机科学与技术学院