医疗数据分析论文

时间:2022-03-27 03:04:54

医疗数据分析论文

1医疗数据分析模型

将医院、医疗保健组织等数字化的医疗数据以特定的格式、协议发送到医疗数据分析模块进行分析与疾病预测.医疗数据提取模块:该模块由医院电子病历系统负责实现,我们使用openEHR系统作为医院电子病历系统,并在openEHR中实现医疗数据的提取功能.openEHR系统是一个开源、灵活的电子病历系统,支持HL7卫生信息交换标准.很多医疗健康组织、政府和学术科研单位都使用openEHR进行开发和科研工作.如一种基于openEHR的患者病历数据管理模型、openEHR等许多开源的电子病历平台的对比与评估和基于openEHR的档案建模等.数据交换模块:基于Web服务的数据交换模块使用医疗数据通信协议实现医疗数据分析模块与医疗数据提取模块的数据交换.Web服务是一个平台独立、松耦合的Web应用程序.由于Web服务的跨平台特性,许多模型与框架是基于Web服务构建的,如基于Web服务集成分布式资源和数据流分析测试等.在本文提出的医疗数据分析模型中,使用Web服务来连接医疗数据分析模块和医疗数据提取模块.医疗数据提取模块作为Web服务的服务端,实现的方法包括存取数据、数据预处理、序列化等,改进后的模型要求实现指定维度,指定属性数据的读取.本文提出的医疗数据分析模块作为Web服务的客户端,通过HTTP服务向数据提取模块请求获取数据,并对数据进行预处理.医疗数据分析模块:我们使用Caisis开源平台作为医疗数据分析与疾病预测系统实现这一模块.Caisis是基于Web的开源癌症数据管理系统,一些临床医学研究使用Caisis系统管理和归档数字显微图像,通过向Caisis系统中添加特征选择和SVM算法,使用SVM算法对医疗数据进行分析和疾病预测,因此使用的特征选择算法需要基于SVM,可以提高数据分析和疾病预测过程的效率和准确度.

2数据分析模块与算法

2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一种可训练的机器学习算法.依据统计学习理论、VC维理论和结构风险最小化理论,从一定数目的样本信息在学习能力和复杂度(对训练样本的学习程度)中找到最佳折中,以期望获得最好的推广能力(或称泛化能力).

2.2基于SVM的医疗数据分析模块将SVM分类算法应用到医疗数据分析模块中,进行疾病预测.基于SVM的医疗数据分析模块,通过数据交换模块获取原始组数据(患病病人医疗数据和对照组病人数据).通过特征选择过程输入到SVM分类器中进行训练,训练后可以对新的医疗数据进行分析预测.

3改进的医疗数据交换模块

3.1医疗数据交换模块在原始的医疗数据交换模块中,数据请求原语只由4条通信原语组成.由原始医疗数据分析模型的3个模块构建,其中在医疗数据分析模块与医疗数据提取模块之间的4条通信原语包括2条请求和2条应答.由于医疗数据的维度极大,属性很多,但是在预测某个疾病时,只有很少的一部分属性会对分类预测产生影响.这样的全部维度的数据都需要传输,浪费了时间,降低了数据传输效率,影响了医疗数据分析模块的算法效率.

3.2改进的医疗数据交换模块在改进的医疗数据交换模块中,在数据传输协议中增加了4条原语.在每条原语中不仅有医疗记录条数的要求,还包括对所请求医疗数据维度和属性的具体说明.医疗数据分析模块先请求一小部分全部维度的数据,对这小部分数据进行特征选择.然后医疗数据分析模块只请求特征选择出来的对预测相关的属性的剩余所有医疗数据.最后通过SVM分类算法进行训练和预测.在新的医疗数据交换模块中,大部分数据中只有小部分相关属性被传输到数据分析模块,极大地减少了数据传输总量,也同时增加了分析模块预测算法的效率.

4原始模型与改进模型的对比结果

在对改进后的模型进行实验评估时,当Caisis系统请求的训练数据总数从100~600条变化时,特征选择请求的数据条数均取100条.当Caisis系统请求的训练数据总数为100条时,改进模型与原始模型的总数据传输时间是相同的,这是因为当Caisis系统请求的训练数据总数与改进模型的特征选择请求的数据条数都是100条.无论是原始模型还是改进模型,openEHR系统发送回来的数据都是100条的全部属性.所以,当Caisis请求的训练数据总数与进行特征选择的条数相同时,改进模型降级为与原始模型具有相同传输效率.但是随着Caisis系统请求的训练数据总数的不断增加,改进模型则具有非常明显的优势.对改进模型的评估.当Caisis系统请求的医疗数据总数一定时,随着Caisis系统进行特征选择所请求的数据条数变化,总数据传输时间不断增加,传输效率逐渐降低.Caisis系统第一步进行特征选择所请求的数据条数越小,就会有更少的数据以全部属性传输,也就是说,更多的数据会以更少的属性传输.这样,总的数据量变小,医疗数据的传输效率就增大.相反,随着Caisis系统第一步特征选择所请求的数据条数的增加,总的传输数据量变大,医疗数据的总传输时间也会变长.当Caisis系统第一步特征选择所请求的数据条数等于需要训练的总数时,全部数据的全部属性都需要传输给Caisis,这就使得改进模型降级为与原始模型具有相同的低效率模型系统.实验结果表明,改进后的医疗数据交换协议具有更高的数据交换效率,并且医疗数据分析与预测系统进行特征选择时使用的数据量越小,医疗数据的交换效率越高;基于SVM的特征选择算法提高了医疗数据分析系统的效率,并提高了使用SVM算法进行预测分析的效率和准确度.

作者:田宇驰胡亮单位:吉林大学计算机科学与技术学院