多模态医学影像标注系统开发研究

时间:2022-09-26 09:32:08

多模态医学影像标注系统开发研究

【摘要】在人工智能医学影像领域,影像标注是所有人工智能研发的关键因素。传统的人工标注过程中,数据获取困难、手工劳动强度大、专业性强、标注质量低等问题突出,亟需智能化的多模态医学影像标注系统,去满足标注工作的开展。因此,四川大学华西医院基于影像云平台收集了院内和联盟医院的多模态影像数据,通过信息化技术设计了多模态医学影像标注系统,集成各种图像处理算法以及人工智能模型来简化影像数据标注工作。标注系统的建设提高了院内数据标注效率,为院内人工智能影像研究和相关产业建设提供必要的数据支持,从而推动院内医学影像相关的人工智能产业落地。

【关键词】多模态;数据标注;系统设计;医学影像云平台

目前人工智能(artificialintelligence,AI)和大数据技术已广泛应用于医学影像领域[1],通过智能模型对影像数据进行分析和挖掘,帮助临床实现疾病筛查、辅助决策、预后评估等工作,减轻医生负担的同时提升患者满意度[2]。经调研,国内大型三级甲等医院在AI结合医学影像研究与产品化的过程中,都会面临模型的稳健性和有效性低这样的共性问题,其主要原因在于原始医学影像数据与计算机模型算法之间固有的“语义鸿沟”,导致原始数据不能直接用于智能模型训练[3],而数据标注预先把需计算机识别的影像打上标签,产生训练数据,通过计算机不断识别这些图像特征,最终实现计算机的自主识别。训练数据的量级和标准化程度直接决定了AI模型的表现能力[4];此外,同一病例可有多种不同的影像形态表现形式包括数字放射成像、CT、MRI等,虽然多模态数据因成像机制不同而能从多种层面提供临床信息,但多模态影像也加大了院内数据标注的工作量和实现难度。随着标注工作的展开发现,目前存在的主要瓶颈如下:①缺少影像数据标注模板,标注数据的一致性很难统一,当患者数据存在多种复杂征象标注工作时,医生或相关研究人员需要花费大量时间和精力来进行样本标注,导致其缺乏相应的科研或产品开发动力;②医院存有多种模态的影像数据,但缺少系统平台可以同时兼容多模态数据的标注工作;③在医学影像标注领域,标注需求差异巨大、标注场景多变,多样的标注类型,使得标注工作繁琐耗时且错误频出,如何结合标准的标注模板和AI技术来辅助医生进行数据标注,在提升标注效率的同时保证标注的准确性也是当前的一大难点。近年随着云计算、存储技术在医疗行业应用的不断成熟,四川大学华西医院已协同各医疗联合体(医联体)单位建设了区域级别的影像云中心,实现了影像数据的快速调用。基于影像云建立多模态数据标注系统,将完成针对多模态数据的复杂征象标注工作,结合图像算法和AI技术提升标注效率和标注数据质量。自2020年底,基于影像云的多模态医学影像标注系统已在院内上线使用,不仅能满足院内相关科研需求,更能反哺院内智能应用,得到更加精确的辅助诊断模型。通过院内数据标注,可得到大量带标签的影像数据,为院内AI研究和相关智能应用提供宝贵的数据资产。本文将就基于影像云的多模态医学影像标注系统的开发应用作一介绍。

1系统结构开发

1.1系统架构

系统整体基于asp.netcore技术的B/S架构进行平台架构设计,适配Chrome浏览器;数据库采用MSSQL的主从方式搭建来保证数据安全;前端则基于Element-UI和Vue.js框架进行开发;由于涉及到影像AI相关处理,服务器硬件资源采用NVDIATeslaV100、32GB内存以及2.2GHz主频的IntelXeonE5-2650v4(Broadwell)处理器。此外,为保证医生阅片及标注的流畅度,客户端内存配置为8G,单用户带宽设置为20M。为保障数据安全,系统通过虚拟专用网络[5]对接影像云系统。通过及时获取院内及医联体单位的影像数据,提供标注服务,形成区域级别的影像标注平台。标注结果仅以对象简谱(JavaScriptObjectNotation,JSON)形式[6]保存在服务器中,不用占据过多的存储资源。当临床业务或科研使用时,自动调用原始影像和JSON标注结果生成标注影像,从而实现同院内信息化环境相融合,系统架构见图1。

1.2流程设计

以往的数据标注过程,是科室自发组织人员借助各种开源工具(如3DSlicer、itk-SNAP等)来进行标注[7]。但医学影像标注所需的类型及标签繁多,一项标注任务,可能需要同时借助多款标注软件,同时由于缺乏系统化的组织和管理,数据标注的质量无法得到保障。此外,不同医生的标注习惯存在一定的差异,标注流程和规范难以统一,后续标注数据的整合和处理,往往会耗费科研人员大量的时间和精力。因此为规范数据标注流程,提升数据标注质量,保证数据安全,系统采用项目制管理的方式。各科室根据需求建立相应的项目组配置成员角色,包括项目管理员、标注员、审核员。项目管理员:基于院内不同科室需求分配项目管理员,负责各自项目内的标注人员、审核人员的角色分配、任务分配,及标注后数据的管理和共享配置等;可根据研究需求设置标注次数,单一任务支持同时分配给多人标注。此外,系统支持多模态影像数据的标注,可覆盖院内大部分影像数据的需求,为保证标注数据的一致性,需要项目管理员对标注数据、标注模型、标注模板进行统一配置见图2。标注员:标注员通过查看任务列表,获取需要标注的影像数据,再按照统一模板进行标注工作。同时支持按时间维度和患者唯一识别号(通常是院内登记号)等方式来筛选标注任务。为保障标注过程中数据不丢失,支持在线标注和离线标注后上传2种标注模式。审核员:通常是由拥有丰富临床经验的医师担任,负责审核项目组成员已标注的数据,通过任务审核机制来尽可能保证标注数据质量,进行数据校对和标注修改或补充,可以将不合格的标注数据回传给标注员重新标注。数据标注过程中通过各个角色成员之间的相互分工和配合,尽可能将院内的标注流程规范化、合理化,提高数据质量和标注效率,具体流程见图3。

1.3标注功能设计

训练数据集的大小以及数据标注的准确性是AI相关研究有效性的基础[8]。系统支持读取多种模态的影像信息并展示,在数据标注模块中不仅提供了支持点、框、线等的基础标注工具,还提供了多种智能标注工具,来提升标注效率。此外,结合AI模型,提供了AI辅助标注功能,使标注过程更加智能和准确。1.3.1基本标注模块 临床诊断往往涉及多种数据模态,如MRI、X线、超声等,同时也包含多种数据格式,如图像、视频、三维数据等。平台兼容全部数据模态和格式,对于影像数据,支持多样的基本标注方式,包括点、线、面、体的交叉组合,样本的类别标注,病灶区域的框选,以及像素级别的区域标注等。在基本标注完成后,支持对标注影像进行反复修改,逐步提升标注精度。1.3.2智能标注工具 基于各种图形图像算法,能够加快标注员的标注效率,简化标注过程,极大地降低人力成本并使标注质量大幅提升。本系统支持以下智能标注方式:①基于水平集[9]算法的轮廓标注功能,操作者只需要确定一个大的筛选框,算法可以自动找出框内轮廓;②基于自适应算法[10]的框选方法,标注工具可以自动调整框的位置和大小,确定标注病灶区的最小边界框;③自动化轮廓跟踪,基于智能剪刀算法(intelligentscissors)[11],跟据图像边缘信息搜索2个种子点之间的最优路径,有效的引导用户得到准确的目标边界。标注效果见图4。1.3.3AI辅助模块 在面临大规模、复杂的标注需求时,如多征象数据标注或视频帧数据,若完全依赖医生手动标注或智能标注工具,既会给标注员带来沉重的负担,也会严重制约AI研究项目的进度[12]。而随着AI技术的飞速发展,数据标注模式从人工标注逐渐转化为人工标注+AI辅助标注相结合,即通过AI模型自动生成标注结果,然后再由标注员在此基础上进行校正。目前院内已有较成熟的AI辅助模型有:针对于肺炎患者的CT影像病灶标注的肺炎模型,以及适用于CT影像分割的AI骨模型,包括胸骨、肋骨、椎骨、肩胛骨、锁骨等。AI模型可通过解析图像和用户输入的矩形框来输出病灶每一层的轮廓,从而提升标注效率(图5)。1.3.4标注计费 不同于其他类型的数据标注,医学影像的标注目前存在以下难点:一是参与标注的人员需要有丰富的临床经验,数据标注质量将直接影响到模型的表现效果,无法将复杂的标注工作交由第三方公司;二是院内医师对于医学影像标注的积极性较低,参与人员较少,很难完成大规模的数据标注工作。基于以上现实问题,我们设计了计费模块,可实时统计标注和审核费用,以此来激励院内更多医师利用空余时间来参与数据标注的工作。

2系统应用效果

多模态影像标注系统,针对医学影像标注工作涉及多种模态数据、手工标注工作繁琐耗时、标注结果差异性较大、数据质量较低等特点。通过丰富的智能标注工具以及智能辅助模块,能够有效地提升数据标注的效率;同时,系统通过设定标注模板以及任务审核机制,来提升标注结果的统一性以及准确率。自系统2020年底院内上线起,院内研究团队就立即开展了关于卵圆孔未闭患者的心脏超声的科研项目,通过影像标注平台实现了高效的心脏超声影像标注,截止2021年4月,共完成了62例阳性病例影像标注工作,在智能模型构建过程中选取了其中49例作为训练集,包含标注图像10214张,13例作为测试集,图像2700张,通过标注系统的应用,保证了AI模型的数据规模和标注质量,从而实现了超声关键帧定位和卵圆孔未闭患者超声可疑区域自动识别,具体实现效果见图6。此外,通过完成肺部影像的多征象复杂标注任务,院内还部署了相关肺部结节检出和危险程度分级、肺部常见征象智能识别等产品,大幅降低了医生的工作负荷。系统可以兼容多种模态的影像数据标注工作,可以支持院内各个科室和研究团队影像项目的开展,系统在院内多模态数据标注中的应用见图7。

3结语

目前标注平台存在最大的问题是由于存储压力和调取速度,难以将标注结果集成到院内的影像归档和通信系统当中。当前标注系统是对符合医学数字成像和通信协议的医学影像中的某些图像序列增添灰阶图像显示状态(grayscalesoftcopypresentationstate,GSPS)来表示图像标注。但将新增的GSPS序列信息[13]同步到业务系统中会改变原始影像的存储,因此需要存储分离来保障原始数据的有效性,这会对存储资源带来极大的压力。目前可行的解决方案是将标注结果以JSON形式单独存储,再以超文本传输协议的表述性状态传递接口与其他业务系统进行集成[14],在每次读取标注影像结果时,需要在同时提取原始影像和标注结果再在系统进行解析,生成标注影像,由于涉及到影像云系统的改造,可能会对响应速度造成一定的影响。目前的应对措施是对于热数据[15]和冷数据[16]采用不同的集成方式,在减轻存储压力的同时也能在一定程度上满足业务需求。总的来说,基于影像云的多模态数据标注系统,相比与普通数据标注工具,打破了以往各科室独立开展的影像标注工作的模式,采用平台管理,同时兼容多种模态数据标注方式,将标注结果统一存储在数据服务器中,真正实现了全院级别的影像标注平台,并归档形成院内数据资产,帮助研究者更高效地开展各类影像数据的标注工作。随着AI技术和医疗行业的不断结合,可为科研项目提供高质量的影像数据支持,并且可以作为定量评估AI医疗成果的基准平台,从而推动院内AI结合医学影像的相关科研和产业顺利落地。

作者:杨豪 张睿 王觅也 单位:四川大学华西医院信息中心 四川大学华西医院医疗信息化技术教育部工程研究中心