机器学习在肺结节检测上的探讨

(整期优先)网络出版时间:2020-12-21
/ 6

机器学习在肺结节检测上的探讨

吴文淑 1 蔡洁珊 2 顾家军 1 朱宝 2

1. 深圳技术大学健康与环境工程学院 广东深圳 518118 2. 深圳技术大学大数据与互联网学院 广东深圳 518118

摘要:肺部切片具有数据样本大、切片多、肺结节在图像在位置不同,形态各异的特点。传统医生诊疗使得肺结节检测冗杂,且以人工的方法看图更显得效率低下。而传统分割方法局限性强,人工操作需求大,不满足全自动化的要求。而深度学习可以自动提取特征,减少了人为操作,减少错误判断。本文主要探讨如何使用机器学习进行肺图像的分割与精准的肺结节检测并比较几种深度学习诊断方法。

关键词:肺结节检测;深度学习;分块式叠加微调策略;渐进式微调策略;多尺度卷积神经网络


A study of pulmonary nodule detection in machine learning

WU Wenshu 1, CAI Jieshan2, GU Jiajun1*, ZHU Bao2

1,College of Health Science and Environmental Engineering, Shenzhen Technology University,,Shenzhen,518118

2,College of Big Data and Internet, Shenzhen Technology University, Shenzhen, ,518118

Abstract:Lung section has the characteristics of large data sample, multiple sections, different lung nodules in different locations and different shapes in the image. Traditional doctor diagnosis and treatment make pulmonary nodules detection miscellaneous, and the manual method to look at the picture is more inefficient. But the traditional segmentation method has the strong limitation, the manual operation demand is big, does not satisfy the full automation request. While deep learning can automatically extract features, which reduces human operation and wrong judgment. This paper mainly discusses how to use machine learning to segment lung images and accurately detect pulmonary nodules, and compares several deep learning diagnostic methods.

Key words:Pulmonary nodule detection;Deep learning;Block stacking fine tuning strategy;Gradual fine-tuning strategy;Multiscale convolutional neural network.


据世界卫生组织报道,肺癌是全球范围内发病率及死亡率最高的恶性肿瘤之一,且近年来仍有逐渐上升的趋势。肺结节是肺癌的早期表现形式,但由于其直径小、形态复杂、分布位置随机,易于与其他组织粘连,故在肺部扫描影像中难以捕捉、判断。当下有两种肺结节分割的典型方法,一是基于传统的无监督分割,一是基于机器学习的自动分割方法。传统的无监督分割又分为形态学方法、阈值分割方法和聚类法。而此类方法自动化能力差,且分割不精准,操作较为繁杂。例如Armato的灰色阈值分割1,其费时,受限且使用困难;Kanazawa的模糊聚类方法2,提取到了肺和肺血管却丢失了3维空间特征信息;Mina的变量N-Quoiti滤波器3的算法,需要手动操作。在深度学习分割方法现身后,人们发现利用深度学习可以产生更少的错误判断,自动提取特征。在深度学习领域,最开始人们都使用全连接层的卷积网络,但卷积和池化会丢失部分图像细节,最后只得到一个一维的概率向量,此时分割效果仍然不佳。在Long提出全卷积网络

4方法后,人们实现了端到端的像素级预测,正式使深度学习成为发展医学图像的一种趋势。本文将会重点研究三种新的机器学习分类算法,并比较其优缺点,给新学者一个参考的方向。

1数据集

在本文所选取的几种深度学习检测肺结节方法中,对于数据集采用了Lunna16数据集和美国国家癌症研究会提供的公开肺部图像数据库。Lunna16数据集其内含888幅含多个512*512切片的三维肺部图像组成,共有1186个结节。美国国家癌症研究会提供的公开肺部图像数据库由1018个肺结节病人的512*512的CT影像切片组成,每个病人的CT影像切片都高达上百幅。

研究基于深度迁移学习的肺结节分割方法5中,由于医疗图像CT值与一般图像像素值不同,为了对数据集进行可视化,其对二维的CT矩阵进行了预处理和归一化,即将ct值过大或过小的值都设为0,并归一化得到图像矩阵。

研究基于深度学习的肺结节自动检测算法6所涉及方法中,训练样本少,又因为肺结节在图像中位置多变,故使用旋转、水平和竖直翻转变换的随机组合对训练集进行数据增强,通过增加肺结节样本数来平衡正负样本,同时使网络可以学到更多图像特征。

研究基于深度学习的肺结节检测算法对不同大小肺结节的检出效果7时由于数据集像素点较大,根据肺结节的大小与CT影像的像素,他们设计以64×64及32×32的包含肺结节影像块作为模型输入数据。

数据预处理完成后,其将数据集按照一定比例划分为训练集、测试集和验证集并送入相应的网络中进行训练。

2 训练网络的建立

2.1方案一- 马金林-基于深度迁移学习的肺结节分割方法

由于大量医学标注信息成本太高,医学信息样本少,使得神经网络面临训练困难,容易过拟合的问题。马金林教授等人利用基于FCN基础上的U-net网络来进行小数据量的医学图像数据处理,利用迁移学习通过分块式微调策略进行神经网络节点权重的迁移和微调。下图为U-net网络结构示意图。

图片 6

图 1.U-net网络结构(该图片来自马金林的论文《基于深度迁移学习的肺结节分割方法》)

其利用迁移学习的方法,用 VGG-16在数据量较大、粗粒度的Imagenet图像上学习特征知识、训练生成适合的网络参数,然后将特征信息迁移至小标签样本、细粒度的肺结节图像分割任务上。具体方法为:从Image大数据集中学习特征得到需要的权重参数,然后在肺结节图像的学习任务中共享学习所得到的模型和先验参数,即预训练网络。搭建好网络后,将预训练的权重迁移到新的网络结构的对应部分。为了提高准确度,采用冻结block方法微调新网络的权重,训练性能达到最佳时停止训练。其迁移学习网络结构如下图所示。

5fe00a060591f_html_380236b57c8c454f.png

图 2.迁移学习网络结构图(该图片来自马金林的论文《基于深度迁移学习的肺结节分割方法》)

下图为微调流程:

5fe00a060591f_html_64c8b414eab32db.png

图 3.微调流程

(该图片来自马金林的论文《基于深度迁移学习的肺结节分割方法》)

至此,方案一训练网络搭建完毕。

2.2方案二- 李莉-基于深度学习的肺结节自动检测算法

方案二以多尺度卷积神经模型为基础,以此进行肺结节模型设计。模型中含卷积层、池化层与全连接层。其中,卷积层负责检测输入图像的局部特征。当输入图像大小为64×64时,经过与滤波器进行卷积计算以后,可得到32幅大小为60×60的特征图,如图4所示:

5fe00a060591f_html_7eaba8d4dafed98a.png

图 4.卷积层卷积计算过程

(该图片来自李莉的论文《基于深度学习的肺结节自动检测算法》)

模型中的池化层负责降低网络的复杂度、减少计算量。池化操作使得特征图的数目不变,而维度缩减。如图5所示:

5fe00a060591f_html_4bedb20a0a39a41f.png

图 5.池化操作

(该图片来自李莉的论文《基于深度学习的肺结节自动检测算法》)

模型的最后是全连接层,其作用是整合最后的所有特征图,判定图像的所属类别。最终模型通过Softmax分类器获得预测结果。在此基础上,方案二还采用了AIP投影来进行肺结节精准检测。AIP是将连续多帧断层扫描影像序列沿射线方向上所得的所有灰度平均值作为AIP投影图像上对应点的灰度值。如图6所示:

5fe00a060591f_html_d819dc93a1e0f1a2.png

图 6.AIP投影原理图

(该图片来自李莉的论文《基于深度学习的肺结节自动检测算法》)

由图7所示,肺结节为类球形病灶,而血管等组织为延伸态。而在某些仅有单幅CT图像的情况下,血管等组织也可能呈现为与肺结节相似的类球形,此时我们无法准确判影像中的类球形是否为病灶。但若使用AIP投影可确定某区域是否为病灶区域。

.5fe00a060591f_html_6ba9f819ab9ebe2e.png

图 7.肺结节在空间中图像

(该图片来自李莉的论文《基于深度学习的肺结节自动检测算法》)

2.3 方案三- 张驰名-基于深度迁移学习的肺结节辅助诊断方法

深度学习技术在医学影像领域中由于训练数据有限,性能并不理想。为此将迁移学习与深度学习网络相结合。这样得到的网络能够适用小数据集。

神经网络先在ImageNet自然图像数据集中进行预训练,即学习特征,并转换为权重参数信息,再迁移到小数据集。由于预训练网络的最后一层需要与具体目标数据集相关,故迁移完成后需要进行具体的网络微调。通过让预训练的网络在目标数据集中再训练,并自行调整参数,来完成网络微调。

在此基础上,基于网络低层次特征具有普遍性的特点,同时为了把握好微调有效深度,采用一种渐进式微调策略,如图 8 所示。

5fe00a060591f_html_af0dddbc809aca52.png

图 8.渐进式微调策略(该图片来自张驰名的论文《基于深度迁移学习的肺结节辅助诊断方法》)


渐进式微调策略的具体步骤为:

步骤 1 训练随机初始化的新全连接层。

步骤 2 在网络具有良好的非线性特征分类器 的基础上,逐层释放卷积层并微调可训练层,直至训练整个网络。

步骤 3 定量分析各层微调后AUC值变化,确定微调的有效深度,选取最佳诊断网络。


3 网络优劣的评判

三种深度学习检测肺结节方法采用以下几种标准:

(灵敏度)SEN=TP/(TP+FN)×100%

(特异度)SPE=TN/(TN+FP)×100%

(准确率)ACC=(TP+TN)/(TP+TN+FP+FN)×100%

(误诊率)FPF=1-ACC

(dice相似系数)DSC=2*(X∩Y)/(|X|+|Y|)

TN、TP、FN、FP分别为真阳性、真阴性、假阳性和假阴性数量,x为分割结果,Y为实际数据集标签。

3.1 方案一训练结果

实验结果:

5fe00a060591f_html_cc9ed0770aabc749.png

图 9.分块式微调策略比较((该图片来自马金林的论文《基于深度迁移学习的肺结节分割方法》)

由图9,微调到Block2网络最佳,即在冻结Block1基础上,进行Block2-5的微调使网络对肺结节病例特征进行自适应的调整,能有效缓解肺结节小数据带来的拟合过度问题,另一方面避免迁移学习带来的特征表达性差的问题。

5fe00a060591f_html_ee0d71df1c20989c.png
图 10.未加入迁移学习loss值(该图片来自马金林的论文《基于深度迁移学习的肺结节分割方法》)

5fe00a060591f_html_16db397f7f694351.png

图 11.加入迁移学习loss值(该图片来自马金林的论文《基于深度迁移学习的肺结节分割方法》)

由图10与图11比较,未加入迁移学习时有较大的loss震动,模型稳定性差,分割准确性差,加入迁移学习后明显网络较优。

3.2 方案二训练结果

5fe00a060591f_html_3d31590ca10c0e08.jpg
12为样本测试的准确率与训练次数的关系曲线。随着训练次数的增加,样本测试的准确率升高,当训练一定次数时,准确率稳定在0.940左右。

图 12.方案二结果

(该图片来自李莉的论文《基于深度学习的肺结节自动检测算法》)

该算法使用了多尺度卷积神经网络与AIP投影技术,有效提高了检测特异度,降低了肺结节误诊率。

3.3 方案三训练结果

5fe00a060591f_html_a5c856012fbd6b14.gif
验采用VGG16网络经过不同策略调整后其诊断性能如下图13所示。采用渐进式微调时,微调最后3个卷积层的性能就已超过随机初始化训练策略,调整能够得到最佳的微调深度,在Conv4~F3下性能十分优良。

图 13.经不同策略调整后的ROC曲线(该图片来自张驰名的论文《基于深度迁移学习的肺结节辅助诊断方法》)

对不同网络采用PFT,诊断性能如表1所示,与零基础训练的深度学习方法比较,采用PFT策略的方案具有优越性。

方法

准确率/%

敏感度

/%

特异性/%

AUC

VGG16( PFT)

89.18 ±1.65

87.73 ±1.88

92.23 ±1.82

0.950 1 ±0.012 7

ResNet50( PFT)

91.44 ±1.21

90.17 ±1.19

94.18 ±1.03

0.962 1 ±0.010 8

Inceptionv3( PFT)

90.17 ±1.09

89.59 ±1.05

93.26 ±1.47

0.958 5 ±0.011 2

表 1.不同深度学习网络采用PFT策略的性能(该表格来自张驰名的论文《基于深度迁移学习的肺结节辅助诊断方法》)


4 深度学习对于检测肺结节的贡献

深度学习帮助人们节省看图时间,并且能做到使精准度高于一般水平。对于无法自动化等不够完善的问题,我们可以争取寻找其他可行的方法使其达到目标效果,例如迁移学习与微调策略可使小样本精确预测可行。本文对基于深度学习进行肺结节检测的几种方法进行总结与比较,便于深度学习检测的进一步发展。

方法

检测结果/%

SEN

SPE

ACC

方案一

92.41

94.93

/

方案二

96.24

92.11

94.40

方案三

90.17

94.18

91.44

表 2.方案性能的比较

(数据来源于论文《基于深度迁移学习的肺结节分割方法》、《基于深度学习的肺结节自动检测算法》、《基于深度迁移学习的肺结节辅助诊断方法》)

方案一与方案三利用迁移学习使得深度学习网络适用于小数据集,并且在此基础上分别采用了分块式微调策略和渐进式微调策略来提高该迁移学习的深度网络的性能或精度。方案二具备了自动提取和整合特征的能力,并引进了空间投影来减少单层切片的干扰,提高了检测效率和精度。

方案一与方案三相比,方案一在扩充数据集的同时保证了对肺结节检测的准确率,而方案三提出对结节良恶性诊断方法的同时,对于关键特征不够明确和特征过于复杂的肺结节分类的结果不够理想。方案一、三均更适用于小数据集的检测。

方案二算法可以有效降低肺结节检测的假阳率,然而对于体积较小的粘连型结节识别率有待提高。由表2各项数据对比,在方案二中选择合适的处理数据集的操作,则相对来说可作为一个比较完善、成熟的肺结节检测模型。


参考文献:

  1. 王小芳,刘驰,赵于前.基于灰色系统理论的阈值自动选取算法。[J].计算机工程与应用,2010,46(19):154-156+219.

  2. Kanazawa, Y Kawata, N Niki, et al. Computer-aided diagnosis for pulmonary nodules based on helical CT images. 1998, 22(2):157-167.

  3. 李国友,张凤煦,纪执安.自适应多滤波器的高效卷积算子目标跟踪算法[J].光电工程,2020,47(07):50-62.

[4] Marysia Winkels,Taco S. Cohen. Pulmonary nodule detection in CT scans with equivariant CNNs[J]. Medical Image Analysis,2019,55.

[5] 张倩. 基于深度学习的图像显著性区域检测技术研究[D].山东师范大学,2020.

[6] 马金林,魏萌,马自萍.基于深度迁移学习的肺结节分割方法[J].计算机应用,2020,40(07):2117-2125.

[7] 李莉,乔璐,张浩洋.基于深度学习的肺结节自动检测算法[J].计算机应用与软件,2020,37(07):95-100.

[8] Junjie Zhang,Yong Xia,Hengfei Cui,Yanning Zhang. Pulmonary nodule detection in medical images: A survey[J]. Biomedical Signal Processing and Control,2018,43.

[9] 王娟,唐丽丽,于明川,那曼丽,张滨.基于深度学习的肺结节检测算法对不同大小肺结节的检出效果[J].中国医学影像技术,2019,35(12):1771-1774.

[10] 张正华,蔡雅倩,韩丹,周小君,黄益龙,段慧.人工智能与不同级别医师对肺结节检出效能的对照研究[J/OL].中国医学影像学杂志,2020(09):662-665[2020-10-10].

[11] Suzuki Kazuhiro,Otsuka Yujiro,Nomura Yukihiro,Kumamaru Kanako K,Kuwatsuru Ryohei,Aoki Shigeki. Development and Validation of a Modified Three-Dimensional U-Net Deep-Learning Model for Automated Detection of Lung Nodules on Chest CT Images From the Lung Image Database Consortium and Japanese Datasets.[J]. Academic radiology,2020.

[12] 张驰名,王庆凤,刘志勤, 等.基于深度迁移学习的肺结节辅助诊断方法[J].计算机工程,2020,46(1):271-278.

[13] 戴正行,胡春洪,王希明, 等.基于DenseNet网络深度学习法CT图像人工智能分析技术判断肺结节良恶性[J].放射学实践,2020,35(4):484-488.

[14] Xufeng Huang,Qiang Lei,Tingli Xie,Yahui Zhang,Zhen Hu,Qi Zhou.Deep Transfer Convolutional Neural Network and Extreme Learning Machine for lung nodule diagnosis on CT images[J].Knowledge-Based Systems,2020,204(204):.

[15] 张俊,侯聪,刘新疆.基于深度学习的人工智能在肺结节诊断领域的进展[J].分子影像学杂志,2020,43(3):365-368.

[16] Supriya Suresh,Subaji Mohan. NROI based feature learning for automated tumor stage classification of pulmonary lung nodules using deep convolutional neural networks[J]. Journal of King Saud University - Computer and Information Sciences,2019.

[17]任敬谋,李晓琴.基于非结节自动分类的二维卷积网络在肺结节检测假阳性减少中的应用[J].北京生物医学工程,2020,39(4):389-397.

[18] C.-H. Liang,Y.-C. Liu,M.-T. Wu,F. Garcia-Castro,A. Alberich-Bayarri,F.-Z. Wu. Identifying pulmonary nodules or masses on chest radiography using deep learning: external validation and strategies to improve clinical practice[J]. Clinical Radiology,2020,75(1).

[19]钟思华,郭兴明,郑伊能.改进U-Net网络的肺结节分割方法[J].计算机工程与应用,2020,56(17):203-209.

[20] Guofeng Tong,Yong Li,Huairong Chen,Qingchun Zhang,Huiying Jiang. Improved U-NET network for pulmonary nodules segmentation[J]. Optik,2018,174.

[21] Lii S G A,Mclennan G,Bidaut L,et al.The lung image database consortium(LIDC) and image database resource initiative(IDRI):a completed reference databased of lung nodules on CT scans[J].Medical Physics,2011,38(2):915-931.

[22]Medhat A,Shalady A,Sayed M S,et al.A highly parallel SAD architecture for montionestimation in HEVC encoder[C]//IEEE Asia Pacific Conference on Circuits&Systems.IEEE,2014.

[23]邱实,汶德胜,朱宏博,等.基于CT图像3D特征的肺结节检测[J].东北大学报(自然科学版),2018,39(2):181-185.

[24]田娟秀,刘国才,谷珊珊,等.医学图像分析深度学习方法研究与挑战[J].自动化学报,2018,44(3)::401-424.

[25]谢志勇,周翔.基于机器学习的医学影像分析在药物研发和精准医疗方面的应用[J].中国生物工程杂志,2019,39(2):90-100.

[26]SHEN D,WU G,SUK H I.Deep learning in medical image analysis[ J].Annual Review of Biomedical Engineering,2017,19(1):221-248.

[27]戚永军,顾军华,张亚娟, 等.基于深度混合卷积模型的肺结节检测方法[J].计算机应用,2020,40(10):2904-2909. DOI:10.11772/j.issn.1001-9081.2020020192.

[28]李维,赵晓乐,段彦隆, 等.基于CNN多层面二阶特征融合的肺结节分类[J].计算机科学与探索,2020,14(9):1590-1601. DOI:10.3778/j.issn.1673-9418.1908002.

[29]高智勇,黄金镇,杜程刚.基于特征金字塔网络的肺结节检测[J].计算机应用,2020,40(9):2571-2576. DOI:10.11772/j.issn.1001-9081.2019122122.

[30]马思然,杨媛媛,倪扬帆, 等.肺结节智能检测和三维可视化系统设计与实现[J].计算机测量与控制,2020,28(9):177-181. DOI:10.16526/j.cnki.11-4762/tp.2020.09.035.

基金项目:深圳技术大学大学生创新项目(2020187777030)

作者简介:吴文淑,Email:wuwenshu@email.sztu.edu.cn



5fe00a060591f_html_57eb4da3ad53ef71.gif

1