(广东东软学院,广东省佛山市 528200)
摘要:黑色素瘤是一种起源于黑色素细胞的恶性肿瘤,早期及时诊断和干预对降低患者死亡率至关重要。本研究基于python与PyQT5开发一种基于深度学习的黑色素瘤图像分类器,探索基于深度学习的图像分类技术。本文基于深度学习框架,对比ResNet、MobileNetV3和Swin Transformer等不同学习模型,通过收集各种各样的皮肤镜图像数据集,训练一个能进行皮肤镜图像分类的模型,可对皮肤镜图像中的黑色素细胞进行良恶性识别,并基于此模型开发了一款带UI界面的简单黑色素瘤分类器,以方便普通用户检测识别。
关键词:黑色素瘤;深度学习;图像分类;卷积神经网络
0、研究背景
黑色素瘤是一种起源于黑色素细胞的恶性肿瘤,早期诊断对患者的治疗和康复至关重要[1]。传统的黑色素瘤诊断主要依赖于医生的经验和病理切片检查,这些方法不仅耗时耗力,而且具有一定的主观性,可能导致误诊或漏诊[2]。近年来,深度学习技术在图像识别和医学影像分析领域取得了显著进展,为黑色素瘤的自动分类和识别提供了新的可能。深度学习算法能够从大量数据中学习到复杂的特征表示,特别是在图像处理领域。通过训练深度学习模型,可以在海量的临床图像数据中,快速准确地识别出黑色素瘤,从而提高诊断的效率和准确性。
本文基于深度学习模型,对黑色素细胞的良恶性进行分类研究,旨在开发一个自动识别并能够高精度分类黑色素瘤的分类器。该分类器将采用先进的深度学习架构,通过大量的皮肤镜图片进行训练和验证。以期帮助医生在海量数据中有效地识别黑色素瘤瘤,提高诊断的精度与效率。
1、数据集预处理
本研究采用的数据集来自国际皮肤影像协会(ISIC)与美国医学影像信息学会(SIIM)联合举办的SIIM-ISIC黑色素瘤分类挑战赛中的公开数据集。该数据集包含来自2000多名患者的良性和恶性皮肤病变的33126张皮肤镜训练图像。
图1 良性皮肤病变图片 图2 恶性皮肤病变图片
由于原始数据集太庞大,本文选取良性984张图片,恶性584张图片,一共1568张图片作为数据集。图像分为2个文件夹标注2个类别,原始数据集良性标签为0,恶性标签为1。其中数据集会根据6:2:2的比例进行划分训练集、验证集和测试集。部分良恶性皮肤病变图像如图1、图2。
2、模型选择与训练
在皮肤镜图像分类识别中,ResNet、MobileNetV3 和 Swin Transformer 等深度学习模型各具优势[3-5]。ResNet 通过引入残差连接,缓解了深层网络的梯度消失问题,提高了分类精度,适用于需要深层特征提取的任务。MobileNetV3 设计上注重轻量级和高效性,利用深度可分离卷积和神经网络架构搜索,适合在移动设备上进行高效的皮肤病变识别。Swin Transformer 结合了自注意力机制和局部计算策略,能够在不同尺度下捕捉细致的图像特征,对复杂的皮肤镜图像分类任务表现出色。
在本实验中,对ResNet、MobileNetV3 和 Swin Transformer 等不同模型的训练策略是严格控制所有参数,将所有模型的epoch设置为 200,学习率为0.0001,批处理量为16,余弦学习率为衰减等,训练的参数如表1所示。本文的实验都是采用Ubuntu16.04,python3.6.12的编程环境。模型搭建采用pytorch框架,使用Pycharm软件进行编程和调试。
表1 训练参数设置
参数设置 | 参数设置 | 备注 |
训练集图像 | 1254 | |
测试集图像 | 314 | |
学习率 | 0.0001 | 余弦自动调整策略 |
Batch_size | 48 | |
迭代轮数 | 150 | |
输入图像尺寸大小 | 224*224 | |
损失函数 | 交叉熵损失 | |
优化器 | SGD |
对ResNet、MobileNetV3和Swin Transformer等三个模型分别共训练150轮,优化器设置为Adam,学习率大小设置为0.0001,训练的损失函数loss值得变化如图3、图4和图5所示。
图3 ResNet训练loss曲线 图4 MobileNet训练loss曲线 图5 Swin Transformer训练loss曲线
3实验结果评估
训练结束以后,对3个模型分别进行测试,并且使用准确率、精确度、回召率和特异度等指标对测试结果进行评估[6]。如表2所示,ResNet的分类准确率达到了92.36%,MobileNetV3的分类准确率为88.54%,Swin Transformer整体模型准确性更高,分类准确率达到了95.22%。其中Swin Transformer模型的精确度、召回率和特异性均较高,显示出该模型在各项指标上的性能都很出色,ResNet模型稍差于Swin Transformer模型,因为MobileNetV3模型比较简单而且轻量化,所以在这些指标上表现较差。
T-SNE降维可视化图可以很好地评估模型的分类性能好坏,图6、图7、图8分别展示了3个模型的T-SNE降维可视化图。从图8中可以看出,Swin Transformer的T-SNE降维可视化图两类边界清晰,表示该模型对良性和恶性病理图像分类最准确,有良好的分类性能。
表 2 各种测试结果对比表
模型 | 准确率 | 精确度 | 回召率 | 特异度 |
ResNet | 92.36% | 92.35% | 90.90% | 90.90% |
MobileNetV3 | 88.54% | 87.15% | 88.30% | 88.30% |
Swin Transformer | 95.22% | 94.30% | 94.60% | 94.60% |
图6 ResNet测试结果T-SNE图 图7 MobileNetV3测试结果T-SNE 图 图8 Swin Transformer测试结果T-SNE 图
4、分类器界面设计与实现
为了让普通用户更加直观地知道某张皮肤图像的良恶性,本研究采用PyQT5框架,设计一个简单的黑色素瘤分类器。主要功能包括用户点击选择图片按钮,选择需要识别的图像,系统加载图像在显示框中,点击开始识别按钮,系统会通过已训练好的深度学习模型进行分类识别,然后在识别结果显示框中输出识别结果,最后点击按钮退出系统等。
图9 黑色素瘤分类器界面 图10良性图像识别结果图 图11 恶性图像识别结果图
5、结论
本研究基于深度学习,设计并实现了一个皮肤镜图像黑色素瘤图像分类器。通过对ResNet、MobileNetV3和Swin Transformer等不同神经网络作为分类检测模型进行效果对比,实验结果表明本文所使用方法可能够实现黑色素瘤皮肤镜图像的快速精准分类与检测,为深化黑色素瘤自动检测研究、方便医生临床诊断提供了基础。
参考文献:
[1]SCHADENDORF D,VAN AKKOOI A C,BERKING C,et al.Melanoma[J].The Lancet,2018,392:971-984..
[2]贵向泉,张馨月,李立.高分辨率皮肤黑色素瘤图像的两阶段式分割算法[J].计算机工程,2023,49(11):267-274.
[3]赵宏,王枭.基于Swin-Transformer的黑色素瘤图像病灶分割研究[J].计算机工程,2024,50(08):249-258.
[4]韦春苗,徐岩,蒋新辉,等.Transformer与卷积神经网络相结合的皮肤镜图像自动分割算法[J].计算机辅助设计与图形学学报,2022,34(12):1877-1886.
[5]邵虹,张鸣坤,崔文成.基于分层卷积神经网络的皮肤镜图像分类方法[J].智能科学与技术学报,2021,3(04):474-481.
[6]李建威,吕晓琪,谷宇.基于改进ConvNeXt的皮肤镜图像分类方法[J].计算机工程,2023,49(10):239-246+254.
基金项目: 本文系 2024 年度广东东软学院校级科研项目,课题编号2024DRXJ001。