【翻译】MED 3D: TRANSFER LEARNING FOR 3D MEDICAL I MAGE ANALYSIS

时间:2024-04-07 19:04:19

 

MED 3D:三维医学图像分析的迁移学习

摘要

训练数据量对深度学习成绩有显著影响。从ImageNet等海量数据中预训练的模型成为加速训练和收敛,提高准确性的有力武器。同样,基于大型数据集的模型对于三维医学图像深度学习的发展也十分重要。然而,由于三维医学成像中数据采集和标注的困难,建立一个足够大的数据集是非常困难的。我们从几个医学挑战中收集数据集,以构建具有不同模式、不同靶器官和不同病理学的3DSeg-8数据集。为了提取一般的医学三维特征,我们设计了一个异构的三维网络Med3D,对多域3DSeg-8进行协同训练,建立了一系列的预训练模型。我们将Med3D预训练模型转移到LIDC数据集的肺分割、LIDC数据集的肺结核分类和LiTS挑战中的肝脏分割。实验表明,与动力学数据集上预先训练的模型相比,Med3D可以加快2倍目标3D医学任务的训练收敛速度,与从头训练相比,Med3D可以加快目标3D医学任务的训练收敛速度10倍,提高精度3%~20%。在最新的DenseASPP分割网络上传输我们的Med3D模型,在单一模型的情况下,我们得到了94.6%的Dice系数,这与在LiTS挑战中*算法的结果十分接近。

介绍

数据驱动的方法,例如深卷积神经网络(DCNN),最近已经在执行不同的视觉任务,如图像分类、语义分割、目标检测等达到了最先进的水平。众所周知,成功的一个基本因素是大量的训练数据和它的详细说明。以自然图像为例,ImageNet数据集[1]包含1400万张图片,超过2万个类别,MS COCO数据集[2]收集了100多万张图片和丰富的实例分割注释。

然而,在医学成像领域,由于某些医学成像方式(如CT)的侵入性、成像时间长以及3D中费时费力的注释。因此,还没有公开的可用的大规模3D医学数据集训练基础的3D-DCNNs网络。为了避免从头开始使用小数据集训练造成差的表现,一些研究[3,4]将三维体积数据转换为二维,利用从ImageNet与训练的2D模型。尽管此解决方案比从头开始的训练获得了更好的性能,但由于舍弃了三维空间信息,仍旧有着不可跨越的鸿沟。其他一些方法试图通过利用三维空间信息初始化从Kinetics数据集训练的网络[5]。然而,由时间视频数据和医学差异很大,利用自然场景视频,迁移学习到一个3D医学图像网络,存在很强偏差。

在这项工作中,我们试图从两个方面来解决上述问题,即建立一个大型的三维医学数据集,以及用这些数据训练一个基础网络用来解决其他医疗问题。第一步,我们收集来自不同医学领域、不同成像方式、不同靶器官和病理学表现,建立一个相对较大的三维医学影像数据集。在第二步中,我们建立了一个称为Med3D的编解码分割网络,并使用第一步中的数据集进行训练。针对不完全标注问题,我们提出了一种多分支解码器。我们也将提取的Med3D通用编码器转移到肺分割、结节分类和LiTS挑战[6],并与Kinetics视频数据集的三维模型和从头开始训练的模型相比。实验证明,我们提出的预训练模型,它的训练收敛性和准确性很好(见图1)。

【翻译】MED 3D: TRANSFER LEARNING FOR 3D MEDICAL I MAGE ANALYSIS

相关工作

Sun等人[7]已经表明,数据量越大,深度学习网络的性能越好。在自然图像领域,人们几十年来一直在建立大量的数据集,如ImageNet[1],PASCAL VOC[8]、MS COCO[2]等,其中包括对数百万图像的大量注释。在这些大规模的数据集上预训练的模型,可以提取出有用的特征,这些特征广泛应用于分类、检测等领域,以及分割任务。研究[9,10,11,12,13]反复证明,预先训练的模型可以加速训练收敛速度,提高目标模型的精度。

同样,大规模数据集和相应的预训练模型在医学成像应用中也很重要。在过去的十年里,生物医学图像分析领域组织了100多个挑战[14 、16、17、18、19页]。这些挑战大多是三维语义分割任务,而且数据量有限,一般都在几十或几百,比自然图像要少很多。因此,每个数据集太小,无法稳定地为迁移学习预训练一个三维模型。在这项工作中,我们聚集了许多小的3D数据集来构建一个大的3DSeg-8用于预培训的数据集。鉴于有限的数据集和缺乏三维医学图像预训练模型,Han 等人为了使用从自然图像中预训练的模型,从三个轴切割三维数据;Yu等人[4]尝试在循环神经网络[20]中用时间方法分析第三维,并将基于自然场景视频的模型[21]转换为三维网络。然而,这种方法仍然不能充分利用三维结构信息。大多数关于三维医学成像的研究,如[22,23,24]都倾向于从头开始,训练一个小的三维卷积神经网络。

Pan和Yang[25]指出,源域和目标域之间的数据分布越相似,迁移学习的效果越好。根据上述缺点,我们认为在三维医学目标任务中,基于三维医学数据集的模型要优于自然场景视频。由于缺乏大规模的三维医学图像,基于多域的三维医学图像数据集的协同训练模型可能是解决方案。同时跨域训练网络是一项具有挑战性的任务。Duan等人[26]提议使用基于支持向量机的数据相关正则化方法在视频概念检测中应用。霍夫曼等人[27]介绍一种用于目标分类的混合变换模型和Nam等人[28]提出了一个域适应网络视频跟踪。由于医学图像在不同区域的像素表示和像素值范围是完全不同的,上述自然图像处理方法不能直接应用于医学图像处理。

方法

我们的动机是用一个相对较大的三维医学数据集来训练一个高性能的DCNN模型,它可以作为骨干网的预训练模型,在训练数据不足的情况下,促进其他任务的完成。为了达到这个目标,我们设计了三个主要步骤的处理流程,如图2所示。在第一步中,我们收集了几个来自不同医学成像模式、被称为3DSeg-8的公开可用三维分割数据集,例如共振成像(MRI)和计算机断层扫描(CT),具有不同的扫描区域、靶器官和病理学。然后,我们用相同的空间和强度分布对所有数据进行规范化。第二步,我们训练一个DCNN模型,即Med3D,用于学习特征。网络有一个共享的编码器和八个简单的解码器分支对应特定的数据集。在最后一步中,从预先训练好的Med3D模型中提取的特征被转移到其他模型中提高网络性能的医疗任务。每个步骤的详细信息将在以下各节中进行说明。

【翻译】MED 3D: TRANSFER LEARNING FOR 3D MEDICAL I MAGE ANALYSIS

3.1 数据选择和规范化

我们的数据来自8个不同的三维医学分割数据集,我们将合成的数据集称为3DSeg-8,方便以后使用。为什么我们从分割数据集中选择数据而不是分类的数据集,原因主要有两个方面:第一,与自然图像分析不同,自然图像分析可以从数以千计的物体类别,医学成像分析在一个有限的身体区域进行,而这个区域的对象类别比较少。类别少就可能会导致低泛化性。其次,与自然图像相比,因为标签只能对应于存在于体积数据的一小部分中的组织/器官,这可能阻碍了神经网络的学习过程。因此,我们从这八个分割数据集中选择数据,并且相信从分割任务中学习组织/器官的差异可以产生更好的代表性特征。

(我不想翻译了。。。)