doi:
10.3969/j.issn.1003-3106.2023.09.001
引用格式:季莉.基于全分辨率注意力U Net神经网络的区域分割方法[J].无线电工程,2023,53(9):1981-1989.[JILi.Region
SegmentationMethodBasedonFullResolutionAttentionU NetNeuralNetwork[
J].RadioEngineering,2023,53(9):1981-1989.]基于全分辨率注意力U Net神经网络的区域分割方法
季 莉
(江苏工程职业技术学院建筑工程学院,江苏南通226007)
摘 要:医学图像中息肉与皮损病变区域的差别较大,导致分割准确性降低。针对该问题,结合深度学习技术提出了
一种新的图像病变区域自动分割方法。在U Net网络编码器与解码器的特征图拼接之前增加注意力机制,使网络关注于感兴趣的病变区域,同时抑制非病变区域的响应信号。增加一个新的解码器网络,将同尺度的编码器特征图与解码器特征图拼接融合,产生全分辨率特征图。U Net网络在全分辨率的注意力特征图上分割病变区域。实验结果表明,所提方法对息肉与皮损的分割性能均优于其他对比模型。
关键词:
卷积神经网络;注意力机制;息肉检测;皮肤损害中图分类号:TP394.1文献标志码:A开放科学(资源服务)标识码(OSID):文章编号:1003-3106(2023)09-198
1-09
RegionSegmentationMethodBasedonFullResolutionAttention
U NetNeuralNetwork
JILi
(CollegeofConstructionEngineering,JiangsuCollegeofEngineeringandTechnology,Nantong226007,China)Abstract:Inmedicalimages,therearesignificantdifferencesamongtheregionsofpolypandskinlesion,whichleadstolowersegmentationaccuracy.Tosolvethisproblem,anewimagesegmentationmethodforlesionregionisproposedbasedondeeplearningtechnique.Firstly,attentionmechanismisintroducedbeforeconcatenationofthefeaturemapsoftheencoderanddecoderofU Net,tomakethenetw
orkfocusontheinterestedregionoflesion.Atthesametime,theresponsesignalsofthenon lesionregionaresuppressed.Then,anewdecodernetworkisaddedtoconcatenatethefeaturemapsofencoderanddecoderwiththesamescale,outputtingafullresolutionfeaturemap.Finally,theregionsoflesionaresegmentedbyU Netnetworkbasedonthefullresolutionattentionfeaturemap.Theexperimentalresultsshowthat,comparedtoothersegmentationmodels,theproposedmethodhasbetter
segmentationperformanceonpolypandskinlesion.
Keywords
:convolutionalneuralnetwork;attentionmechanism;polypdetection;skinlesion
收稿日期:
2023-06-11
基金项目:江苏高校哲学社会科学研究基金项目(2018SJA1247
FoundationItem:PhilosophyandSocialScienceResearchFundforJiangsuUniversities(2018SJA1247
0 
引言
医学影像[1
]在现代医学的临床诊断中扮演着重要的角,医生凭借专业知识和医疗经验对医学影像进行分析,将其作为判断患者健康状况的依据。随着医学影像成像质量的提升,准确提取医学图像中的病变区域变得格外重要。例如,血管壁的厚度可为动脉粥样硬化的诊断提供重要依据[2
],皮损的分布情况可为皮肤病的诊断提供重要依据[3
],息肉
的形状和大小可为胃肠道息肉病的诊断提供重要依据[4
]。准确地分割病变区域有助于医生提高临床诊断的客观性与准确性,然而,不同病情下病变区域的形状与尺寸差别较大,这为病变区域的准确分割带来了极大的难度[5
]。
早期提取医学图像病变区域的方法主要包括基于数学模型分析和基于图像分割2种类型,其中常见的算法有基于小波域概率图模型法[6
]、基于阈值的分割法[7]与基于主动轮廓模型的分割法[8
]等。总体而言,这2类方法易于实现且计算效率高,但其像素分类依据大多仅考虑了病变区域的部分特征,信号与信息处理
对不同病情所引起病变区域的分割性能存在较大的起伏[6]。随着深度学习技术的发展,多种神经
网络模型被成功应用于医学图像处理任务,其中U形网络(U Net)[9]在医学图像分割任务上展现出明显的优势。Anand等[10]将U Net模型应用于皮肤损害性卟啉病的临床诊断,U Net模型对医学图像皮肤病损分割的平均交并比(Intersection over Union,
IoU)高达94.37%,平均Dice系数高达88.11%。潘沛克等[11]成功将U Net模型应用于磁共振(MR)图
像的鼻咽肿瘤分割任务,将U Net模型的最大池化操作替换为卷积操作,以避免U Net模型在编码过程中的信息损失;最终,该模型对鼻咽肿瘤的分割性能优于基于图像块的卷积神经网络以及全卷积神经网络。Long等[12]认为U Net网络在下采样与上采样过程中丢失了MRI医学图像的部分重要特征,导致对MRI图像中形状差异大的目标分割性能较差;因此在U Net网络编解码的过程中引入空间信息与通道信息,使最终的特征图中包含丰富的细节信息,提高了分割的边缘精度。李大湘等[13]通过在U
Net网络的编码阶段增加起始(Inception)模块,对压缩特征图进行空洞卷积,在解码阶段增加注意
力机制;通过上述手段有效提高了U Net网络对视网膜细小血管的分割精度。U Net网络编码阶
段能提取目标在图像中的上下文语义信息,在解码阶段通过拼接特征图能产生精细的特征,U Net网络对语义简单的医学图像具有突出的优势。然而,上述研究[10-13]表明U Net网络在下采样过程中存在一定的特征损失,导致对病变区域不规则边缘及细小血管边缘的识别效果不佳,进而导致
U Net网络对不同病情病变区域的分割精度产生影响。针对该问题,研究人员大多通过在编码器
与解码器之间增加连接来增加传入解码器的信息量[14-16],但此类措施依然会损失一部分有价值的深层信息。
为了提高U Net网络对不同病情病变区域的分割性能,提出了一种增强的U Net网络———Full
ResolutionAttentionU Net(FRAU Net),FRAU Net网络对U Net的结构进行了2点改进:①在将编码器特征图与解码器特征图拼接之前增加注意力机制,使网络关注于感兴趣的病变区域,同时抑制非病变区域的响应信号。②增加一个新的解码器网络,将同尺度的编码器特征图与解码器特征图拼接融合,获得全分辨率特征图。本文通过上述2点改进措施,使U Net网络在全分辨率注意力特征图上对病变区域进行分割,以提高U Net网络对不同病情病变区域的分割精度。
1 FRAU Net网络
1.1 U Net网络结构
U Net主干网络结构如图1所示。图1中,卷积层下方的数字表示该卷积层的卷积核数量,其主干网包含一个编码器子网与一个解码器子网。编码器与解码器均包含4个子模块,编码器每个子模块通过卷积运算对输入特征图进行下采样,解码器每个子模块通过转置卷积运算对输入特征图进行上采样。
编码器的每个子模块由2个卷积层、一个激活层与一个最大池化层构成。卷积核大小为3×3,激活层的激活函数为线性整流函数(RectifiedLinear
Unit,ReLU),池化窗口大小为2×2。编码器每次下采样使卷积核数量翻一倍,输入图像经4个子模块
共输出3个尺度的语义特征图。
解码器的每个子模块由一个转置卷积层、一个拼接层与2个卷积层构成。转置卷积核大小为2×2,通过转置卷积对输入特征图进行上采样,使卷积核数量减半。2个卷积层的卷积核大小均为
3×3,激活层的激活函数为ReLU。解码器输出的特征图传入一个卷积层与激活层,产生输入图像的分
割结果,该卷积层的卷积核大小为1×1,激活函数为S形(Sigmoid)函数。
U Net网络的结构具有2个特点:①U Net网络将编解码器相同尺度的特征图拼接融合,而不同尺
度的特征图之间存在较大的语义鸿沟;②U Net网络未能充分利用输入图像的浅层特征,而浅层特征主要包含了图像的全局信息,包括目标位置与语义关系等。
信号与信息处理
图1 
U Net
主干网络结构
Fig.1 StructureofU Netbackbonenetwork
1.2 FRAU Net
网络结构
虽然U Net网络采用跳跃(skip)连接能有效还原深层特征图的信息,但在网络的解码阶段会损失部分有价值的深层信息,致使对医学小目标或不规则边缘的分割精度受限。本文提出FRAU Net来解决该问题,其网络结构如图2所示。FRAU Net网络与U Net网络在结构上主要存在
2点差异:
①FRAU Net网络增加一个解码器子网,
即图2中底部区域。通过Concat操作将各级特征传入特征聚合层进行聚合,新增的解码器将编解码器子网相
同尺度的特征图融合,建立全分辨率特征
图。②FRAU Net网络在主干网多尺度特征图拼接处理之前增加一个注意力机制,即图2中的顶部区域。注意力机制使网络关注于感兴趣的病变区域,抑制非病变区域的信号响应。全分辨率特征图中包含输入图像的粗粒度语义特征与细粒度外表特征,避免主干网在编码过程中丢失有用的特征信息。在全分辨率特征图上对病变区域进行分割,不仅能提升对小目标的分割性能,也能提高对目标边
dj网站
缘的分割精度。
图2 
FRAU Net
网络结构
Fig.2 StructureofFRAU Netnetwork
编码器共包含4个模块,假设编码器的每个模块为Ei
,其中i∈{1,2,3,4}
。每个Ei
包含2个卷积层、ReLU激活层以及一个最大池化层。最大池化层将特征图的长度与宽度减半,通过对通道数量加倍处理来对该特征图进行降维补偿。将瓶颈层表
示为BN,BN输出的深层特征图传入解码器。解码器共包含4个模块,假设解码器的每个模块
为Dj
,其中j∈{1,2,3,4}。每个Dj
对输入特征图进
行转置卷积,再与同尺度Ei
输出的特征图拼接,所产生的特征图传入2个连续的CNN层与ReLU激活层。
信号与信息处理
FRAU Net
网络通过增加skip连接将编码器的
特征图传入新的解码器子网,新解码器子网将各级编码器Ei
与Dj
输出的特征图拼接。然后,利用转置卷积使各尺度拼接特征图与输入图像的分辨率相等。最终,对注意力特征图与全分辨率特征图进行加权融合,获得注意力全分辨率特征图。假设编码器第i个模块Ei
下采样输出的特征图为Xi
,Ei
池化层输出的特征图为Pi
,解码器第j个模块Dj
输出的特征图为Yj
。可将FRAU Net网络产生的特征图集合表示为:
([Pi
,Yj
])T
,n<4([Pi
,Xi
])T
,n=4{,
(1)
式中:“T”为转置卷积运算符,转置卷积的步长为2n
,“[.]”表示特征图拼接操作。
FRAU Net网络新增解码器子网输出的特征图包含编码器与解码器提取的各层特征信息;然后将注意力特征图与4个全分辨率特征图融合成注意力全分辨率特征图;最终,传入一个卷积层与一个计算
最大值(Softmax)层,卷积层的通道数量为128,
Soft max层基于全分辨率特征图来分割目标。
FRAU Net网络采用二值交叉熵作为网络的代价函数,可表示为:
LBCE
=1
N∑
j=1
[yj
·(ln(y′j
))+(1-yj
)·(ln(1-y′j
))],(
2)式中:
N为特征图的像素数量,yj
为第j个像素的正定值,y′j
为第j个像素被FRAU Net网络Softmax函
数计算的激活值。
1.3 FRAU Net网络的注意力机制
U Net网络通过在下采样与上采样之间建立skip连接来获得输入图像的空间信息,该机制能有效提取多尺度特征信息,但也引入了大量冗余的下采样特征。本文在编解码器的skip连接上增加注意力机制,使网络在特征图拼接之前关注感兴趣区域的激活信号,抑制非感兴趣区域的激活信号。注意力机制的网络结构如图3所示。图3中网络的下方路径负责分析特征图中各特征的相对重要性,再将输入特征图与重要性图相乘,输出加权调和图,该图能增强显著信号,
抑制冗余信号。图3 注意力模块的网络结构
Fig.3 Networkstructureofattentionmodule
由图3可知,注意力模块的2个输入信号为x
与gj
。xi
为编码器第i层skip连接传入的信号,包含丰富的空间特征。xi
的数学形式可表示为:
xmi
=σ∑c′∈F
c′
i-1 k
c′,
()
,(3)
式中:σ(
)为ReLU激活函数,m为特征图的空间维度,
c为特征图的通道维度,c′为编码器第i个模块输出的特征图通道索引,
Fi
表示编码器第i个模块输出的特征图数量,“ ”为卷积运算符,k为卷积核。
gj
为解码器第j层输出的特征图,该特征图包含丰富的深度特征图与上下文信息。假设注意力权重为α,其取值为[0,1]。在训练过程中,对图中的显著像素赋高权值,使网络关注于感兴趣区域的学习。注意力模块输出特征图与注意力系数的乘积,可表示为:pI
att=(ψ(σ(WTx
xiI
+WTg
gj
+bg
)))T
+bψ
,(4)αIi
=ζ(pIatt
(xIi
,gj
;θatt
)),(5)式中:Wx与Wg
分别为编码器与解码器的权重向量,ψ()为ReLU激活函数,bψ
为ReLU激活的偏置项,bg为解码器偏置项,ζ()为Sigmoid激活函数,θ
att
为神经网络的参数集。
1.4 FRAU Net网络的特征融合模块计算全分辨率注意力特征图的特征融合模块如图4所示。
从图4可以看出,特征融合模块对新解码器子网提取的4个尺度特征图分别进行转置卷积运算,利用转置卷积使各尺度拼接特征图与输入图像的分辨率相等,即全分辨率特征图。然后,将注意力特征图与4个全分辨率特征图依次拼接,传入卷
信号与信息处理
积层处理。最终,求和层输出全分辨率注意力特征
图,
在该特征图上对病变区域进行分割处理。
图4 特征融合模块
Fig.4 Featurefusionmodule
2 
实验结果与讨论
在一台计算机上进行实验,实验环境如下:CPU为Inteli5 9600KF,GPU为NVIDIAGeForceGTX1080Ti,
内存大小为32GB。操作系统为Ubuntu16.04,
框架为Keras,后端为TensorFlow,工具包为CUDA10.0,神经网络编程库为cuDNN7.6,编程平台为Python3.7。
2.1 性能评价标准
实验从3个不同角度评估各分割模型的分割性能,分别为分割准确率、分割Dice系数与分割敏感性。分割准确率评估了目标像素分割的总体性能,Dice系数能反映目标边缘的分割效果,分割敏感性能反映病变区域的查全率。目标分割准确率的计算式为:
Acc=
TP+TN
TP+FP+FN+TN
,(
6)式中:TP、FP、FN与TN分别为目标分割的真正类、假正类、假负类与真负类的像素数量。Dice系数的计算式为:
Dice=
2×Pre×RecPre+Rec
,(7)式中:Pre为目标分割精度,Rec为目标分割召回率。
  Pre的计算式为:
Pre=
TP
TP+FP。
(8)  Rec
的计算式为:
Rec=
TPTP+FN
(9)
敏感性的计算式为:
Sen=
TPTP+FN
。(10)
2.2 
实验数据集
为评估FRAU Net网络对不同病情病变区域的分割效果,采用2个公开的医学图像数据集Kvasir SEG[17
]与ISIC[18
]作为实验数据集。Kvasir SEG数据集是近年由Jha等整理的胃肠道息肉医学图像数据集。图5(a)与图5(b)所示是该数据集的图像实例。从图中可以看出,不同息肉的形状、尺寸与颜均存在较大的差别,分割难度较大。Kvasir SEG数据集共包含1000幅图像,每幅图像均提供了胃肠道息肉的正定分割掩码。该数据集随机选择700幅
图像作为训练集,100幅作为验证集,剩余200幅作
为测试集。ISIC数据集是目前规模最大的皮肤镜医学图像库,包含了黑素瘤、痣与脂油溢出性角化病引起的皮损症状。采用ISIC2018作为本文的另一个实验数据集。图5(c)与图5(d)所示是该数据集的图像实例,从图中可以看出,皮损边缘不规则,且还受到体毛等因素的干扰,分割难度较大。ISIC
2018数据集共包含2594幅训练图像、
100幅验证图像、
1000幅测试图像。对所有实验数据集进行如下的预处理:将图像像素值正则化成[
0,1],图像尺寸缩放为512pixel×512pixel
信号与信息处理