第37卷第5期2023年9月
兰州文理学院学报(自然科学版)
J o u r n a l o fL a n z h o uU n i v e r s i t y o
fA r t s a n dS c i e n c e (N a t u r a l S c i e n c e s )V o l .37N o .5
S e p
t .2023收稿日期:2023G04G10
基金项目:校级杰出青年科研人才培育计划项目(2018J C Q N 010);甘肃省高校教师创新基金项目(2023B G258
)作者简介:梁青青(1983G),女,河北涞源人,讲师,硕士,研究方向为语音信号处理.E Gm a i l :281930976@q q
.c o m.㊀㊀文章编号:2095G6991(2023)05G0047G05
基于C N N GG R U GC T C 的藏族学生
梁青青,周小燕,赵春艳
(兰州文理学院传媒工程学院,甘肃兰州730000
)摘要:为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k ,C N N )㊁门控循环单元(G a t e dR e c u r r e n tU n i t ,G R U )技术和连接时序分类技术(C o n n e c t i o n i s tT e m p o r a lC l a s s i f i c a t i o n ,C T C )搭建C N N GG R U GC T C 声学模型,提出了一种发音偏误检测的方法.该方法将语音转换为一张图像作为输入,对完整的语谱图进行数据提取,利用深度全序列卷积神经网络进行建模,使用自动语音识别框架来进行发音偏误检测.实验结果表明:在该模型下,系统检测准确率为88.55%,错误拒绝率为7.16%,联合错误率为14.94%.该方法可以有效检测出错误发音,性能优于其他模型,可以用于检测和纠正藏族学生学习普通话时的错误发音,提高藏族学生的普通话发音水平.关键词:发音偏误检测;卷积神经网络;门控循环单元;连接时序分类中图分类号:T P 391㊀㊀㊀文献标志码:A
C N N GG R U GC T CB a s e d
D e t e c t i o no f
P u t o n g h u aM i s p r o n u n c i a t i o nB y T
i b e t a nS t u d e n t s L I A N GQ i n g Gq i n g ,Z H O U X i a o Gy a n ,Z HA OC h u n Gy
a n (S c h o o l o fM e d i aE n g i n e e r i n g ,L a n z h o uU n i v e r s i t y o
fA r t s a n dS c i e n c e ,L a n z h o u730000,C h i n a )A b s t r a c t :I no r d e r t o i m p r o v e t h e p r o n u n c i a t i o n l e v e l o fT i b e t a n s t u d e n t s l e a r n i n g P u t o n g
h u a ,t h i s p a p e r d e s i g n s a n d r e c o r d s t h e e r r o r s p e e c hc o r p u s a c c o r d i n g t
o t h e c h a r a c t e r i s t i c s o fP u Gt o n g h u a a n dT i b e t a n p r o n u n c i a t i o n .C o m b i n e dw i t hC o n v o l u t i o n a lN e u r a lN e t w o r k (C N N ),G a t e dR e c u r r e n tU n i t (G R U )a n dC o n n e c t i o n i s tT e m p
o r a lC l a s s i f i c a t i o n (C T C ),am o d e l o f C N N GG R U GC T C i s b u i l t ,a n d a p r o n u n c i a t i o n e r r o r d e t e c t i o nm e t h o d i s p r o p
o s e d .T h em e t h Go d c o n v e r t s t h es p e e c hi n t oa ni m a g ea s i n p u t ,e x t r a c t s t h ed a t af r o mt h ec o m p l e t es p
e e c h s p e c t r u m ,u s e s t h ed e e p
f u l l s e q u e n c ec o n v o l u t i o n a ln e u r a ln e t w o r kf o rm o d e l i n
g ,a n du s e s t
h e a u t o m a t
i c s p e e c h r e c o g n i t i o n f r a m e w o r k t o d e t e c t t h e p r o n u n c i a t i o nb i a s .T h e e x p
e r i m e n Gt a l r e s u l t s s h o wt h a t t h e s y s t e md e t e c t i o na c c u r a c y r a t e i s 88.55%,t h e
f a l s e r e j e c t i o n r a t e i s 7.16%,a n d t h e j o i n t e r r o r r a t e i s 14.94%u n d e r t h em o d e l .T h em e t h o dc a ne f f e c t i v e l y d e Gt e c tm i s p r o n u n c i a t i o n .T h e p e r f o r m a n c eo f t h i sm o d e l i s s u p
e r i o r t o t h e r e s u l t so
f t h eo t h e r m o d e l s ,w h i c h c a nb e u s e d t o d e t e c tT i b e t a n s t u d e n t s  m i s p r o n u n c i a t i o n s o f P u t o n
g
h u a l e a r n G
i n g a n d p r o v i d e c o r r e c t i v e f e e d b a c k t oh e l p t h e mi m p r o v e t h e i rP u t o n g
h u a p r o n u n c i a t i o n l e v Ge l .
K e y w
o r d s :m i s p r o n u n c i a t i o nd e t e c t i o n ;c o n v o l u t i o n a l n e u r a l n e t w o r k (C N N );G a t e dR e c u r Gr e n tU n i t (G R U );c o n n e c t i o n i s t t e m p o r a l c l a s s i f i c a t i o n (C T C )
㊀㊀普通话作为中国这一多民族国家的通用语言,在推广文化教育㊁提升全民族素质㊁繁荣社会经济㊁促进各民族㊁各地区之间的交流发挥着非常重要的作用[1].作为藏族学生,他们不仅要精通藏语,还要掌握普通话,这不仅可以提高藏族学生的语言表达能力,还有利于他们适应新时代复杂多变的社
会结构.由于大部分藏族学生从小就用藏语交流,加上汉字储备量不够,导致藏族学生在学习普通话时存在不会发音㊁发音不准确㊁自信心不足等问题[2]近年来,计算机辅助语音训练系统(C o m p u t e r A s s i s t e d P r o n u n c i a t i o n T r a i n i n g S y s t e m,C A P T)因可以帮助学习者及时发现和纠正错误发音,避免重复错误发音形成习惯[3],提高学习者的学习效率而受到学者的关注.
计算机辅助语音训练系统的关键技术之一是精确的语音识别技术.卷积神经网络(C N N)不仅可以显著提高语音识别的准确度,而且已经成功应用于C A P T中.I B M㊁微软㊁百度等多家机构相继推出了自己的C N N模型,在英文领域识别准确率达到95%,科大讯飞语音研究院王海坤等[4]提出了深度全序列卷积神经网络的语音识别框架,并为汉母语人开发了普通话在线训练系统.基于上述研究,本文针对以藏语为母语的学习者发音偏误问题进行研究,提出基于C N NGG R UGC T C的端到端的发音偏误检测方法[5],设计并录制了藏族学生的普通话发音偏误语料库.该语料库覆盖了所有音节,设计了64种偏误类型,录制了7200句语音语料进行测试,通过实验精确出具体的发音偏误,并给出反馈,为他们提供面向计算机辅助发音训练系统的技术.
1㊀语料库设计
1.1㊀汉语发音特点
汉语属于汉藏语系,现代汉语是语素-音节文字.从记录的语音单位来看,一个汉字和一个音节是相
对应的.一个汉字的读音就是一个带调音节.除了零声母外,音节由声母和韵母构成,而韵母又包括韵头㊁韵腹和韵尾.一个音节可以没有辅音声母,也可以没有韵头和韵尾,但都有声调和韵腹.构成音节的汉语拼音有23个声母,24个韵母,阴平㊁阳平㊁上声和去声4个声调.
1.2㊀藏语特点
藏语是由字母组合形成的拼音文字,每个字母都有自己的发音.字母的组合是由音与音之间的拼合而组成的.藏语有30个辅音字母和4个元音字母,即所有藏文字都是由这34个字母组成的.
1.3㊀文本语料设计
发音偏误检测需要对藏语发音者与汉语普通话发音偏误情况进行分析,文本语料库应具备以下条件:①文本语料库应覆盖汉语普通话中所有由声母㊁韵母和声调组合而成的音节;②藏语在发音时浊辅音和辅音韵尾趋于简化,在构建文本语料库时需要对这两种情况做到全覆盖;③需要考虑声调发生变化的情况,例如:由2个三声的字组成词时,第1个字通常需变为二声;一些词语及句子中存在声调变成轻声的情况.
1.4㊀语音语料的录制
(1)录音者应该尽量选择普通话发音不是很好的且藏语为母语的学生,他们平时说普通话较少,发音更
容易出错,对发音偏误检测更具有代表性;
(2)录音者在说普通话时应存在一定的口音,这样对偏误检测覆盖更广泛;
(3)录音环境选择无背景噪声的专用录音棚,录音设备选择专用麦克风,通过电脑软件提示声音的频率和音量大小,保证声音大小前后一致,增加对检测的准确度;
(4)音频语料的采样率设置为44.1k H z,采样大小为16位.
按照以上要求,本文设计了1200句以藏语为母语的学生学习普通话的文本语料,并以此建立藏族学生学习普通话的偏误语音语料库.语料库由6名(3男3女)藏族的大一学生参与录制.2㊀模型建立
采用基于语音识别的框架,分别考察发音音素偏误和发音声调偏误.
2.1㊀发音偏误整体检测流程
文中使用基于自动语音识别(A u t o m a t i c S p e e c hR e c o g n i t i o n,A S R)框架来进行发音偏误检测[6],具体检测的流程如图1所示.系统首先输入要检测的语句,将学习者的语音通过A S R检测器来进行检测识别,同时通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,以及对应的标准化转录[7];然后,系统根据识录是否一致来判断发音的正确性;最后,根据二者不同向发音者反馈纠正方法.
84㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第37卷
图1㊀发音偏误检测流程
2.2㊀发音偏误CNN GGRU G
CTC 模型的建立㊀㊀卷积神经网络(C N N )由输入层㊁隐含层和输出层组成,隐含层包括C N N V 卷积层㊁R e L U 激活层㊁P o o l 池化层㊁F C 全连接层,
具有学习能力[8]
本文利用深度全序列卷积神经网络进行建模.它将一句语音转换为一张图像作为输入,避免语音信号进行傅里叶变换后使用滤波器来提取特征导致频谱上信息的丢失.该模型由5部分组成,具体结构如图2所示
图2㊀C N N GG R U GC T C 结构
㊀㊀第1部分为输入层,
输入完整包含原始频谱信号的二维语谱图.由于使用梯度下降算法进行学习,该数据不能直接放进卷积神经网络进行训练,因此,需要对其进行标准化处理.为了使批处理中的所有语句长度相同,需要对输入数据进行零填充;第2部分是卷积,主要对输入数据进行特征提取,这一部分包含了6个C N N 层,2个最大池化M a x P o o l 层,
然后是对其进行归一化处理.这部分通过对输入层的数据进行提取和处理,得到详细的声学特征参数;第3部分是G R U 层,它可以更好地捕捉深层连接,并改善梯度消失问题,
用来获得更详细的时间声学特征;第4部分是时间分布密集层(M L P )
层[9
],该层输出值被传递到S o f t m a x 逻辑回归进行分类输出;最后一部分是C T C 输出层,
用来生成预测音素序列.3㊀实验及结果分析
3.1㊀模型训练
该模型将标准发音库作为训练集,将偏误发
音库作为测试集,语谱图作为整个模型的输入特
征参数[10]
首先对语音信号进行加窗㊁分帧和提取语谱图.本实验使用的窗函数为汉明窗,以20
m s 为一帧,帧移为10m s .卷积层是由3个卷积-卷积-池化对组成,
卷积层参数包括卷积核大小㊁步长和填充,6个卷积层的卷积核大小设置为3ˑ3,步长为2ˑ2.M a x P o o l 最大池化层左右是特征融合和降维,每个池化层的池化窗口大小设
置为2ˑ2.训练过程中学习率(L e a r n i n g R
a t e )设置为0.008,批次大小(B a t c hS i z e )设置为16,数据轮次(E p
o c h )设置为300次,采用T e n s o r Gf l o w 和K e r a s 工具包来实现模型训练.3.2㊀评价指标
实验的结果共有4种:①正确接受(T r u eA c G
c e p
t a n c e ,T A ).一个待测试正确发音样本,经过算法对比被检测为正确发音;②错误拒绝(F a l s e A c c e p t a n c e ,F A ).一个待测试正确发音样本,经过算法对比被检测为错误发音;③错误接受
(F a l s eA c c e p t a n c e ,F R ).一个待测试错误发音样本,经过算法对比被检测为正确发音;④正确拒绝(T r u eR e j
e c t i o n ,T R ).一个待测试错误发音样本,经过算法对比被检测为错误发音.
藏族男歌手根据这4种检测结果对系统的性能通过错误
接受率(F a l s eA c c e p
t a n c eR a t e ,F A R )㊁错误拒绝率(F a l s eR e j
e c t i o nR a t e ,F R R )㊁检测准确率(D e Gt e c t i o nA c c u r a c y R a t e ,D A R )来衡量.F A R (式1)表示发音者的错误发音被系统认为正确的百分比,F F R (式2)表示发音者的正确发音被系统认为错误的百分比,D A R (式3)表示系统的检测结果与发音者的发音结果一致的百分比,这3个评计算公式为:
F A R =F A
F A +T R .
(1)F R R =F R
F R +T A
(2
)9
4第5期
梁青青等:基于C N N GG R U GC T C 的藏族学生普通话发音偏误检测
D A R =T A +T R
F A +F R +T A +T R
(3
)3.3㊀实验结果
在上述3个评价指标中,在保证较高正确率
的前提下,降低另外两类错误率.实验结果表明,在该模型下,系统检测准确率为88.55%,错误拒绝率为7.16%,联合错误率为14 94%,
与文献[11G13
]相比各个指标都取得了较好效果,不同模型实验结果如表1所列.同时本文的数据不需要手工标注和强制对齐数据,该模型可以检测声母㊁
韵母和声调偏误,检测范围更广.
表1㊀不同模型实验结果
声学模型F A R
F R R
D A R
GMM GHMM 46.7539.6157.89D N N GHMM
44.8246.9847.50D F C N N GC T C 16.97.8387.07C N N GG R U GC T C
14.947.1688.55为了分析具体的发音偏误情况,本文将发音偏误分为声母偏误㊁韵母偏误和声调偏误3种类型,并对其做了统计,对比情况如图3所示
图3㊀3类偏误占比对比
㊀㊀从图3可知,
藏族学生在学习普通话时声调的偏误最多,其次是韵母,声母相对比较容易掌握.虽然汉语和藏语都属于同一个语系,但是这两者的声调系统差异较大,在学习中需要加强.由于声调的偏误较多,本文在阴平㊁阳平㊁上
声㊁去声和轻声中分析了每种声调的偏误情况,结
果如图4所示
图4㊀5种声调发音偏误检测结果
㊀㊀从图4可知,
藏族学生在学习普通话时,对阴平㊁上声和去声的区分程度较差,在学习的过程中需要对这3种声调进行加强.阴平和轻声相对比较容易感知,学习起来比较容易.
实验中藏族学生对普通话的21种声母感知
检测如图5所示.实验结果表明,藏族学生在普通话发音中,存在n 与l ㊁g 与k ㊁h 与f 分不清楚的情况,舌根前音z ㊁c ㊁s 和舌根后音z h ㊁c h ㊁s h 也容易被混淆,这些声母在学习中本就是难点,因此这几种情况需要特别加强练习
图5㊀21种声母发音偏误检测结果
㊀㊀38种韵母发音偏误统计结果如图6所示,
本实验重点研究前10种偏误情况,这10种韵母发音偏误的统计结果如图7所示.结果显示,错误频率最高的为 N g  ,也就是日常的 嗯 字,该音容易被发音为 e n  .另外发音偏误主要集中在韵尾为 n g  的情况,也就是普通话中的后鼻音,多数情况下这种音节容易被发音为前鼻音,以上结果需要在学习时加强关注
图6㊀38
种声母发音偏误检测结果
图7㊀10种高频韵母发音偏误检测结果
5㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第37卷
4㊀结论
本文设计并录制了藏族学生学习普通话的发音偏误语料库,建立了基于C N NGG R UGC T C模型的发音偏误检测系统.实验结果表明该方法可以有效提供发音偏误信息,为藏族学生学习普通话提供帮助.今后我们会选择更多来自不同方言区的人加入语料录制,继续完善语料库建设,将其它深度学习方法应用到发音偏误检测上提高检测精度.
参考文献:
[1]涂涛,李彭曦,少数民族地区双语教学新途径  藏区双语多媒体字源识字汉字教学研究[J].中国电化教育,2012(3):22G25.
[2]李娟.新媒体技术在藏汉双语教育实践中的应用研究  以甘肃省甘南藏族自治州为例[J].西北师范大学学报(社会科学版),2013,50(2):113G118.[3]段海凤.藏语安多方言词重音对汉语普通话声调习得的影响[D].北京:中央民族大学,2012.[4]屈乐园,解焱陆,张劲松.基于发音特征的发音偏误趋势检测研究[J].北京大学学报(自然科学版),2017,53(2):239G246.
[5]周世华.基于C N N的藏族学生国家通用语发音偏误检测研究[D].兰州:西北师范大学,2021.[6]张劲松,高迎明,解焱陆.基于D N N的发音偏误趋势
检测[J].清华大学学报(自然科学版),2016,56(11):1220G1225.
[7]甘振业,周世华,曾浩,等.基于D F C N NGC T C端到端的藏族学生普通话发音偏误检测[J].西北师范大学学报(自然科学版),2020,56(5):49G53,108.[8]王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1G11.
[9]依皮提哈尔 买买提,吾守尔 斯拉木.面向新疆双语教学的远程教学系统的设计与实现[J].中文信息学报,2010,24(4):123G128.
[10]张珑.汉语普通话发音质量自动评测方法研究[D].哈尔滨:哈尔滨工业大学,2014.
[11]杨龙飞,解焱陆,张劲松.基于卷积神经网络的发音偏误趋势检测[A].第十四届全国人机语音通讯学
术会议(N C MM S C'2017).杭州:浙江工学院,2017:10G14.
[12]HU W,Q I A N Y,S O O N GFK,e t a l.I m p r o v e dm i sGp r o n u n c i a t i o n d e t e c t i o n
w i t h d e e p n e u r a ln e t w o r k t r a i n e da c o u s t i c m o d e l sa n dt r a n s f e r l e a r n i n g b a s e d l o g i s t i cr e g r e s s i o nc l a s s i f i e r s[J].S p e e c h C o mm u n iGc a t i o n,2015,67:154G166.
[13]W I T TS M,Y O U N GSJ.P h o n eGl e v e l p r o n u n c i a t i o n s c o r i n g a n d a s s e s s m e n t f o r i n t e r a c t i v e l a n g u a g e l e a r n i n g[J].S p e e c h C o mm u n i c a t i o n,2000,30(2):95G108.
[责任编辑:李㊀岚]
(上接第46页)
[5]J I N HJ,S U IS H,Z HU C X,e t a l.A x i a l f r e ev i b r aGt i o no f r o t a t i n g F G p i e z o e l e c t r i cn a n oGr o d sa c c o u n t i n g f o r n o n l o c a l a n ds t r a i n g r a d i e n t e f f e c t s[J].J o u r n a l o f V i b r a t i o nE n g i n e e r i n g&T e c h n o l o g i e s,2022:1G13.[6]胡统号,沈纪苹,姚林泉.弹性边界径向功能梯度压电环板面内振动[J].振动与冲击,2018,37(8):225G237.[7]刘旭,姚林泉.热环境中旋转功能梯度纳米环板的振动分析[J].应用数学和力学,2020,41(11):1224G1236.
[8]韩振南,随岁寒,刘金建.局部支承功能梯度板的自由振动分析[J].海南师范大学学报(自然科学版),2022,35(2):186G193.
[9]S U I SH,Z HU CX,L IC,e t a l.F r e ev i b r a t i o no f a x iGa l l y t r a v e l i n g m o d e r a t e l y t h i c kF G p l a t e s r e s t i n g o n eGl a s t i c f o u n d a t i o n s[J].J o u r n a lo fV i b r a t i o nE n g i n e e rG
i n g&T e c h n o l o g i e s,2022:1G13.
[10]K UMA R V,S I N G H SJ,S a r a nV H,e t a l.V i b r a t i o n c h a r a c t e r i s t i c so f p o r o u s F GM p l a t e w i t h v a r i a b l e t h i c k n e s s r e s t i n g o nP a s t e r n a k s f o u n d a t i o n[J].E uGr o p e a n J o u r n a l o fM e c h a n i c sGA/S o l i d s,2021,85:104G124.
[11]李世荣.功能梯度材料明德林矩形微板的热弹性阻尼[J].力学学报,2022,54(6):1601G1612.[12]S H E NJ P,WA N GPY,G A N W T,e t a l.S t a b i l i t y o f v i b r a t i n g f u n c t i o n a l l y g r a d e d n a n o p l a t e s w i t h a x i a l m o t i o nb a s e do nt h en o n l o c a l s t r a i n g r a d i e n t t h e o r y [J].I n t e r n a t i o n a l J o u r n a l o fS t r u c t u r a lS t a b i l i t y a n d
D y n a m i c s,2020,20(8):205G218.
[责任编辑:李㊀岚]
15
第5期梁青青等:基于C N NGG R UGC T C的藏族学生普通话发音偏误检测