基于CNNGGRUGCTC的藏族学生普通话发音偏误检测

第３７卷第５期２０２３年９月

兰州文理学院学报(自然科学版)

J o u r n a l o fL a n z h o uU n i v e r s i t y o

fA r t s a n dS c i e n c e (N a t u r a l S c i e n c e s )V o l ．３７N o ．５

S e p

t ．２０２３收稿日期:２０２３Ｇ０４Ｇ１０

基金项目：校级杰出青年科研人才培育计划项目(２０１８J C Q N ０１０)；甘肃省高校教师创新基金项目(２０２３B Ｇ２５８

)作者简介：梁青青(１９８３Ｇ)，女，河北涞源人，讲师，硕士，研究方向为语音信号处理．E Ｇm a i l :２８１９３０９７６＠q q

．c o m．㊀㊀文章编号:２０９５Ｇ６９９１(２０２３)０５Ｇ００４７Ｇ０５

基于C N N ＧG R U ＧC T C 的藏族学生

普通话发音偏误检测

梁青青，周小燕，赵春艳

(兰州文理学院传媒工程学院，甘肃兰州７３００００

)摘要：为了提高藏族学生学习普通话的发音水平，根据普通话和藏语发音特点设计并录制了一个偏误语音语料库，并结合卷积神经网络(C o n v o l u t i o n a lN e u r a lN e t w o r k ,C N N )㊁门控循环单元(G a t e dR e c u r r e n tU n i t ,G R U )技术和连接时序分类技术(C o n n e c t i o n i s tT e m p o r a lC l a s s i f i c a t i o n ,C T C )搭建C N N ＧG R U ＧC T C 声学模型，提出了一种发音偏误检测的方法．该方法将语音转换为一张图像作为输入，对完整的语谱图进行数据提取，利用深度全序列卷积神经网络进行建模，使用自动语音识别框架来进行发音偏误检测．实验结果表明：在该模型下，系统检测准确率为８８．５５％，错误拒绝率为７．１６％，联合错误率为１４．９４％．该方法可以有效检测出错误发音，性能优于其他模型，可以用于检测和纠正藏族学生学习普通话时的错误发音，提高藏族学生的普通话发音水平．关键词：发音偏误检测；卷积神经网络；门控循环单元；连接时序分类中图分类号:T P ３９１㊀㊀㊀文献标志码:A

C N N ＧG R U ＧC T CB a s e d

D e t e c t i o no f

P u t o n g h u aM i s p r o n u n c i a t i o nB y T

i b e t a nS t u d e n t s L I A N GQ i n g Ｇq i n g ,Z H O U X i a o Ｇy a n ,Z HA OC h u n Ｇy

a n (S c h o o l o fM e d i aE n g i n e e r i n g ,L a n z h o uU n i v e r s i t y o

fA r t s a n dS c i e n c e ,L a n z h o u７３００００,C h i n a )A b s t r a c t :I no r d e r t o i m p r o v e t h e p r o n u n c i a t i o n l e v e l o fT i b e t a n s t u d e n t s l e a r n i n g P u t o n g

h u a ,t h i s p a p e r d e s i g n s a n d r e c o r d s t h e e r r o r s p e e c hc o r p u s a c c o r d i n g t

o t h e c h a r a c t e r i s t i c s o fP u Ｇt o n g h u a a n dT i b e t a n p r o n u n c i a t i o n ．C o m b i n e dw i t hC o n v o l u t i o n a lN e u r a lN e t w o r k (C N N ),G a t e dR e c u r r e n tU n i t (G R U )a n dC o n n e c t i o n i s tT e m p

o r a lC l a s s i f i c a t i o n (C T C ),am o d e l o f C N N ＧG R U ＧC T C i s b u i l t ,a n d a p r o n u n c i a t i o n e r r o r d e t e c t i o nm e t h o d i s p r o p

o s e d ．T h em e t h Ｇo d c o n v e r t s t h es p e e c hi n t oa ni m a g ea s i n p u t ,e x t r a c t s t h ed a t af r o mt h ec o m p l e t es p

e e c h s p e c t r u m ,u s e s t h ed e e p

f u l l s e q u e n c ec o n v o l u t i o n a ln e u r a ln e t w o r kf o rm o d e l i n

g ,a n du s e s t

h e a u t o m a t

i c s p e e c h r e c o g n i t i o n f r a m e w o r k t o d e t e c t t h e p r o n u n c i a t i o nb i a s ．T h e e x p

e r i m e n Ｇt a l r e s u l t s s h o wt h a t t h e s y s t e md e t e c t i o na c c u r a c y r a t e i s ８８．５５％,t h e

f a l s e r e j e c t i o n r a t e i s ７．１６％,a n d t h e j o i n t e r r o r r a t e i s １４．９４％u n d e r t h em o d e l ．T h em e t h o dc a ne f f e c t i v e l y d e Ｇt e c tm i s p r o n u n c i a t i o n ．T h e p e r f o r m a n c eo f t h i sm o d e l i s s u p

e r i o r t o t h e r e s u l t so

f t h eo t h e r m o d e l s ,w h i c h c a nb e u s e d t o d e t e c tT i b e t a n s t u d e n t s m i s p r o n u n c i a t i o n s o f P u t o n

h u a l e a r n Ｇ

i n g a n d p r o v i d e c o r r e c t i v e f e e d b a c k t oh e l p t h e mi m p r o v e t h e i rP u t o n g

h u a p r o n u n c i a t i o n l e v Ｇe l ．

K e y w

o r d s :m i s p r o n u n c i a t i o nd e t e c t i o n ;c o n v o l u t i o n a l n e u r a l n e t w o r k (C N N );G a t e dR e c u r Ｇr e n tU n i t (G R U );c o n n e c t i o n i s t t e m p o r a l c l a s s i f i c a t i o n (C T C )

㊀㊀普通话作为中国这一多民族国家的通用语言，在推广文化教育㊁提升全民族素质㊁繁荣社会经济㊁促进各民族㊁各地区之间的交流发挥着非常重要的作用[１]．作为藏族学生，他们不仅要精通藏语，还要掌握普通话，这不仅可以提高藏族学生的语言表达能力，还有利于他们适应新时代复杂多变的社

会结构．由于大部分藏族学生从小就用藏语交流，加上汉字储备量不够，导致藏族学生在学习普通话时存在不会发音㊁发音不准确㊁自信心不足等问题[２]近年来，计算机辅助语音训练系统(C o m p u t e r A s s i s t e d P r o n u n c i a t i o n T r a i n i n g S y s t e m,C A P T)因可以帮助学习者及时发现和纠正错误发音，避免重复错误发音形成习惯[３]，提高学习者的学习效率而受到学者的关注．

计算机辅助语音训练系统的关键技术之一是精确的语音识别技术．卷积神经网络(C N N)不仅可以显著提高语音识别的准确度，而且已经成功应用于C A P T中．I B M㊁微软㊁百度等多家机构相继推出了自己的C N N模型，在英文领域识别准确率达到９５％，科大讯飞语音研究院王海坤等[４]提出了深度全序列卷积神经网络的语音识别框架，并为汉母语人开发了普通话在线训练系统．基于上述研究，本文针对以藏语为母语的学习者发音偏误问题进行研究，提出基于C N NＧG R UＧC T C的端到端的发音偏误检测方法[５]，设计并录制了藏族学生的普通话发音偏误语料库．该语料库覆盖了所有音节，设计了６４种偏误类型，录制了７２００句语音语料进行测试，通过实验精确出具体的发音偏误，并给出反馈，为他们提供面向计算机辅助发音训练系统的技术．

1㊀语料库设计

1.1㊀汉语发音特点

汉语属于汉藏语系，现代汉语是语素－音节文字．从记录的语音单位来看，一个汉字和一个音节是相

对应的．一个汉字的读音就是一个带调音节．除了零声母外，音节由声母和韵母构成，而韵母又包括韵头㊁韵腹和韵尾．一个音节可以没有辅音声母，也可以没有韵头和韵尾，但都有声调和韵腹．构成音节的汉语拼音有２３个声母,２４个韵母，阴平㊁阳平㊁上声和去声４个声调．

1.2㊀藏语特点

藏语是由字母组合形成的拼音文字，每个字母都有自己的发音．字母的组合是由音与音之间的拼合而组成的．藏语有３０个辅音字母和４个元音字母，即所有藏文字都是由这３４个字母组成的．

1.3㊀文本语料设计

发音偏误检测需要对藏语发音者与汉语普通话发音偏误情况进行分析，文本语料库应具备以下条件:①文本语料库应覆盖汉语普通话中所有由声母㊁韵母和声调组合而成的音节;②藏语在发音时浊辅音和辅音韵尾趋于简化，在构建文本语料库时需要对这两种情况做到全覆盖;③需要考虑声调发生变化的情况，例如：由２个三声的字组成词时，第１个字通常需变为二声；一些词语及句子中存在声调变成轻声的情况．

1.4㊀语音语料的录制

(１)录音者应该尽量选择普通话发音不是很好的且藏语为母语的学生，他们平时说普通话较少，发音更

容易出错，对发音偏误检测更具有代表性;

(２)录音者在说普通话时应存在一定的口音，这样对偏误检测覆盖更广泛;

(３)录音环境选择无背景噪声的专用录音棚，录音设备选择专用麦克风，通过电脑软件提示声音的频率和音量大小，保证声音大小前后一致，增加对检测的准确度;

(４)音频语料的采样率设置为４４．１k H z，采样大小为１６位．

按照以上要求，本文设计了１２００句以藏语为母语的学生学习普通话的文本语料，并以此建立藏族学生学习普通话的偏误语音语料库．语料库由６名(３男３女)藏族的大一学生参与录制．2㊀模型建立

采用基于语音识别的框架，分别考察发音音素偏误和发音声调偏误．

2.1㊀发音偏误整体检测流程

文中使用基于自动语音识别(A u t o m a t i c S p e e c hR e c o g n i t i o n,A S R)框架来进行发音偏误检测[６]，具体检测的流程如图１所示．系统首先输入要检测的语句，将学习者的语音通过A S R检测器来进行检测识别，同时通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系，以及对应的标准化转录[７]；然后，系统根据识录是否一致来判断发音的正确性；最后，根据二者不同向发音者反馈纠正方法．

８４㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第３７卷

图１㊀发音偏误检测流程

2.2㊀发音偏误CNN ＧGRU Ｇ

CTC 模型的建立㊀㊀卷积神经网络(C N N )由输入层㊁隐含层和输出层组成，隐含层包括C N N V 卷积层㊁R e L U 激活层㊁P o o l 池化层㊁F C 全连接层,

具有学习能力[８]

．

本文利用深度全序列卷积神经网络进行建模．它将一句语音转换为一张图像作为输入，避免语音信号进行傅里叶变换后使用滤波器来提取特征导致频谱上信息的丢失．该模型由５部分组成，具体结构如图２所示

．

图２㊀C N N ＧG R U ＧC T C 结构

㊀㊀第１部分为输入层,

输入完整包含原始频谱信号的二维语谱图．由于使用梯度下降算法进行学习，该数据不能直接放进卷积神经网络进行训练，因此，需要对其进行标准化处理．为了使批处理中的所有语句长度相同，需要对输入数据进行零填充；第２部分是卷积，主要对输入数据进行特征提取，这一部分包含了６个C N N 层,２个最大池化M a x P o o l 层,

然后是对其进行归一化处理．这部分通过对输入层的数据进行提取和处理，得到详细的声学特征参数；第３部分是G R U 层，它可以更好地捕捉深层连接，并改善梯度消失问题,

用来获得更详细的时间声学特征；第４部分是时间分布密集层(M L P )

层[９

]，该层输出值被传递到S o f t m a x 逻辑回归进行分类输出；最后一部分是C T C 输出层,

用来生成预测音素序列．3㊀实验及结果分析

3.1㊀模型训练

该模型将标准发音库作为训练集，将偏误发

音库作为测试集，语谱图作为整个模型的输入特

征参数[１０]

．

首先对语音信号进行加窗㊁分帧和提取语谱图．本实验使用的窗函数为汉明窗，以２０

m s 为一帧，帧移为１０m s ．卷积层是由３个卷积－卷积－池化对组成,

卷积层参数包括卷积核大小㊁步长和填充,６个卷积层的卷积核大小设置为３ˑ３，步长为２ˑ２．M a x P o o l 最大池化层左右是特征融合和降维，每个池化层的池化窗口大小设

置为２ˑ２．训练过程中学习率(L e a r n i n g R

a t e )设置为０．００８，批次大小(B a t c hS i z e )设置为１６，数据轮次(E p

o c h )设置为３００次，采用T e n s o r Ｇf l o w 和K e r a s 工具包来实现模型训练．3.2㊀评价指标

实验的结果共有４种:①正确接受(T r u eA c Ｇ

c e p

t a n c e ,T A )．一个待测试正确发音样本，经过算法对比被检测为正确发音;②错误拒绝(F a l s e A c c e p t a n c e ,F A )．一个待测试正确发音样本，经过算法对比被检测为错误发音;③错误接受

(F a l s eA c c e p t a n c e ,F R )．一个待测试错误发音样本，经过算法对比被检测为正确发音;④正确拒绝(T r u eR e j

e c t i o n ,T R )．一个待测试错误发音样本，经过算法对比被检测为错误发音．

藏族男歌手根据这４种检测结果对系统的性能通过错误

接受率(F a l s eA c c e p

t a n c eR a t e ,F A R )㊁错误拒绝率(F a l s eR e j

e c t i o nR a t e ,F R R )㊁检测准确率(D e Ｇt e c t i o nA c c u r a c y R a t e ,D A R )来衡量．F A R (式１)表示发音者的错误发音被系统认为正确的百分比,F F R (式２)表示发音者的正确发音被系统认为错误的百分比,D A R (式３)表示系统的检测结果与发音者的发音结果一致的百分比，这３个评计算公式为:

F A R ＝F A

F A ＋T R ．

(１)F R R ＝F R

F R ＋T A

．

(２

)９

４第５期

梁青青等：基于C N N ＧG R U ＧC T C 的藏族学生普通话发音偏误检测

D A R ＝T A ＋T R

F A ＋F R ＋T A ＋T R

．

(３

)3.3㊀实验结果

在上述３个评价指标中，在保证较高正确率

的前提下，降低另外两类错误率．实验结果表明，在该模型下，系统检测准确率为８８．５５％，错误拒绝率为７．１６％，联合错误率为１４９４％,

与文献[１１Ｇ１３

]相比各个指标都取得了较好效果，不同模型实验结果如表１所列．同时本文的数据不需要手工标注和强制对齐数据，该模型可以检测声母㊁

韵母和声调偏误，检测范围更广．

表１㊀不同模型实验结果

声学模型F A R

F R R

D A R

GMM ＧHMM ４６．７５３９．６１５７．８９D N N ＧHMM

４４．８２４６．９８４７．５０D F C N N ＧC T C １６．９７．８３８７．０７C N N ＧG R U ＧC T C

１４．９４７．１６８８．５５为了分析具体的发音偏误情况，本文将发音偏误分为声母偏误㊁韵母偏误和声调偏误３种类型，并对其做了统计，对比情况如图３所示

．

图３㊀３类偏误占比对比

㊀㊀从图３可知,

藏族学生在学习普通话时声调的偏误最多，其次是韵母，声母相对比较容易掌握．虽然汉语和藏语都属于同一个语系，但是这两者的声调系统差异较大，在学习中需要加强．由于声调的偏误较多，本文在阴平㊁阳平㊁上

声㊁去声和轻声中分析了每种声调的偏误情况，结

果如图４所示

．

图４㊀５种声调发音偏误检测结果

㊀㊀从图４可知,

藏族学生在学习普通话时，对阴平㊁上声和去声的区分程度较差，在学习的过程中需要对这３种声调进行加强．阴平和轻声相对比较容易感知，学习起来比较容易．

实验中藏族学生对普通话的２１种声母感知

检测如图５所示．实验结果表明，藏族学生在普通话发音中，存在n 与l ㊁g 与k ㊁h 与f 分不清楚的情况，舌根前音z ㊁c ㊁s 和舌根后音z h ㊁c h ㊁s h 也容易被混淆，这些声母在学习中本就是难点，因此这几种情况需要特别加强练习

．

图５㊀２１种声母发音偏误检测结果

㊀㊀３８种韵母发音偏误统计结果如图６所示,

本实验重点研究前１０种偏误情况，这１０种韵母发音偏误的统计结果如图７所示．结果显示，错误频率最高的为 N g ，也就是日常的嗯字，该音容易被发音为 e n ．另外发音偏误主要集中在韵尾为 n g 的情况，也就是普通话中的后鼻音，多数情况下这种音节容易被发音为前鼻音，以上结果需要在学习时加强关注

．

图６㊀３８

种声母发音偏误检测结果

图７㊀１０种高频韵母发音偏误检测结果

０

５㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第３７卷

4㊀结论

本文设计并录制了藏族学生学习普通话的发音偏误语料库，建立了基于C N NＧG R UＧC T C模型的发音偏误检测系统．实验结果表明该方法可以有效提供发音偏误信息，为藏族学生学习普通话提供帮助．今后我们会选择更多来自不同方言区的人加入语料录制，继续完善语料库建设，将其它深度学习方法应用到发音偏误检测上提高检测精度．

参考文献:

[１]涂涛，李彭曦，少数民族地区双语教学新途径藏区双语多媒体字源识字汉字教学研究[J]．中国电化教育,２０１２(３):２２Ｇ２５．

[２]李娟．新媒体技术在藏汉双语教育实践中的应用研究以甘肃省甘南藏族自治州为例[J]．西北师范大学学报(社会科学版),２０１３,５０(２):１１３Ｇ１１８．[３]段海凤．藏语安多方言词重音对汉语普通话声调习得的影响[D]．北京：中央民族大学,２０１２．[４]屈乐园，解焱陆，张劲松．基于发音特征的发音偏误趋势检测研究[J]．北京大学学报(自然科学版),２０１７,５３(２):２３９Ｇ２４６．

[５]周世华．基于C N N的藏族学生国家通用语发音偏误检测研究[D]．兰州：西北师范大学,２０２１．[６]张劲松，高迎明，解焱陆．基于D N N的发音偏误趋势

检测[J]．清华大学学报(自然科学版),２０１６,５６(１１):１２２０Ｇ１２２５．

[７]甘振业，周世华，曾浩，等．基于D F C N NＧC T C端到端的藏族学生普通话发音偏误检测[J]．西北师范大学学报(自然科学版),２０２０,５６(５):４９Ｇ５３,１０８．[８]王海坤，潘嘉，刘聪．语音识别技术的研究进展与展望[J]．电信科学,２０１８,３４(２):１Ｇ１１．

[９]依皮提哈尔买买提，吾守尔斯拉木．面向新疆双语教学的远程教学系统的设计与实现[J]．中文信息学报,２０１０,２４(４):１２３Ｇ１２８．

[１０]张珑．汉语普通话发音质量自动评测方法研究[D]．哈尔滨：哈尔滨工业大学,２０１４．

[１１]杨龙飞，解焱陆，张劲松．基于卷积神经网络的发音偏误趋势检测[A]．第十四届全国人机语音通讯学

术会议(N C MM S C＇２０１７)．杭州：浙江工学院,２０１７:１０Ｇ１４．

[１２]HU W,Q I A N Y,S O O N GFK,e t a l．I m p r o v e dm i sＧp r o n u n c i a t i o n d e t e c t i o n

w i t h d e e p n e u r a ln e t w o r k t r a i n e da c o u s t i c m o d e l sa n dt r a n s f e r l e a r n i n g b a s e d l o g i s t i cr e g r e s s i o nc l a s s i f i e r s[J]．S p e e c h C o mm u n iＧc a t i o n,２０１５,６７:１５４Ｇ１６６．

[１３]W I T TS M,Y O U N GSJ．P h o n eＧl e v e l p r o n u n c i a t i o n s c o r i n g a n d a s s e s s m e n t f o r i n t e r a c t i v e l a n g u a g e l e a r n i n g[J]．S p e e c h C o mm u n i c a t i o n,２０００,３０(２):９５Ｇ１０８．

[责任编辑：李㊀岚]

(上接第４６页)

[５]J I N HJ,S U IS H,Z HU C X,e t a l．A x i a l f r e ev i b r aＧt i o no f r o t a t i n g F G p i e z o e l e c t r i cn a n oＧr o d sa c c o u n t i n g f o r n o n l o c a l a n ds t r a i n g r a d i e n t e f f e c t s[J]．J o u r n a l o f V i b r a t i o nE n g i n e e r i n g&T e c h n o l o g i e s,２０２２:１Ｇ１３．[６]胡统号，沈纪苹，姚林泉．弹性边界径向功能梯度压电环板面内振动[J]．振动与冲击,２０１８,３７(８):２２５Ｇ２３７．[７]刘旭，姚林泉．热环境中旋转功能梯度纳米环板的振动分析[J]．应用数学和力学,２０２０,４１(１１):１２２４Ｇ１２３６．

[８]韩振南，随岁寒，刘金建．局部支承功能梯度板的自由振动分析[J]．海南师范大学学报(自然科学版),２０２２,３５(２):１８６Ｇ１９３．

[９]S U I SH,Z HU CX,L IC,e t a l．F r e ev i b r a t i o no f a x iＧa l l y t r a v e l i n g m o d e r a t e l y t h i c kF G p l a t e s r e s t i n g o n eＧl a s t i c f o u n d a t i o n s[J]．J o u r n a lo fV i b r a t i o nE n g i n e e rＧ

i n g&T e c h n o l o g i e s,２０２２:１Ｇ１３．

[１０]K UMA R V,S I N G H SJ,S a r a nV H,e t a l．V i b r a t i o n c h a r a c t e r i s t i c so f p o r o u s F GM p l a t e w i t h v a r i a b l e t h i c k n e s s r e s t i n g o nP a s t e r n a k s f o u n d a t i o n[J]．E uＧr o p e a n J o u r n a l o fM e c h a n i c sＧA/S o l i d s,２０２１,８５:１０４Ｇ１２４．

[１１]李世荣．功能梯度材料明德林矩形微板的热弹性阻尼[J]．力学学报,２０２２,５４(６):１６０１Ｇ１６１２．[１２]S H E NJ P,WA N GPY,G A N W T,e t a l．S t a b i l i t y o f v i b r a t i n g f u n c t i o n a l l y g r a d e d n a n o p l a t e s w i t h a x i a l m o t i o nb a s e do nt h en o n l o c a l s t r a i n g r a d i e n t t h e o r y [J]．I n t e r n a t i o n a l J o u r n a l o fS t r u c t u r a lS t a b i l i t y a n d

D y n a m i c s,２０２０,２０(８):２０５Ｇ２１８．

[责任编辑：李㊀岚]

１５

第５期梁青青等：基于C N NＧG R UＧC T C的藏族学生普通话发音偏误检测

基于CNNGGRUGCTC的藏族学生普通话发音偏误检测

发布评论取消回复

最近发表

热门文章

标签列表