语⾳信号的采集
语⾳信号的采集
⼀般的语⾳来源主要是三种,业内开放的通⽤训练集数据、特定⽤户录制的数据,采⽤TTS技术合成的数据。
部分公司会将⽤户的指令数据进⾏收集,从⽽丰富通⽤训练集,提取⾼频数据集,Bad Case数据集,专项数据集(⽅⾔、中英⽂混合),特殊场景数据集(导航、电话、⾳乐等其他应⽤冲突的场景)等等。
在录制和采集语⾳数据时,业内⼀般有如下⼏个指标,这些指标也都和语⾳识别的原理及架构有关。
一分钱简谱采样
同时也叫采样频率,指每秒钟取得声⾳样本的次数。采样率越⾼,数据越精确。常⽤的采样率是8k(8000),16k,44.1k,48k。
8k是电话所⽤的采样率。⼈说话的声⾳频率,基本在这个采样率之内。
a werewolf boy48k采样率是CD,DVD所采⽤的。超过这个频率⼈⽿是分辨不出来的了。
⼿机平台中,采样率⼤都数采样16k。
采样位数
指每个采样数据占的位数,采样精度取决于采样位数的⼤⼩。常⽤的位数是8位(bit),也就是⼀个字节。还有16位或者32位。三万英尺吉他谱
⼿机平台中⼀般为16位采样位数。
采样编码
腾讯只⽀持GBK?
声道数也叫通道数,即声⾳的通道的数⽬。常见的单声道和⽴体声(双声道),现在已经发展到了四声环绕(四声道)和5.1声道。声道和硬件设备有关。
单声道的声⾳只能使⽤⼀个扬声器发声,当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声⾳是从两个⾳箱中间传递到我们⽿朵⾥的,⽆法判断声源的具体位置。
双声道⽬前最常⽤途有两个,在卡拉OK中,区分奏乐和歌⼿的声⾳;在VCD中,⽤两个声道区分普通话配⾳和英语配⾳。
存储空间
声⾳的存储空间叫⽐特率,也叫码率,就是形容⼀秒中数据有多⼤。
计算公式为:采样率x采样位数x声道数,单位就是bit/秒,除于8,就是byte/s
存储格式
经过录⾳设备采集的声⾳,未经编码时叫PCM数据。
在pcm数据前⾯再加个⽂件头,就是WAV⽂件,这个⽂件头⾥说明了采样率,采样位数,声道数和⽂件⼤⼩等信息。⾳频播放器会先读取这个头再播放⾳频。周秀娜主演的电影
MP3是⼀种经过编码压缩过的⾳频。越来越远>吴莫愁我相信
⼿机平台中⼀分钟的原始⾳频⼤约1.92MB,4分钟的⼤约7.68MB,⽽MP3格式4分钟的歌曲只有4MB左右。因此⽤以语⾳识别的声⾳是不能压缩失真的,因为压缩会导致⼀些细节就会丢失。⼀般直接使⽤pcm数据或者WAV数据。
各个平台对⾳频⽂件的指标要求:
以BAT和讯飞为例:
参数百度AI开放平台腾讯讯飞阿⾥声道16k采样率符合16k或8K采样率
采样率16bit位数16bit采样位数
位数单声道单声道
PCM、WAV、AMR、 SILK
格式pcm(不压缩)
wav(不压缩,pcm编
码)
amr(压缩格式)