语音信号的采集

语⾳信号的采集

⼀般的语⾳来源主要是三种，业内开放的通⽤训练集数据、特定⽤户录制的数据，采⽤TTS技术合成的数据。

部分公司会将⽤户的指令数据进⾏收集，从⽽丰富通⽤训练集，提取⾼频数据集，Bad Case数据集，专项数据集（⽅⾔、中英⽂混合），特殊场景数据集（导航、电话、⾳乐等其他应⽤冲突的场景）等等。

在录制和采集语⾳数据时，业内⼀般有如下⼏个指标，这些指标也都和语⾳识别的原理及架构有关。

一分钱简谱采样率

同时也叫采样频率，指每秒钟取得声⾳样本的次数。采样率越⾼，数据越精确。常⽤的采样率是8k(8000），16k，44.1k，48k。

8k是电话所⽤的采样率。⼈说话的声⾳频率，基本在这个采样率之内。

a werewolf boy48k采样率是CD，DVD所采⽤的。超过这个频率⼈⽿是分辨不出来的了。

⼿机平台中，采样率⼤都数采样16k。

指每个采样数据占的位数，采样精度取决于采样位数的⼤⼩。常⽤的位数是8位（bit），也就是⼀个字节。还有16位或者32位。三万英尺吉他谱

⼿机平台中⼀般为16位采样位数。

采样编码

腾讯只⽀持GBK？

声道数也叫通道数，即声⾳的通道的数⽬。常见的单声道和⽴体声（双声道），现在已经发展到了四声环绕（四声道）和5.1声道。声道和硬件设备有关。

单声道的声⾳只能使⽤⼀个扬声器发声，当通过两个扬声器回放单声道信息的时候，我们可以明显感觉到声⾳是从两个⾳箱中间传递到我们⽿朵⾥的，⽆法判断声源的具体位置。

双声道⽬前最常⽤途有两个，在卡拉OK中，区分奏乐和歌⼿的声⾳；在VCD中，⽤两个声道区分普通话配⾳和英语配⾳。

存储空间

声⾳的存储空间叫⽐特率，也叫码率，就是形容⼀秒中数据有多⼤。

计算公式为：采样率x采样位数x声道数，单位就是bit/秒，除于8，就是byte/s

存储格式

经过录⾳设备采集的声⾳，未经编码时叫PCM数据。

在pcm数据前⾯再加个⽂件头，就是WAV⽂件，这个⽂件头⾥说明了采样率，采样位数，声道数和⽂件⼤⼩等信息。⾳频播放器会先读取这个头再播放⾳频。周秀娜主演的电影

MP3是⼀种经过编码压缩过的⾳频。越来越远>吴莫愁我相信

⼿机平台中⼀分钟的原始⾳频⼤约1.92MB，4分钟的⼤约7.68MB，⽽MP3格式4分钟的歌曲只有4MB左右。因此⽤以语⾳识别的声⾳是不能压缩失真的，因为压缩会导致⼀些细节就会丢失。⼀般直接使⽤pcm数据或者WAV数据。

各个平台对⾳频⽂件的指标要求：

以BAT和讯飞为例：

参数百度AI开放平台腾讯讯飞阿⾥声道16k采样率符合16k或8K采样率

采样率16bit位数16bit采样位数

位数单声道单声道

PCM、WAV、AMR、 SILK

格式pcm（不压缩）

wav（不压缩，pcm编

码）

amr（压缩格式）