声⾳的表⽰(3):44100Hz采样率是怎么来的?
vx 搜索『gjzkeyframe』 关注『关键帧Keyframe』来及时获得最新的⾳视频技术⽂章。
『声⾳』是我们司空见惯再熟悉不过的⼀种物理现象。我们唱歌发出声⾳,⽤⽿朵听到声⾳,⽤⼿机记录并分享声⾳;如果作为⾳视频开发⼈员,我们还会在⼯作中处理众多声⾳数据。但是,你真的了解『声⾳』吗?
从我们⽿朵听见的『声⾳』,到我们⽤⼿机、电脑所处理的『⾳频数据』,其中经历了什么?从这在前⾯的⽂章⾥,我们提出了⼀个问题:从我们⽿朵听见的『声⾳』,到我们⽤⼿机、电脑所处理的『⾳频数据』,其中经历了什么?
个问题出发,我们在《声⾳的表⽰(1)》和《声⾳的表⽰(2)》两篇⽂章中探讨了『声⾳的定义是什么』、『声⾳有哪些特征』、『怎样对声⾳进⾏数学描述』这⼏个问题?接下来我们继续探讨另外两个问题:『怎样对声⾳进⾏数字化』和『数字⾳频数据是什么』。
4、怎样对声⾳进⾏数字化?
对声⾳进⾏数字化,⾸先要使⽤特定的设备对声⾳进⾏采集,⽐如麦克风就是常见的声⾳采集设备。麦克风⾥⾯有⼀层碳膜,⾮常薄⽽且⼗分敏感。声⾳是⼀种纵波,会压缩空⽓也会压缩这层碳膜,碳膜在
受到挤压时也会发出振动,在碳膜的下⽅就是⼀个电极,碳膜在振动的时候会接触电极,接触时间的长短和频率与声波的振动幅度和频率有关,这样就完成了声⾳信号到电信号的转换。之后再经过放⼤电路处理,就可以实施后⾯的采样、量化处理了。
上⾯探讨了声⾳三要素的数学描述,这是声⾳数字化的基础。
采样,其采样率需要满⾜可以表⽰的声声⾳由波形组成,包含了不同频率、振幅的波的叠加。为了在数字媒体内表⽰这些波形,需要对波形进⾏采样
位深,以表⽰声⾳样本中波形的适当振幅。
⾳的最⾼频率;同时还需要存储⾜够的位深
保真度。最简单的
动态范围,这些术语通常统称为声⾳设备的保真度
声⾳处理设备重建频率的能⼒称为其频率响应
频率响应,创造适当响度和柔度的能⼒称为其动态范围
编码⽅式可以利⽤这两个基本元素重建声⾳,同时还能够⾼效地存储和传输数据。
声⾳的数字化过程是将模拟信号(连续时间信号)转化为数字信号(离散时间信号)的过程,包括 3 个步骤:
- 采样:以⼀定采样率在时域内获取离散信号。
- 采样
- 量化:每个采样点幅度的数字化表⽰。
- 量化
- 编码
- 编码:以⼀定格式存储数据。
其过程如下图所⽰:
经过数字化处理后的数字⾳频包含如下三要素:
- 采样率
- 量化位深
- 声道
1)采样率
奈奎斯特采样定理:如果⼀个信号是带限的(即它的傅⽴叶变换在某⼀有限频带范围以外均为零),并且它的样本取对模拟信号的采样⼀般遵循奈奎斯特采样定理
得⾜够密(相对于信号中的最⾼频率⽽⾔),那么这些样本值就能唯⼀地⽤来表征这⼀信号,并且能从这些样本中把信号完全恢复出来。为了不失真地恢复模拟信号,采样频率应该不⼩于模拟信号频谱中最⾼频率的 2 倍。⼀般实际应⽤中保证采样频率为信号最⾼频率的 2.56~4 倍。
数字信号由模拟信号采样⽽来,如果满⾜采样定理,数字信号就可以完全恢复原始的模拟信号。
从发声的⾓度来看,⼈类发出的声⾳信号频率绝⼤部分在 5k Hz 以内,因此以 10k Hz 的频率来采样就⾜够了。
从听声的⾓度来看,⼈类听觉范围是 20~20k Hz 内的⾳频,那么数字⾳频的采样率需要在 40k Hz 以上。
CD ⾳频使⽤ 44100 Hz 的采样率,部分原因也在于此,⾄于为什么具体是 44100 这个数字,这个是
历史原因:最早的数字录⾳由⼀台录像机加上⼀部 PCM 编码器制作的,由于当时使⽤的是 PAL 录像制式(帕制,与之对应的有 NTSC),场频 50 Hz,可⽤扫描线数 294 条,⼀条视频扫描线的磁迹中记录 3 个⾳频数据块,把它们相乘,就得到了 44100 这个奇葩数字。
⽣活中常见的采样率:
8,000 Hz:电话所⽤采样率,对于⼈的说话已经⾜够;
11,025 Hz:AM 调幅⼴播所⽤采样率;
22,050 Hz 和 24,000 Hz:FM调频⼴播所⽤采样率;
32,000 Hz:miniDV 数码视频 camcorder、DAT(LP mode)所⽤采样率;
44,100 Hz:⾳频 CD,也常⽤于 MPEG-1 ⾳频(VCD/SVCD/MP3)所⽤采样率;
47,250 Hz:商⽤ PCM 录⾳机所⽤采样率;
大山百合香
48,000 Hz:miniDV、数字电视、DVD、DAT、电影和专业⾳频所⽤的数字声⾳所⽤采样率;
50,000 Hz:商⽤数字录⾳机所⽤采样率;忘了所有>今生最爱 王程明
蒲剧送女后窗下载96,000 或者 192,000 Hz:DVD-Audio、⼀些 LPCM DVD ⾳轨、BD-ROM(蓝光盘)⾳轨、和 HD-DVD(⾼清晰度 DVD)⾳轨所⽤所⽤采样率;
2.8224 MHz:Direct Stream Digital 的 1 位 sigma-delta modulation 过程所⽤采样率。
2)量化位深
动态范围。⽐如,8 bit 位深可以拥有 48 分贝的动态范摸着你的腰真的好想要是什么歌
量化位深是对模拟⾳频信号的幅度轴进⾏数字化,它决定了模拟信号数字化以后的动态范围
围,16 bit 位深可以拥有 96 分贝的动态范围,24 bit 位深可以拥有 144 分贝的动态范围,32 bit 位深可以拥有 192 分贝的动态范围。这⾥位深和动态范围的数值对应关系的计算公式可以从上⽂声压级的计算公式推导⽽来。位深体现的是能表⽰的值的范围,⽐如 16 bit 能表⽰的最⼤值是 216 - 1 = 65535,那么取其最⼤值就能计算它能表⽰的最⼤声压级:最⼤声压级 = 20 × lg(65535) = 96.33。所以 16 bit 的位深可以最⼤表⽰ 96 分贝。
所以这个公式是:
动态范围位深
⼈⽿有⼤约 140 分贝的动态听⼒范围,类似⼀根针掉到地上和喷⽓发动机噪⾳的区别。当声压级达 120 分贝时,⼈⽿将感到痛楚,⽆法忍受,因此,⼈能接受的动态范围为 0~120 分贝。在⾳乐厅中听乐队演奏⼤型交响⾳乐,最响的⾳乐⽚段可达 115 分贝,最弱的⾳乐⽚段约为 25 分贝,因⽽动态范围可达 90 分贝。当然,这是很少有的情况。通常交响⾳乐的动态范围约为 50~80 分贝,中、⼩型⾳乐的动态范围约在 40 分贝左右,语⾔的动态范围约在 30 分贝左右。
CD ⾳乐⾳频使⽤ 16 bit 的位深,DVD ⾳频使⽤ 24 bit 的位深,⽽⼤多数电话设备使⽤ 8 bit 的位深。
为了避免运算中声⾳信号精度的丢失,⽬前业界⾼端⾳频处理系统⾥都是⽤ 32 bit float 采样来进⾏运算的,⽽输出的时候转化为 16 bit。
3)声道
声道是指声⾳在录制或播放时在不同空间位置采集或回放的相互独⽴的⾳频信号,所以声道数也就是声⾳录制时的⾳源数量或回放时相应的扬声器数量。
单声道(Mono):是以单个声道来重现声⾳。它只⽤了⼀个麦克风,⼀个扬声器或是⽿机、并联扬声器,并从同样的信号路径送⼊信号,在并联扬声器中,虽有多个扬声器,但每个扬声器送⼊的仍是同⼀信号。
⽴体声(Stereo):是使⽤两个或多个独⽴的⾳效通道,在⼀对以对称⽅式配置的扬声器上出现。以此⽅法所发出的声⾳,在不同⽅向仍可保持⾃然与悦⽿。
5.1 声道:包含⼀个正⾯声道、左前⽅声道、右前⽅声道、左环绕声道、右环绕声道,以及⼀个⽤来重放 120 Hz 以下超低频的声道。最早应⽤于早期的电影院,如杜⽐ AC-3。
7.1 声道:在 5.1 声道的基础上,把左右的环绕声道拆分为左右环绕声道以及左右后置声道。主要应⽤于蓝光以及现代的电影院。
5、数字⾳频数据是什么?
数字⾳频数据,其中最常见的格式是 PCM(Pulse Code
PCM(Pulse Code
我们在⼿机、电脑上处理的声⾳数据,就是声⾳经过数字化后的数据,也就是数字⾳频数据
Modulation),即脉冲编码调制格式。得到 PCM 数据的主要过程是将话⾳等模拟信号每隔⼀定时间进⾏取样,使其离散化,同时将抽样值按Modulation)
分层单位四舍五⼊取整量化,同时将抽样值按⼀组⼆进制码来表⽰抽样脉冲的幅值。也就是我们在上⽂中讲到的采样、量化、编码过程。
在计算机应⽤中,PCM 是能达到⾳频最⾼保真⽔平的格式,它被⼴泛⽤于素材保存及⾳乐欣赏,PCM 也因此被称为⽆损编码格式。但这并不意味着 PCM 就能够确保信号绝对保真,它只能做到最⼤程度的⽆限接近原始声⾳。要计算⼀个 PCM ⾳频流的码率需要数字⾳频的三要素信息即
可:码率 = 采样率 × 量化位深 × 声道数。
在处理 PCM 数据时,对于⾳频不同声道的数据,有两种不同的存储格式:
交错格式:不同声道的数据交错排列。
平坦格式:相同声道的数据聚集排列。
下⾯是⼀个⽰例:
此外,在处理 PCM 数据时,还需要注意⼤⼩端字节序类型。
由于 PCM 编码是⽆损编码,且⼴泛应⽤,所以我们通常可以认为⾳频的裸数据格式就是 PCM 的。但为了节省存储空间以及传输成本,通常我
⾳频编码,⽐如 MP3、AAC、OPUS 都是我们常见的⾳频编码格式。更多关于⾳频编码的内容,我们会对⾳频 PCM 数据进⾏压缩,这也就是⾳频编码
们将在后⾯专题介绍。
本⽂参考