02 声音的本质 The Nature of Sound（第8页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

实际的测量最终由在20世纪30年代开发的阴极射线示波器（cathoderayoscilloscope，CRO）实现。

CRO可以设置不同的时基，这样高频的声音就可以在屏幕上传播，而低频的声音则被压缩，于是就可以看到它们的波形，由此可以读出它们的波长并确定它们的频率。

今天，CRO在计算机上被广泛使用。

然而，二维图仍然只能显示声音的一些特征。

大多数声波的频谱和压力变化都很快，只有在一种叫作声谱图的三维示意图上才能正确地同时显示出来。

这种声谱图需要依靠计算机才能生成。

在声谱图中，屏幕上方的高度通常代表频率，亮度或颜色代表声压（或强度）。

在其他情况下，可以在屏幕上显示三维形状，结果通常类似山脉（见图11）。

图11　声谱图

解码声音

能够看到声音，意味着人们可以对很多与它相关的信息进行定性，也可以对显示结果进行粗略的测量，但是很多时候我们还需要声音的精确定量信息（例如为了消除噪声或改进乐器的设计）。

为此，我们需要进行数学分析，这是最广泛和最基本的分析方法之一，是基于约瑟夫·傅里叶（JosephFourier）在19世纪所做的工作而产生的。

傅里叶意识到任何周期函数（以稳定速率重复的函数）都可以通过将一系列正弦波（现在称为傅里叶级数）加在一起来构造，他还想出了一种方法来确定这个级数的元素（项）是什么。

从数学上讲，傅里叶级数是由一系列正弦和余弦组成的——考虑到余弦只是一个从最大值而不是从0开始的正弦波，所以我在这里只提到了正弦波。

如图12所示，三个正弦波就可以近似一个方波。

为了使后者的侧边更垂直，必须添加更高频率的音调。

方波听起来像咔嚓声，傅里叶分析表明，突然（声级快速增加）的咔嚓声会包含一些非常高频的成分。

图12　用正弦波求和来近似一个方波

傅里叶的原始工作只适用于周期波，但它进一步发展为一种被称为傅里叶变换的方法，可以用来处理非周期波。

快速傅里叶变换（fastFouriertransform，FFT）是一种计算信号正弦波分量的高效数学方法。

当加入这样的波时，人们就必须考虑它们的相位。

在一个波长内，声波的声压从零（与周围空气压力相等）上升到最大值，然后下降到最小值，然后又上升到零。

这类似旋转的轮子边缘某一点的垂直运动轨迹，因而相位可以用角度的方式来描述，即从0°开始上升到最高相位的90°，再落回水平位置180°，接着降至最低位置270°，最后回到360°（与0°是一样的）。

所有真实的声音都会随着时间的推移而改变，所以转换成正弦波的过程必须频繁地重复。

这种对声音的时变频率分析有许多应用。

例如，组成一个人声音的声波的某些参数对那个人来说是独一无二的，因此，这些参数可以作为“声学指纹”

（即声纹），并可以由机器进行自动语音识别。

相反，由于每个单词都有独特的发音（除了同音异义词，比如“sew”

和“so”

），无论由谁来说这个单词，理论上机器都可以自动识别出来。

虽然不同的人有发声差异，但某些特定的因素只是略有不同，或者是可以预测的。

这也是为什么（在一定条件下）不管说话者是谁，我们都能够识别一个单词的含意。

然而，自动语音识别离完美还有很长一段路要走，主要的问题在于判断一个单词的结尾和下一个单词的开始位置。

这个问题很难，试着听自己说“面包和黄油”

，你听到的可能是像“brembudder”

这样的词[7]，没有任何的停顿。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！