天才一秒记住【梧桐文学】地址:https://www.wtwx.net
实际的测量最终由在20世纪30年代开发的阴极射线示波器(cathoderayoscilloscope,CRO)实现。
CRO可以设置不同的时基,这样高频的声音就可以在屏幕上传播,而低频的声音则被压缩,于是就可以看到它们的波形,由此可以读出它们的波长并确定它们的频率。
今天,CRO在计算机上被广泛使用。
然而,二维图仍然只能显示声音的一些特征。
大多数声波的频谱和压力变化都很快,只有在一种叫作声谱图的三维示意图上才能正确地同时显示出来。
这种声谱图需要依靠计算机才能生成。
在声谱图中,屏幕上方的高度通常代表频率,亮度或颜色代表声压(或强度)。
在其他情况下,可以在屏幕上显示三维形状,结果通常类似山脉(见图11)。
图11 声谱图
解码声音
能够看到声音,意味着人们可以对很多与它相关的信息进行定性,也可以对显示结果进行粗略的测量,但是很多时候我们还需要声音的精确定量信息(例如为了消除噪声或改进乐器的设计)。
为此,我们需要进行数学分析,这是最广泛和最基本的分析方法之一,是基于约瑟夫·傅里叶(JosephFourier)在19世纪所做的工作而产生的。
傅里叶意识到任何周期函数(以稳定速率重复的函数)都可以通过将一系列正弦波(现在称为傅里叶级数)加在一起来构造,他还想出了一种方法来确定这个级数的元素(项)是什么。
从数学上讲,傅里叶级数是由一系列正弦和余弦组成的——考虑到余弦只是一个从最大值而不是从0开始的正弦波,所以我在这里只提到了正弦波。
如图12所示,三个正弦波就可以近似一个方波。
为了使后者的侧边更垂直,必须添加更高频率的音调。
方波听起来像咔嚓声,傅里叶分析表明,突然(声级快速增加)的咔嚓声会包含一些非常高频的成分。
图12 用正弦波求和来近似一个方波
傅里叶的原始工作只适用于周期波,但它进一步发展为一种被称为傅里叶变换的方法,可以用来处理非周期波。
快速傅里叶变换(fastFouriertransform,FFT)是一种计算信号正弦波分量的高效数学方法。
当加入这样的波时,人们就必须考虑它们的相位。
在一个波长内,声波的声压从零(与周围空气压力相等)上升到最大值,然后下降到最小值,然后又上升到零。
这类似旋转的轮子边缘某一点的垂直运动轨迹,因而相位可以用角度的方式来描述,即从0°开始上升到最高相位的90°,再落回水平位置180°,接着降至最低位置270°,最后回到360°(与0°是一样的)。
所有真实的声音都会随着时间的推移而改变,所以转换成正弦波的过程必须频繁地重复。
这种对声音的时变频率分析有许多应用。
例如,组成一个人声音的声波的某些参数对那个人来说是独一无二的,因此,这些参数可以作为“声学指纹”
(即声纹),并可以由机器进行自动语音识别。
相反,由于每个单词都有独特的发音(除了同音异义词,比如“sew”
和“so”
),无论由谁来说这个单词,理论上机器都可以自动识别出来。
虽然不同的人有发声差异,但某些特定的因素只是略有不同,或者是可以预测的。
这也是为什么(在一定条件下)不管说话者是谁,我们都能够识别一个单词的含意。
然而,自动语音识别离完美还有很长一段路要走,主要的问题在于判断一个单词的结尾和下一个单词的开始位置。
这个问题很难,试着听自己说“面包和黄油”
,你听到的可能是像“brembudder”
这样的词[7],没有任何的停顿。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!