2 基音周期估计
基音频率(与基音周期互为倒数)即发浊音时声带振动的频率。人在发音过程中,由于声门瞬时闭合,声道被强烈激励,表现在语音波形上就是此瞬间幅度剧增,产生突变。相邻两个声门闭合之间的时间长度的倒数就是基音频率。因此,只要能检测到声门闭合产生的语音突变就可以求出基频。由于人的声道的易变性及声道特征的因人而异,基音周期的范围很宽,且同一个人在不同情态下发音的基音周期也不同。加之,基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情,主要反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以从语音信号中直接提取仅和声带振动的激励信号的信息并不容易。③语音信号本身是准周期性的,而且其波形的峰值点或过零点受共振峰的结构、噪声等影响。④基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频程,给基音检测带来了一定的困难。
尽管基音检测有许多困难,但因为它的重要性,基音的检测一直是一个语音声学的重要研究课题。至今,已经提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA),平均幅度差函数(AMDF)法、倒谱法,小波法等等。
由于人自身的发音器官的运动,语音信号是一种典型的非平稳信号。但是相比于声波振动的速度,发音器官的运动就显得非常缓慢了。因此通常认为10ms~30ms这样长度的时间段中,语音信号是平稳信号。短时分析的最基本手段是对语音加窗,即用一个有限长度的窗序列 截取一段信号来分析,设原始信号为 ,加窗运算定义为:
(2-1)
常见的窗函数有:
方窗(Rectangular Window)
哈明窗(Hamming Window)
哈宁窗(Hanning Window)
以下就几个主要的基音提取方法作一简介。
2.1 基于短时自相关函数的基音周期估计
设 是一段加窗语音信号,它的非零区间为n=0~(N-1)。 的自相关函数称为语音信号 的短时自相关函数,用 表示,它的计算公式是:
如果 是一个浊音信号,那么它的短时自相关函数也呈现出明显的周期性,而且 的周期即等于 的周期。相反,清音语音接近于随机噪声,它的短时自相关函数不具有周期性,且随 的增大而迅速减小。因此可以利用这个特点来判断一个语音是浊音还是清音,还可以藉此决定一个浊音的基音周期(或基音频率)。
2.2 基于短时平均幅度差函数(AMDF)的基音周期估计
短时自相关函数是语音信号时域分析的重要参量,但计算自相关函数运算量很大,其原因是乘法运算所需的时间较长.为此常常采用另一种与自相关函数有类似作用的短时平均幅度差函数(AMDF)
定义短时平均幅度差函数:
显然,如果 在窗口取值范围内具有周期性,则 在 时将出现极小值。
3 MPDM
前面已经提到过,在实际生活中更多的是两个人甚至多个人同时在说话,那么此时得到的语音信号就是一个多人的混合信号,所谓基音的提取也就是提取不同人发音的多个基因或声调曲线。显然,多基音的提取更加具有实际应用价值。本文主要针对双基音的提取。下面就两人的混合语音信号的基频检测进行详细的讨论。