3.2.2 EEMD算法的具体步骤 13
4. matlab仿真以及结果简述 14
4.1 仿真过程简述 14
4.2 仿真图形结果展示 14
第一组:汉字“五”的语音基频检测结果 14
第二组:汉字“稳”的语音基频检测结果 18
第三组:汉字“冤”的语音基频检测结果 21
4.3 仿真图形结果分析 25
结 论 26
致 谢 27
参 考 文 献 28
附录1 EEMD的MATLAB程序代码 29
附录2 IMF瞬时频率计算的的MATLAB程序代码 31
1. 绪论
1.1 研究背景
语音分辨的一个主要特征是激励的类型,根据激励类型的不同可以将语音信号分为浊音信号和清音信号两大类。基音是指发浊音时声带振动所引起的周期性,而基音频率是指声带振动周期的倒数。浊音的激励在数学模型上是周期性的脉冲串,基音频率就是该脉冲串的频率,简称基频,用F0表示。由于发声器官在生理方面的差异,男女性的基音频率范围是不一样的。一般地,男性的基频范围为50~250Hz,女性的基频范围则是120~500Hz,婴幼儿的基频范围大约是250~800Hz,而新生儿的哭声基频范围则更高。一个人的音调往往取决于其基音频率,当然凡事总有例外,比如超出了音调所存在范围的声音。相反地,一个非周期性的声音信号同样能够产生一种音调,不过在一个宽泛的范围里,音调和基音周期是存在一一对应的关系的。当代音调观念模型则假定音调产生于时域上的周期性,或者频域上的谐波模型,二者都能产生基音频率或其倒数基音周期。
基音频率是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音频率信息在多个领域有着广泛的应用,如:语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。
在实际应用中,我们则以一种更为接近其目的的方式来对F0下一个不同的定义。对于浊音,F0通常定义为在发声时声带张合的次数,由于声道变动使得周期性的声门振动声音并没有产生一个完全周期性的信号。然而,即便是声门振动其自身也同样在许多方面体现了其非周期性,比如振幅变化,比如在间隔处产生几个声音振动的混叠,再或者声门脉冲并没有按照一定的时间和幅度的特性而产生。而诸多不利因素则导致了找到一个有效可行的F0估计法的困难。尽管已经有了很多种方法,F0的估计仍然是一个值得探讨并投入更多努力与心思的课题。
在F0可以被可靠有效的估计的假设下,F0能够在很多应用中发挥作用。语音的F0在韵律的识别和有声调性的语言里能够有助于分辨词汇的种类。将F0应用于语音识别系统里的努力却只能收到比较缓慢的进展,而很大一部分原因就在于算法的可靠性上。一些音乐性的系统同样会用到F0估计,比如录音自动评分系统或者实时交互系统等,但是同样地,没有一个完善而可靠的算法同样是一个阻碍。F0对于一系列信号处理方法都是一个很有用的要素,比如F0谱线估计。所以,尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题。为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。论文网