从自然语言的语音中,根据具体语言的语法规则和韵律特点,选择出尽量少的语音元素,并对这些语音进行编码、压缩,最后存储到语库中。[ ]。合成语音的时候,从语库中选出合适的语素,将这些语素进行规则拼接,滤波后输出的就是所要合成的声音 [ ]。根据对所需合成语音进行语法分析、韵律分析和文本分析后,从精心设计的语素集合中挑选出最符合的声音元素,这样合成的语音的品质便可以得到多数人的认可。为了方便以后根据韵律挑选语素,在截取声音元素过程中保留了元素中的重要韵律标识。显然这种方法合成的语音的品质和语素集合的大小是正相关的,因此它的局限性就在于对储存空间的要求比较高。1980年以后出现的基音同步叠加技术(PSOLA[ ])通过算法寻找到一个恰当的区域,调节声音波形的基频和声音的长度后,再进行叠加,这样获得的语音的质量就能够得到保证,因此这种技术成为近些年来比较常用的合成技术[ ]。根据算法实现方法的不同PSOLA算法又可分为:时域基音同步叠加TD-PSOLA[ ]、线性估测基音同步叠加LP-PSOLA和频域基音同步叠加FD-PSOLA[ ]。由于参数合成的语音芯片实际使用效果并不能满足人们的要求。波形拼接技术的语音芯片通过不断改进压缩率,得到了更高的音质。同时,市面上广泛应用的语音芯片均是采用基于语库的波形拼接技术。因此,本设计选用的芯片为波形拼接语音合成芯片。
2.4 文本分析技术
文本分析的作用是对输入的文本信息进行分析理解,为后面的语音合成提供如声音、停顿等所需信息。文本分析主要根据词汇支持库、特征词词库和句法分析等进行词汇的切分和焦点的分析。使得合成的语音更富有自然声音中的感情[ ]。来!自~751论-文|网www.751com.cn
2.5 韵律研究方法
韵律的设计主要是根据前端文本分析的信息,确定语音中的重复的读音、时间长度、声调和间歇等几方面的特征。韵律设计的主要内容在于对基元的韵律预测,并根据预测的信息对其发音进行修改。韵律估测的内容包含:音节基带频率的估测(声调模型),音节时长的预测(时长模型),重音的预测和停顿等[ ]。对韵律模型的研究方法分为:基于规则的方法和基于数据驱动的方法 [ ]。
2.6 本章小结
本章首先介绍了语音合成的三种方法,并详细介绍了本系统选用语音合成芯片采用的波形拼接技术。然后,简单介绍了文本分析技术。最后,对影响语音合成自然度的韵律设计进行了介绍。